Académique Documents
Professionnel Documents
Culture Documents
Gobernador del Estado de Veracruz Secretario de Educacin de Veracruz Subsecretario de Desarrollo Educativo y Cultural
LAE
Coordinadora de Bibliotecas y Centros de Informacin Documental Coordinador para la Difusin y Optimizacin de los Servicios Educativos
Garca Blanca E. Hernndez Garca Encargada del Departamento Sergio Sergio Nochebuena Bautista Enlace Administrativo Elizabeth Polanco Galindo Responsable de Colecciones Mara Elena Fisher y Salazar Gema Luz Morales Contreras Mara de Lourdes Hernndez Quiones Raquel Medina Silva Apoyos Tcnicos Var argas Jos Armando Preciado Vargas Luis Alberto Rodrguez Corts Correccin Milena Gmez Castro Diseo de Portada Nubia A. Castaeda Moctezuma Velasco Reyna Velasco Lpez Formacin Sara del Carmen Sols Arroyo Captura
Primera edicin: 2006 D.R. Mario Miguel Ojeda-Roberto Behar D.R. 2006 Secretara de Educacin de Veracruz km 4.5 carretera federal Xalapa-Veracruz C.P. 91190 Xalapa, Veracruz, Mxico
ISBN:
Estadstica, Productividad y Calidad es un texto editado por la Secretara de Educacin de Veracruz del Gobierno del Estado de Veracruz de Ignacio de la Llave. Toda correspondencia dirigirla al Departamento de Apoyo Editorial de la Coordinacin de Bibliotecas y Centros de Informacin Documental de la SEV, Av. Araucarias nm. 5, Edificio Orense II , tercer piso, Col. Esther Badillo, C.P. 91190. Tels. 01 (228) 813-98-61 y 813-99-44 (fax). Correos electrnicos: apoyoeditorialsec@secver.gob.mx y daesec05@yahoo.com.mx El contenido es responsabilidad de los autores. Se autoriza la reproduccin parcial o total del contenido, siempre y cuando se cite la fuente.
CONTENIDO
Colectivos estadsticos Estudios enumerativos y estudios analticos Muestreo de procesos Escalas de medicin Variabilidad y estadstica
2.1 Validez de un estudio 2.2 La validez en investigaciones que usan mtodos estadsticos 2.3 Aspectos generales de la metodologa estadstica
Tringulo de la calidad La espiral de la calidad Control evolutivo Contribuciones de Deming Observaciones finales
Introduccin
Preliminar
7 13
19 21 22 23 28
31 32 40
53 54 56 57 59
5. Grficos de control
6. Introduccin al muestreo
Referencias
Anexo
6.1 Censos y muestras 6.2 Planeacin de una encuesta 6.3 Muestreo aleatorio simple 6.4 Muestreo aleatorio estratificado 6.5 Muestreo por conglomerados 6.6 Muestreo sistemtico 6.7 Otros esquemas aleatorios 6.8 Muestras no aleatorias 6.9 Tamao de la muestra 6.10 Diseo del cuestionario
La variabilidad y el control de un proceso Construccin de un grfico de control Grficos de control para variables Grficos de control para atributos Comentarios sobre los grficos de control
4.1 Diagrama de flujo 4.2 Diagrama de causaefecto 4.3 La hoja de inspeccin o de registro 4.4 Grfico de barras 4.5 Diagrama de puntos 4.6 Diagrama de pareto 4.7 Diagrama de tallos y hojas 4.8 Estadsticas de orden 4.9 Histograma 4.10 Grfica de caja 4.11 Grfico de desarrollo 4.12 El correlograma o diagrama de dispersin 4.13 Diagrama de escalera 4.14 Estratificacin y anlisis estratificado 4.15 Estadsticas descriptivas
130 130 131 131 133 135 136 136 137 142 145 173
PRELIMINAR
Mario Miguel Ojeda, respetado amigo de hace muchos aos, me pidi escribir estas lneas como prlogo a la obra Estadstica, Productividad y Calidad. Como me ocurre con frecuencia, acept la tarea con ingenuidad, pensando que el tiempo para escribirlo era largo, lo que demuestra la sabidura de mi abuela; que siempre arga que no hay plazo que no sea perentorio, y habla muy mal de mi entrenamiento estadstico. Pero esa es otra historia, dira Rudyard Kipling. El caso es que el tiempo feneci y ahora estoy con la repetida angustia de enfrentar la primera pgina en blanco. A trabajar, pues. La lectura de la obra de Ojeda y su coautor, Roberto Behar me suscita diversas reflexiones sobre la evolucin de la paciencia justificadamente escasa de los hipotticos lectores. Aunque, como escribi Stephen M. Stigler en su magistral ensayo The History of Statistics. The Measurement of Uncertainty before 1900. (1986) "un curso moderno en anlisis de regresin est relacionado casi exclusivamente con el mtodo de mnimos cuadrados y sus variaciones", es sorprendente que el mtodo date de 1805 (dejando de lado la controversia entre Legendre y Gauss), pero que haya sido muy poco usado en el siglo XIX en el anlisis cientfico de datos. Por supuesto, esto es ms fcil de entender analizando los tres trabajos publicados por Albert Einstein (1879-1955) en 1905, que entronizaron al azar muy a pesar de Einstein en el discurso cientfico del siglo veinte.
La metodologa estadstica actual tiene su origen en los trabajos de Francis Galton (1822-1911), Karl Pearson (1857-1936), Francis Ysidro Edgeworth (1845-1926) y George Udny Yule (1871-1951), aunque sin duda
7
fue Ronald Aylmer Fisher (1890-1962) quien la volvi moneda de uso corriente en la investigacin cientfica. Es difcil encontrar mtodos estadsticos actuales que no tengan ecos de Fisher, as hablemos de Box, Tukey o Taguchi, para mencionar a tres de los autores ms frecuentemente recordados por el contenido de esta obra. R. A. Fisher naci en un suburbio de Londres en 1890, en una familia de comerciantes, sin antecedentes intelectuales, lo que es una evidencia en contra de la hiptesis de Galton de que el genio es hereditario, como lo sostuvo en su libro Hereditary Genius (1869), en el cual busca demostrar, a travs de largas listas de personas famosas, que el genio se hereda. (El argumento subyacente en el alegato de Galton es que Charles Darwin y l eran primos hermanos. Su abuelo comn, Erasmus Darwin: [1731-1802], fue de los primeros en formular una teora de la evolucin). Pero basta de disgresiones. Fisher estudi matemticas en Cambridge a partir de 1909, y para 1911 haba dado muestras indubitables de su genio. Joan Fisher Box (ambos apellidos deberan inducir alguna sospecha) ha escrito una excelente biografa intelectual, R. A. Fisher, The Life of a Scientist, en la que se elucidan algunos de los muy complejos procesos mentales de su padre. La relacin de Fisher con el grupo de Galton y Pearson fue por decir lo menos accidentada, aunque en casi todos los casos la razn matemtica estuvo de su lado. De 1919 a 1935 Fisher gener el anlisis de varianza (basado en la teora mendeliana de la segregacin independiente de los caracteres), y estableci los principios de aleatorizacin y de anlisis para los diferentes diseos experimentales que desarroll mientras trabajaba en la estacin experimental de Rothamsted. En diecisis aos cre prcticamente todos los diseos experimentales que ahora conocemos. Aunque el libro de Ojeda y Behar no tratan estos temas, es menester sealar que dan una introduccin a la metodologa estadstica con orientaciones a las aplicaciones en temas de gestin de la calidad, y as mismo hablan de control evolutivo y diseos experimentales. Aunque es difcil exagerar la influencia de R. A. Fisher en la ciencia del siglo XX, lo intentar. Una pregunta: quin es el cientfico ms citado entre 1910 y 2000. Si nos atenemos a la numerologa, hoy tan en boga para juzgar el valor de los cientficos, gracias (gracias?) a Eugene Garfield y su Institute for Scientific Information, tendramos que responder que Fisher. Si contabilizramos el nmero de citas directas o indirectas de su trabajo, ste sera superior al de cualquier otro autor, porque cada vez que se habla de diseos experimentales, de pruebas de bondad de ajuste, de pruebas y niveles de significancia, de tipos sanguneos (y un muy extenso etctera) nos estamos refiriendo a Fisher. En Mxico, la prctica de la estadstica ha estado dominada mayormente por los principios fisherianos, casi siempre en la experimentacin
8
agrcola. Las razones son evidentes. Fisher desarroll casi todo su trabajo estadstico en Rothamsted, una estacin experimental dedicada originalmente a comparar fertilizantes de origen qumico. Sus estudiantes fundaron escuelas de mtodos estadsticos en Estados Unidos de Amrica (George W. Snedecor en Iowa; y Gertrude Cox y W. G. Cochran en North Carolina) y, en la India, P. V. Sukhatme y Mahalanobis. Aunque parezca increble, estamos hablando del primer tercio del siglo XX. Los primeros estadsticos mexicanos fueron ingenieros agrnomos como Emilio Alans Patio, quien fue becado por otro agrnomo Juan de Dios Bojrquez para estudiar con Corrado Ginni en Italia, en 1931. Desde all hasta 1959 hay un largo tramo, pues fue hasta ese ao que tuvimos a nuestro primer doctorado en la disciplina: Basilio Alfonso Rojas Martnez; el segundo fue Jos Nieto de Pascual. Ambos se graduaron en la Iowa State University. Basilio Rojas cre en Chapingo el primer programa de maestra en estadstica en Mxico, hace ms de cuarenta aos. En consecuencia, todava en 1975 prcticamente todos los estadsticos mexicanos eran profesionales de la agronoma, al igual que en EE. UU., donde las ms prestigiadas ctedras de estadstica se ubicaron inicialmente en los Land-Grant Colleges. Paulatinamente, los mtodos desarrollados por Fisher en el contexto de la experimentacin agrcola se extendieron a la industria y, aunque ms lentamente, a las ciencias sociales. Seguramente los pases en los que la industria adopt primero las tcnicas estadsticas fueron Estados Unidos de Amrica y Reino Unido, por su avanzado desarrollo cientfico e industrial. A ello habra que aadir que en la industria es muy sencillo instrumentar arreglos factoriales con dos o ms niveles, sin los problemas de heterogeneidad del material experimental que ocurren inevitablemente en la agricultura (y en la biologa en general) cuando se tiene un nmero grande de tratamientos. Este texto se ha alargado abusivamente, por lo que debo argumentar que esta verborrea era necesaria para fundamentar las razones por las que considero que la publicacin de este libro es una muy buena nueva para la profesin estadstica. El rezago del pas en materia de control de calidad es la suma de lo que expuse como razones derivadas del desarrollo histrico de la estadstica, ms la peculiar circunstancia mexicana, en la que una poltica de proteccin excesiva a la industria (la sustitucin de importaciones) favoreci una produccin industrial de baja calidad y alto costo (adems del contrabando, por supuesto). Actualmente, a doce aos de la firma del Tratado de Libre Comercio de Amrica del Norte, es imposible que cualquier industria nacional (incluyendo la agricultura de exportacin) subsista sin un control de calidad adecuado. Slo eso bastara para celebrar la aparicin de esta obra. Pero adems debo destacar la sencillez de la metodologa presentada, as como la buena factura del texto, ambas cualidades agradecibles. Desde hace muchos aos sostengo que las matemticas son necesarias para entender la estadstica, pero no pueden
9
suplantarla. Finalmente, y este dictum es tan parcial como otro cualquiera, la estadstica es slo el sentido comn cuantificado probabilsticamente. Actualmente cualquier computadora (y adems de bajo costo) puede analizar cantidades exorbitantes de datos e inducir a conclusiones errneas de magnitud similar. Pero como sola sentenciar un antiguo maestro en mi ya distante juventud: la estadstica no es un sustituto de la inteligencia. O, para decirlo con las palabras de August Dupin, el protodetective de Edgar Allan Poe: "Yet, to calculate is not in itself to analyze". Estoy seguro que la obra de Ojeda y Behar contribuir sustancialmente a la comprensin de la metodologa estadstica, en especial en el campo del control de calidad. Le deseo y pronostico una larga vida.
10
Este libro est dedicado a los profesores de Veracruz, en Mxico y del Valle del Cauca en Colombia. A aquellos que creen no saber mucho de estadstica, y a quienes les interesan genuinamente los temas de productividad y calidad.
Los autores
11
12
INTRODUCCIN
El siglo que recin inicia est marcado por un vertiginoso desarrollo en la ciencia y la tecnologa que inevitablemente alterar an ms la organizacin social y productiva. Existen evidencias de una constante de cambios en la forma de concebir y realizar las actividades en los diversos mbitos del quehacer humano, y esta constante se debe al uso intensivo del saber. Es comn llamar a este siglo el de la informacin y el conocimiento, de la tecnologa y las telecomunicaciones y, en gran medida, esto es gracias a la constante ya sealada, pero adems a la capacidad que nos brinda la tecnologa para procesar y comunicar grandes volmenes de datos. En este escenario resulta imprescindible comprender y asumir como norma de conducta que los datos por s mismos no son informacin, que la informacin no es en s conocimiento, y que el conocimiento para adquirir valor debe asociarse a la accin, debe normar y orientar la toma de decisiones. Aunque esta verdad evidente era conocida y predicada desde hace dcadas, hoy debe constituirse en el eje del pensamiento de cualquier ciudadano que aspire a compartir esta visin totalizadora y global. Lo que est atrs de este logro es el triunfo del pensamiento cientfico y racional sobre otras formas de concebir el mundo y su desarrollo. Podemos decir que la humanidad se mueve hacia el uso cada vez ms generalizado de una metodologa y una tecnologa para aplicar el conocimiento, para obtenerlo correctamente y para hacerlo til en el marco de tareas cientficas, tcnicas y de la vida cotidiana. En este contexto se unen ideas y mtodos que provienen de varias disciplinas: la gestin, la informtica y la estadstica, por mencionar las ms importantes. En este
13
sentido se habla hoy de la gestin del conocimiento y de sus estrategias, mtodos y herramientas. Por otro lado, no podemos negar que la productividad ha sido un afn de la humanidad desde la Revolucin Industrial, y que han aparecido tcnicas y metodologas para su anlisis y para buscar su incremento en cualquier mbito de la actividad humana. En este devenir, la ingeniera y la tecnologa han encontrado las razones de su desarrollo, y por este motivo hay disciplinas como la investigacin de operaciones y algunas reas de la matemtica aplicada, como la optimizacin, que ya tienen presencia significativa en muchas esferas cientficas y de profesiones. Continuando con esta espiral de desarrollo, en las dcadas de los ochenta y noventa del siglo XX, surgi y se desarroll vertiginosamente la llamada Revolucin de la Calidad; dicho movimiento puso a la calidad no como un fin sino como un medio imprescindible en el logro de los objetivos y las misiones organizacionales. A tal grado ha impactado esta forma de concebir los logros y desempeos que en la actualidad la evaluacin de la calidad y las metodologas para su diseo, anlisis y mejora ocupan un cuerpo de conocimientos fundamentales para ingenieros, tcnicos y cientficos, pero al mismo tiempo para trabajadores de todos los niveles, tanto de las esferas de la produccin como de la administracin y la educacin. A pesar de que la productividad y la calidad son dos conceptos que en s mismos se reconocen como importantes y forman parte de una cantidad inmensa de discursos, alocuciones y plticas diarias, son poco asumidos hasta sus ltimas consecuencias. Lo mismo pasa con el pensamiento cientfico; se ha detectado a travs de muchos estudios alrededor del mundo que grandes esfuerzos de capacitacin y educacin para el trabajo reiteran en estos temas, entonces por qu resulta difcil afiliarse a estos paradigmas y pensar y hacer las cosas en consecuencia? Quienes escribimos este libro somos estadsticos de profesin y no slo hemos trabajado como profesores en escuelas, sino que hemos fungido como asesores, consultores y tambin como instructores de capacitacin. Este tipo de tareas nos han permitido entender mucho acerca de las dificultades del aprendizaje de los conceptos clave de la estadstica. Y tenemos que decir, como punto de partida, que a la estadstica la concebimos como una metodologa y una tecnologa que permite buenas prcticas para obtener y aplicar el conocimiento. En este sentido, y por razones de la importancia y significacin de la calidad y la productividad, gran parte de nuestro trabajo ha estado orientado a organizaciones productivas como industrias y empresas, pero tambin hemos podido constatar la importancia de la estadstica, sus principios y mtodos en tareas del sector gubernamental como la educacin; de modo que queremos enfatizar la relevancia que tiene la promocin del pensamiento estadstico para profesores y estudiantes en los niveles medio superior y superior.
14
En este libro hemos ensamblado una serie de temticas que tienen como propsito dar sentido al pensamiento cientfico y conocer cmo se incorpora al diagnstico de situaciones, definicin de estrategias de mejora y evaluacin de impactos. Desde esta perspectiva, Estadstica, Productividad y Calidad presenta esencialmente temticas estadsticas en el mbito de las tareas de identificacin de problemas, diagnsticos organizacionales o de procesos y diseo e implantacin de estrategias de mejoramiento de la calidad y la productividad. Los ejemplos e ilustraciones se refieren a organizaciones productivas, de servicios y en el mbito de la educacin, con lo que se demuestra que los conceptos, principios y tcnicas son de aplicacin general. Por tal motivo, proponemos estos contenidos como fundamentales para la formacin de un pensamiento estadstico del ciudadano del nuevo mundo. Con la apertura de las economas, la multiplicacin de los tratados comerciales, los avances tecnolgicos y del conocimiento en disciplinas como administracin, ingeniera, psicologa e informtica se ha incrementado considerablemente la atencin al desarrollo de sistemas, modelos y nuevos enfoques para abordar las tareas de mejoramiento productivo y de la calidad. Ya no se habla solamente de esto asociado a los procesos industriales o de manufactura, sino que tambin se incluye a todo tipo de organizaciones, como las empresas de servicios, entre las que podemos mencionar aqullas de carcter pblico como gobiernos, hospitales y escuelas. Por otro lado, los conceptos, los conocimientos y las habilidades asociados a este desarrollo no solamente interesan a los mandos superiores o a los encargados de los niveles intermedios en las empresas u organizaciones, sino que se han convertido en una necesidad para los trabajadores administrativos y hasta para los operativos. En el sector educativo es muy importante que maestros y alumnos de la educacin media superior y superior conozcan y tengan ciertas competencias para identificar y aplicar este conocimiento en el mbito laboral y en las actividades de la vida diaria. En este panorama, las herramientas estadsticas han ganado una popularidad extraordinaria y cada da son ms aceptadas y valoradas por su potencial para apoyar de manera significativa los diagnsticos de procesos, en la identificacin de problemas y puntos crticos y, en trminos generales, en las tareas de mejoramiento continuo. Es una realidad el hecho de que el conocimiento adecuado de la metodologa estadstica es ya demandado en el mbito del desarrollo empresarial, y no slo en los procesos industriales y de manufactura donde la estadstica ha tenido bastante aplicacin y desarrollo. Hay que destacar que no son slo los conocimientos sobre herramientas especializadas los que son requeridos a nivel general, sino tambin aqullos sobre herramientas bsicas y mtodos cuyo valor prctico ha sido probado en pases con un desarrollo significa15
tivo en cuanto a la calidad y productividad, como Japn y Estados Unidos de Amrica. Cabe hacer notar que en Japn estos conocimientos se aprenden en el nivel medio y medio superior, y se aplican en todos los mbitos de las organizaciones productivas; adems, son conocidos y aplicados por el ciudadano comn, porque hoy ms que nunca la toma de decisiones en todos los espacios de la sociedad se debe realizar de manera racional, utilizando los conocimientos tcnicos y cientficos. La metodologa estadstica bsica para la realizacin de actividades que mejoran la eficiencia y la productividad dentro de una organizacin, es fundamental. Sin embargo, su aprendizaje y adecuado uso enfrentan una serie de mitos y dificultades; el ms conocido es que la estadstica es difcil y que su aprendizaje requiere arduas tareas de clculo. Nada es ms falso: en la actualidad la estadstica se puede aprender de manera sencilla, dada la disposicin del software estadstico y el acceso a los computadores, por tal motivo su uso no requiere mayores esfuerzos. En este sentido el nfasis ya no debe ponerse sobre los procedimientos de clculo o en la elaboracin de cuadros y grficos; todo eso puede ser hecho a travs del apoyo informtico, lo que realmente importa es el razonamiento estadstico apropiado para tener las habilidades que permitan identificar y plantear los problemas, as como disear estrategias para resolverlos de la manera ms eficiente buscando usar el menor tiempo y los menores recursos. Lo importante es entender cundo debe usarse un mtodo o una herramienta estadstica, cmo debe emplearse, y una vez que se han obtenido los resultados, la manera correcta de interpretarlos. Tal situacin implica una serie de conocimientos sobre la metodologa estadstica en general y el proceso de aplicacin de la misma. stos no son difciles de entender ni de poner en prctica, pero implican un cambio en la visin de esta disciplina. Los libros sobre metodologa estadstica son diversos en cuanto a su cobertura y profundidad en el tratamiento de los temas relacionados con los principios, procedimientos y las herramientas bsicas; sin embargo, son escasos aqullos con un enfoque actualizado y que pongan nfasis en las ideas clave para el buen uso de la metodologa estadstica. Esa es la razn principal por la que se decidi desarrollar Estadstica, Productividad y Calidad, que esencialmente incluye herramientas estadsticas enfocadas a las tareas de mejoramiento de la calidad y la productividad, y responde a las necesidades identificadas en los distintos contextos organizacionales. Con esto pretendemos desterrar el mito de que el aprendizaje de la estadstica requiere arduas tareas de clculo; tambin buscamos un cambio de actitud hacia la estadstica en general, sustentando la necesidad de adquirir mayores conocimientos. El texto sostiene que las herramientas estadsticas son un elemento imprescindible en todos los programas de mejoramiento de la productividad y
16
de la eficiencia en las diversas tareas que se presentan en una organizacin, y como tales hay que conocerlas y dominarlas para saber cundo y cmo usarlas adecuadamente. La prdica que se repite es que los mtodos estadsticos no sustituyen a las buenas ideas, ni a los propsitos, ni al buen conocimiento de los procesos, ni a las actitudes positivas del personal hacia el mejoramiento, sino que son auxiliares valiosos para conocer mejor dichos procesos, para sustentar las acciones correctivas y, en general, para tomar decisiones con respaldo en informacin relevante, oportuna y confiable. Este texto est organizado de la manera siguiente: En el primer captulo se presenta una serie de aspectos relacionados con la importancia de la estadstica en el contexto del mejoramiento de la calidad, tratado desde una perspectiva sistmica. Adems, se revisan brevemente las contribuciones de Deming y se plantea un punto de vista sobre la relacin calidad-estadstica. Indudablemente este captulo es el marco conceptual que envuelve y da sentido a la aplicacin de los principios y las tcnicas estadsticas a lo largo del libro Estadstica, Productividad y Calidad. En el segundo captulo se trata una serie de temticas fundamentales para comprender el proceso de aplicacin de la estadstica; se introducen conceptos como validez interna y externa de estudios tcnicos o investigaciones estadsticas, y se discute el papel de la representatividad y la comparabilidad; asimismo, se hace una descripcin general del proceso de aplicacin de la metodologa estadstica en el contexto de una investigacin o un estudio tcnico. Esperamos que la lectura de este captulo propicie una visin general sobre para qu, cmo y cundo deben usarse los principios, los mtodos, las tcnicas y los procedimientos de la metodologa estadstica. Se destaca adems la importancia del diseo estadstico, aunque tambin se trata lo relativo al anlisis de los datos, sin dejar de lado la importancia de elaborar un buen informe o reporte, o la simple presentacin ejecutiva de los resultados. En el tercer captulo se presenta una serie de conceptos bsicos de la estadstica. La idea es dar orden e ilustrar cada uno de los aspectos que se consideran clave como antecedente para un mayor y mejor entendimiento de lo que se presentar en el siguiente captulo. Se pone nfasis en el entendimiento de la relacin de control y disminucin de la variabilidad, del concepto de muestreo de procesos y a la caracterizacin de estudios enumerativos y analticos. En el cuarto captulo se presentan las herramientas estadsticas que se clasifican como bsicas; algunas de ellas han sido ampliamente promocionadas en los talleres de capacitacin que se han puesto de moda en aos recientes y son muy conocidas, al grado que podramos calificarlas como de conocimiento popular. Entre stas podemos mencionar al diagrama de flujo, al diagrama de causa y efecto, al grfico de pareto, al diagrama de
17
dispersin, al histograma, la hoja de registro y el grfico de control (llamados a veces Los Siete Magnficos). Tambin son bastante conocidos los grficos de pastel, de barras y de desarrollo o de serie de tiempo. No es el caso del diagrama de tallos y hojas, las grficas de cajas y el diagrama de puntos, los cuales se constituyen en herramientas exploratorias de gran utilidad pero que an son poco conocidas fuera del gremio acadmico. El tratamiento que se da de las herramientas bsicas es de manera integrada y con nfasis en cmo funcionan, cundo se recomienda usarlas y cmo interpretarlas. En el anexo se incluye un ejemplo ilustrativo integral que muestra el uso combinado de las herramientas presentadas. En el captulo quinto se trata en forma especfica las herramientas ms usadas en el control estadstico de procesos, los llamados grficos o cartas de control. Su presentacin est precedida del anlisis de conceptos bsicos de control y de intervencin de procesos, lo que considera-mos constituye una aportacin para profesores y estudiantes en los niveles medio y medio superior. El captulo sexto se dedica a la temtica del diseo de muestras para la realizacin de encuestas a travs de cuestionarios; se describen los principales diseos probabilsticos, se incluye una discusin sobre el problema del tamao de muestra y se aborda su clculo en las situaciones ms elementales. Estamos seguros de que la estructura de este trabajo es interesante, y esperamos que su contenido motive a maestros y estudiantes a considerar una nueva visin de la estadstica, la cual es imprescindible para el ciudadano del siglo XXI. Finalmente, no podemos dejar de agradecer a quienes han contribuido de manera importante en la integracin y composicin de la versin final de este libro: a Rosa Elena Martnez, Guillermo Cruz, Vanessa Arroyo y Betsab Vzquez de la Universidad Veracruzana, y a Carlos Armando Alvear y Madeline Melchor de la Universidad del Valle, de Cali. Asimismo, reconocemos la contribucin de profesores y estudiantes que han usado versiones preliminares o partes del material que aqu se presenta y que han hecho observaciones y sugerencias para mejorar la redaccin y presentacin. De alguna manera Estadstica, Productividad y Calidad es una obra colectiva, aunque, por supuesto, los autores asumimos toda la responsabilidad. Xalapa, Veracruz, 2006. Los autores
18
La estadstica ha adquirido gran importancia en muchas esferas de la actividad productiva, tanto en la industria manufacturera y de servicios como en los negocios en general; este es un movimiento mundial que se conoce como La Revolucin de la Calidad, en el que conceptos como productividad, competitividad, excelencia y calidad total han tomado un lugar central en el armazn de modelos para el mejoramiento continuo. Aunque las ideas bsicas, los conceptos y los procedimientos tienen una historia de varias dcadas, los enfoques filosficos recientes les han dado frescura y los han hecho aparecer como novedoso, pero en general las herramientas y tcnicas que se usan no son nuevas, aunque algunas se han propuesto recientemente. Lo anterior ha permitido una revaloracin de la metodologa estadstica; le ha dado importancia capital al desarrollo de programas de capacitacin, aunque con frecuencia, y a pesar de la clara vinculacin estadstica-calidad, los principios y mtodos estadsticos se presentan de manera desvinculada. En este captulo se exponen ideas generales sobre la filosofa de la calidad, destacando el papel de la estadstica.
esto es, considera que la calidad es dinmica (calidad es cumplir con los requerimientos del cliente, todo el tiempo); considera que la calidad busca la optimizacin de costos (...al menor precio); y considera que para lograrla hay que comprometer a todas y a cada una de las partes que intervienen en el proceso (... involucrando a todos). En este enfoque hay tres aspectos que son complementarios para el logro del mejoramiento continuo y se presentan en el tringulo de la calidad (Grfico 1.1).
Objetivos-Propsitos
Filosofa
ESTADSTICA
Grfico 1.1 Tringulo de la calidad: aspectos fundamentales y necesarios para el mejoramiento continuo
La definicin clara de los objetivos, los propsitos y las metas para el funcionamiento del sistema (proceso, empresa, fbrica, etc.) es la cabeza del mejoramiento continuo. Por otro lado, querer hacer las cosas no es suficiente, hace falta saber cmo hacerlas, y esto lo permite el mtodo cientfico y el conocimiento de los principios, procedimientos y tcnicas para diagnosticar, intervenir y monitorear el proceso (la metodologa) y, finalmente, la consideracin del factor humano es fundamental para el logro de un objetivo en el sistema: todos deben saber y estar comprometidos y motivados, para que cada miembro del equipo realice la contribucin necesaria para alcanzar el mejoramiento continuo. La estadstica concursa con el aprovisionamiento de metodologas, pero tambin apoya con los principios y conceptos bsicos para adoptar una metodologa acorde, considerando causas atribuibles y aleatorias en el funcionamiento del proceso. En este sentido, no hay modelos para conseguir el mejoramiento en la calidad, stos se deben buscar de manera sistemtica con el avance del conocimiento del proceso, registrando y analizando datos e interpretando
20
los resultados. Esto se puede hacer en el contexto de la escuela, pero tambin en el saln de clase. Las herramientas estadsticas, bsicas y avanzadas tienen como propsito brindarnos apoyo en esta tarea. Por otro lado, hay una serie de principios y mtodos de trabajo gerencial, de ingeniera y de manejo de los recursos humanos que deben tenerse en cuenta en la confeccin de un sistema adaptado a las necesidades y condiciones de la organizacin. Una escuela para ser de calidad requiere de un sistema de gestin y de mejora de desempeo y resultados.
Intervencin
Evaluacin
Diagnstico
Esta idea es la base del mejoramiento continuo, ya que al completar un ciclo se inicia otro, pero en un estadio superior de calidad. En el Grfico
21
1.2 se presenta la espiral de la calidad, que resume la idea central del mejoramiento continuo. En el diagnstico las herramientas estadsticas son fundamentales. La utilizacin de todos los datos disponibles para describir el proceso y para identificar los puntos crticos requiere del uso de tcnicas estadsticas (anlisis de datos), pero tambin se emplean los principios estadsticos en la definicin de otras variables y en la obtencin de datos (muestreo y diseo experimental). Un diagnstico global sobre el funcionamiento del proceso incluir la identificacin de factores que lo influyen sobre variables crticas de calidad (respuesta), la identificacin de puntos crticos (problemas en el proceso) y una interpretacin racional de la informacin obtenida dar un plan de intervencin que permita mejorar la eficiencia del proceso. Muchas de las tcnicas que se utilizan en esta fase son bsicas y requieren de conocimientos elementales de estadstica, pero adems exigen una compenetracin total con el proceso. La intervencin implica el monitoreo de ste; tambin esto se debe hacer con base en principios y tcnicas estadsticas. La espiral de la calidad fue propuesta por el estadstico Shewhart, en los aos treinta, quien tambin fue creador de los grficos de control, mismos que sern tratados en el captulo quinto.
ramiento del proceso, con la idea de identificar las oportunidades, lo que implica detectar tambin factores de influencia en el proceso para plantear una estrategia de mejoramiento. La necesidad cada vez ms clara del enfoque de la calidad determinada en el diseo de los procesos, y no por la inspeccin masiva. Ante tal situacin, tanto en Japn como en Estados Unidos de Amrica, y dentro de la corriente de mayor promocin de uso de las herramientas estadsticas en las tareas de mejoramiento de la calidad, se ha propuesto el
22
uso intensivo de los llamados diseos experimentales y la construccin de modelos empricos. As, adems del EVOP, recientemente ha emergido el enfoque de la experimentacin por el Mtodo de Taguchi, en el cual el diseo de la calidad se enfoca sobre: 1) el diseo del sistema; 2) el diseo de parmetros; y 3) el diseo de tolerancias. Ambos enfoques destacan el valor de la metodologa estadstica. Para aplicar el enfoque del control evolutivo es necesario: 1. Que el ms alto responsable del proceso conozca qu es y est convencido de su utilidad. 2. Que los superintendentes e ingenieros del proceso tengan suficiente conocimiento para iniciar, desarrollar e interpretar el programa. 3. Que los operadores del proceso comprendan con claridad los objetivos del programa y tengan suficiente entrenamiento en el mtodo de operacin y en la evaluacin de sus efectos. Como se puede ver, este enfoque se ha pensado y aplicado intensivamente sobre procesos industriales, y su mayor ventaja es que la experimentacin se aplica a gran escala; es decir, los experimentos se plantean y desarrollan con la planta en funcionamiento. Sin embargo, tambin podran responder a situaciones de innovacin educativa que se aplican a un subsistema completo. Para trabajar con estas metodologas es preciso pasar por una serie de etapas en el diagnstico e intervencin de los procesos, mismos que se emplean en una etapa avanzada de instauracin de un sistema de mejoramiento de la calidad y la productividad. En este sentido la gestin de la calidad educativa cuenta con un esquema de referencia que no se puede menospreciar.
nado la prctica del control de la calidad. Expuso su visin a travs de las Siete Enfermedades Mortales y los obstculos, y plante un mtodo general basado en los famosos Catorce Puntos, para constituir y consolidar un sistema para la bsqueda permanente de la calidad (cuadros 1.1, 1.2 y 1.3). Asimismo, reformul la visin de la administracin introduciendo una concepcin sistmica y ense que las herramientas estadsticas son fundamentales en las tareas de diagnstico y diseo de un proceso. Todas estas enseanzas que promovi en Japn las haba obtenido de las malas prcticas que observaba en la gerencia norteamericana, donde desde 1936 se usaban las tcnicas estadsticas, pero en la dcada de los cuarenta se haban abandonado por no considerarlas necesarias, ya que todo lo que se produca se venda. Deming pensaba que la parte ms importante del problema de la mala calidad se explicaba por malas prcticas y una inadecuada filosofa de la gerencia. Afirmaba que para instaurar un sistema de mejoramiento continuo debe existir, primero, un compromiso del ms alto nivel de la empresa: la alta gerencia. Sus crticas ms fuertes se orientaban a la forma de administrar una organizacin, lo que lo oblig a desarrollar un mtodo gerencial. Trabaj despus de 1980 con varias y grandes compaas norteamericanas en la instrumentacin de un sistema de mejoramiento de la calidad, enseando la forma en que funcionaban sus Catorce Puntos. Desarroll una gran cantidad de seminarios para convencer sobre el provecho de la adopcin de su filosofa, dejando as un legado para la humanidad, el cual an no ha sido valorado en su justa dimensin. Cuando se hace una lectura descontextualizada de los Catorce Puntos de Deming (Cuadro 1.1), stos pueden parecer una serie de buenas recomen1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Ser constante en el propsito de mejorar los productos y los servicios Adoptar la nueva filosofa No depender ms de la inspeccin masiva Acabar con la prctica de adjudicar contratos de compra basndose exclusivamente en el precio Mejorar continuamente y por siempre el sistema de produccin y de servicio Instituir la capacitacin en el trabajo Instituir el liderazgo Desterrar el temor Derribar las barreras entre los departamentos Eliminar los eslganes, las exhortaciones y las metas para la fuerza laboral Eliminar las cuotas numricas Derribar las barreras que impiden el sentimiento de orgullo que produce un trabajo bien hecho Establecer un vigoroso programa de educacin y reentrenamiento Tomar medidas para lograr la transformacin
Cuadro 1.1 Los Catorce Puntos de Deming
24
daciones, pero que en muchas situaciones no son aplicables. De hecho, cuando se presentan en seminarios o cursos aparecen como cosas difciles de llevar a la realidad. Incluso la reaccin de los participantes es que no es posible adaptar un sistema basado en ellos, salvo que se haga una revolucin. Y efectivamente, ese fue el planteamiento de Deming, quien en una entrevista expres: ...en 1945 dije a los japoneses que si hacan las cosas as, en cinco aos estaran viendo los resultados, y me creyeron.... En aquel tiempo nadie quera escuchar a Deming en Estados Unidos, pero despus del xito de las empresas japonesas y de la situacin de crisis que en 1980 se dio en ese pas, la filosofa de Deming fue aceptada. En la actualidad hay un gran esfuerzo por parte de los administradores, ingenieros y promotores de la calidad por impulsar las enseanzas de Deming y adaptarlas a modelos gerenciales, a travs de manuales y procedimientos para instrumentar el cambio. Sin embargo, la filosofa de cambio de Deming plantea una serie de premisas que no aceptan otra cosa que un cambio revolucionario en la empresa, con metas a mediano y largo plazos, con un enfoque sistmico, considerando a los trabajadores en una dimensin ms humana y replanteando la organizacin en funcin de procesos y flujos. La instrumentacin de un programa basado en los Catorce Puntos encierra, como primer paso, tomar conciencia de las llamadas Siete Enfermedades Mortales (Cuadro 1.2) y de los obstculos para la calidad (Cuadro 1.3), los cuales se constituyen en prcticas corrientes por parte de muchas organizaciones. El segundo paso implica la adopcin de la filosofa y el mtodo, el cual no es un modelo ni tampoco recetas de cmo actuar, ya que incluso la metodologa de trabajo para instrumentar un sistema basado en la filosofa de Deming requiere de trabajo al nivel de toda la organizacin. En tal sentido, como se ha planteado en las primeras secciones de este captulo, se debe tomar en cuenta tanto la filosofa como la metodologa basada en el mtodo cientfico, sin dejar de lado el factor humano. Lo dems es trabajar de manera sistemtica sin perder de vista la idea central en la espiral de la calidad.
1. La falta de constancia en el propsito 2. 3. 4. 5. nfasis en las utilidades a corto plazo Evaluacin del desempeo, clasificacin segn el mrito o anlisis anual Movilidad de alta gerencia Manejar una compaa basndose slo en cifras visibles (contando dinero)
25
En el enfoque de Deming el papel de la consultora externa es fundamental. Alguien que maneje las tecnologas y metodologas para el diseo de un proceso de incorporacin de una organizacin al sistema de mejoramiento continuo debe ser quien disee una estrategia particular y supervise su instrumentacin en las fases y partes medulares de la organizacin. En este sentido, los consultores que aborden tal tarea asumen una alta responsabilidad y compromiso con la organizacin que asesoran.
1. Descuido de la planificacin y de la transformacin a largo plazo 2. La suposicin de que la solucin de los problemas, la automatizacin, las novedades mecnicas o electrnicas y la maquinaria nueva transformarn la industria 3. La bsqueda de ejemplos 4. Justificacin con base en la diferencia (nuestros problemas son diferentes) 5. Instruccin y capacitacin obsoleta 6. Depender de los departamentos de control de calidad 7. Atribuir a los trabajadores la culpa de los problemas 8. Calidad por inspeccin 9. Salidas en falso 10. La computadora mgica 11. El cumplimiento de las especificaciones 12. Pruebas inadecuadas de los prototipos 13. Consultora inadecuada (cualquier persona que llega a tratar de ayudarnos debe saber todo sobre nuestro negocio)
Cuadro 1.3 Obstculos para la calidad
Como puede verse, aparentemente por ninguna parte aparece la estadstica; sin embargo, Deming logr introducir una reformulacin del concepto de control de calidad, primero indicando que el propsito era minimizar la inspeccin final, dndole mayor nfasis a la actividad de diseo de la calidad y control en la operacin del proceso. De este modo propuso un diagrama de flujo (Grfico 1.3) en el que considera un proceso productivo de manera integral, y mostr cmo la estadstica es fundamental para identificar y resolver problemas en ese contexto. Debemos sealar que los Catorce Puntos han sido adaptados como un mtodo general en el que la interpretacin particular de cada uno de ellos en el contexto de las actividades de la organizacin juega un papel definitorio. Hay algunos de estos puntos que se pueden prestar a controversia; sin embargo, el esquema general ha sido valorado como una contribucin muy importante para generar una nueva visin de la administracin de procesos de produccin y servicios.
26
Deming ense, con base en una idea simple, que la variabilidad de los procesos es inherente, y que si se trabaja para explicarla y controlarla usando tcnicas estadsticas adecuadas puede avanzarse en el mejoramiento de la calidad. En su famoso diagrama de reaccin en cadena (Grfico 1.4) mostr cmo la mejora en la calidad produce un impacto positivo, que a su vez tiene influencia en los indicadores de crecimiento de las organizaciones.
Principio Complementar pedido Remitir pedido Recibir pedido: inspeccionarlo Procesar la reclamacin
Cliente (Comprador)
No
Informacin completa ? S
No
Reclamar al proveedor
Indudablemente, si se lee con cuidado la obra filosfica de Deming se llegar a la conclusin de que sus enseanzas se orientaron a la revaloracin de la cultura estadstica, a la desintegracin de las ideas acerca de so27
luciones mgicas, modelos y modas. l ponder el papel de la educacin, el entrenamiento, la capacitacin y, sobre todo, puso en alto el rol del mtodo cientfico en el proceso de mejoramiento. En muchos sentidos su legado an no se valora en su justa dimensin, ya que tras la propuesta de Deming hay una idea de mejoramiento personal, de las familias, de las organizaciones y de los pases. En sus ltimas conferencias Deming habl de manera crtica sobre el papel de la educacin en el desarrollo de las naciones, y en la poca atencin que se le est dando en muchas partes, incluyendo su pas, Estados Unidos de Amrica.
Mejorar la calidad
Disminuyen costos
Mejora la productividad
Incrementa el mercado
Se permanece en el negocio
Se provee ms empleos
...
educativos, etc. En este sentido lo ms importante es conocer, lo mejor posible, el proceso que se est abordando. Por tal motivo, las herramientas bsicas se orientan a la identificacin del proceso y sus principales problemas, y estn constituidas por tcnicas para la colecta de datos, para su organizacin y anlisis, y para su adecuada interpretacin. Recalquemos entonces que la estadstica en este sentido se constituye en una poderosa herramienta de trabajo en todos los niveles, de ah que es deseable una cultura general para los miembros de una organizacin, en la que se enfatice cundo es necesaria una herramienta estadstica, cmo debe usarse para que sus resultados sean adecuados y qu tanto puede decidir en trminos de ellos. Resulta obvio que, conforme se avance en el proceso de instrumentacin del sistema de mejoramiento, debern tenerse ms y mejores herramientas estadsticas, e incluso eventualmente contar con el asesoramiento permanente de un experto en esta disciplina. Ya ubicados en el siglo XXI, profesores y estudiantes de niveles medio superior y superior debern tener esta visin integrada de la calidad, ya que an existen tendencias y enfoques que presentan esta temtica como un rea reservada para expertos. Hoy en da, cuando la normalizacin y la certificacin de procesos, utilizando la normatividad internacional ISO (por sus siglas en ingls de International Standarization Organization), se han posicionado como la estrategia para la promocin de una cultura de la calidad, no debemos perder de vista esta percepcin, de hecho, un paradigma de mejora continua e implantacin de sistemas de gestin de la calidad hacia la excelencia que emerge rpidamente y que recupera todas estas enseanzas es la llamada Metodologa Seis Sigma, que se sostiene en el enfoque sistmico, en la metodologa cientfica y en particular en el pensamiento estadstico.
29
30
La metodologa estadstica es una estrategia para la obtencin correcta de conocimiento, y aunque est constituida por un conjunto de tcnicas, mtodos y procedimientos para conseguir y analizar datos e interpretar los resultados logrados, el fundamento son los principios, una lgica y una forma de pensar y actuar que es consistente con el mtodo cientfico. Se dice que ms importante que conocer los mtodos estadsticos es tener el pensamiento estadstico. En este captulo damos una visin panormica de la metodologa estadstica, a fin de sentar las bases para la adquisicin de un pensamiento estadstico.
u objetivo elemental, como identificar cules son los factores esenciales en el retraso de las entregas de pedidos, o tener una idea clara de la opinin de los clientes ante modificaciones que se han hecho en el proceso de los servicios. En todos los casos la validez es un elemento fundamental.
Conocimiento
Problema
Observe que en esta parte no se pretende asociar investigacin con esta-dstica (ms adelante habr oportunidad para ello). No obstante, cuando se quiere juzgar la validez de un proceso generador de conocimiento, en cualquier campo y no necesariamente usando la estadstica, aparecen en forma natural dos elementos a considerar los cuales analizaremos a continuacin.
con la pretensin de obtener la materia prima para construir categoras sobre complicados conceptos sociolgicos o sicolgicos, asociados a los hbitos de consumo, ahorro o perfiles de opinin poltica. En esta ltima situacin de una encuesta o estudio de opinin, la cuestin sera, entre otras, 1 si en realidad los tems que contiene el formulario y la manera de relacionarlos para construir las categoras, detectan lo que se quiere detectar y miden lo que se quiere medir, pues de no ser as, aun cuando los razonamientos que se realicen sean vlidos, las conclusiones no sern confiables. Cuando una investigacin satisface esta dimensin se dice que tiene validez externa. sta tambin est relacionada con el grado de generalizacin de las conclusiones.
Ms tarde abordaremos en forma especfica la representatividad de la muestra objeto de la aplicacin del instrumento, la cual es una de las ms importantes.
33
enfrentarn la resistencia a reformular las creencias de los que operan directamente el proceso de atencin a los clientes que compran a crdito. Cuando el resultado de esta valoracin crtica del proceso de construccin de las conclusiones es positivo, se dice que el estudio tiene validez interna. Los conceptos de validez externa e interna adoptan formas muy especiales cuando la naturaleza de la investigacin hace que la observacin se realice con base en muestras de individuos de una poblacin que tiene variabilidad en cuanto a las caractersticas objeto de la investigacin. En esta situacin, las conclusiones son obtenidas mediante un proceso inductivo en el cual estn presentes ingredientes como el azar y la incertidumbre. Ms adelante abordaremos el proceso de aplicacin de la estadstica, en cuyo contexto se lograr ampliar estos importantes conceptos.
La muestra probabilstica es diferente del muestreo intencional, en el que es el juicio del investigador el que decide sobre los elementos a estudiar y por lo tanto las inferencias no se sustentan en las probabilidades de eleccin. En el captulo dedicado al muestreo se tratar con detalle estos conceptos.
34
esenciales: el mecanismo mediante el cual se seleccionan las unidades a incluir en la muestra y el nmero de elementos a incluir en la misma. En resumen: la forma y la cantidad. La forma de muestrear, es decir, el mecanismo para seleccionar la muestra, debe ser tal que se procure conservar la estructura de las caractersticas y las relaciones que se quieren observar; que los alejamientos se deban solamente a la accin del azar. Esta afirmacin a veces se operacionaliza con aseveraciones como: Todas las unidades de la poblacin deben tener la misma probabilidad de ser seleccionadas en la muestra, algo as como la democracia en la seleccin de la muestra, aunque podra funcionar algo ms flexible como: El mecanismo de seleccin3 debe ser tal que se conozca la probabilidad que tiene cada unidad de la poblacin de ser incluida en la muestra. Esta segunda afirmacin, ms general que la primera, exige conocer los ponderadores o pesos que ms tarde, en el anlisis, deber darse a cada una de las unidades de la muestra para conservar la mencionada estructura de la poblacin. De hecho, cada uno de los llamados modelos de muestreo4 tiene asociado el conocimiento de la probabilidad que cada unidad de la poblacin tiene de ser seleccionada; as, por ejemplo, en un muestreo aleatorio simple5 la probabilidad es igual para todos (1/N). En un muestreo estratificado, es decir, cuando la poblacin se ha clasificado en estratos de tamao conocido, por ejemplo socioeconmicos, la muestra se conforma con las unidades que se seleccionan al azar de cada uno de ellos. En este caso la ponderacin de una unidad depende del estrato al que pertenece y est dada por la proporcin que representa la muestra en ese estrato con respecto al tamao del mismo. De esta forma de muestreo se dice que genera muestras ms representativas. De manera anloga en modelos como el muestreo por conglomerados, la poblacin puede estar agrupada en barrios, colonias o comunas. Aqu se escogen algunos barrios de los que se seleccionan ciertas manzanas al azar y luego se extraen viviendas (muestreo por conglomerados trietpico). En esta situacin las ponderaciones se definen de acuerdo al nmero de barrios (unidades primarias), de manzanas (unidades secundarias) y de viviendas en cada una de ellas (unidades terciarias). Existen otros modelos como el muestreo sistemtico de intensidad K, en el cual se da un ordenamiento a las unidades de la poblacin, se selecciona la primera al azar y a partir de sta se toma una cada K unidades. Pueden construirse mezclas de estos modelos bsicos y adems otros tipos de muestreo que surgen como resultado de consideraciones de eficiencia o de dificultades prcticas.
3 4 5
Ntese que la representatividad de una muestra se juzga, ms que por s misma, por el mecanismo que le dio origen. En las llamadas poblaciones finitas, la poblacin est conformada por un nmero conocido de unidades (N). Todos en un saco y se saca al azar una muestra.
35
Hay otros procedimientos de muestreo que se conocen como no probabilsticos, como el muestreo por cuotas, ampliamente utilizado en los estudios de mercado y de opinin poltica, pero no son los nicos, tambin se pueden mencionar los muestreos de grupos focales, la observacin sistemtica, etc. En el captulo correspondiente a esta temtica se amplan estos aspectos. En resumen, puede decirse que el establecimiento de un modelo de muestreo que tenga asociadas probabilidades conocidas de seleccin de cada una de las unidades de la poblacin, y que de alguna manera proporciona elementos que aseguren la representatividad, es garanta de la validez externa (por su forma). La otra dimensin de la representatividad est relacionada con el tamao de la muestra, sobre el cual existe un gran nmero de mitos y falsas creencias que se van transmitiendo por generaciones. Existe la creencia de que para que la muestra sea representativa debe contener 10% de las unidades de la poblacin, lo cual se demuestra que es falso con un sencillo ejemplo: para saber el tipo de sangre de una persona no es necesario extraerle 10% de la sangre, basta con una gota, puesto que se sabe que todas las gotas de sangre de su cuerpo son del mismo tipo. Aqu se nota cmo el grado de homogeneidad de las unidades toma un papel importante en la definicin del tamao de la muestra. Tambin podra traerse a colacin el caso de la sabia ama de casa que nicamente prueba una cucharadilla de su sopa para tomar con base en ella la decisin de ponerle o no ms sal; eso s, asegurndose de antemano en garantizar la homogeneidad al menear con maestra por todos los rincones de la olla. El tamao de la muestra s se relaciona con el tamao de la poblacin a muestrear, pero la heterogeneidad, es decir la variabilidad de la caracterstica de inters, pesa mucho ms en su determinacin, a tal punto que en poblaciones muy grandes6 el tamao no tiene importancia; esto es, que las frmulas para el clculo del tamao de la muestra no toman en cuenta el tamao de la poblacin. En todo caso, el criterio que define si una muestra de un tamao determinado puede considerarse adecuada tiene relacin con el nivel de precisin requerido. En este sentido, en un saln de clase tomar una muestra puede no ser necesario, pero si el estudio alude a toda una escuela, o a un grupo de escuelas, y la unidad de muestreo son los estudiantes, es obvio que el clculo del tamao de muestra resulta una tarea que hay que atender con sumo cuidado. Puede intuirse que entre ms precisin se exija ms grande se requerir la muestra.
6
36
Una suerte es un lote de terreno que se maneja como una unidad, para la siembra, el arreglo, el corte, etctera. Normalmente el terreno se va empobreciendo con el nmero de siembras (cortes), hasta el punto de que se hace necesario arreglar el terreno (remover y abonar) despus de un cierto nmero de cortes, generalmente cuatro. De ah el famoso nombre del diseo de bloques al azar, el cual es un plan experimental ampliamente usado en agricultura.
37
Note que la identificacin de factores de confusin potenciales no es tarea exclusiva de un estadstico, sino, sobre todo, del investigador que conoce el campo de su disciplina especfica. As, en el caso de un estudio sobre productividad de dos departamentos de una industria, el factor turno puede ser un factor de confusin, pero esto ser conocido por el gerente de recursos humanos, ms que por el tcnico que se encargue de hacer los anlisis de la informacin. Otro elemento generalmente ignorado es la llamada interaccin entre factores, la cual se ilustra en la siguiente situacin relacionada con el rendimiento de un cultivo agrcola en funcin de la dosis de nitrgeno (N) y de potasio (K). Se ha considerado tres dosis de potasio: K1, K2, K3 y dos de nitrgeno: N1 , N2 Los resultados reportados por separado para el potasio y el nitrgeno se presentan en los grficos 2.2 y 2.3.
Parece que el cambio en la dosis del potasio no tiene efecto sobre el rendimiento
K1
K2
K3
Potasio
Con base en la informacin reportada surgira naturalmente recomendar la dosis ms baja de potasio y por otro lado la dosis ms alta de nitrgeno, segn el Grfico 2.3. Sin embargo, si se considera los dos factores al tiempo, midiendo el efecto de todos las combinaciones de los niveles de los factores, es decir, K 1N 1, K1N2, K2N 1, K 2N2, K3N1, K 3N2, y para cada una de estas posibilidades se grafica el rendimiento medio, se podra obtener la situacin que ilustra el Grfico 2.4.
38
Parece que la dosis N2 del nitrgeno tiene mayor impacto sobre el rendimiento que la dosis N1
N1
N2
Nitrgeno
En el grfico siguiente se observa que para cada una de las dosis de potasio el efecto del cambio en la dosis de nitrgeno sobre el rendimiento es distinto. As, por ejemplo, el mayor efecto del cambio en la dosis de nitrgeno se produce cuando se aplica una dosis K2 de potasio. Este efecto diferencial de un factor, de acuerdo con dos niveles de otro factor, se conoce como interaccin . interaccin.
K1
K2
Potasio
K3
Grfico 2.4
Interaccin entre la concentracin del nitrgeno y la del potasio en la explicacin de la variabilidad del rendimiento
Cuando existe interaccin, la respuesta a la pregunta: cul es el efecto del factor potasio? sera: depende del nivel de nitrgeno presente. Es decir que los dos factores no se pueden separar, interactan para afectar el rendimiento. Otro trmino comnmente usado para describir este efecto es sinergismo o sinergia. Cuando se ignora la existencia de interaccin se afecta la compatibilidad, se pierde validez interna.
39
VALIDEZ INTERNA
Informacin disponible
Nuevos datos
Grfico 2.5 La bsqueda del conocimiento y la estadstica (Adaptado de Box et al., 1993)
40
se garantice la validez interna. En cuanto al tercero, una serie de principios y procedimientos de la estadstica se encargan de proporcionar guas generales para el diseo de formatos de presentacin y de grficos, adems de ofrecernos los elementos para construir juicios vlidos a partir de los resultados de los anlisis estadsticos. La estadstica es ampliamente aceptada como una metodologa fundamental para la investigacin y los estudios tcnicos en disciplinas como biologa, ingeniera, ciencias administrativas y todas aquellas reas donde los mtodos cuantitativos han adquirido gran popularidad. Goza tambin de reconocimiento en las ciencias sociales, en antropologa, lingstica y hasta en las ciencias polticas, donde los procesos de cuantificacin son menos entendidos y poco usados por los investigadores y profesionales de estas disciplinas. Por otro lado, en las empresas u organizaciones la estadstica juega un papel esencial, constituye una herramienta muy til pues sus principios nos ayudan a disear mejores sistemas de informacin, a organizar y sistematizar datos para ser usados en la toma de decisiones y, en general, a utilizar de manera eficiente, rpida y barata toda la informacin pertinente para el desarrollo de los objetivos de la organizacin o empresa. El incremento de la productividad y de la calidad est asociado ntimamente con el uso eficiente de los mtodos estadsticos para el diagnstico y anlisis de situaciones. Por tal motivo, la estadstica se ensea como una herramienta fundamental para administradores y tcnicos; sin embargo, su enseanza en el enfoque tradicional no se contextualiza en la problemtica real, por lo que, en nuestra opinin, no se aprecian los mtodos estadsticos por su utilidad. Con frecuencia los cursos tradicionales orientan en aspectos que poco o nada ayudan a considerar o valorar a la estadstica para la solucin de problemas; por ejemplo, cuando se pone nfasis excesivo en los clculos o en las frmulas. Los conceptos clave de la estadstica, desde nuestro punto de vista, son pocos y muy sencillos de presentar y entender en el contexto de los problemas reales. En lo que sigue a este captulo haremos un desarrollo de las principales ideas y conceptos de la estadstica, siempre pensando en problemas tanto de una organizacin o empresa como de la vida cotidiana en las diferentes esferas de la actividad humana.
la primera fase en un anlisis estadstico es definir las unidades de estudio. Es recomendable determinar cul es una unidad y cul es el colectivo. Por ejemplo, cuando estamos estudiando la matrcula escolar global del estado de Veracruz en los ltimos diez aos, la unidad de estudio es el sistema educativo en cada uno de los aos, y el colectivo es el sistema durante los diez aos. En otra situacin, si nos interesa el estudio de las delegaciones regionales de la Secretara de Educacin en un periodo dado, entonces cada delegacin es una unidad de estudio. La materia prima para el uso de las tcnicas estadsticas est constituida por los datos, que son el resultado de la medicin de una serie de caractersticas que se denominan variables de estudio. Podemos decir entonces que los datos son la descripcin numrica de todos y cada uno de los elementos del colectivo en estudio. Usualmente la dimensin de la caracterizacin numrica es mltiple; es decir, el nmero de caractersticas que se miden en cada unidad de estudio es de dos o ms, por tal motivo se dice que los problemas reales son usualmente multivariados o multidimensionales. En general las tcnicas estadsticas persiguen el objetivo bsico de caracterizar dos aspectos del colectivo: el patrn y la dispersin, siempre en trminos de las caractersticas que les son medidas. El patrn es como construir el individuo tpico del colectivo y la dispersin es como la evaluacin del grado de variacin en torno al patrn. De este objetivo general se pueden derivar algunos otros objetivos particulares, como identificar uno o varios individuos, siempre que stos sean atpicos al colectivo, obtener agrupaciones en el colectivo o representarlo en una dimensin en la que se pueda interpretar ms fcilmente su comportamiento en trminos del patrn y la dispersin.
COLECTIVO
UNIDAD
Medicin
X Y Z... W
42
A este respecto no se debe perder de vista que la estadstica es una disciplina que permite construir juicios sobre colectivos que son caracterizados numricamente. En este sentido, el juicio es vlido para el colectivo, pero no para un individuo en particular. As, cuando se habla de los mexicanos pensando en un mexicano tpico, no estamos hablando de Juan necesariamente. Si hablamos de los mexicanos sera mejor hablar de diferentes tipos de mexicanos, esto estara considerando no slo el patrn, sino tambin la dispersin, y estara reportando varios patrones. El promedio es un indicador de localizacin del colectivo de datos, es un rasgo que constituye un primer acercamiento al conocimiento del colectivo. El promedio es, tal vez, el indicador ms popular para lograr una idea preliminar sobre la magnitud de los datos. Sin embargo, no debemos olvidar que es realmente un indicador. Si se pretende sustituir la informacin del colectivo por un solo nmero, se genera una prdida de informacin que eventualmente podra producir interpretaciones errneas. Por tal razn es necesario observar rasgos del colectivo completo que reproduzcan caractersticas esenciales de acuerdo con el propsito del estudio. Para ilustrar conceptos supongamos que se desea realizar un estudio para determinar si un mtodo de conduccin de un curso est siendo efectivo. Las unidades de estudio en este caso son los cursos que estn aplicando este mtodo y la variable de inters puede ser el porcentaje de estudiantes que aprob un examen estandarizado. Hay, sin duda, otras variables que nos ayudaran a entender mejor el comportamiento de la variable de inters; por ejemplo, el porcentaje de aprobados con una calificacin mayor de 90, el porcentaje de los estudiantes que se declararon satisfechos, el porcentaje de deserciones. Si procedemos a realizar este estudio podremos obtener datos que, una vez analizados, nos permitirn tener un conocimiento de la variable de inters sobre el colectivo, tal conocimiento nos llevar a tomar mejores decisiones respecto al problema en cuestin. Otro de los objetivos de la estadstica es generalizar los resultados del patrn y la dispersin en el colectivo de estudio a un colectivo ms general al que se le llama poblacin objetivo o de referencia. Por ejemplo, para realizar el estudio sealado anteriormente es ms barato, rpido y operativo trabajar con un grupo pequeo de cursos. Hasta dnde es posible generalizar las conclusiones obtenidas con los datos de este estudio realizado sobre la muestra de cursos? Es claro que el grupo de cursos en la muestra es un fragmento de una poblacin mayor que est compuesta por todos los cursos de la zona norte, los cuales comparten una serie de caractersticas vitales para el estudio, como son contemporaneidad, cultura y tal vez nivel de desarrollo de las comunidades que atienden. Para hacer las inferencias o generalizaciones se necesita precisar con claridad la poblacin objetivo o de referencia, para no extrapolar las conclusiones ms all de la validez del estudio y, desde luego, es necesario tener una buena
43
muestra, representativa y seleccionada con un procedimiento que garantice la validez externa, y que sea de un tamao adecuado para los propsitos que se persiguen. En muchos estudios es recomendable utilizar el muestreo. Para hacer esto primero se identifica y delimita la poblacin objetivo y despus se construye un procedimiento para seleccionar o confeccionar una muestra representativa. Por ejemplo, si se quiere conocer el desempeo de las escuelas particulares en todo el Estado en el ltimo periodo, un aspecto a determinar es: cuntas son, cules son y dnde estn. Si ya se tiene tal aspecto resuelto podramos, entonces, idear un procedimiento para seleccionar algunas que sean representativas de todo el colectivo. Para lograrlo se podra construir un listado de ellas, por ejemplo: por zona, por tipo, nivel, etc. Este listado nos dar elementos suficientes para disear una muestra con cierto grado de representatividad y validez para hacer inferencias sobre la poblacin objetivo o de referencia, que en este caso es la que tenemos listada. A esta poblacin de referencia se le llama finita. Cuando es as se dice que el estudio es de naturaleza enumerativa; en general en estos casos interesa determinar estimaciones de totales, proporciones, promedios, etc. Es aqu, como ya se especific antes, donde tiene su mayor valor el muestreo probabilstico. Sin embargo, algunas veces el estudio se orienta por el inters de analizar una relacin de causaefecto. Por ejemplo, para el estudio de las escuelas puede ser de inters la relacin que existe entre reprobacin y nivel de atencin a la gestin educativa, o las inversiones realizadas, o bien evaluar los factores que determinan algunos indicadores de desempeo. En este caso se debe construir cuidadosamente la muestra para que garantice que se incluir un nmero suficiente de escuelas, a fin de hacer el anlisis de la relacin causaefecto que interesa. A este tipo de estudios se les denomina analticos, y para realizarlos se utilizan los llamados modelos estadsticos, que no son abordados en este texto. De acuerdo con su objetivo, los estudios pueden estar enfocados o describir un solo colectivo, o pueden ser comparativos al intentar establecer si hay diferencias entre varios de ellos. Asimismo, pueden ser transversales o longitudinales; es decir, estudios de un lapso fijo o estudios que impliquen el seguimiento de las unidades bajo estudio a travs del tiempo. En el caso de los estudios transversales comparativos usualmente interesa ver si el patrn se mantiene cuando se cambian algunas condiciones. Por ejemplo, en el caso de los cursos podramos estar interesados en ver si el patrn del porcentaje de alumnos satisfechos se mantiene cuando hacemos agrupaciones con criterios geogrficos o por algn otro, como por el tamao del grupo.
44
Los estudios longitudinales pueden ser retrospectivos o prospectivos,10 en el primer caso observamos la unidad en el tiempo hacia atrs, y en el segundo hacia adelante, planeando la toma de los datos de acuerdo con el propsito. Por ejemplo, en el caso de las escuelas nos podra interesar la historia de las matrculas en los ltimos aos. Los estudios prospectivos son ms comunes en investigaciones o estudios para darle seguimiento a programas que deben ser evaluados despus de pasado un tiempo para detectar una tendencia o para valorar el impacto de una intervencin. Esto es bastante comn en el sector educativo, pero tambin es fundamental en las empresas, donde al intervenir algn proceso debemos darle seguimiento para evaluar la magnitud del impacto y por ende la conveniencia del mismo. Los estudios estadsticos pueden ser tambin exploratorios, confirmatorios o de seguimiento. En los estudios exploratorios se tiene poco conocimiento del colectivo y el inters central es caracterizarlo, describirlo y conocerlo en una primera aproximacin. Este conocimiento permitir tomar mejores decisiones e implementar mejores acciones que impliquen intervencin en el colectivo. Si ya se tiene una idea del colectivo, pero se quiere confirmar una hiptesis o relacin causal en l, entonces el estudio es confirmatorio. Los estudios de seguimiento se hacen usualmente despus de una intervencin para medir el impacto, para describir los cambios, etctera. De acuerdo con la posibilidad de control y la naturaleza de la situacin pueden distinguirse tres tipos de estudios estadsticos: experimentales, observacionales y de muestreo. En todos los casos se realiza la fase del diseo que consiste en la planeacin de las actividades hasta que se han colectado los datos. En los estudios experimentales el investigador cuenta con una serie de unidades de estudio a las que asigna un conjunto de tratamientos (estmulos) y observa la respuesta. Es decir, los valores que asume una variable de inters (variable respuesta). En los estudios experimentales el investigador tiene la posibilidad de asignar una caracterstica a una unidad experimental, por ejemplo, decide (puede ser al azar) a cul parcela le aplica cul dosis de abono. En los estudios observacionales, como su nombre lo indica, el investigador no puede asignar categoras de una caracterstica a las unidades, slo las observa para obtener el registro del dato; por ejemplo, en una investigacin de mercado el investigador no puede decidir qu sexo o estrato socioeconmico asigna a una persona, slo registra esta caracterstica asociada a una persona seleccionada del colectivo. En los estudios observacionales generalmente el investigador selecciona de una poblacin mayor las unidades a estudiar y les observa tanto las variables explicatorias como las variables respuesta. En un estudio de muestreo se tiene una poblacin objetivo bien delimitada e identificada, a veces se dispone de un listado de esta poblacin, al
10
Una excelente clasificacin de un estudio de acuerdo con distintos factores se realiza en Mndez et al. (1993).
45
que se llama el marco de muestreo. El muestreo consiste en seleccionar una muestra representativa de elementos, lo que implica decidir cuntos de ellos obtener de la poblacin de muestreo y, lo ms importante, cmo elegirlos. Un estudio experimental se puede combinar con un muestreo; por ejemplo, en un estudio sobre preferencia entre dos marcas podramos obtener una muestra de familias en cada comunidad y despus darles a probar aleatoriamente una de dos marcas. Muchos aspectos definitorios de cuntos, cules y cmo determinar los elementos del colectivo bajo estudio se encuentran en los propsitos del mismo, en el tipo de inferencia que interesa y en el nivel de generalizacin que se desea hacer de los resultados. Tambin en estos aspectos se basa el tipo de estudio que debemos realizar. Para una discusin mayor de estos aspectos sugerimos leer a Mndez, et al. (1993). Repasando conceptos, queremos enfatizar una serie de recomendaciones respecto a la aplicacin de lo que se llama diseo estadstico de un estudio o una investigacin. 1. Entender claramente el problema. Esto implica separar los hechos conocidos de las hiptesis. Una vez que se ha comprendido el problema se conocern los beneficios de resolverlo. Si no se conoce no tiene sentido sugerir soluciones o plantear estrategias metodolgicas. El resultado de comprenderlo es la definicin precisa de los objetivos que se persiguen. 2. Defina con precisin cules son sus unidades de estudio y qu variables son las de inters fundamental. Un sano ejercicio es asociar a cada uno de los objetivos definidos una estrategia para lograr y detectar la informacin que se requiere para la implementacin de la misma. Tome en cuenta todo lo relacionado con la validez externa; si lo considera necesario consulte a un especialista en diseo estadstico. 3. Piense en los resultados que obtendra al hacer el estudio que est tratando de disear; intente explicar los resultados, esto le llevar a identificar otros factores o variables a considerar. Incluya en la lista slo aquellos de los que espere influencia con alguna explicacin lgica en el contexto del problema. 4. Trate de definir con precisin si su estudio es enumerativo o analtico, si es longitudinal o no, si es transversal o no. Defina si usar muestreo y si es as, qu caractersticas o variables requiere para definir la representatividad de la muestra. 5. Si ya se dispone de los casos a estudiar deber preguntarse hasta dnde es posible generalizar los resultados a partir de dichos casos.
rsticas o variables se requieren y cmo se van a medir en cada unidad. A esto se le llama el proceso de medicin. Medir se entiende, en este contexto, de una manera general. Por ejemplo, a una vivienda se le puede medir: el nmero de cuartos, si tiene agua potable, si tiene luz elctrica, etc. Respecto a sus habitantes podemos medir el ingreso, el nmero de personas en el hogar, su nivel educativo. Algunos de estos aspectos se pueden determinar fcilmente y traducir a una escala numrica ya conocida. Para el caso del nmero de cuartos y el nmero de habitantes es claro que hay que realizar un conteo; sin embargo, para otras caractersticas como el nivel educativo, probablemente deberemos construir nuestra propia escala. De acuerdo con los objetivos que se persigue deber decidirse cuntas categoras habr y cules y cmo sern asociadas a una vivienda. Medir el ingreso es complejo, pues suele ser variable para una unidad familiar, adems de los prejuicios que existen para obtener una respuesta confiable. En ocasiones se usa otras variables que miden el ingreso en forma indirecta. Al ingreso como concepto se le llama variable y a la forma de operarlo a travs de otras caractersticas se le denomina indicador. En la medicin interviene un aspecto que se denomina la escala: sta puede ser de naturaleza cualitativa o cuantitativa. Por ejemplo, en el nmero de cuartos y el ingreso la escala es cuantitativa, por otro lado, tener o no luz elctrica produce una medicin que arroja dos resultados posibles: no tiene y s tiene, estas categoras no son numricas, pero es posible traducirlas a cdigos numricos, por ejemplo: 1 y 2; estos nmeros no tienen significado cuantitativo, sirven exclusivamente para identificar, son slo nombres, por tal motivo a escalas como stas se les llama nominales. En los datos que se generan con ellas nicamente podemos contar cuntos individuos hay en cada categora y hacer representaciones comparando el nmero o porcentaje que resulta en cada categora. Representaciones como las tablas de frecuencias o los grficos de barras y pasteles son los adecuados para estos datos. Otra escala cualitativa, pero que tiene un elemento adicional: el orden, se llama escala ordinal. Datos que se generan con caractersticas como la opinin respecto al surtido de la tienda se pueden registrar en una escala de este tipo, para este caso podramos definir las categoras: bueno, regular y malo. A estas categoras las podramos codificar con nmeros como 1, 2 y 3. Est claro que en los nmeros 1 y 2 hay un significado de orden, pero no sabemos qu tanto es regular y qu bueno; sin embargo, se conoce que la opinin es ms favorable en cuanto menor sea el nmero asignado. Las escalas de medicin ms usadas son: la nominal, la ordinal, la de intervalo y la de razn. Las ltimas sirven para registrar datos cuantitativos; la de intervalo tiene una cualidad importante y es que el cero en esta escala no significa ausencia de la caracterstica de inters, sino que representa un origen arbitrario de referencia. La escala de grados Farenheit es un ejemplo de este tipo de escala, pues 0o F no significa ausencia de calor. Observe que en las escalas de temperatura el cero no es absoluto, pues 0 oC 0 oF 0 oK.
47
La ltima escala es la de razn, y en ella la ausencia de la caracterstica de inters se registra con el cero; el cero (0) es absoluto; aqu tienen sentido las razones o cociente de dos valores que asume la variable. Con esta escala se miden variables como longitudes, cantidades, pesos y volmenes. Por otro lado, las caractersticas o los conceptos que se miden en las unidades de estudio se denominan variables y se clasifican por su naturaleza en continuas y discretas. Las variables discretas son aquellas caractersticas en las que las categoras que puede tomar la variable son un nmero finito; es decir, toma valores a saltos, como el nmero de personas en una familia. Las continuas son variables que, en principio, su medicin puede resultar cualquier valor en un continuo. Debe decirse que en el proceso de medicin todas las variables son discretas, debido a la precisin de los instrumentos que restringe el conjunto de valores posibles a un conjunto finito. Usualmente los datos se toman con motivaciones especficas y es posible establecer una serie de preguntas que permiten clasificar las variables como independientes o explicatorias y como variables respuesta; esto da los elementos para especificar con precisin los objetivos del anlisis estadstico, sobre todo cuando se establece como objetivo el estudio de una relacin causaefecto. Por ejemplo, si se est interesado en conocer si las ventas en un mes especfico para todas las sucursales estn asociadas al monto que se ofrece en promociones, las ventas podran dividirse en dos tipos: de productos bsicos y de productos novedosos. La variable explicatoria sera el monto que se subsidia por promocin y se podra clasificar segn los tipos de artculos que se ofertan. Note que aqu hay una serie de motivaciones implcitas que son las que estn determinando las variables a medir, y si stas son consideradas como causa o como efecto. El producto de la medicin son los datos, que se organizan en una matriz o tabla de doble entrada en la que los individuos o unidades de estudio son los renglones, y las mediciones en las diferentes variables son las columnas (ver Grfico 2.7). Algunas de las cuales pueden servir para definir la estructura del colectivo. sta es, junto con las preguntas de investigacin, la materia prima del anlisis estadstico.
Variable Xp ... ... x1p x2p . . . xnp Medicin unidad n Medicin unidad 1
...
...
48
Al analizar esta matriz hay que tener siempre en mente las preguntas que originaron el estudio, el objetivo preciso y las ideas clave de la estadstica. Con los medios modernos de la computacin hacer un anlisis estadstico requiere del diseo de estrategias muy precisas. En la siguiente seccin se darn algunas ideas generales y a lo largo del texto, se presenta e ilustra el uso de herramientas bsicas y procedimientos que estn implementados en la mayora de los paquetes estadsticos.
aprender a operar un paquete estadstico es posible hacer cualquier anlisis olvidndose de la validez externa o interna del estudio; tal actitud ha multiplicado los malos usos de la metodologa estadstica. A este respecto, Chatfield (1988) plantea una serie de reglas para analizar datos en el contexto de un estudio o investigacin en general. Aqu presentamos las llamadas Seis Reglas Bsicas. 1. No intentar analizar los datos antes de tener un entendimiento claro de qu es lo que se est midiendo y por qu, tratando adems de encontrar si existe informacin anterior o primaria acerca de los posibles efectos que pueda introducir cada variable en el comportamiento general del problema o fenmeno. En este orden de ideas, el analista de los datos deber hacerse muchas preguntas con la finalidad de: clarificar los objetivos del estudio o anlisis del problema; conocer el significado de cada variable y las unidades en que se estn midiendo; conocer el significado de los smbolos especiales que se estn utilizando (si los hay); y si existen experiencias similares que aporten informacin complementaria sobre el problema o fenmeno en cuestin que apoye los anlisis, entonces deber acceder a la revisin. 2. Una vez realizado lo anterior es impresindible conocer cmo fueron recolectados los datos. Aqu se destaca bsicamente la necesidad de conocer si hubo un proceso de aleatorizacin u otra forma de garantizar la validez externa que sea apropiado y que garantice la confiabilidad de las mediciones. Si los datos provienen de un proceso no aleatorizado propiamente, posiblemente slo sea justificado realizar un anlisis descriptivo simple, lo cual tendr que ser explcitamente indicado. Hay muchas tcnicas estadsticas que se soportan sobre supuestos restrictivos, que de no cumplirse le restan validez a los resultados. 3. Especifique cul es la estructura de los datos. Siendo importante aqu contestar las siguientes preguntas:
Son suficientes las observaciones para explicar el problema o Son muchas o pocas las variables explicativas? Aqu es necesario
fenmeno? distinguir los diferentes tipos de variables que se vayan a estudiar, definiendo si son controlables, explicatorias o variables respuesta, etctera. Adems debe hacerse una clasificacin de variables por tipo de medida o escala, y por la naturaleza: continuas o discretas, cualitativas, binarias, etc. Todo ello porque los anlisis resultantes dependen crticamente de la estructura que guarden los datos. 4. Posteriormente los datos deben ser examinados en una forma exploratoria antes de tratar de intentar un anlisis ms sofisticado.
50
Para llevar a efecto este anlisis es necesario el clculo de estadsticas bsicas y el ajustar grficas de funciones a los datos en cualquier forma que parezca apropiada, haciendo esto separadamente para cada variable (y en algunos casos para pares de ellas). Se recomienda el uso de histogramas, diagramas de cajas y alambres, as como diagramas de dispersin, de tallos y hojas para hacerse una idea de la distribucin que pueda suponerse para los datos, adems de tratar de observar los efectos de los valores faltantes o valores extremos y que puedan, o no, afectar los posibles anlisis. 5. Utilizar el sentido comn todo el tiempo. Aunque los resultados de aplicar la estadstica pueden contradecir algunas ideas preliminares, la explicacin que se logra de los resultados es consistente con la lgica del sentido comn. 6. Reportar los resultados en una forma clara y explicativa por s mismos. Debemos dejar que las evidencias hablen, que sean el eje del discurso de las recomendaciones y conclusiones.
Con seguridad es posible decir que una investigacin o estudio no se ha terminado hasta que se reporte y difunda. El reporte de la investigacin es la prueba de fuego para el que est encargado de la investigacin o estudio, ya que es all donde concurren muchos problemas que son producidos o propiciados por la mala conduccin de algunos pasos en el desarrollo de la misma. La buena organizacin y administracin de los pasos y fases del estudio producir materiales fundamentales para elaborar un buen reporte; sin embargo, tambin se requiere un esfuerzo de sntesis y un manejo de la comunicacin escrita en el estilo tcnico. La sntesis de los resultados y un buen diseo fundamentado; la revisin repetida y un adecuado manejo del estilo producen, en general, buenos reportes. Despus de un adecuado reporte de investigacin o estudio tcnico es inmediata y relativamente sencilla la preparacin de una ponencia para un pblico especfico, ya que la mayora de las veces los resultados de los estudios se deben presentar ante equipos de trabajo de la misma organizacin. Tambin es necesaria la construccin de un reporte ejecutivo, lo cual es recomendable para comunicar los resultados a la alta gerencia. Muchas de las formas especficas de reportes y escritos sobre los resultados de la investigacin estn determinadas por convenciones aceptadas que son diferentes segn el rea de conocimiento y la disciplina, por tal motivo es difcil tratar muy particularmente los puntos que hay que desarrollar para obtener dicho reporte.
52
La estadstica es una disciplina que proporciona principios y herramientas para hacer juicios sobre colectivos, con base en datos que se han obtenido para un propsito especfico. Con sus tcnicas y principios brinda la metodologa para saber qu datos obtener, cmo obtenerlos y, una vez obtenidos, proporciona mtodos y procedimientos para organizarlos y transformarlos con diferentes propsitos, a fin de extraer de ellos la mxima informacin segn nuestros intereses y objetivos. Del anlisis de los datos se obtiene la base para la construccin de juicios concluyentes sobre el colectivo bajo estudio; por tal motivo, es muy importante saber de qu colectivo se est hablando. Este captulo est destinado a la presentacin de algunos conceptos bsicos que son clave para el empleo adecuado de los principios y las tcnicas de la estadstica. Varios de los conceptos que se tratarn aqu ya han sido mencionados en el captulo anterior, pero ahora sern desarrollados de manera ms detallada.
53
Las tiendas de una cadena son la poblacin objetivo si se desea Los proveedores son la poblacin objetivo si se desea estimar el
hacer un estudio sobre ventas en un mes. porcentaje de veces que stos dejan de surtir su producto en un periodo fijo.
Una poblacin hipottica es un conjunto que se caracteriza a travs de las propiedades de los elementos que la conforman, as que no es necesaria otra cosa que tener una definicin clara de cmo son los elementos de dicha poblacin. Por ejemplo:
Los estudiantes pueden ser la poblacin objetivo para efectuar un Las asignaciones presupuestales para cierto tipo de obra escolar
estudio de hbitos de estudio. pueden ser la poblacin objetivo para el encargado que desea estudiar la situacin financiera del almacn. Las posibles deserciones puede ser la poblacin objetivo para el departamento encargado de esa temtica. Ntese que para estos ejemplos los conjuntos se caracterizan como U= {X / X... }. En los tres casos de este segundo tipo de poblacin no sabemos cuntos elementos la conforman, e incluso no tenemos posibilidad de pensar a la poblacin como un conglomerado ubicado en algn lugar. En general debe decirse que para estas poblaciones, que se denominan hipotticas, lo importante es caracterizar con precisin cundo un elemento pertenece o no a ella, lo cual establece los lmites de la poblacin. Otro aspecto importante de notar es que en el caso de los primeros dos ejemplos las poblaciones objetivo son finitas y conocemos el nmero de elementos (N) que las conforman. En el segundo caso, en los ejemplos segundo y tercero, se hace referencia a un proceso que est funcionando y se desea conocer del proceso. En el primer ejemplo del segundo caso no podemos saber cuntos elementos la conforman. Tal situacin es muy comn en los estudios de mercado y de opinin pblica.
llama poblacin de muestreo. Cuando esta poblacin es la misma que la poblacin objetivo, y lo que interesa es conocer de cantidades como el total en alguna caracterstica, la proporcin, el promedio o alguna razn, entonces se dice que el estudio es de tipo enumerativo. Por ejemplo, si se desea saber cul sera la erogacin total que la Secretara de Educacin de Veracruz hara si diera un estmulo para subsanar ciertas necesidades de escolaridad de los hijos de los profesores, entonces le interesara una cantidad que se define en funcin de las que erogara con cada uno de ellos. Tal estudio sera enumerativo. Si la poblacin objetivo es finita, sabemos su tamao N, podramos obtener una muestra probabilstica (a travs de una rifa), asignndole a cada elemento de la poblacin de muestreo (que es la misma que la poblacin objetivo) una probabilidad de salir electo para pertenecer a la muestra. En el ejemplo enunciado en el prrafo anterior estamos en este caso. Hay varios mtodos para obtener muestras probabilsticas en poblaciones finitas de tamao conocido, en el captulo sexto describimos algunos de los ms importantes planes de muestreo. En los estudios analticos, ms que hablar de la poblacin en trminos de indicadores, como el total, la media o la proporcin, interesa estudiar las relaciones de causaefecto; por ejemplo, cmo est asociada la cantidad de alumnos aprobados con las horas de capacitacin del personal docente y directivo. En el caso del coordinador de zona podra estar interesado en conocer cmo la poca del ao influye en el ausentismo de profesores. Para los estudios de rendimiento escolar esto es ms claro, ya que se hace una caracterizacin del rendimiento estudiantil en funcin de su edad, sexo, nivel de socioeconmico, etc. En este tipo de situaciones no interesa la poblacin de la que se extrae la muestra, sino la relacin causaefecto definida sobre una poblacin ms general, que en este caso sera la de los estudiantes. En los estudios analticos es muy importante modelar relaciones causaefecto y probar hiptesis sobre ellas. La forma de obtener la muestra de unidades que se medirn es muy importante; se tiene que decidir: dnde, cmo, cundo y cuntos. Por ejemplo, alguien que desea estudiar sobre los efectos de ciertas intervenciones en el rendimiento final de un proceso deber garantizar que en su muestra se presenten los diferentes tipos de intervenciones para que pueda estudiar comparativamente los efectos. Esto se podra lograr a travs de la realizacin de un experimento sobre el sistema en funcionamiento normal. A veces esto puede ser muy costoso y no es posible realizarlo, por lo que se opta por emplear informacin histrica. En ambos casos se debe tener cuidado al extrapolar las conclusiones obtenidas de los datos a la poblacin de muestreo. El proceso general de la aplicacin de la estadstica (ver Grfico 3.1) involucra la conceptualizacin de la poblacin objetivo y la poblacin de muestreo, la obtencin de una buena muestra de acuerdo a los propsitos
55
y objetivos del estudio, la conduccin cuidadosa del proceso de medicin para que los datos sean de la calidad adecuada, la conduccin de un anlisis estadstico acorde a las necesidades de informacin, y una vez obtenidos los resultados se requiere una buena interpretacin para que los juicios que se hagan sobre la poblacin objetivo sean sustentados adecuadamente.
Juicios
Poblacin de muestreo
Resultados
Anlisis
Datos
Medicin
Muestra
Grfico 3.1 Esquema general de los colectivos involucrados y las fases en un estudio estadstico
cantidad si hubiera un nmero infinito de repeticiones del proceso en esas condiciones. En situaciones en las que interesa estudiar el funcionamiento de un proceso que est operando en tiempo real, es importante la definicin de las muestras. El concepto de muestreo racional establece que un conjunto de subgrupos racionales o muestras son observaciones individuales cuya variacin es atribuible slo a un sistema constante de causas comunes. Cuando se estn estudiando los cambios en el proceso es necesario que las muestras se elijan de tal forma que las unidades en un grupo o muestra estn sujetas a causas comunes (que sean la misma poblacin), y que de grupo a grupo sean influidos de manera diferenciada, de esta forma la variabilidad dentro de grupos ser la variacin no explicada por las causas, y la variabilidad de grupo a grupo ser la variabilidad explicada. Se sugiere mantener un criterio de economa en el nmero de elementos por cada muestra, por lo que se recomienda 4, 5, 6 7 elementos tomados a intervalos de tiempo seleccionados aleatoriamente. En cada tiempo es recomendable tomar unidades sucesivas; la frecuencia con la que se deben recoger las muestras depende de la estabilidad del proceso, de la frecuencia con que se presentan eventos asociados a causas atribuibles, y del costo del muestreo. Hay algunos procesos en los que las muestras estn determinadas por la naturaleza del proceso. Por ejemplo, si se estudian las ventas diarias de un almacn, una forma racional de definir el muestreo es tomando los datos de cada semana, entonces sta sera de tamao 6 7, dependiendo del nmero de das que funcione la tienda. De semana a semana se tendra suficiente razn para pensar que habr causas atribuibles y adems se tendr un muestreo que producir muestras representativas.
Nominal: Un nmero en esta escala sirve slo para identificar a un individuo. El nmero hace las veces de nombre; para dos datos en esta escala slo es posible decir si son iguales o diferentes. Un ejemplo de una variable que se mide en escala nominal es el sexo, que podra producir datos del tipo 1 y 2, donde el 1 puede ser sexo femenino y 2 sexo masculino. Ntese que en el proceso de medicin hay que establecer cmo los nmeros se asocian a las categoras de la variable. En este caso la variable es dicotmica porque slo tiene dos categoras. Otro ejemplo: si estamos estudiando los municipios del Estado de Veracruz podra ser la variable zona; aqu primero hay que definir cuntas zonas hay, cules son y despus asignar los nmeros que correspondan. Ordinal: En esta escala los datos pueden ordenarse; es decir, de acuerdo a los nmeros asociados a dos individuos, uno no slo puede decir si son iguales o diferentes, sino que tambin cul est en un lugar ms abajo o ms arriba en la escala. Un ejemplo de variable que se mide en escala ordinal es el que se genera en muchas preguntas de opinin sobre un servicio: qu tanto le agrad el producto o servicio? Las categoras de respuesta podran ser 0= nada, 1= poco, 2= regular, y 3= mucho. Intervalo: Intervalo Los nmeros en esta escala permiten establecer distancias entre dos individuos. La diferencia entre los dos datos dir si estn cerca o lejos. En la escala de intervalo el cero es un valor que no significa ausencia de la caracterstica, sino que es colocado de forma arbitraria en algn lugar de la escala para tenerlo como referencia. Ejemplos tpicos de variables medidas en escala de intervalo son la temperatura y la dureza de los metales. Aqu hay varias escalas que establecen un cero relativo. En el caso de la temperatura es conocido que cero grados centgrados es diferente que cero grados Fahrenheit; cada cero en cada escala tiene un significado fsico diferente. Razn: Razn Esta escala es la ms fuerte en el sentido de que es posible establecer un porcentaje de diferencia entre dos datos. Aqu el cero significa ausencia de la caracterstica que se est midiendo; es decir, el cero es absoluto. En la escala de razn se miden variables cuantificables, la gran mayora de naturaleza continua, como pesos, longitudes, cantidades, etctera. Resumiendo: los datos son de cuatro tipos distintos, dependiendo de la escala a la que correspondan, adems pueden referirse como discretos o continuos. Los nominales u ordinales son discretos, porque al medir un conjunto de individuos los valores que pueden tomar los datos forman un conjunto numerable. Los datos continuos, en cambio, toman valores de conjuntos infinitos, aunque la precisin de los aparatos de medicin nos
58
obliga siempre a referir conjuntos discretos de posibles valores, por eso decimos que los datos son slo en su naturaleza continuos.
previamente especificados, lo que nos permitira tener el proceso bajo control estadstico. Cabe hacer notar que causas atribuibles pueden ser tambin condiciones del medio, materiales y las mismas personas; todos aquellos factores que concursen en la operacin del proceso y que puedan afectar la respuesta.
Especificaciones del proceso Materiales y personas Realizacin u operacin del proceso Condiciones del medio
Proceso en control
Los grficos de control son una valiosa herramienta para monitorear los procesos una vez que se tiene informacin suficiente sobre su funcionamiento normal. La vigilancia de los procesos, para que se mantengan bajo control, es una actividad importante en la administracin de la calidad. En el captulo quinto se presentan los grficos de control ms populares y tiles en las etapas preliminares de control estadstico de procesos.
60
La estadstica nos dota de principios, tcnicas, procedimientos y mtodos para recopilar datos, analizarlos y obtener de ellos conclusiones vlidas y tiles. En este contexto hay un conjunto de herramientas bsicas, que s son utilizadas de acuerdo a objetivos claros nos pueden ayudar a identificar posibles problemas, a priorizar su importancia y a plantear e instrumentar medidas correctivas. A continuacin se presenta una serie de herramientas que son de utilidad en las fases iniciales del trabajo con los procesos, entendiendo que un proceso es una secuencia de tareas o actividades que tienen un fin especfico. Estas herramientas son sencillas de aplicar, pero la clave del xito radica en saber cul es la ms apropiada para utilizar en una situacin especfica y cul es la forma correcta de usarla. Se asegura que particularmente en el contexto del trabajo organizacional y en las tareas de mejoramiento de la calidad permiten resolver un porcentaje muy alto de los problemas que con el tiempo perjudican el logro de las metas y los objetivos organizacionales. Hay muchos estudios que demuestran que ms de 80% de los problemas en el mbito laboral, en las ms diversas organizaciones, se pueden diagnosticar y resolver satisfactoriamente utilizando estas herramientas. De hecho, en Japn y en muchas empresas de Estados Unidos de Norteamrica, los obreros y los trabajadores de todos los niveles las utilizan cotidianamente. Basados en este hecho se est promoviendo su aprendizaje y aplicacin en los niveles de educacin media superior y superior.
61
Inicio
Decisin S Final
No
Esta herramienta puede ser aplicada en mltiples situaciones, por ejemplo en la elaboracin de una factura, en el flujo de mercanca o los pasos necesarios para hacer una venta, as como para entender y analizar el proceso de distribucin de un producto. Tambin resulta de utilidad para comprender y desarrollar algoritmos eficientes para tareas complejas. Para elaborar un diagrama de flujo tenga siempre en cuenta los siguientes consejos:
62
1. Definir claramente los lmites del proceso. 2. Utilizar los smbolos ms sencillos posibles. 3. Asegurarse de que cada paso tenga una salida. 4. Por lo general solamente sale una flecha de los bloques de proceso, de no ser as podra requerirse el uso de un bloque de decisin. Ejemplo 1: Para el levantamiento de una encuesta, cuando se utiliza muestreo por cuotas, a cada encuestador se le pide que entreviste a un nmero de personas que cumplan con ciertas condiciones previamente definidas, de acuerdo con las tipologas que el estudio considere. As pues, el encuestador debe cumplir con las cuotas que se le asignen. Por ejemplo, la cuota puede consistir en entrevistar a cinco estudiantes de cada grupo, tres mujeres y dos hombres. Para capacitar a los encuestadores puede usarse el diagrama de flujo que se presenta a continuacin.
Inicio Seleccione un estudiante Haga la pregunta respecto de la edad Verifique que el estudiante corresponde a la cuota asignada D por concluido, agradeciendo
Corresponde?
No
S Efecte la entrevista
No
Se cubri la cuota?
Final
63
Ejemplo 2: El grfico que se presenta ahora ilustra con un diagrama de flujo el proceso que debe seguirse cuando se desea ver un programa de televisin.
Aparece la imagen
No
Es buena la imagen
Aparece la imagen
No
Llamar tcnico
Ver programa
Grfico 4.3 Diagrama de flujo para el proceso que se sigue para ver un programa de televisin
procedimientos, personal y plantas. Estas categoras son slo sugerencias, y el diagrama se adapta a la naturaleza y complejidad del problema.
Efectos
De una bien definida lista de causas, las ms comunes son identificadas y seleccionadas para un anlisis mayor; a medida que se examine cada una, intente ubicar todo lo que influye o pueda influir. La elaboracin de un diagrama de causaefecto exige creatividad y buen conocimiento del proceso; su creacin es una tarea que se desarrolla mejor en forma colectiva, con la participacin de todos los involucrados en el proceso. Para elaborar un diagrama de este tipo se recomienda seguir los siguientes pasos: 1. Genere la informacin que permita identificar las causas necesarias a fin de construir un diagrama de causaefecto, de alguna de las siguientes maneras:
Lluvia de ideas estructurada acerca de las posibles causas (sin preparacin previa). Pdale a los miembros del equipo que utilicen hojas de inspeccin simples para ubicar las posibles causas y examinar cuidadosamente los pasos del proceso de produccin.
Coloque la frase descrita que identifica el problema en el cuadro de la derecha. Por pasos, de acuerdo al proceso o problema que se est analizando, anote por categora las causas principales o bien cualquier causa que sea til organizar, considerando los factores ms importantes. Coloque en forma apropiada, en categoras principales, las ideas generadas durante la lluvia de ideas. Para cada causa pregntese por qu sucede?, y liste las respuestas como ramificaciones de las principales causas.
65
3. Interprete. Con el fin de encontrar las causas ms elementales del problema, se recomienda lo siguiente:
Observe las causas que aparecen repetidamente. Llegue al consenso con el grupo, sometiendo el diagrama a un anlisis colectivo. Rena informacin para determinar las frecuencias relativas de las diferentes causas. Para ello son de mucha utilidad la hoja de registro y el diagrama de Pareto, que se expondrn ms adelante.
Ejemplo 3. Este ejemplo fue desarrollado por los miembros de los departamentos de Control de Calidad y Garanta de Calidad de la Central Nuclear de Laguna Verde (VeracruzMxico). Se realiz como una prctica con base en una lluvia de ideas, que fue coordinada por uno de los autores del presente libro (ver Grfico 4.5).
Descalibrado
Inadecuado
OPERADOR
LUBRICANTES
Proveedor
Falta de capacitacin
Proveedor
Almacenamiento
BALEROS
INSPECTOR
Almacenamiento
Falta de capacitacin
Desgastada Inadecuada
HERRAMIENTA
TCNICO
Cansancio Mala seleccin del punto de ajuste Ballenazo Mala seleccin de protecciones
FALTA DE PROTECCIN
AMBIENTE BALLENAZO
MANTENIMIENTO
CONEXIONES INVERTIDAS
Inadecuado
DISEO
Mal diseo
Mala compra
Degradada
Finalizada
Tornillos flojos
Bandas flojas
Ausencia Inadecuada
ESPECIFICACIONES DE COMPRA
VIDA TIL
DESALINEAMIENTO
Presentacin inadecuada
INSPECCIN
EQUIPO
MTODOS MTODOS
66
Este diagrama es de mucha utilidad como instrumento para involucrar a los miembros de un equipo en la solucin de un problema. Para su elaboracin considere las siguientes recomendaciones:
Procure no ir ms all del rea de control del grupo a fin de minimizar posibles frustraciones. Si las ideas tardan en llegar, utilice las principales categoras de causas como catalizadores. Sea conciso, use pocas palabras. Asegrese de que todos estn de acuerdo con la frase descriptiva del problema.
El tipo de diagrama de causaefecto ms utilizado se construye colocando las causas individuales dentro de cada categora principal y formulndose la pregunta: por qu sucede esta causa? para cada punto. Los diagramas de causa y efecto pueden adoptar formas particulares de acuerdo con las necesidades, por ejemplo: 1. Clasificacin segn el proceso. Listar secuencialmente todos los pasos de un proceso. 2. Enumeracin y organizacin de causas. Permite enumerar todas las causas posibles, las cuales son organizadas en categoras de causas principales.
Las hojas de inspeccin son formas fciles de comprender para contestar a la pregunta: Con cunta frecuencia ocurren ciertos eventos? Empieza entonces el proceso de convertir opciones en hechos. Para la elaboracin de una hoja de inspeccin se requiere lo siguiente: 1. Estar de acuerdo sobre qu evento exactamente est siendo observado. 2. Decidir el periodo durante el cual sern recolectados los datos. Esto puede variar de horas a semanas. 3. Disear una forma que sea clara y fcil de usar. Asegrese de que todos los campos estn claramente descritos y de que haya suficiente espacio para registrar los datos. 4. Obtener los datos de una manera consistente y honesta. Asegrese de que se ha dedicado el tiempo necesario para esta labor. 5. Asegrese de que la muestra de observaciones o el colectivo de casos sea representativo. 6. Reafirme que el proceso de muestreo sea eficiente y prctico, de manera que las personas tengan tiempo y todas las indicaciones necesarias para hacerlo. 7. La poblacin (universo) a ser muestreada debe ser homognea; si no lo es, el primer paso debe ser la estratificacin (agrupacin). Los datos agrupados permiten verificar las causas atribuibles que producen variabilidad, si es que hay diferencias entre los estratos. Ejemplo 4: En la Tabla 4.1 se presenta la propuesta de una hoja para registrar los datos de la entrega de desayunos escolares en comunidades apartadas del estado de Veracruz, Mxico. Se llenara una hoja para cada caso de entrega, despus se podra hacer un concentrado de los datos en otra hoja de inspeccin (o de registro) en la que nicamente se registraran los casos de retraso con su causa principal.
Orden: Fecha de la orden: Fecha de recepcin: Turno de recepcin: Fecha de despacho: Turno de despacho: Fecha de entrega: Situacin de la entrega: Monto del pedido: Observaciones: Certific:
Tabla 4.1 Forma de registro para un caso de entrega de desayunos escolares
68
Si para cada evento observado, por ejemplo cuando tenemos un retraso, se anota la causa principal, podramos disear una forma de registro como la que se presenta en la Tabla 4.2, en la que tendramos concentrados de las causas por turno, suponiendo que el turno fuese un factor a vigilar. La estructura de la tabla es el resultado de planear los factores que se desea estudiar y vigilar. Se ha establecido previamente el tipo de problema y la estrategia de anlisis, lo cual permite incluir en la tabla toda la informacin necesaria para la posterior toma de decisiones.
Causa de retraso Retraso en recepcin Retraso en despacho Retraso por dificultad de surtido Retraso por transporte Otra
Total 31 30 41 9 6
Tabla 4.2 Hoja de registro en la que se resume la frecuencia de cada una de las causas de retraso, segn el turno
69
Estrato econmico Frecuencia Porcentaje Bajo-Bajo 26 26 Bajo-Medio 22 22 Bajo-Alto 15 15 Medio-Alto 7 7 Medio-Bajo 20 20 Medio-Alto 5 5 Alto 5 5 Total 100 100
Tabla 4.3 Distribucin de frecuencias por estratos socioeconmicos de la muestra de cien estudiantes
30
Porcentaje
20
Medio-Medio
Medio-Alto
70
Alto
Pareja
Antigedad Z
Gasto-alimentaGasto -alimentacin X2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2
231 233 245 231 243 234 240 231 234 224 255 252 245 255 267 213 211 216 220 217 210 209 210 218
169 159 164 160 170 160 158 162 155 153 175 171 178 178 178 145 149 164 152 143 148 145 145 149
65 65 69 65 70 62 66 67 62 64 67 54 51 57 57 64 60 61 64 57 60 58 58 60
201 193 206 191 203 190 203 195 195 193 210 211 210 211 223 184 180 184 185 180 179 177 178 182
En el cuadro anterior se presentan las mediciones de matrimonios seleccionados en un sector de clase mediaalta. Con la entrevista se obtuvieron datos sobre las variables: Z_ antigedad de la pareja, el valor 1 se asigna a la pareja que tiene 5 aos de casados o menos (baja antigedad) y de otra forma se asigna el valor 2 (alta antigedad): X1 = Ingreso semanal del hombre; X 2_gasto semanal de la pareja en alimentacin; X 3 _gasto semanal en recreacin; X4 _ingreso semanal de la mujer.
208
216
224
232
240
248
256
264
Grfico 4.7 Diagrama de puntos para el ingreso semanal del hombre (X 1), en la pareja
71
El diagrama de puntos es de gran utilidad y de suma sencillez para tener una primera visin de la distribucin de una variable continua o de conteo. Presenta los rangos de variacin de los datos, as como una primera imagen de la forma de la distribucin. Asimismo, da la posibilidad de identificar de manera preliminar valores atpicos. Su uso se recomienda para cuando el nmero de datos es pequeo (n30), aunque pueda usarse tambin para grandes volmenes de informacin. Sin embargo, en este ltimo caso otras tcnicas pueden estar en ventaja. Este diagrama es tambin til para hacer comparacin de una caracterstica en distintos grupos. En el Grfico 4.8 se presenta la comparacin del ingreso semanal para hombres y mujeres.
Gnero
Hombre Mujer 182 196 210 224 238 252 266 Ingreso semanal
Grfico 4.8 Diagrama de puntos para la comparacin del ingreso semanal para hombres y mujeres
Se aprecia que la distribucin de los ingresos de las mujeres tiene su valor central ms a la izquierda que el de los hombres, indicando que stas tienen, en general, un ingreso menor al de ellos. Otro ejemplo se da en la comparacin del gasto semanal para la recreacin del grupo familiar, tomando en cuenta la antigedad de la pareja.
Antigedad (Z)
Grfico 4.9 Diagrama de puntos, comparativo de los gastos en recreacin segn antigedad de la pareja
72
En el Grfico 4.9 podemos ver notorias diferencias entre las distribuciones del gasto en recreacin, sobre todo en lo que a la variacin se refiere; ste tiene menor variacin en las parejas de mayor antigedad, aunque en cuanto al valor central (media) no parece existir mucha diferencia.
Lluvia de ideas: discutir y llegar a un consenso para establecer cules Utilizando los datos existentes: para establecer las reas problemson los principales problemas. ticas ms importantes se deben revisar los informes generados durante el mes pasado.
3)Seleccione el periodo a ser estudiado: ocho horas, cinco das, cuatro semanas, etctera. 4)Rena los datos necesarios de cada categora: el retraso debido a la causa A ocurri 19 veces en los ltimos seis meses; o bien, el retraso por razones imputables a la causa A origin un costo de $18,000,000 en los ltimos tres meses. 5) Compare la frecuencia o costo de cada categora respecto a las dems: la causa de retraso A ocurri 75 veces, la causa B 107 y la causa C ocurri 23 veces; o bien, el costo anual atribuible a la causa A es de $32,000 y el costo asociado a la causa B fue de $46,000. Todos los datos pueden obtenerse de las hojas de registro apropiadas. 6) Enumere, en orden decreciente de frecuencia o costo, y de izquierda a derecha sobre el eje horizontal, las diferentes categoras; las que contengan nuevas categoras pueden ser combinadas en la categora denominada otros, la cual es colocada al extremo derecho de la clasificacin. 7)Arriba de cada categora o clasificacin (eje horizontal) dibuje una barra cuya altura represente la frecuencia o costo de esa clasificacin. En la elaboracin del diagrama y para su correcta interpretacin se sugiere las siguientes recomendaciones: a) Los datos de las frecuencias o los costos de las categoras son comnmente representados en el eje vertical izquierdo y su respectivo porcentaje en el eje vertical derecho. Asegrese de que los dos ejes estn a escala, por ejemplo: 100% de la escala del eje vertical derecho es equivalente al costo o a la frecuencia total representada en el eje vertical izquierdo; 50% equivale a la mitad del valor total representado, etctera. b) Desde la esquina superior derecha de la barra ms alta, y movindose de izquierda a derecha a travs de las categoras se puede trazar una lnea que nos muestre la frecuencia acumulada de las categoras. Haciendo esto se pueden contestar preguntas tales como: cunto del total est representado por las tres primeras categoras? c) Utilice el sentido comn; los eventos ms frecuentes o ms costosos no son siempre los ms importantes, por ejemplo: dos accidentes fatales requieren ms atencin que cien cortaduras en los dedos. d) Marque el diagrama claramente para mostrar el patrn de medicin ($, % #).
74
Frecuencias 41 31 30 9 6
Tabla 4.5 Distribucin de frecuencias de las causas de los retrasos en la entrega de los desayunos escolares
Se hace evidente que las tres primeras causas son responsables de casi 90% de los retrasos. Si se eliminaran las dos primeras causas se reducira ms de la mitad de los retrasos.
120 100 80
100 80 60
Frecuencia
60 40 20 0 40 20 0
Falta surtido
Recepcin
Despacho Transporte
Otras
Grfico 4.10 Diagrama de Pareto para las causas de retraso en los desayunos escolares
Porcentaje
Para elaborar un diagrama de tallos y hojas se siguen los siguientes pasos: 1. Se seleccionan los tallos, que son clases de valores. Generalmente son los dgitos a la izquierda de las cifras. 2. Se traza una lnea horizontal y a la izquierda se escriben los tallos. 3. Se apilan las hojas a la derecha de los tallos, conforme se revisan los datos. 4. Se ordenan las hojas. La adecuada eleccin de los tallos es fundamental en la visualizacin de las caractersticas relevantes de la distribucin. Ejemplo 7: De los expedientes de los supervisores operativos se registra la edad en aos cumplidos de cada uno a la fecha de la revisin. Los datos son: 30, 31, 30, 38, 38, 27, 25, 29, 35, 35, 36, 31, 31, 45, 44, 32, 33, 33, 28, 29, 29, 34, 34. El diagrama sera:
Tallos
2 3 3 4 4 Hoja = 1
Hojas
5 7 8 9 9 9 0 0 1 1 1 2 3 3 4 4 5 5 6 8 8 4 5 Mnimo Mximo Total:
Clase
6 10 5 1 1 25 45 23
Percentiles
25% Mediana 75%
Grfico 4.11 Diagrama de tallos y hojas de los datos de las edades de los supervisores 4.11
ste es un diagrama con 5 tallos de hojas posibles; para 3 son 0, 1, 2, 3, 4 y para 3 son 5, 6, 7, 8 y 9. Puede observarse que en este diagrama no slo tenemos los valores concretos de los datos, sino tambin la forma de la distribucin que se construye con los propios nmeros. Ejemplo 8: En un almacn regional se registraron, en miles de pesos, los montos de 50 pedidos que se efectuaron durante el mes pasado. A continuacin se transcriben los datos: 20.8, 21.9, 20.7, 25, 22.8, 25.3, 22.5, 23.8, 20.9, 23.5, 23.7, 23.6, 25.1, 19.5, 24.2, 21.3, 23.1, 24.2, 19.8, 22.8, 19.7, 23.8, 23.8, 21.1, 21.6, 22.8, 22, 20.9, 22.2, 20.1, 20.7, 21.2, 23.3, 22.9, 19.5, 23.3, 19.0, 25, 24.1, 21.8, 21.5, 19.9, 24.1, 23.9, 23.9, 24.2, 20.7, 24.3, 20.9, 22.7.
76
Tallos
19 19 20 20 21 21 22 22 23 23 24 24 25 25
0 5 1 7 1 5 0 5 1 5 1 5 3 7 2 6 2 7 3 6 1 7 8 9
Hojas
Clase
1 5 2 7 3 4 2 6 2 8 6 0 4 0 19.0 25.3 50
Percentiles
7 8 9 9 9 3 8 9 8 8 8 9 7 8 8 8 9 9 2 2 2 3
25%
Mediana 75%
Hoja = 1
Grfico 4.12 Diagrama de tallos y hojas para el nmero de pedidos por mes
De acuerdo con lo que se aprecia en el diagrama de tallos y hojas anterior, los datos se encuentran dispersos en todo el rango de una manera ms o menos uniforme, aunque se observa una ligeramente mayor concentracin hacia los valores mayores.
en dos conjuntos que tienen el mismo nmero de datos. En el caso de nmero par de datos, entonces se toma el promedio de los que ocupan las posiciones centrales adyacentes o a la cuarta y tres cuartas partes. Para los datos del ejemplo de las edades de los supervisores operativos n = 23, la mediana resulta el dato que est en el lugar 12 de la muestra ordenada; es decir, Med = 32. Asimismo Q 1 = 29 y Q3 = 35. A una grfica de tallos y hojas se le puede agregar mayor informacin con respecto a la distribucin de los datos y se puede combinar con una tabla de distribucin de frecuencias. El siguiente ejemplo hipottico se refiere a la cantidad gastada en una tienda por 100 personas; las cantidades estn medidas en pesos mexicanos sin centavos (redondeadas).
Frecuencia 3 3 10 7 1 17 24 13 12 2 3 3 1 1
Porcentaje acumulado 0.03 0.06 0.16 0.23 0.24 0.41 0.65 0.78 0.90 0.92 0.95 0.98 0.99 1.00
Tallos 0 * 1 * 2 Q1 * Med. 3 Q3 * 4 * 5 * 6 *
Hojas 124 679 0111223344 5567789 4 55556677778888899 000111111112222222334444 5556667778889 000111112222 56 234 558 4 7
Grfico 4.13 Distribucin de frecuencias y diagrama de tallos y hojas de los datos de ventas de una tienda
El Grfico 4.13 contiene las frecuencias acumuladas y es posible identificar en qu tallos se encuentran ubicados los cuartiles y la mediana. Por otro lado, la forma de la distribucin es perfectamente percibida; se pueden identificar adems otros indicadores de centralidad como el tallo moda, es decir, el que mayor frecuencia presenta. Como puede intuirse, el diagrama de tallos y hojas tiene la limitacin de que para un volumen grande de datos (n > 200) el manejo y la disposicin de los dgitos se hace difcil, aun en el caso de realizarlo a travs de un paquete estadstico. Ante esta circunstancia es recomendable utilizar el histograma o el grfico de caja, tcnicas que se presentan a continuacin.
78
4.9 Histograma
Es quiz la representacin grfica para datos continuos que ms se conoce. En todos los cursos de estadstica se ensea a elaborar una tabla de distribucin de frecuencias y a partir de ella construir un histograma. Para elaborarlo debemos tomar algunas decisiones: 1) el nmero y tamao de las barras y 2) las escalas de los ejes; normalmente se recomienda seleccionar entre 8 y 20 barras, pero no hay nada definitivo al respecto. Al igual que en el diagrama de tallos y hojas, la eleccin de las clases determina la visualizacin de los aspectos sobresalientes de la forma de la distribucin de los datos. Al construir un histograma se deben tomar en cuenta los siguientes aspectos: 1. La escala de valores define la escala de la abscisa. 2. El eje de las ordenadas est definido por la escala de las frecuencias. 3. Se debe guardar la proporcin (3/4) del tamao del eje de la ordenada con respecto al tamao del eje de la abscisa. 4. Las barras deben ir contiguas, compartiendo los lmites de clase superior de la primera e inferior de la sucesiva. 5. El histograma debe contener ttulo y una descripcin breve al pie, indicando fuente y datos relativos. Ejemplo 9: Para ilustrar considere los datos hipotticos que representan el nmero de supervisiones realizadas por cada uno de los supervisores operativos en una fbrica durante el ltimo ao: 63, 88, 79, 92, 86, 87, 83, 78, 41, 67, 68, 76, 46, 81, 92, 77, 84, 76, 70, 66, 77, 75, 98, 81, 82, 81, 87, 78, 70, 60, 94, 79, 52, 82, 77, 81, 77, 70, 74, 61. La distribucin de frecuencias para clases de tamao cinco es como se muestra en el Grfico 4.14.
Intervalo de clase 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
Lmites 39.5-44.5 44.5-49.5 49.5-54.5 54.5-59.5 59.5-64.5 64.5-69.5 69.5-74.5 74.5-79.5 79.5-84.5 84.5-89.5 89.5-94.5 94.5-99.5
Punto medio 42 47 52 57 62 67 72 77 82 87 92 97
Frecuencia 1 1 1 0 3 3 4 11 8 4 3 1
Frecuencia acumulada 1 2 3 3 6 9 13 24 32 36 39 40
Porcentaje acumulado 2.5 5.0 7.5 7.5 15.0 22.0 32.5 60.0 80.0 90.0 97.5 100.0
79
El tamao y nmero de las barras puede influir sustancialmente en la visin que el histograma despliegue respecto de las caractersticas sobresalientes de la distribucin. En los grficos que se muestran a continuacin se despliegan los histogramas sobre el mismo lote de datos, pero variando el nmero de barras. Observe las diferencias entre ellos; entre menos intervalos se construyan menos informacin se retiene de los datos. Sin embargo, demasiados intervalos pueden generar huecos (intervalos sin datos) que distorsionan la forma del despliegue grfico.
HISTOGRAMA HISTOGRAMA 16 14 12 Frecuencia 10 8 6 4 2 0 <= 50.5 (50.5-60) (60-69.5) (69.5-79) Intervalos (79-88.5) > 88.5
Grfico 4.14 Histograma para los datos hipotticos considerando seis intervalos
HISTOGRAMA HISTOGRAMA
10
Frecuencia
8 6 4 2 0
Grfico 4.15 Histograma para los datos hipotticos considerando trece intervalos
<=
.56 6) 93 3.5 > -9 ) 8 .18 9.1 (89 -8 .8 ) (84 4.8 -8 2) .42 0.4 (80 -8 .04 4) (76 6.0 -7 ) .66 1.66 (71 -7 .28 8) (67 7.2 -6 ) .9 2.9 (62 -6 .52 2) (58 8.5 - 5 4) .14 4.1 (54 - 5 .76 6) (49 9.7 -4 .38 (45 .38 45
Intervalos
80
HISTOGRAMA HISTOGRAMA 24 22 20 18 16 14 12 10 8 6 4 2 0
Frecuencia
<= 55.25
(55.25-69.5)
(69.5-83.75)
> 83.75
Intervalos
Grfico 4.16 Histograma para los datos hipotticos considerando cuatro intervalos
Tal como ya hemos visto en el Diagrama de Pareto, es muy til mostrar en forma de grfico de barras las caractersticas de un producto o servicio; por ejemplo, tipo de retraso, problemas y riesgos de seguridad en los almacenes regionales, etc. (datos de atributo o cualitativos). Un histograma se debe utilizar cuando los datos son de escala de intervalo o razn; por ejemplo, temperatura, mediciones de tiempos, ventas, prdidas, entre otros. El propsito del histograma, al igual que el diagrama de tallos y hojas y el grfico de cajas, es mostrar la distribucin de los datos. Un histograma revela la cantidad de variacin propia de un proceso.
HISTOGRAMA HISTOGRAMA
40
Frecuencia
30
20
10
3.3
3.4
3.5
3.6 Grosor
3.7
3.8
3.9
4.0
81
Muchas muestras tomadas aleatoriamente de un proceso bajo control estadstico siguen un comportamiento o patrn, en el que la concentracin est alrededor del centro y pocos datos estn en los extremos. A este patrn se le conoce como distribucin normal (ver Grfico 4.17). Otros muestran distribuciones con muchos datos apilados en puntos lejos del centro; este tipo de distribucin es conocida como sesgada. No siempre se debe esperar que la distribucin de los datos siga el patrn de la distribucin normal. Con el histograma, adems de conocer la forma de la distribucin, puede conocerse: a) Si la dispersin de la distribucin cae dentro de las especificaciones; si no es as, a travs del histograma podemos darnos cuenta de qu cantidad se ubica fuera de las mismas y valorar la gravedad de la situacin. b) Si la distribucin est centrada en el lugar debido; es decir, si su media corresponde a la de un proceso bajo control, de acuerdo con las especificaciones, se puede saber si la mayora de los datos cae en el lado izquierdo o en el derecho de la escala.
Situacin a)
Variabilidad Grande Grfico 4.18 Histograma para dos posibles estados de un mismo proceso
En la situacin a) hay ms concentracin de datos alrededor del centro que en la situacin b).
82
Situacin c)
Sesgo Negativo
Cuando se elabore e interprete un histograma es necesario considerar los siguientes aspectos: 1. El nmero de clases (barras en la grfica) puede determinar el tipo de imagen en la distribucin. 2. Las distribuciones de algunos procesos son sesgadas por naturaleza. No espere que cada distribucin sea normal. 3. Analice detenidamente el tipo de distribucin obtenida y su ubicacin con respecto a los lmites de especificacin. Observe la distribucin con el fin de tener una idea de su variabilidad y sobre el porcentaje de no conformidades o puntos fuera de las especificaciones. Observe si la distribucin es multimodal,2 lo que significara que la informacin proviene de dos o ms fuentes diferentes; por ejemplo, regiones, almacenes, etc. Aqu se recomendara un anlisis estratificado, tema que se considerar ms adelante. El histograma es una de las tcnicas grficas ms populares, tiene la ventaja de agrupar datos en clases y presentar los rasgos generales de la forma de la distribucin, por lo que su uso se recomienda para problemas con grandes cantidades de datos (n > 50). La decisin central en la elaboracin de un histograma est en la definicin del tamao y nmero de clases que determina una buena o mala representacin grfica de los datos. Para tal decisin hay desde recomendaciones generales hasta frmulas; aunque con el advenimiento del software grfico han pasado a tener cada vez menor valor, pues el analista puede realizar varias versiones de un
2
83
histograma y quedarse con aqul que mejor represente los datos. Sin embargo, una recomendacin tan reconocida como apropiada (Ryan, 1982), es tomar un nmero a de intervalos tal que 2a-1 n < 2a. As por ejemplo, para n = 100, 26 100 < 27, y entonces deberamos usar siete clases.
Mximo M
Q3 + 1.5AI
Q3
AI = Q3 - Q1
Mediana = Q2
Q1
m Mnimo
Q1 - 1.5AI
Con base en el ejemplo sobre la edad de los supervisores, a continuacin se representa la distribucin de los datos en una grfica de caja y alambres.
50 46 42
Punto Atpico
Edad
38 34 30 26 22
Grfico 4.21 Grfica de caja para los datos de las edades de los supervisores operativos
85
En el Grfico 4.21 se puede observar la presencia de un punto atpico (outlier), el cual corresponde a una edad de un supervisor de 45 aos. La cruz que aparece entre Q2 (32 aos) y Q3 (35 aos) representa la edad media de los supervisores con un valor de aproximadamente 33 aos. Ejemplo 10: Para analizar el puntaje que se debera asignar a reconocimientos escolares en el Programa de Carrera Magisterial, se decidi hacer un estudio del comportamiento de esta variable. De una lista de profesores participantes en el programa se seleccion al azar a 14 profesores. Se les aplic una revisin curricular. Los resultados fueron: 25, 38, 29, 42, 39, 69, 8, 33, 45, 45, 26, 34, 30, 31. En primer lugar se debe obtener los tres cuartiles correspondientes a esta muestra, para lo que se ordenan los datos en forma ascendente.
8 25 (1) (2) 26 29 30 31 33 34 38 39 42 45 45 69 (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14)
Los nmeros entre parntesis corresponden al orden que ocupa cada uno de ellos. Los cuartiles se descubren calculando la posicin que ocupan. As pues: el segundo cuartil Q2, (mediana), ocupa la posicin (14+1)/2 = 7.5; es decir, entre el 7 y el 8 dato; para evitar esta complejidad se saca el promedio de los dos datos que ocupan esas posiciones: Q2 = (33+34)/2 = 33.5. Para hallar el primer cuartil Q1, se trata ahora de encontrar la posicin de la mitad de la mitad, por lo tanto se considera la posicin truncada que dio el clculo del segundo cuartil, en este caso 7, y se procede a identificar en forma anloga, considerando los primeros siete datos; as, la posicin que ocupar el primer cuartil ser: (7+1)/2 = 4. Es decir, . que el primer cuartil Q1 es el dato que ocupa la 4a posicin, o sea Q1 = 29. Note que si el nmero de datos es impar el segundo cuartil Q2 resultar ser un dato de la muestra. En este caso, para calcular la ubicacin del primer cuartil Q1 se toma en cuenta los datos que quedaron antes del segundo cuartil, excluyendo el dato que result ser el segundo cuartil Q 2 . El tercer cuartil Q3, por perfecta simetra, ser el que ocupe la 4a posicin pero de atrs hacia delante; es decir, el dato que ocupa la 11a posicin, o sea Q3 = 42. Para la construccin de un diagrama de caja y alambres se requiere de algunos clculos adicionales basados en los cuartiles ya encontrados, como se expresa a continuacin: Amplitud intercuartlica (AI) Longitud mnima = 8
86
AI = Q3 Q1 = 42-29 = 13
Longitud mxima = 69 Valor adyacente inferior (VAI) = Q11.5(AI) = 29-1.5(13) = 9.5 Valor adyacente superior (VAS) = Q3+1.5(AI) = 42+1.5(13) = 61.5 Note que en este caso particular, el punto mnimo (8) est por debajo del VAI, por lo tanto es un posible valor atpico; tambin lo es el mximo (69) puesto que supera al VAS, por esta razn los puntos interiores ms cercanos al VAI y al VAS son 25 y 49, respectivamente. Estos dos datos (25 y 49) definen la longitud de los alambres que van pegados a la caja. Se le pide al lector que considerando estos datos construya el diagrama. En resumen, puede decirse que los diagramas de caja y alambres son tiles para los siguientes propsitos:
Para localizar los datos alrededor de la mediana. Para hacerse una muy buena idea de la dispersin de los datos,
basndose en la longitud de la caja (rango intercuartlico), pues siempre la caja corresponde a 50% de los datos que estn en la parte central. Adems, se aprecia el rango de los datos, el cual corresponde a la distancia entre las observaciones ms extremas. Para tener una buena idea sobre el grado de asimetra de una distribucin, al comparar las dos porciones de la caja dividida por la mediana; igualmente comparando la longitud de los alambres respectivos. Para identificar posibles datos atpicos, los que no se encuentran entre VAI y VAS. Para comparar varias poblaciones a travs de sus distribuciones. En este caso se construye un diagrama para cada distribucin y se dibujan en una misma escala (sobre un mismo plano), lo cual permite fcilmente hacerse una idea de las semejanzas y diferencias de los rasgos ms importantes de las distribuciones. Esto ltimo se ilustrar en un ejemplo ms adelante.
est el gasto semanal de alimentacin para la familia.El cuadro de frecuencias que se construy con los 500 datos de gasto se presenta acompaado de su histograma y su diagrama de caja.
Desde (>)
Hasta (=)
Frecuencia
Frecuencia acumulada
Porcentaje
Porcentaje acumulado
6.00 18.90 31.80 44.70 57.60 70.50 83.40 96.30 109.20 122.10
18.90 31.80 44.70 57.60 70.50 83.40 96.30 109.20 122.10 135.00 Total
10.4 21.8 21.6 25.6 10.6 5.6 1.4 1.6 1.2 0.2 100.0
10.4 32.2 53.8 79.4 90.0 95.6 97.0 98.6 99.8 100.0
En el Grfico 4.22 se muestra un histograma en el que se aprecia la forma de la distribucin del gasto semanal de la familia en alimentos. Debe quedar claro que el diagrama de caja y alambre no permite ver aspectos de la forma de la distribucin, slo rasgos de simetra y rangos de concentracin de los datos. Por su parte, el Grfico 4.23 muestra el diagrama de caja correspondiente, donde se hace notorio lo sealado.
30 25 Porcentaje Porcentaje 20 15 10 5 0
0 [6. .9 [18 .0) 35 -1 2.1 .1) [12 22 -1 9.2 .2) [10 09 -1 .7 [44 .6 [57 .4 [83 .3 [96 .5 [70 .8 [31 ) 8.9 -1 ) 4.7 -4 ) 1.8 -3 ) 7.6 -5 ) 0.5 -7 ) 6.3 -9
) 3.4 -8
88
140 120 100 Dlares/Semana 80 60 40 20 0 G-Ali-Semana Grfico 4.23 Diagrama de caja y alambres para la distribucin del gasto semanal en alimentacin
Puntos Atpicos
En el grfico anterior se observa que 25% de las familias tiene un gasto semanal en alimentacin de 30 dlares o menos, la mitad tiene un gasto semanal en alimentacin de 40 dlares o menos y 75% de ellas tiene un gasto semanal en alimentacin de 54 dlares o menos; de igual forma se observa que el gasto semanal promedio es de 43.24 dlares. Ejemplo 12: En una industria azucarera se han tomado muestras de jugo diluido, a las cuales se les ha medido entre otras caractersticas brix, sacarosa y pureza. En el Grfico 4.24 se muestran los histogramas con sus respectivos lmites de especificacin, as como los diagramas de caja correspondientes.
20
Lmite de especificcin
12
12.5
13
89
Sacarosa
Cuantil
100.0% mximo 99.5% 97.5% 90.0% 75.0% cuartil 50.0% mediana 25.0% cuartil 10.05 2.5% 0.5% 0.0% mnimo 13.808 13.808 13.680 13.381 13.084 12.799 12.409 12.224 11.931 11.735 11.735
25
Lmite de especificcin
20 15 10 0 12 12.5 13 13.5 14
10.5
11
11.5
Pureza Cuantil
100.0% mximo 99.5% 97.5% 90.0% 75.0% cuartil 50.0% mediana 25.0% cuartil 10.05 2.5% 0.5% 0.0% mnimo 87.687 87.387 87.393 86.459 85.665 85.022 84.449 83.631 82.920 82.364 82.364
Lmite de especificcin
15 10 5
Como puede apreciarse en el Grfico 4.24, las tres variables: brix, sacarosa y pureza satisfacen los lmites de especificacin. Observe que en este grfico se combina el histograma y en su parte superior los diagramas de caja. A un lado se presentan las principales estadsticas descriptivas, para dar una visin ms completa de la situacin. A continuacin se presenta otra aplicacin de la grfica de caja cuando se tienen dos o ms grupos que se quiere comparar. A partir de las grficas de los grupos se puede observar si hay diferencias entre sus distribuciones en cuanto a simetra, tendencia y dispersin. De hecho se puede decir que en los anlisis comparativos es donde mayor potencial adquiere esta herramienta. Ejemplo 13: Ahora se pretende introducir un nuevo mtodo de abastecimiento a los almacenes rurales para disminuir las prdidas (mermas) en grano. Para ello se realizar un experimento en el cual se proveer a 10 almacenes con el mtodo tradicional y a otros 10 con un nuevo mtodo. Los datos de mermas por almacn se muestran en la Tabla 4.8. En el Grfico 4.25 se presenta la distribucin de frecuencias de las prdidas de grano, obtenidas como resultado de aplicar cada uno de los dos mtodos. Cada distribucin tiene asociado un diagrama de caja lo cual permite su comparacin inmediata.
90
Mtodo 1 (tradicional) 895 900 910 915 925 910 890 895 910 920
Mtodo 2 (nuevo) 895 915 910 890 915 920 920 905 900 910
Tabla 4.8 Merma registrada en los almacenes (kg) para cada mtodo de abastecimiento
En la comparacin de los dos diagramas de caja puede apreciarse que tienen medianas aproximadamente iguales; sin embargo, se notan diferencias en cuanto a la simetra y al rango, adems de un poco menos de variabilidad en el mtodo 2, aunque las diferencias parezcan casi imperceptibles.
930 925 920 915 910 905 895 890 885 Mtodo 1 Mtodo 2
Grfico 4.25 Comparacin de la distribucin de las prdidas de grano en cada uno de los mtodos, usando diagramas de cajas
A continuacin se presenta un ejemplo realizado en datos sobre el rendimiento de la caa de azcar, mismo que permite mostrar la potencialidad de los diagramas de cajas para descubrir el impacto de ciertos factores.
91
Ejemplo 14: En el cultivo de la caa de azcar se llama una suerte a un lote de terreno en el cual hay varias parcelas del cultivo a las que se les da el mismo tratamiento; es decir, cuando se cosecha se hace en todas las parcelas de la suerte. Igualmente cuando se arregla el terreno o cuando se siembra o se riega. El terreno de una suerte puede llegar a ser usado hasta para cuatro siembras consecutivas antes de ser acondicionado de nuevo (remover tierra, agregar abono, fertilizantes, etc.). Ya que con cada siembra el terreno se fatiga y eso se ver reflejado en la produccin de caa (o en la de azcar). Se han tomado datos de produccin de varias suertes que han estado sometidas a diferente nmero de cortes (o de siembras), las cuales tienen distinta procedencia (caa propia [1] o de proveedor externo [0]) o edad de corte (meses). Use un diagrama de cajas para comparar la distribucin de frecuencias de los rendimientos para las suertes de acuerdo con los diferentes criterios que se mencionan en el problema. Pregunta 1: El nmero de cortes que se haya hecho sobre un terreno, desde su ltimo acondicionamiento, afecta el rendimiento? Para dar respuesta a esta pregunta deben compararse las distribuciones del rendimiento para las poblaciones que tienen distinto nmero de cortes. A continuacin se hace la comparacin a travs de diagramas de cajas que aparecen en el Grfico 4.26.
160
120
100
80
60
40 1 2 Nmero de cortes 3
92
Es notorio que el nmero de cortes afecta considerablemente el rendimiento; note adems que la caa sembrada en un terreno con cuatro cortes tiene un rendimiento mediano de alrededor de 83 t/ha, mientras la de tres cortes tiene alrededor de 110 t/ha, la de dos cortes 130 t/ha y la de un corte tiene un rendimiento mediano de aproximadamente 143 t/ha.
Caa / ha
Ingenio
Grfico 4.27 Diagrama de cajas de la comparacin del rendimiento de acuerdo con el origen de la caa y el nmero de cortes en la suerte
Puede notarse adems que las distribuciones para los cortes 1, 2 y 3 tienen variabilidad muy parecida, mientras que la variabilidad de la distribucin del rendimiento para las de cuatro cortes es mayor. Observe que en esta situacin se han considerado en forma conjunta la produccin propia del ingenio y la de los proveedores externos, por eso surge de manera natural la siguiente pregunta: Pregunta 2: El comportamiento registrado en la situacin anterior es vlida independientemente de si el origen de la caa es ingenio o proveedor? Observe en la Grfica 4.27 las cajas sombreadas que corresponden a las distribuciones del rendimiento para caa del ingenio, mientras las blancas a proveedor externo. Se nota un comportamiento bastante similar; es decir, no parece existir diferencia en el rendimiento de la caa con respecto a su origen. Por su parte, los rendimientos medianos son consistentes, al igual que su variabilidad; no obstante se nota variabilidad ligeramente menor en la caa del ingenio, para todos los cortes.
93
Entonces encontramos que la edad de corte es otro factor que puede tener importancia, por lo tanto es pertinente la siguiente pregunta. Pregunta 3: Cul es la distribucin de la edad de corte, de acuerdo al origen de la caa y el nmero de cortes? Para dar respuesta a esta interrogante se construyen cajas para la variable edad de corte (meses), para cada una de las distintas subpoblaciones que resultan de la combinacin del nmero de cortes y el origen (procedencia), lo que se muestra en el Grfico 4.28.
Grfico 4.28 Distribucin de la edad de corte, segn nmero de cortes y procedencia de la caa
En esta situacin sera conveniente conocer ms sobre el fenmeno para tener claridad acerca de cul es la edad ptima de corte, que depende de la variedad de caa que se siembre. Supongamos que para este caso la edad de corte recomendada est entre 12.5 y 13.5 meses. A medida que la caa envejece va empobreciendo su contenido de sacarosa, que es en realidad lo que interesa. En estas condiciones podra decirse que en casi todos los casos se corta despus de 12.5 meses; sin embargo, un porcentaje muy grande se est cortando posterior a los 13.5 meses. Se sugiere entonces averiguar el impacto de este hecho sobre el rendimiento. Pregunta 4: Cmo afecta la edad de corte sobre el rendimiento de la caa en cuanto al volumen de caa cosechado? (note que aqu no sabremos el impacto en trminos del contenido de sacarosa, slo del rendimiento en relacin a la cantidad de caa colectada).
94
Dado que ya se conoce que el nmero de cortes es una variable importante, debe involucrarse en el anlisis para que no se convierta en un factor de confusin. De esta manera deben construirse las cajas para la distribucin del rendimiento, para cada categora de nmero de cortes y para la edad. Aqu la edad se ha categorizado en tres grupos: joven, madura y vieja. Veamos el resultado en el Grfico 4.29.
Edad (meses)
4.29 Grfico 4.29 Distribucin del rendimiento de la caa de azcar, segn edad y nmero de cortes
Observemos que para cada nmero de cortes hay tres grficos que corresponden a diferentes grados de madurez de la caa al corte, pero sistemticamente en cada uno de los grupos de tres grficos, la distribucin de la caa joven tiene un rendimiento mediano ms alto, seguido por la madura y, por ltimo, por la vieja, presentndose diferencias relativamente ms grandes en la caa de cuatro cortes. En esta comparacin est claro el impacto de la edad de corte. En la seccin correspondiente al anlisis estratificado, en este mismo captulo, se presenta una serie de comentarios para ser considerados cuando se sospecha que existen diferencias entre subgrupos que se formaran al dividir el colectivo de datos en las distintas categoras del factor de inters. Este tipo de anlisis ya fue aplicado en el ejemplo del rendimiento de la caa de azcar.
4321 21 4321 21 21
4321 4321
4321 4321
321 321
Joven Madura Vieja
desarrollo. Para construirla, la variable de inters debe estar registrada sobre unidades de tiempo bien definidas, aunque no necesariamente iguales se prefiere que s lo sean; por ejemplo, cada da, cada semana, etc. Normalmente se estudian variables como ventas, nmero de tareas, errores, accidentes, produccin, entre otras. De hecho la grfica de desarrollo es un caso particular de las denominadas grficas de series en el tiempo (a veces se les llama tambin de datos de series de tiempo). Este grfico se debe utilizar cuando se necesite mostrar, de la manera ms simple, las tendencias de puntos observados en un periodo determinado; por ejemplo, para comunicar la evolucin de las ventas. Tambin son usados para presentar visualmente datos sobre evolucin de un proceso; asimismo se utilizan para monitorear un sistema con el fin de detectar si el promedio a largo plazo ha cambiado. Los grficos de desarrollo son una herramienta muy simple para construir e interpretar. Los puntos son graficados de acuerdo con sus apariciones en el tiempo y el valor que toma la variable bajo estudio. El grfico 4.30 presenta el porcentaje de participacin en el mercado, de cierta empresa, considerando las ventas anuales de 1968 a 1977. Sin mucho esfuerzo puede apreciarse que la empresa ha tenido la tendencia a aumentar su participacin en el mercado en forma permanente desde 1968.
15.0 (%) Participacin de la empresa 14.5 14.0 13.5 13.0 12.5 12.0 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977
96
Un peligro al emplear un grfico de desarrollo es que a veces se cree que cada variacin en la informacin es importante. Este grfico, al igual que los dems, debe ser usado para enfocar la atencin en los verdaderos cambios vitales del sistema, los llamados patrones. Es por esto que uno de los usos ms importantes del grfico de desarrollo es identificar cambios o tendencias importantes en el promedio. Aunque el grfico de desarrollo es una herramienta muy sencilla, es conveniente tomar en cuenta las siguientes consideraciones para su uso:
El eje X es la lnea horizontal de la grfica y representa las unidades El eje Y es la lnea vertical de la grfica y representa la medicin o
de tiempo. bien la cantidad observada o muestreada en el tiempo especificado; a esto se le llama valores en la serie en el tiempo. Los puntos asociados con los datos deben ser conectados por lneas para facilitar su interpretacin. El periodo cubierto y la unidad de medicin deben ser claramente especificados y marcados en el grfico. Tambin es factible realizar un grfico de desarrollo comparativo. Esto es, puede realizarse un anlisis comparativo de ventas mensuales durante un ao. Un ejemplo de estos datos se presentan en la Tabla 4.9.
Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
Resulta notorio que a travs de una exploracin de los datos podemos ver el comportamiento de mayores ventas durante el ao 1990. Puede apreciarse tambin que la forma de las dos curvas es similar, lo cual habla bien de la consistencia respecto al efecto del factor poca del ao.
97
El paralelismo aproximado entre las dos curvas indica que las ventas se afectaron por un factor constante, aunque la mayor diferencia se aprecia en el mes de diciembre.
55 50 Unidades vendidas (en miles) 45 40 35 30 25 20 15 10 Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Variable Ventas 1989 Ventas 1990
Grfico 4.31 Grficas de desarrollo que comparan ventas mensuales en dos aos
existe una relacin de causaefecto entre dos factores. Existen varios mtodos estadsticos para llevar a cabo tales investigaciones, uno de ellos, sumamente sencillo y que permite hacer una primera evaluacin, es el diagrama de dispersin o correlograma. ste es una herramienta que posibilita hacer una inspeccin o anlisis grfico de dos factores que se manifiestan simultneamente en un proceso concreto.
Grfico 4.32 Correlograma entre capital de trabajo y ventas mensuales (en miles de pesos)
La construccin de un diagrama de dispersin es sencilla y puede realizarse manualmente, basta tener en consideracin los siguientes aspectos: 1) Una vez que se ha seleccionado los factores a ser investigados, se miden sus valores de manera simultnea y se registran en una hoja de datos adecuada. 2) Cuando se ha tomado la muestra de parejas con los valores de los dos factores se procede a representar a las parejas de valores en un plano cartesiano (eje x-y). 3) Si existen parejas de puntos repetidos y resulta uno que ya est graficado se traza un crculo sobre ese punto para indicar su repeticin. Si se vuelve a repetir se traza otro crculo concntrico y as sucesivamente. A veces se ponen nmeros que indican la frecuencia de puntos. Algunas recomendaciones adicionales en la construccin de un diagrama de dispersin son las siguientes:
no es por azar; por ello, se sugiere utilizar por lo menos veinte puntos, siempre que sea posible. Para seleccionar la escala ms adecuada se sugiere encontrar el punto mximo y el mnimo de ambos factores. Se debe escoger las unidades para ambos ejes de tal forma que sus extremos coincidan con el mximo y el mnimo del factor correspondiente; deben ser tan largos como sea posible, pero de tal forma que se despliegue un rectngulo donde el eje y sea 3/4 del eje x. Estas recomendaciones se deben considerar aun en el caso en que los grficos se produzcan con el apoyo de un graficador o paquete estadstico, sobre todo porque en general hay manera de distorsionar la visin de la relacin bajo estudio. En la interpretacin del despliegue grfico debe considerarse que una relacin negativa (si x aumenta, y disminuye) es tan importante como una relacin positiva (si x aumenta, y aumenta). Solamente puede afirmarse que x y y estn relacionadas y no que una causa la otra. La asociacin que se detecte es de naturaleza estadstica; establecer relaciones de causaefecto es una tarea ms complicada que implica fundamentos del marco terico del estudio. La relacin puede ser lineal o curvilnea. Para ayudar a la interpretacin de un correlograma o diagrama de dispersin se puede utilizar una medida de la relacin lineal entre las variables, la ms comn es el Coeficiente de Correlacin de Pearson, que es un nmero que est entre -1 y 1. Algunas imgenes asociadas a la interpretacin de estos coeficientes, dando nmeros aproximados, aparecen en el siguiente grfico.
r Y
0.5
Y
r 0.9 Y
r -0.9
a) r Y
b)
X r 0.3
c)
X r 0.0
0.0
Y
d)
e)
f)
Grfico 4.33 Diferentes despliegues grficos con los valores aproximados del Coeficiente de Correlacin de Pearson
100
A continuacin se indica cada una de las situaciones mostradas en el grfico anterior: a) Relacin lineal positiva moderada; b) Relacin lineal positiva alta; c) Relacin lineal negativa alta; d) Relacin nula; e) Relacin curvilnea intensa; f) Relacin lineal estratificada intensa, no detectada por el coeficiente de correlacin. Debe tenerse presente que el coeficiente de correlacin lineal r = 0, no se puede interpretar como ausencia de asociacin entre las variables, pues este coeficiente slo mide el grado en que los puntos se ajustarn a una lnea recta. Si se observa la situacin f) presentada en el Grfico 4.42 notar que a pesar de que el coeficiente de correlacin lineal es r = 0, se aprecia una buena asociacin con un modelo parablico (de segundo grado). Con el advenimiento del computador y los paquetes computacionales de graficacin y los de anlisis estadstico, la elaboracin de diagramas de dispersin es cada vez ms sencilla. Se le puede pedir al programa de computador indicar el patrn al que se ajustan los datos; una imagen visual de este tipo se presenta en el Grfico 4.34, donde se puede observar la relacin entre el nmero de campaas de ofertas durante el mes y las ventas para una cadena de supermercados, en un mes especfico.
Supermercado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Nmero de campaas 17 35 12 16 14 8 11 13 9 3 28 31 14 6 19 20 20 14 17 27 29 30
Ventas en miles 33.5 62.1 29.5 35.1 26.4 19.7 25.8 16.5 5.0 38.6 59.5 60.2 14.5 40.6 40.2 29.5 29.7 37.5 58.3 58.5 57.5 41.5
Tabla 4.10 Datos sobre el nmero de campaas y ventas en una cadena de supermercados
101
70 60 50
Ventas
Grfico 4.34 Diagrama de dispersin del nmero de campaas publicitarias y las ventas en una cadena de supermercados
En la parte inferior se observa un modelo que define un patrn de ajuste rectilneo y su coeficiente de determinacin que mide la calidad del ajuste en una escala de 0 a 1. En este caso result 0.518, valor que denota un ajuste relativamente pobre. Esto puede indicar que existen otros factores distintos al nmero de campaas que explican parte de la variacin del valor mensual de las ventas. Hay que tener cuidado, ya que si el rango de observacin de la variable X es muy estrecho puede deducirse equivocadamente una baja asociacin entre las variables. Obsrvese que el correlograma, en el Grfico 4.35, indica una asociacin lineal fuerte entre X y Y; sin embargo, si slo se consideran los puntos con valores de X en el rango entre a y b, el coeficiente de correlacin lineal para dicho punto estara prximo a cero, induciendo una falsa idea de no asociacin.
Y
Grfico 4.35 Ilustracin del efecto sobre la correlacin del rango de la variable
102
ndice
Matemticas
Promedio
CAPEP
identificar dominios de estudio en la muestra. Por ejemplo, si estamos interesados en estudiar la eficiencia de los empleados de los almacenes rurales, podran definirse grupos de acuerdo a la antigedad o experiencia en la tarea que se valora. Una vez realizada la estratificacin se genera una muestra de datos estratificada, y entonces el anlisis se deber llevar a cabo de manera comparativa. De hecho, el anlisis detallado que se efectu en la seccin dedicada a los grficos de caja es una muestra de anlisis estratificado. Para ilustrar este tipo de anlisis podemos realizar un anlisis comparativo de las fallas en la captura de datos detectadas semanalmente, por turno, en los almacenes regionales durante un ao. Los datos son como se presentan a continuacin.
1 13
2 8
3 2
4 7
9 10 11 12 13 14 15 8 9 17 14 8 16 8 6
9 17 14 16 13
17 26 14 13 8 13 16 21 13
8 16 21 28 16 31 27 26 14 15 3 8 17 12 16 31 20 13 17 14
Semana Turno
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 8 16 20 12 12 8 21 20 13 21 19 17 23 27 7
Semana Turno
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 8 17 15 13 16 21 13 18 14 16 19 20 16 18 8 23 29 28 17 19 22 35 30 26 28 17 22 18 10
Tabla 4.11 Nmero semanal de fallas de captura de datos por turno en almacenes regionales de la 4.11 cadena Igor te viste
Los anlisis para esta situacin pueden ser varios y arrojarn resultados complementarios. Comenzaremos mostrando cul es la distribucin por turno. Esto se puede hacer a partir de un diagrama de tallos y hojas comparativo, el cual aparece en el siguiente grfico.
Tallos
0 0 1 1 2 2 3
Hojas
23 67788888899 23333334444 5666666677777889 0011
Clase
2 11 11 16 4 0 1 2 31
Percentiles
25% Mediana
Hoja =
Turno matutino
Mnimo Mximo
104
Tallos
0 1 1 2 2 3 3 4
Hojas
88888 02233344 56667777899 001112233 666778889 01 5 Mnimo Mximo Total:
Clase
5 8 11 9 9 2 1 0 8 35 45
Percentiles
25% Mediana 75%
Turno vespertino
Diagrama de tallos y hojas para los dos grupos de datos del nmero de fallas por turno
Con este despliegue podemos tener una visin comparativa de las distribuciones, y con ello podemos notar las diferencias entre turnos. La principal es la forma de la distribucin: en el turno vespertino es ms simtrica, observando alta frecuencia de las 20 a 30 fallas en el turno vespertino, notoriamente ms que en el turno matutino. Para finalizar esta seccin sobre el anlisis estratificado se presenta, para los datos de las fallas por turno, el diagrama de desarrollo comparativo.
35 30 25 Nmero de fallas 20 15
Vespertino Variable
Matutino
10 5 0 4 8 12 16 20 24 Semana 28 32 36 40 44
105
En algunas aplicaciones este tipo de grfico se presenta con estructura de grupos. Hay variables como antigedad, regin o alguna otra que pueden explicar mejor la variabilidad de la caracterstica que se est estudiando. Estas variables llamadas clasificatorias o indicadoras permiten dividir un conjunto de datos en varios grupos. Otras veces, si se saben aplicar, surgen diferentes grupos de manera natural como tratamientos a los individuos. stos, asociados con un tratamiento, constituyen un grupo, lo que es frecuente en las situaciones reales; en esos casos se requiere hacer anlisis comparativos con el propsito de contestar si existen diferencias reales en las distribuciones para cada grupo de datos.
X i
i=1
Muchas veces sta es un representante adecuado del colectivo, sobre todo en distribuciones acampanadas. La media muy sensible a valores extremos o atpicos, y para distribuciones con bastantes casos en los extremos y pocos en el centro puede ser completamente inapropiada. Entonces no es recomendable su uso para este tipo de distribuciones.
4.15.2 La mediana
Otra estadstica de resumen de la tendencia es la mediana, que se define como el valor que divide a la distribucin de frecuencias en dos partes iguales. Es un indicador de tendencia central no sensible a la presencia de atpicos o valores extremos. Es el segundo cuantil.
106
4.15.3 La moda
Se define como el valor o dato que se presenta con mayor frecuencia; cuando el rango de valores es un continuo se debe definir un intervalo moda. A partir de un diagrama de tallos y hojas es posible identificar el tallo moda; en un histograma se identifica el intervalo de clase moda.
4.15.4 La varianza
Es una de las medidas de dispersin ms utilizadas en el anlisis estadstico. Se define como el promedio de los cuadrados de las desviaciones, con respecto a la media; ms exactamente: S2 = 1 [ (X1 - X)2 + (X2 - X)2 + ... + (Xn - X)2 (n-1) 1 ] = (n-1) (Xi - X)2
i=1 n
La varianza es una medida muy difcil de interpretar en forma directa, en particular porque sus unidades son cuadrticas, hecho que puede ser solucionado extrayendo la raz cuadrada para dar origen a la llamada desviacin estndar, S = S2 la cual es muy til para construir juicios sobre la dispersin, sobre todo en distribuciones acampanadas. La varianza (como la desviacin estndar) es la medida de dispersin ms importante en estadstica para determinar las propiedades en la teora inferencial y por su significado en la distribucin normal.
Para datos que tengan media igual a cero este valor no est definido. Ejemplo 16: Consideremos los porcentajes de eficiencia en el surtimiento de los 72 proveedores nacionales durante el mes de septiembre del presente ao, como se presenta en la Tabla 4.12.
107
Proveedores
Eficiencia
Proveedores
Eficiencia
Proveedores
Eficiencia
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
93.40 100.00 100.00 100.00 97.10 80.90 100.00 35.40 0.00 100.00 99.90 95.90 75.20 71.30 80.10 98.80 65.60 100.00 100.00 99.80 39.30 91.70 0.00 0.00
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
0.00 99.60 100.00 96.20 82.50 84.70 99.10 47.90 0.00 81.70 94.10 85.70 95.10 99.60 100.00 100.00 84.76 94.85 100.00 100.00 0.00 75.44 21.28 95.05
49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
100.00 91.34 99.94 99.03 0.00 92.50 99.50 100.00 45.45 100.00 96.44 100.00 90.80 56.50 84.10 76.40 33.30 99.80 86.70 85.70 79.60 100.00 100.00 100.00
En este caso existe una gran discrepancia entre la media y la mediana, por lo que se requiere un estudio detallado de la forma de la distribucin; por ejemplo, elaborando un histograma y explorando algn modelo probabilstico que se ajuste al despliegue grfico de los datos. Es importante destacar que en este ejemplo se pretende ilustrar las limitaciones de los estadsticos descriptivos para resumir la distribucin de los datos y, por tanto, llamamos la atencin para que se utilicen siempre despus de un exhaustivo anlisis grfico.
108
5. GRFICOS DE CONTROL
En casi todos los procesos de la actividad humana se requiere del control para garantizar el cumplimiento de los objetivos previamente definidos. En l estn involucrados algunos elementos deseables que aparecen en cualquier situacin donde se intenta mantenerlo. Un aspecto importante en muchas de estas situaciones es la variabilidad. La estadstica proporciona buenos instrumentos para abordarla, estudiarla y manipularla; es decir, dota de herramientas que facilitan esta tarea, algunas de ellas son los grficos de control.
repetida y no arroja exactamente el mismo resultado. Esto puede ser debido a la naturaleza del instrumento de medicin o a la variabilidad que introduce el operario del instrumento. Los seres humanos. No es posible lograr homogeneidad total en la calidad del trabajo de un ser humano. El cansancio, la concentracin, adems de su variabilidad hacen de este componente un hecho aceptado y cotidiano. Las mquinas. Existe una variabilidad natural en las caractersticas del producto que se genera a partir de una mquina, aun estando la
109
mquina en perfectas condiciones. Esta variabilidad es reconocida por la fbrica que provee las mquinas, la cual reporta informacin sobre dicha variabilidad como parte integral de las especificaciones de un equipo. Adicionalmente, stas sufren procesos de desgaste adems de fallas que afectan sus caractersticas. Las polticas de mantenimiento de mquinas y equipos aportan tambin una cuota. Las materias primas. Generalmente existen varios proveedores de materia prima, la cual tiene diferentes niveles de calidad. Ms an, el mismo proveedor, en un mismo pedido, proporciona materia prima con variabilidad en las caractersticas de inters, pues l mismo se enfrenta a las fuentes de variabilidad que se estn describiendo. Las condiciones del medio. stas no son absolutamente homogneas, constituyndose en una fuente de variabilidad. En algunas pocas del ao es necesario trabajar a marcha forzada por los niveles de demanda que se presentan, asimismo existen otros factores que alteran un producto y generan variabilidad. En sntesis, la variabilidad es inevitable. Sin embargo, sta no es una afirmacin fatalista. Se convive con la variabilidad de la misma manera en que se convive con algunas condiciones adversas del medio ambiente, siempre y cuando stas no trasciendan ciertos lmites. La tica, las exigencias de nuestros clientes, los niveles de competencia y los costos, entre otros, definen los niveles de variabilidad que son aceptables, pues variabilidad y niveles de noconformidad van siempre asociados. En este contexto surge, en forma natural, la definicin de algunos elementos esenciales. Aunque no necesariamente en el orden en que aparecen a continuacin: 1. De acuerdo con la tica, en las normas, en las exigencias de los proveedores y en las polticas de la compaa, es posible definir las caractersticas mnimas que debe tener todo producto que salga al mercado. 2. Hay que conocer a fondo los procesos propios de produccin, con la intencin de determinar su capacidad para cumplir con las especificaciones del producto definidas previamente. En esta etapa deber valorarse la situacin y tomar los correctivos necesarios para garantizar que el proceso tenga la capacidad suficiente (no pedirle peras al olmo). Esto implica, entre otros detalles, realizar un estudio de costobeneficio, pues de la capacidad del proceso depender directamente el porcentaje de noconformidades que la empresa asumir como normales, como parte de una caracterstica del proceso. 3. De acuerdo con lo anterior se infieren las caractersticas que debe cumplir el proceso, para que ste genere productos con caractersticas cuya distribucin de frecuencias se comporte de acuerdo a lo esperado. Obsrvese que unas son las condiciones que se exigen a cada pro110
Grficos de control
ducto de forma individual y otras al proceso de produccin para que sea compatible con las primeras. Siempre que el proceso est cumpliendo con las condiciones estipuladas se dir que el proceso est bajo control y, en caso contrario, est fuera de control. 4. Teniendo claridad sobre estos aspectos, queda por definir una estrategia para realizar en forma permanente un diagnstico, a partir del cual pueda afirmarse con cierto grado de certeza si hay evidencias contundentes para pensar que el proceso est fuera de control y en seguida llevar a cabo las acciones que haya lugar. En esta parte juegan un papel fundamental los grficos de control que se presentan en este captulo. Este proceso es similar a muchos de los que se presentan en la vida cotidiana; a continuacin se presenta un ejemplo de una situacin de control. Ejemplo 1: Dos veces al ao se asiste al mdico con el propsito de que se realice un diagnstico.
Control de salud
Sntomas
Acciones
El mdico tiene la informacin de lo que significa un cuerpo bajo control. Dicho de otra manera: l conoce los sntomas que sugieren que un cuerpo est fuera de control. Con base en ello realiza observaciones, cualitativas algunas, como son la coloracin de la mucosa del ojo, el aspecto de la lengua y garganta, escucha la ventilacin pulmonar y otras cuantitativas como el pulso y el ritmo cardiaco, las cuales mide directamente. Otros datos para el diagnstico provienen de pruebas de laboratorio, como caractersticas qumicas y fsicas de la sangre, y de anlisis de la materia fecal.
111
El mdico contrasta (compara) los valores observados para determinar si caen dentro del rango de lo normal; de no ser as, los correlaciona con otras caractersticas para determinar compatibilidades y formular alguna hiptesis sobre la patologa que pudiera ser el origen de observacin fuera del rango. Puede ordenar ms exmenes para confirmar una nueva hiptesis y por ltimo definir acciones consistentes con su diagnstico, todo con el propsito de poner de nuevo el cuerpo bajo control. Es claro tambin que el sistema de diagnstico no es infalible y que puede haberse diagnosticado una patologa inexistente (falsa alarma), a esto se le conoce en el lenguaje del control estadstico como error tipo I. Pudo haber sucedido tambin que no se detect en el proceso evaluativo de diagnstico una enfermedad existente, error tipo II. Qu es ms grave? Jzguelo usted! En los grficos de control estadstico, o cartas de control como tambin se conocen, se puede tomar en consideracin la probabilidad de cometer ambos tipos de error. Cuando tenemos una muestra de tamao fijo, disminuir la probabilidad de cometer un error tipo I implica aumentar la probabilidad de cometer error tipo II; es decir, que cuando uno de ellos disminuye el otro aumenta. Sin embargo, el riesgo de cometer ambos tipos de error puede ponerse en niveles deseados tomando un tamao de muestra adecuado para este propsito.
Grficos de control
observacin, resultante de una muestra, es considerada como sntoma de un proceso sin control. As se visualiza la simplicidad de la aplicacin de un grfico de control: se marca un punto y se mira si cay dentro o fuera de una franja. Esta sencillez tan extraordinaria para emitir un diagnstico ha hecho que dichos grficos hayan venido para quedarse por largo tiempo con nosotros. En honor a la verdad, la construccin de algunos grficos requiere conocimientos un poco ms sofisticados de probabilidad, sobre todo si se considera el diseo de planes de muestreo asociados. El presente libro ha sido pensado para un lector con conocimientos estadsticos mnimos, por tal razn el desarrollo se limitar a la aplicacin de algunas frmulas para construir las franjas de control y para su correcta interpretacin. Lectores que estn interesados en profundizar un poco ms sobre este asunto podrn consultar la bibliografa que se ofrece al final de este libro. Los grficos de control se dividen, de acuerdo a la naturaleza de la variable de calidad, en grficos para variables y grficos para atributos; en el primer caso la variable de calidad es de naturaleza continua, y en el segundo nos referimos usualmente a una variable dicotmica (conforme o noconforme). Aunque hay otras formas de clasificar a los grficos de control, la que aqu planteamos es til para nuestro propsito de organizar la presentacin.
presentacin formal de estos conceptos tericos por estar fuera del objetivo de este libro, pero el lector interesado puede consultar la bibliografa referida. El Grfico 5.2 muestra la forma tpica de un grfico de control, en el que el eje horizontal indica el nmero de orden que ocupa la muestra de turno, la que se est valorando. La aplicacin del grfico puede interpretarse como la verificacin de la hiptesis de que el promedio, o en su caso la variabilidad del proceso, corresponde a la de un proceso bajo control. Cuando la estadstica correspondiente cae dentro de los lmites de control, interpretamos que la evidencia (la muestra) es compatible con la hiptesis de un proceso bajo control, en caso contrario, se deber actuar en consonancia con un proceso fuera de control. En el grfico de control para la media del proceso aparecen dos lneas horizontales gruesas (LSC: Lmite Superior de Control y LIC: Lmite Inferior de Control), que representan los lmites de control para la media. Se seala un punto que se ha salido de la franja definida por los lmites de control y que indica que en el momento en que fue tomada la muestra el proceso pareca estar fuera de control. A la escala de la derecha aparece el valor 13.71, lo cual corresponde a la media histrica del proceso bajo control y se ha calculado como la media de las medias de muchas muestras en el pasado, las cuales diagnosticaron un proceso bajo control; es decir, se excluyeron para el clculo los puntos que sugeran un proceso fuera de control. El grfico considera 45 puntos que corresponden a las veces que se ha tomado una muestra para diagnosticar el proceso.
1 LCS = 28.10
LC = 13.71
10 5 0
1 5 9 13 17 21 25 29 33 37 41 45
LIC = 0.67
114
Grficos de control
En trminos generales, si un punto cae fuera de los lmites de control entonces se debern buscar causas atribuibles a esta desviacin del patrn establecido; sin embargo, hay otras anomalas que pueden dar luz acerca de posibles desviaciones del control. Posteriormente se discutirn algunas recomendaciones respecto al diagnstico del proceso a travs del grfico de control. Ahora se estudiar la forma de elaborar este tipo de grfico.
19.3
= 20
20.7
Uno podra preguntarse, por qu se controla un proceso respecto a la media pero tambin respecto a la dispersin? Para responder a esta pregunta obsrvese detalladamente el Grfico 5.3. La media es 20. Los productos que resulten con mediciones por debajo de 19.3 o por encima de 20.7 son declarados noconformes, de acuerdo con los lmites de especificacin definidos para el producto. Si toda el rea bajo la curva representa 100% de las observaciones, entonces el rea que est asociada con las noconformidades las dos colitas representan aproximadamente 4%; es decir, que con la situacin que ilustra el grfico, 4% de los productos resultan noconformes. Ahora, qu pasa con el porcentaje de noconformidades si se mueve la curva completa un poco hacia la derecha? Ponga un poco de imaginacin, considerando que las dos barras que definen los lmites de especificacin no se movern, ellas estarn fijas; sin embargo se mueve la curva de tal manera que su centro se coloque en 20.5. Cmo es ahora el rea que corresponde a las noconformidades? La colita de la izquierda se ha hecho menor, pero la de la derecha ha aumentado de tal manera que ahora el porcentaje de noconformidades es aproximadamente 46%. Para estudiar el efecto de aumentar la dispersin djese la curva en su lugar, con centro en 20 como muestra el grfico, ahora aumentemos la dispersin haciendo que la distancia que define sea mayor. Qu pasa ahora con el porcentaje de productos noconformes?, aumenta en ambas direcciones, las dos colitas crecen. Por esa razn es importante controlar la localizacin () y dispersin
115
( ) de un proceso, pues de esta forma controlamos de manera indirecta el porcentaje de noconformidades. Ejemplo 2: En el proceso de captura de datos de las requisiciones, en los almacenes regionales se sabe que en promedio se capturan 225 caracteres por minuto. Se desea hacer un diagnstico del proceso de captura y se decide instrumentar un grfico de control, para lo cual se toma una muestra de cinco mediciones cada tres horas, en tiempos seleccionados aleatoriamente. Dado que el proceso dura doce horas cada da, al muestrear a lo largo de diecisis das se obtuvieron los datos de la Tabla 5.1, que corresponden a una semana. Para construir un grfico de control es necesario especificar el estadstico que se va a controlar. Es costumbre elaborar un par de grficos, uno para centralidad o promedio y otro para dispersin. Las parejas de
Periodo
Mediciones
M1 M2 M3 M4 M5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
220 219 225 225 223 222 228 225 219 220 228 225 225 220 222 227 227 223 220 222 221 222 220 223
223 223 222 227 224 223 222 225 219 225 228 227 227 229 225 224 224 224 230 225 230 223 219 230
228 219 218 226 226 227 222 227 219 223 220 227 222 230 227 224 227 222 225 227 225 228 222 215
226 227 222 229 227 228 223 219 219 228 225 222 221 218 228 225 225 228 224 221 226 228 220 218
226 227 222 229 227 228 223 219 219 228 225 222 221 218 228 225 225 228 224 221 226 228 220 218
Media muestral
Estadsticas
Rango
225.0 223.4 222.8 225.4 225.0 225.0 224.2 225.0 219.2 224.6 224.8 225.2 224.4 225.6 225.0 224.4 225.0 224.4 225.2 224.4 225.6 225.2 221.2 221.2
8 10 9 9 4 6 6 10 5 8 8 5 6 13 6 5 5 6 10 6 9 6 6 15
116
Grficos de control
estadsticos referidas son X y R (la media aritmtica y el rango) X o y s (la media aritmtica y la desviacin estndar), destacando por su popularidad el grfico X y R. El procedimiento general para construir estos grficos se ejemplifica usando los datos del siguiente ejemplo: Paso 1: Obtenemos los estimadores de la media y la desviacin estndar de los estadsticos. Para nuestro caso esto se reduce a obtener la media, las X y las R, es decir:
1 X= n
24
= 224.217
R=
1 n
Ri
i=1
8 +10 + 9 + ... + 6 + 15 24
= 7.542
Paso 2: Obtenemos la lnea central, los lmites de control (3), inferior y superior. Con el propsito de abreviar clculos se usan, en la prctica, tablas para definir los lmites inferior y superior de los grficos X y R. Las frmulas bajo la utilizacin de tablas (ver Tabla 5.2) son: a) Para la media LC = X (lnea central) = 224.217 LSC = X + A2 R = 224.217 + 0.58 (7.542) = 228.591 LIC = X - A2 R = 224.217 - 0.58 (7.542) = 219.843 El valor 0.58 se obtuvo buscando A2 de la Tabla 5.2, entrando con el tamao de muestra n = 5. b) Para la dispersin LC = R = 7.542 LSC = D4 R = 2.11 (7.542) = 15.913 LIC = D3 R = 0 (7.542) = 0 Los valores 2.11 y 0 se obtuvieron buscando D4 y D3, respectivamente, de la Tabla 5.2, entrando con el tamao de muestra n = 5.
117
2 3 4 5 6 7 8 9 10
B4
A3
C4
Paso 3: Trazamos las lneas de control y las lneas de alerta que se obtienen simplemente multiplicando por dos en lugar de por tres en los lmites de control y, posteriormente, ubicamos los puntos. A continuacin, en el Grfico 5.4 se presenta el despliegue correspondiente.
230 228
A B C 2
LCS = 228,591
Media muestral
2 2
2 2
LC = 224,217
C B A 3 5 7 9 1 11 13 15 17 19 21 23
LIC = 219,843
Observe que el grfico est dividido en franjas que estn rotuladas con las letras C, B, A, desde el centro hacia el exterior; cada una de estas franjas tiene un ancho igual a una desviacin estndar de la media; su razn de ser es poder descubrir otro tipo de patrones de comportamiento sistemtico (no aleatorio) que podra presentarse por una causa asignable (identificable).
118
Grficos de control
Esto significa que salirse de la franja de control no es el nico hecho que se observa. Por esta razn al punto que se sali de la franja de 99% de confianza se le asign el nmero 1, pues con este nmero se codifica este tipo de incompatibilidad con un proceso bajo control. Observe que los puntos correspondientes a las muestras 18, 19, 20, 21 y 22 estn marcados con el nmero 2, que intenta mostrar que all est ocurriendo un evento raro que podra ser incompatible con un proceso bajo control. En este caso intenta avisar que en un proceso bajo control es muy raro observar que resulten nueve puntos o ms a un slo lado de la lnea central, como de hecho ha ocurrido. Sin embargo, la probabilidad de que en un proceso bajo control esto ocurra es muy baja. A este tipo de seales frecuentemente se le conoce como de precontrol, pues no obstante que dichas observaciones estn bastante cerca de la media, insinan que posiblemente hay una tendencia, como en este caso, a que el proceso aumente su media en forma sistemtica. Podran entonces explorarse las causas para considerar cualquier circunstancia anormal antes de que empiecen a resultar noconformidades. En la Tabla 5.3 se relacionan otros cdigos de eventos precontrol.
Cdigo 1 2 3 4 5 6 7 8 1 9 6 14
Motivos de alarma punto en la zona A puntos consecutivos a un solo lado de la lnea central puntos consecutivos en racha ascendente o descendente puntos consecutivos en sube-baja, alternndose
2 3 puntos consecutivos en la zona A o ms all 4 5 puntos consecutivos en la zona B o ms all 15 8 puntos consecutivos en la zona C puntos consecutivos y ninguno en la zona C
Tabla 5.3
Cdigo de algunos eventos en el grfico de control de la media que podran ser indicio de causas atribuibles (proceso fuera de control)
En forma anloga se construye el grfico para el control de dispersin basado en el rango de una muestra de tamao n = 5. Lo mismo ocurre para la media; pueden existir otro tipo de eventos que indiquen que una causa atribuible est afectando al proceso. A continuacin, en el Grfico 5.5, se presenta el despliegue para el control de la dispersin; se aprecia en ese grfico que la ltima muestra tomada tiene un rango alto aunque no sale de la franja de control, lo cual indica que es necesario revisar las posibles causas que estn afectando la variabilidad del proceso.
119
A continuacin se trata el caso en que la caracterstica de inters no es cuantitativa sino cualitativa; esta situacin se conoce en la jerga del control de calidad como el caso de atributos.
18 16 14 12
LCS = 15,913
Rango
10
R = 7,542
8 6 4 2 0 1
LIC =0
11
13
15
17
19
21
23
5.4.1 El grfico p
Si tenemos que para una muestra de n artculos (o casos), cada uno puede clasificarse como noconforme (X = 1) o conforme (X = 0), entonces la siguiente
120
Grficos de control
expresin X1 + X2 + ... + Xn = D es el nmero de artculos (casos) noconformes en la muestra. Se sabe que si el porcentaje verdadero de no conformes es , entonces se espera que el nmero promedio de noconformes, en una muestra de n, sea n y su varianza (1-)n. La idea en este caso es elaborar un grfico con base en el porcentaje de no-conformes de la muestra que se saca en una ocasin, digamos j.
As:
D pj = n j ; j = 1, 2, ..., m.
Si hemos muestreado en m ocasiones entonces tendremos p1, p2,...pm As puede calcularse el porcentaje promedio: p= p1 + p2 + ... + pm m
p = i=1 mn
D1
De tal manera que los lmites de control estaran dados por las siguientes expresiones: LIC = p-3 p(1-p) n LC = p LSC = p+3
p(1-p)
n
Ejemplo 3: Se toman 30 muestras aleatorias de 50 productos, cada una en un almacn rural, y con ellas se determina si existe sobreinventario de cada uno de los productos; este proceso se repite diariamente durante un mes; los resultados obtenidos se muestran en la Tabla 5.4
121
Da
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
pj
0.24 0.30 0.16 0.20 0.08 0.14 0.32 0.18 0.28 0.20 0.10 0.12 0.34 0.24 0.44 0.16 0.20 0.10 0.26 0.22 0.40 0.36 0.48 0.30 0.18 0.24 0.14 0.26 0.18 0.12
p =
347 (50)(30)
= 0.2313
p(1-p) = 0.2313-3 n
0.2313(1-0.2313) = 0.0524 50
LSC = p+3
122
Grficos de control
0.6
1 LCS = 0.4101
LC = 0.2313
Observe que en el Grfico 5.6 existen dos puntos fuera de control, por lo tanto es necesario recalcular los lmites excluyendo dichos puntos.
5.4.2 El grfico np
A veces, ms que obtener la grfica de control sobre la fraccin de noconformes, interesa obtenerla sobre el nmero de noconformes. A esta grfica de control para atributos se le llama grfica np. Los lmites de control para esta grfica son determinados por: np + 3
Ejemplo 4: Se trata ahora el mismo caso del Ejemplo 3, pero con inters en el nmero de noconformidades. En el Grfico 5.7 presentamos el despliegue correspondiente. El inters ahora es controlar el nmero de noconformidades en lugar del porcentaje. En esta situacin el funcionario encargado del control ya no calcula porcentajes, slo cuenta el nmero de veces que resulta no-conformes en una muestra de tamao fijo, n = 50 unidades. Observe que la nica diferencia con el caso anterior consiste en la escala vertical de la grfica, que ahora ha sido multiplicada por n = 50. De esta manera, la lnea central ahora es la misma de antes multiplicada por 50. De igual forma ocurre con los lmites correspondientes.
123
15 17 19 21 23 25 27 29
LIC = 0.5241
Muestra
np (1 - p)
LIC = np-3
np(1-p) = 11.5667-3
50*0.2313(1-0.2313)
= 2.6214
LSC = np-3
np(1-p) =11.5667+3
50*0.2313(1-0.2313)
= 20.5120
30
25 20 15 10 5
1 LCS = 20.5120
LC = 11.5667
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Grfico 5.7 Grfico de control para el nmero de no-conformidades np. Caso del Inventario de productos
Observe que los dos grficos controlan lo mismo usando estadsticas diferentes; por esa razn en las dos grficas se detectan los mismos puntos fuera de control. Tambin aqu es necesario recalcular los lmites de control excluyendo dichos puntos.
5.4.3 El grfico c1
Hemos estudiado casos en los que nos interesa conocer el nmero de individuos que se clasifica como noconformes, o su porcentaje; sin embargo, en algunas situaciones puede suceder que una unidad de observacin puede tener defectos, sin que se considere noconforme. Por ejemplo, en la
1
Aunque el grfico de control recibe este nombre de noconformes, aqu, en lugar de c nos referiremos a , que es la letra griega que ms frecuentemente se usa para representar el parmetro de la distribucin de Poisson.
124
Muestra
LIC = 2.6214
Grficos de control
confeccin de un artculo plstico por inyeccin en caliente, pueden resultar algunas pequeas burbujas que no son deseables, pero que si no son demasiadas, no descalifican al artculo. Por otro lado, el carcter de defectuoso puede tener diferentes categoras dependiendo del nmero de defectos que presente una unidad. En procesos de naturaleza continua, como la produccin de telas o lminas de vidrio, nos puede interesar el nmero de defectos por unidad de longitud o de rea, o por unidad de tiempo, etc. Ejemplos de esta situacin podran ser: el control del nmero de llamadas por minuto que llegan a una central telefnica, nmero de pasajeros por da que toman un vuelo determinado; nmero de camas ocupadas en una determinada sala de un hospital, por da o por semana; nmero de defectos en un envase, entre otros. El control en situaciones como stas puede realizarse generalmente tomado como distribucin de referencia el modelo de Poisson con parmetro , donde la constante representa el nmero promedio de ocurrencias por unidad de tiempo (o de superficie, o cualquier otro continuo). Si es grande se puede aproximar el modelo Poisson al modelo normal. En el modelo Poisson con parmetro :
x P (X = x) = e- x!
Con x = 0, 1, 2..., donde X representa la variable nmero de defectos por unidad de medida; P (X = x) representa el porcentaje de veces que se obtienen x defectos por unidad, cuando el nmero promedio de defectos por unidad es . Esta distribucin tiene la curiosidad de que la varianza de la variable X tambin es , as que su desviacin estndar ser . En adelante nos referiremos siempre a la situacin en que se mide el nmero de defectos de estampado por metro de tela. Pasos a seguir en la construccin del grfico c: 1. Seleccionar lo que ser la unidad de observacin: un individuo, un metro de cable, un metro cuadrado de tela, una hora, etc. Esta definicin debe hacerse de tal manera que en la unidad se presenten en promedio al menos diez ocurrencias; as, por ejemplo, si en un metro se dan en promedio seis defectos, podramos escoger como unidad de observacin dos metros, que en promedio dara doce defectos. 2. Investigar si existe informacin histrica del parmetro : nmero promedio de defectos por metro cuadrado. Si estamos en este escenario, en el cual conocemos el valor de , entonces el grfico de control, se construir con base en los lmites:
125
LSC: + 3 LC: LCI: - 3 En esta situacin, en la cual es factible conocer por informacin histrica del proceso bajo control saltamos directamente al paso 4. Si no es posible conocer con x = 0, 1, 2 de esta forma, continuamos con todos los pasos. 3. Para acercarnos al valor de , procedemos de la siguiente manera: Tomar k (k>20) piezas de un metro cuadrado de tela de forma consecutiva y a intervalos de tiempo iguales; contar el nmero de defectos Xi en cada pieza y hacer el promedio de las k piezas, es decir:
xi
i=1
Llevamos ahora este valor a la expresin de los lmites de control, sustituyndolo por el valor . Cuando el valor de no es muy grande la convergencia a la normal no es muy buena, pudiendo dar negativo el lmite inferior, lo cual no tiene mucho sentido para una variable que es nmero de defectos por metro cuadrado, as que cuando esto ocurre colocamos el lmite inferior en cero. Observe que esto puede evitarse definiendo apropiadamente la unidad de observacin, como se explic en el paso 1. 4. Acomodar en el grfico los datos obtenidos en el paso 3 y seguir las mismas reglas que en los grficos de control anteriores. 5. Con los grficos definitivos establecer un plan de control para el futuro. Los datos de la Tabla 5.5 recogen el nmero de defectos de estampado por metro cuadrado en un proceso textil. A partir de estos treinta datos, que como puede verse en el Grfico 5.8 se tomaron de un proceso bajo control, se elaborar entonces el grfico para ser usado en el futuro.
126
Grficos de control
Nmero de observacin
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nmero de observacin
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Total
xi
i=1
defectos
=
unidades
i=1
235 = 7.833 30
LSC = 7.833 + 3
LIC = 7.833 - 3
127
18
16 14 12 10 8 6 4 2 0 1 4 7 10 13 16 19 22 25 28 31 33
LSC =16.23
LC =7.83
LIC =0
Muestra Grfico 5.8 Grfico de control para el nmero de no-conformes por unidad C
128
6. INTRODUCCIN AL MUESTREO
Con frecuencia, en el contexto de las tareas de diagnsticos organizacionales o en la definicin de los criterios que permiten establecer las especificaciones de un proceso de produccin o de servicios se recomienda la realizacin de una encuesta. Llevar a cabo un trabajo estadstico de este tipo no se reduce a elaborar una serie de preguntas y aplicar los cuestionarios para despus obtener algunas grficas y cuadros que una vez interpretados den los elementos para la toma de decisiones. Como se hizo notar en el segundo captulo, las investigaciones deben cumplir con criterios de validez y seguir una metodologa diseada y conducida de manera escrupulosa, todo para aportar resultados confiables. Esto es verdaderamente importante para los estudios a travs de encuestas por muestreo, herramientas elementales para obtener informacin sobre la opinin de clientes y para conocer las necesidades y los niveles de satisfaccin que obtienen al consumir los productos o recibir servicios y, en general, para conducir estudios de mercado. Cuando se va a tomar una muestra debemos preocuparnos por dos cosas: 1) cuntos elementos muestrear, y 2) cmo seleccionarlos. El segundo problema se resuelve con un esquema de muestreo; es decir, con un mtodo que nos lleve a obtener un subconjunto de los elementos de la poblacin de muestreo. El primer punto nos indica cul es el nmero mnimo de elementos que requerimos para lograr un propsito especfico de inferencia con una precisin y confiabilidad establecida. En general, los esquemas de muestreo se dividen en probabilsticos o aleatorios y no aleatorios. En el caso de los estudios enumerativos se recomienda usar los esquemas probabilsticos. Recurdese que en este
129
caso se conoce N, el tamao de la poblacin de muestreo. En este captulo se describen los principales esquemas de muestreo aleatorio y se discuten algunos procedimientos prcticos y rpidos para calcular el tamao de la muestra. Tambin se incluyen algunos comentarios sobre muestreo no probabilstico, y al final hay una seccin con recomendaciones para el diseo del cuestionario, aspecto fundamental para las encuestas de opinin y estudios de mercado.
Censo
Muestra
Costoso Muchos recursos humanos Organizacin compleja Gran duracin en la obtencin y anlisis de la informacin Resultados precisos
Un bajo costo Pocos recursos humanos Organizacin poco compleja Obtencin y anlisis de la informacin en corto tiempo Resultados precisos
Un aspecto importante de destacar es que en muchas situaciones un muestreo adecuadamente diseado y conducido puede producir resultados ms precisos que los que se obtendran al realizar un censo, lo que es comprensible por el volumen de trabajo y de informacin, as como por el tiempo que sera requerido para su realizacin.
Introduccin al muestreo
1. Establecimiento claro de los objetivos. 2. Definicin de la poblacin de inters. 3. Obtencin del marco muestral (listado de las unidades que servir de base para la identificacin de las unidades que conformarn la muestra). 4. Seleccin del diseo o esquema de muestreo (definir cmo seleccionar la muestra). 5. Determinacin de los mtodos de medicin. 6. Diseo y prueba del instrumento de medicin (el cuestionario). 7. Prueba piloto. 8. Seleccin y adiestramiento de investigadores de campo. 9. Organizacin, realizacin y verificacin del trabajo de campo. 10. Organizacin del manejo de datos (verificacin, captura y chequeo). 11. Anlisis de datos de acuerdo con la forma de seleccin de las unidades. 12. Elaboracin de un reporte. Cabe destacar que si no se realiza una adecuada planeacin y una supervisin cuidadosa de los estudios por muestreo, stos pueden carecer de validez interna; por tal motivo, es muy importante que antes de tomar decisiones relevantes al respecto se tenga en cuenta una serie de consideraciones bsicas como las que se presentan en este captulo.
2 3 4
5 6
identificados a los que se llama estratos. Los individuos pertenecen solamente a uno de los estratos. Para seleccionar una muestra estratificada de tamao n, se procede de la siguiente manera. Sea N = N1 + N2+ ... + NL , donde Nh = nmero de elementos o unidades en el estrato h-simo (ver figura 6.2). Se determina n y se distribuye en los L estratos, por ejemplo usando asignacin proporcional, es decir : nh = Nh N
Cabe hacer notar que hay otras formas de hacer la asignacin, una de las cuales se trata en la penltima seccin de este captulo dedicada a la determinacin del tamao de la muestra. Entonces, una vez determinado nh se procede a realizar un muestreo aleatorio simple en cada estrato. Debe destacarse que a partir de una muestra estratificada se ha aumentado la representatividad de la misma, con lo que la precisin de las inferencias ser mayor. Adems, ahora es posible realizar comparaciones entre los estratos. En muchas ocasiones el muestreo estratificado eleva sustancialmente las posibilidades de obtener un conocimiento ms preciso sobre la situacin de estudio; es quiz por eso uno de los esquemas ms utilizados.
132
Introduccin al muestreo
N = N1 + N2+...+ NL
Estrato 2
o1 rat Est
2 4 3 4 8 5
Estrato L
2 1 4 1 n2 3 2 nL
2 3 n1 3
1. Se selecciona una muestra de m conglomerados usando muestreo aleatorio simple. 2. De cada conglomerado seleccionado obtenemos un marco de las Ni unidades i=1, 2, ..., m. 3. Seleccionamos una muestra aleatoria de tamao ni, i=1, 2, ..., m, de cada uno de los conglomerados. As, la muestra total ser de tamao n = n1 + n2 + ... + nm (ver Figura 6.3). La forma de determinar ni para cada conglomerado puede ser por separado o bien determinar n y despus distribuirla sobre los m conglomerados.
Figura 6.3 Esquema de un muestreo por conglomerados con seleccin de unidades en dos etapas
En muchas situaciones, como en el caso del estudio de ambiente organizacional sobre la cadena de tiendas, los conglomerados son en algn sentido tambin unidades de estudio, ya que hay un efecto contextual que hace que las unidades elementales de un conglomerado sean ms homogneas entre ellas que cuando son comparadas con las unidades de otros. El uso de los esquemas de muestreo en varias etapas, del cual el muestreo por conglomerados es un caso particular, enfrenta una serie de dificultades de tipo terico, pero su valor prctico lo hace muy popular entre los investigadores.
134
Introduccin al muestreo
Observe que el muestreo aleatorio simple y el estratificado no son alternativas excluyentes con el muestreo por conglomerados o con el sistemtico. Pueden construirse estratos de conglomerados y en cada uno de ellos realizar muestreo aleatorio de conglomerados y en cada conglomerado llevar a cabo un muestreo sistemtico. Evidentemente las expresiones para el clculo de los estimadores se vuelven un poco complejas, pero es perfectamente factible disear e implementar estrategias combinadas.
... ...
2k (n-1)k + 1
...
k k+1 k+2
...
...
...
... nk
Figura 6.4 Esquema de una seleccin sistemtica de tamao n de una poblacin ordenada de tamao N = nk
135
136
Introduccin al muestreo
A continuacin se har una justificacin de los conceptos involucrados en el ltimo inciso, ya que son de suma importancia. La precisin de una estimacin puede expresarse generalmente a travs de dos elementos: El error tolerable () y la confianza () o confiabilidad. El error tolerable es la diferencia que estamos dispuestos a aceptar entre el verdadero valor poblacional ()1 y el calculado con la muestra (n).2 Por otro lado, la confianza es justamente la probabilidad3 de que el error tolerable no sea sobrepasado. De esta manera la ecuacin de donde se despeja el tamao de muestra es: ^ n
La relacin entre el tamao n de la muestra y el tamao N de la poblacin, para una precisin constante especificada, se muestra en la Figura 6.5. Observe que el tamao de muestra crece muy lento, aun con grandes incrementos en el tamao de la poblacin. As, por ejemplo, para un tamao de poblacin N = 300 resulta una muestra de n = 120. Sin embargo, si el tamao de la poblacin se duplicara a 600, la muestra sera de 150. Ntese que no se duplica. Es ms, si N = 900, el tamao de muestra ser de n = 164. Si la poblacin fuese muy grande, digamos N = 1,000,000, el tamao de muestra sera n = 200, que es el valor lmite (tope), como se percibe, manteniendo en todos los casos el mismo nivel de precisin requerido.
Al verdadero valor poblacional, el cual es una constante, se le llama parmetro. . A la expresin para calcular este valor con base en la muestra se le conoce como estadstico, y cuando se usa como instrumento para conocer la magnitud del parmetro se le llama estimador. . 3 La probabilidad es expresada generalmente en porcentaje.
1 2
137
200
100
100
200
300
400
500
Tamao de la poblacin
Donde Z(/2) es un valor de tablas que determina un nivel de significancia o confianza (90%, Z = 1.65; 95% Z = 1.96; 99%, Z = 2.34); 2 es la varianza de la poblacin que se puede sustituir por una estimacin adecuada; y es la precisin con la que se desea obtener la estimacin. Ejemplo 1: Suponga que deseamos estimar el tiempo promedio que tardan en entregar una requisicin los almacenes regionales de la zona Acayucan. Asuma que se tienen 560 tiendas (N) y que de una muestra piloto de 10 obtuvimos que X = 5.3 das con una desviacin estndar s = 1.3. Suponga que pretendemos una estimacin tan precisa como medioda ( = 0.5). As, si fijamos una confianza de 95% tendremos: (1.3)2 (1.96)2 (0.5)2
no =
26
138
Introduccin al muestreo
Ntese que si nos ponemos muy exigentes en la precisin de la estimacin, por ejemplo fijando = 0.1, tendramos (1.3)2(1.96)2 (0.1)2
no =
650
Dado que este nmero es ms grande que el tamao de la poblacin, esto nos llevara a realizar un censo. En general la no se corrige usando el tamao de la poblacin de la siguiente forma: n= no 1+ Para nuestro ejemplo tendremos:
no
N
a)
n=
b)
n=
Ntese que la correccin por finitud afecta a los tamaos de muestra grandes, pero no cambia sustancialmente los tamaos de muestra pequeos. Las frmulas presentadas aqu se pueden aplicar para el caso en el que interese estimar una proporcin de xitos. Es decir, el caso en que la variable de inters sea dicotmica (pasa, no pasa; xito, fracaso; etctera). As: no = Z2(/2)p(1-p) 2
Donde p es la proporcin estimada de una muestra piloto o estudio previo. Observe que el mayor valor que puede asumir el producto p (1-p) es 0.25, el cual se alcanza cuando p = 0.5. En esta condicin se estimara el mximo tamao de muestra posible. De esta manera el tamao de muestra ms conservador se logra con la expresin:
139
Z2(/2) no =
*
42 Z2(/2)p(1-p) , 2
1 2
Nk k
k =1
Donde Nh, nh y h son el tamao del estrato de la muestra y la desviacin estndar, correspondientes a estrato h-simo. Con esta expresin se toman ms muestras de un estrato ms grande y de los ms variables o heterogneos. Para variables dicotmicas tenemos que: h =
ph(1-ph)
Ejemplo 2: Se requiere estimar la proporcin de productos que tienen una baja demanda en las tiendas; si se tienen 700 productos clasificados en tres distintos tipos. Por datos histricos se conoce que 112 productos tienen problema de baja demanda, lo cual se muestra junto a informacin adicional en el cuadro siguiente:
140
Introduccin al muestreo
Tipo
A B C Total
Nh
200 370 130 700
ph
0.29 0.04 0.29 0.16
ph(1-ph)Nh
90.75 72.50 58.99 222.24
nh
66 53 43 162
Tabla Tabla 6.2 Clculo para tamao de muestra de productos con baja demanda, segn tipo
De esta forma, si se desea estimar la proporcin global de productos con una precisin de =0.05, y con una confianza de 95%, se tendra: (1.96)2(0.16)(0.84) (0.05)2 n=
no =
112
1+ 206 700
160
Ahora tiene sentido la pregunta: cmo distribuir la muestra? Puede entonces usarse la expresin de distribucin proporcional, tomando en consideracin que para el caso de proporciones:
h =
ph(1-ph)
nh =
nNh ph(1-ph)
Nh ph(1-ph)
Con la informacin del cuadro puede aplicarse de la siguiente manera. Calclese el denominador:
N p (1-p )
h h h
141
Ahora se aplica la expresin para calcular el tamao de muestra que se tomar de cada estrato: nNA pA(1-pA)
22.24
nA =
(160)(200)
, es decir,
(160)(90.75)
222.24
nA =
(0.29)(0.71)
222.24
65
De manera anloga:
nA 65
nA 43 Cuando slo se conoce el tamao de los estratos la asignacin puede hacerse proporcional a dicho tamao, es decir, usando la expresin: Nh .n N
nh =
nA =
nB =
nC = 29
Introduccin al muestreo
ciones que debemos tener en cuenta, pues de acuerdo a la experiencia de algunos investigadores que se han dedicado a esta rea, ha surgido una serie de pasos para el diseo del cuestionario que puede ser de gran utilidad a fin de evitar errores graves. Aunque estas reglas son tiles, la calidad del cuestionario depende de la capacidad y el criterio del investigador, quien debe ser creativo para darle el toque final. Los pasos generales para el diseo del cuestionario se presentan a continuacin: 1. Precisar los objetivos del estudio, planteados de manera operativa. 2. Definir una estrategia para lograr cada uno de los objetivos, en forma acertada. 3. Rescatar de cada una de las estrategias la informacin que se necesita y la forma que debe tener la misma para llevarla a cabalidad. 4. Verificar una vez que se dispone del listado con toda la informacin que se requiere, uno por uno el papel que desempear en el anlisis para desechar aquella informacin que no cumpla una funcin clara. El cuestionario no debe contener preguntas innecesarias. 5. Asociar a cada requerimiento de informacin la pregunta adecuada para conseguirla. Aqu hay que tomar en cuenta las caractersticas de la poblacin para usar el lenguaje apropiado. 6. Dividir las preguntas por grupos relacionados, de esta manera la entrevista se har ms natural. 7. Disear la estructura del cuestionario de tal manera que las preguntas ms importantes vayan en un lugar adecuado, no al final. 8. Elaborar la mayor cantidad de preguntas con respuesta cerrada (de marcar). Las preguntas pueden ser de eleccin mltiple, dicotmicas o de respuesta abierta. Las preguntas cerradas tienen la ventaja de no prestarse a ambigedades, ni a posteriores interpretaciones. Sin embargo, las preguntas abiertas tienen la ventaja de permitir que el entrevistado exprese sus actitudes generales, lo cual da confianza y logra propiciar la cooperacin del encuestado para que conteste preguntas ms especficas y estructuradas; stas son muy importantes como introduccin en una entrevista. 9. Un equipo con la persona que procesar los datos asigne cdigo a las preguntas y a las respuestas. 10. Redactar un breve encabezado de presentacin, de manera muy clara y concisa, que proporcione confianza y seguridad al entrevistado. 11. Realizar algunas entrevistas piloto o de ensayo a personas variadas en su formacin, estrato socioeconmico, sexo, etc., con el propsito de detectar posibles fallas en la forma como se han construido las preguntas y para hacer ms exhaustivo su conjunto de opciones en las preguntas de respuesta cerrada. Del estudio de las respuestas
143
de algunas de las preguntas abiertas, puede surgir la necesidad de cambiarla a una pregunta cerrada, tomando en cuenta las diversas opciones de respuesta que se obtuvieron. En esta parte se debe medir el tiempo que se tarda en aplicar un cuestionario completo. Esto le servir para calcular el tiempo de ejecucin de la encuesta, tamao del grupo de entrevistadores, estrategia para pedir citas a los posibles entrevistados y para calcular costos. 12. Llevar a cabo los reajustes pertinentes de acuerdo con los resultados de la encuesta piloto. En cuanto a la redaccin de las preguntas tenga en cuenta las siguientes apreciaciones:
Utilizar palabras claras. Las palabras claras tienen un slo significado Evitar preguntas que sugieran una respuesta ms que otra. Evitar preguntas tendenciosas. Una pregunta parcializada incluye
para todos los encuestados.
palabras o frases que sugieren un sentimiento de aprobacin o desaprobacin. Evitar alternativas implcitas. Es conveniente especificar claramente las alternativas de respuesta, si se utilizan alternativas explcitas, stas deben estar donde les corresponde, ya que si el nmero de alternativas es grande o complejo, las que estn al final tienden a ser ms elegidas. Evitar suposiciones implcitas. Al formular un cuestionario deben hacerse explcitas las suposiciones para evitar que la respuesta tienda hacia implicaciones lgicas. Evitar clculos. Las preguntas no deben disearse de tal manera que los encuestados tengan que realizar clculos. Evitar preguntas de doble respuesta. Por ejemplo, cuntas veces compra y come huevo a la semana? Cuando la pregunta use la conjuncin y el investigador debe analizarla muy bien para asegurarse de que no incluya dos respuestas. Considerar el marco de referencia. Este marco nos indica la ptica bajo la cual el encuestado contempla la realidad de la pregunta.
En general, el cuestionario se debe desarrollar como un proceso, que debe iniciar con la definicin clara de los rubros de informacin que se requiere. Acto seguido, es necesario ponerse a la tarea de redactar un primer ensayo de las preguntas. Las revisiones sucesivas producirn un instrumento que se deber probar; las modificaciones se deben realizar hasta que se tenga garanta de que el cuestionario mide lo que se requiere medir.
144
ANEXO
Resumen de la situacin
Doa Nelly Uribe, gerente general de la Cooperativa de Alimentos Unin (CAU), recientemente se dio cuenta que haba perdido contacto con los patrones de compra de los miembros de la cooperativa. Simplemente la CAU pareca ms grande ahora que en los primeros aos. La gerente se preguntaba si podra hacer uso de algn tipo de datos que estuviesen a su alcance con el propsito de ampliar su comprensin acerca de los hbitos de compra de los miembros, que en este caso son los clientes. Esperaba utilizar este conocimiento para planificar mejor la mezcla y el volumen de artculos que la CAU ofreca.
145
Antecedentes de la CAU
La seora Uribe y un pequeo grupo de voluntarios fundaron la CAU en 1974. Esta cooperativa haba aumentado de 10 miembros iniciales en enero de 1974 a 2800 miembros en septiembre de 1996. La empresa estaba localizada en una vieja bodega en la poblacin de Prosperidad, con 100,000 habitantes. El objetivo de la CAU era proveer productos alimenticios de alta calidad a un precio por debajo de los que se ofrecan en los supermercados locales. Para lograr ese objetivo, la CAU utilizaba las cajas de empaques como estanteras; no empleaba bolsas para transportar los productos que ya venan empacados, el propio cliente resolva este asunto; venda slo las mejores marcas y en general no inverta en lujos que no redundaran en un beneficio real para sus clientes. Para poder comprar en la CAU las personas tenan que ser socios. La cuota de afiliacin era, en pesos colombianos, el valor equivalente a 25 dlares anuales. Cualquier ganancia obtenida por la CAU durante el ao se devolva a los clientes en forma de bonos para sus compras. La seora Uribe estaba convencida de que los socios compraban la mayor parte de sus alimentos en la CAU.
Datos disponibles
En junio de 1996 se utiliz un cuestionario para recolectar datos sobre los socios; durante un mes completo se recogi informacin de los clientes que compraron, dando informacin de una muestra de 500 socios del total de 2,800 que conforman la cooperativa. Los datos consistan en las caractersticas demogrficas de los miembros y sus gastos semanales en alimentos. Los datos se encontraban en tarjetas que los socios haban llenado en el momento de la entrevista. La seora Uribe tena stas en un archivero en su oficina. Las caractersticas incluidas en las tarjetas se presentan a continuacin.
146
Con el propsito de conocer mejor a los socios, la gerente quera saber, inicialmente, el promedio semanal de gasto en alimentos. Las categoras de las variables correspondientes son definidas ms adelante. Las variables para las cuales existe informacin son:
Variable
Descripcin
Familia G-ali-semana Pers/Fam Ing-anual Educacin Edad G-ali-sem (C) Ni<6(no-s) Ni6-18 (no-s) Ing-anual (C) Edad (C)
Nmero de Identificacin de la unidad familiar; 1-500 Gastos semanales en alimentos (dlares) Nmero de personas que conforman la familia, 1-9 Ingreso familiar anual (dlares) Mximo nivel de educacin del jefe del hogar Edad actual del jefe del hogar Gasto semanal en alimentos, codificado en 7 categoras Algn nio menor de 6 aos, 1-2 Algn nio entre 6 y 18 aos, 1-2 Ingreso familiar anual, codificado en seis categorias; 1-6 Edad del jefe del hogar, codificado en siete categoras
Preguntas de inters
Quines son los miembros de la CAU? Estructura de edad y escolaridad La edad es una caracterstica que est asociada con los estilos de vida y con las apetencias. Esto podra sugerir a la seora Uribe sobre la adquisicin de cierto tipo de productos y sobre las cantidades que sera prudente ordenar. Las personas, a partir de cierta edad, desean procurarse una alimentacin sana, algunos con tendencias naturistas. Las apetencias de los nios menores de seis aos estn bastante marcadas y estudiadas. Conocer el
147
porcentaje de nios en esta edad tambin permitira orientar las compras en lo cualitativo y cuantitativo, lo anterior es vlido para los jvenes de seis a dieciocho aos. La distribucin de frecuencias por nivel de escolaridad, adems de que podra asociarse con el gusto por cierto tipo de productos, le dar informacin sobre la mejor opcin de comunicacin con sus socios y sobre el lenguaje a utilizar en los folletos de divulgacin y promocin de la tienda. Nmero de personas por familia La distribucin del nmero de personas por familia es muy importante para realizar estimaciones, sobre todo si resulta cierta la sospecha de que una familia de ocho personas no gasta cuatro veces en alimentos, lo que gasta una familia de dos personas, as tengan el mismo nivel socioeconmico y otras caractersticas. Donde comen dos, comen tres? Esta informacin podra orientar sobre la cantidad de alimento que es posible poner en cada paquete y si vale la pena considerar varios tamaos. Tendrn xito paquetes de arroz de 10 kg? Tendrn xito paquetes de arroz de 2 kg? Es posible que ambos? Si es as, en qu proporciones cada uno de ellos?
Cunto gastan en alimentos a la semana? Podran gastar ms? Cmo es la distribucin del gasto en alimentos segn el nmero de
Quines son los que podran gastar ms? personas por familia? Es verdad que donde comen dos, comen tres? (no linealidad del gasto). El gasto en alimentos est asociado con el nivel de educacin y ste, a su vez, con el ingreso anual? El nmero de personas que componen la familia est asociado con el nivel de educacin? Podra pensarse en construir un modelo que permita predecir el gasto en alimentos con base en algunas de las caractersticas observadas?
Observacin
Todas estas preguntas, y seguramente muchas ms, deben surgir de manera natural de boca de quienes contratan el estudio, con el apoyo, por supuesto, de los profesionales de la investigacin de mercados. Porque de lo contrario la profundidad del trabajo depende de la capacidad y el
148
conocimiento de quien no ha sentido el problema; es decir, de ponerse en los zapatos del cliente. En el camino irn surgiendo inquietudes adicionales que darn origen a nuevas preguntas. Recuerde que, como propsito general, la gerente desea conocer a sus clientes. Cuanto mayor sea el nivel de especificidad de los requerimientos del cliente, mayor ser la probabilidad de dejarlo satisfecho con el trabajo de anlisis estadstico. Aqu se trabaja con la informacin que ya se tiene colectada; sin embargo, pueden surgir preguntas de inters que requieran la toma de datos adicionales. A continuacin se establecen las diferentes categoras en que se han clasificado los individuos para cada una de las variables de inters. Es de anotar que esta clasificacin es el resultado de la conveniencia. Usted es libre de organizar las categoras segn su criterio.
Educacin
G-Ali-Sem (C)
Edad (C)
149
A estas alturas, con el acuerdo de la CAU en el sentido de que las preguntas formuladas son pertinentes, la estrategia queda orientada por la manera de dar respuesta a cada una de las preguntas.
Anlisis
Estrategia de anlisis
20
54321 4 4 5 1 1 4 1 4 1 4 4 1 4 5432432132432143243243213254324321 132432132143213213243214321321 1 5 4 5 5432432132432543243243213254324321 1 4 1 1 1 54324 1 4 5 1 4 1 1 1 1 1 1 4 1 4 4 1 1 1 4 432432432543243243213254324321 32132132143213213213214321321 4 5 4325 1 1 1 4 4 4 5 1 1 4 432543243243213254324321 1 1 1 4 1 1 432543243243213254324321 143213213243214321321 432143243243213254324321 1 5 1 1 4 1 1 432543243243213254324321 1 1 4 1 1 432543243243213254324321 1 1 1 4 1 4325 1 1 1 4 1 4 4 1 5 4 1 432543243243213254321321 143213213243214321 543243243213254324 1 1 4 1 1 543243243213254321 1 1 4 1 43243213254321 1 4 1 43243213254321 1 4 1 43243213254321 1 4 1 4324 1 5 1 4 1 43243213254321 13213214321 43243254321 4321 1 4 4321321 4321 4321321 1 4 4321321 4
Histograma Histograma
150
100 20 40
Percentil Percentil
60
80
Porcentaje Porcentaje
10
12
14
16
18
10 10
20 20
30 30
Edad-Jefe
40 40
Edad-Jefe
50 50
Punto (39 Aos, 50%). Indica que 50% son menores de 39 aos. 60 60
75%
50%
70 70 25%
80 80
Percentiles Percentiles
90 75 50 25 10
Edad-Jefe
Valores atpicos
90% de los jefes de hogar tienen 58 aos o menos 75% son menores de 49 aos
80 70 60 50 40 30 20 10 0
Aos
Edad-Jefe
Educacin
Educacin Cuadro de frecuencias
Frec. 1 2 3 4 5 Total 104 206 386 456 500 500 Porcent. Porcent. 20.8 41.2 77.2 91.2 100.0 100.0
Aproximadamente 80% tiene estudios superiores a primaria Aproximadamente 10% son profesionales
Educacin
1 Primaria o menos
2 Secundaria (sin terminar)
151
10 9 8 7 6 5 4 3 2 1 0
Nmero de personas
Pers-Fam
Porcentaje Porcentaje
80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10
Distribucin de frecuencias
25 22.5 20 17.5 15 12.5 10 7.5 5 2.5 0
Porcentaje Porcentaje
152
Nios menores
Nios menores de seis aos?
S
2
No
1
Jvenes de 6 a 18 aos?
Jvenes de 6 a 18 aos?
45% de las familias tienen jvenes de 6 a 18 aos
S
2
No
1
1 2 Total
153
120
Puntos atpicos
100
Dlares / semana
80
60
0 G-Ali-Semana 10% de las familias gasta 18 dlares semanales o menos 25% de las familias tiene un gasto semanal en alimentos menor de 30 dlares
154
Porcentaje Porcentaje
Grfico de percentiles
Percentil Percentil
155
Cmo vara el gasto semanal en alimentacin con el nmero de personas por familia?
120 100 80 60 40 20 0
Este grfico es muy valioso porque permite comparar fcilmente y con claridad varias distribuciones de frecuencia, en este caso nueve al mismo tiempo. Se puede apreciar simultneamente su localizacin y su variabilidad. Adems, proporciona buena informacin sobre los propsitos del estudio. Observe que no hay linealidad en el gasto semanal en alimentacin. Analice el grfico y responda las siguientes preguntas:
Una familia de dos personas gasta el doble en alimentacin que Una familia de nueve personas gasta tres veces en alimentacin lo
que una familia de tres personas?, o nueve veces lo de una familia de una persona? otra de una persona?
En el grfico siguiente se ha construido un intervalo a 95% de confianza para la media, el globo correspondiente con el valor de la media calculada de la muestra y el segmento marca el intervalo en el que con bastante probabilidad podr encontrarse la verdadera media de toda la poblacin de donde fue extrada la muestra. Aunque no se ha presentado esta herramienta en el captulo, el lector lo puede considerar de forma similar a las cajas, suponiendo que slo se despliega un patrn general.
156
70 65 60 55 50 45 40 35 30 25
Comparacin de las medias del gasto semanal en alimentacin segn nmero de personas/FLIA Frec
1 2 3 4 5 6 7 8 9 50 119 95 99 57 34 24 12 10
Media
30.940 33.231 40.626 47.128 51.404 57.632 61.271 56.250 55.850
Des. Est.
16.573 17.273 17.951 18.074 18.757 27.030 27.075 12.302 15.596
Una sola persona gasta, en promedio a la semana, aproximadamente 30 dlares. Mientras que la de dos personas gasta en promedio 33 dlares.
componen la familia. Si en cada una de las 500 familias calculamos el gasto por persona, dividiendo el gasto semanal por el nmero de personas de la familia, obtenemos la siguiente distribucin:
Observe la interesante informacin que muestra el grfico; primero, veamos que el gasto per cpita no es homogneo en todos los grupos, lo cual puede apreciarse claramente, pues para familias con pocas personas el gasto medio por persona es mayor que para familias con ms personas. Analizando cifras pasamos de una mediana de aproximadamente 30 dlares/semanapersona, para una persona, a valores como 6 dlares/ semanapersona, para familias con nueve personas. Como puede notarse, la diferencia es bastante. Otra observacin interesante es que esa economa de escala, de modo razonable, llega a un lmite en el que no es posible bajar ms. Es decir, el gasto por cabeza probablemente ser el mismo si se cocina para nueve personas que si se cocina para veinte. La educacin del jefe del hogar estar relacionada con el gasto semanal en alimentos? Se da respuesta a esta interrogante con otro grfico de cajas y alambres.
158
120 100 80 60 40 20 0
Gastos alimentacin
3 Escolaridad
Al comparar los distintos grupos de escolaridad se observa que la variabilidad es ahora ms homognea. La mediana del gasto va creciendo con la escolaridad, pero cada vez ms lentamente hasta lograr cierta estabilidad. Se aprecia cierta asociacin estadstica entre estas dos caractersticas que podra ser heredada de la asociacin de esas variables con una tercera: el ingreso anual. Esto puede ser cierto si se cumpliera la hiptesis de que a mayor nivel de escolaridad se detectar mayor ingreso, y que a mayores ingresos correspondern mayores gastos en alimentacin. Vamos a verificar si estas sospechas son ciertas, y de paso, aprovechamos para explorar el ingreso anual.
Porcentaje Porcentaje
20 15 10 5 0
Las frecuencias se hacen cada vez menores muchos ingresos bajos y cada vez ms pocos muy altos
5,000 15,000 25,000
USD
-5,000
35,000
45,000
Ingreso anual/familiar
159
De(3)
500 4650 8800 12950 17100 21250 25400 29550 33700 37850
A(<)
4650 8800 12950 17100 21250 25400 29550 33700 37850 42000
Frec.
140 135 81 68 33 21 13 5 2 2
Porcent.
28.0 27.0 16.2 13.6 6.6 4.2 2.6 1.0 .4 .4
Total
500
100.000
La distribucin tiene una forma exponencial (jota invertida). Su forma se ve reflejada en el diagrama de caja que se presenta a continuacin. Observe el histograma: si cortamos una tajada que tome 25% del rea inicial, sta ser relativamente delgada, puesto que al principio el rea es gruesa; luego el segundo pedazo de 25% tendra que ser ms largo, puesto que el rea se hace ms delgada y as el tercer pedazo sera de 25%. Esto se debe reflejar en el diagrama de caja, con distancias estrechas al principio que se van aumentando, lo que produce poca simetra dentro de la caja.
45,000 40,000 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0 -5,000
Los compartimientos cada vez ms largos, sugieren la forma de una distribucin aprox. exponencial
Ing-anual
El ingreso mediano est alrededor de los 7,000 dlares. 25% tiene ingresos menores de 5,000 dlares al ao.
160
Los ms educados obtienen mayores ingresos? Como puede apreciarse en el grfico que aparece ms adelante, el ingreso tiene la tendencia a crecer con el nivel de educacin. La mediana de la distribucin crece, pero tambin es cierto que crece su variabilidad.
Distribucin del ingreso familiar anual segn su nivel de educacin
45,000 40,000
Educacin
Des. Est. 4282.0 5336.7 5958.3 8479.7 9794.1
1 2 3 4 5
Educacin
20,000 18,000
Intervalos de 95% de confianza para el ingreso medio, segn la educacin del jefe de hogar
Educacin
161
Los sujetos de la categora 1 tienen ingresos medios anuales de aproximadamente 5,000 dlares, los de categora 2 de 8,000, los de categora 3 de 11,000, los de 4 aproximadamente de 13,500 dlares y los profesionales alrededor de 16,500 dlares. Observe cmo crece la longitud de los intervalos de 95% de confianza para la media verdadera en cada categora. Esto es debido, como veremos ms adelante, a que en las categoras superiores hay mayor varianza del ingreso y tambin hay menos datos.
Casos 104 102 180 70 44 Media 5061.5 7932.3 10780.5 13485.7 16568.1 Des. Est. 4282.0 5336.7 5958.3 8479.7 9794.1 Err. Est. 419.8 528.4 444.1 1013.5 1476.5
1 2 3 4 5
El nmero de personas por familia podra obrar como un factor de confusin, en el caso de que el nmero de personas por familia estuviera relacionado con el nivel de escolaridad. Las familias con padres con mayor educacin tienen la tendencia a ser menos numerosas? Vamos a explorar esta pregunta, construyendo un diagrama de cajas para el nmero de personas por familia segn su nivel de educacin. Posteriormente haremos la relacin del ingreso per capita con el nivel de educacin. sta sera una manera de eliminar el efecto del nmero de personas por familia, pues estaramos midiendo la cantidad de dinero que le corresponde a cada uno de sus miembros. El ingreso per capita lo obtendremos dividiendo el ingreso familiar entre el nmero de personas.
Distribucin de personas por familia segn su nivel de educacin
10
Educacin
Nmero de personas/familia
9 8 7 6 5 4 3 2 1 0 1 2 3 4 5
Educacin
162
No parece existir una asociacin fuerte entre el nivel de educacin y el tamao de la familia. Cmo es la relacin entre nivel de educacin e ingreso per capita?
Ingreso medio por persona, segn nivel de escolaridad del jefe de hogar 1 2 3 4 5 Casos 104 102 180 70 44 Media 2064.178 2721.027 3858.348 3937.704 5395.563 Des. Est. 1.929E3 2.608E3 3.744E3 2.646E3 3.676E3 Err. Est. 189.160 258.205 279.034 316.310 554.173
Educacin
Distribucin del ingreso anual per capita segn escolaridad del jefe de hogar
30,000 25,000
Ingreso anual/persona
Educacin
De nuevo se aprecia que el ingreso por persona aumenta con la escolaridad, tanto en su media como en su dispersin. El ingreso medio por persona en la categora 1 de nivel de educacin es de aproximadamente 2,000 dlares, mientras que en los profesionales (categora 5) es de aproximadamente 5,400 dlares por persona al ao.
163
En realidad los miembros de una familia compiten por los recursos, o existe una sutil ley natural que hace que la familia tenga un nmero de miembros que deja constante el ingreso per capita? En otras palabras, cuando la familia es ms numerosa, a cada uno de los miembros le toca menos recursos? Para responder esta pregunta se construye un diagrama de cajas del ingreso per capita variando el nmero de personas por familia.
Distribucin del ingreso per capita segn tamao de la familia (USD USD/Ao) Ingreso anual por persona (USD/Ao)
30,000 25,000 20,000 15,000 10,000 5,000 0 -5,000
Evidentemente, cuando la familia es menos numerosa es mejor su situacin en cuanto a recursos econmicos anuales por persona. Sin embargo, a partir de un cierto nmero de miembros, en este caso cinco personas por familia, las diferencias parecen no ser sustanciales. Estn asociados el ingreso anual y la edad del jefe de familia? Especulando un poco, podra pensarse que la situacin se estanca o decae? Para tener la informacin al respecto se construye un diagrama de cajas del ingreso anual segn la edad del jefe de hogar (categorizada); sin embargo, el nivel de educacin podra ser un factor de confusin, puesto que si la distribucin del nivel educativo no es la misma en todas las edades, como parece ser, la comparacin del ingreso por grupos de edad no sera vlida.
164
Para ir en orden, primero se responde la pregunta: El nivel de educacin depende de la edad? Entonces se estudia la edad en cada categora de educacin.
Distribucin de la edad segn el nivel de educacin
80 70 60
Edad-Jefe
50 40 30 20 10
3 Educacin
De acuerdo con el grfico no parece haber diferencias en las distribuciones de edad en cada categora. Para tener una mejor visin en la siguiente figura se presenta un grfico para los intervalos del 95% de confianza para la edad promedio en cada nivel de educacin.
Intervalos de 95% de confianza para la edad media segn nivel educativo
45 44 43
42 41 40 39 38 37 36 35
3 Educacin
165
Para reforzar la apreciacin anterior note que todos los intervalos de confianza se traslapan, lo cual es indicador de que no hay diferencias significativas cuando se comparan pares de poblaciones con un nivel de significancia de 5%. Aunque sta es una metodologa de naturaleza inferencial, la usamos para reforzar la informacin proporcionada por las cajas. El lector podr apreciar su potencial en los usos que adelante haremos de esta herramienta. Ahora s intentemos responder la pregunta original acerca de si el ingreso anual y la edad estn asociados.
Distribucin del ingreso anual segn edad del jefe de hogar
45,000 40,000 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0 -5,000
Ingreso anual
Edad
La especulacin que realizamos al principio es consistente con lo observado en el diagrama: las personas jvenes tiene menores ingresos que las maduras, pero las diferencias con los de mayor edad es menor. Parece que entre las categoras de edad 2, 3, 4 y 5 no se presentan muchas diferencias. Para explorar un poco ms sobre los patrones de las distribuciones, construyamos un diagrama con los intervalos de 95% de confianza para el ingreso medio en cada categora de edad.
Intervalos de confianza de 95% para la media del ingreso anual segn edad del jefe de hogar
14,000
Edad
166
Observe cules intervalos no se traslapan; entre ellos es que existen diferencias significativas a un nivel de 5% de significancia. Por ejemplo, los intervalos, 1, 6 y 7 se traslapan, lo cual significa que no hay diferencias significativas entre las medias de las poblaciones que representan. Tampoco las hay entre los ingresos medios de las categoras de edad 3, 4 y 5. En cambio, se puede observar que s hay diferencias significativas entre los ingresos medios de las edades denotadas con las categoras 1, 2 y 3. Existe una asociacin fuerte entre el ingreso y el gasto en alimentos? Un primer acercamiento a la solucin de esta pregunta puede hacerse a travs del diagrama de dispersin. Veamos:
Diagrama de dispersin
140 120 100
G-Ali-Semana
80 60 40 20 0
-5,000
5,000
15,000
25,000
35,000
45,000
En el diagrama se nota cierta relacin dbil, aparentemente lineal, aunque observando el modelo debajo del grfico se descubre un coeficiente de correlacin lineal de 0.37, lo cual hace poner en duda la relacin lineal o la asociacin entre las dos variables. Adems, la dispersin (variabilidad) se incrementa, aparentemente de manera proporcional, con el ingreso anual.
167
G-Ali-Semana
10,000
25,000
40,000
Ing-Anual
Podemos usar el diagrama de cajas, con la variable ingreso anual en forma categrica, para explorar un poco ms el asunto.
Distribucin del gasto en alimentacin segn ingreso familiar anual Gasto en alimentacin/semana
120 100 80 60 40 20 0
Ingreso anual
168
Compare la informacin que nos da el diagrama de dispersin con la que proporciona este diagrama de cajas. Ahora se aprecia que en realidad la relacin no es lineal, como era de esperarse. Se nota que existe un valor lmite, apenas evidente, pues lo que una persona se puede comer tiene un lmite que se evidencia a partir de un nivel de ingreso. Los que ganan dos millones de dlares no comen mejor que los que ganan uno. Por lo tanto, si se quiere ajustar un modelo que permita predecir el gasto en alimentos, a partir del ingreso, debe considerarse un modelo que satisfaga este rasgo asinttico.
Estadsticas para el gasto en alimento segn ingreso familiar anual
Casos Media Des. Est. Err. Est.
1
Educacin
68 84 144 103 76 25
2 3 4 5 6
Observe que, a partir del ingreso de la clase 4, el gasto medio semanal en alimentos es de alrededor de 50 dlares. De esta manera, en los estratos econmicos altos, ste es un buen estimador con base en el cual pueden realizarse otras estimaciones como el potencial de gasto en alimentos del sector de ingresos elevados (categoras 4, 5 y 6).
60 55 50 45 40 35 25 20 15
169
Observe que entre las ltimas tres medias de gasto (categoras 4, 5 y 6) no existen diferencias significativas. Cmo estn asociadas todas las variables estudiadas? Para obtener respuesta a la anterior interrogante se puede mostrar la llamada matriz de correlaciones:
Matriz de correlacin
G-Ali-Semana Pers-Fam Edad-Jefe Ingreso semanal
Ali-Semana G-Ali-Semana ers-F -Fam Pers -Fam Edad-Jefe Edad- Jefe Ingreso semanal
Tambin se puede presentar un grfico que muestre los diagramas de dispersin de las variables de manera comparativa y, como si fuera poco, en la diagonal se despliegan los histogramas de las variables analizadas.
Ingreso semanal
Edad-Jefe
Pers-Fam
G-Ali-Semana
G-Ali-Semana
Pers-Fam
Edad-Jefe
Ingreso semanal
170
Existe un modelo o ecuacin que permita predecir la media del gasto en alimentos? Ya se estudi la relacin lineal entre el ingreso y el gasto, la cual mostr un coeficiente de determinacin de 14%, que es un indicador de la variabilidad explicada por la ecuacin, que en este caso es bastante pobre. Se ensaya ahora la fuerza de la variable nmero de personas por familia, para predecir el gasto en alimentos. Recurdese que en el diagrama de cajas correspondiente se pudo observar que la relacin entre la mediana del gasto y el ingreso no era lineal (rectilneo), por lo tanto se espera que si se ensaya un modelo parablico, el ajuste mejore un poco. Vase:
Modelo
140
Gasto en alimentacin/semana
120 100 80 60 40 20 0
-100
100
300
500
700
900
Con el modelo parablico puede observarse que ha subido la calidad del ajuste un poco. Ahora el coeficiente de determinacin es de 19.4%, que es todava bastante bajo. Una variable ms fcil de determinar es el nmero de personas por familia, cuya relacin tampoco es lineal, como ya se anota anteriormente. Veamos tambin el ajuste que tendra un modelo parablico, con esta variable. Despus de explorar algunas opciones, las cuales han sido sugeridas por los anlisis previos, encontramos un modelo que tiene asociado un
171
coeficiente de determinacin de 40%, el cual es indicador de cierta bondad en el ajuste, lo que permitira darle algn uso predictivo al modelo encontrado, siempre que se validen los supuestos que exige el modelo.
172
REFERENCIAS
Behar, R. y Grima-Cintas, P. (2004). 55 Respuestas a Dudas Tpicas de Estadstica. Madrid. Daz de Santos. Behar, R. y Yepes, M. (1995). Estadstica: Un Enfoque Descriptivo. Santiago de Cali, Colombia, Feriva. Box, G., Hunter, W. y Hunter, J. (1988). Estadstica para Investigadores. Espaa, Revert. Chatfield, C. (1988). Problem Solving: a Statisticians Guide. Londres, Chapman and Hall. Garca-Prez, A. (1972). Elementos del Mtodo Estadstico. Mxico, Universidad Nacional Autnoma de Mxico. Gutirrez-Cabra, S. (1994). Filosofa de la Estadstica. Espaa, Universidad de Valencia. Grima, P., Marco, Ll. y Tort, J. (2004). Estadstica Prctica con Minitab. Madrid, Pearson-Prentice Hall. Hoerl, R. y Snee, R. (2000). Statistical Thinking: Improving Business Performance. EE.UU., Duxbury, Pacific Groove. Jambu, M. (1991). Exploratory and Multivariate Data Analysis. Nueva York, Academic Press.
173
Johnson, R. and Tsui, K. (1998). Statistical Reasoning and Methods. Nueva York, Wiley. John, A., Whitaker, D. y Johnson, G. (2001). Statistical Thinking for Managers. Londres, Chapman and Hall. Kinnear, C. y Taylor, R. (1993). Investigacin de Mercados: Un Enfoque Aplicado. Santa F de Bogot, Colombia, McGraw Hill. Mndez, L.,Namihira, G., Moreno, A. y Sosa, C. (1990). El Protocolo de la Investigacin. Mxico, Trillas. Morton, S. y Ralph, J. (2000). Public Policy and Statistics. Nueva York, Springer. Ojeda, M. (1994). La importancia de una buena cultura estadstica en la investigacin, en La Ciencia y el Hombre. Nm. 17, 143-156. Mxico, Universidad Veracruzana. Ojeda, M. y De Len, A. (1997). Metodologa Estadstica Bsica: Principios y Herramientas para Plantear y Resolver Problemas en un Contexto Organizacional. Mxico, Universidad Autnoma de Guerrero. Ojeda, M. M, Daz-Camacho, J. Apodaca- Victoria, C. y Landa-Trujillo (2004). Metodologa de Diseo Estadstico. Textos Universitarios, Universidad Veracruzana, Xalapa, Veracruz, Mxico. Pea, D. y Prat, A. (1986). Cmo Mejorar la Calidad. Instituto de la Pequea y Mediana Empresa Industrial, Espaa. Prat, A., Tort-Martorrell, X., Grima, P. y Pozueta, L. (1997). Mtodos Estadsticos. Control y Mejora de la Calidad. Espaa, Ediciones UPC. Ryan, T. P. (1989). Statistical Methods for Quality Improvement. Nueva York, Wiley. Sahai, H. y Khurshid, A. (2002). Pocket Dictionary of Statistics. Nueva York, McGraw-Hill. Scheafer, R., Mendenhall, W. y Ott, L. (1987). Elementos de Muestreo, Mxico, Grupo Editorial Iberoamericana. Wheeler, D. (1995) Advanced Topics in Statistical Process Control. Knoxville, SPC Press. Wheeler, D. y Chambers, C. (1995). Understanding Statistical Quality Control. Knoxville, SPC Press.
174
175
Este texto se termin de imprimir en el mes de octubre de 2006 en los talleres del Fondo de Empresas de la Universidad Veracruzana, A.C., siendo Gobernador del Estado de Veracruz el licenciado Fidel Herrera Beltrn y Secretario de Educacin el doctor Vctor A. Arredondo lvarez. La edicin consta de 2000 ejemplares.
176