Vous êtes sur la page 1sur 99

ESTADISTICA

INGENIERIA COMERCIAL UNIVERSIDAD DE ANTOFAGASTA Segundo Semestre del 2012.

Profesor: Sr. Ren Maluenda Moya Universidad de Antofagasta CHILE

1.- Calidad y caractersticas de calidad.


1.1. Definicin de calidad. La palabra calidad tiene mltiples significados. Es un conjunto de propiedades inherentes a un objeto que le confieren capacidad para satisfacer necesidades implcitas o explcitas. La calidad de un producto o servicio es la percepcin que el cliente tiene del mismo, es una fijacin mental del consumidor que asume conformidad con dicho producto o servicio y la capacidad del mismo para satisfacer sus necesidades. Por tanto, debe definirse en el contexto que se est considerando, por ejemplo, la calidad del servicio postal, del servicio dental, del producto, de vida. La definicin de calidad no es nica ni absoluta, cambia de unos autores a otros, de unos productos o servicios a otros y segn el momento en que se formule. De todos modos, buscando un denominador comn, encontramos en muchas de ellas la siguiente idea:

La Calidad de un producto es la medida de su adecuacin al uso para el que esta concebido.


En esta definicin tenemos presente uno de los elementos fundamentales del estudio de la calidad: la adecuacin entre producto y uso (y por tanto usuario). En efecto, por encima de muchos otros aspectos ser el grado en que el producto o servicio satisfaga las necesidades del cliente el que lleve a valorarlo como de calidad o no. Esta opcin cobra cada vez ms impulso en detrimento de lo que podran ser definiciones de calidad ms tcnicas, quedando estas en un nivel de instrumento o herramienta para conseguir la satisfaccin del cliente. Ya nadie se plantea que un producto de calidad es aquel que cumple las especificaciones de ingeniera per se: hay que remontarse a la fase de diseo y criticar el propio establecimiento de esas especificaciones. Adems, y siguiendo el enfoque de Taguchi con su funcin de prdida, no todo el producto que cumple especificaciones es igual de bueno, tiene la misma calidad, con lo cual las especificaciones recobran su papel como garantes de la funcionalidad del producto, pero no necesariamente de su calidad. Por s sola, la calidad es la descripcin de algn producto o servicio no infiriendo nada bueno o malo, la calidad no es un valor, sin embargo muchas veces se la confunde con la palabra SATISFACCIN que produce el producto o el servicio al ser consumido. La ecuacin calidad-satisfaccin la desarrollamos tantas veces, que las personas terminan traduciendo la calidad como satisfaccin.

Satisfaccin es lo que desea permanentemente el cliente o el consumidor y se alcanza cumpliendo


los requisitos establecidos para el producto, en acuerdo y con conocimiento del cliente. (Calidad concertada) La Calidad tiene diferentes definiciones segn la evolucin que ha tenido el trmino en su todava reciente historia, y en su abordaje por diferentes autores. Se agregan ms definiciones si el trmino es referido como adjetivo o como sustantivo. Sin contradecir las definiciones normalizadas internacionalmente del trmino y las que han realizado distintos autores como Crosby, Juran, Taguchi, Feigenbaum, Deming, Shewhart y otros sobre el trmino Calidad en general considerando al trmino Calidad como Adjetivo Calificativo, hoy el trmino es utilizado asimismo como Sustantivo para denominar a una Tecnologa Blanda que se aplica en Organizaciones de todo tipo y tamao.

La Tecnologa de la Calidad se aplica en las Organizaciones, generalmente mediante una inversin significativa, para: 1.- Estandarizar y mejorar continuamente sus procesos, y con el objetivo de obtener por un lado productos y servicios estandarizados, uniformes, estables y confiables que satisfagan en forma continua al cliente para el cual estn diseados, 2.- Lograr productividad, competitividad, seguridad, replicabilidad y globalizacin de las actividades, operaciones, productos y servicios, entre otros beneficios. La aplicacin de la Tecnologa de la Calidad en una organizacin involucra un cambio cultural de la misma, fuertemente influenciado por actividades de sensibilizacin, capacitacin y formacin. Este cambio cultural suele ser un proceso lento, que requiere un largo y continuado esfuerzo de toda la Organizacin y un Liderazgo muy importante de la Alta Direccin.

Definiciones de Calidad desde una perspectiva de producto


La calidad de un producto est dada por la percepcin del cliente hacia ese producto, en funcin del conjunto de caractersticas que el consumidor evala para el producto, y del nivel significativo que cada una de ellas tiene para ese cliente.

Definicin de Calidad desde una perspectiva de usuario


La calidad implica la capacidad de satisfacer los deseos de las personas dentro de su estilo de vida, esto involucra un equilibrio entre lo objetivo/tangible y lo subjetivo/intangible, ofrecer caractersticas beneficiosas y saludables para las personas y su entorno. La calidad de un producto depende de cmo ste responda a las preferencias y a las necesidades de los clientes, por lo que se dice que la calidad es adecuacin al uso de s mismo en la actualizacin de los roles presentados a un consumidor. Por ello la calidad puede ser vista como un estilo o filosofa de vida en un mundo que est cambiando y evolucionando para desarrollar un lugar mejor donde vivir.

Definicin de Calidad desde una perspectiva de las tecnologas de la informacin o calidad de datos
La calidad de datos implica que los datos capturados, procesados, almacenados y entregados son un fiel reflejo de la realidad que se desea tratar mediante sistemas informticos. Esto supone que los datos no contengan errores, sean veraces y estn actualizados.

Definicin de Calidad desde una perspectiva de produccin


La calidad puede definirse como la conformidad relativa con las especificaciones, a lo que al grado en que un producto cumple las especificaciones del diseo, entre otras cosas, mayor es su calidad.

Definicin de Calidad desde una perspectiva de valor


La calidad significa aportar valor al cliente, esto es, ofrecer unas condiciones de uso del producto o servicio superiores a las que el cliente espera recibir y a un precio accesible. Tambin, la calidad se refiere a minimizar las perdidas que un producto pueda causar a la sociedad humana mostrando cierto inters por parte de la empresa a mantener la satisfaccin del cliente.

Una visin actual del concepto de calidad indica que calidad es entregar al cliente no lo que quiere, sino lo que nunca se haba imaginado que quera y que una vez que lo obtenga, se d cuenta que era lo que siempre haba querido. Otras Definiciones formales de Calidad
Otras definiciones de organizaciones reconocidas y expertos del mundo de la calidad son: 1.- Definicin de la norma ISO 9000: Calidad: grado en el que un conjunto de caractersticas inherentes cumple con los requisitos 2.- Segn Luis Andrs Arnauda Sequera Define la norma ISO 9000 "Conjunto de normas y directrices de calidad que se deben llevar a cabo en un proceso". 3.- Real Academia de la Lengua Espaola: Propiedad o conjunto de propiedades inherentes a una cosa que permiten apreciarla como igual, mejor o peor que las restantes de su especie 4.- Philip Crosby: Calidad es cumplimiento de requisitos

5.- Joseph Juran: Calidad es adecuacin al uso del cliente.

6.- Armand V. Feigenbaum: Satisfaccin de las expectativas del cliente.

7.- Genichi Taguchi: Calidad es la menor perdida posible para la sociedad.

8.- William Edwards Deming: Calidad es satisfaccin del cliente.

9.- Walter A. Shewhart: La calidad como resultado de la interaccin de dos dimensiones: dimensin subjetiva (lo que el cliente quiere) y dimensin objetiva (lo que se ofrece).

1.2. Evolucin Histrica del Concepto de calidad A lo largo de la historia el trmino calidad ha sufrido numerosos cambios que conviene reflejar en cuanto su evolucin histrica. Para ello, describiremos cada una de las etapas el concepto que se tena de la calidad y cules eran los objetivos a perseguir. La Calidad Total es el estadio ms evolucionado dentro de las sucesivas transformaciones que ha sufrido el trmino Calidad a lo largo del tiempo. En un primer momento se habla de Control de Calidad, primera etapa en la gestin de la Calidad que se basa en tcnicas de inspeccin aplicadas a Produccin. Posteriormente nace el Aseguramiento de la Calidad, fase que persigue garantizar un nivel continuo de la calidad del producto o servicio proporcionado. Finalmente se llega a lo que hoy en da se conoce como Calidad Total, un sistema de gestin empresarial ntimamente relacionado con el concepto de Mejora Continua y que incluye las dos fases anteriores. Los principios fundamentales de este sistema de gestin son los siguientes:

Consecucin de la plena satisfaccin de las necesidades y expectativas del cliente (interno y externo). Desarrollo de un proceso de mejora continua en todas las actividades y procesos llevados a cabo en la empresa (implantar la mejora continua tiene un principio pero no un fin). Total compromiso de la Direccin y un liderazgo activo de todo el equipo directivo. Participacin de todos los miembros de la organizacin y fomento del trabajo en equipo hacia una Gestin de Calidad Total. Involucramiento del proveedor en el sistema de Calidad Total de la empresa, dado el fundamental papel de ste en la consecucin de la Calidad en la empresa. Identificacin y Gestin de los Procesos Clave de la organizacin, superando las barreras departamentales y estructurales que esconden dichos procesos. Toma de decisiones de gestin basada en datos y hechos objetivos remplazando la gestin basada en la intuicin. Dominio del manejo de la informacin. El proceso habla a travs de los datos.

Etapa

Concepto Hacer las cosas bien independientemente del coste o esfuerzo necesario para ello.

Artesanal

Hacer muchas cosas no importando que sean de calidad (Se identifica Produccin con Calidad). Asegurar la eficacia del armamento sin Garantizar la disponibilidad de un Segunda Guerra importar el costo, con la mayor y ms armamento eficaz en la cantidad y rpida produccin (Eficacia + Plazo = Mundial el momento preciso. Calidad) Minimizar costes mediante la Calidad Posguerra Hacer las cosas bien a la primera (Japn) Satisfacer al cliente Ser competitivo Postguerra Satisfacer la gran demanda de Producir, cuanto ms mejor (Resto del bienes causada por la guerra mundo) Tcnicas de inspeccin en Produccin Satisfacer las necesidades tcnicas Control de para evitar la salida de bienes del producto. Calidad defectuosos. Satisfacer al cliente. Sistemas y Procedimientos de la Prevenir errores. Aseguramiento organizacin para evitar que se de la Calidad Reducir costes. produzcan bienes defectuosos. Ser competitivo. * Satisfacer tanto al cliente Teora de la administracin empresarial externo como interno. Calidad Total centrada en la permanente satisfaccin * Ser altamente competitivo. de las expectativas del cliente. Mejora Continua Revolucin Industrial

Finalidad Satisfacer al cliente. Satisfacer al artesano, por el trabajo bien hecho Crear un producto nico. Satisfacer una gran demanda de bienes. Obtener beneficios.

Esta evolucin nos ayuda a comprender de dnde proviene la necesidad de ofrecer una mayor calidad del producto o servicio que se proporciona al cliente y, en definitiva, a la sociedad, y cmo poco a poco se ha ido involucrando toda la organizacin en la consecucin de este fin. La calidad no se ha convertido nicamente en uno de los requisitos esenciales del producto sino que en la actualidad es un factor estratgico clave del que dependen la mayor parte de las organizaciones, no slo para mantener su posicin en el mercado sino incluso para asegurar su supervivencia. (Mercados Globales, sistemas econmicos abiertos, tratados de libre comercio).

La filosofa de la Calidad Total proporciona una concepcin global que fomenta la Mejora Continua en la organizacin y el Involucramiento de todos sus miembros, centrndose en la satisfaccin tanto del cliente interno como del cliente externo. Podemos definir esta filosofa del siguiente modo: Gestin (el cuerpo directivo est totalmente comprometido) de la Calidad (los requerimientos del cliente son comprendidos y asumidos exactamente) Total (todo miembro de la organizacin est involucrado, incluso el cliente y el proveedor, cuando esto sea posible).

Criterios del Modelo de Excelencia Empresarial, o Modelo Europeo para la Gestin de Calidad Total:
Divididos en dos grupos: Los cinco primeros son los Criterios Agentes, que describen cmo se consiguen los resultados (debe ser probada su evidencia). 1. Liderazgo. Cmo se gestiona la Calidad Total para llevar a la empresa hacia la mejora continua. 2. Estrategia y planificacin. Cmo se refleja la Calidad Total en la estrategia y objetivos de la compaa. 3. Gestin del personal. Cmo se libera todo el potencial de los empleados en la organizacin. 4. Recursos. Cmo se gestionan eficazmente los recursos de la compaa en apoyo de la estrategia. 5. Sistema de calidad y procesos. Cmo se adecuan los procesos para garantizar la mejora permanente de la empresa. Los cuatro ltimos son los Criterios de Resultados, que describen qu ha conseguido la organizacin (deben ser medibles). Los nueve criterios son los siguientes: 6. Satisfaccin del cliente. Cmo perciben los clientes externos de la empresa sus productos y servicios. 7. Satisfaccin del personal. Cmo percibe el personal la organizacin a la que pertenece. 8. Impacto de la sociedad. Cmo percibe la comunidad el papel de la organizacin dentro de ella. 9. Resultados del negocio. Cmo la empresa alcanza los objetivos en cuanto al rendimiento econmico previsto.

1.3.- Factores relacionados con la calidad Para conseguir una buena calidad en el producto o servicio hay que tener en cuenta tres aspectos importantes (dimensiones bsicas de la calidad):
Dimensin tcnica: Engloba los aspectos cientficos y tecnolgicos que afectan al producto o

servicio.
Dimensin humana: Cuida las buenas relaciones entre clientes y empresas. Dimensin econmica: intenta minimizar costes tanto para el cliente como para la empresa.

Otros factores relacionados con la calidad son: Cantidad justa y deseada de producto que hay que fabricar y que se ofrece. Rapidez de distribucin de productos o de atencin al cliente. (Just in Time) Precio exacto (segn la oferta y la demanda del producto).

1.4.- Parmetros de la calidad Calidad de diseo: es el grado en el que un producto o servicio se ve reflejado en su diseo. Calidad de conformidad: Es el grado de fidelidad con el que es reproducido un producto o servicio respecto a su diseo. Calidad de uso: el producto ha de ser fcil de usar, seguro, fiable, etc. El cliente es el nuevo objetivo: las nuevas teoras sitan al cliente como parte activa de la calificacin de la calidad de un producto, intentando crear un estndar en base al punto subjetivo de un cliente. La calidad de un producto no se va a determinar solamente por parmetros puramente objetivos sino incluyendo las opiniones de un cliente que usa determinado producto o servicio. 1.5. Caractersticas de calidad. Un elemento que est presente en la definicin anterior y que requiere un comentario especfico es la forma en la que se pueda realizar la medida de esa satisfaccin, es decir, la necesidad nos va surgir de medir el grado de adecuacin al uso que tiene el producto o servicio considerado. Poder hacer esa medicin es fundamental a la hora de comparar un producto con un cierto estndar de calidad que debe cumplirse o a la hora de comparar dos productos desde el punto de vista de la calidad para elegir el mejor. Ser dems imprescindible si queremos enfocar el problema de la calidad y de su control desde una perspectiva cientfica y tcnica. Tal medida conlleva de modo inevitable el recurso a caractersticas cuantitativas, que permitan el uso de herramientas estadsticas potentes y adecuadas a cada situacin. As pues, deberemos identificar unas caractersticas sobre las que nosotros podamos medir de modo objetivo esa calidad.

La identificacin de las caractersticas que en cada caso mejor miden la calidad de un producto o servicio no es, en mucho casos, tarea fcil: a veces la gran cantidad de caractersticas (dimensionales, elctricas, mecnicas, etc.) que definen un producto hacen que sea difcil encontrar la o las ideales, distinguindolas de una multitud de caractersticas de importancia secundaria e incluso irrelevantes. En otros casos, especialmente cuando se trata de empresas que prestan servicios, habr una dificultad intrnseca a la propia identificacin de caractersticas objetivas que permitan medir la calidad, dada la intangibilidad que muchas veces caracteriza al servicio prestado. En cualquier caso, debern seleccionarse slo las ms importantes de entre las caractersticas que miden la calidad, para evitar una excesiva dispersin de esfuerzos. Como primer bloque de caractersticas a controlar estn aquellas cuyo fallo podra acarrear problemas desde el punto de vista de la seguridad o del cumplimiento de normativa legal. Estas deben ser siempre objeto de estudio y control, por la responsabilidad que se podra derivar de su anormal comportamiento. Adems de este aspecto, se manejarn varios criterios de importancia para seleccionar las caractersticas a controlar: Importancia para la funcin del producto. Importancia para las operaciones de fabricacin. Importancia que le concede el cliente. Importancia en como afecta al medio ambiente

Estos cuatro factores son en cierta medida independientes, como puede verse en el siguiente ejemplo: En la fabricacin del bloque de un motor de explosin, un defecto que provocara un reduccin de la potencia obtenida del 10% sera importante desde el punto de vista de la funcin del producto, pero podra no afectar al proceso de fabricacin en las etapas siguientes y pasar desapercibido al cliente. La no colocacin de un gancho que se usa para trasladar el bloque durante la fabricacin sera un serio perjuicio para esta, pero no afectara a la funcin del producto y el cliente ni lo notara. Por ltimo, un aspecto sucio del motor producira en el cliente una impresin desfavorable, pero carecera de importancia respecto de los otros dos factores. La identificacin de esas caractersticas ms importantes puede verse ayudada por el uso de algunas de las llamadas Siete Herramientas. Podemos citar aqu: 1.- El diagrama de Pareto, que ayuda a centrar esfuerzos en aquellos problemas ms importantes o ms frecuentes. 2.- Tambin el diagrama de causa/efecto, al ayudarnos identificar las causas de los problemas de calidad, nos ayuda en la seleccin de aquellas caractersticas que detecten la aparicin de esas causas. 3.- Por otra parte, el conocimiento tcnico del proceso y del producto es imprescindible, y sin l las otras herramientas pueden carecer de sentido. 4.- En esta ltima lnea, el diagrama de flujo del proceso, puede ayudarnos a fijar ideas sobre la secuencia de operaciones y sobre el recorrido que realiza el material. Es un recurso a tener en cuenta.

10

1.6.- Tipos de caractersticas de calidad. Segn un cierto criterio, las caractersticas de calidad pueden considerarse divididas en dos grandes grupos: variables y atributos. Las primeras son aquellas caractersticas que son medibles de un modo continuo, como pueden ser: caractersticas dimensionales (espesores, longitudes, dimetros, ...), caractersticas mecnicas (resistencia, dureza, ) caractersticas elctricas (voltaje, resistencia, intensidad, ...) pesos tiempo que se tarda en servir un pedido tiempo de espera de un cliente para recibir un servicio etc.

En cambio, los atributos son caractersticas resultado de procesos de conteo, que conllevan ya en si una valoracin cualitativa sobre la calidad de piezas, productos o servicios: nmero de defectos superficiales por metro cuadrado de pavimento cermico nmero de piezas defectuosas en una muestra nmero de errores en un documento porcentaje de impresos mal rellenados nmero de personas insatisfechas por la calidad del servicio recibido, en una muestra

La diferente naturaleza estadstica de variables y de atributos nos obligar, como ms adelante veremos, a emplear tcnicas distintas para cada caso, an con la misma base y la misma filosofa. As entonces, si las variables son caractersticas continuas, habitualmente sern modelizadas a travs de la distribucin normal o gaussiana. Ocasionalmente sern otros los modelos a emplear, como por ejemplo el exponencial o el de Weibull si se maneja la vida (duracin hasta el fallo) del producto como ndice de calidad. Por su parte, las caractersticas tipo atributo seguirn modelos discretos, que segn la naturaleza del problema, sern: El modelo Binomial, Hipergeomtrico, si en las muestras tomadas cada unidad es clasificada simplemente como correcta o defectuosa. El modelo de Poisson, si cada unidad de la muestra es susceptible de contener uno o varios
defectos

1.7.- El Rol de la Ciencia Estadstica en la Gestin de la Calidad Total Al definir caractersticas de Calidad en un Producto o Servicio se debe de tener muy en cuenta que dichas caractersticas deben ser necesariamente medibles, ya sea de forma cualitativa o cuantitativa. La medicin de la caracterstica queda evidenciada en lo que se llama dato. La materia prima de la Ciencia Estadstica es el dato.

11

Podemos definir la Estadstica como una ciencia que sustentada en el Mtodo Cientfico y la Matemtica se preocupa de: Disear y Planificar la colecta de los datos Recolectar los datos Procesar de los datos Analizar e interpretar los resultados o informacin

Con el objetivo de:


Ayudar a tomar decisiones lo ms acertadas posibles, teniendo como respaldo el conocimiento obtenido de la "situacin estudiada" a travs de los datos. Planificar y realizar seguimientos a acciones de mejora. Conocimiento bsico y descripcin del comportamiento de una situacin problema. Monitorear acciones implementadas (correctivas, de innovacin, cambio de materias primas, etc. ) La definicin anterior es la que llevada a un ciclo permanente, permite "la mejora continua" de toda actividad humana.

1.8.- Calidad del Dato Del contexto del Ciclo Virtuoso de la Mejora Continua podemos desprender entonces que toda la estructura y beneficios que se espera de la Estadstica descansan en los DATOS. Esto nos sugiere que el mayor esfuerzo posible lo debemos focalizar en la preocupacin de obtener DATOS DE BUENA CALIDAD. La falta de calidad de los datos es uno de los principales problemas a los que se enfrentan los responsables de sistemas de informacin y las empresas en general, pues constituye uno de los problemas "ocultos" ms graves y persistentes en cualquier organizacin. Algunos aspectos a considerar para evaluar la calidad del dato: Capacidad de los equipos de medicin utilizados Programas de Calibracin de los instrumentos de medicin Planes de muestreo o monitoreo para variables del proceso

12

Competencias del recurso humano que interviene Temporalidad Trazabilidad Etc, etc.-

En resumen, realizar un anlisis al Sistema de Medicin que se utiliza o se va a implementar en el o los procesos. La muestra est formada por un subconjunto de elementos de la poblacin, que son obtenidos utilizando metodologas que aseguran la representatividad de la muestra respecto de la poblacin. La informacin obtenida de la muestra permite elaborar conclusiones vlidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Resulta tan relevante la importancia de la muestra para efectos de caracterizacin, conocimiento, descripcin, etc. de la poblacin o fenmeno en estudio, que la Ciencia Estadstica tiene una disciplina denominada Muestreo Estadstico. Para colectar una buena muestra resulta de vital importancia, conocer a fondo el comportamiento de la Poblacin, Universo, Lote, Proceso, etc.1.9.- Los manejos y cuidados de los datos colectados Considerando todos los puntos anteriores, es necesario decir que el avance en la tecnologa de los medios informticos permite cada vez ms el uso eficiente del dato para tener informacin y aprender de los procesos a travs de los datos que entregan sus variables de control.
Dnde almacenamos los datos?

La respuesta a esta interrogante a veces puede no ser simple, pero en general los datos se guardan o almacenan en lo que denominamos o definimos como Base de Datos. Hay empresas que disponen de softwares especializados para el manejo de los datos que obtienen de sus procesos. Pero una forma de trabajar con los datos puede ser una planilla electrnica, como Excel, que resulta enormemente eficiente.

A modo de ejemplo:

13

Qu informacin nos pueden entregar los datos? Con el objetivo de describir y caracterizar el comportamiento (tendencia) de una variable la informacin estadstica puede ser entregada a travs de: Medidas de resumen: De tendencia central De variabilidad De posicionamiento De deformacin

Tablas de distribucin de frecuencias Grficos estadsticos Dependiendo del tipo o naturaleza del dato, es la calidad y forma de entregar la informacin.

14

1.9 Segn el propsito o utilizacin de la informacin obtenida, la Estadstica se divide en: Estadstica Descriptiva o Diagnstica Estadstica Inferencial o Inductiva La Estadstica Descriptiva: Recibe este nombre cuando con la informacin obtenida slo se pretende describir o caracterizar una variable o un grupo particular. Las conclusiones son vlidas slo para ese grupo en particular. La Estadstica Inferencial: Recibe este nombre ,cuando existe un proceso riguroso de definicin de una muestra aleatoria a ser extrada del conjunto mayor, denominado Poblacin o Universo, la cual tiene asignado un grado de confiabilidad y un error preestablecido. La muestra est formada por un subconjunto de elementos de la poblacin, que son obtenidos utilizando metodologas que aseguran la representatividad de la muestra respecto de la poblacin. La informacin obtenida de la muestra permite elaborar conclusiones vlidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Resulta tan relevante la importancia de la muestra para efectos de caracterizacin, conocimiento, descripcin, etc. de la poblacin o fenmeno en estudio, que la Ciencia Estadstica tiene una disciplina denominada Muestreo Estadstico. Para colectar una buena muestra resulta de vital importancia, conocer a fondo el comportamiento de la Poblacin, Universo, Lote, Proceso, etc.-

15

Capitulo 2: Nociones de MUESTREO ESTADSTICO


En la Inferencia Estadstica hay varios mtodos, pero en cualquier caso es necesario utilizar una muestra que represente a la poblacin, esto se consigue con las Tcnicas de muestreo. Para estudiar una poblacin se puede hacer de dos formas: Diremos que se ha realizado un estudio exhaustivo o censo cuando la investigacin se ha hecho sobre todos y cada uno de los elementos o unidades de anlisis que constituyen la poblacin. Diremos que se ha realizado un estudio por muestreo cuando la investigacin se ha realizado nica y exclusivamente sobre una muestra (un subconjunto limitado y convenientemente seleccionado de la poblacin).

Distinguimos dos tipos fundamentales de muestreo:


Muestreo probabilstico. En este tipo de muestreo, todos los individuos de la poblacin pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y cientfico. Es necesario que tengamos de la poblacin a estudiar un catastro o marco. Muestreo no probabilstico. En este tipo de muestreo, puede haber clara influencia de la persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Salvo en situaciones muy concretas en la que los errores cometidos no son grandes, debido a la homogeneidad de la poblacin, en general no es un tipo de muestreo riguroso y cientfico, dado que no todos los elementos de la poblacin pueden formar parte de la muestra. Por ejemplo, si hacemos una encuesta telefnica por la maana, las personas que no tienen telfono o que estn trabajando, no podrn formar parte de la muestra.

Actividad 1: Contesta a las siguientes preguntas en tu cuaderno de trabajo: Qu es el muestreo? Qu diferencia hay entre realizar un censo o un estudio por muestro? Y entre realizar un muestro probabilstico o no probabilstico? La primera tarea en disear un esquema de muestreo es definir la poblacin del inters, y las unidades muestrales que se tomaran de esta poblacin. Entenderemos como poblacin a una coleccin de tems o variables que son de inters, y las unidades de muestrales son estos tems o variables. Definir la poblacin del inters y de las unidades de muestrales es lo primero que se debe realizar porque resulta obvio conocer la definicin o extensin de la poblacin, y las unidades muestrales naturales existentes. La poblacin de inters puede ser el material que sale de la seccin de aglomeracin; o el material que est en una pila; o la solucin que est en una piscina de reposo, etc.- La caracterstica a medir u observar puede ser el Porcentaje de Humedad, La concentracin; el tiempo de separacin de fase.

16

Sin embargo, en otras veces definiciones menos ms o arbitrarias sern requeridas: 9 Un ejemplo de una situacin es un catastro donde estn todas las granjas la poblacin en una regin de un pas y la variable del inters es la cantidad de agua usada para el regado en una granja. 9 Esto pone en contraste con la situacin donde hay inters en el impacto de un derrame del aceite en la flora y de la fauna en playas. En este caso la extensin del rea que pudo ser afectada puede no ser claro, y ello puede no ser obvio puesto no se sabe que longitud de la playa se va a utilizar como unidad muestral. 9 El derrumbe de una pila de lixiviacin y cada de soluciones a un ro cercano El investigador debe entonces elegir subjetivamente el rea potencialmente afectada, e impone una estructura en trminos de las unidades muestrales. Adems, podra no ser adecuado el tamao para la unidad e muestral. Un rango de longitudes de la playa puede servir igualmente bien, considerando el mtodo que se utiliza para tomar las mediciones. La opcin de qu medicin se har, por supuesto que tambin subjetivas 2.1. Muestreo al azar Simple o Muestreo Aleatorio Simple (M.A.S) Una muestra escogida mediante Muestreo Aleatorio Simple es aquella que es obtenida por un proceso que otorga a cada unidad muestral o unidad de anlisis, la misma probabilidad de ser elegida. Ser generalmente deseable elegir tal muestra sin reemplazo para no utilizar unidades muestrales ms de una vez. Esto da resultados levemente ms exactos que el muestreo con el reemplazo por el que las unidades individuales puedan aparecer dos o ms veces en la muestra. Sin embargo, para las muestras que son pequeas en comparacin con el tamao de la poblacin, la diferencia en la exactitud obtenida no es grande. La obtencin de una muestra aleatoria simple es ms fcil cuando se tiene a disposicin un marco de muestreo, donde est una lista de todas las unidades en la poblacin de donde se obtendr la muestra. Si el marco de muestreo contiene las unidades numeradas a partir de la 1 a N, entonces una muestra aleatoria simple, de tamao n, es obtenida sin reemplazo, sacando de la poblacin los n nmeros sorteado y asignados en el marco muestral, de manera tal que cada numero de la poblacin marco sea igualmente probable ser elegido. Para muestreo con reemplazo, cada uno de los nmeros 1 a N tienen misma probabilidad de aparecer en cada extraccin o seleccin de una unidad muestral. El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de nmeros al azar tales como el que est demostrado en la tabla 2,1 Como ejemplo de cmo tal tabla puede ser utilizada, suponga que un rea del estudio est dividida en 116 cuadrantes segn lo demostrado en el cuadro 2,1 y es deseable seleccionar una muestra escogida al azar simple de 10 de estos cuadrantes sin reemplazo. introducir algunas otras decisiones

17

Figura 1 El rea de estudio ha sido dividida en 116 cuadrantes que sern Utilizados como unidades muestrales.

El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de nmeros al azar tales como el que est demostrado en la tabla 1. Como ejemplo de cmo tal tabla puede ser utilizada, suponga que un rea del estudio est dividida en 116 cuadrantes segn lo demostrado en la figura ,1 y es deseable seleccionar una muestra escogida al azar simple de 10 de estos cuadrantes sin reemplazo. Para hacer esto, en primer lugar se comienza en un lugar arbitrario en la tabla tal como el principio de la fila cinco. Los primeros tres dgitos en cada bloque de cinco dgitos se pueden entonces considerar, para dar la serie 698, 419, 008, 127, 106, 605, 843, 378, 462, 953, 745, etctera. Los primeros diez nmeros diferentes entre 1 y 116 constituirn una muestra aleatoria simple de cuadrantes: 8, 106, 80, 3, 99, 1, 75, 106, 34, 45. Para seleccionar muestras grandes esencialmente se realiza el mismo proceso. Se puede realizar en una computadora usando nmeros pseudo-random ( seudo aleatorios ).

18

Tabla 1 : Tabla de nmeros aleatorios 1252 9135 8377 3789 6988 7458 2136 5693 1813 9787 7379 8763 6605 8154 5855 7172 7780 7289 9133 1035 5482 7947 6426 8382 1948 3250 8445 1933 7368 9772 0868 3658 3117 7572 3526 2597 4666 5905 3890 3891 9045 3824 5968 9509 4191 7394 8184 3627 0018 7735 6355 8141 3563 6617 0345 6273 3051 8817 5493 4738 8213 2968 2413 7446 6713 5110 1259 6213 9021 1664 9041 6429 6575 1054 1092 8181 0581 5680 0286 5768 1286 8483 0088 1107 0083 0804 0033 8980 9270 0752 4738 4588 6829 3825 0029 6400 6052 9973 2280 9748 2366 3840 9559 9142 2204 7397 5679 9774 1251 6687 0735 1186 1925 6902 4235 8560 2433 2503 9414 9601 2235 1617 9813 7492 1273 6410 1742 2877 2802 3671 8695 0345 2171 2320 6323 7392 6389 7058 9064 6313 1834 9873 2008 2006 9931 3638 4109 1158 3162 4493 1319 0768 6232 2256 0755 6492 9756 0569 9485 3765 6289 0990 4019 7178 1061 7771 9116 6078 2245 2519 6987 6854 8121 0476 0493 4880 0957 2621 6427 1589 9971 0330 7485 4643 8202 1794 4010 1659 0646 1932 9096 0484 3495 0003 3173 1451 6818 1642 6629 9627 5542 4547 1597 7485 6058 9514 6480 0993 8313 1063 9312 4575 5723 4355 8556 2917 7744 7637 2426 0097 2467 1909 0321 8984 9055 2059 2484 6400 2380 6164 6458 1996 4706 2189 1446 1325 1746 3789 4167 6064 2965 9454 2294 6866 8433 1689 4081 6817 7113 5471 5261 5940 3901 7690 6810 9748 5265 1791 9685 7292 5843 4348 5106 6677 0820 2771 1495 8525 1446 5882 1659 0338 3533 1569 6311 7247 1273 8234 2517 7097 1219 9266 8177 0353 3782 2248 6121 7790 2074 7114 3915 1427 0456 9987 7981 6690 7623 1904 3109 6264 1570 4157 0967 8596 6296 4461 3704 6531 2573 0672 1224 4044 7630 1272 3243 1535 1105 4337 9717 2654 7088 9223 5720 8133 4627 7654 9399 4589 1510 3477 4060 8757 8691 2757 8007 0147 5189 8467 8222 7563 5818 6470 6471 7477 6570 2018 8936 4712 5018 8492 2968 8415 5570 2592 7053 8773 1919 2705 2582 2456 1533 9662 8526 7247 9535 1608 2601 8833 1802 7203 5020 5221 9649 3871 3433 6744 0917 0318 0136 2146 4827 5028 5151 3682 0438 4981 1270 6738 1051 1277 9657 1906 9400 0912 7094 0009 0986 6416 8480 3028

19

Actividad 2. 1.- Supongamos que tenemos una poblacin de 423 individuos, numerados desde el 1 a 423 y queremos obtener una muestra de cinco individuos. Utilice la tabla 2.1 para esta tarea. Inicie el recorrido ubicndose en el casillero de la segunda fila y tercera columna. Utilice los ltimos tres dgitos en cada bloque. 2.- Seleccione de la poblacin de 423 individuos, numerados desde el 1 a 423, una muestra aleatoria de cinco individuos. Utilice la rutina Ran # de su calculadora cientfica. Compare su resultado con los obtenidos por otros compaeros. 3.- Seleccione de la poblacin de 423 individuos, numerados desde el 1 a 423, una muestra aleatoria de 15 individuos. Utilice la planilla Exce con el procedimiento siguiente: Datos, Anlisis de Datos, Muestra. Compare su resultado con los obtenidos por otros compaeros. 2.2 MUESTREO ALEATORIO ESTRATIFICADO Es frecuente que cuando se realiza un estudio interese estudiar una serie de sub-poblaciones (estratos) en la poblacin, siendo importante que en la muestra haya representacin de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno de los estratos. Este caso se presenta cuando a la Unidad de Chancado llega mineral desde dos o ms puntos diferentes de la mina, y se desea realizar una estimacin de la ley media resultante en el proceso de molienda. Tambin puede ser que un estanque de acopio de soluciones est siendo alimentado por dos o ms lneas independientes de PLS, que proceden de sectores de pilas de lixiviacin diferentes, que pueden tener concentraciones diferentes. Las muestras tomadas servirn para estimar la concentracin promedio en el estanque de acopio. Hay dos conceptos bsicos: Estratificacin: El criterio a seguir en la formacin de los estratos ser formarlos de tal manera que haya la mxima homogeneidad en relacin a la variable a estudio dentro de cada estrato y la mxima heterogeneidad entre los estratos. Afijacin: Reparto del tamao de la muestra en los diferentes estratos o sub-poblaciones. Existen varios criterios de afijacin entre los que destacamos: Afijacin igual: Todos los estratos tienen el mismo nmero de elementos en la muestra.

Esto significa si pensamos que una muestra va a estar conformado por 14 unidades de anlisis y la poblacin est constituida por dos estratos, entonces de cada estrato se seleccionarn de manera aleatoria 7 unidades de anlisis.

20

Afijacin proporcional: Cada estrato tiene un nmero de elementos en la muestra proporcional a su tamao. Para cada estrato hay que hacer una proporcin, por tanto basta con dividir el tamao de la muestra entre el tamao de la poblacin y multiplicar por el tamao de cada estrato. En la escena basta con introducir el tamao de la poblacin, el tamao de la muestra y el tamao de un estrato y obtendremos los elementos de la muestra que debemos elegir en ese estrato.

Por ejemplo, una empresa perteneciente a un Holding, est formada por 450 operarios, 35 administrativos, 40 supervisores y 12 ejecutivos. Se desea aplicar una encuesta para medir compromiso e identidad institucional. Supongamos que las personas a cargo del estudio dicen que la muestra estar formada por un 10% de los trabajadores de la empresa. Entonces la encuesta deber de ser aplicada a 54 personas. Del estrato operarios debern de seleccionarse de forma aleatoria =

54 * 450 = 45 540

Del estrato administrativos debern de seleccionarse de forma aleatoria =

54 * 35 = 3,5 = 4 540

Del estrato supervisores debern de seleccionarse de forma aleatoria =

54 * 40 = 4 540

Del estrato ejecutivos debern de seleccionarse de forma aleatoria = Actividad 3.-

54 *12 = 1,2 = 1 540

1.- Supongamos que en un centro escolar de 1.100 alumnos, hay 350 alumnos en 1 medio, 300 en 2 medio; 250 en 3 de Bachillerato, y 200 en 4; y queremos estudiar el nmero de alumnos que aprueban todas las asignaturas. Pensamos que puede haber diferencias entre los distintos niveles educativos, por lo que nos interesa que en la muestra estn representados todos los cursos. Si queremos elegir una muestra de 80 alumnos, para que todos estn representados, podemos realizar dos tipos de muestreos aleatorios estratificados: a) Determine los tamaos muestrales en cada estrato utilizando afijacin igual b) Determine los tamaos muestrales en cada estrato utilizando afijacin proporcional c) Cmo cree usted que deberemos elegir despus cules son los alumnos?

21

2.- Una biblioteca pblica est organizada en cinco secciones (en el cuadro adjunto se indica el nmero de libros existentes en cada seccin). Con objeto de estimar el porcentaje de libros de edicin espaola, se quiere seleccionar una muestra de un 5% del nmero total de libros, a travs de muestreo estratificado aleatorio, considerando como estratos las secciones. Determinar el nmero de libros que habra que seleccionar en cada seccin: a) Considerando afijacin igual. b) Considerando afijacin proporcional. Seccin 1 500 Seccin 2 860 Seccin 3 1200 Seccin 4 700 Seccin 5 740

d) Qu se necesita en cada seccin y cmo cree que deberemos elegir despus cules son los libros que constituirn la muestra? Afijacin ptima : Consiste en obtener mayor cantidades de unidades muestrales de aquellos estratos que presentan una mayor diversidad

3.3 MUESTREO ALEATORIO SISTEMATICO Se utiliza cuando el universo es de gran tamao o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevacin K= N/n; donde N es el tamao del universo y n el tamao de la muestra. Determinar en qu fecha se producir la primera extraccin, para ello hay que elegir al azar un nmero entre 1 y K; de ah en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenmeno. Este tipo de muestreo se realiza fundamentalmente cuando es imposible contar previamente con un listado de la poblacin bajo estudio. Por ejemplo: 1. La cantidad de solucin que pasa por un ducto o tubera ; 2. La cantidad de unidades que se embalan en una envasadora de frutas para exportar. 3. El material particulado que lleva una cinta o correa transportadora. 4. La cantidad de rboles, especies etc.- que se encontrarn en un recorrido utilizando una lnea imaginaria (Transecta). 5. etc., etc. Es decir, todo aquello que refleje un produccin en lnea continua a travs del tiempo. Podra decirse entonces que el muestreo sistemtico es una metodologa de obtencin de las unidades de anlisis, y por lo tanto el clculo de los estimadores e intervalos de confianza son los mismos que los vistos para el muestreo aleatorio simple. Se debe tomar de forma aleatoria un punto de partida, y de ah en adelante, seleccionar las unidades muestrales a tiempo o espacios regulares. Generalmente este tipo de muestreo lo realizan los cortadores automticos o torres de muestreo , que se ubican en los saltos de correa. A intervalos regulares de tiempo, se desplaza una cuchara o canaleta atravesando la cinta transportadora y recogiendo una pequea cantidad de material, la que se va almacenando en un depsito. Este depsito es retirado al final o a la mitad de un turno y se lleva al laboratorio para a partir de este material recopilado, se prepare una muestra para ser analizada.

22

Este procedimiento selecciona una muestra ms representativa que el muestreo aleatorio simple , si los elementos ms cercanos entre s se asemejan ms que aquellos que estn ms distantes.. Pero podra ser menos representativa que la muestra aleatoria simple en situaciones en que hay ciclos o periodicidad oculta en la poblacin (venta de pasajes segn temporada, volumen de ventas segn das de la semana o del mes ,etc).

2.4 MUESTREO ALEATORIO por Conglomerado o rea Requiere de elegir una muestra aleatoria simple de unidades heterogneas entre s de la poblacin llamadas conglomerados. Cada elemento de la poblacin pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogneos o dismiles. Ejemplo: Supongamos que una compaa de servicio de televisin por cable est pensando en abrir una sucursal en una ciudad grande; la compaa planea realizar un estudio para determinar el porcentaje de familias que utilizaran sus servicios. Como no es prctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. Por ejemplo, una unidad vecinal podra constituir un conglomerado En el muestreo por conglomerados, stos se forman para representar, tan fielmente como sea posible, a toda la poblacin; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas, universidades y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. Hay diferentes formas de trabajar con las unidades de anlisis de los conglomerados, y segn sea el caso, reciben las siguientes denominaciones: Monoetpico: Cuando la caracterstica definida para estudiar, se pesquisa en todas las unidades que forman el conglomerado Bietpico: Cuando el conglomerado se subdivide en clases o reas ms pequeas. Luego se seleccionan al azar algunas de estas sub-reas y en todas las unidades muestrales que forman estas subreas se mide u observa la caracterstica definida para estudiar Trietpico: Tambin los conglomerados que forman la poblacin en estudio contienen sub-reas anidadas unas dentro de otras. Por ejemplo: Pas Regin Provincia Comuna Sector Unidad vecinal manzana hogares

23

Entonces para llegar hasta el hogar, bajo muestreo por conglomerado, se debe pasar por siete etapas de seleccin aleatoria Una situacin parecida en cuanto a las etapas que hay realizar para reducir una muestra de mineral para preparar una muestra que debe ser analizada en el laboratorio. 2.5 Otros Mtodos de Muestreo no probabilsticas 1- Muestreo Discrecional: A criterio del investigador los elementos son elegidos sobre lo que l cree que pueden aportar al estudio. Ejemplo: muestreo por juicios; cajeros de un banco o un supermercado; Directores de colegios; Presidentes de organizaciones, etc. 2- Muestreo Doble: Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo, una segunda muestra es extrada de la misma poblacin. Las dos muestras son combinadas para analizar los resultados. Este mtodo permite a una persona principiar con una muestra relativamente pequea para ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra puede no necesitarse. Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, ser requerida la segunda muestra. 3- Muestreo Mltiple: El procedimiento bajo este mtodo es similar al expuesto en el muestreo doble, excepto que el nmero de muestras sucesivas requerido para llegar a una decisin es ms de dos muestras. 4- Muestreo Opintico o Intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. 5- Muestreo Casual o Incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. 2.6 Usos del Muestreo. El Muestreo es utilizado en diversos campos: 1- Poltica: Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinin pblica y el apoyo en las elecciones. 2- Educacin: Las muestras de las calificaciones de los exmenes de estudiantes se usan para determinar la eficiencia de una tcnica o programa de enseanza. 3- Industria: La muestras de los productos de una lnea de ensamble sirve para controlar la calidad. 4- Medicina: Las muestras de medidas de azcar en la sangre de pacientes diabticos prueban la eficacia de una tcnica o de un frmaco nuevo. 5- Agricultura: Las muestras del maz cosechado en una parcela proyectan en la produccin los efectos de un fertilizante nuevo.

24

6- Gobierno: Una muestra de opiniones de los votantes se usara para determinar los criterios del pblico sobre cuestiones relacionadas con el bienestar y la seguridad nacional. 7.- Minera: Las muestras de mineral extradas de una zona especfica, una vez procesadas qumica y estadsticamente, permiten dimensionar la riqueza de un yacimiento y la viabilidad econmica del proyecto (geoestadstica) Todo estudio estadstico a cerca de un Universo o poblacin de inters utilizando informacin muestral, precisa que la muestra sea representativa y asegure un nivel de confiabilidad Todos los puntos anteriores estuvieron destinados a definir y comprender lo que es una muestra y la metodologa o forma de extraer las unidades de anlisis de manera de dar representatividad a la muestra. Tambin es importante destacar que con la informacin muestral podemos realizar inferencias respecto de la poblacin de donde fue extrada la muestra. Toda inferencia respecto del comportamiento de una variable o caracterstica en estudio, basada en informacin muestral, necesita asegurar un grado de confiabilidad y un error de muestral permitido . Estas dos ultimas caracterstica influyen directamente en la cantidad de unidades de anlisis que debe tener una muestra, o tamao muestral. Tipo de errores de muestreo y tcnicas para su minimizacin

2.7 Materiales e instrumentos para el muestreo Los instrumentos de muestreo adecuados son esenciales para realizar un buen muestreo y para las buenas prcticas de laboratorio. Pierre Gy recomienda cucharones y esptulas planos con lados paralelos (sin puntas) , para evitar el muestreo preferencial de partculas gruesas. Adicionalmente, debe considerarse y evitar la introduccin de errores en el laboratorio, debidos a un mal diseo de cortadores rifler, esptulas y otras herramientas usadas en la preparacin de submuestras para anlisis (US EPA 1999, Gy 1992). A continuacin se mencionan criterios generales para la seleccin de herramientas, as como ejemplos de algunos materiales comunes para el muestreo.

25

a) Herramientas adecuadas: Entre los principales criterios a considerar para la seleccin de herramientas adecuadas de muestreo, se encuentran los siguientes: Tamao de muestra necesaria para los anlisis requeridos, con base en la(s) caracterstica(s) o propiedad(es) de inters (seccin 3.5, cuadro 9). Tipo de suelo (arenoso, arcilloso, etc.) y condiciones de humedad. Profundidad mxima a la que se va a tomar la muestra (seccin 3.5, cuadro 10). .Accesibilidad al sitio de muestreo. .Requerimientos del personal para su manejo.

b) Instrumentos para la toma de muestras: La seleccin de instrumentos adecuados es esencial para un buen muestreo y para un buen anlisis de laboratorio. Para el caso de suelos contaminados con metales, los utensilios para el muestreo deben ser de plstico, tefln o acero inoxidable; entre los ms comunes se encuentran: palas rectas y curvas, picos, barrenas y barretas, nucleadores, esptulas, navajas y martillo de gelogo.

c) Material de apoyo. Como material de apoyo durante un muestreo, es importante incluir: cartas topogrficas, edafolgicas, climticas y geolgicas, un plano cartogrfico del sitio y mapas de carreteras. Adicionalmente, es recomendable incluir una libreta para anotaciones, una cmara fotogrfica y la cadena de custodia para las muestras. d) Material para la orientacin y ubicacin de los puntos de muestreo y para medir la zona: . Sistema global de posicionamiento (GPS) . Cinta mtrica . Estacas, etc. e) Material para guardar y transportar muestras. El material a emplear debe ser compatible con el material a muestrear, deber ser resistente a la ruptura y evitar reacciones qumicas con la muestra y/o prdidas por evaporacin. El volumen del contenedor debe ser aproximadamente el mismo de la muestra, con la finalidad de minimizar el espacio vaco. Algunos de los materiales que pueden utilizarse para la coleccin de muestras son:

26

. Frascos de vidrio (boca ancha y angosta): compuestos semi-voltiles, pesticidas y metales . Tubos Viales de vidrio (tienen tapa rosca): compuestos voltiles. . Contenedores de polietileno: conductividad. f) Conservacin de muestras. Los recipientes en los que se colectaron las muestras deben sellarse adecuadamente. En general, es recomendable evitar en lo posible el uso de agentes qumicos para conservar muestras de suelo. Para su conservacin es conveniente mantenerlas en lugares frescos (4 a 6 C) y oscuros. g) Material de seguridad y limpieza. Deben incluirse guantes de ltex, agua desionizada, lentes de seguridad, toallas de papel, mascarilla para polvos y franelas. h) Material para etiquetar y marcar las muestras: . Etiquetas adheribles o adhesivas . Marcador indeleble . Cinta adhesiva . Bolgrafos o lpices La teora de Gy para el muestreo de materiales particulados proporciona las bases para extraer una muestra a partir de un material y ayuda a definir el tamao necesario para caracterizar un material como el suelo. La teora relaciona directamente el tamao de partcula de un material con el tamao de la muestra a tomar para una unidad a evaluar, de tal manera que la cantidad de material necesario para el anlisis de parmetros especficos puede determinarse a travs de conceptos desarrollados en la misma (US EPA 1999, Mason 1992, Gerlach y Nocerino 2003).

27

Capitulo 3: Tratamiento Estadsticos de los datos Colectados


3.1.- Los manejos y cuidados de los datos colectados Considerando todos los puntos anteriores, es necesario decir que el avance en la tecnologa de los medios informticos permite cada vez ms el uso eficiente del dato para tener informacin y aprender de los procesos a travs de los datos que entregan sus variables de control.
Dnde almacenamos los datos?

La respuesta a esta interrogante a veces puede no ser simple, pero en general los datos se guardan o almacenan en lo que denominamos o definimos como Base de Datos. Hay empresas que disponen de softwares especializados para el manejo de los datos que obtienen de sus procesos. Pero una forma de trabajar con los datos puede ser una planilla electrnica, como Excel, que resulta enormemente eficiente. A modo de ejemplo:

Qu informacin nos pueden entregar los datos? El propsito de la matriz de datos es presentar los datos de la manera "ms depurada posible" para proceder a su procesamiento y obtener informacin La primera preocupacin es aprender a estructurar una base de datos, utilizando un software para su posterior procesamiento. La primera y ms elemental forma de tener informacin y una visin resumida de los datos es a travs de la "tablas estadsticas " y los "Grficos estadsticos". Por supuesto que estas formas de resumir y presentar informacin dependen de la naturaleza del tipo de dato.

28

Con el objetivo de describir y caracterizar el comportamiento (tendencia) de una variable la informacin estadstica puede ser entregada a travs de: Medidas de resumen: De tendencia central De variabilidad De posicionamiento De deformacin

Tablas de distribucin de frecuencias Grficos estadsticos Dependiendo del tipo o naturaleza del dato, es la calidad y forma de entregar la informacin,. 3.2 Procesamiento y anlisis de Variables Cualitativas 3.2.1 Procesamiento de datos cualitativos Cuando los datos son cualitativos, la tabla tiene la siguiente estructura: Actividad: Un vendedor de vehculos nuevos resumi en la tabla siguiente, los automviles vendidos segn la cantidad de cilindros: Clase Numero de Cilindros 3 4 5 6 8 Frecuencia Absoluta f i 1 104 3 30 17 Frecuencia Relativa h i % 0,65 67,10 1,94 19,35 10,97 Frecuencia Absoluta Acumulada Fi 1 105 108 138 155 Frecuencia Relativa Acumulada Hi % 0,65 67,74 69,68 89,03 100,00

1 2 3 4 5

Esta tabla debe de ser interpretada

29

10,97%

0,65%

19,35%

Nmero de Cilindros 3 4 5 6 8

1,94%

67,10%

Toda tabla y grafico estadstico debe tener un nombre breve que identifique plenamente la situacin que presenta. Tambin debe llevar o identificar la fuente que produce el grfico o la tabla estadstica. Actividad para el alumno La tabla siguiente muestra la venta de automviles japoneses, en el ao 1990 Clase 1 2 3 4 5 6 Frecuencia Absoluta Acumulada Fi Frecuencia Relativa Acumulada Hi %

Marca del Vehculo Datsun Honda Mazda Nissan Subaru Toyota

Frecuencia Absoluta f i 12 9 9 1 2 11

Frecuencia Relativa h i %

Complete las otras columnas de la tabla Redacte algunas conclusiones que se pueden obtener de ella Construya un grfico de barras y un grfico de sectores

Es muy importante colocar, tanto a la tabla de datos como al grfico estadstico, un nombre que describa de forma breve, concisa e inequvoca la situacin que presenta
Grafico de Pareto Cuando se trata de graficar tablas que presentan la distribucin o comportamiento de variables cualitativas, hoy en da se est usando en el campo de la mejora de la calidad y la productividad un grafico muy interesante llamado Grfico de Pareto.

30

En trminos muy generales, los problemas de calidad en el sector procesos industriales o de manufactura se presentan como prdidas (productos defectuosos y su costo) . En el sector servicio, la falta de calidad tambin se puede tratar de cuantificar a travs de las opiniones obtenidas de los usuarios y el desglose de las causas que motivan el descontento. Resulta muy importante aclarar el patrn de la distribucin de la prdida. La mayora de las prdidas se debern a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un nmero reducido de causas. Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi todas las prdidas, concentrando todo el esfuerzo en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El uso del diagrama de Pareto permite solucionar este tipo de problema con eficiencia. En 1897, el economista italiano V. Pareto present una frmula que mostraba que la distribucin del ingreso es desigual. En 1907, el economista norteamericano M. C. Lorenz expres una teora similar por medio de diagramas. Estos dos economistas indicaron que una proporcin muy grande del ingreso est en manos de muy pocas personas. En el campo de La mejora de la Calidad y la Productividad , el Dr. J.M. Juran aplic el mtodo de l diagrama de Lorenz como frmula para clasificar los problemas de calidad en los pocos vitales y los muchos triviales , y llam a este mtodo anlisis de Pareto. Seal que, en muchos casos, la mayora de los defectos y de su costo se deben a un nmero relativamente pequeo de causas El grfico de Pareto es en esencia un grfico de barras, solo que stas aparecen ordenadas de mayor a menor (Eje Horizontal). Se utiliza tambin la columna de la distribucin de Frecuencias Relativas Acumuladas en el mismo grfico. En el eje vertical se colocan las frecuencias absolutas acumuladas. Veremos un caso para ejemplificar la situacin descrita en prrafos anteriores. A continuacin se muestra una tabla de datos con defectos en piezas manufacturadas (Una pieza puede tener ms de un defecto) Tipo de defecto Burbuja Fractura Mancha Rajadura Rayado Tensin otros Cdigo Nmero de defectos 20 Burb 10 Frac 6 Manc 4 Raj 42 Raya 104 Tens 14 Otro 200

Total
Tipo de Defecto Tensin Rayado Burbuja otros Fractura Mancha Rajadura Total

Rango 1 2 3 4 5 6 7

Puntaje Puntaje Recuento Ponderacin Ponderado Acum 104 1 104 104 42 1 42 146 20 1 20 166 14 1 14 180 10 1 10 190 6 1 6 196 4 1 4 200 200 200

Porcentaje 52,00 21,00 10,00 7,00 5,00 3,00 2,00

Porcentaje Acum 52,00 73,00 83,00 90,00 95,00 98,00 100,00

31

A la tabla anterior le agregaremos una nueva columna donde se le han colocado a cada tipo de defecto los pesos o ponderaciones. Muchas veces dichas ponderaciones son valores en moneda nacional de lo que significa ese defecto. Este nuevo antecedente hace que ahora la columna que estructura el grfico y anlisis de Pareto, sea la columna que se genera al multiplicar las cantidades de defecto (segn tipo) por el costo asociado a cada uno de ellos.

Tipo de defecto Burbuja Fractura Mancha Rajadura Rayado Tensin otros

Total

Cdigo Nmero de defectos 20 Burb 10 Frac 6 Manc 4 Raj 42 Raya 104 Tens 14 Otro 200

Costo $ 150 300 50 250 250 40 60

Tipo Puntaje de Defecto Rango Recuento Ponderacin Ponderado Rayado 1 42 250 10500 Tensin 2 104 40 4160 Fractura 3 10 300 3000 Burbuja 4 20 150 3000 Rajadura 5 4 250 1000 otros 6 14 60 840 Mancha 7 6 50 300 Total 200 22800

Puntaje Porcentaje Acum. Porcentaje Acumulado 10500 46,05 46,05 14660 18,25 64,30 17660 13,16 77,46 20660 13,16 90,61 21660 4,39 95,00 22500 3,68 98,68 22800 1,32 100,00

32

El Grfico de Pareto tambin se puede construir utilizando Excel 2007. Veremos el caso de los defectos en las piezas manufacturadas, sin importar el costo asociado a cada tipo de defecto 1.- Ordene los tipos de defecto segn sus cantidades y obtenga una tabla como la siguiente:

2.- Seleccione las tres columnas principales que van a intervenir en su grfico de Pareto. Un ejemplo puede ser:

3.- Luego haga la siguiente secuencia

33

4.- Se desplegar en primer lugar un grfico como el siguiente

5.- Ponga la punta de la flecha del mouse sobre cualquier columna de color rojo, para que aparezcan unos crculos. Despus utilice el sector derecho del mouse y en la pantalla que se despliega seleccione tipos de grficos de series y seleccione

6.- Se desplegar entonces un grafico bsico, como el siguiente

34

7.- Con el uso adecuado del mouse, ubicndolo en las diversas partes del grfico anterior, se puede ir mejorando la presentacin, y tener por ejemplo, un grfico de Pareto como el siguiente.

De la misma manera se procede si se desea construir un grafico donde los defectos estn asociados con los costos de cada uno de ellos

Cmo construir una tabla de Distribucin de Frecuencias de datos cualitativos cuando los datos vienen dispuestos en una columna (no tabulados)? Por ejemplo, la hoja 2 del archivo Excel automviles tiene la Variable Type. Usando Excel debemos usar el comando Contar.Si

35

Un pedazo de lo que est en la hoja 3 del archivo Excel automviles es la siguiente:

Otra medio o forma para construir la tabla de frecuencias es utilizando el comando Ordenar y filtrar Primero marque o seleccione toda la columna a filtrar y luego aplique

Vera que la columna queda de la siguiente forma

Colocando la punta del mouse sobre la punta de flecha, se vern desplegada todas las posibilidades.

36

3.3.- Mtodos Estadsticos para la descripcin y caracterizacin de las variables Cuantitativas Cuando el tipo de dato que entrega la variable en estudio es una Cantidad (entera o decimal), podemos tener informacin estadstica de ella a travs de tres vas: 1. Tablas Estadsticas 2. Grficos Estadsticos 3. Medidas o Indicadores de resumen cuantitativos Las razones principales para agrupar los datos son: Determinar o calcular las distribuciones de frecuencias (Tablas Estadsticas), contar con algunos descriptores numricos de la distribucin ( Medidas de Resumen) , Representar grficamente los resultados (Grficos Estadsticos), para determinar el comportamiento o tendencias del fenmeno que interesa analizar.

3.3.1.- Las tablas estadsticas de datos cuantitativos que son el resultado de mediciones en las unidades de anlisis, se caracterizan porque generalmente las mediciones se agrupan dentro de intervalos numricos. Las tablas se explicarn por s mismas enteramente. Como los grficos, se ha de dar suficiente informacin en el ttulo y en los encabezamientos de columnas y filas de la tabla para permitir que el lector identifique fcilmente su contenido. Como el ttulo ser por lo general lo primero que se lee en detalle, deber suministrar toda la informacin esencial sobre el contenido de la tabla y deber especificar el tiempo, lugar, material estudio experimental y relaciones que se presenten en la tabla. Tabla de Frecuencias para Ley Cobre total, tomadas en muestras diarias en Toquepala
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi Frecuencia Relativa hi Frec. Absol. Acumulada Fi Frec. Relativa Acumulada Hi

1 2 3 4 5 6 7 8 9 10 11 12

1,38 1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82

1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82 1,86

1,60

3 42 45 81 78 20 24 28 32 9 11 5

21,89%

3 45 90 171 249 269 293 321 353 362 373 378

79,19%

Total 378

37

Es necesario definir algunas columnas de la tabla de distribucin de frecuencias: Marca de clase Xi: Es el punto medio del intervalo que contiene a los datos. Frecuencia Absoluta f i: Indica la cantidad de muestras que estn contenidas en ese intervalo. Frecuencia Relativa h i: Indica el porcentaje de muestras que estn contenidas en ese intervalo. Se calcula dividiendo la frecuencia absoluta del intervalo por la cantidad total n de datos (378) y luego este cuociente se multiplica por 100. Frecuencia Absoluta acumulada Fi: Representa la cantidad de datos que se van acumulando desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta F5 como que hay 248 muestras de mineral que tienen ley de cobre total entre 1,38% y 1,58% Frecuencia Relativa acumulada H i: Representa el porcentaje de datos que se van acumulando desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta H 5 como que un 65,6% de las muestras de mineral tienen ley de cobre total entre 1,38% y 1,58%. Se calcula dividiendo la frecuencia absoluta acumulada hasta ese intervalo por la cantidad total n de datos y multiplicando este cuociente por 100

Actividad Complete las otras columnas de la tabla de distribucin de frecuencia anterior. Interpretaciones y anlisis que pueden hacer con una tabla de frecuencia 1. 2. 3. 4. 5. 6. El 6 intervalo con su frecuencia absoluta : Hay 20 muestras que tienen una ley superior o igual a 1,58% e inferior a 1,62 % La marca de clase del 6 intervalo con su frecuencia absoluta : Hay 20 muestras que tienen una ley promedio de 1,60% El 4 intervalo con su frecuencia relativa : Un 21,89% de las muestras tienen una ley promedio rendimiento superior o igual 1,50% e inferior a 1,54% La marca de clase del 4 intervalo con su frecuencia relativa Un 21,89% de las muestras tienen una ley promedio de 1,52% La frecuencia absoluta acumulada hasta el 7 intervalo Hay 293 muestras con una ley superior o igual a 1,38% e inferior a 1,66% La frecuencia relativa acumulada hasta el 7 intervalo. Un 79,19 % de las muestras tienen una ley superior o igual a 1,38% e inferior a 1,66 %

38

Actividad La tabla siguiente muestra el rendimiento en millas por galn, de vehculos que se fabrican y circulan en Estados Unidos de Norteamrica
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi Frecuencia Relativa hi Frec. Absol. Acumulada Fi Frec. Relativa Acumulada Hi

1 2 3 4 5 6 7 8

15 18 21 24 27 30 33 36

18 21 24 27 30 33 36 39

10 20 13 14 10 6 9 3

a) Complete las otras columnas de la tabla de distribucin de frecuencia anterior. b) Una vez que complet las columnas de la tabla anterior, Interprete lo siguiente 1 2 3 4 5 6 El 4 intervalo con su frecuencia absoluta: La marca de clase del 2 intervalo con su frecuencia absoluta: El 4 intervalo con su frecuencia relativa: La marca de clase del 4 intervalo con su frecuencia relativa La frecuencia absoluta acumulada hasta el 6 intervalo La frecuencia relativa acumulada hasta el 6 intervalo

39

3.3.2- Cmo construir una tabla de Distribucin de Frecuencias? Al resumir una gran cantidad de datos Cuantitativos Discretos con un Rango de variacin ms o menos amplio o datos Cuantitativos Continuos, resulta til distribuirlos en clases o categoras denominadas Intervalos y determinar el nmero de observaciones que pertenecen a cada clase, llamando a esta cantidad "Frecuencia Absoluta " o "Frecuencia de Clase". El nmero de intervalos o categoras a determinar para clasificar los datos, por reglas ms bien prcticas oscila entre 5 y 20. Douglas Montgomery en su libro "Control Estadstico de la Calidad", aconseja una regla emprica : Seala que la cantidad de intervalos a determinar debe ser igual a la "Raz Cuadrada del nmero de datos". De forma muy general los pasos que se deben seguir para tabular los datos en una tabla de frecuencia, son los siguientes: 1. Ubicar en el conjunto de datos los valores mximos y mnimos. 2. Determinar el rango de variacin de los datos "R" = XMximo - XMnimo 3. Determinar la amplitud o ancho de los intervalo "Ai: Consiste en dividir el rango por un valor entero "k" que indica un nmero adecuado de intervalos a construir, que generalmente flucta entre 5 y 20. Tambin puede ser igual al nmero entero inferior ms prximo a la raz cuadrada del nmero de datos. Ai =

R k

k=

n
A1 + A2 2

Una manera comnmente usada para determinar "Ai" es : Ai =

Donde

A1 =

R 20

A2 =

R 5

El valor de Ai dato.

se debe aproximar a la dcima de la unidad medida con que se registra el

4.- Los intervalos o categoras se determinan de la forma siguiente: Intervalo 1: [ Xmin ; Xmin + Ai ) Intervalo 2: [ Xmin + Ai ; Xmin + 2 Ai ) . . . Intervalo t: [ Xmin +(t-1)Ai ; Xmin + t Ai ) 5.- Preparar un formato para la tabla de frecuencias, el cual debe contener: Una columna con los puntos medios o marcas de clase de los intervalos, otra columna para registrar la cantidad de valores que estn dentro de cada intervalo (frecuencia absoluta), etc.6.- Lea cada valor registrado y vaya asignndolo al nico intervalo donde debe estar contenido.

40

Podemos utilizar la planilla Excel para elaborar una tabla de Distribucin de Frecuencias con escala de intervalos. Un procedimiento sugerido es: 1.- Disponer los datos en una columna 2. Generar una columna donde estn definidos los intervalos 3.- Marcar la columna con los datos 4.- Poner el curso en la barra de herramientas Datos y seleccionar la opcin Filtro

5.- En filtro personalizado colocar los intervalos definidos segn el punto 2.-

Ejercicio: Los datos siguientes representan el rendimiento, en kilmetros por litro, en una muestra de 60 automviles que circulan por la ciudad. Construya una tabla de distribucin de frecuencias e interprete todos los componentes de la tabla, segn ejemplos anteriores 17,9 15,0 13,6 16,4 8,4 10,4 8,5 8,1 7,5 7,3 12,5 11,4 8,4 7,1 9,0 6,7 8,6 7,1 7,3 6,9 14,2 14,8 11,4 10,6 15,0 8,3 8,6 8,6 11,3 12,8 13,1 12,3 7,6 7,0 9,6 11,3 8,1 8,4 7,7 7,5 8,8 9,6 8,9 8,2 6,4 8,0 9,9 14,2 8,0 8,0 9,9 9,3 7,7 14,3 8,5 7,4 9,9 8,4 13,3 13,2

41

3.3.3. Grficos asociados a una tabla de distribucin de frecuencias con escala de Intervalos. Una de las maneras de presentar datos estadsticos es la presentacin grfica. El anlisis de los datos tabulados en cualquiera de las formas establecidas anteriormente, resulta casi imposible, debido a las mltiples comparaciones que se tienen que hacer con las cifras y el escaso tiempo que a veces se dispone para ello. Teniendo en consideracin de que los grficos en Estadstica resultan de vital importancia para explicar situaciones presentadas o resumidas en Tablas con Informacin resumida ,( puesto que nos permiten : Tener una visin global y condensada del comportamiento de la variable , observar posibles tendencias , apreciar su campo de variacin ,etc. ), debemos tener un especial cuidado en saber construirlos y luego analizarlos. En trminos muy generales, un grfico debe ser: Sencillo y auto-explicativo; Escalas adecuadas en los ejes de coordenadas a objeto de evitar las distorsiones y con ello evitar malas interpretaciones. 1. Histograma de Frecuencia : Los datos obtenidos de una muestra sirven como base para decidir sobre la poblacin de la cual provienen. Mientras ms grande sea la muestra, ms informacin obtendremos sobre la poblacin. Pero un aumento en el tamao de la muestra tambin implica un aumento en la cantidad de datos, y esto puede llegar a hacer difcil comprender la poblacin a partir de esos datos, an cuando se organicen en tablas. En ese caso necesitamos un mtodo que nos permita comprender la poblacin de un vistazo. Un histograma responde a esta necesidad. La organizacin de un buen nmero de datos en un histograma nos permite comprender la poblacin de manera objetiva. Es tal vez uno de los grficos ms utilizados. Se construye en un sistema coordenado formado por dos rectas perpendiculares entre s, que se denomina Plano Cartesiano. La recta o Eje Horizontal se denomina EJE "X", y la recta o Eje Vertical se denomina EJE "Y" Est formado por barras que nacen desde el eje X, con un ancho igual a la amplitud del intervalo y de altura en el eje Y igual a la frecuencia absoluta del intervalo (o su frecuencia relativa). Construccin del histograma de frecuencias usando Excel. 1.- Construya una tabla de distribucin de frecuencias como la siguiente

42

2.- Seleccione el rea de la tabla anterior con la construir el histograma:

3.- Seleccione insertar de la barra de comando de Excel:

4.- Aparecer un grfico donde las columnas se vern separadas.

Como los datos son continuos, las barras debiesen de estar juntas. En el grfico original anterior, esta situacin se corrige colocando la punta del curso sobre cualquier barra y conseguir que todas las barras aparezcan con unos crculos, tal como lo indica la siguiente figura

43

5.- Enseguida pulsar el lado derecho del mouse para tener la siguiente ventana, donde deber seleccionar opciones de serie y luego corregir el campo Ancho del intervalo, dejando hasta un 5% para ver levemente separadas las columnas.

6.- Para colocar los Rtulos a los ejes y el Ttulo del grfico, deber trabajar las opciones que esta opcin de Excel presenta

7.- Una presentacin bsica aceptable sera la siguiente

44

Aplicacin de los Histogramas a problemas relacionados con calidad: Un aspecto muy interesante es utilizar los histogramas que entregan los datos de la variable con los lmites de especificacin que le han sido asignados a la variable en estudio. Si existe una especificacin, dibuje sobre el histograma, con lneas verticales, los lmites de la especificacin, para comparar la distribucin de los datos con la respectiva especificacin. Luego observe si el histograma est localizado razonablemente dentro de los lmites.

Cuando el Histograma de los datos, acusa que se satisfacen las especificaciones

. Se satisface la especificacin, pero no hay margen extra.

Es necesario reducir la variabilidad para poder quedar con un margen extra de tolerancia.

45

Cuando el histograma de los datos, no satisface las especificaciones:

Estratificacin de Histogramas : Cuando los valores observados se dividen en dos o ms sub-poblaciones segn la condicin que exista en el momento de recoger los datos , esas sub-poblaciones se llaman estratos , y la divisin de los datos en estratos se llama estratificacin . Los valores observados siempre van acompaados de alguna variacin. Por tanto , cuando los datos se estratifican segn los factores que se cree puedan causar la variacin, las causas de la variacin se hacen ms fcilmente detectables. Este mtodo puede usarse de forma muy efectiva para mejorar la calidad del producto al reducir la variacin y mejorar el promedio del producto. Por lo general, la estratificacin se hace segn los materiales, las mquinas, las condiciones de operacin, de los turnos, trabajadores, etc. (usualmente se denominan Factores). 2.- Polgono de frecuencia Este grfico muestra un perfil de la curva asociada a la distribucin de los datos. Consiste en representar puntos (x , y ) en el Plano de manera que en el eje horizontal (X ) ubiquemos la marca de clase o punto medio del intervalo, y en el eje vertical (Y) la frecuencia absoluta o relativa correspondiente a la marca de clase. Luego se une los puntos con segmentos de recta.

46

Construccin del Polgono de distribucin de frecuencias usando Excel. 1.- Construya una tabla de distribucin de frecuencias como la siguiente

2.- Es necesario determinar el punto medio o marca de clase para cada uno de los intervalos, pero agregando un primer intervalo y un ltimo intervalo, ambos con frecuencia absoluta cero. Esto se hace pues un polgono por definicin es una figura cerrada de n lados. Al igual que el histograma se selecciona el rea numrica y se aplica la siguiente secuencia. 3.-

4.-

Las otras partes de un buen grfico, se colocan como se explic

para el Histograma.

47

3.- Ojiva o Curva de Concentracin


Consiste en la representacin de una curva (con segmentos de recta), cuyas ordenadas tienen tantas unidades como elementos existan de la distribucin hasta el punto determinado. Para su construccin se emplea colocando en el eje horizontal, los intervalos; en el eje vertical, las frecuencias absolutas acumuladas o frecuencias relativas acumuladas. Tambin se puede colocar en el eje horizontal los puntos medios de los intervalos (marcas de clase) La OJIVA es un grfico que permite obtener de manera muy aproximada el valor de cualquier Percentil. Se debe trazar una lnea perpendicular al eje vertical que pase por un porcentaje deseado, y prolongarla hasta que corte la curva de las frecuencias acumuladas. Desde aqu, bajar una perpendicular que corte el eje horizontal. Este punto representa el valor del percentil. Por ejemplo

Para construir este grfico en Excel, se debe agregar en la tabla original un primer intervalo con frecuencia absoluta acumulada igual a cero.

Tabla (a)

Tabla (b)

Cuando en el eje horizontal colocamos los intervalos y en el eje vertical colocamos las frecuencias relativas acumuladas , marcamos previamente la columna intervalos junto con la columna Hi de la Tabla (b) anterior y aplicamos la siguiente secuencia Excel

48

Cuando en el eje horizontal colocamos las marcas de clase de los intervalos y en el eje vertical colocamos las frecuencias relativas acumuladas , marcamos previamente la columna Xi junto con la columna Hi

Aplicamos la siguiente secuencia Excel

49

50

3.4.- Mtodos Estadsticos para la descripcin y caracterizacin de las variables: 3.4.1.- Medidas de Resumen: Estimadores 3.4.1.1.- Tendencia Central: Son aquellos estimadores cuyos valores tienden a ubicarse en la parte Central del Recorrido o Rango de la Variable , es decir , ms o menos en la mitad del intervalo definido entre el valor mnimo y el valor mximo. Valor Mnimo T.C Se consideran Medidas de Tendencia Central el promedio aritmtico, la mediana, el modo, el promedio geomtrico, el promedio armnico. Cuando se tienen los datos de la variable en estudio dispuesto en una columna, Excel o cualquier software que haga tratamiento estadstico de los datos, las medidas de resumen las calcula directamente de esta columna. Tambin es posible calcular las medidas de resumen a partir de las tablas de distribucin de frecuencia, pero en este caso los valores calculados son una aproximacin de los verdaderos valores. Por eso es que en un primer lugar calcularemos las medidas de resumen a partir de los datos originales y luego estas medidas de resumen dada una tabla de distribucin de frecuencias : Valor Mximo

El Promedio Aritmtico o Media Aritmtica:

X=

x
i =1

i=n

El smbolo anterior significa que debemos sumar todas las mediciones u observaciones (datos) y dividir por el nmero total de datos (n). Esta es una medida se ve influenciada por datos que a veces son anmalos, en el sentido de que pueden aparecer valores que se salen del rango o comportamiento habitual de lo que normalmente se registra. Esto tiene mayor importancia en cuanto menor es la cantidad de datos que se procesan. Los datos siguientes son mediciones diarias de la cantidad de cloro (en ppm) en una solucin denominada purga. 97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 El campo de variacin de la variable es: El promedio aritmtico es Valor mnimo = 77 ; valor mximo = 116 102

X =

(97 + 77 + 97 + 110 + 113 + 115 + ..........109 + 102) 1622 = = 101,375 ppm de cloro 16 16

51

Como se puede observar, este valor est ubicado ms o menos en el centro del campo de variacin de la variable. De ah entonces de que el promedio aritmtico sea una medida de tendencia central Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular el promedio es un tanto diferente. Se debe multiplicar cada valor de la marca de clase Xi por la frecuencia absoluta f ide ese intervalo. Luego se suman todos estos productos y se divide por la cantidad de datos n que hay en la tabla. Es decir

X =

X
i =1

i =t

fi

Para ejercitar esta expresin, calcularemos el promedio aritmtico de la ley de cobre total de las muestras tomadas en el mineral de Toquepala. (Ubicado en el Sur de Per, en la precordillera de los Andes a aproximadamente 2900 mts sobre el nivel del mar)
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi Xi. f i

1 2 3 4 5 6 7 8 9 10 11 12

1,38 1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82

1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9 11 5 n = 378

1,40 x 3 = 1,44 x 42 = 1,48 x 45 = 1,52 x 81 = 1,56 x 78 = 1,60 x 20 = 1,64 x 24 = 1,68 x 28 = 1,72 x 32 = 1,76 x 9 = 1,80 x 11= 1,84 x 5 = Total =

Entonces el mineral procesado tiene una ley media de cobre total igual: % Siguiendo la metodologa, anterior calcule el promedio aritmtico de los datos agrupados en la tabla de frecuencia siguiente. En esta tabla se muestra los valores de concentracin de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviacin en pilas en una Empresa de la II regin de Chile.

52

Clase

Limite Lmite Inferior Superior

Marca de Clase Xi

Frecuencia Absoluta fi

Xi. f i

1 2 3 4 5 6 7 8

3,50 3,80 4,10 4,40 4,70 5,00 5,30 5,60

3,80 4,10 4,40 4,70 5,00 5,30 5,60 5,90

1 2 8 14 27 9 6 3

La concentracin promedio del PLS de este proceso de: _________________ grs / litro
La Mediana:

Este es una medida de Tendencia Central cuyo valor separa el conjunto de datos en dos mitades. Cada una de ellas es un 50% . Es decir , entre el valor mnimo de la variable y la Mediana hay un 50 % de los datos ; por consiguiente , entre la Mediana y el valor mximo de la variable est el otro 50% superior. Para calcular la mediana es necesario ordenar los datos de menor a mayor. En el caso de que la cantidad de datos sea un nmero impar, la mediana se obtiene ubicando el valor que est en el centro. En el caso de que la cantidad de datos se un nmero par, la mediana se obtiene como el promedio de los dos valores centrales. Esta medida tiene la ventaja de ser menos sensible que el promedio aritmtico a la presencia de valores anmalos, ya que slo tiene en cuenta el orden de los datos y no su magnitud. Es decir no se altera mayormente si un valor o dato tiene un error grande de medida o de trascripcin. Al comparar el valor de la mediana con el promedio aritmtico, si hay mucha diferencia entre ellas, esto es una seal que la distribucin de los datos es ms bien asimtrica o heterognea. Por ejemplo, veamos los datos de las mediciones diarias de la cantidad de cloro (en ppm) en una solucin denominada purga. 97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 Estos mismos datos ordenados de mayor a menor, dan como resultado: 77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 102

Como hay un nmero par de datos, entonces la mediana es el promedio de los dos valores centrales. Es decir, la mediana es igual (99 + 102) / 2 . El resultado es 100,5

53

Supongamos que por algn motivo obtuvimos un valor extremo o atpico igual a 138. Entonces los datos quedan ordenados de la siguiente manera: 77 86 97 97 97 97 98 99 102 102 103 106 109 110 113 115 116 138

Como hay una cantidad impar de datos, entonces la mediana es el valor central, siendo en este caso el 102. Es decir, que el contenido de cloro en el 50% inferior de las muestras de purga flucta entre 77 gms/litro a 102 grms / litro. El contenido de cloro en el 50% superior de las muestras de purga flucta entre 102 gms/litro a 138 grms / litro Si se hubiese calculado el promedio aritmtico de los datos, incluyendo el valor atpico de 138, entonces se tendra que la cantidad promedio de cloro en la purga sera de 103,53 grms / litro. Al comparar el valor de la mediana con el promedio aritmtico, si hay mucha diferencia entre ellas, esto es una seal que la distribucin de los datos es ms bien asimtrica Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular la es un tanto diferente. En la tabla de distribucin frecuencia de la de la ley de cobre total, debemos ubicar la columna de frecuencias absolutas acumuladas. Entrando por esta columna , ubicar hasta que intervalo tenemos acumuladamente el 50 % de los valores de la variable. A este intervalo le llamaremos intervalo mediano.
Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi Frec. Absol. Acumulada Fi

Clase

1 2 3 4 5 6 7 8 9 10 11 12

1,38 1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82

1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9 11 5

3 45 90 171 249 269 293 321 353 362 373 378

El intervalo mediano sera el n 5 , pues hasta aqu ya est acumuladamente el 50 % de los datos

n Fi 1 ~ ai X = Med = Lmite Inferior del Intervalo Mediano + 2 fi


Donde: Fi 1 es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano.

54

fi

Es la frecuencia absoluta del intervalo mediano.

ai Es la amplitud del intervalo mediano


Calculando la mediana de la tabla de datos anterior tenemos:

~ 189 171 X = 1,54 + 0,04 = 1,55 % 78


Actividad Prctica: La tabla siguiente muestra la Concentracin de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviacin en pilas en una Empresa de la II regin de Chile
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi Frec. Absol. Acumulada Fi

1 2 3 4 5 6 7 8

3,50 3,80 4,10 4,40 4,70 5,00 5,30 5,60

3,80 4,10 4,40 4,70 5,00 5,30 5,60 5,90

1 2 8 14 27 9 6 3 n= 70

1.- En la tabla anterior complete la columna de las frecuencias absolutas acumuladas Fi 2.- Ubique el intervalo mediano 3.- Siguiendo la metodologa descrita en el ejemplo anterior, calcule el promedio aritmtico y la mediana 4.- Interprete el significado del promedio aritmtico y de la mediana. Analice y redacte conclusiones importantes. Cabe destacar que la Mediana es una Medida de Tendencia Central que puede calcularse, en el caso de que los datos estn tabulados y que ya sea el primer intervalo, o el ltimo intervalo o ambos sean intervalos abiertos. Un intervalo es abierto cuando decimos " menos de 45 " , "ms de 150 " , por ejemplo. Una vez calculado el promedio y la mediana, podemos comparar ambas medidas de resumen, pues dan una orientacin acerca del comportamiento de la distribucin de los datos, de carcter emprico. Esto se denomina estudio del sesgo o de la simetra de la distribucin de los datos, y por lo tanto de la variable en estudio.

55

- Cuando el Promedio es mayor que la Mediana, entonces se dice que la curva que representa la distribucin de los datos tiene un sesgo positivo. Esto se refleja en el hecho de que la curva tiene una cola ms larga hacia el lado derecho. En trminos prcticos, significa que hay una cierta tendencia a tener valores anmalos o atpicos altos en la medicin de la variable. - Cuando el Promedio es menor que la Mediana, entonces se dice que la curva que representa la distribucin de los datos tiene un sesgo negativo. Esto se refleja en el hecho de que la curva tiene una cola ms larga hacia el lado izquierdo. En trminos prcticos, significa que hay una cierta tendencia a tener valores anmalos o atpicos bajos en la medicin de la variable. - Cuando el Promedio es igual que la Mediana, entonces se dice que la curva que representa la distribucin de los datos es simtrica. Esto se refleja en el hecho de que la curva tiende a tener una forma de campana. Desde el punto de vista del anlisis estadstico de los datos, en muchos casos esta es una ventaja pues tiende a facilitar su caracterizacin. Promedio Geomtrico Esta medida de resumen tambin se considera como de tendencia central. Es una alternativa de clculo cuando la comparacin entre el promedio y la mediana nos lleva a concluir que la distribucin de la variable tiene un sesgo positivo o negativo relativamente fuerte o importante. De forma emprica se sabe que cuando se analiza la distribucin del tamao de partculas en muestras de material particulado, o el tamao de las partculas en suspensin en muestras de aire, tendremos una curva de distribucin que presenta un sesgo positivo. (Cola ms larga hacia la derecha). Para disminuir la diferencia o la importancia de los valores anmalos o atpicos extremos de la variable, y aprovechando las propiedades de los logaritmos, se transforman los datos originales aplicndoles la funcin logaritmo. Esta medida corresponde al valor que tomara la variable si se calculase la media aritmtica de los logaritmos de los datos en lugar de los valores directos.

X g = Inv Log {
Actividad Prctica:

( Log X
i =1

i=n

Calcularemos el promedio geomtrico de las mediciones diarias de la cantidad de cloro (en ppm) en una solucin denominada purga. Incorporaremos un valor atpico en la parte alta 77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 148

1.- Usando una calculadora cientfica haremos la siguiente operacin, que nos permite obtener la suma de los valores transformados a logaritmos:

( Log X
i =1

i =n

) =

(log 77 + log 86 + log 97 + log 97 + log 97 + log 97 + log 98 + ............ + log 148) 34,22899 = = 2,01347 17 17

56

2.- Al valor 2,01347 debemos calcularle el antilogaritmo, para obtener el promedio geomtrico:

SHIFT SHIFT

log log

2,01347

==

y se obtiene 103,15

Esta cantidad significa que la cantidad promedio geomtrico de cloro en la purga es de 103,15 ppm. El promedio aritmtico de estos mismos datos es de 104,12 ppm La mediana es de 102. Estas medidas de resumen de una variable del proceso son una importante informacin para realizar las estimaciones de una produccin semanal, mensual, para las personas que tienen a cargo esta responsabilidad. Cuando los datos se encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular el promedio es un poco diferente. Primero se debe multiplicar cada valor de la frecuencia absoluta fi de ese intervalo, por el logaritmo de la marca de clase Xi. Luego se suman todos estos productos y se divide por la cantidad de datos n que hay en la tabla. Seguidamente se le calcula antilogaritmo a este cuociente.

i =t (log X i ) f i Es decir X = Antilog i =1 n


Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi

(log X i )x f i (log 1,40) x 3 = 0,43838 (log 1,44) x 42 = 6,65122 (log 1,48) x 45 = 7,66178 (log 1,52) x 81 = 14,72933 (log 1,56) x 78 = 15,06372 (log 1,60) x 20 = 4,08240 (log 1,64) x 24 = 5,15625 (log 1,68) x 28 = 6,30866 (log 1,72) x 32 = 7,53691 (log 1,76) x 9 = 2,20961 (log 1,80) x 11 = 2,80800 (log 1,84) x 5 = 1,32409 = 73,96716

1 2 3 4 5 6 7 8 9 10 11 12

1,38 1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82

1,42 1,46 1,50 1,54 1,58 1,62 1,66 1,70 1,74 1,78 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84 n = 378

3 42 45 81 78 20 24 28 32 9 11 5

Suma Total

73,96716 X = Antilog = Anti log(0.19568) . Pulsando las teclas de su calculadora cientfica 378
SHIFT

log

0.19568 = 1,57 %

57

Recordemos que la tabla anterior presenta la ley de cobre total de las muestras tomadas en el mineral de Toquepala. Como anteriormente se calcularon: 1.- Promedio Aritmtico: 2.- Mediana: 3.- Promedio Geomtrico: 1,57% 1,55% 1,57%

El anlisis de estas tres medidas de resumen nos indican la distribucin del % de la ley de cobre en Toquepala tendran una clara tendencia a tener una distribucin relativamente simtrica. Actividad Prctica Personal La tabla siguiente muestra la distribucin de la concentracin de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviacin en pilas en una Empresa de la II regin de Chile
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi

(log X i )x f i

1 2 3 4 5 6 7 8

3,50 3,80 4,10 4,40 4,70 5,00 5,30 5,60

3,80 4,10 4,40 4,70 5,00 5,30 5,60 5,90

1 2 8 14 27 9 6 3 n= 70

1.- Complete en la tabla anterior la columna con las marcas de clases de cada intervalo 2.- Complete la columna (log Xi) x f i 3.- Obtenga la suma total de la columna (log Xi) x f i 4.- Divida esta suma total por n= 70 5.- Al valor obtenido en e punto anterior, calcule el antilogaritmo de dicha cantidad. Este es el Promedio Geomtrico de la concentracin del PLS 6.- Compare los valores del promedio aritmtico, el promedio geomtrico y la mediana. Obtenga conclusiones al respecto.

58

Moda o Modo Es otra medida de tendencia central. Tambin se le conoce como promedio industrial. Conceptualmente es el valor de la variable que ms se repite. En el caso de de variables continuas, es preferible calcular esta medida de resumen a partir de la tabla de distribucin de frecuencias. En un grfico, ya sea un histograma o polgono de distribucin de frecuencias, es el valor en el eje X que tiene la barra de mayor altura o el vrtice del polgono que tiene mayor altura. Por ejemplo: En la tabla de frecuencia inicial , debemos ubicar el o los intervalos de mayor frecuencia absoluta. A este (o estos) intervalo(s) se le(s) denomina intervalo modal, pues aqu se encuentra el valor de la moda. Luego se deben determinar los valores 1
=

Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo anterior al Intervalo modal

2 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo siguiente al intervalo modal N Interv Limite Intervalos Marca de Frecuencia Clase (Xi) Absoluta fi 1 45 60 52,5 9 2 60 75 67,5 47 3 75 90 82,5 43 4 90 105 97,5 19 5 105 120 112,5 15 6 120 135 127,5 8 7 135 150 142,5 8 8 150 165 157,5 2 Total 151

Modo = [Lmite Inferior del intervalo Modal] + [ (1 / 1 + 2) ] * ai Donde "ai " es la amplitud del intervalo modal

59

3.4.1.2.- Medidas de Variabilidad: Estas medidas de resumen estn orientadas a cuantificar el grado o magnitud de cmo los datos se dispersan en torno a una medida de tendencia central. Generalmente se usa como valor de referencia el promedio aritmtico. Mucha dispersin es seal de poca uniformidad u homogeneidad en los datos. Por el contrario poca dispersin, es seal de homogeneidad en los datos.

Valor Mnimo

X
T.C

Valor Mximo

Las medidas de variabilidad ms ampliamente conocidas y utilizadas son Campo de Variacin: Es el intervalo numrico formado por el menor valor de la variable y el mayor valor de la variable, {X Mnimo ; X Mximo } Rango: Es una medida de variabilidad muy fcil de calcular pues es la diferencia entre al mayor valor de la variable se le resta el menor valor de la variable: R = X Mximo -- X Mnimo Varianza Es el promedio aritmtico de los desvos variable respecto de su promedio aritmtico. cuadrticos de los valores de la

o tambin como

i= n i=1

( xi x)2 n
(Varianza poblacional)

(x i x )
i =1

i =n

2
(Varianza muestral)

n 1

Cabe destacar que los desvos del valor de la variable respecto de su media aritmtica deben de ser elevados al cuadrado, pues si se suman sin hacer esta operacin, el resultado de la suma es cero. Actividad Los datos siguientes representan las partes por milln de cloro en el electrolito rico de un proceso de lixiviacin en pilas, durante dos semanas seguidas, en una faena minera de la segunda regin de Chile 31 28 30 29 28 30 29 29 27 28 27 28 28 28

60

El promedio aritmtico de los datos es de 28,57 ppm. Este valor resulta vital para proceder a calcular la varianza. Entonces el valor de la varianza poblacional se calcula de la siguiente manera

2 =

[(31 28,57)

+ (28 28,57) 2 + (30 28.57) 2 + ........... + (28 28.57) 2 17,4286 = = 1,2449 ppm2 14 14

El valor de la varianza muestral tiene el mismo numerador. El denominador es siempre la cantidad de datos menos 1. Se calcula de la siguiente manera:

2 =

[(31 28,57)

+ (28 28,57) 2 + (30 28.57) 2 + ........... + (28 28.57) 2 17,4286 = = 1,3407 ppm2 13 13

Al analizar las frmulas que permiten calcular estas varianza, se puede observar que el dividir por n o por n-1, slo tiene importancia cuando la cantidad de datos es pequea. En estadstica se consideran pocos datos para caracterizar el comportamiento de una variable cuando se tienen 30 o menos datos. El problema que tiene esta medida de resumen es que las unidades resultantes quedan como valores cuadrticos. Pero para zanjar esta dificultad, es que se le puede extraer raz cuadrada. Si los datos se presentaran resumidos en una tabla de distribucin de frecuencia, las frmulas anteriores deben de incluir la frecuencia absoluta de cada intervalo. Es decir:

i= n i=1

( xi x )2 fi n

i= n i=1

( xi x)2 fi n

Actividad Prctica Personal Distribucin de la concentracin de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviacin en pilas en una Empresa de la II Regin de Chile
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi

(Xi 4,81)2 x fi (3.65 4.81)2 x 1 = 1.3456 (4.25 4.81)2 x 8 = 2.5088

1 2 3 4 5 6 7 8

3,50 3,80 4,10 4,40 4,70 5,00 5,30 5,60

3,80 4,10 4,40 4,70 5,00 5,30 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8 14 27 9 6 3

Calcule la varianza de la concentracin de cobre, en muestras de soluciones de PLS. Siga las instrucciones. El promedio aritmtico, calculado anteriormente, es de X = 4.81 grm / lts

61

1.- Complete la columna (Xi 4,81)2 x fi 2.- Obtenga la suma total de esta columna 3.- Divida esta suma total por 70. El resultado de este cuociente es la varianza poblacional. Si divide la suma total por 69, tendr la varianza poblacional
Desviacin Estndar o tpica

Es la raz cuadrada de la varianza. Tiene una gran importancia pues es la cuantificacin de la precisin de la medicin de la variable.

= 2
Se utiliza, entre otras aplicaciones, para construir intervalos de confiabilidad, que contendrn los valores lmites extremos (mnimos y mximos) , en torno a los cuales oscilar un parmetro de una poblacin en Estudio. Si el perfil de la curva que representa a un conjunto de datos y tuviese la forma de una campana, estamos seguros que aproximadamente un 68,27 % de las veces, la medicin estar en el intervalo: X Desv. Estndar. Y con las caracterstica de la curva tipo campana el intervalo X 2 Desv. Estndar contendr el 95 % de los valores de la variable

Ejemplo Los datos siguientes representan las partes por milln de cloro en el electrolito rico de un proceso de lixiviacin en pilas, durante dos semanas seguidas, en una faena minera de la segunda regin de Chile 31 28 30 29 28 30 29 29 27 28 27 28 28 28

1.- La desviacin estndar de la serien de datos

2 =

[(31 28,57)

+ (28 28,57) 2 + (30 28.57) 2 + ........... + (28 28.57) 2 17,4286 = = 1,2449 14 14

= 1.3407 = 1.1579 Es igual a = 1.2449 = 1.1157 ppm. Tambin

62

Entonces una medicin que se haga en el electrolito rico de este proceso tiene un 95% de confianza de estar entre X Desv. Estndar. = 28.57 2 * 1.1579, Es decir, con 95% de confiabilidad la medicin a obtener debera estar entre {26,2 y 30,9} ppm de cloro. Ejercicio: Dada la siguiente tabla de distribucin de frecuencias: 1.- Calcule la desviacin estndar de la concentracin de cobre de las 70 muestras de PLS 2.- Determine un intervalo de confiabilidad de 95% para una medicin de la concentracin de cobre en la solucin de PLS.
Clase Limite Lmite Inferior Superior Marca de Clase Xi Frecuencia Absoluta fi

(Xi 4,81)2 x fi (3.65 4.81)2 x 1 = 1.3456 (4.25 4.81)2 x 8 = 2.5088

1 2 3 4 5 6 7 8

3,50 3,80 4,10 4,40 4,70 5,00 5,30 5,60

3,80 4,10 4,40 4,70 5,00 5,30 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8 14 27 9 6 3

Error Estndar. Suele representarse por " e.e " y es la desviacin estndar dividida por la raz cuadrada del nmero de datos. e.e =

n
Permite construir intervalos de confiabilidad para el promedio aritmtico de los datos. A mayor nmero de datos, "n, menor es el error estndar y por lo tanto ms estrecho o preciso ser el intervalo de estimacin para EL PROMEDIO. Por ejemplo, en intervalo formado por X 1.96 ee , nos dice que el promedio aritmtico de la variable, calculado a partir de una muestra de tamao "n", estar en un 95 % de las veces, dentro del intervalo X 1.96 ee . Actividad Prctica: Si las 378 muestras de xido de cobre obtenidas en el mineral de Toquepala entregan un promedio aritmtico de 1. 57% . Una Desviacin Estndar de 0.101%. 1.- Calcule el Coeficiente de variacin del mineral de oxido de cobre procesado 2.- Si se tomara una muestra aleatoria de 9 muestras, determine un intervalo de confianza para dicho promedio muestral.

63

Coeficiente de Variacin. Es una medida de la variabilidad o de la dispersin relativa de una variable, en relacin con su promedio aritmtico. Tiene la propiedad de ser adimensional. Por lo tanto sirve para comparar el menor o mayor grado de homogeneidad de una variable respecto de otra. Por ejemplo , si medimos en un conjunto de personas su estaturas (cm) y su peso (kg) , deseamos saber cul presente una mayor grado de homogeneidad. C.V =

*100%

Generalmente C.V por debajo del 5% en una variable, es signo de un alto grado de homogeneidad. Si supera el 15% , es signo de una significativa tendencia a la heterogeneidad. El coeficiente de variacin para las ppm de cloro en las 14 muestras de electrolito rico, es igual

C.V X =

1.1157 x100% = 3,91% 28.57

Lo cual puede indicar mucha estabilidad en esa variable del proceso. Si existe poca variabilidad, entonces es un proceso estadsticamente controlado o es un proceso estable. Actividad Prctica: Si las 378 muestras de xido de cobre obtenidas en el mineral de Toquepala entregan un promedio aritmtico de 1. 57% . Una Desviacin Estndar de 0.101%. 1.- Calcule el Coeficiente de variacin del mineral de oxido de cobre procesado 2.- Si se tomara una muestra aleatoria de 9 muestras, determine un intervalo de confianza para dicho promedio muestral.

Puntaje Estandarizado : Z i La variable o puntaje estandarizado mide la posicin relativa del valor de la variable con respecto al Promedio Aritmtico X , expresado en unidades de desviacin estndar . Su expresin algebraica es: Z i=

Xi X

Esta variable es adimensional, por lo que resulta muy interesante su utilizacin cuando se desea comparar en que variable o variables una unidad de anlisis se encuentra mejor o peor. Tambin resulta de mucha utilidad cuando se necesita transformar valores expresados en cierta escala, en unidades de otra escala. de una variable

64

Igualmente se emplea para comparar resultados de experimentos expresados en ciertas unidades, con otros expresados en otras unidades. 3.4.1.3.- Medidas de Posicionamiento. Despus de hacer un ordenamiento de menor a mayor en los datos de la variable en estudio, se proceden a ubicar aquellas posiciones porcentuales de la cantidad de datos que dejan entre s un cierto porcentaje de los datos. Aparecen entonces conceptos tales como Deciles, Quintiles , Cuartiles, etc.Por ejemplo, si la cantidad de datos la dividimos en cuatro partes iguales, tenemos los denominados Cuartiles, que dejan entre si un 25% de la cantidad de datos. Es decir, son tres valores que separaran la totalidad de los datos en cuatro partes que contienen igual cantidad los datos . X mnimo Cuartil Inferior 25 % Mediana 75 % 50 % 75 %
Cuartil Inferior o Primer Cuartil.

Cuartil Superior

X Mximo

25 %

Es un valor que limita o separa el 25 % Inferior de los valores de la variable del 75 % Superior. Para el 25 % inferior, representa el Mximo valor de ese tramo. Para el 75 % Superior, representa el Mnimo valor de ese sector.
Cuartil Superior o Tercer Cuartil.

Es un valor que limita o separa el 75 % Inferior de los valores de la variable del 25 % Superior. Para el 75 % inferior, representa el Mximo valor de ese tramo. Para el 25 % superior, representa el Mnimo valor de ese sector. Entre el Cuartil Inferior y el Cuartil Superior se produce un intervalo, cuya diferencia produce el denominado Rango Intercuartlico, que es una medida de variacin del 50 % central de los valores de la variable. Percentiles : Proporcionan valores lmites que separan los datos , de manera tal que el Percentil 10, por ejemplo, nos indica que un 10% de los valores de la variable est por debajo de dicho valor y un 90 % de los datos est por sobre el valor del percentil 10. El Percentil 80, por ejemplo, nos indica que un 80 % de los valores de la variable estn por debajo de dicho valor, y el 20% restante est por sobre el valor del percentil 80.

65

X mnimo P10 P90

X mximo

Los valores correspondientes los Percentiles 10 y 90, producen un intervalo que contiene el 80% Central de todos los valores de la variable. Los valores correspondientes los Percentiles 5 y 95 , producen un intervalo que contiene el 90% Central de todos los valores de la variable. En algunas oportunidades interesan estos valores como elementos de filtro para la variable, a objeto de dejar fuera valores muy extremos, que por alguna razn desconocida registra la variable. X mnimo P5 P95 X mximo

Si los datos estn presentados en una columna, el clculo de percentiles lo podemos hacer utilizando la planilla Excel. Utilizaremos el siguiente procedimiento. 1.- Ponga la punta del mouse en la ventana de la funcin fx

2.- Se desplegar una ventana donde deber seleccionar estadsticas y seleccionar percentil del conjunto de posibilidades desplegadas.

Cuando los datos estn tabulados, tambin es posible calcular valores de percentiles. El procedimiento es muy similar al clculo de la mediana. A partir de la tabla inicial, se debe ubicar la columna de Frecuencias Absolutas Acumuladas. Estando dentro de esta columna, determinar el intervalo que contiene el Percentil buscado. Por ejemplo si se desea determinar P20, es decir el percentil 20, se debe determinar hasta que intervalo ya se tiene acumuladamente, de menor a mayor , el 20 % de los datos.

66

Pj = Lim. Inferior intervalo que contiene percentil "j" Donde:

n (100 * j ) Fi 1 + * ai fi

J es el valor del percentil deseado Fi-1 es la frecuencia acumulada hasta en intervalo anterior al que contiene el percentil "j" fi es la frecuencia absoluta del intervalo que contiene al percentil "j" A modo de ejemplo calcule el percentil 20 y el percentil 80 de la siguiente tabla de datos N Interv Limite Intervalos Marca de Frecuencia Frecuencia Absoluta Clase (Xi) Absoluta fi Acumulada 45 60 52,5 9 9 60 75 67,5 47 56 75 90 82,5 43 99 90 105 97,5 19 118 105 120 112,5 15 133 120 135 127,5 8 141 135 150 142,5 8 149 150 165 157,5 2 151 151

1 2 3 4 5 6 7 8 Total

El Percentil 20, est contenido en el intervalo n 2 puesto que hasta dicho intervalo est acumulado el 20% de 151 , cuyo valor es de 30,2.

P20

155 * 20 100 9 = 60 + *15 = 47

El Percentil 80, est contenido en el intervalo n 5 puesto que hasta dicho intervalo est acumulado el 80% de 151, cuyo valor es de 120,8.

151 * 80 ( 100 ) 118 P80 = 105 + *15 = 15

67

3.4.1.4.- Medidas de Deformacin: de Son medidas de resumen que cuantifican fundamentalmente dos elementos de la los datos: La asimetra y la Curtos. distribucin

La Asimetra o Sesgo: Cuantifica el grado de asimetra de una distribucin, es decir, cunto se aparta de la Simetra. Cuando este valor es "cero", sugiere que los datos estn simtricamente distribuidos en torno a una medida de Tendencia Central, que generalmente es el Promedio Aritmtico o la Mediana. Valores positivos para el Sesgo, indican que la "cola superior" o derecha de la curva que representa a los datos, es ms larga. Presencia de datos "anmalamente" altos. Por el contrario, valores negativos indican que la "cola inferior" o lado izquierdo de la curva es ms larga, presencia de datos anmalamente" bajos.

Sesgo > 0, curva sesgada a la derecha o sesgo positivo

Existe una variada gama de algoritmos para cuantificar el grado de asimetra de la distribucin de los datos: El estadstico Alemn Karl Pearson propone frmulas empricas para cuantificar el Sesgo. 1 coeficiente de Sesgo de Pearson =

( X Moda )

3( X Mediana)

2 coeficiente de Sesgo de Pearson =

Otra medida del Sesgo en trminos de Cuartiles es: (Cuartil Superior - Mediana) - (Mediana - Cuartil Inferior ) Cuartil Superior - Cuartil Inferior

68

Otra medida del Sesgo en trminos de Percentiles ( Percentil 90 - Mediana ) - (Mediana - Percentil 10) Percentil 90 - Percentil 10 Los softwares que trabajan anlisis de datos tienen incorporados en sus algoritmos de clculo aquellos que permiten el clculo del sesgo o la simetra de una variable. Una importante medida del Sesgo de una distribucin de los Datos de una variable es el llamado coeficiente momento de sesgo "a3".

a3 =

i=n i =1

( X i X )3

3
n (X i X ) 3
i =1 i =n

si

n 150

a3 =

(n - 1)(n - 2) 3

si

4 n 149

Para curvas perfectamente simtricas, tal como una campana, el coeficiente de sesgo es igual a cero. Excel permite el calcular un coeficiente de asimetra de la variable. Para ello use la siguiente ventana:

Sesgo Estandarizado o tipificado. Cuando la cantidad de datos colectados para la variable en estudio es igual o superior a 150 , se puede asumir "normalidad estadstica". Resulta de vital importancia saber que tan alejado o prxima est el Sesgo de la variable con respecto de la Distribucin Normal Estndar. A veces el supuesto de normalidad estadstica simplifica y ayuda enormemente el anlisis e interpretacin estadstica de los datos. Cuando el valor del Sesgo Estandarizado queda fuera del intervalo -2 , +2 significa que el Sesgo de los datos colectados es significativamente diferente de un Sesgo Normal.

69

Valores negativos, son indicadores de una "Cola" ms grande hacia el lado izquierdo, respecto de una medida de Tendencia Central. Por el contrario, un valor positivo indicara una "cola" ms larga hacia el lado derecho de la curva. El valor del Sesgo estandarizado se obtiene dividiendo el valor del sesgo por el factor Ejercicio: Para la tabla de distribucin de frecuencias siguiente, calcule el segundo coeficiente de sesgo de Pearson. Estandarice el coeficiente obtenido, dividiendo por respecto. N Interv Limite Intervalos 1 2 3 4 5 6 7 8 Total 45 60 75 90 105 120 135 150 60 75 90 105 120 135 150 165 Marca de Frecuencia Frecuencia Absoluta Clase (Xi) Absoluta fi Acumulada 52,5 9 9 67,5 47 56 82,5 43 99 97,5 19 118 112,5 15 133 127,5 8 141 142,5 8 149 157,5 2 151 151

6 n

6 . Analice sus resultados y obtenga conclusiones al n

Curtosis Esta medida de resumen cuantifica el grado de "alargamiento" o "achatamiento". En otros trminos, cuan aguzada o puntiaguda es la curva de la distribucin de los datos, en general por referencia a la normal. Mientras ms alargada o aflautada es la curva, se dice leptoctica. Mientras ms aplastada o achatada es la curva, se dice platicrtica Este coeficiente se calcula mediante el siguiente algoritmo, cuando los datos no estn tabulados.:
n(n 1) ( X i X ) 4
i =1 i=n

b2 =

(n 1)(n 2)(n 3) 4

3(n 1) 2 (n 2)(n 3)

Para una curva cuyo perfil sea semejante al de una campana, el valor de este coeficiente es 3 Cuando b2 > 0, la curva es Leptocrtica. Cuando b2 < 0, la curva es Platicrtica.

70

Curtosis tipificada o estandarizada : Este coeficiente que sirve para comparar el grado de apuntamiento de la curva de los datos , con respecto a este mismo coeficiente en caso de Distribucin Normal. Cuando este valores est fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadstica, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad. El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por

24 n

La planilla Excel permite el clculo de este coeficiente, cuando los datos estn dispuestos en una columna.

Ejercicio: Los datos siguientes representan el rendimiento, en kilmetros por litro, en una muestra de 60 automviles que circulan por la ciudad. Disponga estos datos en unan columna de la planilla Excel para: a) Calcular el coeficiente de curtosis b) Estandarizar dicho coeficiente c) Analice y obtenga las respectivas conclusiones 17,9 15,0 13,6 16,4 8,4 10,4 8,5 8,1 7,5 7,3 12,5 11,4 8,4 7,1 9,0 6,7 8,6 7,1 7,3 6,9 14,2 14,8 11,4 10,6 15,0 8,3 8,6 8,6 11,3 12,8 13,1 12,3 7,6 7,0 9,6 11,3 8,1 8,4 7,7 7,5 8,8 9,6 8,9 8,2 6,4 8,0 9,9 14,2 8,0 8,0 9,9 9,3 7,7 14,3 8,5 7,4 9,9 8,4 13,3 13,2

Cuando los datos estn tabulados, otra medida de curtosis que suele utilizarse para el 80 % central de los valores de la variable , es el coeficiente (Kappa) , denominado Coeficiente Percentil de Curtosis =

( Percentil 75 Percentil 25 ) 2( Percentil90 Percentil10 )

Este coeficiente, en el caso de la Distribucin Normal vale 0,263

71

Cuando > 0,263 la curva de distribucin que genera la variable es Leptocrtica. Cuando < 0,263 la curva de distribucin que genera la variable es platicrtica. Ejercicio De la siguiente tabla de distribucin de frecuencia, obtenga el valor del coeficiente Kappa N Interv Limite Intervalos 1 2 3 4 5 6 7 8 Total 45 60 75 90 105 120 135 150 60 75 90 105 120 135 150 165 Marca de Frecuencia Frecuencia Absoluta Clase (Xi) Absoluta fi Acumulada 52,5 9 9 67,5 47 56 82,5 43 99 97,5 19 118 112,5 15 133 127,5 8 141 142,5 8 149 157,5 2 151 151

72

TALLER DE APLICACIONES: Uso de la Planilla Excel Abra el Archivo de Datos en Planilla Excel Automviles, hoja 2 y encuentre todas las medidas estadsticas de resumen para la variable Rendimiento. Para ello deber seguir el siguiente procedimiento: 1.-

2.- En el recuadro que aparece con el nombre Pegar Funcin, en la ventana Categoras de la funcin, seleccione Estadsticas. En la ventana nombre de la funcin deber seleccionar la medida de resumen que necesita:

Medidas de Tendencia Central:


1.- Promedio Aritmtico

2.- Mediana

73

Medidas de Variabilidad
1.- Valor Mnimo 2.- Valor Mximo

El intervalo numrico formado con el Valor mnimo y el valor mximo se llama campo de variacin de la variable 3.- Rango. Para obtener el Rango de la variable al Valor Mximo - Valor Mnimo

4.- Varianza Poblacional

5.- Varianza Muestral

6.- Desviacin Estndar Poblacional

7.- Desviacin Estndar Muestral

8.- Con el promedio aritmtico y la desviacin estndar calculados, determine intervalos de confianza del 68,27% y del 95% para la variable Rendimiento. Haga uso de la frmula Haga uso de la frmula

X Desv.Est para 68,27% X 2 Desv.Est para 95%

9.- Calcule el error estndar de la variable, haciendo uso de la frmula

e.e =

Desv.Est.muestral n n es la cantidad de datos de la variable

Usted puede saber la cantidad de datos utilizando

74

10.- Con el promedio aritmtico y el error estndar calculados, determine intervalos de confianza del 68,27% y del 95% para el Promedio Aritmtico de la variable VOD. Haga uso de la frmula Haga uso de la frmula

X Error Est para 68,27% X 2 Error.Est para 95%

11.- Con el promedio aritmtico y la desviacin estndar calculados, determine e interprete el coeficiente de variacin que tiene la variable VOD.

Coef . de var iacin =

Desv.Est.muestral 100% X

12.- En una columna aparte, transforme los valores de la variable a puntajes estandarizados y analice aquellos valores que estn fuera del intervalo 2, +2

Medidas de Posicionamiento
Calcule valores de Percentiles en la distribucin de los datos de la variable VOD

Percentil 2,5 = Percentil 15 = Percentil 75 =

Percentil 5 = Percentil 25= Percentil 90=

Percentil 10 = Percentil 50 = Percentil 95=

Escriba un intervalo que contenga el 80% central de los valores de la variable Escriba un intervalo que contenga el 95%% central de los valores de la variable

Medidas de Deformacin
1.- Calcule e interprete el sesgo o asimetra de la variable

Obtenga el coeficiente de Sesgo Estandarizado, para decidir si resulta ser estadsticamente significativo el sesgo de la distribucin. Es decir, el COEFICIENTE. ASIMETRA obtenido, divdalo por el factor

6 n

75

2.- Calcule e interprete el coeficiente de curtosis de la variable

Obtenga el coeficiente de Curtosis Estandarizado, para decidir si resulta ser estadsticamente significativo la curtosis de la distribucin. Es decir, el valor obtenido para la CURTOSOS , divdalo por el factor

24 n

Clculo de medidas de resumen y grficos cuando se tiene una tabla de distribucin de frecuencias Siempre que se utilizan softwares para hacer anlisis de datos, las medidas de resumen se calculan a partir de los datos originales. Pero podra darse el caso de que en alguna oportunidad tuvisemos una tabla de distribucin de frecuencia, pero no conocemos los datos originales que la produjeron.
Tabla de Frecuencias para la velocidad de detonacin de un explosivo -------------------------------------------------------------------------------Lmite Lmite Marc.Clase Frecuencia Frecuencia Frecuencia Frecuencia Clase Inferior Superior X i Absoluta Relativa Acumulada Acum.Rel. -------------------------------------------------------------------------------1 1600,0 1686,0 1643,0 4 0,0188 4 0,0188 2 1686,0 1772,0 1729,0 1 0,0047 5 0,0235 3 1772,0 1858,0 1815,0 15 0,0704 20 0,0939 4 1858,0 1944,0 1901,0 13 0,0610 33 0,1549 5 1944,0 2030,0 1987,0 36 0,1690 69 0,3239 6 2030,0 2116,0 2073,0 43 0,2019 112 0,5258 7 2116,0 2202,0 2159,0 34 0,1596 146 0,6854 8 2202,0 2288,0 2245,0 38 0,1784 184 0,8638 9 2288,0 2374,0 2331,0 19 0,0892 203 0,9531 10 2374,0 2460,0 2417,0 10 0,0469 213 1,0000 --------------------------------------------------------------------------------

Ejercicio: 1.- Calcule y analice el coeficiente de variacin de la variable. 2.- Determine el valor de la mediana y del promedio geomtrico 3.- Obtenga el segundo coeficiente de sesgo de Pearson. Estandarice este coeficiente y luego analice el valor obtenido para decidir si es estadsticamente significativo. 4.- Usando percentiles, obtenga un intervalo para el 50% central de los valores de la variable. 5.- Usando percentiles, obtenga un intervalo para el 80% central de los valores de la variable. 6.- Con lo calculado en puntos 4 y 5, obtenga el coeficiente Kappa para la variable y describa como clasificara el grado de apuntamiento de la variable. 7.- Obtenga el valor modal de la variable.

76

8.- Construya el histograma de frecuencia. 9.- Construya el polgono de frecuencia 10.- Construya el grfico de frecuencias acumuladas. 11.- A partir de la tabla de distribucin y sus elementos, analice, interprete y redacte las conclusiones pertinentes.

77

Capitulo 4.- Procesamiento de Datos Bidimensionales


En muchas oportunidades una "unidad de anlisis" es medida u observada desde diferentes ngulos o puntos de vista. Es decir se observan ciertos atributos, como tambin se miden ciertas variables. Ello genera una matriz de "n" filas y "k = 2 " columnas. En muchos problemas existe una relacin inherente entre dos o ms variables, y resulta necesario explorar la naturaleza de esta relacin. Al explorar esta relacin, podemos tener una medicin cuantitativa de ella, la que depender de la naturaleza de las variables en estudio. Puede darse el caso de que las dos variables en estudio u observacin sean cualitativas, como es el caso de "tuno" y "tipo de defecto", por ejemplo. Puede darse el caso de una de la variable sea cualitativa y la otra sea cuantitativa, como es el caso de "origen de procedencia " de un vehculo y "rendimiento", por ejemplo. Puede ser de que ambas variables sean cuantitativas, como es el caso de "Rendimiento" de un vehculo (Km / lt)) y "peso del vehculo". Por lo tanto las posibilidades de formas de tabulacin, las medidas cuantitativas asociadas y los grficos asociados dependern de la naturaleza de las variables en estudio. 4.1 AMBAS VARIABLES SON CUALITATIVAS Un problema que se encuentra frecuentemente en el anlisis de datos de conteos o enumerativos, trata de la independencia de dos mtodos (variables) de clasificacin de los eventos observados. Para ello en una primera instancia debemos tabular estos datos bidimensionales, generando una tabla denominada tabla de asociacin o de contingencia. De esta tabla puede extraerse una variada cantidad de informacin. Por ejemplo, queremos clasificar los Tipos de Defectos encontrados en las unidades producidas en una planta manufacturera, segn el Turno de produccin. El archivo de datos tendra ms o menos la siguiente presentacin: Num_Unidad Tip_Defect 1 A 2 B 3 C 4 D 5 B . . 308 C 309 A Turno 1 3 2 1 2 2 1

Para producir una " tabla de contingencia o de asociacin", a partir de datos no tabulados, utilizando Excel. Utilizaremos la base de datos automviles, hoja 2. Aqu tomaremos las variables Type (Tipo de Vehculo) y Air Bags y es preferible usar una nueva hoja para copiarlas.

78

Se debe utilizar Tablas Dinmicas de Excel. Para esta tabla necesitamos que las Filas sean los tamaos de los vehculos (Type) y que las columnas sean Air Bags (Cantidad de sacos de Aire) 1.- Marque o seleccione el campo de las dos variables 2.-

3.- Seleccione ambas variables. Arrastre Type a la ventana Rtulos de Fila y Air Bags a la ventana Rtulos de columna. En la ventana Valores , active la punta de flecha y tendr una ventana donde

deber seleccionar configurar campo de valor para seleccionar cuenta

79

5.- En este caso la tabla obtenida es

Anlisis Estadstico de una Tabla de asociacin Una vez obtenida o construida una tabla de asociacin de dos variables, es de vital importancia analizar sus componentes e interpretar los resultados que se pueden obtener a partir de ella. Por ejemplo: 9 9 9 9 Porcentajes respecto del total de la tabla. Porcentajes respecto del total por columnas. Porcentajes respecto del total por filas. Valores esperados en cada celda bajo supuesto de independencia estadstica , que se ver ms adelante .etc.-

Porcentajes respecto del total de la tabla. Tabla de Frecuencias: Distribucin de los Tipos de Defectos, segn Turno

El contenido en el interior de las celdas representa las frecuencias absolutas conjuntas. En los mrgenes de la tabla aparecen los totales por filas, y los totales por columnas.

80

Interpretaciones: f i j : Representa la frecuencia conjunta de la fila "i" con la columna "j". f 32 = 34. Significa que hay 34 unidades que tienen el " tipo de defecto c " y que fueron producidos durante el "turno 2" f i . : Representa el total en la fila "i" f 1.
=

74. Significa hay 74 unidades que tienen el " tipo de defecto a ", cualesquiera sea el turno

f . j : Representa el total en la columna " j " f .


2

= 96. Significa que hay 96 unidades defectuosas que fueron producidas durante el Turno 2.

Qu porcentaje representan los defectos tipo C y que son producidos en el turno 2? Respta. =

34 *100% 309

Cul es la probabilidad de que haya un defecto tipo B y se haya producido en el turno 3? Respta. =

17 *100% = 309

Representacin Grfica de la tabla de asociacin Tipo de Defectos segn Turno, usando Excel. Sea la tabla original en planilla Excel

Para obtener el grafico, seleccione de la tabla anterior el siguiente campo

Luego utilice el siguiente procedimiento Excel

81

Obtendr un grfico bsico que podr ir mejorando segn necesidad y dominio que tenga en el manejo de la planilla

Porcentajes condicionados: En el turno 3, Qu porcentajes de los defectos son del tipo C? Respuesta =

49 *100% 119
45 *100% 128

De los defectos tipo C, Qu porcentaje de ellos son producidos en el turno 1? Respuesta=

Porcentajes respecto del total por columnas: La frecuencia absoluta conjunta es dividida por el total de la columna.

Realice algunas interpretaciones


En el turno 1, la probabilidad de que se produzca un defecto tipo C es de un 47,87%. Cualesquiera sea el turno, el defecto ms probable es del tipo C

82

Utilizando el mismo procedimiento anterior para construir un grafico de barras obtendremos el siguiente grfico:

Pero est el inconveniente que el turno debiese aparecer en el eje X. Es decir tenemos cambiados los ejes. Este inconveniente se resuelve aplicando en el grfico anterior, el siguiente procedimiento:

Realizando algunos cambios en el grfico bsico, podr ir mejorndolo segn necesidad y dominio que tenga en el manejo de la planilla. Un ejemplo es el siguiente

Podemos observar que si se suman los valores de las 4 barras en cada uno de los turnos, los porcentajes suman 100%

83

Porcentajes respecto del total por filas: La frecuencia absoluta conjunta es dividida por el total de la fila

Realice algunas interpretaciones


Dado que se tiene un defecto tipo B, los ms probable es que la pieza haya sido producida en el turno 2 (44,93%) Dado que se tiene un defecto tipo D, lo menos probable es que la pieza haya sido producida en el turno 2 (13,16%)

El grafico de barras asociado a esta tabla de distribucin de frecuencias, se obtiene de la manera anteriormente explicada. El grafico inicial que se entrega es:

Realizando algunos cambios en el grfico bsico, podr ir mejorndolo segn necesidad y dominio que tenga en el manejo de la planilla. Un ejemplo es el siguiente

84

4.2.- UNA VARIABLE ES CUALITATIVA Y LA OTRA ES CUANTITATIVA. Una forma de presentar la informacin es considerar la variable cualitativa en filas y en columna alguna medida de resumen de inters para el investigador, tal como el promedio y la desviacin estndar para ese nivel de medicin de la variable cualitativa. Podemos utilizar Tablas Dinmica de Excel para este propsito. El anlisis estadstico de este formato, cualitativo (factor) cuantitativo, se realiza utilizando la metodologa denominada Anlisis de la Varianza (Anova) a un Factor. Ejemplo: Del archivo Excel automviles, hoja 2, copie las Variables Type y Engine Size (hoja9). Utilice el procedimiento descrito para Tabla Dinmica

Si deseamos tener el promedio y las desviacin estndar para cada tipo de vehculo, tendremos dos tablas. En este caso

A partir de ellas podemos consolidarlas en una sola tabla como la siguiente:

85

4.3.- AMBAS VARIABLES SON CUANTITATIVAS. En muchos fenmenos o problemas existe una relacin inherente entre dos o ms variables, y resulta necesario explorar la naturaleza de esta relacin. Por ejemplo, muchos de los productos farmacuticos y alimenticios tienen fechas de expiracin estampadas en etiquetas o estampadas en los envases. En el caso del pan, yogurt y de otros productos alimenticios, la fecha de expiracin indica la fecha en la que el producto ya no est fresco y su consumo ocasiona un riesgo para la salud de las de personas. En el caso de medicamentos como los analgsicos o las medicinas contra el resfriado, la fecha de expiracin indica a partir de cuando el producto comienza a perder su efecto para el propsito indicado. Tambin, a modo de ejemplo, en un proceso qumico supngase que el rendimiento del producto est relacionado con la temperatura de operacin del proceso. El poder de detergencia de un detergente est relacionado con la temperatura del agua, etc.Cmo se determina stas fechas de expiracin de los productos? Cul es la temperatura que maximiza el rendimiento? La respuesta es con Anlisis de Regresin. 4.3.1. Anlisis de Regresin. El Anlisis de Regresin es una metodologa estadstica para la modelizacin e investigacin de la relacin entre dos o ms variables. Permite hacer un resumen de los datos y cuantificar la naturaleza y fuerza de la relacin entre una variable dependiente o respuesta (Y), y una o ms variables independientes o predictoras (X). A modo de ejemplo, considrense los datos de la tabla siguiente: y es la pureza del oxgeno producido en un proceso de destilacin qumico; x es el porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilacin. Datos en el archivo Excel Regresin Simple

Para tener una idea acerca del comportamiento conjunto de estas dos variable, debemos graficar este conjunto de puntos en el plano coordenado (X,Y). Se genera un grfico denominado diagrama de dispersin o nube de puntos. El anlisis de este diagrama de dispersin indica que , si bien una curva no pasa exactamente por todos los puntos , existe una fuerte evidencia de que los puntos estn dispersos de manera aleatoria alrededor de un modelo matemtico y = f (x). Es decir, el porcentaje de pureza del oxgeno (y) es funcin o depende del nivel de hidrocarburo (X). El modelo matemtico ms simple, es la "funcin lineal" o simplemente, la lnea recta. Y = a + b X a : Es el intercepto o el valor de la ordenada en el origen , es decir el valor de Y cuando X = 0. b : Es la pendiente de la recta, y representa el cambio que experimenta la ordenada Y, por unidad de cambio en la abcisa X.

86

El modelo anterior es un modelo matemtico de carcter determinista, puesto que al sustituir un valor de X en la ecuacin, el valor de Y queda determinado y no se considera margen alguno para el error. Los modelos deterministas resultan apropiados para propsitos predictivos, slo cuando lo errores de prediccin son pequeos. Cuando los errores de prediccin son grandes, que es por ejemplo el caso de los pronsticos en la administracin de negocios, hay que tomarlos en cuenta y reflejarlos en el modelo, y adems, dar alguna idea de su magnitud. El modelo Estadstico o matemtico probabilstico, contiene una o ms componentes aleatorias, que se agregan a la parte determinista del modelo matemtico para tomar en cuenta el error aleatorio o inexplicado de la prediccin. Y=a+bX + El modelo anterior recibe el nombre de Modelo de Regresin Lineal Simple, ya que slo tiene una variable independiente o Regresor. En algunas ocasiones, los modelos de este tipo surgen de una relacin terica. En otras, no hay ningn conocimiento terico de la relacin existente entre "x" e "y", entonces la seleccin del modelo se basa en el anlisis del diagrama de dispersin. En estos casos, el modelo de regresin se considera como un modelo emprico. La variable aleatoria , supone las siguientes propiedades 1.- El valor esperado de , o su promedio, es igual a cero. = 0 2.- La varianza de la variable aleatoria es constante e igual a 2 3.- Cualquier par de errores aleatorios i j , correspondientes a dos observaciones yi yj , son independientes En otras palabras, se supone que el promedio o valor esperado de "y" est relacionado linealmente con "x" y que los valores observados de "y" se desviarn por encima y por debajo de esta lnea en una cantidad aleatoria . Adems, se ha considerado que la distribucin de los errores respecto a la lnea recta ser idntica, sin que importe el valor de "x", y que para cualquier par de errores hay independencia entre s. La grfica de los datos anteriores es:

87

Los coeficientes a, b del modelo Y = a + b X + , se determinan utilizando un programa denominado regresin lineal, que tienen incorporadas las calculadoras cientficas. Debemos establecer un criterio para tratar de minimizar las desviaciones de los puntos observados con la recta que se ajusta mejor, es decir, establecer un criterio para " el mejor ajuste" que parezca intuitivamente razonable, objetivo, y que segn ciertas condiciones, ofrezca la mejor prediccin de "y" para un valor dado de "x". Un criterio de "bondad" utilizado es el denominado principio de los mnimos cuadrados. Bsicamente consiste en escoger como la recta de mejor ajuste a la que : 1.- El promedio de los errores (desviaciones de los valores observados "Y" respecto de los pronosticados o estimados) sea igual a cero.

(Yi Yi )2
=
i =1

i=n

i =1

i=n

=0

2.- La suma de los errores elevados al cuadrado sea mnima SCE =


i =n i =1

(y
i =1

i=n

) 2 sea mnima y
2

SCE =

X )] +b [y (a
i i

sea mnima

que minimicen la SCE est basado en el y b El mtodo para encontrar los valores numricos de a clculo diferencial (derivadas parciales). Con ello obtenemos las denominadas ecuaciones normales.

Los valores de cada componente del sistema de ecuaciones, los podemos calcular con Excel

1843, 21 = a * 20 + b * 23,92 2214, 66 = a * 23,92 + b * 29, 2892


Resuelva el sistema y obtendr los valores que ajustarn la recta a los datos

88

Los valores que deben de obtener al resolver el sistema de ecuaciones anterior son: Coeficientes Intercepto a Pendiente b Estimacin del Parmetro 74,2833 14,9475

Por lo tanto la recta ajustada a los datos tiene como ecuacin:

Y = 74, 2833 + 14,9475* X

Interpretacin de los coeficientes obtenidos para la recta ajustada. Intercepto a 74,2833 Significa que cuando la cantidad de hidrocarburos en el condensador fuese igual cero, entones la pureza de oxigeno producido tendra un porcentaje de 74,28%

Pendiente b 14, 95: Significa que cuando la cantidad de hidrocarburos en el condensador aumenta en 1%, entonces entones la pureza de oxigeno producido aumenta en 14,95% Los diagramas de dispersin se pueden obtener utilizando la planilla Excel, de la siguiente manera: 1.- Marque las dos columnas de datos con las cuales va a construir el grfico de dispersin. Tenga cuidado de colocar como primera la columna lo que usted defina como variable dependiente. 2.- Luego aplique el siguiente procedimiento:

89

3.- Obtendr un grfico bsico, para comenzar a mejorarlo segn lo ya visto. Un resultado preliminar puede ser:

90

4.3.2.- ANLISIS DE CORRELACION A veces se desea obtener un indicador de la intensidad o la fuerza de la relacin lineal entre dos variables cuantitativas x e y, que no dependa de sus respectivas escalas de medicin. Se designar por medida de correlacin lineal entre x e y. 4.3.2.1.- Coeficiente de Correlacin Lineal de Pearson La medida de correlacin lineal utilizada comnmente en Estadstica se llama correlacin lineal de Pearson.
i=n i =1 i

coeficiente de

x y
La expresin de clculo matemtico es: rxy =

Co var ianza entre X , Y = (Des.Est. de X) * (Des.Est. de Y)

(X )(Y )

( x )( y )

2214, 6566 1,196*92,161 0,508274 20 = = 0,9356 = 93,56% = 0,1845* 2,9443 0,543223


-1 rxy +1 ; - 100% rxy +100 %

Debemos analizar el significado numrico del rxy 1.- Un valor positivo para rxy implica que la recta sube de izquierda a derecha en el diagrama de dispersin. Relacin Directa entre las variables.

2.- Un valor negativo para rxy implica que la recta baja de izquierda a derecha en el Diagrama de dispersin. Relacin Inversa entre las variables

91

3.- Un valor de rxy a cero implica de que no hay correlacin lineal entre x e y

4.- La correlacin entre las variables no es lineal

A partir de la expresin matemtica inicial para calcular el rXY podemos colocarlo como una funcin de rxy =

x b y

Para el ejemplo el porcentaje de pureza del oxigeno y el porcentaje de hidrocarburo en el reactor qumico rxy =

0,1845 *14,9475 = 0,9367 = 93, 67% = 0,945 = 94,5% 2,9443

Es decir, el coeficiente de correlacin se puede colocar como un cuociente entre el producto de la desviacin estndar de la variable X con el Regresor de la recta, dividido por la desviacin estndar de la variable Y.

92

4.3.2.2- Error Estndar de la Estimacin

el valor de Y para valores dados de X , a travs del modelo ajustado , una medida Si denotamos por y de la dispersin respecto de la Recta de Regresin de Y sobre X , viene proporcionada por la expresin :

y/x =

1 i=n )2 = ( yi y n i =1

1 * 21, 2498 = 1,0308 20

El error estndar de la estimacin tiene propiedades anlogas a las de la Desviacin Tpica o Estndar. Por ejemplo , si construimos rectas paralelas a la de Regresin de Y sobre X a distancias verticales respectivas 1 y/x ; 1,96 y/x ; 3 y/x de ella, si n (tamao de la muestra) es lo suficientemente grande , que estaran incluidos entre esas rectas aproximadamente el 68 %, muestrales. 95 % y 99 % de los puntos

Para pequeas o pocas muestras, ser til un error tpico de estimacin modificado, que es el que tambin es muy utilizado

y/x =

) (y y
i =1 i

i=n

n2

n * y/x = n2

20 *1, 0308 = 1, 0865 18

Para ms adelante, podremos cambiar el denominador (n 2), por uno ms general que es (n p), donde p indica el nmero de parmetros que se estimaron en el modelo. En el caso de la recta, p = 2. 4.3.2.3.- Coeficiente de Determinacin. La variacin total en la variable respuesta se define como :

( yi Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
i =1 i =1 i =1

i=n

i=n

i=n

El trmino

(y
i =1

i=n

) 2 se llama variacin no explicada (por el modelo). Pues se comportan de un Y i

modo catico, impredecible, aleatorio. El trmino

(Y Y )

se llama variacin explicada (por el modelo).

Significa entonces que la variacin total es igual a la suma entre la variacin explicada y la variacin no explicada. El Coeficiente de Determinacin, R2, es el cuociente entre la variacin explicada y la variacin total. R2 =
i =1 i =n i =1

(Y Y )
i

i=n

(y

0 R2 1

Y )2

93

Remplazando el numerador de la expresin anterior por

(y

)2 Y ) 2 ( yi Y

Se tiene que

R2 = 1

(y
i =1

i =n

)2 Y i Y )
2

(y

= 1

2 y/x 2y

donde

y/x

es la varianza de los errores

El valor de R2 multiplicado por 100% se interpreta como el porcentaje de la variabilidad en la respuesta que es explicada por la variable predictora X a travs del modelo de regresin. Tiene por lo tanto un carcter ms general que el coeficiente de correlacin lineal. La raz cuadrada de R2, es el Coeficiente de Correlacin rxy

rXY

R2

2 y/x 2y

y/x = y 1 r 2 xy

Para el ejemplo el porcentaje de pureza del oxigeno y el porcentaje de hidrocarburo en el reactor qumico R2 = 1

( y Y )
i =1 i i

i =n

(y Y )
i

= 1
2

21, 249817 = 0,8774 = 87, 74% 173,376900

Esto significa que un 84,67% de la variabilidad en la pureza del oxigeno es explicada por el porcentaje de hidrocarburo en el reactor OBSERVACIN: Abusos comunes de la regresin La Regresin se emplea mucho y, con frecuencia, de mala manera. Mencionaremos brevemente algunos abusos comunes de la regresin. Debe tenerse cuidado al seleccionar las variables con las que se construyen las ecuaciones de regresin, as como al determinar la forma del modelo. Es posible determinar relaciones estadsticas entre variables que no estn relacionadas desde un punto de vista prctico. Por ejemplo, puede intentarse relacionar la resistencia al esfuerzo de los puntos de soldadura con los valores da de un cierto tipo de moneda. Incluso puede parecer que una lnea recta proporciona un buen ajuste de los datos, pero la relacin es poco razonable. La observacin de una fuerte relacin entre variables no necesariamente implica la existencia de una relacin causal entre ellas. Slo los experimentos diseados son los nicos que ofrecen una va para determinar relaciones causales. Las relaciones de regresin son vlidas slo para los valores del regresor que estn dentro del rango de los datos originales. La relacin lineal supuesta de manera tentativa puede ser vlida dentro del rango original de X, pero tal vez no lo sea al momento de la extrapolacin ( Es decir , si se emplean valores de X que estn fuera del rango de los que fueron utilizados para la regresin). Esto es porque si se toman valores de X que estn fuera del rango de los colectados, menos certidumbre se tiene sobre la validez del modelo propuesto. Los modelos de regresin no son necesariamente vlidos para fines de extrapolacin.

94

4.4.- Modelos NO Lineales Reducibles a lineal Una relacin entre dos variables puede ser aproximadamente lineal cuando se estudia en un intervalo relativamente limitado, pero puede ser marcadamente curvilnea si se ampla el intervalo. Un ejemplo de ello lo tenemos al obtener valores experimentales de la presin P de una masa dada de gas, correspondiente a varios valores de volumen V. Es de suma utilidad, representar los datos originales en un Diagrama de Dispersin, para darnos cuenta de la existencia de alguna tendencia a alguna "curvatura". La seleccin de la forma de la ecuacin de regresin que mejor expresa una relacin curvilnea no siempre es problema simple. Existe un gran nmero de tipos de curvas que pueden expresarse por ecuaciones matemticas. Lo que debemos tener en cuenta para la eleccin del modelo que mejor interpreta a los datos , es elegir del conjunto de ecuaciones dadas, aquel modelo que en trminos absolutos tenga el mayor coeficiente de correlacin rxy , como tambin el mayor coeficiente de determinacin R2 . Este criterio de
seleccin est justificado por el hecho de que al aumentar el coeficiente de correlacin (en trminos absolutos), disminuye el error estndar de la estimacin del modelo.

Adems del criterio enunciado anteriormente para escoger la forma de la curva, es deseable tener alguna teora dada por especialistas que trabajen en el campo de la materia del tema por lo que se colectaron los datos. Adems, tambin es de mucha utilidad, revisar si se cumplen los supuestos enunciados anteriormente en lo errores para la validez de la estimacin. La relacin curvilnea entre las variables nos puede llevar a buscar: a) Modelos que no son lineales en los parmetros, pero que mediante una transformacin (logartmica por ejemplo), se los hace lineales. b) Modelos que son lineales en los parmetros, y entonces recurrimos a los polinomios de grado dos o ms, en la variable independiente. c).- Modelos intrnsecamente no lineales que son aquellos que no se pueden linealizar mediante una transformacin. Los correspondientes anlisis se denominan regresiones no lineales. Una vez transformados los datos, es aconsejable realizar un nuevo diagrama de dispersin y observar si ahora los datos presentan tendencia a alinearse en torno a una recta. Las Transformaciones tienen por objetivo proporcionar un procedimiento ms fcil de ajuste y/o procedimientos vlidos de estimacin y prueba. En el caso de curvas polinmicas, el diagrama de dispersin de los datos originales generalmente presenta cierto punto mximo, como tambin mnimo. Al ajustar curvas polinomiales, el investigador se interesa usualmente en un segmento dado del intervalo total representado por la ecuacin. Recordemos que: Polinomio Cuadrtico es Polinomio Cbico es Polinomio Curtico es

y = a0 + a1 x + a 2 x 2

y = a0 + a1 x + a 2 x 2 + a3 x 3
y = a 0 + a1 x + a 2 x 2 + a3 x 3 + a 4 x 4
95

A continuacin, a modo de ejemplo, se dar una lista de modelos no lineales en los parmetros que haciendo uso de una transformacin podemos linealizarlos.

Modelo no Lineal e y = ax b

Modelo linealizado y = ln a + b ln x

y = ab x y = ax b y= y= y=
1 a + bx 1 k + ab x

log y = (log a ) + (log b) x log y = (log a ) + b(log x)


1 = a + bx y 1 log( k ) = (log a) + (log b) x y y ln( k 2 ) = a + bx donde k1 k1 , k2 representan asntotas horizontales

k1 k 2 + e a +bx

y = ab x + g y = ax b + g
1 y = 0 + 1 x

log( y x) = (log a ) + (log b) x


log( y g ) = (log a) + b(log x)

y = 0 + 1 z donde z representa ( 1 / x )
1 ln y = + 1x

y=

( 0 +1x)

96

Actividad de Aplicacin Prctica Taller de Regresin y Correlacin: Los datos estn en el archivo Excel Regresin Simple 1.- La resistencia del papel utilizado en la fabricacin de cajas de cartulina (Y), est relacionada con la concentracin de madera dura en la pulpa original (X). Bajo condiciones controladas una planta piloto fabrica 16 muestras, cada una con un lote diferente de pulpa, y mide la resistencia a la tensin
Y: 101.4 117.1 106.2 146.9 146.8 133.9 123.0 125.1 145.2 134.3 144.5 143.7 146.9 X : 1.0 1.5 1.5 2.0 2.2 2.4 2.5 2.8 2.8 3.0 3.0 3.2 3.3

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables. Usted tiene los siguientes modelos para ajustar a sus datos: 1) Y = a + b*X a) b) c) d) e) f) 2)

Y=

1 (a + b / x)

Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime la resistencia del papel cuando la concentracin de madera dura tiene una concentracin de 2,3 con 1,5 error estndar

2.- La tabla siguiente entrega las edades y las presiones sanguneas (en sstole) de 12 mujeres.
Edad ( X) Pr. Sang. (Y) 56 42 72 147 125 160 36 118 63 149 47 128 55 150 49 145 38 115 42 140 68 152 60_____ 155

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables Usted tiene los siguientes modelos para ajustar a sus datos: 1) Y = a + b X 2) Y = a + b a) b) c) d) e) f)

1 X

Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime la presin sangunea de una mujer que tiene 50 aos de edad con 1,5 error estndar.

3.- El nmero de bacterias por unidad de volumen "Y" en un cultivo tras "X" horas se presenta en la siguiente tabla de datos: N de horas (X) 0,1 N de bacterias ( Y) 30 1 45 2 63 3 90 4 130 5 200 6____ 300

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables

97

Usted tiene los siguientes modelos para ajustar a sus datos 1) Y = exp(a + b*X) 2) Y = a + b*X a) b) c) d) e) f) Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime la cantidad de bacterias que podran haber a la hora 7, con 1 error estndar

4.- El tiempo necesario para detener un coche despus de percibir un peligro, es el tiempo de reaccin (el tiempo entre la percepcin del peligro y la `aplicacin de los frenos), ms el tiempo de frenada (lo que tarda en detenerse bajo la accin de los frenos) . La tabla siguiente muestra las distancias (Y) en pies, y las velocidades (X) de los coches en millas por hora Velocidad (X) Distancia Frenado 20 54 30 90 40 138 50 206 60 292 80 370

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables Usted tiene los siguientes modelos para ajustar a sus datos Y = a + b*ln(X) 2) Y = a*X^b a) b) c) d) e) f) Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime la cantidad la distancia de frenado para un coche que se desplaza a 70 millas por hora con 1,5 error estndar

5.- Las siguientes mediciones se efectuaron en 20 reas geogrficas. La variable "X" es la medicin combinada de contaminacin del aire y agua en la zona. La variable "Y" es la medicin del estado de salud de los residentes del rea. Entre mayor sea el valor de X, hay mayor contaminacin. Entre mayor sea el valor de Y, la salud de las personas es ms precaria. X Y 73 90 52 74 68 94 47 62 60 63 71 78 67 60 80 89 86 82 91 67 105 76 73 82 71 93 57 73 86 82 76 88 91 97 69 80 87 87 77 95

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables Usted tiene los siguientes modelos para ajustar a sus datos 1) Y = 1/(a + b*X) 2) a) b) c) d) e) f)

Y = a+b X

Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime el estado de salud de un residente cuando la contaminacin en la zona es de 70 con 1 error estndar

98

6.- Los siguientes valores representan 15 lecturas que indican el volumen de trfico y la concentracin de monxido de carbono(Y) tomado en un laboratorio para determinar la calidad del aire en una cierta ciudad. X: Volumen del trfico (Automviles por hora), Y: CO (ppm) X Y 100 8.8 110 9.0 125 9.5 150 10.0 175 10.5 190 10.5 200 10.5 225 10.6 250 11.0 275 12.1 300 12.1 325 12.5 350 13.0 375 13.2 400 14.5

Represente los datos en un Diagrama o grafico de dispersin y analice el tipo de dependencia entre las variables Usted tiene los siguientes modelos para ajustar a sus datos Y = exp(a + b*X) 2) Y = a + b a) b) c) d) e) f)

1 X

Calcule el coeficiente de correlacin lineal para ambos y elija cul de ellos ajustara a sus datos Interprete los coeficiente de correlacin de los modelos Determine la ecuacin del modelo ajustado. Determine el valor de R2 para el modelo ajustado Determine el error estndar de la estimacin para el modelo ajustado Estime la cantidad de concentracin de monxido de carbono, cuando el volumen de trfico en la ciudad es de 360 automviles por hora, con 1,5 error estndar

7.- Valores de Clorofila, Fsforo y Nitrgeno, tomados de varios lagos y diversos tiempos. Se sugiere Buscar Modelos de Regresin apropiados. Use los modelos antes sealados en los ejercicios anteriores. La variable Respuesta Y es la Clorofila. La variable predictora puede ser Fsforo (X1) o el Nitrgeno (X2). Haga un informe que contenga bsicamente las mismas preguntas de los ejercicios anteriores

99

Vous aimerez peut-être aussi