Vous êtes sur la page 1sur 50

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Universidad de Chile
Economa & Negocios ESTADISTICA DESCRIPTIVA
1.1. Qu es la estadstica? Como la mayora de los lectores se saltan el captulo de introduccin sobre todo si se trata de un libro tcnico, es tentador en este caso contestar a la pregunta del ttulo con Estadstica es lo que hacen los estadsticos1 y pasar inmediatamente al siguiente punto. Sin embargo, esto podra ser valido como una respuesta siempre y cuando, dicho punto aborde las funciones de un analista de procesos estocsticos, funcin que por lo general es muy difcil de explicar, por la gran variedad de aplicaciones que tiene la estadstica dentro de las diferentes funciones profesionales. Los cursos de estadstica obligatorios suelen tener mala fama. Desde hecho inscribirse en un curso de este tipo tiene tanta popularidad como las leyes que regulan la edad mnima para beber y la obligacin de llenar la encuesta docente. En parte, esta reputacin es merecida. Los conceptos que se manejan no son siempre fciles de asimilar en primera instancia, y se necesita un gran esfuerzo para mantener actualizado cualquiera de los temas de un curso. Otro factor que suele darle mala fama a la estadstica es que al ensearla se siga un proceso mecanizado, que por lo general resulta ser el mismo que ha recibido el educador, el cual plantea diversos ejemplos donde el alumno no enfrenta el problema, ste se encuentra planteado, por ende ya est resuelto, y lo nico que se debe hacer es utilizar mtodos matemticos para encontrar un determinado valor. Este procedimiento suele tomarle un menor esfuerzo al educador y mucho tiempo para que el alumno pueda comprender el uso de los conceptos estadsticos, lo cual resulta en una frustracin. Un grupo de personas que utiliza estos procedimientos encuentra que la estadstica es una herramienta que en la medida que avanza el tiempo se hace ms importante. En la actualidad se han perfeccionado varios de los instrumentos que son utilizados para encontrar valores, sin embargo, esto hace que el educador fuerce el uso de computadores y anlisis de problemas sobre la base de su planteamiento, lo cual toma mayor esfuerzo al educador y al alumno, sin embargo, este ltimo requiere menos tiempo en dominar los conceptos estadsticos, lo que podramos llamar el aprender con la experiencia. Lo que llama la atencin es la diversidad de problemas en los cuales se ven envueltos los estadsticos. Esta actividad invade prcticamente todo los aspectos de la empresa y la economa, por ello es importante que los conceptos tengan connotacin general, explicando claramente
En este caso la palabra estadstico esta siendo utilizada para referirse a una persona que hace anlisis estadsticos, o tambin analista de procesos estocsticos, condicin que puede ser atribuida a un sin fin de profesionales, pero el lector debe tener presente que estadstico tambin corresponde a un indicador o instrumento con propiedades de incertidumbre.
1

Autor: Pablo Tapia G.

Pgina 1

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

por qu queremos hacerlo, qu buscamos hacer y cmo lo vamos a hacer, lo cual requiere manejar ciertos fundamentos matemticos o procesos algebraicos, esto hace ms fcil al investigador o usuario de la estadstica responder al por qu, el qu y el cmo, por eso aunque muchos descartan las matemticas como elemento importante dentro de la estadstica, la experiencia nos ha mostrado que las mejores respuestas son las que se fundamentan sobre fuertes pilares y uno de los ms importantes es el buen uso de las matemticas, esto criticando principalmente el uso mecanizado. 1.1.2. Cmo sacar conclusiones de la informacin numrica. Cualquier administrador, trabajando en un entorno de negocios, requiere toda la informacin disponible sobre las caractersticas de dicho entorno. En la era moderna, gracias en parte, a la capacidad de almacenamiento masivo de informacin de los sistemas informticos, un gran porcentaje de la informacin disponible es cuantitativa. Por ejemplo, puede ser necesario asimilar los movimientos de los tipos de inters, oferta de dinero o desempleo. Se hacen estudios de mercado para determinar la demanda de productos. Un auditor debe ocuparse del nmero y la importancia de los errores contables. Un director de personal puede utilizar los resultados de un test de aptitud, para complementar la informacin subjetiva de los candidatos a un empleo. La lista es interminable. Las caractersticas comunes de estos ejemplos son que la informacin que se va a utilizar es numrica, y que presentada en forma de lista de datos, es virtualmente imposible de aprovechar en su totalidad. El trabajo de un estadstico es extraer y sintetizar las caractersticas fundamentales de una coleccin grande de datos numricos. Un objetivo es el de intentar que la informacin tenga sentido, resumindola de tal forma que pueda obtenerse una idea general a primera vista, sin perder demasiada informacin. En el anlisis y sntesis de datos numricos se ven envueltas muchas variables. El mtodo ms apropiado depender de la naturaleza de los datos y de cmo se van a utilizar los resultados. En algunas circunstancias, ser conveniente utilizar la artillera pesada de las tcnicas formales tal y como se detallar en la medida que profundicemos dentro de la materia. En otras ocasiones, un estudio sencillo o un grfico sern suficientes, este tipo de estudio, en cualquier caso, puede servir de punto de partida para anlisis ms profundos. 1.1.3. Cmo manejar la incertidumbre Una segunda forma de contestar a la pregunta formulada al comienzo de este captulo es La estadstica es la ciencia de la incertidumbre. En estadstica, no trabajamos con preguntas del tipo qu es, sino con preguntas como qu podra ser, o qu es probable que sea. Considerando las siguientes afirmaciones: El precio de la accin de IANSA dentro de seis meses ser ms alto que hoy Si el dficit en el presupuesto fiscal es tan alto como se previ, los tipo de inters permanecern altos el resto del ao

Autor: Pablo Tapia G.

Pgina 2

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Si hacemos una oferta de este nivel, ser ms baja que la de nuestros competidores y nos aseguraremos el contrato La mejor opcin para mejorar la situacin de este producto en el mercado de acciones es la de realizar una campaa de publicidad dirigida a jvenes entre 18 y 25 aos de edad Cada una de las afirmaciones anteriores contienen un lenguaje que da una sensacin de falsa seguridad. En el momento en que se realizaron, no haba forma de estar seguro de su veracidad. Aunque un analista pueda pensar que el desarrollo en los prximos meses va a ser tal que las acciones de IANSA subirn en ese perodo, no puede tener la certeza de que sea as. Luego, desde un punto de vista semntico, las frases anteriores deberan modificarse, por ejemplo como se indica a continuacin: El precio de la accin de IANSA dentro de seis meses ser posiblemente ms alto que hoy Si hacemos una oferta de este nivel, es probable que sea ms baja que la de nuestros competidores y nos aseguraremos el contrato No obstante, nuestra preocupacin por la incertidumbre no es solamente semntica. Todo lo que hemos hecho ahora, es sustituir afirmaciones precisas que no podamos garantizar, por otras innecesariamente vagas. Despus de todo, qu queremos decir con es probable? Las frases, una vez modificadas, pueden interpretarse como que es ms fcil que los sucesos de inters se cumplan frente a que no lo hagan. Sin embargo, el espaol es un lenguaje rico en palabras que denotan incertidumbre, y algunas de ellas sugieren una escala desde lo imposible hasta lo seguro. Aun as, el lenguaje no es suficiente para dar una descripcin satisfactoria del grado de incertidumbre asociado a un suceso. Necesariamente una estructura ms formal con este fin. 1.1.4. Muestreo Antes de introducir un nuevo producto en el mercado, un fabricante quiere tener cierta idea de la demanda que cabe esperar de dicho producto, para ello puede llevarse a cabo un estudio de mercado. Al fabricante lo que le interesa realmente es la poblacin de posibles compradores. No obstante, es prohibitivo, econmicamente hablando, cuando no completamente imposible, contactar en un estudio de mercado con cada miembro de la poblacin. Ms bien, se contactar con un pequeo subconjunto, o muestra, de los individuos de la poblacin, y las conclusiones que se obtengan sobre la poblacin se basarn en la informacin obtenida de la muestra. La tcnica de muestreo en grandes poblaciones se utiliza habitualmente en el campo de la administracin de empresas. Por ejemplo, se decide si un proceso de produccin est funcionando correctamente basndose en la calidad de una muestra de sus productos. Tambin una auditoria de contabilidad se basar en una muestra de todas las cuentas. Cuando tenemos informacin sobre una muestra de una poblacin, es relativamente fcil resumir los datos muestrales. No obstante, el muestreo es solamente un medio, no un fin en s mismo. El objetivo no es llegar a conclusiones sobre la muestra, sino sobre la poblacin a la que

Autor: Pablo Tapia G.

Pgina 3

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

pertenece dicha muestra. De esta forma, un problema importante que se le presenta a un estadstico es decidir hasta qu punto es posible generalizar los resultados obtenidos en una muestra a toda la poblacin. Por supuesto, si tomamos una muestra, no podemos conocer con precisin las caractersticas de la poblacin. Por ejemplo, supongamos que tomamos una muestra de asientos contables y resulta que el 8,2% de ellos contiene algn error. De este hecho no puede deducirse que exactamente el 8,2% de todos los asientos contables tenga errores. Sabremos algo ms de este porcentaje en la poblacin, pero no conocemos exactamente su valor. Todava quedar cierta incertidumbre. Por tanto, al hacer inferencia sobre la poblacin basndose en una muestra, cualquier conclusin que se obtenga tendr que ser expresada con lenguaje de incertidumbre, como se discuti en el punto anterior. 1.1.5. Cmo analizar relaciones. Influye el crecimiento de oferta de dinero en la inflacin? Si FORD incrementa un 5% el precio de sus modelos de tamao medio, cul ser el efecto en las ventas de estos automviles? Cmo deben considerarse las empresas cuyos dividendos representan un porcentaje alto de su flujo de caja, de alto o de bajo riesgo? Son los servicios ms rentables en reas en las que gozan de un monopolio local que en reas en las que estn sujetos a competencia? Afecta un legislacin de salario mnimo al nivel de desempleo? Cada una de estas preguntas tiene que ver con la posibilidad y naturaleza de una relacin entre dos o ms variables de inters. Por ejemplo, por dnde podramos empezar para contestar la pregunta sobre efectos en la demanda de automviles de un incremento del 5% en el precio? La teora econmica nos dice que, a igualdad del resto de factores, un incremento en el precio conllevar un descenso en la demanda. No obstante, esta teora es puramente cualitativa. No nos dice en cunto descender la demanda. Las teoras basadas en el conocimiento subjetivo son muy tiles para sugerir los factores que influyen en las cantidades de inters, como la demanda en este caso. Para ir ms all, debemos obtener informacin cuantitativa que informe de cmo la demanda ha respondido a cambios en el precio en el pasado. Basaramos, entonces, nuestra conclusiones, en la premisa de que lo que ocurri en el pasado se repetir, probablemente, despus de la subida de precios propuesta.

Autor: Pablo Tapia G.

Pgina 4

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

1.1.6. Prediccin El deseo de predecir el futuro es una caracterstica inherente al ser humano. No obstante, la necesidad de hacer predicciones fiables en los negocios va ms all de la curiosidad. Las decisiones de inversin deben tomarse mucho antes de que un nuevo producto salga al mercado, por tanto, es muy deseable tener predicciones sobre cmo ser la situacin del mercado en el futuro prximo. Para productos ya establecidos, hacer predicciones sobre las ventas a corto plazo es importante para establecer los niveles ptimos de acumulacin de stocks y produccin. Para tomar una decisin sobre aumentar o no el nivel de pasivo de una empresa, es importante predecir los tipos de inters en el futuro. Para formular una poltica econmica razonable, los gobiernos necesitan predicciones sobre cul sera el producto interno bruto (PIB), el desempleo y la inflacin bajo varias polticas diferentes. Bsicamente, las predicciones de valores futuros suelen obtenerse a partir del descubrimiento de regularidades en el comportamiento en el pasado. Por esta razn, es necesario disponer de datos sobre el comportamiento, tanto de la variable a predecir, como de otras variables relacionadas. El anlisis de est informacin puede sugerir tendencias en el futuro. Sin embargo, las principales metodologas utilizadas para predecir, son ms complejas que las que sern discutidas en esta parte del curso. 1.1.7. Toma de decisiones en un entorno de incertidumbre. En cualquier tipo de negocio, deben tomarse constantemente decisiones en un entorno en el que la persona que debe decidir no conoce con seguridad el comportamiento futuro de los factores que podran afectar al resultado que se obtendra bajo varias opciones posibles a considerar. Cuando un fabricante presenta una oferta para un contrato, no est completamente seguro de los costos futuros que le ocasionar hacer frente a su oferta. Es ms, tampoco conocer las ofertas de sus competidores. A pesar de esta incertidumbre, la decisin debe tomarse. Cuando un inversor decide cmo equilibrar su cartera de acciones, bonos y otros instrumentos financieros, no conoce los movimientos futuros del mercado. Puede tener alguna idea sobre futuros desarrollos, pero no puede predecir con exactitud qu ocurrir. Estos ejemplos demuestran que, en los negocios, en el momento de decidir entre diferentes opciones, resultan de vital importancia las tcnicas para tratar la incertidumbre. En este captulo presentaremos una serie de tcnicas tiles a la hora de analizar informacin numrica. Su objetivo es ayudar a comprender los entornos con incertidumbre, de forma que puedan tomarse mejores decisiones. Hay que hacer hincapi, no obstante, en que estas tcnicas son nicamente herramientas tiles para el administrador. No pretenden ser sustitutos de la familiaridad con el entorno que se consigue con aos de trabajo y experiencia, sino ms bien ayudas para agudizar dicha familiaridad. Por tanto, a pesar de que un anlisis tcnico profundo de la informacin numrica ser, en ocasiones, de mucho valor, no se aprovechar al mximo si no se utiliza en combinacin con la experiencia que se obtiene de estudiar las caractersticas del

Autor: Pablo Tapia G.

Pgina 5

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

entorno en el que se trabaja. De hecho, los mtodos estadsticos resultan de mayor utilidad en la gestin cuando se combinan con la experiencia en el entorno de los negocios. 1.2. Subdivisiones de la estadstica. Los administradores aplican alguna tcnica estadstica a virtualmente todas las ramas de las empresas pblicas y privadas. Estas tcnicas son tan diversas que los estadsticos, por lo general, las dividen en dos grandes categoras: Estadstica Descriptiva y Estadstica Inferencial. Algunos ejemplos nos sern de ayuda para entender la diferencia entre las dos. Supngase que un profesor calcula la calificacin promedio de un grupo de STA100. Como la estadstica describe el desempeo del grupo pero no hace ninguna generalizacin acerca de los diferentes grupos, podemos decir que el profesor est utilizando estadstica descriptiva. Grficas, tablas y diagramas que muestren los datos de manera que sea ms fcil su entendimiento son ejemplos de estadstica descriptiva. Supngase ahora que el profesor de STA100 decide utilizar el promedio de calificacin obtenido por uno de sus grupos para estimar la calificacin promedio de las cinco unidades del mismo curso de estadstica. El proceso de estimacin promedio sera un problema concerniente a la estadstica inferencial. Los estadsticos se refieren tambin a esta rama como inferencia estadstica. Obviamente, cualquier conclusin a la que llegue el profesor sobre las diez unidades del curso estar basada en una generalizacin que va ms all de los datos del grupo original de STA, y sta puede no ser completamente vlida, de modo que el profesor debe establecer qu posibilidad hay de que sea cierta. De manera similar, la inferencia estadstica implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez. 1.2.1. Estadstica descriptiva v/s inferencia estadstica. Como ya se ha visto, la Estadstica es una Ciencia con la que se pretende buscar las regularidades existentes en el comportamiento de los datos. Sabemos que la Estadstica se puede clasificar en dos grandes bloques: Estadstica Descriptiva e Inferencia Estadstica. Con el primero lo que se hace es dar un conjunto de mtodos y herramientas que permiten estudiar esas regularidades cuando lo que observamos es toda la poblacin. Es decir admitimos que es posible realizar esa operacin de recuento exhaustivo. En tal caso lo que realizamos con la estadstica es estudiar, describir, el comportamiento de una variable determinada. Esa observacin exhaustiva nos permite realizar afirmaciones categricas sobre las distintas caractersticas de la variable, tales como cul es su media, su dispersin, la forma de la distribucin, etc. Pero esa posibilidad de observacin exhaustiva no siempre es posible. En la gran mayora de los casos nos vemos limitados a realizar una observacin parcial de la variable. Con ese conjunto limitado de datos intentaremos conocer las caractersticas de toda la poblacin, es decir, intentaremos inferir su comportamiento. As una empresa antes de lanzar un nuevo producto estar interesada en conocer cul puede ser su cuota de mercado, para lo cual realizar un sondeo de opinin entre algunos de sus potenciales clientes. Pero el resultado de ese sondeo, basado en una muestra (observacin parcial), no le permite concluir cul ser su verdadera

Autor: Pablo Tapia G.

Pgina 6

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

cuota de mercado. La decisin que tome respecto a ese producto estar marcada por un cierto grado de incertidumbre. Pero qu duda cabe que, en esas situaciones, nuestras afirmaciones ya no pueden ser categricas y las decisiones que se tomen puede que no sean las ms acertadas como consecuencia de la informacin no contenida en la muestra. En base a esto debemos admitir que nuestras conclusiones estn sujetas a un margen de incertidumbre que es la consecuencia de nuestra observacin parcial de la realidad. Ante tales circunstancias nuestro objetivo ser doble: por un lado estudiar el comportamiento de la variable y de otro reducir en la medida de lo posible ese margen de incertidumbre o, al menos, intentar cuantificar esa falta de certeza en relacin a las caractersticas de las variables. Una forma de cuantificar esa incertidumbre es haciendo uso del concepto de probabilidad. De hecho la probabilidad es un concepto con el que convivimos de forma diaria, incluso sin percatarnos de l. Cada vez que hacemos uso de las expresiones quizs, tal vez, es probable, puede que, etc. Estamos implcitamente hablando en trminos probabilsticos. La incertidumbre es una acompaante inseparable de todas las ciencias sociales e incluso de las fsicas como seal Heisenberg con el enunciado del principio de incertidumbre de la mecnica cuntica. 1.2.2. Conceptos previos. Pero antes de dar la definicin de probabilidad es aconsejable introducir una serie de conceptos previos que nos sern de gran utilidad. Empezaremos con el de fenmeno aleatorio. Como sabemos un fenmeno es algo observable y que en la mayora de los casos es, adems, cuantificable. Podemos decir que la estadstica tiene por objeto el estudio y comportamiento de fenmenos. Estos fenmenos son a su vez el resultado de una experimentacin, por lo que podemos hablar indistintamente de fenmenos y experimentos aleatorios. De forma especfica se dice que un experimento aleatorio es aqul que puede concretarse en al menos dos resultados posibles, con incertidumbre en cuanto a cul de ellos tendr lugar. Los experimentos se pueden clasificar en deterministas y aleatorios. Los primeros son aquellos que repetidos en idnticas condiciones nos llevan siempre al mismo resultado. Por el contrario, para el segundo tipo de experimentos nos encontramos que, incluso aunque las condiciones del experimento no cambien, el resultado del experimento es impredecible antes de realizarlo. (Antes de lanzar una moneda al aire no sabremos si saldr cara o cruz. Tambin son experimentos aleatorios la cotizacin de las acciones de una empresa, sus beneficios, sus ventas, su periodo de actividad, etc.). En general diremos que las caractersticas de un experimento aleatorio son las siguientes: 9 El experimento se puede repetir u observar de forma indefinida en circunstancias prcticamente muy similares. 9 Aunque no podemos predecir el resultado particular del experimento, s podemos conocer el conjunto de todos los posibles resultados. 9 Si el experimento se repite pocas veces, los resultados parecen mostrar un comportamiento catico, mientras que si se repite un nmero infinito de veces empieza a detectarse una regularidad en el comportamiento de los resultados.

Autor: Pablo Tapia G.

Pgina 7

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Hemos sealado antes que una de las caractersticas del experimento aleatorio es que, aunque los resultados individuales no son predecibles con anterioridad, si podemos saber cul es el conjunto de todos sus posibles resultados. Pues bien, a ese conjunto de posibles resultados le llamaremos espacio muestral y lo representaremos en adelante por la letra E 2. As pues, E ser un conjunto formado por los resultados del experimento. Estos resultados elementales de un experimento tienen la caracterstica de que no son descomponibles. A partir de ellos surge el concepto de suceso o evento. Un suceso o evento ser un conjunto de resultados elementales del experimento. Antes de continuar con el concepto de suceso o evento conviene sealar que un espacio muestral puede ser finito ( si est formado por un conjunto finitos de resultados) o infinito. Dentro los espacios infinitos se puede diferenciar entre los infinitos numerables e infinitos no numerables. Tanto a los espacios finitos como a los infinitos numerables se les suele conocer como espacios discretos, mientras a que los espacios infinitos no numerable se conoce tambin como continuos. Habindose definido previamente el concepto de suceso, a continuacin vamos a dar una tipologa de los mismos dentro de la cual se distingue: suceso elemental, suceso compuesto (consta de dos o ms sucesos elementales), suceso seguro o universal (coincide con el espacio muestral) y suceso imposible (no contiene ningn elemento del espacio muestral E y por tanto no ocurrir nunca y lo denotaremos por ). 1.3. Cmo dar sentido a los Datos. La estadstica, como campo de estudio, es el arte y la ciencia de dar sentido a los datos numricos. La dcada de los 80 fue testigo de la creciente toma de conciencia de que el pensamiento estadstico es una de las claves para la buena administracin. Cuando un grupo de gerentes tiene que decidir cmo elaborar un nuevo producto alimenticio, puede guiarse por sus propios gustos e intuicin u obtener datos tomados de una encuesta acerca de las preferencias de los consumidores. Cuando los cigeales para automviles que produce una fundidora se rechazan debido a problemas con la calidad, los directores de los departamentos de diseo, ingeniera, compras y produccin pueden discutir entre s tratando de culparse los unos a los otros, o pueden obtener datos para determinar qu es lo que ocasiona el problema. Cuando los gerentes de personal desean consultar a un asesor en inversiones, lo pueden elegir siguiendo la moda o tomando en consideracin los datos relativos a la trayectoria de los candidatos. Obtener y utilizar datos en forma inteligente resuelve muchos problemas. Prcticamente todo tomador de decisiones tiene la necesidad y la ocasin de tratar con datos. La necesidad puede ser obvia, como en el caso de los altos ejecutivos de empresas crediticias que deben analizar el comportamiento de cientos de clientes a los que se les han hecho prstamos, o del director de un hospital que tiene que contabilizar todos los das la disponibilidad de camas y quirfanos. En otros casos, la oportunidad puede ser menos obvia (y por consiguiente ms valiosa); por ejemplo, los gerentes del hotel quiz no se dan cuenta de que podran experimentar con el registro anticipado de huspedes para reducir las colas y los tiempos de espera de sus clientes en el mostrador de recepcin, o los propietarios de una cadena de tiendas de equipos de sonido podran pasar por alto que al combinar los datos
2

En muchas textos tambin son utilizadas las letras S , U o Q .

Autor: Pablo Tapia G.

Pgina 8

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

relativos a las ventas con los del inventario se pone de manifiesto que el afn por alcanzar su cuota trimestral de ventas est provocando problemas peridicos con el inventario, que se pueden evitar. El pensamiento estadstico es indispensable para todo gerente, tanto al tratar con las operaciones cotidianas como al buscar oportunidades para mejorar. 1.3.1. Recopilacin de Datos. Para ser tiles, los datos se deben recopilar y poner a nuestra disposicin. La simple decisin de medir y recopilar los datos relevantes es el comienzo indispensable para usarlos en la solucin de problemas. Si un fabricante de hornos de microondas registra los casos de reparaciones dentro de la garanta, pero no el defecto especfico que se tuvo que corregir, entonces los datos no son de ninguna utilidad para mejorar el proceso de fabricacin de los hornos. La primera decisin consiste entonces en determinar lo que se quiere medir. A menudo, las variables ms fciles de medir no son las ms relevantes para resolver un problema. Por ejemplo, a un fabricante de golosinas que tiene que programar su produccin de tabletas de chocolate le gustara saber cul es la demanda mensual que tiene la tableta. Sera relativamente fcil registrar cada mes las rdenes de compra de los mayoristas y las cadenas de tiendas minoristas que las venden, pero no es lo mismo que la demanda de los consumidores: puede suceder que algunos clientes quieran comprar la tableta pero no la encuentren en existencia cuando van a la tienda. Sera mejor obtener informacin no slo sobre las rdenes de compra sino sobre las existencias en los almacenes. Precisar un poco el problema ayuda a determinar los datos que se han de reunir y cules son las variables importantes, no las ms fciles de medir. La segunda decisin tiene que ver con la forma en que obtiene la informacin. Con frecuencia los datos se pueden recopilar en el trabajo diario; si se establece algn plan, la informacin acerca de la produccin, las garantas, las rdenes de compra o el flujo de efectivo se puede registrar y hacer accesible como parte de la operacin cotidiana. Otras veces, los datos se deben buscar deliberadamente. Un paso importante en la obtencin de datos es el muestreo. Un grupo dedicado a la investigacin del mercado que examina la reaccin de los consumidores ante un nuevo diseo de asientos para automviles no puede, en realidad, entrevistar a todos los compradores potenciales e, inevitablemente, los datos se obtienen de una muestra limitada de estos. Los auditores que tratan de verificar las cuentas por cobrar de una tarjeta de crdito no estn en condiciones de escribir a cada cliente; en vez de ello, examinarn una muestra de usuarios de la tarjeta. Es natural, aunque errneo, pensar en el muestreo estadstico slo en trminos de muestras de personas; podemos de igual manera tomar muestras de documentos, lugares o tiempos. El muestreo estadstico es un enfoque plausible siempre que existan datos potencialmente valiosos, pero resulta imposible o incosteable reunir toda la informacin. Otra forma de recopilar datos es la experimentacin. El grupo dedicado a la investigacin del mercado, en vez de proponer un nico modelo de los nuevos asientos para automviles a los compradores potenciales, podra presentar varios diseos que combinen distintas caractersticas e investigar cul de ellos fue el de mayor aceptacin. Un equipo de trabajo que intenta reducir los cuellos de botella en la fabricacin de tarjetas para computadora puede experimentar con distintas velocidades de operacin, niveles gerenciales y patrones de flujo, y

Autor: Pablo Tapia G.

Pgina 9

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

medir la velocidad de produccin y la calidad de las tarjetas. Los experimentos diseados son un factor clave en la tendencia actual para mejorar la calidad de los productos y de los procesos, y no se limitan al laboratorio: prcticamente se puede experimentar con todo producto o proceso que sea parte de una organizacin empresarial. 1.3.2. Fuentes de Datos. Existen cuatro fuentes para la recopilacin de datos, los cuales corresponden a: 9 Se pueden obtener datos ya publicitados por fuentes gubernamentales, industriales o individuales. 9 Se puede disear experimentos para obtener los datos necesarios. 9 Se puede realizar una encuesta 9 Se puede realizar un estudio observacional Los recopiladores de datos son fuentes primarias; los compiladores de datos se llaman fuentes secundarias. Como se ve describi en el prrafo anterior, el primer mtodo para obtener datos es consultar las fuentes gubernamentales, industriales o individuales. De estas tres fuentes, el gobierno es el principal recopilador de datos, ya sea para fines pblicos o privados. Muchas oficinas de gobierno facilitan este trabajo, por ejemplo el Banco Central, que en su pgina web publica los valores que han tenido una gran variedad de indicadores econmicos como el precio del dlar, Unidad de Fomento, inflacin, PIB, etc. Por otro lado el requerimiento constitucional para realizar un censo cada 10 aos el INE (instituto nacional de estadstica) monitorea una amplia variedad de encuestas sobre la poblacin, vivienda y manufactura. Tambin, lleva a cabo estudios especiales sobre ciertos temas: criminalidad, viajes y cuidado de la salud. A parte del gobierno, varias publicaciones comerciales presentan datos acerca de grupos industriales especficos. Algunos servicios de inversin como La Bolsa de Comercio de Santiago proporcionan datos financieros sobre compaas. Los peridicos ofrecen una amplia informacin numrica respecto a estadstica de precios, condiciones climatolgicas y deportes, dems de algn dato financiero nacional e internacional aunque en algunas ocasiones estos presentan errores y por ende de interpretacin. La segunda fuente para recopilar datos es la experimentacin. En un experimento se ejerce un control estricto sobre los tratamientos; por ejemplo, en un estudio para verificar la efectividad de un detergente para ropa, el investigador determinar qu marcas son ms efectivas para limpiar ropa manchada al lavar las prendas en lugar de preguntar a los consumidores cul marca es la mejor. En general, los diseos experimentales adecuados son temas de estudio a niveles ms avanzados, pues con frecuencia involucran procedimientos estadsticos elaborados. La tercera fuente de datos se obtiene al realizar una encuesta. En ella no se ejerce control sobre el comportamiento de las personas que se investigan. Slo se hacen preguntas sobre sus

Autor: Pablo Tapia G.

Pgina 10

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

creencias, actitudes, comportamiento y otras caractersticas. Las respuestas se editan, codifican y tabulan para su anlisis. El cuarto mtodo para recopilar datos consiste en realizar un estudio observacional. Un investigador observa el comportamiento de manera directa, casi siempre en el entorno natural. La mayor parte del conocimiento sobre la conducta de los animales se ha desarrollado de esta manera, al igual que los conocimientos cientficos en muchos campos, como en astronoma y geologa, donde la experimentacin y las encuestas son impracticables o imposibles. Los estudios observacionales se presentan en formas muy variadas en las empresas; todos estn diseados para recopilar informacin en un medio grupal y ayudar en el proceso de toma de decisiones. Como ejemplo, el grupo focal es una herramienta bastante conocida en la investigacin de mercado, se aplica para obtener respuestas no estructuradas a partir de preguntas abiertas: un moderador conduce la discusin y todos los participantes responden a las preguntas. Tambin se cuentan con otros formatos ms estructurados que involucran dinmicas de psicologa industrial y del comportamiento organizacional, como son la lluvia de ideas, la tcnica Delphi y el mtodo de grupo nominal. Estas herramientas se han popularizado en los ltimos aos debido al impacto de la filosofa de administracin de la calidad total (Total Quality Management) en las empresas la cual hace hincapi en la importancia del trabajo en equipo y el potencial de los empleados, en un intento por mejorar cada producto o servicio. Para disear un experimento, aplicar una encuesta o realizar un estudio por observacin, se deben comprender los distintos tipos de datos y niveles de medicin. 1.3.3. Mtodos de Muestreo. Como ya se mencion, una muestra es la porcin de la poblacin que se selecciona para el anlisis. En lugar de hacer el censo completo de una poblacin, los procedimientos de muestreo estadstico se centran en un pequeo grupo representativo de la poblacin ms grande. La muestra obtenida proporciona informacin que se puede usar para estimar caractersticas de toda la poblacin. El proceso de muestreo comienza con la localizacin de las fuentes adecuadas de datos, como listados de poblacin, directorios, planos y otras fuentes llamadas marcos. Las muestras se extraen de estos marcos. Si el marco es inadecuado debido a que ciertos grupos de individuos o de objetos en la poblacin no se incluyen de manera apropiada, entonces las muestras sern inexactas y sesgadas. Utilizar diferentes marcos para generar datos pueden llevar a conclusiones opuestas. Existen tres razones principalmente para realizar una encuesta, las cuales se pueden resumir en: 9 stas requieren menos tiempo que un censo 9 Cuesta menos administrarlas 9 Resulta ms econmico.

Autor: Pablo Tapia G.

Pgina 11

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Es posible agrupar las muestras en no probabilsticas y aqullas que son probabilsticas. En una muestra no probabilstica los elementos o los individuos incluidos se eligen sin tomar en cuenta su probabilidad de ocurrencia, mientras que en una muestra probabilstica los sujetos son elegidos de acuerdo con las probabilidades de ocurrencia. Como las muestras no probabilsticas eligen a sus participantes sin conocer sus probabilidades de seleccin (y en algunos casos los participantes se auto-seleccionan), no se puede aplicar la teora que se desarroll para el muestreo probabilstico. Muchas compaas realizan encuestas y se entregan en forma de una respuesta electrnica. La respuesta a estas encuestas pueden proporcionar grandes cantidades de datos en poco tiempo, pero la muestra se compone de usuarios de Internet que son seleccionados en forma automtica. Para muchos estudios slo se dispone de una muestra no probabilstica como una muestra subjetiva. En estos casos, la opinin de un experto en la materia es crucial para poder usar los resultados obtenidos y realizar cambios en un proceso. Otros procedimientos comunes de muestreo no probabilstica son el muestreo por cuotas y, el por grupos naturales. Las muestras no probabilsticas tienen algunas ventajas como son conveniencia, rapidez y bajo costo. Por otro lado, dos desventajas importantes de precisin debido al sesgo en la seleccin y falta de capacidad para generalizar los resultados superan con mucho a las ventajas. En consecuencia, el uso de los mtodos de muestreo no probabilsticos se restringir a situaciones en las que slo se desea obtener aproximaciones de bajo costo para satisfacer la curiosidad acerca de un tema especfico o en estudios iniciales de pequea escala o estudio piloto que precedern a investigaciones ms rigurosas. El muestreo probabilstico deber usarse siempre que sea posible, porque es el nico mtodo que permite hacer inferencias estadsticas correctas a partir de una muestra. Los cuatro tipos de muestras probabilsticas que se utilizan con mayor frecuencia son: muestras aleatoria simple, sistemtica, estratificada y conglomerada. Estos mtodos de muestreo varan entre s por su costo, precisin y complejidad. Una muestra aleatoria simple es aqulla en la cual cada individuo o elemento de una poblacin tiene la misma oportunidad de ser elegido. Adems, cada muestra de un tamao fijo tiene la misma probabilidad de ser elegida que cualquier otra muestra del mismo tamao. El muestreo aleatorio simple es la tcnica de muestreo aleatorio ms elemental y constituye la base para las otras tcnicas. En el muestreo aleatorio simple se usa n o T para representar el tamao de la muestra y N para el tamao de la poblacin. Cada persona o elemento en el marco se enumera de 1 a N . La probabilidad de seleccionar a cualquier miembro en particular de la poblacin la primera vez es 1/ N . En una muestra sistemtica, se dividen N individuos o elementos del marco poblacional en k grupos, dividiendo el tamao de la poblacin N entre el tamao de la muestra deseado T . Es decir, k = N / T donde k se redondea al entero ms cercano. Para obtener una muestra sistemtica, el primer individuo o elemento se selecciona al azar entre los k individuos o

Autor: Pablo Tapia G.

Pgina 12

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

elementos del primer grupo del marco de poblacin y, para el resto de la muestra, se elige un individuo o elemento cada k en la lista completa de la poblacin. Cuando el marco poblacional consiste en listas de cheques numerados, notas de venta o facturas, listas de miembros de un club, el registro de estudiantes inscritos o tal vez un nmero predeterminado de artculos consecutivos que salen de una lnea de ensamble, es ms rpido y fcil obtener una muestra sistemtica que una muestra aleatoria simple. En estas situaciones la muestra sistemtica es un mecanismo para obtener los datos deseados. Aunque su aplicacin es ms sencilla, en general, los mtodos de muestreo aleatorio simple y muestreo sistemtico son menos eficientes que otros mtodos de muestreo probabilstico ms elaborados. Es decir, para cualquier muestra que se adquiere mediante muestreo aleatorio simple o sistemtico, los datos obtenidos pueden o no ser una buena representacin de las caractersticas fundamentales (parmetros) de la poblacin correspondiente, no es posible saber si una muestra en particular es, de hecho, representativa. Se presentan posibilidades todava mayores de un sesgo en la seleccin y una falta de representatividad de las caractersticas de la poblacin en el muestreo sistemtico. Si existiera un patrn en el listado del marco de poblacin, podran ocurrir errores de seleccin importante. Para evitar el problema potencial de la representacin desproporcionada de grupos especficos en una muestra, se pueden usar los mtodos de muestreo estratificado o de muestreo conglomerado. En una muestra estratificada, primero se dividen los N individuos o elementos de la poblacin en sub-poblaciones separadas o estratos, de acuerdo con alguna caracterstica comn. Se realiza un muestreo aleatorio simple en cada estrato y despus se combinan los resultados de las muestras aleatorias separadas. Estos mtodos de muestreo son ms eficientes que el muestreo aleatorio simple o sistemtico, porque garantizan la representacin de individuos o elementos de toda la poblacin, lo que asegura una mayor precisin en las estimaciones de los parmetros poblacionales fundamentales. Lo que proporciona la precisin, una vez combinados los estratos, es la homogeneidad de individuos o elementos dentro de cada estrato. En el caso de la muestra conglomerada, se dividen los N individuos o elementos de la poblacin en varios conglomerados, de manera que cada conglomerado sea representativo de la poblacin completa. Despus, se obtiene una muestra aleatoria de los conglomerados y se estudian todos los individuos o elementos dentro de cada conglomerado seleccionado. Los conglomerados pueden ser asignaciones naturales, como condados, distritos electorales, manzanas, edificios de departamento o familias. Los mtodos de muestreo conglomerado pueden ser ms eficientes (con relacin a sus costos) que los mtodos de muestreo aleatorio simple, sobre todo si la poblacin en cuestin se encuentra esparcida en una vasta regin geogrfica. Sin embargo, los mtodos de muestreo conglomerado tienden a ser menos eficientes que los mtodos de muestreo aleatorio simple o de muestreo estratificado, y necesitan una muestra total ms grande para obtener resultados tan precisos como los que se obtienen con los procedimientos ms eficientes.

Autor: Pablo Tapia G.

Pgina 13

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

1.4. Encuesta. Prcticamente todos los das se oye o se lee acerca de resultados de encuestas o escrutinios en peridicos, Internet, en la radio o televisin. Es evidente que los avances en la tecnologa de la comunicacin han provocado la proliferacin de las investigaciones por medio de encuestas, sin embargo, no todas son aceptables, significativas o importantes. Para evitar encuestas carentes de objetividad o credibilidad, debe evaluarse con sentido crtico todo lo que se lee y escucha, adems, debe examinarse el valor de la encuesta. En primer lugar, se evala el propsito de la encuesta, por qu y para quin se realiza. Un escrutinio de opinin o una encuesta realizada para satisfacer la curiosidad pertenece a la esfera de la diversin. Su resultado es un fin en s mismo, no un medio para lograr un fin. Debe existir escepticismo ante tales encuestas, porque el resultado no tiene una aplicacin posterior. En segundo lugar, para evaluar el valor de una encuesta se debe determinar si est basada en una muestra probabilstica o no probabilstica. Recuerde que el nico medio disponible para hacer inferencias estadsticas correctas a partir de una muestra es el uso de una muestra probabilstica. Las encuestas que emplean mtodos de muestreo no probabilstico estn sujetas a errores importantes, quizs no intencionales, que pueden generar resultados sin sentido. Sin embargo, an cuando en las encuestas se utilizan mtodos de muestreo probabilstico, estn sujetas a errores potenciales, tales como sesgo de seleccin, sesgo de no respuesta, error de muestreo y error de medicin. La clave para una seleccin apropiada en la muestra es un marco de poblacin adecuado o una lista actualizada de todos los sujetos que participarn en el muestreo. El error de cobertura o de sesgo de seleccin ocurre si se excluyen ciertos grupos de sujetos de la poblacin, de manera que no tienen oportunidad de ser seleccionados en la muestra. Si el listado es inadecuado, porque no se incluyeron algunos grupos o sujetos de la poblacin, cualquier muestra probabilstica aleatoria proporcionar una estimacin de las caractersticas del marco, no de la poblacin real. Un ejemplo sera levantar una encuesta y seleccionar slo a las personas que nos resultan conocidas como familiares, por ello existira error de representatividad en los resultados. No todas las personas estn dispuestas a contestar una encuesta. De hecho, la investigacin indica que los individuos de los grupos socio econmicos altos y bajos tienden a responder con menos frecuencia que los individuos de clase media. El sesgo de no respuesta surge del fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es un sesgo. Como en general, no se puede suponer que las personas que no responden son semejantes a aqullas que s responden, es en extremo importante dar seguimiento a las no respuestas despus de un periodo especfico. Debern hacerse varios intentos, ya sea por correo o telfono, para convencerlos y que cambien de opinin. Con base en estos resultados, las estimaciones obtenidas con las respuestas iniciales se combinan con las estimaciones obtenidas con el seguimiento, de manera que las inferencias hechas a partir de la encuesta sean vlidas.

Autor: Pablo Tapia G.

Pgina 14

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

El modo de respuesta afecta la tasa de respuesta. La entrevista personal y por telfono casi siempre produce una respuesta ms alta que la encuesta por correo, aunque la primera resulta ms costosa. Existen tres razones principales para extraer una muestra en lugar de realizar un censo completo: es ms rpido, menos costoso y ms eficiente. Sin embargo, en el marco poblacional, el azar determina quin estar (o quin no estar) incluido. El error de muestreo refleja la heterogeneidad, o las diferencias aleatorias, de una muestra a otra segn la probabilidad de que individuos o elementos especficos sean seleccionados en una muestra determinada. Cuando se observan los resultados de sondeos o encuestas en peridicos y revistas, a menudo se hacen afirmaciones respecto al margen de error o precisin; por ejemplo, se espera que los resultados de este escrutinio estn ms o menos cuatro puntos porcentuales del valor real. Este margen de error es el error de muestreo. Este error se puede reducir con tamaos de muestras ms grandes, aunque esto incrementar el costo de la encuesta. Cuando se quiere analizar una buena investigacin por medio de encuestas, se disea un cuestionario que permita reunir informacin importante. Los datos obtenidos deben ser vlidos; es decir, las respuestas correctas deben ser evaluadas y plantearse de manera que arrojen medidas significativas. Pero existe un dilema, es ms fcil decir que se obtienen mediciones significativas que el simple hecho de obtenerlas. Considere el siguiente proverbio: Un hombre con un reloj siempre sabe qu hora es; un hombre con dos relojes siempre trata de determinar cul tiene la hora exacta; un hombre con 10 relojes siempre recuerda la dificultad que implica medir el tiempo. Por desgracia, la realizacin de mediciones est gobernada por lo que es conveniente, no por lo que se necesita. Con bastante frecuencia, las mediciones que se obtienen son solamente una aproximacin de las mediciones que se desean en realidad. Se le ha dado mucha atencin al error de medicin que ocurre por fallas de redaccin en el enunciado de las preguntas. Una pregunta debe ser clara, no ambigua. Debe presentarse en forma objetiva y neutral; se deben evitar las preguntas guiadas. Existen tres fuentes de errores en la medicin: redaccin ambigua de las preguntas, efecto de halo y errores de la persona que contesta. Como ejemplo de ambigedad en la redaccin, en noviembre de 1993 el Departamento del Trabajo de Estados Unidos inform que la tasa de desempleo se haba subestimado durante ms de una dcada debido a fallas en la redaccin de las preguntas en la Encuesta de Poblacin Actual. En particular, esta falla provoc que se minimizara la presencia de las mujeres en la fuerza laboral. Como la tasa de desempleo est ligada a los programas de beneficio social, como los sistemas estatales de compensacin por desempleo, era imperativo que los investigadores del gobierno rectificaran la situacin con ajustes al contenido de las preguntas.

Autor: Pablo Tapia G.

Pgina 15

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

El efecto de halo se presenta cuando la persona que responde se siente obligada a complacer al entrevistador. Este tipo de error puede minimizar con la capacidad adecuada en la realizacin de entrevistas. El error que proviene de la persona que responde se produce cuando sta realiza un esfuerzo demasiado grande o demasiado pequeo. Existen dos formas para minimizar esta clase de error: (1) mediante una revisin cuidadosa de los datos y un nuevo llamado a aquellos individuos cuyas respuestas parecen raras y (2) al establecer un programa de llamadas aleatorias para verificar la contabilidad de las respuestas. 1.5. Aspectos ticos. Respecto a la proliferacin de investigaciones que se apoyan en encuestas, stas han presentado una prdida de tica. Lo que preocupa es que las personas toman decisiones con base a lo que se publica. Puede que se trate de un crimen invisible, pero s existen vctimas. No todas las investigaciones son buenas, significativas o importantes, y no todas son ticas. Se debe intentar distinguir entre un diseo de encuesta deficiente y un diseo carente de tica. Las consideraciones ticas surgen con relacin a cuatro tipos de errores potenciales que pueden ocurrir cuando se disean encuestas que utilizan muestras probabilsticas aleatorias: sesgo de seleccin, error de no respuesta que tambin es un tipo de sesgo, error de muestreo y error de medicin. El sesgo de seleccin se convierte en un problema tico slo si se excluyen a propsito grupos especficos de individuos del marco poblacional, para obtener resultados sesgados, que indican una posicin ms favorable para el patrocinador de la encuesta. De igual manera, el sesgo de respuesta se convierte en un problema tico slo si es menos probable que grupos o individuos especficos respondan a un formato de encuesta dado y si el patrocinador disea a propsito la encuesta, con el fin de excluir a esos grupos o individuos. El error de muestreo se convierte en un problema tico slo cuando los resultados se presentan, a propsito, sin referencia al tamao de muestra o al margen de error, de modo que el patrocinador puede promover un punto de vista que de otra manera sera insignificante. El error de medicin se convierte en un problema tico en cualquiera de las tres formas: (1) un patrocinador puede elegir, en forma deliberada, preguntas orientadas que guan las respuestas hacia direcciones especficas; (2) un investigador, mediante actitudes y tono de voz, puede crear un efecto deliberado de halo o puede guiar las respuestas en cierta direccin; (3) alguien que responde, pero no est de acuerdo con la encuesta, puede proporcionar informacin falsa, a propsito. Al momento de recopilar los datos que sern procesados se es susceptible de cometer errores as como durante los cmputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitacin y que no son tan fcilmente identificables.

Autor: Pablo Tapia G.

Pgina 16

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Algunos de stos errores son. Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilacin y en el anlisis de la informacin. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinin que a aqullos que la contradicen. Un caso extremo de sesgo sera la situacin donde primero se toma una decisin y despus se utiliza el anlisis estadstico para justificar la decisin ya tomada. Datos no comparables: el establecer comparaciones es una de las partes ms importantes del anlisis estadstico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyeccin descuidada de tendencias: la proyeccin simplista de tendencias pasadas hacia el futuro es uno de los errores que ms ha desacreditado el uso del anlisis estadstico. Muestreo Incorrecto: en la mayora de los estudios sucede que el volumen de informacin disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la poblacin a que pertenece la muestra. Si la muestra se selecciona correctamente, tendr bsicamente las mismas propiedades que la poblacin de la cual fue extrada; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada.

Autor: Pablo Tapia G.

Pgina 17

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

2 CARACTERISTICAS DE UNA DISTRIBUCIN DE FRECUENCIAS 2.1. Introduccin La fase previa de cualquier estudio estadstico se basa en la recogida y ordenacin de datos; esto se realiza con la ayuda de los resmenes numricos y grficos vistos en los temas anteriores. 2.2. Tipos de Variables. En el trabajo estadstico se recogen variables. Estas variables se organizan de forma ordenada y se almacenan en ficheros. Posteriormente ser posible operar con estas variables y aplicar funciones a las mismas para realizar las transformaciones y los anlisis estadsticos que se desee. Las variables pueden contener datos numricos (variables cuantitativas) y datos categricos no cuantificables numricamente (variables cualitativas). El sexo, la profesin y el lugar de origen seran variables cualitativas. La estatura y la edad seran ejemplo de variables cuantitativas. Las variables cuantitativas pueden ser discretas y continuas. Una variable es discreta cuando toma una cantidad finita o numerable de valores aislados, es decir, entre cada dos valores consecutivos no se puede intercalar ningn otro valor de la variable. El nmero de aprobaciones, el nmero de inasistencias o tambin podra ser el nmero de caras obtenido al lanzar tres monedas al aire seran ejemplos de variables cuantitativas discretas. Una variable es continua cuando toma una infinidad no nmerable de valores, es decir, entre cada dos valores cualesquiera siempre existen infinitos valores de la varible. La fuerza fsica, la longitud y el peso seran ejemplos de variables cuantitativas continuas. Las variables cualitativas suelen clasificarse, segn la naturaleza de los datos categricos que representan, en variables nominales y variables ordinales. Las variables nominales describen las categoras directamente por su contenido, por ejemplo, las categoras de la variable cualitativa sexo son hombre y mujer. A veces suelen asignarse por comodidad cdigos numricos a las distintas categoras de una variable cualitativa nominal, por ejemplo, Hombre=0 y Mujer =1, en cuyo caso hay que resaltar que dichos cdigos siguen siendo variables cualitativas no tratables numricamente. Las variables ordinales describen las categoras por el orden que ocupan, por ejemplo, los valores (categoras) de la variable cualitativa satisfaccin en el trabajo pueden ordenarse en satisfaccin baja (valores entre 0 y 10 segn una determinada escala de puntuacin que vara entre 0 y 30), satisfaccin media (valores entre 10 y 20) y satisfaccin alta (valores entre 30 y 40).

Autor: Pablo Tapia G.

Pgina 18

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Las variables cuantitativas suelen clasificarse en variables ratio o no agrupada, que toman valores numricos puntuales, y variables por intervalos o agrupadas, en las cuales se agrupan los valores numricos en intervalos convenientes con vistas a facilitar el trabajo. 2.3. Medidas de posicin Son aquellas medidas que nos ayudan a saber dnde estn los datos, pero sin indicar cmo se distribuyen. 2.3.1. Medidas de posicin central i) Media aritmtica M ( X ) La media aritmtica o simplemente media muestral, que denotaremos por M ( X ) 3, es el nmero obtenido al dividir la suma de todos los valores de la variable entre el nmero total de observaciones ( N ) . Entonces, si contamos con un conjunto de N observaciones, que definiremos como {x1 , x 2 , x3 ,..., x N } o equivalentemente como {xi }iN =1 , la media muestral corresponder a.
M (X ) = 1 N i =1xi N

(2.1.a)

Sin embargo, existen algunos conjuntos de observaciones que tienen valores comunes, por lo que es posible separar el conjunto de N observaciones en un conjunto de k grupos que poseen el mismo valor, entonces, la media muestral se puede calcular como:
M (X ) = kj =1 j x j kj =1 j = kj =1 j x j N

(2.1.b)

Donde j se denomina frecuencia absoluta y representa el nmero de elementos con el mismo valor en el grupo j _simo, por lo tanto, la suma de todos estos j debe ser igual al nmero total de observaciones, es decir, kj =1 j = N . A modo de comprender lo indicado en el prrafo anterior, resolveremos el siguiente ejemplo. Ejemplo 1. Si tenemos la siguiente distribucin, se pide hallar la media aritmtica, de los siguientes datos expresados en kg. En base a la tabla que se encuentra ms abajo, sabemos que el nmero total de observaciones es 10 y el nmero total de grupos es 4, tal que N = 4j =1 j = 10 . Adems, la suma total de las observaciones corresponde a 4j =1 j x j = 601 .
3

En gran parte de la literatura se define la media muestral M ( X ) como X X N .

Autor: Pablo Tapia G.

Pgina 19

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

xi

i xi

54 59 63 64

2 3 4 1
4 j =1 j x j N

108 177 252 64

Por lo tanto, nuestro resultado corresponde a:


M (X ) = = 60,1 Kg

Si los datos estn agrupados en intervalos, la expresin de la media aritmtica, es la misma, pero utilizando alguna de las marcas de clase existentes. Ejemplo 2.
[ Li 1 , Li ] xi

i xi

[30,40] (40,50] (50,60] Donde

35 45 55

3 2 5

105 90 275

N = 3 j =1 j = 10 y

3 j =1 j x j = 470

Por lo tanto, nuestro resultado corresponde a:


M (X ) = 3 j =1 j x j N = 47

Propiedades: a. Cambio de origen. Si sometemos una variable estadstica X , a un cambio de origen de la forma Y = a X , la media muestral de la nueva variable Y ser representada por:
Y =a X

M (Y ) = M (a X ) = a M ( X )

(2.2.a)

b. Cambio de escala. Si sometemos una variable X , a un cambio de escala de la forma Y = bX , la media muestral de la nueva variable Y ser representada por:
Y = bX
M (Y ) = M (bX ) = bM ( X )

(2.2.b)

c. Desviaciones con respecto a la media. La suma de las desviaciones de los valores o datos de una variable X , respecto a su media aritmtica es cero.

Autor: Pablo Tapia G.

Pgina 20

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

iN =1 ( xi M ( X )) = 0

(2.3)

Si consideramos el hecho de que los valores tienen una frecuencia, entonces la ecuacin 2.3 se puede extender al siguiente caso.
kj =1 j ( x j M ( X )) = 0

La demostracin queda como ejercicio para el lector. d. Media condicional. Es muy frecuente que un grupo de observaciones sea divisible en grupos ms pequeos, por ejemplo, un grupo de personas para las cuales se registra su salario, y luego para efecto de estudios se vuelvan a separar entre hombres y mujeres. Por lo tanto, la media resultante es condicional al subgrupo indicado, que en el ejemplo corresponde al sexo. De esta manera la media condicional se define como:
M (X | Yj ) = i =j1 xi|Y j nj
n

(2.4.a)

Donde la variable a medir es X y la variable Y es la que condiciona los subgrupos, por lo tanto, el trmino Y j se refiere al grupo condicional j _simo, as que xi|Y j corresponde a los valores de la variable X que se encuentran en el conjunto j _simo. c. Media total versus condicional. En general siempre es posible obtener la media muestral total en forma directa, o a travs de los grupos, de forma que la media muestral total es igual a la media ponderada de cada grupo.
M ( X ) = M Y ( M ( X | Y )) =

kj =1 j M ( X | Y j )
N

(2.4.b)

d. Media muestral cuadrtica. En general la media de los valores observados al cuadrado ser diferente de la media muestral al cuadrado, a menos que todos los valores observados sean iguales o sean la misma constante, es decir,
M (X 2) M 2(X )

Ya que,
1 N 2 iN =1 xi

1 N

iN =1 xi

Autor: Pablo Tapia G.

Pgina 21

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Queda propuesto para el lector demostrar que M ( X 2 ) M 2 ( X ) . Ventajas e inconvenientes: 9 La media aritmtica viene expresada en las mismas unidades que la variable. 9 En su clculo intervienen todos los valores de la distribucin. 9 Es el centro de gravedad de toda la distribucin, representando a todos los valores observados. 9 Es nica. 9 Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeos de la distribucin. NOTA: Media aritmtica ponderada Es una media aritmtica que se emplea en distribuciones de tipo unitario, en las que se introducen coeficientes de ponderacin, denominados f i , que son valores positivos, que representan el nmero de veces que un valor de la variable es ms importante que otro.
M (X ) = kj =1 f j x j kj =1 f j = kj =1 f j x j 1 = kj =1 f j x j

(2.5)

ii) Media geomtrica M g ( X ) . Sea una distribucin de frecuencias ( x i , i ) . La media geomtrica que denotaremos por M g ( X ) . se define como la raz N -sima del producto de los k valores de la distribucin.
M g (X ) =
N

1 k N 2 i x1 x kj =1 x i 2 L xt =

(2.6)

j Donde N = N j =1

Si los datos estn agrupados en intervalos, la expresin de la media geomtrica, es la misma, pero utilizando la marca de clase ( x i ) como el punto medio de cada intervalo. El empleo ms frecuente de la media geomtrica es el de promediar variables tales como porcentajes, tasas, nmeros ndices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas. Ventajas e inconvenientes: 9 9 9 9 En su clculo intervienen todos los valores de la distribucin. Los valores extremos tienen menor influencia que en la media aritmtica. Es nica. Su clculo es ms complicado que el de la media aritmtica.
Autor: Pablo Tapia G. Pgina 22

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Adems, cuando la variable toma al menos un x i = 0 entonces M g ( X ) se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las races de ndice par de nmeros negativos. iii) Media armnica M a ( X ) . La media armnica, que representaremos por M a ( X ) , se define como sigue:
Ma(X ) = N
1 iN =1 xi

N kj =1
j
xj

(2.7)

Obsrvese que la inversa de la media armnica es la media aritmtica de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeos. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc. Ventajas e inconvenientes: 9 En su clculo intervienen todos los valores de la distribucin. 9 Su clculo no tiene sentido cuando algn valor de la variable toma valor cero. 9 Es nica. NOTA: Relacin entre las medias M a ( X ) M g ( X ) M ( X ) Sin embargo, el lector debe tener presente que un forma muy reveladora de utilizar la media es en forma condicional, esto quiere decir que se obtener medias por grupo o entre grupos. iv) Mediana ( x Me Me) . Dada una distribucin de frecuencias con los valores ordenados de menor a mayor, llamamos mediana y la representamos por Me , al valor de la variable, que deja a su izquierda el mismo nmero de frecuencias que a su derecha. Calculo de la mediana variara segn el tipo de dato: a) Variables discretas no agrupadas: 1 Se calcula la mitad de las observaciones acumuladas que se denominaran como Ti .
1 2

y se construye la columna de frecuencias

2 Se observa cual es el primer Ti que supera o iguala a 1 T , distinguindose dos casos: 2


T < Ti , entonces se toma como Me = x i Si existe un valor de x i tal que Ti 1 < 1 2

Autor: Pablo Tapia G.

Pgina 23

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Si existe un valor i tal que Ti = 1 T , entonces Me = 1 ( x i + x i +1 ) 2 2


i

Ejemplo 3. Sea la distribucin


xi

Ti

1 2 5 7 10 13 Entonces, T = 35
1 2

3 4 9 10 7 2

3 7 16 26 33 35

T = 17,5

Por lo tanto, para calcular la media se debe realizar lo siguiente


Ti 1 < 1 T < Ti 2 16 < 17,5 < 26
Me = 7

En el caso en que coincida en posicin la frecuencia acumulada tal como podemos ver en la siguiente distribucin:
xi

Ti

1 2 5 7 10 Por lo tanto, en este caso se tiene que:


T = 32
1 T 2

3 4 9 10 6

3 7 16 26 32

= 16 = Ti

Me = 1 ( x i + x i +1 ) = 1 (5 + 7) = 6 2 2

Notar que en este caso se podra haber producido que hubiera una frecuencia absoluta acumulada superior a 16. En este caso se calculara como en el ejemplo anterior. b) Variables agrupadas por intervalos En este caso hay que detectar en qu intervalo est el valor mediano. Dicho intervalo se denomina intervalo medio. Cada intervalo I i vendr expresado segn la notacin I i = ( Li 1 , Li ] ; observando la columna de las frecuencias acumuladas, buscaremos el primer intervalo cuya Ti sea mayor o igual que 1 T, 2 que ser el intervalo modal; una vez identificado dicho intervalo, procederemos al clculo del valor mediano, debiendo diferenciar dos casos:

Autor: Pablo Tapia G.

Pgina 24

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

1 Si existe I i tal que Ti 1 < 1 T < Ti , entonces el intervalo medio es el ( Li 1 , Li ] y la 2 mediana es:
Me = Li 1 +

(1 T Ti 1 )(Li Li 1 ) i1 2

(2.8)

2 Anlogamente si existe un I i tal que Ti = 1 T , la mediana es Me = Li 2 Ejemplo 4.


[ Li 1 , Li ]

Ti

[20,25] (25,30] (30,35] (35,40] (40,45] Entonces T = 671


1 2

100 150 200 180 41

100 250 450 630 671

T = 335,5

Por lo tanto, Me estar en el intervalo (30,35] el cual corresponder a:


Me = 30 + (335,5 250) (35 30) 200 1 = 32,138

Ventajas e inconvenientes: 9 Es la medida ms representativa en el caso de variables que slo admitan la escala ordinal. 9 Es fcil de calcular. 9 En la mediana solo influyen los valores centrales y es insensible a los valores extremos u outliers . 9 En su determinacin no intervienen todos los valores de la variable. v. Moda ( Mo) La moda es el valor de la variable que ms veces se repite, y en consecuencia, en una distribucin de frecuencias, es el valor de la variable que viene afectada por la mxima frecuencia de la distribucin. En distribuciones no agrupadas en intervalos se observa la columna de las frecuencias absolutas, y el valor de la distribucin al que corresponde la mayor frecuencia ser la moda. A veces aparecen distribuciones de variables con ms de una moda (bimodales, trimodales, etc), e incluso una distribucin de frecuencias que presente una moda absoluta y una relativa. En el caso de estar la variable agrupada en intervalos de distinta amplitud, se define el intervalo modal, y se denota por ( Li 1 , Li ] , como aqul que posee mayor densidad de frecuencia ( i ) ; la densidad de frecuencia se define como:

Autor: Pablo Tapia G.

Pgina 25

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

i =

i
Li Li 1

(2.9)

Una vez identificado el intervalo modal procederemos al clculo de la moda, a travs de la frmula:
Mo = Li 1 + i +1 ( i 1 + i +1 ) 1 ( Li Li 1 )

(2.10)

En el caso de tener todos los intervalos la misma amplitud, el intervalo modal ser el que posea una mayor frecuencia absoluta ( i ) y una vez identificado ste, empleamos la frmula:
Mo = Li 1 + i +1 ( i 1 + i +1 ) 1 ( Li Li 1 )

(2.11)

Ventajas e inconvenientes: 9 Su clculo es sencillo. 9 Es de fcil interpretacin. 9 Es la nica medida de posicin central que puede obtenerse en las variables de tipo cualitativo. 9 En su determinacin no intervienen todos lo valores de la distribucin. 2.3.2. Medidas de posicin no central ( Cuartiles ) Los cuartiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero de frecuencias. Los cuartiles ms conocidos son: i) Cuartiles (Qi ) Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. Notar que el segundo cuartel corresponde exactamente a la mediana. ii) Deciles ( Di ) Son los valores de la variable que dividen a la distribucin en las partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habr nueve deciles. Notar que el quinto decil es igual a la mediana.

Autor: Pablo Tapia G.

Pgina 26

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

iii) Centiles o Percentiles ( Pi ) Son los valores que dividen a la distribucin en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habr noventa y nueve percentiles. Notar que el quincuagsimo percentil es igual a la mediana. Clculo de los cuartiles en distribuciones no agrupadas en intervalos Se calculan a travs de la siguiente expresin rTq 1 Donde r = es el orden del cuartil correspondiente q = nmero de intervalos con iguales frecuencias u observaciones. T = nmero total de observaciones La anterior expresin nos indica que el valor de la variable estudiada es el cuartil que nos piden, que se corresponder con el primer valor cuya frecuencia acumulada sea mayor o igual a rTq 1 . Ejemplo 5: Distribucin no agrupadas. En la siguiente distribucin
xi

Ti

5 10 15 20 25

3 7 5 3 2

3 10 15 18 20

Calcular la mediana; el primer y tercer cuartil; el cuarto decil y el nonagsimo percentil. Solucin. Mediana ( Me) Lugar que ocupa la mediana 1 T = 10 2 Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos el siguiente clculo:
Me = 1 ( x i + x i +1 ) = 1 (10 + 15) = 12,5 2 2

Primer cuartil (C1 ) Lugar que ocupa en la distribucin rTq 1 = 1 20 4 1 = 5 . Como Ti 1 < rTq 1 < Ti , es decir 3 < 5 < 10 esto implicara que C1 = x i = 10 . Tercer cuartil (C 3 ) Lugar que ocupa en la distribucin rTq 1 = 3 20 4 1 = 15 , que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el clculo: 1 C3 = 1 ( x + x ) = ( 15 + 20 ) = 17 , 5 . i i +1 2 2 Cuarto decil ( D 4 ) Lugar que ocupa en la distribucin rTq 1 = 4 20 10 1 = 8 (4/10). 20 = 80/10 = 8. Como Ti 1 < rTq 1 < Ti ya que 3 < 8 < 10 , por lo tanto D 4 = 10 .

Autor: Pablo Tapia G.

Pgina 27

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Nonagsimo percentil (P90) Lugar que ocupa en la distribucin rTq 1 = 90 20 100 1 = 18 (90/100) que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el clculo: P90 = 1 ( x i + x i +1 ) = 1 (20 + 25) = 22,5 . 2 2 Clculo de los cuartiles en distribuciones agrupadas en intervalos Este clculo se resuelve de manera idntica al de la mediana. El intervalo donde se encuentra el cuartil i _simo, es el primero que una vez ordenados los datos de menor a mayor, tenga como frecuencia acumulada (Ti ) un valor superior o igual a rTq 1 ; una vez identificado el intervalo I i = ( Li 1 , Li ] , calcularemos el cuartil correspondiente, a travs de la frmula: C r q = Li 1 + (rTq 1 Ti 1 ) i1 ( Li Li 1 ) r = 1,2,...., q 1 (2.12) Ejemplo: Distribuciones agrupadas. Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente distribucin:
[ Li 1 , Li ]

Ti

[0,100] (100,200] (200,300] (300,800]

90 140 150 120

90 230 380 500

Primer cuartil (Q1 ) Lugar ocupa el intervalo del primer cuartil: rTq 1 = 1 500 4 1 = 125 . Por lo tanto Q1 estar situado en el intervalo (100 200].Aplicando la expresin directamente, tendremos:
C1 4 = Q1 = Li 1 + rTq 1 Ti 1 i1 ( Li Li 1 ) = 100 + (125 90) 140 1 100 = 125

Cuarto decil ( D 4 ) Lugar que ocupa: rTq 1 = 4 500 10 1 = 200 . Por lo tanto, D 4 estar situado en el intervalo (100 200]. Aplicando la expresin tendremos:
C 4 10 = D 4 = Li 1 + rTq 1 Ti 1 i1 ( Li Li 1 ) = 100 + (200 90) 140 1 100 = 178,57

Nonagsimo percentil ( P90 ) Lugar que ocupa: rTq 1 = 90 500 100 1 = 450 , por lo tanto P90 estar situado en el intervalo (300 800]. Aplicando la expresin tendremos:
C 90 100 = P90 = Li 1 + rTq 1 Ti 1 i1 ( Li Li 1 ) = 300 + (450 380) 120 1 500 = 591,67

Autor: Pablo Tapia G.

Pgina 28

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

2.4. Momentos potenciales Los momentos son medidas obtenidas a partir de todos los datos de una variable estadstica y sus frecuencias absolutas. Estas medidas caracterizan a las distribuciones de frecuencias de tal forma que si los momentos coinciden en dos distribuciones, diremos que son iguales. 2.4.1. Momentos respecto al origen Se define el momento de orden p respecto al origen de una variable estadstica a la expresin:
xp =
p iN = xi = M (X p ) N

(2.13.a)

Particularidades: 9 Si p = 1 , 1 x es igual a la media aritmtica M ( X ) . 0 9 Si p = 0 , x es igual a uno. 2.4.2. Momentos centrales o momentos con respecto a la media aritmtica Esta medida central se hace entorno a la media aritmtica del conjunto de observaciones, con respecto a la variable X .
p mx = p iN =1 ( xi M ( X )) N

(2.13.b)

Particularidades: 9 Si p = 1 , entonces m1 x = 0 (demostracin queda propuesta al lector) 2 9 Si p = 2 , entonces mx = S ( X ) , por lo que el segundo momento central corresponde a la varianza. 2.4.3. Momento producto central Antes de definir el momento producto central, definiremos el momento producto, el cual a nivel muestral corresponde a:
xp, y =
p iN =1 ( xi yi ) = M ( X pY p ) N

(2.14.a)

Tenido presente que deben existir el mismo nmero de observaciones de la variable X como de la variable Y . En base a esta consideracin tenemos que el momento producto central es igual a lo anterior pero entorno las medias respectivas, es decir,

Autor: Pablo Tapia G.

Pgina 29

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

p mx ,y =

p p iN =1 ( xi M ( X )) ( yi M (Y )) N

(2.14.b)

9 Si p = 1 , entonces m1 x , y representa la covarianza muestral entre las variables X e Y , valor que indica la posibilidad de encontrar una relacin lineal entre ambas variables. Este covarianza muestral se denota habitualmente por:
1 1 1 m1 x , y = cov( X , Y ) = M ( XY ) M ( X ) M (Y ) = x , y x y

2.5. Medidas de dispersin Las medidas de dispersin tratan de medir el grado de dispersin que tiene una variable estadstica en torno a una medida de posicin o tendencia central, indicndonos lo representativa que es la medida de posicin. A mayor dispersin menor representatividad de la medida de posicin y viceversa. 2.5.1 Medidas de dispersin absoluta a) Rango ( Ra ) Se define como la diferencia entre el mximo y el mnimo valor de la variable:
Ra = max {x i } min {x i }
iI iI

(2.15)

Ejemplo: Sea X , las indemnizaciones recibidas por cuatro trabajadores de dos empresas A y B. A B 100 225 120 230 350 240 370 245

Entonces, los rangos para A y B , son: Ra( A) = 370 100 = 270 y Ra( B) = 245 225 = 20 , respectivamente. En este caso se puede determinar que las indemnizaciones de la empresa B son menos dispersas que en A . Otros recorridos: intervalo intercuartlico I Q = Q3 Q1 intervalo interdeclico I D = D9 D1 intervalo intercentlico I P = P99 P1 b) Desviacin absoluta media con respecto a la media (d e )

Autor: Pablo Tapia G.

Pgina 30

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Nos indica las desviaciones con respecto a la media con respecto a la media aritmtica en valor absoluto.
de = in=1 xi M ( X ) N

(2.16)

c) Varianza La varianza mide la mayor o menor dispersin de los valores de la variable respecto a la media aritmtica. Cuanto mayor sea la varianza mayor dispersin existir y, por tanto, menor representatividad tendr la media aritmtica. La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al cuadrado.
S(X ) =
2 kj =1 j ( x j M ( X )) 2 iN =1 ( xi M ( X )) = N N j =1 j

(2.17)

Sin embargo, si realizamos un poco ms de lgebra a la ecuacin 2.17 se obtiene otra forma de calcular la varianza, tal como se puede ver a continuacin.
S(X ) =
2 2 2 iN N x 2 2M ( X ) iN =1 ( xi 2 xi M ( X ) + M ( X )) =1 xi + NM ( X ) = i =1 i N N

(2.18) (2.19)

S(X ) =

2 iN N x =1 xi 2M ( X ) i =1 i + M 2 ( X ) N N

Reemplazando en la ecuacin 2.19 la ecuacin 2.1 se tiene la siguiente expresin.


S(X ) = M (X 2) M 2(X )

(2.20)

Propiedades: a. Positividad. Dado que la varianza es una medida de dispersin, entonces sta debe ser siempre mayor o igual que cero y menor que infinito, es decir, 0 S ( X ) . Tngase presente que la nica forma de que la varianza sea igual a cero, es cuando la variable a considerar es una constante. b. Cambios de Origen. Supongamos que la variable aleatoria X es sometida a un cambio de origen de la forma Y = a + X , por lo tanto, la dispersin para esta nueva variable ser:

Autor: Pablo Tapia G.

Pgina 31

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

S (Y ) = S (a + X ) = S ( X )

Con lo cual queda claro que el cambio de origen no afecta la dispersin, hecho que el lector deber demostrar. c. Cambio de escala. Si a una variable X la sometemos a un cambio de escala b , de la forma Y = bX , entonces, la varianza para esta nueva escala quedar expresada de la forma:
S (Y ) = S (bX ) = b 2 S ( X )

Claramente la escala s afecta el valor de la varianza, por lo tanto, se debe tener cuidado con este tipo de aplicaciones ya que pueden en ms de una ocasin inducir a error. d. Suma de varianzas muestrales. Si contamos con dos variables X e Y , entonces, la suma de la varianza muestral entre ambas variables corresponde a:
S ( X Y ) = S ( X ) + S (Y ) 2[ M ( X Y ) M ( X ) M (Y )] = S ( X ) + S (Y ) 2 cov( X , Y )

El lector deber tener presente que demostrar este tipo de ejercicio, ayuda mucho a la compresin de sus aplicaciones. e. Desviacin tpica o estndar. Se define como la raz cuadrada con signo positivo de la varianza
s( X ) = S ( X )

(2.21)

f. Varianza condicional. Ya que un grupo de observaciones se pueda dividir en grupos ms pequeos entonces, al igual que el caso de obtener medias muestrales condicionales, es posible obtener varianzas condicionales. Estas varianzas condicionales se definen como:
S(X | Yj ) =

i =j1[ xi M ( X | Y j )]2
nj

j = 1,2,..., k

(2.22)

Dentro de esta varianza condicional X representa la variable a medir, Y es la variable que condiciona los subgrupos, as que el trmino Y j representa la condicin para el subgrupo j _simo y n j corresponde a la cantidad de elementos dentro del grupo j _simo y k es el nmero total de grupos.

Autor: Pablo Tapia G.

Pgina 32

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

g. Intervarianza. La intervarianza corresponde a la variacin o dispersin que existe entre los grupos, es decir,
InterVar ( X ) = SY ( M ( X | Y)) =

kj =1 j [ M ( X | Y j ) M ( X )]2
N

(2.23.a)

Donde X es la variable a medir, Y es la variable de referencia para condicionar los grupos, j es el nmero total de elementos en el grupo j _simo y k es la cantidad total de subgrupos, contenidos en las N observaciones. h. Intravarianza. Este trmino representa la dispersin o varianza promedio al interior de los grupos, es decir,
IntraVar ( X ) = M Y ( S ( X | Y )) = ik=1 j S ( X | Y j ) N

(2.23.b)

Donde X es la variable a medir, Y es la variable de referencia para condicionar los grupos, j es el nmero total de elementos en el grupo j _simo y k es la cantidad total de subgrupos, contenidos en las N observaciones. Sin embargo, se puede demostrar (queda propuesto para el lector hacerlo) que la varianza muestral total no es ms que la suma de la inter e intra varianza muestrales, tal que:
S ( X ) = InterVar ( X ) + IntraVar ( X ) = SY ( M ( X | Y )) + M Y ( S ( X | Y ))

(2.24)

La ecuacin (2.24) nos puede resultar muy til para establecer de dnde proviene la mayor dispersin, ya que esta puede venir principalmente de la diferencia entre los grupos (en problema donde se agrupa por condicin socioeconmica se puede encontrar mayor intervarianza que intravarainza), y de las diferencias al interior de los grupos (en problemas de educacin segn sexo, podemos detectar mayor intravarianza que intervarianza). 2.5.2. Medidas de dispersin relativa Nos permiten comparar la dispersin de distintas distribuciones. a) Coeficiente de variacin de Pearson (CV x ) Indica la relacin existente entre la desviacin tpica de una muestra y su media.
CV ( X ) = s( X ) M (X )

(2.25)

Autor: Pablo Tapia G.

Pgina 33

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Al dividir la desviacin tpica por la media se convierte en un valor exento de unidad de medida. Si comparamos la dispersin en varios conjuntos de observaciones tendr menor dispersin aqulla que tenga menor coeficiente de variacin. El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la media aritmtica, cuando sta tome valores cercanos a cero, el coeficiente tender a infinito. Ejemplo 6. Calcula la varianza, desviacin tpica y la dispersin relativa de esta distribucin. Sea x el nmero de habitaciones que tienen los 8 pisos que forman un bloque de vecinos
xi

2 3 5 6
M (X ) =
1 N

2 2 1 3

kj =1 j x j = 4,125 habitaciones

S ( X ) = M ( X 2 ) M 2 ( X ) = 2,86 habitaciones al cuadrado s ( X ) = S ( X ) = 1,69 habitaciones CV ( X ) = s ( X ) / M ( X ) = 0,41

Queda propuesto al lector buscar una interpretacin para estos resultados, y los presente en un prrafo literario. 2.6. Medidas de forma Hasta ahora hemos estado analizando y estudiando la dispersin de una distribucin, pero parece evidente que necesitamos conocer ms sobre el comportamiento de una distribucin. En esta parte, analizaremos las medidas de forma, en el sentido de histograma o representacin de datos, es decir, qu informacin nos aportan segn la forma que tenga la disposicin de datos. Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos o bloques: medidas de asimetra y medidas de curtosis. 2.6.1. Medidas de asimetra o sesgo : Coeficiente de asimetra de Fisher. Cuando al trazar una vertical (en el diagrama de barras o histograma de una variable, segn sea sta discreta o continua) por el valor de la media, esta vertical se transforma en eje de simetra, decimos que la distribucin es simtrica. En caso contrario, dicha distribucin ser asimtrica o diremos que presenta asimetra. El coeficiente de asimetra ms preciso es el de Fisher, que se define por:

Autor: Pablo Tapia G.

Pgina 34

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

1 =

1 N

3 iN =1 ( xi M ( X ))

[ S ( X )]3 2

(2.26)

Segn sea el valor de 1 , diremos que la distribucin es asimtrica a derechas o positiva, a izquierdas o negativa, o simtrica, o sea: 9 Si 1 > 0 , entonces la distribucin ser asimtrica positiva, es decir, existe mayor concentracin de valores a la derecha de la media. 9 Si 1 < 0 , entonces la distribucin ser asimtrica negativa, es decir, existe mayor concentracin de valores a la izquierda de la media. 9 Si 1 = 0 , en este caso existe una gran posibilidad de que la distribucin sea simtrica; sin embargo, si la distribucin es simtrica entonces se puede afirmar con certeza que la asimetra de Fisher ser igual a cero. Entonces, se puede sealar las siguientes condiciones para la asimetra, tal que: 9 Si existe simetra, entonces 1 = 0 , y M ( X ) = Me ; si adems la distribucin es unimodal, tambin podemos afirmar que: M ( X ) = Me = Mo . 9 Si 1 > 0 , entonces M ( X ) < Me < Mo . 9 Si 1 < 0 , entonces M ( X ) > Me > Mo . 2.6.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribucin; para determinarlo, emplearemos el coeficiente de curtosis de Fisher ( 2 ) .
2 =
1 N 4 iN =1 ( xi M ( X ))

[ S ( X )]2

(2.27)

9 Si 2 > 3 la distribucin ser leptocrtica o apuntada 9 Si 2 = 3 la distribucin ser mesocrtica o normal 9 Si 2 < 3 la distribucin ser platicrtica o menos apuntada que lo normal. 2.7. Medidas de concentracin Las medidas de concentracin tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribucin de la variable. Para este fin, estn concebidos los estudios sobre concentracin. Denominamos concentracin a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.).

Autor: Pablo Tapia G.

Pgina 35

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos extremos: 1.- Concentracin mxima, cuando uno solo percibe el total y los dems nada, en este caso, nos encontraremos ante un reparto no equitativo:
x1 = x 2 = L = xT 1

y xT

2.- Concentracin mnima, cuando el conjunto total de valores de la variable esta repartido por igual, en este caso diremos que estamos ante un reparto equitativo
x1 = x 2 = L = xT 1 = xT

De las diferentes medidas de concentracin que existen nos vamos a centrar en dos: 9 Indice de Gini, Coeficiente, por tanto, ser un valor numrico. 9 Curva de Lorenz, grfico, por tanto, ser una representacin en ejes coordenados. Sea una distribucin de rentas ( x i , i ) de la que formaremos una tabla con las siguientes columnas: Los productos i x i , que nos indicarn la renta total percibida por los i rentistas de renta individual. Las frecuencias absolutas acumuladas Ti . Los totales acumulados u i que se calculan de la siguiente forma:
u1 = 1 x1 u 2 = 1 x1 + 2 x 2
uk =

k x i =1 i i

La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como p i y que vendr dada por la siguiente notacin
pi = Ti 100 T

La renta total de todos los rentistas que ser un y que dada en tanto por ciento, la cual representaremos como q i y que responder a la siguiente notacin:
qi = ui 100 ut

Autor: Pablo Tapia G.

Pgina 36

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Por tanto ya podemos confeccionar la tabla que ser la siguiente:


xi x1

i 1 t
M

i xi 1 x1
M t xt

Ti T1

ui u1

pi p1

qi q1

pi qi p1 q1

M xt

M Tt = T

M ut

M pt

M qt

M pt qt

Como podemos ver la ltima columna es la diferencia entre las dos penltimas, esta diferencia sera cero para la concentracin mnima ya que p i = q i y, por tanto, su diferencia sera cero. Si esto lo representamos grficamente obtendremos la curva de concentracin o curva de Lorenz .La manera de representarlo ser, en el eje x , los valores p i en % y en el eje y los valores de q i en %. Al ser un %, el grfico siempre ser un cuadrado, y la grfica ser una curva que se unir al cuadrado, por los valores (0,0), y (100,100), y quedar siempre por debajo de la diagonal. La manera de interpretarla ser: cuanto ms cerca se site esta curva de la diagonal, menor concentracin habr, o ms homogeneidad en la distribucin. Cuanto ms se acerque a los ejes, por la parte inferior del cuadrado, mayor concentracin. Analticamente calcularemos el ndice de Gini el cual responde a la siguiente ecuacin:

IG

(p q ) = p
t 1 i =1 i i t 1 i =1 i

(2.25)

NOTA: Este ndice tomara los valores de I G = 0 cuando p i = q i concentracin mnima y de I G = 1 cuando q i = 0 i = 1,..., t . Sin embargo, esto puede apreciarse mejor en un ejemplo, por lo que veamos la siguiente tabla.
i i xi
pi qi

[ Li 1 ; Li ]

xi

Ti

ui

pi

qi

[0,50] (50,100] (100,150] (150,200] (200,250] (250,300] (300,350] (350,400] (400,450] (450,500]

25 75 125 175 225 275 325 375 425 475

23 72 62 48 19 8 14 7 5 2

575 5400 7750 8400 4275 2200 4550 2625 2125 950

23 95 157 205 224 232 246 253 258 260

575 5975 13725 22125 26400 28600 33150 35775 37900 38850

8,85 1,48 36,54 15,38 60,38 35,33 78,85 56,95 86,15 67,95 89,23 73,62 94,62 85,33 97,31 92,08 99,23 97,55 100,00 100,00

7,37 21,16 25,06 21,90 18,20 15,61 9,29 5,22 1,68 0,00

Autor: Pablo Tapia G.

Pgina 37

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Se pide ndice de concentracin y Curva de Lorenz correspondiente ndice de concentracin de GINI

IG

( p q ) = 125,48 = 0,193 = 651,55 p


t 1 i =1 i i t 1 i =1 i

Observamos que hay poca concentracin por encontrarse cerca del 0. Curva de Lorenz La curva la obtenemos cerca de la diagonal, que indica que hay poca concentracin, tal como se aprecia e la figura 1.6.
CURVA DE LORENTZ
100

80 % de los ingresos

60

40

20

0 0 20 40 60 80 100 % de la poblacin

Figura 1.6. Curva de Lorente, en base al ejemplo presentado.

Autor: Pablo Tapia G.

Pgina 38

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

2.7. Representacin Grfica de las Distribuciones de Frecuencia. El objetivo esencial de las representaciones grficas de las distribuciones de frecuencia es obtener una idea general sobre sus propiedades en un simple vistazo. Observando un histograma de frecuencias podemos deducir si la variable se aproxima a la normalidad o si es simtrica, as como otras propiedades que posteriormente pueden ser analizadas de modo formal utilizando contraste u otras herramientas adecuadas. A la hora de representar distribuciones de frecuencias ser necesario tener presente en primer lugar si la variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habr que tener presente si la distribucin es agrupada o no agrupada. Teniendo en cuenta estas caractersticas de la variable o las variables cuya distribucin de frecuencias se representa podemos clasificar los grficos como sigue:
Histograma de frecuencia Datos agrupados Polgono de frecuencia Polgono de frecuencia acumulada Cuantitativos Diagrama de barras Diagrama escalonado Datos sin agrupar Variables Polgono de frecuencias Poligono de frecuencias acumulada Diagrama de sectores Cualitativos Diagrama de rectngulos Pictogramas

Cuadro 1. Agrupaciones del tipo de variable con el tipo de grfico. 2.7.1. Representacin para Variables Cualitativas. Los diagramas de rectngulo se construyen asignando a cada modalidad de la variable cualitativa un rectngulo con altura igual (o proporcional) a su frecuencia absoluta i y con base constante. Como ejemplo, en la figura 1.7 se representa un diagrama de barra que representa los activos segn las distintas modalidades de la variable rama de actividad. Sobre cada rectngulo se presenta la frecuencia absoluta i en miles de activos de la correspondiente rama de actividad. Sobre el eje abscisas se presentan las propias ramas de actividad y sobre el eje de ordenadas se presentan diferentes valores de las frecuencias absolutas por intervalos que sirven como referencias para situar la altura de cada rectngulo.

Autor: Pablo Tapia G.

Pgina 39

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Activos por Ramas de Actividad


4000 3500 3000 2454 2500 2000 1500 1000 500 0
Agricultura Fabriles Construccin Comercio Transporte Otros

3706 3437

1388 1096 648

Figura 1.7. Representacin de los activos por Rama por rectngulos. Los diagramas de sectores (o de pastel) constituyen el tipo de grfico ms utilizado para representar distribuciones de frecuencias de variables cualitativas. La variable se representa en un crculo cuyas porciones (sectores circulares) tienen un rea proporcional a las frecuencias absolutas de las modalidades de la variable. Para realizar el grfico de la figura 1.8 basta con signar a cada modalidad de la variable un sector circular cuyo ngulo central sea proporcional a la frecuencia absoluta de la modalidad. Como seguramente el lector ya lo sospecha, el clculo del ngulo consiste en una regla de tres, es decir, el total de las observaciones es a 360 como i es al ngulo desconocido i , lo cual numricamente nos lleva a:
N

360 N i = 360 = fi 360 i i

Que corresponde a que el ngulo desconocido es igual a la frecuencia relativa por 360. Por ejemplo, para el mismo ejercicio de los prrafos anteriores construiremos primero la tabla de valores para determinar los ngulos respectivos, es decir, Tabla1. Activos por rama segn frecuencia relativa por ngulo.
Rama Activos 3706 3437 1096 1388 648 2454 12729 Activos Relativos 0.29 0.27 0.09 0.11 0.05 0.19 1 ngulo 104.81 97.20 31.00 39.26 18.33 69.40 360

Agricultura Fabriles Construccin Comercio Transporte Otros TOTAL

Autor: Pablo Tapia G.

Pgina 40

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Activos por Ramas de Activos

Otros Agricultura Agricultura Fabriles Transporte Construccin Comercio Comercio Transporte Otros Construccin Fabriles

Figura 1.8. Pictograma de sectores para la rama de activos. Otra forma habitual de construir grficos de sectores consiste en asignar al sector circular relativo a la modalidad i-sima un porcentaje igual al tanto por ciento que representa su frecuencia absoluta ni sobre la frecuencia total N = ik=1i . Lo cual numricamente se obtiene como el producto de la frecuencia relativa por 100%, pi = fi 100% , y en la figura 1.9 se puede apreciar una variante del diagrama de sectores con porcentajes.
Activos por Ramas de Activos

19% 5%

29%

Agricultura Fabriles Construccin Comercio Transporte Otros

11% 9% 27%

Figura 1.9. Muestre una variante de la figura 1.8 en trminos de presentacin. 2.7.2. Representacin para Variables Cuantitativas sin Agrupar. Los diagramas de barras para variables cuantitativas sin agrupar se construyen situando sobre el eje de las abscisas los valores de la variable y sobre el eje de las ordenadas los valores de sus frecuencias absolutas. Por otro lado los diagramas de barras constituyen una herramienta muy adecuada para comparar los tamaos relativos de cantidades que se distribuyen en el espacio, entre los elementos o estados y entre los periodos. Por ejemplo, en la tabla 2 recoge, para una muestra, los aos de escolaridad que posean los encuestados. Esta informacin se
Autor: Pablo Tapia G. Pgina 41

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

presenta visualmente en el diagrama de barras de la figura 1.10. El diagrama se constituye en forma que, la altura del rectngulo que representa a cada uno de los niveles de educacin, es proporcional al nmero de personas que posee ese nivel de educacin. La informacin contenida en los diagramas de este tipo puede ser asimilada de manera fcil y rpida. Tabla 2. Frecuencias relativas y absolutas segn ao de escolaridad. i Ni fi Fi Escolaridad
8 9 10 11 12 13 14 15 16 17 18 19 20 21 11 21 23 38 45 25 33 25 33 21 22 12 5 1 11 32 55 93 138 163 196 221 254 275 297 309 314 315 0.035 0.067 0.073 0.121 0.143 0.079 0.105 0.079 0.105 0.067 0.070 0.038 0.016 0.003 0.035 0.102 0.175 0.295 0.438 0.517 0.622 0.702 0.806 0.873 0.943 0.981 0.997 1.000

Distribucin Muestral de la Escolaridad


45 40 35 30 25 20 15 10 5 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Figura 1.10. Representacin de la frecuencia absoluta de los aos de escolaridad. Los diagramas de barras en escalera o de frecuencia acumulada para variables cuantitativas sin agrupar se construyen situando sobre eje de abscisas los valores de la variable y sobre el eje de ordenadas los valores de sus frecuencias absolutas acumuladas N i , tal y como se muestra la figura 1.11 para nuestro ejemplo de los aos de escolaridad de una muestra.

Autor: Pablo Tapia G.

Pgina 42

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Distribucin Muestral de la Escolaridad


350 300 250 200 150 100 50 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Figura 1.11. Representacin de la frecuencia acumulada sobre los aos de escolaridad de una muestra. Ambas representaciones de diagramas de barras de frecuencia absoluta o acumulada pueden hacerse tambin utilizando frecuencias relativas en vez de absoluta en el eje de ordenada. Para construir el polgono de frecuencia se unen las coordenadas ( xi ,i ) tal y como se observa en la figura 1.12 (lnea azul). Tambin pueden unirse las coordenadas ( xi , fi ). Por ltimo, para construir el polgono de frecuencias calculadas se unen las coordenadas ( xi , Ni ) segn se observa en la lnea roja en la figura 1.12. Tambin pueden unirse las coordenadas ( xi , Fi ).
Frecuencia Relativas
0.160 0.140 0.120 0.100 0.080 0.060 0.040 0.020 0.000 8 9 10 11 12 13 14 15 16 17 18 19 20 21 0.200 0.000 0.800 0.600 0.400 1.200 1.000

fi

Fi

Figura 1.12. Representacin de la frecuencia relativa simple y acumulada. Como ejemplo, en la figura 1.7 se presenta un diagrama de rectngulo que representa los activos segn distintas modalidades de la variable rama de actividad. Sobre cada rectngulo se presenta la frecuencia absoluta en miles de activos de la correspondiente rama actividad. Sobre el eje de abscisas se presentan las propiedades ramas de actividades y sobre el eje ordenadas se

Autor: Pablo Tapia G.

Pgina 43

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

presentan diferentes valores de las frecuencias absolutas por intervalos que sirven como referencia para situar la altura de cada rectngulo. 2.7.3. Representaciones para Variables Cuantitativas Agrupadas. Los histogramas de frecuencia para variables cuantitativas agrupadas en intervalos se construyen levantando sobre cada intervalo un rectngulo de rea proporcional a la frecuencia absoluta correspondiente de dicho intervalo. Hay que tener muy presente que si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas (las reas dependen slo de las alturas porque las bases de los rectngulos son iguales). Si las amplitudes de los intervalos son desiguales, las alturas de los rectngulos (densidad de frecuencias) deben calcularse dividiendo la frecuencia absoluta por la amplitud del intervalo. Si llamamos i a la densidad del intervalo i-simo, ci a su amplitud y ni a sus frecuencias absolutas, la densidad de frecuencia i vendr dada por i = i / ci . La tabla 3 resume los valores de necesarios para construir el histograma de frecuencias, que como ya sabemos, consta de rectngulos cuyas bases sobre el eje abscisas son los intervalos I i , y cuyas alturas son las densidades de frecuencia i . Tabla 3. Representacin de una tabla de datos agrupados.
Marca de Frecuencia Absoluta Intervalo clase Simple Acumulado I i = [ Li 1 , Li ] xi i Ni Frecuencia Relativa Simple fi Acumulado Fi Amplitud Densidad
ci

Como ejemplo consideramos la variable cuantitativa X son valores agrupados en intervalos cuya tabla de frecuencias es la siguiente: Tabla 4. Ejemplo de una variable cuantitativa X agrupada.
Marca de Frecuencia Absoluta Intervalo clase Simple Acumulado I i = [ Li 1 , Li ] xi i Ni [1,3) 2 10 10 [3,5) 4 20 30 [5,10) 7.5 10 40 [10,20) 15 30 70 [20,50] 35 30 100 Amplitud Densidad
ci 2 2 5 10 30

i
5 10 2 3 1

Autor: Pablo Tapia G.

Pgina 44

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Histograma
12 10 8 6 4 2 0 0 10 20 30 40 50 60

Figura 1.13. Representacin de un histograma. En ocasiones suele sustituirse el histograma por el polgono de frecuencia simple, grfico que se forma al unir con la marca de clase (lo frecuente es que sea el punto medio del intervalo) a una altura proporcional a la frecuencia (para intervalos iguales) o a la densidad de frecuencia (intervalos desiguales). La unin de estos puntos ( xi ,i ) o ( xi , fi ) forma una lnea quebrada rectilnea que al prolongarla por los extremos corta al eje x (esta prolongacin suele hacerse hasta los puntos medios de las categoras inferior y superior inmediatos que corresponde a la clase de frecuencia cero, ver figura 1.14). De esta forma, el rea que queda por debajo del polgono de frecuencia es igual al rea contenida dentro del correspondiente histograma. Este grfico permite comparar las distribuciones de varios grupos observando las reas donde coinciden o se separan. Otro instrumento grfico esencial para representar una distribucin de frecuencias es el polgono de frecuencia acumulada (ver figura 1.15), que se utiliza cuando se trabaja con frecuencias absolutas o relativas acumuladas y que se construye levantando en el extremo superior de cada intervalo de clase una ordenada igual a la frecuencia acumulada correspondiente y uniendo a continuacin dichas ordenadas. Los puntos que se unen sern ( Li +1 , N i ). La primera ordenada se une al extremo inferior del primer intervalo prolongndose el polgono desde este punto hacia la izquierda sobre el eje x , y prolongndose tambin el polgono a partir de la ordenada del extremo superior del ltimo intervalo con una paralela al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de la variable X mide el nmero de observaciones para las cuales la variable toma valores menores o iguales que la abscisa (concepto que aproxima la funcin de distribucin de la variable X ).

Autor: Pablo Tapia G.

Pgina 45

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Histograma y Marca de Clase


12 10 8 6 4 2 0 0 10 20 30 40 50 60

Figura 1.14. Representacin del histograma por medio polgonos.


Histograma de Frecuencia Acumulada
120 100 80 60 40 20 0 0 10 20 30 40 50 60

Figura 1.15. Polgono de frecuencia acumulado relativo a la variable X . 2.7.4. Otros Diagramas. 2.7.4.1. Diagramas de Dispersin. A menudo nos interesar analizar la relacin entre dos nmeros, en el caso de que sta exista. Por ejemplo, la tabla 5 recoge los ndices de inflacin de precios al consumo y los tipos de inters a largo plazo de doce pases de la Unin Europea en 1992. Uno esperara que los tipos de inters ms altos fueran los de aquellos pases donde la inflacin es alta, y basta una ojeada a los nmeros para confirmar que as es. Para obtener una idea ms completa acerca de la relacin entre estas dos variables, hemos representado los datos en el diagrama de dispersin de la figura 1.16. En este grfico se puede apreciar que, para los ocho pases que tienen los tipos de inters y la inflacin ms bajos, hay poca relacin entre las variables. Sin embargo, los cuatro pases que tienen las tasas de inflacin ms altas tienen tambin los tipos de inters. Unos de

Autor: Pablo Tapia G.

Pgina 46

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

ellos, Grecia, destaca por tener los valores ms altos tanto de inflacin como de tipos de inters. Los diagramas de dispersin, como el de la figura 1.16, proporcionan una visin grfica de la relacin entre dos variables. En todo caso dejaremos para cursos superiores las tcnicas estadsticas que permiten analizar con mayor profundidad datos de este tipo. Tabla 5. Tasa de inflacin y tipos de inters a largo plazo. Pas Inflacin (%) Tipos de Inters (%) Francia Alemania Italia Reino Unido Blgica Dinamarca Grecia Irlanda Luxemburgo Holanda Portugal Espaa 2.8 4.5 5.5 3.7 2.4 2 15.9 3 3.2 3.7 8.9 5.9 8.6 7.9 13.1 9.1 8.6 9.8 22.5 9.4 7.9 8.1 16.1 12.6

Inflacin (X) v/s Tipo de Inters (Y)


25 20 15 10 5 0 0 5 10 15 20

Figura 1.16. Diagrama de dispersin de la tasa de inflacin y de los tipos de inters a largo plazo.

Autor: Pablo Tapia G.

Pgina 47

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

2.7.4.2. Diagramas de Caja. El diagrama de caja es una herramienta muy til en el anlisis grfico de un conjunto de datos. Para ilustrarlo, emplearemos de nuevo las tasas de inflacin de los pases de la Unin Europea descrito en la tabla 5. La mediana de la tasa de inflacin de estos pases es del 3.7%, mientras que el primer y el tercer cuartil son 2.85% y 5.8% respectivamente. Una caracterstica de estos datos es el hecho de que la tasa de inflacin de Grecia, que es del 15.9%, es mucho ms alta que las tasas de los otros pases. Exceptuando este valor, todas las tasas de inflacin estn en el rango que va de 2.0% a 8.9%. Esta informacin se resume en el grfico de la figura 1.17. La escala muestra las tasas de inflacin. El rectngulo (o caja) se ha dibujado de forma que sus lmites inferior y superior corresponde al primer y al tercer cuartil respectivamente. En el interior de la caja se ha dibujado una lnea para sealar el lugar que ocupa la mediana. El valor atpico para Grecia aparece lejos de la caja, y las lneas que van desde los bordes de la caja hasta lneas horizontales (o bigotes) sealan la menor y la mayor de las observaciones restantes.
16,00

14,00

12,00

10,00

8,00

6,00

4,00

2,00

Inflacion

Figura 1.17. Diagrama de caja de las tasas de inflacin de doce pases de la Unin Europea. Los diagramas de caja resultan muy tiles para comparar visualmente dos o ms conjuntos de datos. Para ilustrar esto, en la tabal 6 se recogen las notas finales del curso de estadstica para una muestra de estudiante de estos cursos en tres generaciones diferentes. La tabla 7 aparecen la mediana y los cuartiles primero y tercero de cada uno de estos tres conjuntos de notas. La figura 1.17 contiene los diagramas de caja de las puntuaciones de cada uno de estos tres grupos. En este ejemplo concreto, puede apreciarse que hay semestres con

Autor: Pablo Tapia G.

Pgina 48

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

mayor nmero de observaciones atpicas, que en este caso representan rendimientos bajos. Por lo tanto, los bigotes de las cajas corresponden a la menor y la mayor puntuacin de cada conjunto sin considerar los valores atpicos. Tabla 6. Grupo de notas del curso de estadstica para tres semestres consecutivos. 2005 2006 Primer semestre Segundo semestre Primer semestre 3.7 4.0 4.3 5.6 4.1 4.0 4.4 5.4 5.7 4.2 4.2 3.2 4.3 4.0 5.3 5.2 2.3 4.0 2.2 4.8 5.2 4.2 4.0 4.0 2.3 4.0 4.3 4.1 4.2 4.1 4.7 4.2 2.5 5.4 4.6 5.2 3.7 3.1 3.6 4.2 3.7 4.6 3.4 4.0 5.0 5.2 4.3 5.0 4.2 3.7 4.4 4.0 4.7 2.8 3.6 5.3 4.0 4.3 5.0 4.8 4.1 4.0 5.1 4.4 3.3 4.1 4.6 4.7 4.0 4.9 4.9 5.4 4.8 3.8 4.4 4.8 4.4 3.6 2.4 4.6 4.8 4.0 4.3 4.4 4.6 3.8 5.6 5.4 3.5 4.0 5.2 4.5 5.0 4.0 2.4 4.8 4.4 4.8 5.2 5.2 3.1 4.9 3.8 4.0 4.9 4.7 4.8 4.1 4.6 4.6 4.0 4.2 4.0 4.3 4.8 4.2 4.0 4.0 4.4 4.5 3.0 4.8 4.2 4.6 5.0 3.7 3.2 5.7 4.9 4.7 3.8 4.1 4.5 4.9 4.5 4.0 5.3 4.2 3.7 4.1 4.7 4.8 4.1 4.6 4.5 4.8 4.0 3.7 4.3 5.3 4.3 4.1 4.9 5.3 4.4 4.0 En la figura 1.18 se observa que los estudiantes del ltimo semestre consiguieron la mediana ms baja, dejando a un 25% del grupo muy apretado entre este valor y la nota 4.0, pero la distribucin de sus notas finales del 25% menor son considerablemente mayores que la de los grupos anteriores. Otro hecho que llama la atencin es que el tercer grupo presenta una agrupacin ms ajustada de los alumnos, sin embargo, dentro de estas conclusiones se debe considerar el hecho de que las muestras son de distinto tamao, y que no se ha dado ningn antecedente sobre las caractersticas de los alumnos.

Autor: Pablo Tapia G.

Pgina 49

ESTADISTICA I

CAPITULO 1
Estadstica Descriptiva.

Tabla 7. Cuarteles de las puntuaciones en las notas del examen. 2005 2006 Primer semestre Segundo semestre Primer semestre Mnimo 2.2 2.5 2.3 Primer cuartil 3.9 4.2 4.0 Mediana 4.3 4.7 4.1 Tercer cuartil 4.7 5.2 4.6 Mximo 5.4 5.7 5.7

6,00

5,00

Notas

4,00

3,00

2,00

200501

200502

200601

Semestre

Figura 1.18. Diagrama de caja de las notas finales del curso de estadstica.

Autor: Pablo Tapia G.

Pgina 50

Vous aimerez peut-être aussi