Vous êtes sur la page 1sur 52

1

ESTADSTICA DESCRIPTIVA
Tabla de contenidos

Tema
1. Estadstica. Definicin 2. Cnceptos bsicos 3. Ramas de la Estadstica Estadstica. Diagrama conceptual Estadstica Descriptiva 1. Relevamiento de datos 2. Un concepto importante. Variable 2.1. Concepto 2.2. Clasificacin de las variables 2.3. Escalas de medicin de las variables 2.4. Simbologa de las variables 3. Tabulacin de datos 3.1. Serie simple y distribucin de frecuencias 3.2. Representacin grfica 4. Otras distribuciones de frecuencias 4.1. Distribucin de frecuencias relativas 4.2. Distribucin de frecuencias acumuladas 4.3. Distribucin de frecuencias relativas acumuladas 4.4. Representacin grfica

Pgina
2 2 3 4 5 5 8 8 8 9 10 10 10 15 19 19 19 20 20

2 5. Medidas descriptivas 5.1. Medidas de tendencia central 5.2. Medidas de dispersin o variabilidad 5.3. Medidas de distribucin, Asimetra y Kurtosis 5.4. Media geomtrica 5.5. Media armnica 6. Un grfico muy descriptivo. Diagrama de caja (boxplot) Bibliografa 24 24 40 44 45 46 47 49

Autora: Mara Elena Marcoleri 2010

Estadstica
1. DEFINICIN
La Estadstica es una ciencia que estudia la aplicacin del mtodo cientfico en el anlisis de datos, numricos o no, con el fin de contribuir a tomar decisiones racionales. La Estadstica es una ciencia con base matemtica referente a la recoleccin, anlisis e interpretacin de datos, que busca explicar condiciones regulares en fenmenos de tipo aleatorio. Es aplicable en una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en reas de negocios e instituciones gubernamentales. La palabra "estadstica" procede del latn statisticum collegium ("consejo de Estado") y de su derivado italiano statista ("hombre de Estado" o "poltico"). El trmino alemn Statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el anlisis de datos del Estado, es decir, "la ciencia del Estado" (tambin llamada "aritmtica poltica" de su traduccin directa del ingls). No fue hasta el siglo XIX cuando el trmino estadstica adquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el ingls John Sinclair. En su origen, la estadstica estuvo asociada a datos, a ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadstica, nacionales e internacionales. En particular, los censos suministran informacin regular acerca de la poblacin. Desde los comienzos de la civilizacin han existido formas sencillas de estadstica, pues ya se utilizaban representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el nmero de personas, animales o ciertas cosas. Hacia el ao 3000 a. C. los babilnicos usaban ya pequeas tablillas de arcilla para recopilar datos en tablas sobre la produccin agrcola y de los gneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen, en algunas partes, trabajos de estadstica. El primero contiene dos censos de la poblacin de Israel y el segundo describe el bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los griegos clsicos realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos.

2. CONCEPTOS BSICOS
En Estadstica la poblacin, tambin llamada universo o colectivo es el conjunto de elementos de referencia sobre el que se realizan las observaciones. Puede estar constituida por personas, animales, plantas, artculos o cosas. Es un conjunto generalmente inaccesible, que rene unas caractersticas determinadas. Por ejemplo, la poblacin de habitantes de San Salvador de Jujuy hoy, los estudiantes de la Facultad de Ciencias Econmicas de la UNJu en el corriente ao, los libros de la biblioteca de la Facultad cuando empiezan las clases de este ao. Y as muchos ejemplos ms. Muestra estudiada: es el grupo de elementos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subconjunto representativo de la poblacin y es accesible y limitado. El nmero de muestras que se puede obtener de una poblacin es una o ms. Por ejemplo, un conjunto de 100 estudiantes de la Facultad de Ciencias Econmicas, en el cual estn representados todos los cursos.

4 En Estadstica se llama parmetro a un valor representativo de una poblacin. El parmetro es el clculo de valores en la poblacin. Es una medida descriptiva de alguna caracterstica de una poblacin. Tambin se puede decir que es el resultado que generaliza las caractersticas de la poblacin; se puede dar en porcentaje o en promedio. Por ejemplo, el ingreso familiar mensual promedio de los hogares de San Salvador de Jujuy en un momento determinado, la proporcin de estudiantes de la Facultad que tienen quince o ms materias aprobadas, la proporcin de libros de la biblioteca de la Facultad que fueron adquiridos en los ltimos cinco aos. Generalmente se simbolizan con letras griegas: , , , , , etc. En cambio, un estadstico o una estadstica, es una medida descriptiva que resume una caracterstica de una muestra extrada de la poblacin. Por ejemplo, el ingreso familiar mensual promedio de 500 hogares de San Salvador de Jujuy (representativos de todos los hogares de la ciudad) en un momento determinado, la proporcin de una muestra de 100 estudiantes de la Facultad que tienen quince o ms materias aprobadas, en una muestra de 55 libros de la biblioteca de la Facultad que fueron adquiridos en los ltimos cinco aos, la proporcin de libros que corresponde al rea Contable. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, estadsticas demogrficas, etc.

3. RAMAS DE LA ESTADSTICA
La Estadstica se divide en dos ramas:

La Estadstica Descriptiva, que se dedica a los mtodos de recoleccin, tabulacin, anlisis, presentacin e interpretacin de datos originados a partir de los fenmenos en estudio, a fin de describir en forma apropiada sus principales y diversas caractersticas. Los datos pueden ser resumidos numrica o grficamente. La Inferencia Estadstica, que se dedica a la generacin de los modelos y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones muestrales. Se usa para modelar patrones en los datos y extraer conclusiones acerca de la poblacin bajo estudio, analizando slo una muestra de esa poblacin.

Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, la cual se refiere a las bases tericas de la materia.

POBLACIN
Conclusiones Sobre La poblacin

MUESTRA (datos) Anlisis de los datos Estadsti ca Descript iva

Inferencia Estadstica

ESTADSTICA
A partir de la... POBLACIN Se extraen MUESTRAS (DATOS) Se realiza el ...
ANLISIS EXPLORATORIO (ESTADSTICA DESCRIPTIVA)

Que consiste en ...


ORGANIZACIN Y RESUMEN DE DATOS

MEDIDAS DESCRIPTIVAS

De
Tendencia central

De
Dispersin

De
Asimetra Kurtosis

Con
Probabilidad y
Distribuciones de Probabilidad

y con Se realiza el
Muestreo ANLISIS CONFIRMATORIO (INFERENCIA ESTADSTICA) y Distribuciones Muestrales

Para realizar pronsticos y actualizaciones


ANLISIS ESTADSTICO BIVARIABLE

NMEROS NDICES

ASOCIACIN ENTRE VARIABLES

SERIES ECONMICAS

ESTADSTICA DESCRIPTIVA
1. RELEVAMIENTO DE DATOS
Dos formas de recoleccin

CENSO

MUESTRAS

Se denomina Censo, en estadstica descriptiva, al recuento de individuos que conforman una poblacin estadstica, definida como un conjunto de elementos de referencia sobre el que se realizan las observaciones. El censo de una poblacin estadstica consiste, bsicamente, en obtener el nmero total de individuos mediante las ms diversas tcnicas de recuento. El censo es una de las operaciones estadsticas que no trabaja sobre una muestra, sino sobre la poblacin total. Uno de los casos particulares de censo pero, al mismo tiempo, uno de los ms comunes, es el denominado censo de poblacin, en el cual el objetivo es determinar el nmero de personas humanas que componen un grupo, normalmente un pas o una nacin. En este caso, la poblacin estadstica comprendera a los componentes o habitantes del grupo, pas o nacin. En general, en un censo de poblacin se pueden realizar algunas actividades extras que no se corresponden especficamente con la operacin censal estadstica. Se busca calcular el nmero de habitantes de un pas de territorio delimitado, correspondiente a un momento o perodo dado, pero se aprovecha igualmente para obtener una serie de datos demogrficos, econmicos y sociales relativos a esos habitantes. La muestra es el grupo de sujetos (personas, animales, seres microscpicos u objetos inanimados) que se utilizarn como objeto de estudio en una investigacin. Ser a ellos a quienes se les aplique el procedimiento experimental (las pruebas, mediciones, entrevistas, encuestas, tratamientos mdicos farmacolgicos o no farmacolgicos) y sern ellos los que, distribuidos o no en dos o ms grupos, cada uno de stos con una condicin experimental especfica, nos darn, despus del anlisis de los resultados, la respuesta positiva o negativa a la pregunta que gener el desarrollo de la investigacin, respuesta que se expresar, por medio de una publicacin cientfica, a travs de una serie de conclusiones. Existen varios tipos de muestras, de los cuales en el cuadro siguiente se mencionan los ms comnmente utilizados: Muestra aleatoria simple Muestras probabilsticas Muestra sistemtica Muestra estratificada Muestra de conglomerados Muestra de juicio Muestras no probabilsticas Muestra de cuota Muestra bola de nieve

7 Un muestreo es probabilstico cuando se puede determinar de antemano la probabilidad de sele ccin de cada uno de los elementos de la poblacin, es decir que la seleccin de cada elemento debe ser realizada al azar con una probabilidad conocida a priori. Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas se pueden sealar: a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo. b. Como consecuencia del punto anterior se ahorran costos. c. Estudiar la totalidad de los pacientes o personas con una caracterstica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar. d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las observaciones y mediciones realizadas a un reducido nmero de individuos pueden ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin. e. La seleccin de muestras especficas permitir reducir la heterogeneidad de una poblacin al indicar los criterios de inclusin y/o exclusin.

Muestreo aleatorio simple


La forma ms comn de obtener una muestra es la seleccin al azar. Es decir, cada uno de los elementos de una poblacin tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitucin algn mtodo aleatorio (al azar). El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada individuo elemento de la poblacin y 2) a travs de algn medio mecnico (bolillas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios generados con una calculadora o computadora, etc.) se eligen tantos elementos como sea necesario para completar el tamao de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin objetivo es muy grande y heterognea.

Muestreo aleatorio sistemtico


Una muestra sistemtica es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de la seleccin depende del nmero de elementos incluidos en la poblacin y el tamao de la muestra. El nmero de elementos en la poblacin es, primero, dividido por el nmero deseado en la muestra. El cociente indicar si cada dcimo, cada onceavo, o cada centsimo elemento en la poblacin tendr que ser seleccionado. El primer elemento de la muestra se selecciona al azar. Por lo tanto, una muestra sistemtica puede dar la misma precisin de estimacin acerca de la poblacin, que una muestra aleatoria simple cuando los elementos en la poblacin estn ordenados al azar. Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k = N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k. El riesgo se este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin, ya que al elegir a los miembros de la muestra con una periodicidad constante (k) puede ocurrir que se introduzca una homogeneidad que no se da en la poblacin. Por ejemplo, si se debe seleccionar una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si se emplea un muestreo aleatorio sistemtico con k = 10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos grupos.

Muestreo aleatorio estratificado


Una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la poblacin. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la poblacin en varios grupos o estratos (formados por elementos homogneos entre s) con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la seleccin de los elementos o unidades representantes, se utiliza el mtodo de muestreo aleatorio. Las estimaciones de la poblacin, basadas en la muestra estratificada, usualmente tienen mayor precisin (o menor error muestral) que si la poblacin entera muestreada mediante muestreo aleatorio simple. Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede estratificar, por ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el sistemtico para elegir los elementos concretos que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la poblacin. (tamao, geogrfico, sexos, edades,...). La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin Simple: a cada estrato le corresponde igual nmero de elementos muestrales. Afijacin Proporcional: la distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato. Afijacin ptima: se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin.

Muestreo de conglomerados
Para obtener una muestra de conglomerados, primero se divide la poblacin en grupos que son convenientes para el muestreo. En seguida, seleccionar una porcin de los grupos al azar o por un mtodo sistemtico. Finalmente, tomar todos los elementos o parte de ellos al azar o por un mtodo sistemtico de los grupos seleccionados para obtener una muestra. Bajo este mtodo, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria. Los mtodos anteriores estn estructurados para seleccionar directamente los elementos de la poblacin, es decir, que las unidades muestrales son los elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que se llama conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc, son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por reas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisin de las estimaciones acerca de la poblacin) que una muestra aleatoria simple del mismo tamao. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra rea. No todas las reas son muestreadas en un muestreo de reas. La variacin entre los

9 elementos obtenidos de las reas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la poblacin entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede ser reducida cuando se incrementa el tamao de la muestra de rea. El incremento del tamao de la muestra puede fcilmente nacerse en la muestra de rea. Los entrevistadores no tienen que caminar demasiado lejos en una pequea rea para entrevistar ms familias. Por lo tanto, una muestra grande de rea puede ser obtenida dentro de un corto perodo de tiempo y a bajo costo. Por otra parte, una muestra de conglomerados puede producir la misma precisin en la estimacin que una muestra aleatoria simple, si la variacin de los elementos individuales dentro de cada conglomerado es tan grande como la de la poblacin.

Muestreo intencionado o de juicio


Tambin recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son representativos, lo que exige un conocimiento previo de la poblacin que se investiga. Es utilizado generalmente en los estudios de casos.

Muestreo por cuotas


Tambin llamado muestreo accidental, se divide a la poblacin en estratos o categoras, y se asigna una cuota para las diferentes categoras y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra debe ser proporcional a la poblacin, y en ella debern tenerse en cuenta las diferentes categoras. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la seleccin de las categoras.

Muestreo bola de nieve


Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.

Muestreo mixto
Se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en forma aleatoria y despus aplicar el muestreo por cuotas.

2. UN CONCEPTO IMPORTANTE: VARIABLE


2.1. Concepto Una variable es una caracterstica que vara de un elemento a otro de la poblacin o de la muestra. Lo que se estudia en cada individuo o elemento de la muestra son las variables (edad, sexo, peso, talla, tensin arterial sistlica, etctera). Los datos son los valores que toma la variable en cada caso. Se asignan valores a las variables incluidas en el estudio. Se debe adems concretar la escala de medida que se aplicar a cada variable. La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms apropiado para abordar su anlisis. 2.2. Clasificacin de las variables segn su naturaleza Segn su naturaleza las variables se clasifican en cualitativas y cuantitativas. Son variables cualitativas aquellas que no son susceptibles de medicin numrica. Representan cualidades y atributos que se expresan en categoras, por eso, estas variables tambin se llaman

10 categricas. Por ejemplo, son variables cualitativas el color de las flores, cuyas categoras pueden ser rojo, rosado, blanco; el tamao de las empresas, cuyas categoras pueden ser pequeas, medianas y grandes; los das de la semana, las estaciones del ao, el color del cabello y de los ojos de las personas, etc. En esta clase de variables se encuentran las dicotmicas, que son aquellas variables cualitativas que solo admiten dos categoras, por ejemplo, S y No, correcto e incorrecto, fro y calor, femenino y masculino. Son variables cuantitativas aquellas susceptibles de medicin numrica. Sus valores provienen de medir o de contar los elementos de la poblacin o de la muestra. Segn que se generen contando o midiendo, estas variables se clasifican en discretas y continuas. Son variables cuantitativas discretas aquellas cuyos valores provienen de contar, por ejemplo, cantidad de hijos por familia, cantidad de alumnos por aula, nmero de errores de facturacin por mes, nmero de ausentes por da en una empresa. Sus valores asumen nmeros enteros. Son variables cuantitativas continuas las que provienen de efectuar mediciones. Se caracterizan porque entre dos valores cualesquiera de la variable, existen infinitos otros valores. Por ejemplo, la altura y el peso de las personas, los valores monetarios en cualquier tipo de moneda, la edad de las personas, el tiempo de espera para ser atendidos, los precios de los artculos, y tantos otros ejemplos. Sus valores pueden asumir nmeros con cifras decimales. A modo de resumen se puede presentar lo siguiente: Tipos de variables Cualitativas (categricas) Discretas Cuantitativas Continuas Cul es su estatura? .. (Medida) Tipos de preguntas Tiene Ud. hijos? (dicotmica) Cuntos hijos tiene? Respuestas S No

..(Nmero)

2.3. Escalas de medicin de las variables Se entender por medicin al proceso de asignar el valor a una variable de un elemento en observacin. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razn. Escalas Nominal: Ordinal: De intervalo: De razn: En general: Variables cualitativas Variables cuantitativas Escalas nominal y ordinal. Escalas de intervalo y de razn. Ejemplos Lugar de nacimiento, temperatura (fro, calor) Nivel de instruccin (Primario, Medio, Superior, etc.) Temperatura (5, 10, etc.). El cero es convencional. Cantidad de dinero por persona, N de hijos por flia. El cero es natural.

La escala nominal se utiliza cuando las categoras de una variable cualitativa no tienen naturalmente un orden establecido. Los siguientes son ejemplos de variables con este tipo de escala: Nacionalidad, Uso de anteojos, Nmero de camiseta en un equipo de ftbol, Nmero de Cdula Nacional de Identidad. La escala ordinal, en cambio, es til cuando las categoras de una variable cualitativa tienen naturalmente un orden o jerarqua preestablecidos, siendo un ejemplo claro las categoras ocupacionales de las personas: jefe, subjefe, empleado, etc.; categoras de los profesores de la Universidad: Titular, Asociado, Adjunto, y de los Auxiliares de docencia, Jefe de Trabajos Prcticos, Ayudante de Primera y Ayudante de segunda.

11 La escala ordinal, adems de las propiedades de la escala nominal, permite establecer un orden entre los elementos medidos. Otros ejemplos de variables con escala ordinal son: Preferencia a productos de consumo, Etapa de desarrollo de un ser vivo, Clasificacin de pelculas por una comisin especializada, Madurez de una fruta al momento de comprarla. La escala de intervalo, adems de todas las propiedades de la escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones. Los siguientes son ejemplos de variables con esta escala: Temperatura de una persona, Ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5), Sobrepeso respecto de un patrn de comparacin, Nivel de aceite en el motor de un automvil medido con una vara graduada. Finalmente, la escala de razn permite, adems de lo de las otras escalas, comparar mediciones mediante un cuociente. Algunos ejemplos de variables con la escala de razn son los siguientes: Altura de personas, Cantidad de litros de agua consumido por las personas en un da, Velocidad de los autos en la ruta, Nmero de goles marcados por un jugador de bsquetbol en los partidos de un ao. Las escalas de intervalo y de razn se diferencian fundamentalmente por dos razones: 1) por la existencia del cero natural, que significa ausencia de (razn), y el cero convencional que no significa ausencia de (intervalo); 2) porque la escala de razn permite establecer proporciones entre los valores de las variables, mientras que la escala de intervalo no lo admite. 2.4. Simbologa de las variables El smbolo para una variable cualquiera ser una letra mayscula, y los valores individuales que puede asumirse simbolizan con la misma letra, minscula, con un subndice. Por ejemplo: Variables Valores individuales X xi x1 x2 x3 xn siendo n el tamao de la muestra. Ejemplo: X: Cantidad de hijos por familia en una muestra de 12 familias. x1 = 2 x2 = 0 y as sucesivamente. indica que la familia 1 tiene 2 hijos. indica que la familia 2 no tiene hijos Y yi y1 y2 y3 yn Z zi z1 z2 z3 zn

3. TABULACIN DE DATOS
3.1. Serie simple y distribucin de frecuencias 3.1.1. Serie simple: es un conjunto de pocos datos (generalmente n < 30 datos). Cmo es el tratamiento adecuado de estos datos? Generalmente, la primera forma como deben analizarse o explorarse los datos es mediante un grfico que permita descubrir un patrn de comportamiento, tendencias, variaciones estacionales o simplemente las variaciones aleatorias. Igualmente, el anlisis grfico permite, mediante una simple ojeada, dar una idea de la informacin y sus caractersticas bsicas.

12 Los mtodos grficos se pueden usar para visualizar la informacin bruta (sin ningn tipo de organizacin o anlisis previo) o la informacin ya resumida y/o consolidada. En este sentido adquiere plena validez la frase "Una imagen vale ms que mil palabras". Una forma adecuada de representar y ordenar una serie simple es mediante el diagrama de tallo y hojas. Es un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el ltimo dgito) y un "tallo" (los otros dgitos). Por ejemplo "32" sera dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo. Objetivos

Representacin visual de la informacin Descubrir un patrn de comportamiento de los datos, es decir, qu distribucin pueden seguir los datos Identificar si hay valores extremos o datos anormales en la muestra

Es aplicable para valores formados por al menos dos cifras. Por ejemplo:

Principio: Cada nmero se divide en dos partes, una que llamaremos "Tallo" y la otra denominada "ramas u hojas". Tallo Ramas u hojas Formado por uno o ms dgitos principales (cifras mas significativas), ubicados a la izquierda del nmero. Resto de los nmeros (cifras secundarias) ubicadas a la derecha.

Otro ejemplo. Considere los siguientes nmeros: 65, 57, 79, 69, 53, 63, 71. Los tallos sern las decenas, y las ramas sern las unidades, de la siguiente manera: Tallo Ramas 5 6 7 73 593 91 Tallo Hojas 5 6 7 37 359 19

Y con las hojas ordenadas queda:

13 Procedimiento: 1. Se define cmo se van a dividir los nmeros en tallos y ramas, es decir, se identifican cuales van a ser los tallos, y cuales va a ser las ramas. 2. En una columna se listan los tallos en orden ascendente. 3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo al tallo que tengan. Observaciones:

Se recomienda que el nmero de tallos est entre 5 y 20. A veces, de acuerdo con la informacin que se tenga, pueden resultar muy pocos tallos, con lo cual las ramas quedan muy concentradas, y realmente no se obtiene mucha informacin. En estos casos, puede ser conveniente partir los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las ramas menores que 5), y un tallo superior (que tenga las ramas mayores o iguales a cinco). As, por ejemplo, el tallo 6 puede dividirse en 6I, para los valores entre 60 y 64, y el tallo 6S, para los valores entre 65 y 69. Cuando se parten los tallos en dos, todos los tallos deben partirse en dos. Solamente el primero y el ltimo tallo podran dejarse sin partir, en caso de que en el primer tallo slo haya informacin para el tallo superior, y cuando para el ltimo tallo slo haya informacin para el tallo inferior.

Otro Ejemplo Considere la siguiente informacin sobre duracin de bateras de carro, en aos. Se pide:

Construir el diagrama de tallos y hojas usando como tallos la parte entera. Construir el diagrama de tallos y hojas partiendo cada tallo en dos.

Duracin de bateras (en aos) 2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5

Solucin

Usando como tallos la parte entera

Tallos: Dgitos principales (Parte entera). Ramas: Dgitos secundarios (Parte decimal)

Tallo 1 2 3 4 Total

Ramas 9 26596 5270413817463913172482905 156734172

Frecuencia 1 5 25 9 40

14

Partiendo cada tallo en dos

En este caso el tallo 1 nicamente tendra la parte superior, y el tallo 4 tendra tanto la parte inferior como la superior

Tallo 1S 2I 2S 3I 3S 4I 4S Total

Hojas 9 2 6596 204131431312420 5787697895 13412 5677

Frecuencia 1 1 4 15 10 5 4 40

Ordene los datos de las ramas u hojas en los dos diagramas anteriores y analice la diferencia entre los dos diagramas. 3.1.2. Distribuciones de frecuencia: es una tabla de resumen en la que los datos se agrupan o arreglan en clases o categoras ordenadas en forma numrica, establecidas de modo conveniente. Tambin se les dice Datos agrupados. Datos agrupados sin intervalos: se utiliza cuando la variable, sea discreta o continua, presenta pocos valores diferentes entre s, repetidos muchas veces cada uno. La tabla se presenta as: Variable: Frecuencia: xi : fi : x1 x2 x3 xk f1 f2 f3 fk siendo i fi = n (cantidad de datos) Para i = 1, 2, 3, .., k

Donde fi se llama frecuencia absoluta e indica la cantidad de veces que se presenta o se repite cada valor de la variable. La tabla se presenta generalmente en forma vertical. Ejemplo X: cantidad de materias aprobadas de los estudiantes que cursaron Estadstica en 2009.
Cant. de mat. aprobadas

Frecuencia

15 0 1 2 3 4 5 6 7 8 9 12 13 14 Total 11 18 28 39 33 29 7 8 7 4 2 1 1 188

Significa que hay 11 estudiantes que no tienen materias aprobadas, 18 estudiantes que tienen una materia aprobada, 29 estudiantes que tienen cinco materias aprobadas, y as sucesivamente. Datos agrupados en intervalos: se utiliza esta forma de distribucin de frecuencias, cuando la variable, sea discreta o continua, presenta muchos valores diferentes entre s repetidos muchas veces. El objetivo es distribuir los datos en intervalos de clase, preferiblemente del mismo tamao, y verificar cuantas observaciones se presentan en cada intervalo (frecuencia absoluta). El procedimiento para encontrar la distribucin de frecuencia es el siguiente: 1. Encontrar el rango de variacin de los datos. Para ello se requiere calcular los valores mnimo y mximo de la muestra, Xmn = Mnimo {xi} Xmx = Mximo {xi} Rango = R = xmx-xmin 2. Definir el nmero de intervalos de clase (k). Se recomienda que el nmero de intervalos de clase est entre 5 y 15, dependiendo del tamao de la muestra disponible. Si se usa un nmero muy bajo, los valores quedan muy concentrados y se pierde mucha precisin, mientras que si se emplea un nmero muy alto y la muestra es muy pequea, los datos quedan muy dispersos y realmente no se obtiene mucha informacin. Como una gua para escoger el nmero de intervalos puede usarse la frmula de Sturgess, dada por: k = 1 + 3.32 log10 n 3. Calcular el tamao del intervalo de clase o amplitud de clase (a). Para ello se debe calcular la relacin entre el rango de los datos y el nmero de intervalos. Se tomar como tamao del intervalo a un valor ligeramente superior a esta relacin, es decir, a > (xmx-xmn) / k 4. Construir los intervalos. cada intervalo de clase i, est definido mediante un lmite inferior (Lim Infi = bi-1 ) y por un lmite superior (Lim Supi = bi). Para el primer intervalo de clase, el lmite inferior corresponde al valor ms pequeo de la muestra o menor (Lim Inf 1 b0 = xmn), y el lmite superior de cada intervalo siempre ser igual al lmite inferior ms el ancho del intervalo de clase (Lim Supi = bi-1 + a). Para los dems intervalos diferentes al primero, el lmite inferior ser igual al limite superior del intervalo inmediatamente anterior (Lim Infi = Lim Supi-1).

16 De acuerdo con lo anterior se calculan los lmites de los intervalos de clase, los cuales estarn dados de la siguiente manera, segn se muestra en la tabla
Intervalo 1 2 3 ..... ..... i ..... ..... k Lmite Inferior bi-1 b0 = bmin b1 = b0 + a b2 = b1 + a ..... ..... bi-1 = bi-2 + a ..... ..... bk-1 = bk-2 + a Lmite Superior bi b1 = b0 + a b2 = b1 + a b3 = b2 + a ..... ..... bi = bi-1 + a ..... ..... bk = bk-1 + a

5. Se toman los valores de la muestra, y se define a qu intervalo corresponde. El intervalo i comprender aquellos valores que son mayores o iguales al lmite inferior de dicho intervalo (bi-1) y estrictamente menores que el respectivo lmite superior (b i). Es decir, el valor x quedar en el intervalo i si cumple la siguiente condicin. bi-1 x < bi Es decir, si un valor es igual al lmite superior de un intervalo, entonces la observacin corresponde al intervalo siguiente. Para ello se toma cada valor y se compara sucesivamente con el lmite superior del primer intervalo, luego con el del segundo, y as sucesivamente hasta que caiga en alguno. Si el valor x queda en el intervalo i, entonces se aumenta en uno la frecuencia del respectivo intervalo. Ejemplo de aplicacin La inversin real anual de 60 empresas es la siguiente: 10 12 8 40 16 28 10 30 2 8 6 14 16 20 25 36 39 52 30 0 30 4 6 10 18 17 13 17 21 7 6 8 14 7 15 26 14 28 30 26 6 8 39 11 13 15 18 20 30 60 6 12 25 45 26 8 37 12 19 27 Siguiendo los pasos para construir la distribucin de frecuencias: 1) Rango: r = 60 0 = 60 (amplitud total de la serie) 2) N de clases: k = 1 + 3.3 log60 = 6.87 7 3) Amplitud de clase : a = 60/7 = 8.57 9 Para simplificar la construccin de los intervalos se tomar a = 10 4) Formacin de los intervalos y 5) registro de datos: Intervalos [ 0 10) [10 20) [20 30) [30 40) [40 50) [50 60) [60 70) Registros ///// ///// ///// ///// ///// ///// ///// / ///// ///// / ///// //// // / / fi 15 21 11 9 2 1 1 Total: xi 5 15 25 35 45 55 65 60 Marcas de clase: son los puntos medios de los intervalos. Representan a todos los valores de la variable comprendidos en el intervalo. xi = (Li + Ls) / 2

3.2. Representacin grfica

17 3.2.1. Variable cualitativa o categrica Existen diversas formas de representar grficamente una variable cualitativa, pero generalmente se utilizan las barras, y de entre ellas se prefieren las barras horizontales. Por ejemplo, si se deben representar grficamente los datos siguientes: Categoras de la variable: A B C D Frecuencias (%): 18 32 23 27 El grfico adecuado es el de barras horizontales, como se indica a continuacin:

Categroras

%
A B C D

10

20

30

40

Cada barra tiene la longitud del porcentaje que representa.

3.2.2. Variable cuantitativa Serie simple o datos no agrupados: no tiene representacin grfica. Serie de frecuencias o datos agrupados: en este caso deben distinguirse dos casos diferentes, segn que los datos hayan sido agrupados con o sin intervalos.

Datos agrupados sin intervalos Grfico de bastones Datos agrupados en intervalos Histograma y polgono de frecuencias.
Grfico de bastones fi Histograma y polgono de frecuencias fi

18

0 x1 x2 x3 . xk

xi

Intervalos de clases

El grfico de barras adyacentes constituye el histograma de frecuencias absolutas, y la lnea quebrada que une los puntos medios de los lados superiores de los rectngulos, es el polgono de frecuencias absolutas. En el histograma la frecuencia est representada por el rea de los rectngulos, no por la altura de los mismos, por lo tanto, si los intervalos son de amplitud no constante, deber ajustarse la altura proporcional a las bases distintas de los rectngulos. En la abscisa se colocan los lmites de los intervalos de clase b 0, b1, b2,.., bk , y en la ordenada se dibuja, bien sea la frecuencia absoluta, o la frecuencia relativa. Para cada intervalo se levanta una barra cuya longitud es proporcional a la frecuencia (absoluta, o relativa). La forma que toma el grfico es la misma, bien sea que se trabaje con frecuencia absoluta o relativa, ya que la diferencia entre las dos es simplemente un cambio de escala. A veces se dibuja una ordenada izquierda con la frecuencia absoluta, y una ordenada derecha con la frecuencia relativa. El grfico de bastones resultante de representar las frecuencias absolutas del ejemplo de la cantidad de materias aprobadas por los estudiantes de Estadstica, es el siguiente:
50

40

30

Valor Frecuencias absolutas

20

10

0 0 1 2 3 4 5 6 7 8 9 12 13 14

Materias aprobadas

Un ejemplo de histograma y polgono de frecuencias con datos agrupados en intervalos. Ejemplo. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una graduacin de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide: Distribuir los datos en intervalos de clase y construir el histograma de frecuencias.

Pruebas de habilidad espacial (puntajes) 29 78 48 29 30 44 72 73 46 82 84 71 75 84 45 47 35 33 54 56 33 62 63 64 36 38 53 54 38 40 42 51 52 53 56 57 58 71 76 77 58 60 60 62 65 14 16 73 74 45 21 23 66 67 42 43 51 67 70 57 55 27 78 48 49 50 51 86 58 59 89 36 37 91 92 45 57 65 78 93

19 Conteo de los valores en los intervalos de clase Intervalo 1 2 3 4 5 6 7 8 Lmite inferior b i-1 14 24 34 44 54 64 74 84 Lmite Superior bi 24 34 44 54 64 74 84 94 |||| = 4 ||||| || = 7 ||||| |||| = 9 ||||| ||||| ||||| | = 16 ||||| ||||| ||||| || = 17 ||||| ||||| || = 12 ||||| ||| = 8 ||||| || = 7 Conteo

Lmite Lmite Marca de Intervalo de Inferior Superior clase MCi clase bi-1 (1) bi (2) (3) 1 2 3 4 5 6 7 8 Total 14 24 34 44 54 64 74 84 24 34 44 54 64 74 84 94 19 29 39 49 59 69 79 89

Frecuencia Absoluta fi (4) 4 7 9 16 17 12 8 7 80

El histograma de frecuencias absolutas y el polgono de frecuencias correspondiente, se muestran en los grficos siguientes:

20

4. OTRAS DISTRIBUCIONES DE FRECUENCIAS 4.1. Distribucin de frecuencias relativas Se simboliza ri y se obtiene dividiendo la frecuencia absoluta por n. ri = f i / n Adems, O bien As: r1 = f1 / n ; r2 = f2 / n , etc.
r
i i

= 1 (i = 1, 2, 3, , k) = 100% si ri est expresada en porcentaje.

r
i

Las frecuencias relativas se utilizan para saber qu proporcin o porcentaje de observaciones tiene un determinado valor, o estn comprendidas en un intervalo determinado. Su representacin grfica es igual a la de las frecuencias absolutas, slo cambia la escala del eje de ordenadas, en el cual se representan las frecuencias relativas. La importancia de la frecuencia relativa radica en que indica la proporcin de observaciones referida al total de observaciones realizadas, y esta es una interpretacin ms completa y ms precisa que la de las frecuencias absolutas. 4.2. Distribucin de frecuencias acumulativas

21 Se simbolizan Fi o Fi segn que las frecuencias se acumulen de la forma Menor que (Ls) o Mayor o igual que (Li), en el caso de que los datos sean agrupados en intervalos, o de la forma < que que cuando los datos se agruparon sin intervalos. Cuando los datos han sido agrupados en intervalos de clase, las frecuencias acumuladas se calculan como se indica a continuacin: Menor que Li1 Ls1 Ls2 Ls3 Ls4 .. Lsk fi 0 f1 f2 f3 f4 . fk Fi (la flechita hacia abajo indica el sentido de la acumulacin) 0 F 1 = f1 F 2 = f 1 + f2 = F 1 + f2 F 3 = f1 + f 2 + f3 = F 2 + f3 F 4 = f1 + f 2 + f3 + f 4 = F 3 + f 4 ....................... Fk = f1 + . . . + fk = Fk-1 + fk Fk = n

La representacin grfica es un diagrama con una lnea curva siempre creciente llamado polgono de frecuencias acumuladas u ojiva. Cuando las frecuencias son acumuladas de la forma Mayor que ( Fi ) la lnea es decreciente. Si se genera un grfico con ambos tipos de frecuencias acumulativas, el punto de interseccin de las ojivas corresponde a la Mediana, una medida de posicin. (Ver grficos de pgina 11). Cuando la agrupacin de los datos se realiza sin intervalos, entonces: que fi Fi x1 f1 F 1 = f1 x2 f2 F 2 = f 1 + f2 = F 1 + f2 x3 f3 F 3 = f 1 + f2 + f 3 = F 2 + f 3 x4 f4 F 4 = f 1 + f2 + f 3 + f4 = F 3 + f4 . . ....................... xk fk Fk = f1 + . . . + fk = Fk-1 + fk Fk = n La representacin grfica es un diagrama escalonado, en este caso el escaln ms alto le corresponde a una ordenada igual a n. Fi genera un grfico escalonado creciente, mientras que F i genera una escalera descendente. El punto de interseccin de ambas curvas corresponde a la Mediana, una medida de posisin. (Ver grficos en pgina 10). Las Fi se utilizan cuando se desea averiguar cuntas observaciones de la variable son menores o iguales que una de ellas determina, mientras que las Fi son ms apropiadas cuando se necesita saber qu cantidad de observaciones de la variable son mayores o iguales que alguna de ellas. que Li1 Li2 Li3 Li4 Li5 .. Lik fi f1 f2 f3 f4 f5 . fk Fi (la flechita hacia abajo indica el sentido de la acumulacin) F1 = n F 2 = F 1 f1 F 3 = F 2 - f2 F 4 = F 3 - f3 F 5 = F 4 - f4 ............... Fk = Fk-1 - fk-1 = fk

4.3. Distribucin de frecuencias relativas acumuladas

22 Las frecuencias relativas acumuladas se obtienen acumulando las frecuencias relativas, o bien relativizando las frecuencias acumuladas. Se simbolizan Ri , con la flechita indicando el sentido de la acumulacin. 4.4. Representacin grfica Datos agrupados sin intervalos: Grfico escalonado F i o Ri n

0 1 2 3 4 5 xi Frecuencias absolutas o relativas acumuladas de la forma menor que. F i o Ri n

xi

Frecuencias absolutas o relativas de la forma mayor que. Combinando ambas representaciones en un solo grfico, se obtiene: F i o Ri n

xi 0 1 2 3 4 5 (valor de X donde se interceptan ambos grficos)

Mediana = 3

Variable continua o discreta agrupada con intervalos de clase

23 Cuando la variable est agrupada en intervalos de clase, la representacin grfica se llama polgono de frecuencias acumulativas u ojiva, y toma las formas siguientes: F i o Ri n

xi 0 Intervalos de clase Frecuencias absolutas o relativas acumuladas de la forma menor que. F i o Ri n

xi 0 Intervalos de clase Frecuencias absolutas o relativas acumuladas de la forma mayor que. Combinando ambas representaciones en un solo grfico, se obtiene: F i o Ri n

Mediana (el valor de X de interseccin de ambas curvas)

xi 0 Me Intervalos de clase

Considerando nuevamente el ejemplo de los puntajes en habilidad espacial de los 80 empleados, la distribucin de frecuencias absolutas, relativas y acumulativas, es la siguiente:

24
Intervalo de clase 1 2 3 4 5 6 7 8 Total Lmite Inferior bi-1 (1) 14 24 34 44 54 64 74 84 Lmite Superior bi (2) 24 34 44 54 64 74 84 94 Marca de clase MCi (3) 19 29 39 49 59 69 79 89 Frecuencias Absolutas fi (4) 4 7 9 16 17 12 8 7 80 Frecuencias Relativas ri (5) 0,05 0,0875 0,1125 0,2 0,2125 0,15 0,1 0,0875 1 Frecuencias Acumuladas Fi (6) 4 11 20 36 53 65 73 80

Interpretacin: Por ejemplo, r6 = 0,15 o bien 15%, indica que la proporcin de empleados que obtuvieron un puntaje comprendido entre 64 y 74 puntos es 0,15, o tambin que el 15% de los empleados obtuvieron puntajes comprendidos entre 64 y 74 puntos. Y F6 = 65 indica que 65 empleados tienen menos de 74 puntos en la prueba de habilidad espacial. Si los datos estn agrupados en una tabla de frecuencias sin intervalos, como en el ejemplo de la cantidad de materias aprobadas por los estudiantes de Estadistica, la tabla de frecuencias (obtenida utilizando el software SPSS) tiene el aspecto siguiente:
Materias aprobadas Frecuencia 11 18 28 39 33 29 7 8 7 4 2 1 1 188 1 189 Porcentaje 5,8 9,5 14,8 20,6 17,5 15,3 3,7 4,2 3,7 2,1 1,1 ,5 ,5 99,5 ,5 100,0 Porcentaje vlido 5,9 9,6 14,9 20,7 17,6 15,4 3,7 4,3 3,7 2,1 1,1 ,5 ,5 100,0 Porcentaje acumulado 5,9 15,4 30,3 51,1 68,6 84,0 87,8 92,0 95,7 97,9 98,9 99,5 100,0

Vlidos

Perdidos Total

0 1 2 3 4 5 6 7 8 9 12 13 14 Total Sistema

Las frecuencias relativas y acumulativas estn expresadas en porcentaje. Por ejemplo, r i = 20,6 indica que el 20,6% de los estudiantes tiene 3 materias aprobadas. Si el porcentaje se calcula sobre el total de casos vlidos, resulta que 20,7% es el porcentaje de estudiantes que tiene 3 materias aprobadas. Y Fi = 92,0% significa que el 92% de los estudiantes tiene 7 o menos materias aprobadas. La representacin grfica de las frecuencias acumuladas (ojiva) para el ejemplo de los puntajes de los empleados, es la siguiente:

25
100

80

Valor Frecuencias acumuladas

60

40

20

0 14 24 34 44 54 64 74 84 94

Puntajes

Para el ejemplo de la cantidad de materias aprobadas, correspondera representar las frecuencias acumuladas mediante los grficos escalonados.

26 5. MEDIDAS DESCRIPTIVAS Para completar la descripcin de los datos recopilados se determinan diferentes medidas que caracterizan al conjunto de observaciones desde distintos aspectos. Estas medidas pueden ser: de posicin o tendencia central, de dispersin o variabilidad, de asimetra y de kurtosis o agudeza. Medidas descriptivas Medidas descriptivas Nombre de la medida Media aritmtica Moda o modo De posicin o tendencia central Mediana y cuantiles Media geomtrica Media armnica Rango o recorrido Desviacin semiintercuartilar De dispersin o variabilidad Desviacin media y desviacin mediana Varianza o variancia y desviacin estndar Coeficiente de variacin De asimetra De kurtosis o agudeza Interpretacin Medidas de tendencia central: indican los valores centrales de la variable hacia los cuales tienden a agruparse las observaciones. Comnmente se los llama promedios. Medidas de dispersin: miden la cantidad de variacin, desperdigamiento o diseminacin de los datos alrededor de los valores centrales. Medidas de asimetra: determinan si la distribucin de los valores de la variable es simtrica con respecto a los valores centrales, o si existe un sesgamiento hacia la derecha o hacia la izquierda. Medidas de kurtosis: miden el grado de apuntamiento o agudeza de la distribucin de los valores de la variable. Coeficiente de asimetra Coeficiente de kurtosis

5.1. Medidas de tendencia central


Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo nmero. Para tal fin, desde luego, no se usar el valor ms elevado ni el valor ms pequeo como nico representante, ya que solo representan los extremos ms bien que valores tpicos. Entonces sera ms adecuado buscar un valor central. Las medidas que describen un valor tpico en un grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos ms bien que a individuos. Un promedio es una caracterstica de grupo, no individual.

27

5.1.1. La media aritmtica La medida de tendencia central ms obvia que se puede elegir, es el valor obtenido sumando las observaciones y dividiendo esta suma por el nmero de observaciones que hay en el grupo. La media resume en un valor las caractersticas de una variable teniendo en cuenta a todos los casos. Solamente puede utilizarse con variables cuantitativas. Es el promedio ms conocido y de mayor uso. Dada una serie simple de observaciones de la variable X: x1 x2 x3 .. xn , la media aritmtica es:

La media aritmtica de un conjunto de n valores es el resultado de la suma de todos ellos dividido entre n. Acta como punto de equilibrio, de modo que las observaciones que son mayores que la media equilibran a las que son menores.

La frmula para la media aritmtica de una serie simple es la siguiente: x = ( xi ) / n


i

Ejemplo de aplicacin De serie simple o datos no agrupados: la inversin real (en miles de dlares) anual de un grupo de 24 pequeas empresas fue: 12 8 40 6 8 10 30 2 8 6 14 16 20 25 28 30 26 30 26 30 4 6 10.

x = (10 + 12 + 8 + . . . + 10) / 24 = 405 / 24 = 16,875 miles de dlares


La inversin real promedio es de 16.875 dlares. La media de datos agrupados o de una serie de frecuencias Si los datos estn agrupados en una tabla de frecuencias, por ejemplo:

28 xi : x1 x2 x3 .. xk fi : f 1 f2 f 3 .. fk la media aritmtica es:

x = x1f1 + x2 f2 + x3 f3 + .. + xk fk f + f + f + .... + f
1 2 3 k

x=

x
i k i

fi
i

Ejemplo de media aritmtica con datos agrupados En una prueba de aptitud realizada a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla siguiente. Calcular la puntuacin media.
I n t e r va l o s [ 1 0, 2 0 ) [ 2 0, 3 0 ) [30,40) [ 4 0, 5 0 ) [50, 60 [60,70) [ 7 0, 8 0 ) xi 15 25 35 45 55 65 75 fi 1 8 10 9 8 4 2 42 xi.fi 15 200 350 405 440 260 150 1. 8 2 0

x = 1820/42 = 43,33
Si los datos estn agrupados en una tabla de frecuencias sin intervalos, los valores x i son directamente los que asume la variable, los que en el ejemplo anterior se obtuvieron calculando las marcas de clase. Propiedades de la media aritmtica 1. Puede ser calculada en distribuciones con escala relativa e intervalar. 2. Todos los valores son incluidos en el cmputo de la media. 3. Una serie de datos solo tiene una media. 4. Es una medida muy til para comparar dos o ms poblaciones. 5. Es la nica medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.

29 Demostracin: Basta desarrollar la sumatoria para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x1, mediante el valor central , es compensado por los dems errores: La suma de las desviaciones de los nmeros 8, 3, 5, 12, 10, de su media aritmtica 7,6 es igual a cero. (8 7,6) + (3 7,6) + (5 7,6) + (12 7,6) + (10 7,6) = 0,4 4,6 2,6 + 4,4 + 2,4 = 0 Otro ejemplo con datos agrupados Obtener las desviaciones con respecto a la media en la siguiente distribucin y comprobar que su suma es cero. li-1 - li ni 0 - 10 1 10 - 20 2 20 - 30 4 30 - 40 3 Solucin: li-1 - li 0 - 10 10 - 20 20 - 30 30 - 40 ni 1 2 4 3 n=10 La media aritmtica es: xi 5 15 25 35 xi ni 5 30 100 105 -19 -9 +1 +11 -19 -18 +4 +33

Como se puede comprobar sumando los elementos de la ltima columna,

6. La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a la media aritmtica, es un mnimo. Esto significa que si se calcula esa suma tomando otro valor cualquiera distinto de la media aritmtica, el resultado siempre ser mayor que cuando se toman las desviaciones con respecto a la media.

30

Demostracin: Sea k x . Se ver que el error cuadrtico cometido por k es mayor que el de .

7. Si a todos los valores de la variable se les suma una constante, la media aritmtica queda aumentada en dicho nmero. Demostracin: Sea la variable Y = a + X, siendo a una constante (positiva o negativa).
y=(
n i n i

a + xi ) / n = {an + ( xi )} / n = a + x

8. Si todos los valores de la variable se multiplican por una constante, la media aritmtica queda multiplicada por dicho nmero. Demostracin: Sea la variable Y = aX, siendo a una constante (puede ser a o 1/a).
y=(
n i n i

axi ) / n = a ( xi ) / n = a x

9. Propiedad de linealidad de la media (resultante de las dos propiedades anteriores)

10. Dados r grupos con n1, n2, ..., nr observaciones y siendo cada uno de ellos. Entonces la media de las

, ...,

las respectivas medias de

observaciones es

Demostracin Llamando xij a la j-sima observacin del grupo i; Entonces es

31

As, agrupando convenientemente las observaciones se llega a que

Observaciones sobre la media aritmtica 1. La media se puede hallar solo para variables cuantitativas. 2. La media es independiente de las amplitudes de los intervalos. 3. La media es muy sensible a las observaciones extremas. Si se cuenta con los siguientes valores de la variable peso: 65kg 69kg 65kg 72kg 66kg 75kg 70kg 110kg La media es igual a 74kg, que es una medida de tendencia central poco representativa de la distribucin. 4. La media no se puede calcular si hay un intervalo abierto (con amplitud indeterminada). xi [60, 63) [63, 66) [66, 69) [69, 72) [72, ) 61.5 64.5 67.5 70.5 fi 5 18 42 27 8 100 En este caso no es posible hallar la media porque no se puede calcular la marca de clase del ltimo intervalo. Ventajas de la media aritmtica

Es la medida de tendencia central ms usada. El promedio es estable en el muestreo. Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos). Se emplea a menudo en clculos estadsticos posteriores.

32

Presenta rigor matemtico. En la grfica de frecuencia representa el centro de gravedad.

Desventajas Es sensible a los valores extremos. Si alguno de los valores es extremadamente grande o extremadamente pequeo, la media no es el promedio apropiado para representar la serie de datos. No es recomendable emplearla en distribuciones muy asimtricas.

Si se emplean variables discretas o cuasi-cualitativas, la media aritmtica puede no pertenecer al conjunto de valores de la variable.

La media aritmtica ponderada Se denomina media (aritmtica) ponderada de un conjunto de nmeros al resultado de multiplicar cada uno de los nmeros por un valor particular para cada uno de ellos, llamado su peso, obteniendo a continuacin la suma de estos productos, y dividiendo el resultado de esta suma de productos entre la suma de los pesos + la masa segn la caracterstica de cada nmero inicial. Este "peso" depende de la importancia de cada uno de los valores. O dicho de otro modo es un promedio en el que cada valor de observacin se pondera con algn ndice de su importancia. Para una serie de datos X = { x1, x2, ..., xn} W = { w1, w2, ..., wn} a la que corresponden los pesos la media ponderada se calcula como:

O bien:

Un ejemplo es la obtencin de la media ponderada de las notas de una oposicin en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen. 5.1.2. La mediana La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales, de forma que el nmero de valores mayor o igual a la mediana es igual al nmero de valores menores o igual a estos. Su aplicacin se ve limitada ya que solo considera el orden jerrquico de los datos y no alguna propiedad propia de los datos, como en el caso de la media. Me

n/2 n/2

33 La notacin mas usual que se utiliza para representar a la mediana es , Md , Me Med .

La mediana para datos no agrupados Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos criterios conduce al mismo resultado. Sean ordenados lo datos en orden ascendente Si el nmero de valores es impar, la mediana es el valor medio, el cual corresponde al dato Ejemplo: Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3, para la obtencin de la mediana se debern de ordenar. Tomemos el criterio de orden ascendente con lo que, tendremos: 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4, por otro lado, el nmero de datos es igual a 15 datos, siendo el nmero de datos impar se elige el dato que se encuentra a la mitad, una vez ordenados los datos, en este caso es Me = 1. Cuando el nmero de valores en el conjunto es par, no existe un solo valor medio, si no que existe dos valores medios, en tal caso, la mediana es el promedio de los valores, es decir, la mediana es numricamente igual a .

Si el ejemplo anterior tuviera una observacin ms, es decir, n = 16, los datos seran: 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4, 5 Entonces la mediana es: La mediana para datos agrupados Datos agrupados sin intervalos En este caso la mediana es el valor de la variable al cual le corresponde la frecuencia acumulada, de la forma menor que, inmediatamente superior a la mitad de las observaciones (n/2). En el ejemplo de la cantidad de materias aprobadas por alumno en la Ctedra Estadstica, cuya distribucin de frecuencias se muestra en el cuadro siguiente: Med = (1+2)/2 = 1,5

34
Materias aprobadas Frecuencia 11 18 28 39 33 29 7 8 7 4 2 1 1 188 1 189 Porcentaje 5,8 9,5 14,8 20,6 17,5 15,3 3,7 4,2 3,7 2,1 1,1 ,5 ,5 99,5 ,5 100,0 Porcentaje vlido 5,9 9,6 14,9 20,7 17,6 15,4 3,7 4,3 3,7 2,1 1,1 ,5 ,5 100,0 Porcentaje acumulado 5,9 15,4 30,3 51,1 68,6 84,0 87,8 92,0 95,7 97,9 98,9 99,5 100,0

Vlidos

Perdidos Total

0 1 2 3 4 5 6 7 8 9 12 13 14 Total Sistema

La ltima columna indica las frecuencias acumuladas porcentuales, por lo tanto n/2 = 50%. La frecuencia acumulada inmediatamente superior a 50% es 51,1%, por lo tanto, Med = 3 materias aprobadas Este resultado se interpreta diciendo que la mitad de los estudiantes que cursaban Estadstica en 2009 tenan 3 o menos materias aprobadas y la otra mitad tena 3 o ms materias aprobadas. Clculo grfico En el grfico escalonado de frecuencias absolutas o relativas acumuladas de la forma menor que: F i o Ri n n/2

1 Med

xi

Se traza una lnea paralela al eje de abscisas hasta cortar el grfico escalonado, por esa interseccin se baja una lnea perpendicular al mismo eje, y all se encuentra la mediana. Datos agrupados en intervalos La extensin para el clculo de la mediana en el caso de datos agrupados en intervalos se realiza a continuacin:

Donde: Med = Mediana.

35 Li = Limite inferior del intervalo donde se encuentra la mediana, la forma de calcularlo es a travs de encontrar la posicin n/2. En ocasiones en el intervalo donde se encuentra la mediana se conoce como intervalo mediano. n = Nmero de observaciones o frecuencia total. = frecuencia acumulada hasta el intervalo anterior al intervalo mediano. = Frecuencia del intervalo mediano. A = Amplitud del intervalo en el que se encuentra la mediana. Geomtricamente la mediana se encuentra en el valor X que divide al histograma en dos partes de reas iguales.

Clculo grfico En el grfico escalonado de frecuencias absolutas o relativas acumuladas de la forma menor que: F i o Ri n

xi 0 Med Intervalos de clase Se traza una lnea paralela al eje de abscisas hasta cortar el polgono de frecuencias acumuladas, por esa interseccin se baja una lnea perpendicular al mismo eje, y all se encuentra la mediana. Cmo obtener la frmula de la mediana con datos agrupados en intervalos En un grfico de frecuencias acumuladas de datos agrupados en intervalos,

36

Sea (li-1,li] el intervalo donde hemos encontrado que por debajo estn el 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolacin lineal (teorema de Thales) como sigue:

Ejemplo: La tabla siguiente muestra la edad de las personas que recibieron atenciones mdicas brindadas por el hospital, Tabla de frecuencias de edades reportadas por la clnica Clases Punto medio Frecuencias de (Datos en aos) de cada cada clase clase 15 25 35 45 55 65 75 8 20 14 8 2 2 1 55 enfermos atendidos Frecuencias acumulada 8 28 42 50 52 54 55

37 Se determina n/2, como n = 55 entonces n/2=27.5 El intervalo mediano o la clase donde se encuentra la mediana es la segunda clase, porque le corresponde la frecuencia acumulada inmediatamente superior a la mitad de los datos.

sustituyendo en la ecuacin se obtiene

por lo que se puede concluir que el 50% de las personas atendidas en un fin de semana por el hospital tienen una edad inferior o igual a los 29,75 aos, y el otro 50% tiene una edad igual o superior a los 29,75 aos. Propiedades de la mediana 1.- Es nica y simple. 2.- Los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media. Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimtricas.

Si se cambia la ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media:

En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observacin extrema. Este no ha sido el caso para la mediana. 3.- Es de clculo rpido y de interpretacin sencilla. 4.- Si una poblacin est formada por 2 subpoblaciones de medianas Med1 y Med2, slo se puede afirmar que la mediana, Med, de la poblacin est comprendida entre Med1 y Med2

5.- Puede ser calculada aunque el intervalo inferior o el superior no tenga lmites. 6.- La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor.

Esta expresin es un mnimo. 7.- El mayor defecto de la mediana es que tiene unas propiedades matemticas complicadas, lo que hace que sea muy difcil de utilizar en inferencia estadstica.

38 Otro ejemplo Obtener la media aritmtica y la mediana en la distribucin siguiente. Determinar grficamente cul de los dos promedios es ms significativo. li-1 - li 0 - 10 10 - 20 20 - 30 ni 60 80 30

30 - 100 20 100 - 500 10

Solucin:

li-1 - li 0 - 10 10 - 20 20 - 30 30 - 100 100 - 500

ni 60 80 30 20 10 n=200

ai 10 10 10 70

xi 5 15 25 65

xi ni 300 1.200 750 1.300 3.000

Ni 60 140 170 60 80 30

190 2,9 200 0,25

400 300

La media aritmtica es:

La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo mediano es [10;20). As:

Para ver la representatividad de ambos promedios, se realiza el histograma de los datos, y se observa que dada la forma de la distribucin, la mediana es ms representativa que la media.
Para esta distribucin de frecuencias es ms representativo usar como estadstico de tendencia central la mediana que la media.

39

5.1.3. La moda o modo (Mo) Es el valor ms frecuente. Su clculo es el ms simple de los tres correspondientes a estadsticos de centralidad pero la moda es el estadstico de mayor varianza. La moda puede no existir y cuando existe no es necesariamente nica. No tiene sentido en muestras pequeas en las que la aparicin de coincidencias en los valores es con gran frecuencia ms producto del azar que de otra cosa. La media es el estadstico de centralidad ms usado cuando uno espera que la poblacin tenga una distribucin ms o menos simtrica, sin estar clasificada en grupos claramente diferenciados. En el caso de distribuciones muy asimtricas, con una cola muy larga, la mediana es, normalmente, el valor de eleccin dado que la media suele estar desplazada respecto al ncleo principal de observaciones de la variable. En estos casos, la mediana es el valor que mejor expresa el punto donde se acumulan mayoritariamente las observaciones de la variable. En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la media y la mediana carecen, normalmente, de sentido y los valores que ms claramente reflejan el comportamiento de las observaciones de la variable son las modas. La moda de una serie simple (o datos no agrupados) Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3, para la obtencin de la moda se debe detectar cual es el valor que se repite mayor cantidad de veces. En este caso es: Mo = 1 La moda de una serie de frecuencias (o datos agrupados) Para datos agrupados sin intervalos En este caso la Moda es el valor de la variable que tiene mayor frecuencia absoluta o relativa. En el ejemplo del nmero de materias aprobadas por estudiante,

40
Materias aprobadas Frecuencia 11 18 28 39 33 29 7 8 7 4 2 1 1 188 1 189 Porcentaje 5,8 9,5 14,8 20,6 17,5 15,3 3,7 4,2 3,7 2,1 1,1 ,5 ,5 99,5 ,5 100,0 Porcentaje vlido 5,9 9,6 14,9 20,7 17,6 15,4 3,7 4,3 3,7 2,1 1,1 ,5 ,5 100,0 Porcentaje acumulado 5,9 15,4 30,3 51,1 68,6 84,0 87,8 92,0 95,7 97,9 98,9 99,5 100,0

Vlidos

Perdidos Total

0 1 2 3 4 5 6 7 8 9 12 13 14 Total Sistema

La moda es 3, porque es el valor de la variable que tiene la mayor frecuencia absoluta y/o relativa. Se interpreta diciendo que hay mayor cantidad de estudiantes que tienen 3 materias aprobadas. Grficamente, se detecta la moda porque es el valor de la variable al cual, en el grfico de bastones, le corresponde el bastn ms alto.
50

40

Valor Frecuencias absolutas

30

20

10

0 0 1 2 3 4 5 6 7 8 9 12 13 14

Materias aprobadas

Para datos agrupados con intervalos En este caso habr un intervalo al cual le corresponde la mxima frecuencia absoluta y/o relativa, el intervalo modal. En ese intervalo se aplica la frmula de interpolacin para calcular el valor modal.

Donde, fi es la frecuencia absoluta del intervalo modal; fi-1 es la frecuencia absoluta del intervalo premodal; fi+1 es la frecuencia absoluta del intervalo posmodal; ai es la amplitud del intervalo modal y li es el lmite inferior del intervalo modal. En el ejemplo de las edades de los pacientes atendidos en la clnica durante un fin de semana, Tabla de frecuencias de edades reportadas por la clnica Clases Punto medio Frecuencias de (Datos en aos) de cada cada clase clase 15 25 8 20 Frecuencias acumulada 8 28

41 35 45 55 65 75 14 8 2 2 1 55 enfermos atendidos La mayor frecuencia absoluta es 20, por lo tanto, el intervalo modal es 20 x < 30, entonces, aplicando la frmula en ese intervalo, se obtiene la Mo. Mo = 20 + {(20-8)/ [(20-8) + (20-14)]}10 = 26,67 27 aos Significa que, entre los pacientes atendidos, hay mayor cantidad que tiene 27 aos. Grficamente, la moda se calcula en el histograma de frecuencias absolutas o relativas, como se indica en el grfico siguiente: fi 42 50 52 54 55

Mo

xi

Se hablar de una distribucin bimodal de los datos, cuando se encuentren dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Una distribucin trimodal de los datos es en la que se encuentran tres modas. Si todas las variables tienen la misma frecuencia es que no hay moda. Otras medidas de posicin Cuartiles La mediana, como se vi, separa en dos mitades el conjunto ordenado de observaciones. Se puede an dividir cada mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de esas divisiones se conoce como Cuartil y se simboliza mediante la letra Q agregando un subndice segn a cual de los cuatro cuartiles se estemos refiera. Se llama primer cuartil Q1 a la mediana de la mitad que contiene los datos ms pequeos. Este cuartil, corresponde al menor valor que supera o que deja por debajo de l - a la cuarta parte de los datos. Se llama tercer cuartil Q3 a la mediana de la mitad formada por las observaciones ms grandes. El tercer cuartil es el menor valor que supera o que deja por debajo de l - a las tres cuartas partes de las observaciones. Con esta terminologa, la mediana es el segundo cuartil Q2 y el cuarto cuartil Q4 coincide con el valor que toma el ltimo dato, luego de ordenados. Cuartiles para datos sin agrupar Tal como se concluye de lo anterior, el clculo ser idntico al de la mediana para el segundo cuartil. El primer cuartil ser en caso de que N sea impar y

42

en caso de que N sea par Y el tercer cuartil ser en caso de que N sea impar y

en caso de que N sea par

Cuartiles para datos agrupados Sin duda el clculo para el cuartil dos es idntico al de la mediana. Solo quedan por ver los otros dos cuartiles, que sern anlogos a los clculos de la mediana, pero con las salvedades correspondientes

Quintiles Los quintiles son valores que resultan de dividir la poblacin (el N de las observaciones) en cinco partes iguales (20% en c/u) Clculo para datos sin agrupar El quintilg se obtiene identificando el valor que para la variable en cuestin tiene el individuo que ocupa la posicin que corresponde al (g.20) % de la poblacin. Clculo para datos agrupados a partir de la frecuencia absoluta

Deciles Los deciles son valores que resultan de dividir la poblacin (el N de las observaciones) en diez partes iguales (10% en c/u) Clculo para datos sin agrupar El decilh se obtiene identificando el valor que para la variable en cuestin tiene el individuo que ocupa la posicin que corresponde al (h.10) % de la poblacin. Clculo para datos agrupados a partir de la frecuencia absoluta

43 Percentiles Los percentiles son valores que resultan de dividir la poblacin (el N de las observaciones) en cien partes iguales (1% en cada una). Clculo para datos sin agrupar El percentilj se obtiene identificando el valor que para la variable en cuestin tiene el individuo que ocupa la posicin j%. Clculo para datos agrupados a partir de la frecuencia absoluta

5.2. Medidas de dispersin o variabilidad


Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser. As se sabe si todos los casos son parecidos o varan mucho entre ellos. 5.2.1. El rango o recorrido estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Se le suele simbolizar con R. Requisitos del rango

Se ordenan los nmeros segn su tamao. Se resta el valor mnimo del valor mximo. Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9. Sus

valores se encuentran en un rango de:


Rango = (9-4) =5 El medio rango de un conjunto de valores numricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es:

Ejemplo: Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviendolo mediante la correspondiente frmula sera:

El rango intercuartlico, RI es, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir

44

Esto dice en cuntas unidades de los valores que toma la variable se concentra el cincuenta por ciento central de los casos. Mide la variabilidad de la mitad central de los datos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza). 5.2.2. Varianza y desviacin estndar La varianza (tambin denominada variancia, aunque esta denominacin es menos utilizada) es una medida estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadrticas de las puntuaciones respecto a su media aritmtica. Suele ser representada con la letra griega o una V en mayscula.

La expresin de la varianza muestral, en su frmula de trabajo, es la siguiente:

Y la expresin de la varianza poblacional, es:

Propiedades

La varianza es siempre positiva o 0: Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado. Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern. Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4. Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica.

Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0.

Yi = X i + k

Si a los datos de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

45

Propiedad distributiva: V(X Y) = V(X) + V(Y)

Esta varianza muestral se obtiene como la suma de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. Como ejemplo, se consideran 10 personas de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

la varianza sera:

S2 =
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, o desviacin estndar, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos. Esta medida viene representada en la mayora de los casos por S, dado que es su inicial de su nominacin en ingls. Desviacin tpica muestral

En el ejemplo anterior es:

S = 427,61 = 20,68 aos

Se interpreta diciendo que la dispersin de los datos mayores que la media por encima de la media, y de los valores menores que la media por debajo de la media, es de 20,68 aos.

Desviacin tpica poblacional

Cuando los datos estn agrupados, sea con o sin intervalos, cada desviacin al cuadrado deber multiplicarse por la correspondiente frecuencia absoluta antes de realizar la suma. La desviacin estndar es una medida del grado de dispersin de los datos del valor promedio. Una desviacin estndar grande indica que los puntos estn lejos de la media, y una desviacin pequea indica que los datos estn agrupados cerca a la media. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar son 7, 4 y 1, respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un

46 grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces se considera que las medidas contradicen la teora. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar muestra la agrupacin de los datos alrededor de un valor central (la media o promedio). 5.2.3. Coeficiente de variacin Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin:

CV de la variable peso =

CV de la variable TAS = A la vista de los resultados, se observa que la variable peso tiene mayor dispersin. 5.2.4. Desviacin media y desviacin mediana La desviacin media (DM) es la media aritmtica de las desviaciones absolutas de los valores de la variable con respecto a la media. Para serie simple la frmula es: DM = [ xi i= 1 k n

]/n
x

Para serie de frecuencias la frmula es: DM = [ xi i= 1

fi ] / n

siendo n =

f
i= 1

La interpretacin es, por ejemplo, si la variable peso de los estudiantes presenta una DM = 12 kg, significa que, en promedio, el peso se desva del peso promedio en 12 kg. La desviacin mediana (DMe) es la media aritmtica de las desviaciones absolutas de los valores de la variable con respecto a la mediana. Para serie simple la frmula es: DM = [ xi - Me
i= 1 k n

]/n fi ] / n siendo n =

Para serie de frecuencias la frmula es: DM = [ xi - Me


i= 1

f
i= 1

47 La interpretacin es, por ejemplo, si la variable peso de los estudiantes presenta una DM e = 10,5kg, significa que, en promedio, el peso se desva del peso mediano en 10,5 kg.

5.3. Medidas de distribucin: Asimetra y Kurtosis


Las medidas de distribucin permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representacin grfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la informacin. Su utilidad radica en la posibilidad de identificar las caractersticas de la distribucin sin necesidad de generar el grfico. Sus principales medidas son la Asimetra y la Curtosis. 5.3.1. Asimetra Esta medida permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmtica). La asimetra presenta tres estados diferentes, cada uno de los cuales define de forma concisa como estn distribuidos los datos respecto al eje de asimetra. Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran por encima del valor de la media aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetra negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.

El Coeficiente de asimetra, se representa mediante la ecuacin matemtica, As = ( x - Mo)/ S

cuyo campo de variacin es:

-1 As 1

(As = 0): Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difcil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos ( 0.5). (As > 0): La curva es asimtrica positiva por lo que los valores se tienden a reunir ms en la parte izquierda que en la derecha de la media. (As < 0): La curva es asimtrica negativa por lo que los valores se tienden a reunir ms en la parte derecha de la media. Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia que separa la aglomeracin de los valores con respecto a la media. 5.3.2. Curtosis Esta medida determina el grado de concentracin que presentan los valores en la regin central de la distribucin. Por medio del Coeficiente de Curtosis, se puede identificar si existe una gran concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja concentracin (Platicrtica). Para calcular el coeficiente de Curtosis (K) se utiliza la ecuacin:

48 (Q3 Q1) K= P90 P10 su campo de variacin es 0 K 0,5

(K 0) la distribucin es Platicrtica (K 0,5) la distribucin es Leptocrtica (K 0,25) la distribucin es Mesocrtica

5.4. Media geomtrica


La media geomtrica (MG), de un conjunto de n nmeros positivos se define como la raz ensima del producto de los n nmeros. Por tanto, la frmula para la media geomtrica es dada por

Existen dos usos principales de la media geomtrica: 1. Para promediar porcentajes, ndices y cifras relativas y 2. Para determinar el incremento porcentual promedio en ventas, produccin u otras actividades o series econmicas de un periodo a otro.

Ejemplo Supngase que las utilidades obtenidas por una compaa constructora en cuatro proyectos fueron de 3, 2, 4 y 6%, respectivamente. Cul es la media geomtrica de las ganancias? En este ejemplo y as la media geomtrica es determinada por

y as la media geomtrica de las utilidades es el 3.46%. La media aritmtica de los valores anteriores es 3.75%. Aunque el valor 6% no es muy grande, hace que la media aritmtica se incline hacia valores elevados. La media geomtrica no se ve tan afectada por valores extremos. Propiedades El logaritmo de la media geomtrica es igual a la media aritmtica de los logaritmos de los valores de la variable. Ventajas:

49

considera todos los valores de la distribucin y es menos sensible que la media aritmtica a los valores extremos. Desventajas: es de significado estadstico menos intuitivo que la media aritmtica, su clculo es ms difcil y en ocasiones no queda determinada; por ejemplo, si un valor xi=0 entonces la media geomtrica se anula.

Solo es relevante la media geomtrica si todos los nmeros son positivos. Como hemos visto, si uno de ellos es 0, entonces el resultado es 0. Si hubiera un nmero negativo (o una cantidad impar de ellos) entonces la media geomtrica sera o bien negativa, o bien inexistente en los nmeros reales. En muchas ocasiones se utiliza su trasformacin en el manejo estadstico de variables con distribucin no normal. La media geomtrica es relevante cuando varias cantidades son multiplicadas para producir un total. Media geomtrica ponderada Al igual que en una media aritmtica pueden introducirse pesos como valores multiplicativos para cada uno de los valores con el fin de ponderar o hacer pesar ms en el resultado final ciertos valores, en la media geomtrica pueden introducirse pesos como exponentes:

Donde las i son los pesos.

5.4. Media armnica


La media armnica, simbolizada H, de una cantidad finita de nmeros es igual al recproco, o inverso, de la media aritmtica de los recprocos de dichos valores As, dados los nmeros a1,a2, ... , an, la media armnica ser igual a:

La media armnica resulta poco influida por la existencia de determinados valores mucho ms grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho ms pequeos que el conjunto. La media armnica no est definida en el caso de la existencia en el conjunto de valores nulos. Propiedades 1. La inversa de la media armnica es la media aritmtica de los inversos de los valores de la variable. 2. Siempre se puede pasar de una media armnica a una media aritmtica transformando adecuadamente los datos. Ventajas

Considera todos los valores de la distribucin y en ciertos casos, es ms representativa que la media aritmtica. Desventajas La influencia de los valores pequeos y

50

El hecho que no se puede determinar en las distribuciones con algunos valores iguales a cero; por eso no es aconsejable su empleo en distribuciones donde existan valores muy pequeos. Se utiliza para promediar velocidades, tiempos, rendimientos, en general promedios por unidad. Media Armnica ponderada Ejemplo: calcular la media armnica de la siguiente distribucin: xi 100 120 125 140 ni 10 5 4 3

Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos la tabla con 2 columnas adicionales: xi 100 120 125 140 ni 10 5 4 3 N= 22 1/xi 1/100 1/120 1/125 1/140 ni/xi 0.1 0.042 0.032 0.021 0.195 xini 1000 600 500 420 2520

H=

n 22 = = 112,82 ni 0,195 x i

X=

x i n i
n

2520 = 114,545 22

Entre la media aritmtica, la media geomtrica y la media armnica se presenta la siguiente relacin: H<G< x 6. UN GRFICO MUY DESCRIPTIVO Diagramas de caja o boxplots Un diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Es un grfico que suministra informacin sobre la mediana, el cuartil Q1 y Q3, sobre la existencia de valores atpicos y la simetra de la distribucin. Este diagrama se usa cuando se necesita la mayor informacin acerca de la distribucin de los datos, la ventaja que posee con respecto a los dems diagramas es que este grfico posee caractersticas como centro y dispersin de los datos, y la principal desventaja que posee es que no presenta ninguna informacin acerca de las frecuencias que presentan los datos. xi

51

Nombre de la Variable Ejemplo: de una base de datos de 230 estudiantes de Estadstica, se represent grficamente el peso de los estudiantes, diferenciados por sexo, obteniendo el siguiente boxplot:
110 100 90
199

232 141 23 42

Peso de los estudiantes (en kg.)

80 70 60 50 40 30
N= 93

32 12 129

137

Masculino

Femenino

Sexo de los estudiantes

Interpretacin Por la ubicacin de las cajas en el diagrama se deduce que el peso de los varones es bastante mayor que el peso de las mujeres. El grupo est constituido por 93 varones y 137 mujeres. Las medianas ascienden aproximadamente a 69kg en los varones y a 53kg en las mujeres. Para los varones Q 1 es 64kg y Q3 es 76kg, mientras que las mujeres presentan Q 1 igual a 49kg y Q3 de 57kg, aproximadamente. Adems, el peso de los varones registra mayor dispersin que el de las mujeres (porque la caja es ms alta). La distribucin del peso de las mujeres es casi simtrica, mientras que la del peso de los varones tiene asimetra positiva (mayor concentracin en los menores valores de la variable). Tambin puede verse que el peso de las mujeres tiene mayor kurtosis. Existe mayor cantidad de valores atpicos en los pesos de las mujeres que en los pesos de los varones. Como puede apreciarse por los comentarios anteriores, este diagrama brinda informacin sobre las medidas de posicin, de dispersin, de asimetra y kurtosis. Tambin sobre diferentes categoras de alguna variable cualitativa (como el sexo de los estudiantes), sobre la cantidad de individuos en cada grupo, y sobre los valores atpicos. En sntesis, el boxplot proporciona una visin general de la distribucin de la variable en estudio. Como dibujarlo

Ordenar los datos y obtener el valor mnimo, el mximo, y los cuartiles Q1, Q2 y Q3. Dibujar un rectngulo con Q1 y Q3 como extremos e indicar la posicin de la mediana (Q2) mediante una lnea. Calcular los lmites superior e inferior, Li y Ls, que identifiquen a los valores atpicos. Li = Q1 1,5(Q3 Q1) y Ls = Q3 + 1,5(Q3 Q1)

52

Considerar como atpicos los puntos localizados fuera del intervalo (Li, Ls). Dibujar las lneas que van desde cada extremo del rectngulo central hasta el valor ms alejado no atpico. Marcar como atpicos todos los datos que estn fuera del intervalo (Li, Ls).

Referencias Pita Fernndez S, Prtega Daz, S. (2001). Estadstica descriptiva de los datos. Unidad de Epidemiologa Clnica y Bioestadstica. Complexo Hospitalario Juan Canalejo. A Corua (Espaa). Universidad de Antioquia. Estadstica Descriptiva. Estadstica Matemtica I. Facultad de Ingeniera. http://ftp.medprev.uma.es/libro/node15.htm http://dieumsnh.qfb.umich.mx/estadistica/mediana.htm http://www.bioestadistica.uma.es/libro/node16.htm http://www.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm http://www.spssfree.com/spss/analisis3.html

Vous aimerez peut-être aussi