Vous êtes sur la page 1sur 10

Gu 1: Generalidades. Distribucin de Frecuencias.

a o Estadigrafos de posicin y dispersin o o


Instituto de Educacin a Distancia IDEAD o Universidad del Tolima 22 de septiembre de 2012

Objetivo
Diferenciar, conocer y aplicar los conceptos fundamentales en lo correspondiente al anlisis a exploratorio de datos.

Preguntas generadoras
Cul es el papel de la estad a stica en La investigacin? o Cmo podemos justicar una toma de decisin como Profesional? o o En que me apoyo para tomar est decisin? a o

1.

Algunos conceptos

En el estudio de la Ciencia es importante tener la capacidad de identicar ideas principales en textos con lenguaje tcnico. Para esta asignatura se maneja una serie de trminos los cuales e e tienen un signicado particular en este contexto.

1.1.

Variable aleatoria

Es una caracter stica de una poblacin determinada, susceptible de tener distintos valores (meo dible) que puede ser observada en determinado fenmeno natural, social, econmico, pol o o tico etc. El trmino aleatorio corresponde a la indeterminacin que existe en el momento de medir dicha e o caracter stica. En adelante se hablara de variable solamente rerindose a la variable aleatoria. e Una variable se puede ver como un conjunto de datos que corresponden a las mediciones de cada uno de los elementos objeto de estudio. Por ejemplo, si la caracter stica de estudio en un conjunto de 50 personas (variable) es la Edad entonces esta variable se va a identicar como un conjunto de 50 nmeros que corresponde a las edades de las personas estudiadas. u Las variables por lo general se representan con letras maysculas y sus valores particulares con u minsculas, es decir, si se hace referencia a los salarios devengados por un grupo de trabau jadores la variable salario estar representado por una letra mayscula, en este caso Xi y varios a u

salarios de diferentes trabajadores en particular, estar representados con la letra minscula an u correspondiente, as : x1 = 180,000, x2 = 190,000, x3 = 480,00, etctera e En general, una variable se puede representar: X = (x1 , x2 , x3 , ..., xn ) donde el nmero n es el total de datos conocido como tamao de la muestra u n

1.1.1.

Clasicacin de las Variables o

Las variables se clasican de acuerdo a los valores que toma que pueden ser nmeros o categor u as. Existen muchas clasicaciones, pero en este curso estudiaremos las siguientes: 1. Variables Cuantitativa o Numrica: Son aquellas variables que, como su nombre lo e indica, toman valores numricos. A estas variables le corresponde la escala de medicin de e o intervalo y razn o proporcin. o o Si dichos nmeros son enteros (Z = {...4, 3, 2, 1, 0, 1, 2, 3, 4, ...}) se denominan discu retas y en caso contrario si es cualquier real (R) es llamada continua. Por ejemplo, la Edad es una variable de tipo discreto ya que las edades se dan en valores enteros, mientras que el Peso es continua ya que las mediciones toman cualquier valor (1,52, 1,65, 1,72, ...) 2. Variable Cualitativa o Categrica Son aquellas variables cuyos valores corresponden a o cualidades o categor es decir; que indican categor o son etiquetadas numricamente as, as e o con nombres. Son las que se reeren a clasicaciones, como: estado civil, profesin, color de los ojos, o preferencia por una marca etc., en otras palabras, son aquellas que no aparecen en forma numrica, sino como categor o atributos. e as Se puede encontrar con categor que poseen algn tipo de orden. Por ejemplo, la varias u able rendimiento acadmico cuyos posibles valores son, excelente, bueno, regular e y deciente tiene un orden natural. Las variables con esta propiedad se conocen como ordinales. Si no tienen alguna forma naturalde ordenacin se les llama nominal. Un ejemplo es la o variable Deseo de adquicisin de veh o culo cuyos posibles valores son, Si y No.

2.

Instrumentos de medicin o

Es importante denir antes de iniciar una estad stica, las formas mediante las cuales vamos a recoger la informacin de la muestra y que atributos (variables) de dicha muestra nos interesa o analizar. Algunos instrumentos se presentan a continuacin: o

1. La encuesta Es un instrumento diseado para recoger informacin directamente de la fuente. Se basa n o en consultar acerca del inters de la investigacin, por lo general, a travs de pregunta e o e cerradas o abiertas. Dichas preguntas obedecen al benecio que se desea obtener de la investigacin, es decir, si el inters de la investigaciones averiguar sobre los niveles de ateno e cin en una ocina bancaria, de nada sirve preguntar sobre cmo se siente los usuarios o o abordando el sistema de transporte publico. Es pertinente aclarar que antes de llevar a cabo una encuesta se debe precisar a cuntas a personas se aplicar (tamao de la muestra), determinando el lugar, estrato, sexo, edad y a n dems aspectos pertinentes a la informacin que se desea obtener. a o Las preguntas abiertas aparentemente son ms fciles de disear; pero generan situaciones a a n posteriores como tener que agruparlas por categor de anlisis, organizarlas y convertirlas as a luego en tablas estad sticas. 2. La entrevista La entrevista es muy utilizada en investigacin social, y sus caracter o sticas son similares a las del cuestionario, siendo la principal diferencia el hecho de que es el encuestador u observador quien anota las respuestas a las preguntas. La utilizacin de este instrumento requiere de una mayor habilidad por parte del encueso tador u observador para llevar el tema de la entrevista, debido a que las respuestas son por lo general abiertas y admiten implementar nuevas preguntas no vislumbradas por el encuestador inicialmente. 3. Rejilla de observacin o Son diseadas con el objetivo de tomar informacin de la muestra sin afectar sus elementos. n o Consiste en un formato que contiene las variables a estudiar con sus respectivas respuestas posibles el cual es resuelto por el investigador utilizando solo la observacin. o 4. Censo Es la medicin o anlisis de cada componente de la poblacin. En algunos casos es neceo a o sario inspeccionar a cada persona o elemento de la poblacin que deseamos descubrir, a o esto lo llamamos enumeracin completa o censo. Este sirve para evaluar el estado de la o poblacin de un pa en un momento dado, generalmente cada diez aos. Es un registro o s n donde se concentra toda la informacin referente a la poblacin o riqueza de una nacin o o o o localidad, es un estudio exhaustivo ya que se realiza en toda la poblacin y los resultados o son raticados en un lapso de tiempo largo. El contexto de la investigacin, la delimitacin de tiempo y lugar generan el instrumento a utilizar o o y la forma de su diseo, teniendo como base buenos instrumentos; de esta forma, ser mejor y n a se obtendr mayor ecacia en las conclusiones estad a sticas. Actividad 1 Primer avance 1. Estructurar el problema de investigacin correspondiente al primer informe. o 2. Disear al menos una hiptesis para el problema establecido. n o 3

3. Escoger el instrumento de medicin a utilizar y clasicar las variables objeto del estudio. o Esta actividad debe realizarse y enviarse en un archivo al correo rav1125@hotmail.com. Plazo mximo: sbado 15 de septiembre de 2012 6 pm. a a

3.

Orden y tabulacin o

Para la organizacin y tabulacin de la informacin recolectada se utilizar como herramienta o o o a tecnolgica el programa EXCEL y Infostat versin de evaluacin. o o o Para organizar el conjunto total de datos (todas las variables) se puede utilizar Excel escribiendo los datos de cada variable en forma de columna de tal forma que cada la corresponde a los resultados del primer objeto en todas las variables.

Es importante tener en cuenta que los datos se deben organizar de acuerdo a su propiedad de variable, es decir, si los datos provienen de una variable cualitativa o una cuantitativa. En el caso cuantitativo (numrico) los datos recolectados deben ser ordenados, normalmente de e menor a mayor, lo que facilitar su posterior conteo por clases en el caso de agrupacin. Luego a o se realiza un conteo para ver con que frecuencia se repite cada resultado. Se acostumbra que si la variable toma mas de 15 valores distintos se deben agrupar en intervalos. La informacin obtenida en el proceso anterior se introduce en una tabla llamada tabla de o frecuencias.

3.1.

Tabla de frecuencias

Por ejemplo, si se toma la variable Edad de la tabla anterior, la tabla de frecuencias ser a:

33 30 42 48 54

55 44 50 50 42

Edad 35 28 50 32 50 41 29 42 28 26

32 35 52 44 44

27 48 36 29 28

LI 25 31 37 43 49

Tabla de frecuencia de Edad LS MC FA FR FAA FRA 31 28 8 0,27 8 0,27 37 34 6 0,20 14 0,47 43 40 4 0,13 18 0,60 49 46 5 0,17 23 0,77 55 52 7 0,23 30 1

Como se puede observar los datos fueron agrupados ya que se tienen mas de 15 valores distintos. En la agrupacin se puede identicar dos elementos importantes, el l o mite inferior (LI) y el superior (LS) que forman un intervalo en el cual yo identico la informacin. o Las siguientes columnas serian: MC Marca de clase: Corresponde al punto medio del intervalo. Su calculo es muy sencillo, basta con calcular el promedio entre los l mites inferior y superior: LI + LS 2 FA Frecuencia Absoluta: Es la cantidad de datos que se encuentran dentro del intervalo. La suma de las frecuencias debe ser igual al total de los datos (n). F Ai = n FR Frecuencia Relativa: Es la proporcin de la frecuencia con respecto al total, en otras o palabras se puede tener como el porcentaje para cada frecuencia. F Ri = F Ai n

FAA Frecuencia Absoluta Acumulada: Es la suma acumulada de las frecuencias absolutas. FRA Frecuencia Relativa Acumulada: Es la suma acumulada de las frecuencias relativas. En el caso cualitativo la tabla se realiza de forma similar pero solo se incluyen tres columnas, la categor o respuesta de la variable, la frecuencia absoluta y la proporcin en porcentaje. Por a o ejemplo, tomando la variable Distancia del compresor se tiene: Distancia del Compresor CERCANO RUIDOSO CERCANO RUIDOSO MODERADO CERCANO RUIDOSO CERCANO RUIDOSO AISLADO AISLADO CERCANO RUIDOSO MODERADO CERCANO RUIDOSO AISLADO AISLADO MODERADO MODERADO AISLADO MODERADO CERCANO RUIDOSO AISLADO AISLADO CERCANO RUIDOSO MODERADO MODERADO AISLADO CERCANO RUIDOSO CERCANO RUIDOSO AISLADO AISLADO CERCANO RUIDOSO AISLADO AISLADO

Si se observa en este caso es imposible hablar de intervalos pero si se puede realizar una tabla de frecuencias que resume la informacin: o Frecuencia Categor as Frec AISLADO 12 CERCANO RUIDOSO 11 MODERADO 7

Porcentaje 0,40=40 % 0,37=37 % 0,23=23 %

Aunque las tablas de frecuencias describen de forma bien precisa la informacin, en algunas o ocasiones su lectura no es llamativa, para lo cual se utilizan representaciones grcas. a

3.2.

Representacin Grca o a

Existen varios grafos para describir una variable aleatoria. En este curso estudiaremos los histogramas, diagramas de barras, Diagrama circular y Pol gono de frecuencias. 3.2.1. Histograma

Es una representacin en forma de barras, donde la supercie de dada barra es proporcional a la o frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase; es decir, n la mitad del intervalo en el que se esta agrupando los datos, se ubica en la mitad de la barra ya que sus extremos son los limites del intervalo. El histograma se utiliza cuando se representan variables continuas, como e edades o distancias. Por ejemplo, el histograma correspondiente a la tabla de frecuencias de la variable Edad seria:

3.2.2.

Diagrama de barras

El diagrama de barras es similar al histograma con la diferencia de que en el eje horizontal no se puede hablar de intervalos ni marca de clase sino de categor es decir, que las barras se as, etiquetan con las categor de las variables. as

Como se puede ver, los diagramas de barras son los correspondientes histogramas para variables de tipo cualitativo. Por ejemplo, el diagrama de barras de la variable Distancia del compresor es

3.2.3.

Diagrama circular

Es una gura usada sobre todo para representar porcentajes de las distribuciones de frecuencia de variables cualitativas. En este caso, se divide un circulo en sectores proporcionales con el porcentaje a representar. Para el ejemplo, se puede observar:

3.2.4.

Pol gono de frecuencias

Un pol gono de frecuencias es el grco que se construye uniendo el punto ms alto en un a a histograma de frecuencias por lo general estos puntos mas altos son los puntos medios de las barras que corresponden a las marcas de clase. 3.2.5. Ojiva

Una grca de una distribucin absoluta acumulada en forma de pol a o gono, se denomina ojiva. Los valores de los datos estn en el eje horizontal y las frecuencias acumuladas se muestran en a el eje vertical. Por ejemplo, la ojiva correspondiente a la variable Edad es: Las ojivas no son muy usuales y se hace para variables de tipo cuantitativo, preferiblemente. 7

4.

Medidas de Posicin o

Tambin conocidas como medidas de tendencia central, son elementos que describen variables e cuantitativas (numricas) y que tienen como objetivo primordial, la posibilidad de comparar e datos variables entre ellas mismas respecto de dicha medida. Como su nombre lo indica su valor se encuentran muy cerca del centro de la muestra. En este curso se vera las medias ms utilizadas para describir un conjunto de datos: a

4.1.

Media Aritmtica (x) e

La media Aritmtica o simplemente Media, es el valor promedio de un conjunto de datos. Este e valor se obtiene sumando todos los datos y dividiendo la respuesta por el nmero de datos. u La media se denota con una barra sobre la letra que representa la variable, es decir, si X es la variable Edad la media de la edad es x y es x=
n i=1 xi

x1 + x2 + ... + xn n

La media tiene algunas propiedades importantes: 1. Su valor es unico para un conjunto de datos. 2. Se usa con frecuencia para comparar poblaciones. 3. Tiene la propiedad de equilibrar las desviaciones respecto a su propio valor, por esto es llamada tambin punto de equilibrio e 4. El valor de la media depende de cada una de las medidas que forman la serie de datos, y se halla afectada excesivamente por los valores extremos de la serie de datos 5. La media es una medida de posicin que se calcula con todos los datos de la serie de valores o y es susceptible de operaciones algebraicas.

4.2.

Mediana (M e)

La mediana es el valor de la variable que ocupa el puesto de la mitad en una serie de datos ordenados de menor a mayor dejando por debajo de s a la mitad de los datos. Propiedades: 1. La mediana divide el pol gono de frecuencia en dos partes iguales. 8

2. Es menos sensible que la media a oscilaciones de los valores de la variable. 3. No se ve afectada por la dispersin. De hecho es mas representativa que la media aritmtica o e cuando la poblacin es bastante heterognea. o e

4.3.

La moda (M o)

La moda es el valor de los datos que se presenta con ms frecuencia. De esta forma la moda es a una medida importante de localizacin de datos cualitativos. o

4.4.

Media ponderada

La media ponderada varia respecto de la media aritmtica en que el porcentaje de representacin e o de los valores de la muestra es diferente, Media ponderada = donde w es valor de peso para cada dato. wi x i w

4.5.

Media geomtrica e

La media geomtrica (MG) de un conjunto de nmeros positivos se dene como la ra n-sima e u z e del producto de n nmeros. Por consiguiente: u MG = n x1 x2 ...x3

5.

Relacin entre la media, la mediana y la moda o

Cuando se estudia una variable, interesa conocer el comportamiento de la informacin que la o compone, de esta forma se puede hablar de distribucin simtrica o asimtrica. o e e En distribuciones totalmente simtricas, la media, la mediana y la moda coinciden, localizndose e a en el mismo valor. En cambio en distribuciones de forma asimtrica, la siguiente relacin se e o mantiene aproximadamente: x M o = 3(M e M e)

6.

Medidas de dispersin o

Los resultados obtenidos en las medidas de tendencia central, en gran cantidad de los casos no emiten resultados que permitan sacar conclusiones importantes sobre una muestra. Por ejemplo, El promedio del peso de los productos empacados esta en 67 gramos, este dato en control de calidad no es muy diciente ya que nos nos informa cuntos productos tienen este peso a o qu tan cerca estn los dems. De esta idea central planteada es que se ocupan las medidas e a a de dispersin. o

6.1.

Rango

Quiz la medida ms sencilla de la dispersin en un conjunto de datos es el rango. Es la diferencia a a o entre el valor mximo y el valor m a nimo de una serie de datos.

6.2.

Varianza ( 2 )

Es una de las medidas ms usadas en estad a stica, ella a su vez da origen a otra mucho ms a signicativa: la desviacin t o pica o estndar. Se dene como la media aritmtica de los cuadrados a e de las desviaciones a la mediana aritmtica. Se simboliza con s2 para la varianza muestral y 2 e para la varianza poblacional. 2 = (xi x)2 n s2 = (xi x)2 n1

6.3.

Desviacin media o

En teor la desviacin puede referirse a cada una de las medidas de tendencia central, media, a, o mediana o moda; no obstante, el inters se suele centrar en la medida de la desviacin con ree o specto a la media, que se llamar desviacin media. a o Puede denirse como la media aritmtica de las desviaciones de cada uno de los valores con e respecto a la media aritmtica de la distribucin, e o DM = |x x| n

6.4.

Desviacin t o pica o estndar a

Es sin duda la medida de dispersin ms importante, ya que adems sirve como medida previa o a a al clculo de otro valores estad a sticos. La desviacin t o pica se dene como la ra cuadrada de la media de los cuadrados de las desviaz ciones con respecto a la media de la distribucin, o s= (x x)2 n

6.5.

Coeciente de variacin o

El coeciente de variacin es una medida relativa de variabilidad, por que evala la desviacin o u o estndar en relacin con la media. En algunos casos no puede interesar una medida estad a o stica descriptiva que indique lo grande que es la desviacin estndar en comparacin con la media. A o a o esta medida se le llama coeciente de variacin y se calcula, o CV = Desviacin estndar o a 100 = 100 M edia x

10

Vous aimerez peut-être aussi