Vous êtes sur la page 1sur 12

Apuntes

Estadstica Descriptiva

Profesora: Amer Rivas Aguilera

ESTADSTICA DESCRIPTIVA 1.- Conceptos previos.


Estadstica descriptiva: Describe, resume y analiza un conjunto de datos utilizando mtodos numricos y grficos para presentar la informacin. Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos muestrales, se realizan estimaciones de parmetros u otros con el fin de ayudar a tomar decisiones o predecir valores futuros con cierta incertidumbre. Poblacin: Llamaremos poblacin al conjunto de todos los elementos de inters para un determinado problema. A los elementos de la poblacin se les llama unidades observables o unidades de observacin. La poblacin puede ser segn su tamao de dos tipos: Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo, el nmero de alumnos de este curso. Poblacin infinita: cuando el nmero de elementos que la forman es infinito o tan grande que pudiese considerarse infinito, por ejemplo mujeres embarazadas en el ao en curso de Chile. Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este subconjunto se llama muestra. Muestra: es un determinado nmero de unidades de observacin representativas de la poblacin que tienen una caracterstica observable en comn, medible. A estos elementos los llamamos unidades muestrales. Representativa en el sentido que refleja las caractersticas esenciales y que es la clave para proveernos de una buena muestra. Las caractersticas observables de las unidades muestrales pueden ser de distintos tipos y las clasificamos como: Variables cualitativas o atributos: No toman valores numricos y describen cualidades. Las podemos subclasificar en: Ordenables: Aquellas que sugieren una ordenacin. Por ejemplo el nivel de estudios. No ordenables: Aquellas que no establecen un orden natural. Por ejemplo el color de pelo. Variables cuantitativas discretas: Toman nicamente valores enteros, corresponde en general a contar el nmero de veces que ocurre un evento. Variables cuantitativas continuas: Toman valores en un intervalo de la recta real y corresponden a medir magnitudes continuas. Recorrido de una variable: Sern aquellos valores que asume la variable. Escala de medicin: Se entender por medicin al proceso de asignar el valor a un elemento de la variable en observacin. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razn.

Escala nominal: Solo permite asignar un nombre al elemento medido. Esto la convierte en la menos informativa de las escalas e medicin. Los siguientes son ejemplos de variables con este tipo de escala: -Nacionalidad. -Color de pelo -Nmero de cdula Nacional de Identidad (aunque sea numrico, solo se usa para identificar al individuo), etc. Escala ordinal: no es muy diferente a la anterior, pero aqu se permite establecer un orden entre los elementos medidos. Ejemplo de variables con escala ordinal: -Etapas de desarrollo de un ser vivo. -Etapas de desarrollo de una enfermedad incurable, etc. Escala de intervalo: adems de todas las propiedades de la escala ordinal, esta calcula diferencias entre las mediciones. Por ejemplo: -Temperatura corporal de una persona -Sobrepeso respecto de un patrn de comparacin. -Leucocitos por mm3 de sangre. Escala de razn: permite adems de lo anterior, compara mediciones mediante un cuociente. Por ejemplo: -Altura de personas -Cantidad de litros de agua consumida por una persona en un da. La escala de intervalo tiene un cero que se establece por convencin y puede tener variaciones, es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no sujeto a variaciones, es propio de la medicin. Parmetro: Es una medida descriptiva relacionada con una variable cuando consideramos toda la poblacin. Los parmetros generalmente se designan por letras griegas. Uno de los parmetros ms utilizados es la media o promedio. Estadstico: Es una medida descriptiva relacionada con una variable, cuando sta solo se considera sobre una muestra. Los estadsticos tienen dos fines; describir la muestra que est disponible y estimar los parmetros de una poblacin que generalmente son desconocidos. Un usuario de la estadstica siempre est trabajando en dos mundos, un mundo ideal que est a nivel de la poblacin y es de naturaleza terica, es lo que desea conocer. Y el mundo de la realidad muestral, aqu es donde realmente trabajamos y esperamos que las caractersticas de nuestra muestra reflejen adecuadamente las de la poblacin.

2.- Mtodos Grficos.


Diagrama de tallo y hoja. Proporciona una representacin visual de un conjunto de datos x1, x2,xn. Para construir esta representacin cada nmero se divide en dos partes: un tallo, formado por los dgitos principales y una hoja que corresponde al primer dgito significativo (de la derecha) de cada dato. En general debe escogerse un nmero pequeo de tallos, esto hace necesario que muchas veces deba redondearse los datos a no ms de tres cifras significativas. En algunos casos puede repetirse cada tallo dos veces, asignando al primero (L), las hojas 0, 1, 2, 3, 4, y al segundo (U),

las hojas 5, 6, 7, 8, 9. Esta es una ordenacin de tipo grfica pero sin llegar a ello, utilizando las decenas y unidades de los nmeros. Ejemplo 2.1: Consideremos las notas obtenidas por este curso en una prueba de estadstica: 78 72 93 66 61 73 100 76 70 81 83 64 88 91 74 7 97 86

Para construir el grfico de tallo y hoja separamos las decenas de las unidades, las decenas son los tallos y las unidades las hojas. 6 7 8 9 10 1 8 3 3 0 6 0 8 7 4 4 2 3 6 0 7 1 3 6 1

Tambin podemos ordenar los datos para tener una mejor visin de ellos. 6 7 8 9 10 1 0 1 1 0 4 0 3 3 6 2 3 4 6 7 8 3 6 8 7

Una representacin de tallo y hoja presenta la misma informacin que la lista original, pero ms compacta, manejable y rescatable. Ejemplo 2.2 Considere estas observaciones sobre la variable aleatoria X, la magnitud de terremotos en California segn su medicin en la escala de Richter:

1.0 1.2 2.0 3.3 1.4 5.0

8.3 1.0 1.9 2.2 2.7 2.2

3.1 4.1 6.3 2.3 2.4 1.2

1.1 1.1 1.4 2.1 3.0 7.7

5.1 4.0 1.3 2.1 4.1 1.5

Los primeros dgitos de estos nmeros son 1, 2, 3, 4, 5, 6, 7, 8. Estos dgitos servirn como nombres de los tallos y las hileras. Presentamos los datos grficamente representando el nmero que aparece despus de la coma decimal como una hoja del tallo apropiado. De aqu puede deducirse que estos datos se aproximan al extremo inferior de la escala. Muchos terremotos eran suaves. Si este ejemplo fuera una indicacin precisa de la gravedad de los terremotos en California, sera bastante inusual observar un terremoto grave. Obsrvese tambin que la visualizacin no es simtrica. Hay ms bien una cola larga o ahusada hacia el

extremo superior o derecho de la visualizacin. Se dice que los datos de este tipo estn sesgados hacia la derecha. Si la cola larga estuviera hacia la izquierda, diramos que los datos estn sesgados hacia la izquierda. (Basado en los datos hallados en Robert lacopi, Earthquake Country, Lae Books, Menlo Park, Calif., 1971).

Ejemplo 2.3 En un estudio del crecimiento de los varones se obtuvieron estas observaciones sobre X, el permetro en centmetros de la cabeza de un nio al nacer. 33.1 34.5 33.7 33.4 33.7 36.5 34.6 35.8 36.0 34.9 34.8 34.1 34.2 34.5 34.2 33.8 33.9 34.0 36.1 34.2 34.7 33.6 34.7 35.1 34.2 34.3 34.6 35.2 35.1 35.3 35.6 35.2 34.3 34.6 34.2

Si utilizamos los primeros dos dgitos como tallos, slo tendremos cuatro tallos, 33, 34, 35, 36. Puesto que no es suficiente para que podamos detectar la forma, utilizaremos dos veces cada uno de ellos y formaremos un grfico de tallo doble. La visualizacin se muestra en la Figura 1.4. Obsrvese que en cada caso las hojas inferiores O, 1, 2, 3, 4 estn trazadas en el primer tallo seguidas por las hojas superiores 5, 6, 7, 8, 9. De aqu podemos observar que los datos tienden a agruparse en el rea de 34 centmetros. Aunque no hay una simetra perfecta, estos datos son ms simtricos que los datos del terremoto del Ejemplo 2.2 33 33 34 34 35 35 36 36 1 7 1 5 1 8 0 5 4 7 2 6 2 6 1

8 2 9 1

9 0 8 3

6 2 2 3 3 2 5 7 7 6 6 2

Cuando disponemos de un gran nmero de datos este tipo de ordenamiento es difcil de realizar, por lo que necesitamos un sistema alternativo para agruparlos de manera que podamos determinar la forma de ellos; esto es, confeccionar una tabla estadstica de frecuencias. Estas pueden ser Unidimensionales o Bidimensionales, segn clasifiquemos las unidades muestrales por un criterio o por dos criterios.

3-. Distribucin de Frecuencia.


Una distribucin de frecuencia o tabla de frecuencia es el agrupamiento u ordenamiento de los datos en clases o categoras con las frecuencias correspondientes a cada una. Para una mejor comprensin y facilidad de construccin de los tipos de tablas, las separaremos en: 1.- Tabla tipo I. 2.- Tabla tipo II. 3.- Tabla tipo III Tabla tipo I: (datos no agrupados) Cuando el tamao de la muestra y el recorrido de la variable son pequeos. Ejemplo 3.1: Tenemos una muestra de las edades de 5 miembros de una familia. 5 8 16 38 45

Solo se anotan de manera ordenada en fila o columna. Tabla tipo II: Para variables cualitativas o atributos. Cuando el tamao de la muestra es grande y el recorrido de la variable es pequeo y hay valores que se repiten. Ejemplo 3.2: En una clnica se clasifican 50 personas atendidas en un da en: nios, mujeres y hombre; N, N, M, H, H, M, M,., N, M, H, H, H, M. CLASES Nio Mujer Hombre Total Frecuencia 30 15 5 50

Esta misma idea se aplica para presentar datos de variable cuantitativas discretas, cuando el nmero de valores posibles es pequeo (menor que 10) y presentan repeticiones. Ejemplo 3.3: Si preguntamos el nmero de personas que trabajan en cada uno de 50 hogares, obtenemos la siguiente tabla. 2 2 2 3 1 1 3 2 2 0 2 0 1 3 4 2 1 2 1 3 1 1 1 2 2 2 1 1 4 2 0 3 1 2 2 2 0 3 1 1 1 2 2 4 3 1 2 2 1 3

Observamos que la variable toma valores comprendidos entre 0 y 4, por lo que necesitamos una tabla que resuma estos datos de forma adecuada. Personas que trabajan 0 1 2 3 4 Total Nmero de familias. 4 16 19 8 3 50

Tablas tipo III: Se utilizan cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo que ser necesario agrupar los valores de la variable en intervalos. Esta tabla sirve para agrupar variables de tipo discreta o continua. Ejemplo 3.4: Si consideramos el ejemplo 3.3 y a cada persona se le mide su peso nos encontramos con una serie de datos de la forma: 7 65 22 120 62 30 29 31 7 58 65 48 42 66 60 25 58 52 10 65 89 63 63 24 68 110 75 77 33 75 46 93 89 35 79 22 8 41 29 25 15 59 53 45 55 56 15 98 54 58

Evidentemente la variable estadstica tiene un recorrido muy grande, 113 kilos. Luego si deseamos tabular estos datos, tendremos que construir intervalos. Construccin de una tabla de frecuencia en intervalos de clases o categoras. 1.- Decidir el nmero de intervalos o categoras o clases, depende del nmero de observaciones disponibles y muchas veces depende del problema en estudio, pero podemos utilizar como referencia las siguientes formulas:

k n

si n no es muy grande en otro caso.

k 1 + 3.3 log(n )

2.- Determinar el rango o recorrido de la variable, que est dado por:

Rango = X mximo X mnimo ,

que corresponde a la diferencia entre el valor

mximo y el valor mnimo que toma la variable. 3.- Se obtiene la amplitud (A) o tamao del intervalo, dividiendo el rango por el nmero de intervalos.

A=

Rango k

4.- Y se procede a construir los intervalos sumndole al valor mnimo de la variable, la amplitud, obteniendo el lmite superior de la clase siguiente y as sucesivamente. 5.- Cada intervalo contiene un rango de valores de la variable, entonces se necesita un representante de esos valores, este se llama marca de clase y se define como:

mi =

Li Li 1 y corresponde al punto medio del intervalo. 2

Distintos tipos de frecuencias. Una vez que se ha determinado la cantidad de intervalos de clases para representar los valores de la variable, se procede a clasificar los valores en el intervalo adecuado. Asociado a cada intervalo entonces, existe un nmero que representa la cantidad de observaciones clasificadas en l, llamado frecuencia. Podemos distinguir, de acuerdo a como necesitemos analizar estas frecuencias, en distintos tipos de frecuencias para una clase i. a) Frecuencia absoluta de la clase i: Se designa por ni y corresponde al nmero de observaciones clasificadas en la clase i. Se cumple que el total de observaciones. b) Frecuencia relativa de la clase i: se denota por fi y corresponde al cuociente entre ni y n, ( f i =

n
i =1

= n, donde n es

ni ). Se cumple que n

f
i =1

= 1 . Se acostumbra a expresarla

en porcentaje y entonces hablamos de frecuencia relativa porcentual. c) Frecuencia acumulada de la clase i: se denota por Ni y corresponde a las frecuencias absolutas acumuladas hasta la clase i. Se cumple Ni =

n
j =1

d) Frecuencias acumuladas relativas de la clase i: se denota por Fi y corresponde al cuociente entre Ni y n, ( Fi = en porcentaje y entonces hablamos de porcentual.

Ni ). Se acostumbra a expresarla n
frecuencia acumulada relativa

Se llama Distribucin de frecuencias al conjunto de intervalos o clases junto a las frecuencias correspondientes, cuyo objetivo es presentar en forma ordenada un conjunto de observaciones.

C1 CJ CK

clases

Intervalo de clase L0 - L1 Lj-1 - Lj Lk-1


-

Marca de clase (mi) m1 mj mk

Frecuencia absoluta (ni) n1 nj nk n

Frecuencia relativa (fi) f1 = n 1 / n fj = n j / n fk = n k / n 1

Frecuencia acumulada (Ni) N1 = n1 Nj =n1++nj Nk = n

Frecuencia relativa acumulada (Fi) F1 = f1 Fj = f1++fj Fk = 1

Lk

Ejemplo 3.5: Consideremos el ejemplo 3.3 y construyamos una tabla de frecuencias

Personas que Trabajan (Xi) 0 1 2 3 4 Total

Nmero de familias (ni) 4 16 19 8 3 50

Frec. Relativa (fi) 0.08 0.32 0.38 0.16 0.06 1

Frec. Acum. (Ni) 4 20 39 47 50

Frec. Relativa acum. (Fi) 0.08 0.40 0.78 0.94 1

Ejemplo 3.6. Consideremos el ejemplo 3.4 y construyamos una tabla de frecuencias por Intervalos. 1.- Determinemos la cantidad de intervalos a utilizar:

k = 50 = 7.07
K = 1+ 3.3 log(50) = 6.6
Utilizaremos 7 intervalos de clases, cuidando de que el valor mximo de la variable quede en el ltimo intervalo. 2.- El rango se calcula de la siguiente manera: Xmximo = 120 Xmnimo = 7 Rango = 120-7 = 113 3.- La amplitud ser A = 113 = 16,14 , aproximamos a 17 7

4.- Procedemos a construir la tabla.


Intervalo de clase 7 - 24 24 - 41 41 - 58 58 - 75 75 - 92 92 - 109 109 - 126 Total mi 15,5 32.5 49.5 66.5 83.5 100.5 117.5 ni 8 9 10 13 6 2 2 50 fi % 16 18 20 26 12 4 4 100 Ni 8 17 27 40 46 48 50 Fi % 16 34 54 80 92 96 100

Los intervalos de clases o lmites de clases nos sirven para clasificar las unidades muestrales, observar la continuidad de las mediciones, para calcular los estadgrafos o estadsticos y graficar la distribucin de valores. (Histogramas). 5.- Interpretacin. n4 = 13, significa que 13 de las 50 personas pesan entre 57 y 73 kilos. f 4% = 26, significa que el 26% de las 50 personas pesan entre 57 y 73 kilos. N4 = 40, significa que 40 personas pesan 73 kilos o menos F4 % = 80, significa que el 80% de las personas pesan hasta 73 (o menos)

4-. Representaciones Grficas Unidimensionales


Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, a veces es conveniente presentar esta informacin de una manera ms clara y efectiva mediante un grfico. Existen varios tipos de grficos o representaciones grficas y ellas van de acuerdo al tipo de informacin que se est utilizando y a los objetivos que se pretenden al presentar la informacin. Histograma. Un histograma se construye en el plano cartesiano. El eje de las abscisas representa los lmites de cada intervalo y el eje de las ordenadas las frecuencias de cada clase (absoluta o relativa o porcentual), dibujando rectngulos que tienen como base el segmento entre lmites y como altura la frecuencia de cada clase.

Histograma
14 12 10 8 6 4 2 0 13 8 9 10 6 2 2 0

Frecuencia

22

.5

39

.5

56

.5

73

.5

90 .5

10

7.

12

4.

y 5

Lmites

ay or . ..

El Polgono de Frecuencias. En el eje de las abscisas se colocan las marcas de clases y en el eje de las ordenadas la frecuencia deseada (absoluta o relativa o relativa porcentual). Para representar el polgono de frecuencias suponemos un intervalo anterior al primero y uno posterior al ltimo y la lnea se une a un supuesto punto intermedio de ellos con una lnea recta.

Poligono de Frecuencia
14 12 10 8 6 4 2 0

frec. absoluta

-3

14

31

48

65
clases

82

99

116

133

Ojiva. Esta representacin grfica permite visualizar rpidamente las frecuencias acumulas hasta un valor determinado de la variable. Se construye de la siguiente manera; en el eje de las abscisas van los lmites superiores de cada clase y en el eje de las ordenadas la frecuencia absoluta acumulada o la frecuencia relativa acumulada. Cuando graficamos con las frecuencias relativas acumuladas, podemos apreciar rpidamente algunas medidas importantes como son los cuantiles u otras medidas.

OJIVA
Frec. relativa acum. 1 0.8 0.6 0.4 0.2 0 5.5 22.5 39.5 56.5 73.5 90.5 107.5 124.5 Lmites superiores

Grfico de Barras. Los grficos de barra se utilizan preferentemente para representar variables cualitativas y cuantitativas discretas de clases individuales. Grafiquemos el Ejemplo 3.3

F R E C U E N C I A

GRAFICO DE BARRAS 25 20 15 10 5 0 0 1 2 CLASES INDIVIDUALES 3 4 8 4 3 16

19

Grfico Circular. Es una alternativa al grfico de barras.

GRAFICO CIRCULAR

38% 16% 32% 6% 8%

0 1 2 3 4

Vous aimerez peut-être aussi