Vous êtes sur la page 1sur 25

PROGRAMA ESTADISTICA DESCRIPTIVA Unidad I: GENERALIDADES  Introduccin  Generalidades, aplicaciones de la estadstica, origen  Poblacin y muestras  Tipos de datos  Escalas

de Medicin Unidad II: ORGANIZACIN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS.  Tablas de frecuencias  Diagramas de frecuencias  Polgonos de frecuencias  Diagramas de tallos y hojas  Curvas de frecuencias UNIDAD III: MEDICION DE DATOS PARA DATOS NO AGRUPADOS  Medidas de tendencia central  Medidas de dispersin  Medidas de forma  Medidas de posicin PARA DATOS AGRUPADOS  Medidas de tendencia central  Medidas de dispersin  Medidas de forma de la curva  Medidas de Medidas de posicin UNIDAD IV: ANALISIS COMBINATORIO  Introduccin  Variaciones  Permutaciones  Combinaciones UNIDAD V:

INTRODUCCCION A LAS PROBABILIDADES  Introduccin, conceptos  Probabilidad clsica o Laplaciana  Axiomas de probabilidad  Probabilidad axiomtica  Eventos excluyentes y no excluyentes  Independencia  Probabilidad condicional  Teorema de Bayes UNIDAD VI: VARIABLES ALEATORIAS Y FUNCIONES DE PROBABILIDAD PARA VARIABLES DISCRETAS  Concepto de variable aleatoria como una funcin  Funcin de probabilidad  Funcin de Distribucin  Esperanza  Varianza UNIDAD VII: DISTRIBUCIONES DISCRETAS:  Distribucin Uniforme  Distribucin Binomial  Distribucin Geomtrica  Distribucin Binomial Negativa  Distribucin Hipergeometrica  Distribucin Poisson  Distribucin Multinomial

UNIDAD I: Introduccin Estadstica: Desde pocas prehistricas el hombre se ha enfrentado a diversos fenmenos de orden econmico, poltico, social, cultural, ambiental, biolgico, etc. y a medida que el mundo es absorbido por la tecnologa y las comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que ha sucedido, sucede o pueda suceder respecto a un fenmeno cualquiera. Es ah donde entra la estadstica a aportar sus herramientas, reglas y mtodos que permitan ordenar, cuantificar y analizar dichos fenmenos. En general el trmino estadstica tiene tres acepciones gramaticales claramente definidas: 1. La definicin ms comn es un procedimiento de recoleccin de datos numricos ordenados y clasificados bajo un criterio determinado. Esta definicin se refiere a datos asociados con produccin, ventas, cotizaciones burstiles, demografas, caractersticas de poblaciones: vivienda, educacin, empleo, costo de vida, pobreza, actividad econmica etc. 2. Una segunda acepcin, es la ciencia que, utilizando como instrumento las matemticas y el clculo de probabilidades, estudia las leyes de comportamiento de aquellos fenmenos que no estn sometidos a las leyes fsicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadstica Matemtica. 3. Finalmente, significa tcnica o mtodo cientfico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenmenos reales. Cabe anotar que la estadstica se aplica en cualquier rea del conocimiento: Computacin, ingenieras (todas), finanzas, medicina, sociologa, biologa, astronoma, periodismo, sicologa, odontologa, gentica y pruebas de ADN, contadura, economa, seguridad social, etc. Tarea: Investigue una aplicacin o ejemplo de la estadstica en cada una de las reas mencionadas. Terminologa usada frecuentemente en estadstica: 1. Poblacin: En estadstica el concepto de poblacin se refiere al conjunto universo o coleccin completa de los elementos o resultados de la informacin buscada. Los elementos, pueden ser de cualquier ndole: personas, animales, objetos, caractersticas, etc. Es importante anotar que los elementos tambin se conocen en estadstica como objetos, observaciones o individuos. Una poblacin puede ser finita o infinita: 1.1 Poblacin finita: Aquella donde el nmero de elementos que la conforman es relativamente pequeo, fcil de contar. Algunos expertos consideran que una poblacin es finita cuando alcanza un mximo de 10000 elementos. Ejemplos: El numero de hospitales de una ciudad, el nmero de escuelas de secundaria, el nmero de estaciones de gasolina, el nmero de alumnos en un colegio, etc. 1.2 Poblacin infinita: Aquella donde el nmero de elementos que la conforman es grande, no es fcil de contar. Ejemplos: El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una empresa en una semana, el numero de aspirinas producidas por Bayer en un da, el numero de bacterias en un lago rio o manantial de agua, etc. El tamao de la poblacin se representara por la letra mayscula N 2. Muestra: Una muestra es un subconjunto o una parte representativa de una poblacin. El tamao de la muestra se representara por la letra minscula n 3. Datos u observaciones son nmeros o denominaciones que se pueden asignar a un individuo o elemento de una poblacin 4. Parmetro: Es cualquier caracterstica medible de una poblacin. Ejemplo, el promedio del peso en kilogramos de todos los estudiantes de la universidad.

5. Estadstica: Una estadstica, es cualquier caracterstica medible de una muestra. Ejemplo el promedio del peso en kilogramos de los estudiantes de quinto semestre 6. Censo: Es la enumeracin completa de una poblacin TIPOS DE DATOS: Existen dos tipos de datos: Categricos o cualitativos y numricos o cuantitativos. 1. Categricos o cualitativos (va discretas): Son aquellos datos cuyas caractersticas no son medibles, representan atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc. 2. Numricos o cuantitativos (va continuas): Son aquellos cuyas caractersticas son medibles, producen respuestas numricas, por ejemplo: la edad, la estatura, la temperatura, el dimetro de un buje, etc. Los datos numricos a su vez se clasifican en dos tipos: Discretos y continuos: 2.1 Discretos: Aquellos que se producen a partir de un conteo, por ejemplo el nmero de municipios del departamento del Atlntico, el nmero de hijos por familia, el nmero de autos en un parqueadero, etc. Puede observarse que este tipo de conteo produce un nmero entero. 2.2 Continuos: Aquellos que se producen a partir de un proceso de medicin, donde la caracterstica que se mide puede tomar cualquier valor en u intervalo, por ejemplo, la estatura de los estudiantes de la universidad, la presin diastlica de los ciclistas de la vuelta a Colombia, el tiempo que usted tarda de su casa a la universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los valores se encuentran en un intervalo dado, por ejemplo la estatura estar por decir algo entre 1 metro y 2.5 metros, al menos que haya un super enano de 5 cms. y un gigante de tres metros. ESCALAS DE MEDICIN: Los datos tambin se pueden clasificar segn la escala de medicin o el procedimiento que los genero. Cuatro son los tipos de escala que se utilizan en estadstica: Nominal, ordinal, de intervalo y de razn. 1. Datos de nivel nominal: Escala nominal para datos numricos (va continuas): En esta escala, los nmeros no representan cantidades ni mediciones, solo nombres. Ej. El numero asignado a las camisetas de un equipo de futbol, los nmeros telefnicos, etc. Escala nominal para datos categricos (va discretas): Ej. El numero 5 representa el estado civil, el numero 3 representa la raza, el numero 50 representa la religin, el 0 sexo femenino, el 1 sexo masculino etc. 2. Datos de nivel ordinal: Una escala ordinal asigna varios niveles de manera ordenada a un atributo que se est midiendo, tal que refleje niveles de perfeccionamiento alcanzados. Ej. El grado de secundaria: primero, segundo, hasta undcimo, la evaluacin de un nio en la escuela, I: insuficiente, A: aceptable, B: bueno, E: excelente., rangos acadmicos: 1: Doctor, 2: Magister, 3: Licenciado, 2: Tcnico, 1: Bachiller, etc. 3. Datos de nivel de intervalo: En esta escala la distancia que hay entre los valores es importante, por ejemplo en los puntajes del icfes un puntaje de 50 es superior a uno de 45, adems puede decirse que el puntaje de 50 es 5 puntos ms alto, una temperatura de 60 grados (Celsius) es 30 grados ms caliente que una de 30, pero no puede afirmarse que 60 es el doble de caliente que 30. 4. Datos de nivel de razn o cociente: Los datos medidos en una escala de intervalo con un punto inicial cero que se interprete como ninguno, se llaman datos de razn, ello permite determinar cunto es mayor una medida que otra. Ej. El salario, si A gana 500.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el doble de A, el peso de una persona, la estatura, etc. Tarea: Proponga dos ejemplos de cada escala y justifique porque pertenecen a ellas.

UNIDAD II ORGANIZACIN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS. Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigacin, es necesario organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar conclusiones. A partir de un ejemplo se inicia esta unidad, construyendo paso por paso lo que se conoce como tabla de frecuencias. Ejemplo: Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 cajas de banano tipo exportacin, tomadas en una empresa bananera del Magdalena.

83,3 83,4 83,5 83,6 83,7 83,8 83,9 84 84,1 84,2 87,8 87,9 88,2 88,3 88,3 88,3 88,5 88,5 88,6 88,6

88,7 88,9 89 89,2 89,3 89,3 89,6 89,7 89,8 89,8 89,9 89,9 90 90,1 90,1 90,3 90,3 90,4 90,4 90,4

90,5 90,6 90,7 90,8 90,9 91 91 91 91,1 91,1 91,1 91,2 91,2 91,5 91,6 91,6 91,8 91,8 92,2 92,2

92,2 92,3 92,6 92,7 92,7 92,7 93 93,2 93,3 93,3 93,4 93,7 94,2 94,2 94,4 94,7 95,6 96,1 98,8 100,3

Tabla de frecuencias: El primer paso es ordenar los datos de menor a mayor como puede verse. Numero de intervalos o clases: Se trata de agrupar los 80 datos en intervalos o clases, tal que se nos facilite el trabajo de interpretacin y tendencias. Cada intervalo tendr una amplitud, un lmite inferior y uno superior, se sugiere que la amplitud sea igual para todos los intervalos, (no siempre es as). Mientras menos intervalos ser ms fcil el trabajo, pero cuidado, se corre el riesgo de perder informacin. Numero de intervalos k: Debido a que no existe un acuerdo entre los estadsticos para el nmero de intervalos, se sugiere usar entre 5 y 20 intervalos, como gua se sugiere la regla de Sturges que es la que usaremos en este curso:

k=1+3.33logn Para este ejemplo k=1+3.33log80=7.3377 Amplitud A: Se calcula como el cociente entre el rango R y el numero de intervalos k, donde R=Xmaximo-Xminimo, en este caso, Xmax = 100.3 y Xmin = 83.3, es decir R=17 Luego A=17/7=2.428571429 Qu pasara si se construye la tabla de frecuencia con 7 intervalos y una amplitud de 2.428571429, veamos: Lmite inferior y superior de cada intervalo Intervalos 83.3 - 85.72857143 85.72857143 - 88.15714286 88.15714286 - 90,5857143 90,5857143 - 93,0142857 93,0142857 - 95,4428571 95,4428571 - 97,8714286 97,8714286 - 100,3000000 Como puede verse la cantidad de decimales no permite trabajar con comodidad la agrupacin, para ello se propone: Convertir si es posible la amplitud en un numero entero, modificando el numero de intervalos k o el rango R, o ambos a la vez, teniendo en cuenta que el rango R = 17 nunca debe disminuirse, ya que al disminuir R quedaran datos por fuera. Veamos: A=17 / 7, si hacemos R=18 y k=6 resulta:

Otras opciones son: A=21/7=3, A=20/5=4, etc. pero la mas razonable es 18/6 = 3. Aumentar o disminuir el valor de k en una unidad no afecta el propsito de agrupacin, es por ello que al modificar R y k debe hacerse de una manera razonable. Determinar el Xmin y el Xmax. Dado que el rango se aumento en una unidad, ese uno debe repartirse entre el Xmin y el Xmax, no siempre en partes iguales sino que debe hacerse buscando la manera ms cmoda de agrupamiento. El siguiente grafico muestra la reparticin del uno: 83.3 83 R=17 R=18 100.3 ___101

Es decir 0.3 a la izquierda y 0.7 a la derecha, 0.3+0.7=1.0, a su vez se cumple que 101-83=18, obtenindose un numero entero para cada lado, lo cual permite mayor facilidad en el manejo de los datos. Si se reparte el uno en partes iguales el Xmin seria de 82.8 y el Xmax de 100.8, a su vez se cumple que 100.8-82.8=18 que como puede verse es mas recomendable el procedimiento anterior.

Finalmente estamos ya en disposicin de armar la tabla de frecuencias con k=6, R=18, Xmin=83 y Xmax=101

1 2 3 4 5 6

Intervalos 83 86 86 89 89 92 92 95 95 98 98 101 Totales

xi 84.5 87.5 90.5 93.5 96.5 99.5

ni 10 13 35 18 2 2 80

Ni 10 23 58 76 78 80

f i (%) 12.5 16.25 43.75 22.5 2.5 2.5 100%

Fi (%) 12.5 28.75 72.5 95 97.5 100

Tenga en cuenta que cada dato debe quedar exactamente en un intervalo, no en dos al mismo tiempo, por ejemplo el 89 est solo en el intervalo 2. Xi: se conoce como marcas de clase y se obtiene sumando los lmites de cada intervalo y dividiendo entre dos. Este valor refleja el promedio de cada intervalo. ni : Se conoce como frecuencias absolutas, es el numero de observaciones o individuos en cada intervalo. Ni: Se conoce como frecuencias absolutas acumuladas. f i: Se conoce como frecuencia relativa, se obtiene de la relacin entre la frecuencia absoluta y el nmero total de datos, es decir, es la misma columna de la frecuencia absoluta pero expresada en porcentaje Fi: Es la misma frecuencia absoluta acumulada pero expresada en porcentaje, se conoce como frecuencia relativa acumulada.

Interpretacin y anlisis: Anlisis e interpretacin de la fila N 4: Xi = 93.5, significa que el promedio de los datos que se encuentran en ese intervalo es de 93.5 kilogramos. ni = 18, hay 18 cajas cuyos pesos oscilan entre 92 y 95 kilogramos Ni = 76, hay 76 cajas cuyo peso mximo es de 95 kilogramos o hay 76 cajas cuyos pesos oscilan entre 83 y 95 kilogramos f i = 22.5%, hay un 22.5% de las cajas cuyos pesos estn entre 92 y 95 kilogramos Fi = 95%, El 95% (76/80) de las cajas tienen un peso mximo de 95 kilogramos Nota: Existen diversos procedimientos que a la larga todos confluyen a lo mismo: Obtener el agrupamiento de los datos. GRAFICOS Los siguientes grficos son los ms usados cuando de datos numricos se trata: a) Histograma de frecuencias absolutas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta ni b) Polgono de frecuencias absolutas: En el eje X se ubican las marcas de clase y en el eje Y la frecuencia absoluta ni

c) Histograma de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni d) Polgono de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni e) Curva de frecuencias absolutas: Es una lnea continua del polgono de frecuencias absolutas f) Diagrama de tallos y hojas: Este diagrama propuesto por el estadstico John Tukey ofrece una forma novedosa de presentar toda la informacin de los n datos, de manera que se puede apreciar el comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte del numeral, mientras que una hoja esta formada por el o los dgitos restantes. Por ejemplo el numero 456 se puede descomponer de dos formas: 4 | 56

Tallo Hoja, o tambin: 45 |6

Tallo

Hoja

Para nuestro ejercicio:

Histograma de frecuencias absolutas


40

Histograma de frec. abs.acumuladas


80

rec. abs.

30 20 10 0

rec. abs.acum.

60 40 20 0 83 86 89 92 95 98 101

ntervalos

Poligono de frecuencias absolutas


40

rec. abs.

30 20 10 0 83 86 89 92 95 98 101

rec. abs.acum.

arcas de clase

98

101

ntervalos

Poligono de frec. abs.acum.


80 60 40 20 0 83 86 89 92 95 98 101

ntervalos

urva de rec abs.

83

86

89

92

95

98

101

arcas de clase

Diagrama de tallos y hojas: 83 84 87 88 89 90 91 92 93 94 95 96 98 3 4 5 6 7 8 9 0 1 2 8 9 2 3 5 5 6 6 7 9 0 2 3 3 6 7 8 8 9 9 0 1 1 3 3 4 4 4 5 6 7 8 9 0 0 0 1 1 1 2 2 5 6 6 8 8 2 2 2 3 6 7 7 7 0 2 3 3 4 7 2 2 4 7 6 1 8

100 3

Se observa que hay una gran concentracin de observaciones entre 88 y 93 kilogramos.

Ejercicios: 1. Los siguientes datos corresponden al consumo de agua en litros/min. de una muestra de 129 casas 4,6 12,3 7,1 7 4 9,2 6,7 6,9 11,5 5,1 3,8 11,2 10,5 14,3 8 8,8 6,4 5,1 5,6 9,6 7,5 7,5 6,2 5,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4 6 8,3 6,5 7,6 9,3 9,2 7,3 5 6,3 13,8 6,2 5,4 4,8 7,5 6 6,9 10,8 7,5 6,6 5 3,3 7,6 3,9 11,9 2,2 15 7,2 6,1 15,3 18,9 7,2 5,4 5,5 4,3 9 12,7 11,3 7,4 5 3,5 8,2 8,4 7,3 10,3 11,9 6 5,6 9,5 9,3 10,4 9,7 5,1 6,7 10,2 6,2 8,4 7 4,8 5,6 10,5 14,6 10,8 15,5 7,5 6,4 3,4 5,5 6,6 5,9 15 9,6 7,8 7 6,9 4,1 3,6 11,9 3,7 5,7 6,8 11,3 9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6 4,5 6,2 8,3 3,2 4,9 5 6 8,2 6,3

a) Elabore una tabla de frecuencias b) Elabore todos los grficos c) Interprete los datos de la fila 4 d) Cuantas casas consumen un volumen mximo de 7,8 L / m 2. Si tienes una muestra de 500000 datos para agrupar cuantos intervalos de clase seran necesarios. Pueden concebirse investigaciones en donde una muestra tenga 500000 o ms datos? D ejemplos. 3. Se conoca la tabla de distribucin de los salarios en dlares de 50 obreros de una empresa, desafortunadamente solo queda de ella lo siguiente: LI Xi LS 165 Xi. ni 5 7 27 8 40 - 1005 Totales a) Complete la tabla b) Construya todos los grficos correspondientes 4 Ni f i * 100 (%) Fi *100(%)

4. Se tom una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los resultados fueron.

12 0 4 5

5 1 5 6

8 4 2 5

6 3 5 2

9 7 9 3

5 6 1 3

6 7 7 4

7 6 8 1

0 5 3 12

3 4 10 1

5 5 7 11

Construya una tabla de frecuencias para estos datos y responda las siguientes preguntas: a) b) c) d) e) Cules datos representan el 25% menor de la muestra? Cuntas familias consumen 7 libras o menos semanalmente? Qu porcentaje de las familias consumen ms de 9 libras por semana? Podemos decir que la mitad de la gente consume menos de 6 libras por semana? Qu tipo de distribucin (modelo de curva) siguen estos datos?

5. Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar. Los resultados se muestran en la siguiente tabla: 953 945 972 945 985 973 955 950 949 941 966 966 937 946 954 935 959 939 948 958 948 937 955 927 958 955 947 941 952 931 928 937 975 970 959 971 940 936 948 957 940 933 965 973 934 937 946 952 935 941 941 933 960 968 959 956 963 973 949 942 965 962 940 962 963 943 950 938 938 945 963 967 969 981 950 970 933 960 934 927

a) Construya una tabla de distribucin de frecuencias para estos datos y responda las siguientes preguntas: Qu porcentaje de bolsas tuvo un exceso de 946 ml? Construir el histograma y el polgono de frecuencias absolutas. Construir el polgono de frecuencias acumuladas u ojiva Que tipo de curva de frecuencias siguen estos datos? 6. Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realiz una encuesta a 100 conductores y los resultados fueron los siguientes: Marca N de conductores BEG...15 HAVOLINE..20

RIMULA...60 HDX..3 OKS...4 Otras..8 Defina la variable aleatoria, la poblacin, la muestra, disee una tabla de frecuencias, construya un grfico de barras, de tortas o sectores, consulte y elabore diagramas pictricos o pictogramas. En los dos ejercicios siguientes (7 y 8) determine: a) b) c) d) e) f) g) h) i) La variable aleatoria y de qu tipo es. Cul es la poblacin y cul es la muestra. Construya una tabla de frecuencias e interprete la fila 4 Construya todos los grficos correspondientes Calcule la media , la mediana y la desviacin estndar Determine el rango intercuartil y el rango interdecil Calcule e interprete el percentil 35 y el percentil 80 Por encima de que valor se encuentra el 70 % de los valores mas altos Por debajo de que valor se encuentra el 70 % de los valores mas pequeos

7. El Departamento de Seguridad Industrial de la compaa X inici un estudio para conocer el ndice de contaminacin que producen los gramos de ceniza de carbn bituminoso que se extrae de la mina A. Se tomaron 60 observaciones y los resultados fueron: 23.1 23.4 18.9 16.1 30.5 28.5 22.7 26.7 31.0 22.9 25.1 22.6 18.5 16.8 14.6 23.8 16.6 11.6 11.6 31.4 21.6 22.7 24.1 26.2 14.6 9.4 29.6 21.8 11.3 23.0 28.7 20.1 18.4 19.6 25.2 18.0 26.8 26.2 28.7 12.5 21.5 13.5 31.2 28.5 16.7 27.2 23.4 8.5 27.5 22.6 9.4 21.5 21.3 17.2. 13.5 15.1 23.2 21.2 20.6 19.6

8. Con el fin de controlar el dimetro medio de los cojinetes que se producen en una empresa metalmecnica, el departamento de control de calidad tom 60 muestras extradas al azar Los dimetros estn en pulgadas y los resultados fueron: 0.738 0.728 0.745 0.743 0.735 0.732 0.731 0.737 0.736 0.730 0.732 0.729 0.737 0.741 0.743 0.736 0.742 0.732 0.735 0.731 0.734 0.740 0.735 0.740 0.730 0.727 0.746 0.737 0.741 0.733 0.738 0.734 0.732 0.735 0.744 0.735 0.742 0.725 0.738 0.736 0.729 0.738

0.736 0.733 0.739

0.734 0.726 0.739

0.727 0.736 0.730

0.735 0.732 0.735

0.740 0.741 0.733

0.734 0.732 0.735

9. En una empresa de produccin de pinturas de aceite se present un problema: "los clientes se quejaban del grado de impurezas en los galones de aceite" El departamento de control de calidad decidi tomar 80 muestras (u 80 galones) y la cantidad de impurezas en gramos por galn fueron los siguientes: 29.5 27.3 40.5 22.9 23.8 31.6 32.7 35.1 39.5 37.2 45.538 32.0 20.4 45.8 30.6 35.4 45.1 31.6 23.0 45.2 38.8 42.6 28.5 31.5 25.5 31.7 31.6 21.1 42.2 30.7 39.0 44.5 21.5 32.1 41.2 35.2 37.1 31.3 34.2 33.3 27.5 26.9 28.8 31.8 35.5 28.7 34.4 34.2 41.6 44.5 32.3 45.6 36.7 23.9 39.6 30.5 46.0 25.5 31.7 27.2 42.6 36.7 36.6 29.5 31.7 2104 40.2 36.6 30.6 41.2 35.5 38.8 43.2 39.6 26.1 43.1 31.1 28.8 34.6 30.5

La variable aleatoria y de qu tipo es. Cul es la poblacin y cul es la muestra. Construya una tabla de frecuencias e interprete la fila 4 Construya todos los grficos correspondientes Utilice el polgono de frecuencias acumuladas y determine (por interpolacin) cuantos galones aproximadamente tienen un contenido por debajo de los 33.5 gramos de impurezas. f) Calcule la media , la mediana y la desviacin estndar g) Determine el rango intercuartil y el rango interdecil h) Calcule e interprete el percentil 35 y el percentil 80 i) Por encima de que valor se encuentra el 70 % de los valores mas altos j) Por debajo de que valor se encuentra el 70 % de los valores mas pequeos a) b) c) d) e) Taller en clase Resolver los numerales del ejercicio 5 (Bolsas de leche) Aqu estn ordenados de menor a mayor: 953 945 972 945 985 973 955 950 949 941 966 966 937 946 954 935 959 939 948 958 948 937 955 927 958 955 947 941 952 931 928 937 975 970 959 971 940 936 948 957 940 933 965 973 934 937 946 952 935 941 941 933 960 968 959 956 963 973 949 942 965 962 940 962 963 943 950 938 938 945 963 967 969 981 950 970 933 960 934 927

Tarea en grupos de mximo 4 alumnos: Entregar los ejercicios 3,6, 8 y 9 Ejercicio 6 pg. 29 Llinas

UNIDAD III MEDICION DE DATOS

I. CUANDO LOS DATOS NO ESTAN AGRUPADOS EN UNA TABLA DE FRECUENCIAS 1. MEDIDAS DE TENDENCIA CENTRAL 2. MEDIDAS DE DISPERSION 3. MEDIDAS DE LOCALIZACION

1. MEDIDAS DE TENDENCIA CENTRAL Propsito de las medidas de tendencia central: Supngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificacin por s misma tiene muy poco significado a menos que usted conozca cul es el total de puntos que obtiene una persona promedio al participar en esa prueba, cul es la calificacin menor y mayor que se obtiene, y cun variadas son esas calificaciones. Es decir que para que una calificacin tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadsticos. Las medidas de tendencia central, sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. Digamos por ejemplo que la calificacin promedio en la prueba que hizo Pedro fue de 20 puntos. De ser as podemos decir que la calificacin de Pedro se ubica notablemente sobre el promedio. Pero si la calificacin promedio fue de 60 puntos, entonces la conclusin sera muy diferente, dado que se ubicara muy por debajo del promedio de la clase. En resumen, el propsito de las medidas de tendencia central son: Mostrar en qu lugar se ubica la persona promedio o tpica del grupo. Sirve como un mtodo para comparar o interpretar cualquier puntaje en relacin con el puntaje central o tpico. Sirve como un mtodo para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un mtodo para comparar los resultados medios obtenidos por dos o ms grupos. Enumeracin de las medidas de tendencia central. Las medidas de tendencia central ms comunes son: 1.1 La media aritmtica: Comnmente conocida como media o promedio. Para diferenciar datos muestrales de datos poblacionales, la media aritmtica se representa con un smbolo para cada uno de ellos: si trabajamos con la poblacin, este indicador ser ; en el caso de que estemos trabajando con una muestra, el smbolo ser

o tambin,

Para la muestra:

o tambin,

Ejemplo: Obtenga la media de los siguientes pesos de 9 personas (en Kg)

80, 70, 65, 75, 71,75, 68, 69,75 R/ 72 kg. 1.2 La media aritmtica ponderada Cuando los datos tienen un peso o porcentaje diferente de la unidad, entonces a cada dato hay que asignarle su respectivo peso , el ejemplo mas comn es el de la nota promedio final de una asignatura: 3.0 en el 25% 4.0 en el 35% 3.5 en el 40% Calcule el promedio R/3.55 1.3 La Mediana Me : Es el dato que est en la posicin central de la serie, en este ejemplo: 65, 68, 69, 70, 71,75, 75, 75,80 1.4 La Moda MO: Es aquel dato que ms se repite en la serie, en este ejemplo, MO = 75 kg Otras medidas de tendencia central de menor uso son: 1.5 La Media Geomtrica

1.6 La media Armnica Es la inversa de la media aritmtica de las xis invertidas:

Para este ejemplo, verifique que: G = 71,869 y MA = 71,739

2. MEDIDAS DE DISPERSION: Estas medidas son muy tiles en estadstica ya que proporcionan una medicin de la variabilidad de los datos alrededor de la media, es decir que tan regados o dispersos estn los datos con respecto a la media, que tan homogneos o compactos estn los datos. Las medidas ms comunes de dispersin son: 2.1 El Rango: R= Xmax - Xmin 2.2 La Varianza Para la poblacin:

, o tambin:

Para la muestra:

, o tambin:

2.3 La Desviacin Estndar o Desviacin Tpica Es la raz cuadrada de la varianza: Para la poblacin: Para la muestra: S Para este ejemplo: S2 = 21.25 y S= 4.609 I.I CUANDO LOS DATOS ESTAN AGRUPADOS EN UNA TABLA DE FRECUENCIAS 1. MEDIDAS DE TENDENCIA CENTRAL 2. MEDIDAS DE DISPERSION 3. MEDIDAS DE FORMA DE LA CURVA DE FRECUENCIAS 4. MEDIDAS DE LOCALIZACION

1. MEDIDAS DE TENDENCIA CENTRAL 1.1 Media aritmtica:

k: N de intervalos ni = frecuencias absolutas xi = Marcas de clase Calcule la media para el ejercicio de las cajas de banano 1.2 Mediana

Li: Limite inferior del intervalo que contiene la mediana : Frecuencia absoluta del intervalo que contiene la mediana = Frecuencia absoluta acumulada anterior a la del intervalo que contiene la mediana Para este ejemplo: n/2=40 Ahora se busca en la columna Ni el primer valor que contiene a 40 que es 58, el cual corresponde al intervalo 3; luego el intervalo que contiene la mediana es el tercero, (89 - 92). Luego LI=89 A=3 =23 = 35 Reemplazando se obtiene:

1.3 Moda

= 90.457 kg.

LI: Limite inferior del intervalo modal

A 1: Diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia absoluta del intervalo anterior A 2: Diferencia entre la frecuencia del intervalo modal y la frecuencia absoluta del intervalo siguiente A : Es la Amplitud
Para este ejemplo: El intervalo modal es aquel de mayor frecuencia absoluta, en este caso, el tercero, pues ni = 35 LI=89 A1 = 35-13= 22 A2 = 35-18= 17 Reemplazando:

= 90.69 kg. 2. MEDIDAS DE DISPERSION: 2.1 La varianza

, o tambin

ni: frecuencias absolutas Xi: Marcas de clase k: N de intervalos n: Tamao de la muestra o numero de datos 2.3 La desviacin estndar: S Calcule la varianza y la desviacin estndar para el ejercicio de las cajas de banano

3. MEDIDAS DE FORMA DE LA CURVA DE FRECUENCIAS 3.1 COEFICIENTE DE ASIMETRIA La asimetra de una distribucin se refiere a la forma geomtrica de la curva de frecuencias. Una de esas curvas ms interesantes en estadstica es la curva simtrica en forma de campana, llamada curva normal, ya que la mayora de los experimentos estadsticos se compartan aproximados a esta curva. En la prctica, las curvas de frecuencias presentan asimetra ya sea a la derecha o a la izquierda. Una medida de la asimetra de la curva o que tan deformada est la curva (con respecto a la curva normal) es el coeficiente denotado por g1 y definido como: Cuando los datos no estn agrupados:

Cuando los datos estn agrupados en una tabla de frecuencias:

ni : frecuencias absolutas Xi : Marcas de clase k: N de intervalos S: La desviacin estndar Interpretacin: Si g1 > 0 la curva es asimtrica o sesgada a la derecha Si g1 < 0 la curva es asimtrica o sesgada a la izquierda. Si g1 = 0 la curva es simtrica o normal Grficamente:

g1 > 0

Curva Sesgada a la derecha

g1 < 0 Curva Sesgada a la izquierda

Curva Simtrica g1 =0

Otro coeficiente de frecuente aplicacin es:

p!

3( X  M e ) ; donde S

X es la media, Me es la mediana y S es la desviacin estndar.

Entonces: Si Ap } 0 la curva puede considerarse simtrica Si Ap < 0 la curva es sesgada o asimtrica a la izquierda Si Ap > 0 la curva es sesgada o asimtrica a la derecha.

3.2 COEFICIENTE DE CURTOSIS Este coeficiente mide la forma VERTICAL de la curva de frecuencias. El coeficiente de curtosis mide que tan puntiaguda es la curva de frecuencias con respecto a la llamada curva normal o simtrica. El coeficiente de curtosis est definido por: Cuando los datos no estn agrupados:

-3 Cuando los datos estn agrupados en una tabla de frecuencias

3 ni : frecuencias absolutas Xi: Marcas de clase k: N de intervalos S: La desviacin estndar

Interpretacin: Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda) Si g2 < 0 entonces la curva es platicurtica (una curva aplanada) Si g2 = 0, entonces la curva es mesocurtica, simtrica o normal Las siguientes figuras muestran grficamente los tres tipos de curvas de acuerdo a la definicin anterior:

Leptocrtica

Platicrtica

Mesocrtica

Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetra e interprtelos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga conclusiones. Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes son: COEFICIENTE DE ASIMETRIA = -0,53036 COEFICIENTE DE CURTOSIS = 1,73416 Interpretacin: 1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimtrica a la izquierda 2. Dado que K>0 en tonos la curva de frecuencias es levemente leptocurtica

4. MEDIDAS DE LOCALIZACION Para determinar la localizacin o ubicacin de cualquier dato en una serie de valores, es necesario, inicialmente organizar los datos para aplicarle algunas tcnicas y formulas que permitan ubicarlos. Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posicin y el 12 la ultima. Si dividimos la serie en 5 partes entonces la 5a ava parte la ocupa el 2. Las dos 5a avas partes la ocupa el 4, la cuarta ava parte la ocupa el 10. Cuando se disponen de muchos datos, se aplica ciertos trminos y formulas para ubicar esos datos, los cuales se estudiaran a continuacin: DECIL: Dp Se habla de decil cuando la serie se divide en 10 partes, as pues p = 1,2,.10 donde: D1 = primer decil D2 = segundo decil etc. D10 = ser el ultimo numero de la serie o decimo decil. QUARTIL: Qp Se habla de cuartel cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde Q1 = primer cuartil Q2 = segundo cuartil Q3 = tercer cuartil Q 4 = cuarto cuartil o ultimo de la serie. PERCENTIL: Xp Cuando la serie se divide en 100 partes, se habla de percentiles as pues p = 1, 2,3..100 donde X7 = percentil de orden 7 o sptimo percentil X20 = percentil de orden 20 o vigsimo percentil X91 = percentil de orden 91 Si se analiza con detenimiento la relacin entre percentiles deciles y cuartiles se puede por ejemplo decir que: X50 = Me = Q2 X25 = Q1 X90 = D9; X70 = D7; X75 = Q3 Cualquier percentil de orden p esta dado por:

, donde: Li: Limite inferior del intervalo que contiene el percentil P A: Es la amplitud np: Porcentaje del nmero total de datos Na: Frecuencia acumulada anterior a la del intervalo que contiene a Xp nx: Frecuencia absoluta del intervalo que contiene a Xp

RANGO INTERCUARTIL: (Q) Es una medida de dispersin entre el primer y tercer cuartil, o sea: Q = Q3 Q1 RANGO INTERDECIL: D Es tambin una medida de dispersin entre el primer y noveno decil, o sea: D = D9 D1

Estas medidas de desviacin son importantes porque tienden a excluir los valores extremos, dando Como resultado una buena medida de dispersin, es decir estos rangos no son afectados por la presencia de datos con los valores externos. Ejercicio: La siguiente tabla muestra los tiempos de operacin de un puesto de trabajo constituido por un operario y una maquina donde se elabora el corte y doblado de un maletn de cuero, en una muestra de 100 observaciones de medidas en minutos.

Li e X1 u LS 5.7 - 6.1 6.1 - 6.5 6.5 - 6.9 6.9 - 7.3 7.3 - 7.7 7.7 - 8.1

Xi 5.9 6.3 6.7 7.1 7.5 7.9

ni 5 18 42 20 10 5

Ni 5 23 65 85 95 100

fi 0.05 0.18 0.42 0.20 0.10 0.05

Fi 0.05 0.23 0.65 0.85 0.95 1.00

fi*100% 5 18 42 20 10 5

Fi*100% 5 23 65 85 95 100

a) Determine el valor que ocupa la posicin 38, 72 y 92 b) Determine el rango intercuartil, el interdecil e interprete su resultados a) X38 es el percentil 38 el calculado es el siguiente:

X38 = Li +

A nP / 100  N a nx

P = 38; n = 100

nP 100 x38 ! ! 38 100 100


El 38 est contenido en Ni = 65, de aqu se deduce que: Li = 6.5 (INTERVALO N 3) A = 0.4 Na = 23 nx = 42 X38 = 6.5 +

0.4(38  23) ! 6.64 42

Luego el 6.64 ocupa aproximadamente la posicin N 38 en la serie

De igual forma para la posicin 72 X72 = Li +

(n / 100  nx

P = 72; n = 100

n 100 * 72 ! ! 72 100 100

El 72 est contenido en Ni = 85, luego Li = 6.9 (INTERVALO N 4) A = 0.4, Na = 65; nx = 20 X38 = 6.9 +

0.4(72  65) ! 7.04 20

b) Rango INTERCUARTIL: Q3 Q1

Q3 = X75

Li +

(n / 100  nx

P = 75; n = 100 Li = 6.9

nP 100 * 75 ! ! 75 100 100

Na= 65

nx = 20

X75 = Q3 = 6.9 +

0.4(75  65) 20

Q3 = 7.1; y Q1 = 6.21 Luego Q3 Q1 = 7.1 6.21 = 0.89

Es decir la variacin entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos. Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qu? RANGO INTERDECIL = D9 D1 D9 = X90 P = 90

nP (1009(90) ! ! 90 100 100


Li =73 Na = 85 nx = 10

El 90 est en Ni = 95 X90 = 7.3 + D10 = X10

0.4(90  85) ! 7.5 10

P = 10

n (100)(10) ! ! 10 100 100


Li = 6.1 Na= 5; nx = 18

El 10 est contenido en Ni = 23 X10 = 6.1 +

0.4(10  5) ! 6.2 18

Luego D9 D10 = 7.5 6.2 = 1.3 c) Establezca que tipo de Asimetra y Curtosis tiene la curva de frecuencias utilizando los ndices g1 y g2. Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones

Vous aimerez peut-être aussi