Académique Documents
Professionnel Documents
Culture Documents
La estadstica es una ciencia formal que estudia la recoleccin, anlisis e interpretacin de datos de una muestra representativa. La estadstica es ms que eso, es la herramienta que proporciona tcnicas precisas para obtener informacin y mtodos para el anlisis de esta. Estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, sacar conclusiones y tomar decisiones. POBLACION Y MUESTRA: Para recoger datos relativos a las caractersticas de un grupo (de lo que sea), no es posible o practico observar al grupo entero (x el nro. Si es grande). En vez de examinar a todo el grupo, llamado poblacin o universo, se examina una pequea muestra. La poblacin puede ser finita (bolitas en 8 frascos) o infinita (ej. Nro de estrellas).
La estadstica inferencial o inductiva, (si una muestra es representativa de una poblacin se sacaran buenas conclusiones). Realiza el estudio descriptivo de un subconjunto de la poblacin, la muestra y extiende los resultados a toda la poblacin.
VARIABLES
Una variable es un smbolo que puede tomar un conjunto prefijado de valores, que se llamara dominio de esa variable. Si la variable toma un solo valor se llama CONSTANTE. Una variable que puede tomar cualquier valor entre 2 valores dados, es una VARIABLE CONTINUA. Ej. La altura de una persona puede ser 1.75, o cualquiera. Si no puede tomar cualquier valor es una VARIABLE DISCRETA. Ej el nro de hijos de una flia puede ser 1, 2, pero no 0,345. VARIABLE CUALITATIVA: Expresa atributo o caract. Ej. Rubio, morocho. VARIABLE CUANTITATIVA: Podemos expresar numricamente. Ej. Cant. De hijos que queremos tener. GRAFICOS: 1. 2. 3. 4. 5. 6. 7. Diagrama de sectores Diagrama de barras Histograma Diagrama de escalera Pictograma Cartograma Poligono de frecuencias
DISTRIBUCIONES DE FRECUENCIAS:
DATOS: datos recogidos no ordenados numricamente.
ORDENACIONES: Es el conjunto de datos num. En orden creciente o decreciente. La diferencia entre el mayor y el menor se llama RANGO. DISTRIBUCION DE FRECUENCIAS: Cuando tenemos grandes colecc. De datos, es mejor distribuirlos en clases y determinar el nro. De indiv. De cada una. Eso se llama frecuencia de clase. Poner los datos por clases con cada frecuencia, es una DISTRIBUCON DE FRECUENCIAS (o tabla de frecuencias). INTERVALOS DE CLASE: Ej. 1.60 1.62, ese es un intervalo. El 1 nro. Es el lim. Inferior y el 2 el superior. Si careciera de los lim. Inferior y superior seria ABIERTO. Ej. Personas que nacieron en el ao 65 o mas. FRONTERA CLASE: Se promedia el lim. Sup. Y el inferior. TAMAO O ANCHO DE UN INTERVALO DE CLASE: Es la diferencia entre las fronteras de clase inf. Y superior. MARCA DE CLASE: Es el punto medio del intervalo de clase y lo logro promediando los limites inf. Y sup. De la clase. Tambin se denomina PUNTO MEDIO.
Un grafico que tiene las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores, se llama polgono de frecuencias acumuladas u ojivas. Siempre que hablemos de distribuciones acumuladas u ojivas, se est hablando del caso menor que. La frecuencia acumulada relativa o frecuencia acumulada en porcentajes, es la frecuencia acumulada dividida por la frecuencia total. Por ello, la frecuencia acumulada relativa de alturas menores que 1,685 es 65/100= 65%, lo que significa que el 65% de los estudiantes mide menos de 1,68.
1. Las curvas de frecuencias simtricas o en forma de campana, se caracterizan porque las observaciones equidistantes del mximo central tienen la misma frecuencia. Ej. La curva normal. 2. En las curvas de frecuencias poco simtricas o sesgadas, la cola de la curva a un lado del mximo central es ms larga que al otro lado. Si la cola mayor esta a la derecha, la curva se dice asimtrica a la derecha o de simetra positiva. En caso contrario, se dice asimtrica a la izquierda o de asimetra negativa. 3. En una curva en forma de J o de J invertida, hay un mximo en un extremo. 4. Una curva de frecuencia en forma de U tiene mximos en ambos extremos. 5. Una curva de frecuencia bimodal tiene dos mximos. 6. Una curva de frecuencia multimodal tiene ms de dos mximos.
La media se confunde a veces con la mediana o moda. La media aritmtica es el promedio de un conjunto de valores, o su distribucin; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parmetros caractersticos de una distribucin de probabilidad. Es a veces una forma de medir el sesgo de una distribucin tal y como se puede hacer en las distribuciones exponencial y de Poisson. Por ejemplo, la media aritmtica de 34, 27, 45, 55, 22, 34 (seis valores) es
Ejemplo: Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
Ejercicio de media aritmtica En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuacin media. xi [10, 20) [20, 30) [30,40) [40, 50) [50, 60 [60,70) [70, 80) 15 25 35 45 55 65 75 fi 1 8 10 9 8 4 2 42 xi fi 15 200 350 405 440 260 150 1 820
La suma de las desviaciones de los nmeros 8, 3, 5, 12, 10 de su media aritmtica 7.6 es igual a 0: 8 7.6 + 3 7.6 + 5 7.6 + 12 7.6 + 10 7.6 = = 0. 4 4.6 2.6 + 4. 4 + 2. 4 = 0 2. La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a un nmero cualquiera se hace mnima cuando dicho nmero coincide con la media aritmtica.
3. Si a todos los valores de la variable se les suma un mismo nmero, la media aritmtica queda aumentada en dicho nmero. 4. Si todos los valores de la variable se multiplican por un mismo nmero la media aritmtica queda multiplicada por dicho nmero.
Definicin de mediana
Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor a mayor. La mediana se representa por Me. La mediana se puede hallar slo para variables cuantitativas.
Clculo de la mediana
1. Ordenamos los datos de menor a mayor. 2. Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma. 2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5 3. Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.
es la semisuma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos Ejemplo Calcular la mediana de una distribucin estadstica que viene dada por la siguiente tabla: fi [60, 63) [63, 66) [66, 69) [69, 72) [72, 75) 5 18 42 27 8 100 100/2 = 50 Clase de la mediana: [66, 69) Fi 5 23 65 92 100
Definicin de moda
La moda es el valor que tiene mayor frecuencia absoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribucin: 2, 3, 3, 4, 4, 4, 5, 5 Mo= 4 Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la mxima, la distribucin es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9 Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. 2, 2, 3, 3, 6, 6, 9, 9 Si dos puntuaciones adyacentes tienen la frecuencia mxima, la moda es el promedio de las dos puntuaciones adyacentes. 0, 1, 3, 3, 5, 5, 7, 8Mo = 4
Li es el lmite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal. fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. Tambin se utiliza otra frmula de la moda que da un valor aproximado de sta:
Ejemplo: Calcular la moda de una distribucin estadstica que viene dada por la siguiente tabla: fi [60, 63) [63, 66) [66, 69) [69, 72) [72, 75) 5 18 42 27 8 100
2 Los intervalos tienen amplitudes distintas. En primer lugar tenemos que hallar las alturas.
Ejemplo: En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda. fi [0, 5) [5, 7) [7, 9) [9, 10) 15 20 12 3 50 hi 3 10 6 3
Cuartil
Uno de los tres puntos que dividen un conjunto de datos numricamente ordenados en cuatro partes iguales. A estos tres puntos se les llama primer cuartil (tambin llamado el cuartil inferior), segundo cuartil (el cuartil medio; es la mediana) y el tercer cuartil (cuartil superior), respectivamente. Se pueden utilizar para darnos una idea de la dispersin de los datos.
Primer cuartil Primero de los tres puntos que dividen un conjunto de datos ordenados numricamente en cuatro partes iguales. Esto es, el primer cuartil de una lista ordenada numricamente es un nmero tal que un cuarto de los datos de la lista se encuentran debajo de l.
Segundo cuartil Nmero que divide un grupo de datos numricamente ordenados en una mitad inferior y una superior. El segundo cuartil es lo mismo que la mediana.
Tercer cuartil Tercero de los tres puntos que dividen en cuatro partes iguales a un conjunto de datos numricamente ordenados. Es decir, el tercer cuartil de una lista ordenada numricamente es un nmero debajo del cual se encuentran las tres cuartas partes de los datos.
fi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 8 10 16 14 10 5 2 65 Clculo del primer cuartil
Fi 8 18 34 48 58 63 65
Deciles.
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana. Clculo de los deciles En primer lugar buscamos la clase donde se encuentra frecuencias acumuladas. , en la tabla de las
Li es el lmite inferior de la clase donde se encuentra el decil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase el decil. ai es la amplitud de la clase. Ejercicio de deciles: Calcular los deciles de la distribucin de la tabla: fi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 8 10 16 14 10 5 2 65 Clculo del primer decil: Fi 8 18 34 48 58 63 65
Percentiles.
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.
Li es el lmite inferior de la clase donde se encuentra el percentil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del percentil. ai es la amplitud de la clase. Ejercicio de percentiles: Calcular el percentil 35 y 60 de la distribucin de la tabla: fi [50, 60) 8 Fi 8
[60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120)
10 16 14 10 5 2 65
18 34 48 58 63 65
Percentil 35
Percentil 60
MEDIDAS DE DESPERSION:
Se inici el estudio de la estadstica descriptiva. Se organiz un conjunto de datos, en una tabla de distribucin de frecuencias y se grafic la distribucin. Usando un histograma o un polgono de frecuencias. Esto ayuda a visualizar donde se agrupan los datos y la forma general de la distribucin. Calculamos varias medidas de tendencia central, esto nos permite definir un valor tpico en un conjunto de observaciones. Ahora veremos la dispersin o variabilidad de los datos. Porque ver la dispersin? Un promedio como la media, o la mediana, solamente localiza el centro de los datos, pero no dice nada acerca de la diseminacin de los datos. Un valor chico para una medida de dispersin indica que los datos se encuentran acumulados cercanamente, por ej. Alrededor de la media. Entonces la media se considera bastante representativa de los datos, es un valor confiable. Pero una medida de dispersin grande, indica que la media no es confiable, es decir, no es representativa de los datos. Ejemplo 1. Edades de de un grupo, varan de 18 a 85 aos. Esta amplia dispersin da como resultado una medida de 50 aos que no es muy significativa.
n empleados
edad
Ejemplo 2. Comparar cuan dispersas estn dos o ms distribuciones. Si la media de la produccin diaria de una planta AA, es 50 y en otra BB, es tambin 50, con base a esta informacin se podra decir que son idnticas las distribuciones de las producciones diarias. Sin embargo, los registros para 9 das en las dos plantas revelan que esa conclusin es errnea. Pues la produccin en la planta AA vara de 48 a 52, mientras que en la otra, la produccin es ms errtica, variando de 40 a 60 por da.
48
49
50
51
52
40
47
50
53
60
Medidas de dispersin:
Veremos varias medidas de dispersin: dispersin es la variacin de un conjunto de datos. 1. Amplitud de variacin: es la ms sencilla. Es la diferencia entre el valor ms grande y el ms chico de un conjunto de datos. Amplitud de variacin: valor ms grande valor ms pequeo
Caractersticas principales:
a. Solo dos valores se utilizan b. Tienen la influencia de valores extremos c. Es fcil de calcular y comprender. En nuestro ejemplo de la produccin, para la planta AA: 52-48= 4, para la planta BB es: 60-40= 20.
Caractersticas principales: a. No es influenciada nocivamente por valores grandes o pequeos. b. Todos los valores se utilizan en su calculo Ejemplo. El nmero de clientes atendidos, para una muestra de 5 das es: 103, 97, 101, 106 y 103. Determinar e interpretar la desviacin media. La media es: xi = 103 + 97 + 101 + 106 +103 = 102 n 5 n casos Ixi - XI 103 1 97 5 101 1 106 4 103 1 12 DM = 12/5 = 2,4, esto es que el nmero de clientes en promedio varia en 2,4 respecto de la media de 102 clientes.
Caractersticas principales de la varianza: a. Todas las observaciones su usan en su clculo. b. No tiene influencia impropia de observaciones extremas. Caractersticas principales de la desviacin estndar. a. Su valor esta en las mismas unidades que los datos originales. b. Es la raz cuadrada de la distancia promedio respecto de la media, elevada al cuadrado. c. No puede ser negativa. d. Es la medida de dispersin ms utilizada.
Varianza:
Teorema de Chebyshev
Para un conjunto cualquiera de observaciones (muestra o poblacin), la proporcin mnima de los valores que se encuentran dentro de k observaciones estndares desde la media es al menos 1- 1/k2, donde k es una constante mayor a 1. Ejemplo. En muestro ejemplo anterior la media fue de X= 6185/120 = 51,54$ y la desviacin fue de 7,51$. Qu porcentaje se encuentra a una distancia de ms de 3,5 desviaciones estndares y menos de 3,5 desviaciones estndares? Aproximadamente el 92%, 1- 1/(3,52) = 0,92
Regla emprica
Para una distr. De frecuencias simtrica, aproximadamente el 68% de las observaciones estar a ms y menos una desviacin de la media; el 95% estar a mas de dos y menos de dos desviaciones de la media y prcticamente todas las observaciones, 99,7% se hallara a ms y menos tres desviaciones estndares de la media.
70
80
90
100
110
120
130
-3s
-2s
-1s
1s
2s
3s
I--------- 68% --------I I------------------- 95% ----------------I I--------------------------- 99,7 % -----------------------I Se ha observado que si una distribucin es simtrica con forma de campana, prcticamente todas las observaciones se encuentran entre la media ms y menos tres desviaciones estndares. Ejemplo: una muestra de las cantidades mensuales de dinero destinado a viticos, sigue aproximadamente una distribucin de frecuencias simtrica de campana. La media mensual es 150$, la desviacin estndar es $20. Utilizando la regla emprica: 1. Aproximadamente, entre cuales dos cantidades esta el 68% de los gastos en viticos? Aproximadamente el 68% estn entre $130 y $170, X $150 1.$20 2. Aproximadamente, entre cuales dos cantidades se halla el 95% de los gastos? Aproximadamente el 95% estn entre $110 y $190 X 2s = $150 2.$20 3. Aproximadamente, entre cuales dos cantidades estn todos los gastos? Aproximadamente el 99,7% estn entre $90 y $210 X 3s = $150 3.$20
Dispersin relativa
Es la razn de la desviacin estndar a la media aritmtica, expresada como un porcentaje.
CV =
S 100 X
Ejemplo: un estudio de las calificaciones obtenidas en un curso de administracin y los aos de servicio de los empleados que tomaron el curso, dio como resultado: calificacin media 200, la desviacin estndar 40. La media del nmero de aos de servicio fue de 20 aos y la desviacin estndar resulto de 2 aos. Comparar la dispersin relativa de las dos distribuciones empleando el coeficiente de dispersin. Para las calificaciones. CV = 40 *100 = 20% 200 Para los aos de servicio. CV = 2 *100 = 10% 20
Se puede ver que existe mayor dispersin relativa con respecto a la media en la distribucin de las calificaciones que en la distribucin de aos de servicio, porque 20% > 10%
Localizar la mediana, el 1 y 3 cuartil de las comisiones. 1. Organizar los datos de menor a mayor 1460 1787 2097 1471 1940 2205 1637 2038 2287 1721 2047 2311 1758 2054 2406
El valor de la mediana es la observacin que se encuentra en el centro. El valor central se localiza en (n+1)/2, donde n es el nmero total de las observaciones. En este caso es la posicin nmero 8, que se obtiene por (15+1)/2. La octava comisin es $2038, esta es la mediana. La mitad de los corredores obtuvieron comisiones mayores que $ 2038 y la mitad menores que $ 2038. Los cuartiles dividen un conjunto de observaciones en cuatro partes iguales. De ah que un 25% de las observaciones son menores que el Q1 (1 cuartil). Un 75% son menores que el Q3. Para localizar el Q1, se utiliza: Lp = (n+1) P = (15+1) 25 = 4 100 100
Y para localizar el Q3, Lp= (15+1) 75 = 12 100 Los valores del Q1 y el Q3 se encuentran en las posiciones 4 ($1721) y 12 ($2205).
Distribuciones normales
Caractersticas: 1. La curva normal es acampanada. La media, la mediana y la moda de la distribucin son iguales y estn localizadas en el pico. De esta forma, la mitad del rea bajo la curva se encuentra por arriba de este punto central y la mitad por abajo. 2. Es simtrica con respecto a su media. 3. Decrece uniformemente en ambas direcciones a partir del valor central. Es asinttica, lo cual significa que la curva se acerca cada vez ms al eje X, pero en realidad nunca llega a tocarlo. Distribucin normal estndar: tiene una media igual a 0 y una desviacin estndar igual a 1. Cualquier distribucin normal puede convertirse en una distribucin normal estndar. Se convierte, o estandariza, la distribucin a una distribucin normal estndar utilizando el valor z, denominado a veces, desvo normal estandarizado o simplemente desvo normal. El valor z es la distancia a partir de la media, medida en unidades de la desviacin estndar. Valor normal estndar Z = X - donde: X es el valor de cualquier medida u observacin especifica es la medida de la distribucin es la desviacin estndar de la distribucin conociendo el valor z, se puede obtener el rea o la probabilidad bajo la curva normal. Ejemplo: si z es 1,91. Cul es el rea bajo la curva normal entre la media y X? resulta que 0,4719, esto significa que 47,19% del rea bajo la curva se encuentra entre la media y el valor X de 1,91 desviaciones estndares por arriba de la media. Esta es la probabilidad de que una observacin se encuentre entre 0 y 1,91 desviaciones estndares respecto de la media.
Ejemplo 1. La media de un grupo de ingresos semanales con distribucin normal para un conjunto de gerentes de nivel medio, es $1.000 y la desviacin estndar es de $ 100. Cul es el valor z para un ingreso X de $ 1.100? y para uno de $ 900? Para X = 1100 Z=( X-)/ = (1100-1000)/100 = 1
El valor de z= 1 indica que un ingreso semanal de $ 1100 esta a una desviacin estndar por encima de la media. Para X= 900 Z=( X-)/ = (900-1000)/100 = -1 El valor de z= -1 indica que un ingreso semanal de $ 900 esta a una desviacin estndar por debajo de la media. Ambos ingresos (900; 1100) estn a la misma distancia $100 respecto de la media. Ejemplo 2: con la misma informacin anterior, =1000 y =100 convertir: a. El ingreso semanal de $ 1225 a una unidad estndar. b. El ingreso semanal de $ 775.
Muestreo de la poblacin:
El muestreo es la nica forma de determinar algo acerca de la poblacin. Algunas de las principales razones son. a. La naturaleza destructiva de ciertas pruebas. Si los catavinos tuvieran que beber todo el vino para evaluar la vendimia, consumiran toda la produccin y no quedara producto disponible para la venta. En el rea de la produccin industrial, las placas de acero, el alambre y productos similares, frecuentemente deben tener determinada resistencia mnima a la tensin. Para asegurar que el producto cumpla con el estndar mnimo, se selecciona una muestra relativamente pequea. Cada pieza es estirada hasta que se rompe y se registra el esfuerzo de ruptura. Si todas las piezas se sometieran a prueba de resistencia a la tensin, no quedara ningn producto para su venta o uso. b. Imposibilidad fsica de revisar todos los integrantes de la poblacin: c. El costo de estudiar a todos los integrantes de una poblacin, frecuentemente es prohibitivo. d. Lo adecuado de los resultados de la muestra: incluso si se contase con los fondos, se necesaria mucho tiempo para entrevistar a toda la poblacin.
si se seleccionan de cualquier poblacin todas las muestras de un tamao determinado, la distribucin de las medias muestrales se acercara a una del tipo normal. Esta aproximacin aumenta en el caso de muestras ms grandes.
Intervalo de confianza de 95% para la media: X1,96 *s / Intervalo de confianza de 99% para la media: X2,58 *s / Intervalo de confianza para una media: Xz *s / , donde z es el nivel de confianza. Ejemplo1: en un experimento se trata de seleccionar una muestra aleatoria de 256 empleados de nivel medio. Lo que se estudia es su ingreso mensual. La media muestral vale $45.420 y la desviacin estndar en la muestra es $ 2.050. a. Cul es el ingreso medio estimado de todos los empleados de nivel medio (la poblacin)?, es decir, cual es la estimacin puntual? b. Cul es el intervalo de confianza de 95% para la media poblacional? c. Cules son los lmites del intervalo de confianza de 95%, para la media poblacional? d. Qu grado de confianza est usando? e. Interpretar los resultados. Soluciones a. La estimacin puntual de la media poblacional es $45.420 b. El intervalo de confianza est entre $45170 y $45670, calculado mediante X1,96 *s / = 45420 1,96 * 2050/. c. Los puntos extremos del intervalo de confianza se denominan lmites de confianza. En nuestro ejemplo, son $45.170 y $45.670 d. La medida de confianza que tiene una persona se denomina grado de confianza o nivel de confianza. En este caso 95%. e. Interpretacin: si hubiera tiempo para seleccionar muchas muestras de tamao 256 de la poblacin de empleados de nivel medio, y calcular las medias muestrales y los intervalos de confianza, la media poblacional del ingreso mensual se encontrara aproximadamente en 95 de los 100 intervalos de confianza. De ah que un intervalo puede o no contener a la media poblacional. Aproximadamente 5 de los 100 intervalos de confianza no incluyen a la media poblacional, . Ejercicios 1. Un departamento de flora y fauna ha proporcionado un alimento especial a cras de truchas. Una muestra de los pesos de 40 truchas revelo que su media muestral es 402,7 gramos y la desviacin estndar de la muestra es 8,8 gramos. a. Cul es el peso medio estimado en la poblacin? Como se denomina el valor estimado? b. Cul es el intervalo de confianza de 99%? c. Cules son los lmites de confianza de 99%? d. Qu grado de confianza se utilizo? e. Interpretar resultados.
2. Una muestra de 49 observaciones se toma a partir de una poblacin normal. La media muestral es 55 y la desviacin de la muestra es 10. Determinar el intervalo de confianza de 99% para la media poblacional.
3. Una muestra de 81 observaciones se toma de una poblacin normal. La media muestral es 40 y la desviacin estndar es 5. Determinar el intervalo de confianza de 95% para la media de la poblacin. 4. Una empresa de investigacin realizo una encuesta para determinar la cantidad promedio de dinero que gastan los fumadores en cigarrillos durante una semana. Una muestra de 49fumadores revelo que la media es $20 y s= 5. a. Cul es la estimacin muestral? b. Utilice el nivel de confianza de 95% y determine el intervalo de confianza para .
1. Se estima que una poblacin tiene = 10, ha de evaluarse la media de la poblacin dentro de 2, con un nivel de confianza de 95%. Que tamao se requiere para la muestra? 2. Se quiere estimar la media poblacional dentro de 5, con un nivel de confianza de 99%. La desviacin se determina en 15. Que tamao debe tener la muestra?
Muestreo aleatorio estratificado: se divide en subgrupo la poblacin, denominados estratos y se selecciona una muestra de cada uno. Despus la muestra puede ser proporcional o no proporcional. Una muestra proporcional requiere que el nmero de elementos en cada estrato tenga la misma proporcin en que se encuentra en la poblacin Muestreo por conglomeracin: se subdivide un rea extensa en reas menores. Luego se elige al azar que reas entran en la muestra y se realizan estudios en ellas. No probabilstica: no todos los integrantes tienen posibilidad de ser incluidos en la muestra. en estos casos, los resultados pueden estar sesgados, lo que significa que tales resultados de la muestra pueden no ser representativos de la poblacin. Los mtodos de muestreo probabilstico tienen un objetivo similar: permitir que el azar determine los integrantes que se incluirn en la muestra. Error de muestreo: diferencia entre un valor estadstico de muestra y su parmetro de poblacin correspondiente.
a. b. c. d.
Cul es la media de la poblacin? Cul es la distribucin de muestreo de medias para una muestra de tamao 2? Cul es la media de la distribucin de muestreo? Que observaciones pueden formularse con respecto a la poblacin y a la distribucin de muestreo?
Respuestas: a. La media es = / 7 = $ 7,71 b. Se seleccionan todas las muestras posibles de tamao 2 sin reposicin en la poblacin. Hay NCn = ( ) = = 21 ( ) Las 21 medias de todas las muestras posibles de tamao 2 que pueden tomarse a partir de la poblacin, son:
muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
empleados jose-samuel jose-susana jose-roberto jose-juan jose-aurora jose-teodoro samuel-susana samuel-roberto samuel-juan samuel-aurora samuel-teodoro susana-roberto susana-juan susana-aurora susana-teodoro roberto-juan roberto-aurora roberto-teodoro juan-aurora juan-teodoro aurora-teodoro
salario 7;7 7;8 7;8 7;7 7;8 7;9 7;8 7;8 7;7 7;8 7;9 8;8 8;7 8;8 8;9 8;7 8;8 8;9 7;8 7;9 8;9
media 7 7,5 7,5 7 7,5 8 7,5 7,5 7 7,5 8 8 7,5 8 8,5 7,5 8 8,5 7,5 8 8,5
c. La media de todas las medias muestrales es x = xi / 21 = $ 7,71 Distribucin de muestreo de las medias para n=2 media muestral 7 7,5 8 8,5 cantidad 3 9 6 3 21 probabilidad 0,1429 0,4286 0,2857 0,1429 1
Valores de poblacin
probabilidad
0.429
0.429 0.143
8
salarios por hora
7.5
8.5
medias muestrales
La media de la poblacin es igual al valor medio de las medias muestrales. Las medias muestrales se aproximan a una distribucin normal. d. Pueden hacerse las siguientes observaciones: La media de las medias muestrales ($7,71) es igual a la media poblacional ($7,71). La dispersin en la distribucin de las medias muestrales (0,4518) es menor que la que corresponde a los valores de la poblacin (0,70). Las medias muestrales varan de $7 a $ 8,5, y los valores de la poblacin van de $ 7 a $ 9. La forma de la distribucin de muestreo de las medias muestrales, y la forma de la distribucin de frecuencias de los valores de la poblacin, son diferentes. La primera tiende a ser acampanada y se aproxima en su aspecto al de la distribucin probabilstica normal. media muestral 7 7,5 8 8,5
cantidad 3 9 6 3 21
salario 7 8 9
Pruebas de Hipotesis
Ya vimos el modo en que podemos seleccionar una muestra al azar, y a partir de ella, calcular el valor de un parmetro poblacional. Es decir, calculamos un parmetro poblacional a partir de un valor estadstico muestral. Adems podemos hallar un intervalo de confianza, dentro del cual se espera localizar el valor poblacional. En lugar de desarrollar una variedad de valores dentro del cual se espera que ocurra el parmetro poblacional, se lleva a cabo una prueba de hiptesis. Primero veremos que se entiende por hiptesis y que por pruebas de hiptesis. Despus se describen los pasos a seguir para probar una hiptesis. Se realiza un ensayo de hiptesis:
1. Comparando una media muestral con un valor hipottico. 2. Comparando dos medias muestrales para determinar si son iguales. 3. Analizaremos errores estadsticos posibles en las pruebas de hiptesis.
Que es una prueba de hiptesis? La prueba de hiptesis principia con una afirmacin o supuesto, acerca de un parmetro de poblacin, como la media poblacional. Prueba de hiptesis: procedimiento basado en la evidencia muestral y en la teora de probabilidad que se emplea para determinar si la hiptesis es un enunciado razonable. Ejemplo: una hiptesis podra ser la comisin mensual media de vendedores es de $2000. Como no es posible entrevistar a todos los vendedores para establecer que la media en realidad sea $2000. El costo de localizar e interrogar a cada vendedor seria exorbitante. Para probar la validez de la afirmacin (=$2000), debe seleccionarse una muestra de la poblacin, calcular valores estadsticos muestrales y con base en determinadas reglas de decisin, aceptar o rechazar la hiptesis. Una media muestral de $1000 provocara el rechazo de la hiptesis. Sin embargo una media muestral de $1995. Se aproxima lo suficiente a $2000? Para aceptar el supuesto de que la media poblacional vale $2000. Puede atribuirse la diferencia de $5 entre las dos medias a error de muestreo, o esa diferencia es significativa estadsticamente?
El primer paso es plantear la hiptesis que ha de ser probada. Se la denomina hiptesis nula, H0, el subndice cero indica no hay diferencia. Se plantea con el objetivo de probar. Podemos rechazarla o aceptarla. Tal hiptesis es una afirmacin que se aceptara si los datos muestrales no pueden proporcionar evidencia convincente de que es falsa. La hiptesis nula se acepta con base en datos muestrales, no es posible afirmar que tal hiptesis es verdadera. Aceptarla no prueba que H0 se cumple, sino ms bien significa que no se pudo refutar H0. Para probar sin duda alguna que la hiptesis nula es verdadera, el parmetro poblacional debe ser conocido. La hiptesis nula principia afirmando que: no hay una diferencia significativa entre. Hiptesis nula: afirmacin (o enunciado) acerca del valor de un parmetro poblacional
La hiptesis alternativa describe lo que se considerara si se rechaza la hiptesis nula. Se designa por H1. Con frecuencia se denomina tambin como la hiptesis de investigacin ser aceptada si los datos muestrales proporcionan evidencias estadsticas suficientes de que la hiptesis nula es falsa. Hiptesis alternativa: afirmacin que se aceptara si los datos muestrales proporcionan amplia evidencia de que la hiptesis nula es falsa. Paso 2: seleccionar un nivel de significacin o riesgo. Nivel de significancia: probabilidad de rechazar la hiptesis nula cuando es verdadera. Error de tipo I (): rechazar la hiptesis nula, H0, cuando en realidad es verdadera. Error de tipo II (): aceptar la hiptesis nula cuando en realidad es falsa.
investigador Hiptesis nula H0 es verdadera H1 es falsa Se acepta H0 Decisin correcta Error de tipo II Se rechaza H1 Error de tipo I Decisin correcta
Paso 3: calcular el valor estadstico de prueba. Existen muchos valores estadsticos de prueba. Usaremos el valor z. Existen otros que se refieren a pruebas de hiptesis denominadas, t, F y X2 (chi cuadrada). Valor estadstico de prueba: valor obtenido a partir de la informacin muestral, que se utiliza para determinar si se rechaza la hiptesis nula. Z de distribucin como valor estadstico de prueba z= (X- ) / (/ )
El valor z se basa en la distribucin muestral de x, que se distribuye de manera normal cuando la muestra es razonablemente grande con una media igual a , y una desviacin estndar que es igual a / . De esta manera se puede determinar si la diferencia entre la media muestral y la poblacional es estadsticamente significativa encontrando el nmero de desviaciones estndares que la media esta a partir de . Paso 4: formular la regla de decisin. Establece las condiciones cuando se rechaza H0. La regin de rechazo define la ubicacin de todos los valores que son demasiados grandes o demasiados pequeos, por lo que es muy remota la probabilidad de que ocurran segn una hiptesis nula verdadera.
Valor critico: numero que es el punto divisorio entre la regin de aceptacin y la regin de rechazo
de la hiptesis nula.
Paso 5: tomar una decisin. El ltimo paso es la toma de la decisin de rechazar o no la hiptesis nula. Con base en informacin muestral se calcula el z, y con el nivel de significancia se toma la decisin (valor crtico).
Paso 4: la regla de decisin se formula hallando el valor crtico de z. dado que es a dos colas, la mitad de 0,01, o sea 0,005, est en cada extremo. La regla de decisin es: rechazar la H0 y aceptar la H1 (que establece que la poblacin media no es 200), si el valor z no queda en la regin de -2,58 y +2,58. Paso 5: se toma una muestra de la poblacin. El numero medio de escritorios producidos en el ltimo ao (50 semanas, pues hubo 2 de vacaciones) es de 203,5. Z= 203,5 200 = 1,55 16 / Dado que 1,55 cae en el intervalo de (-2,58; 2,58), es decir no cae en la regin de rechazo, H0 no se descarta. De modo que se concluye que la media de la poblacin no es distinta de 200. As que se reporta al presidente que la evidencia muestral no refleja que la tasa de produccin en la planta haya cambiado de 200 por semana. La diferencia de 3,5 unidades entre la tasa de produccin histrica y la del ao anterior, puede atribuirse razonablemente al azar. Ejemplo 2: si el presidente desea saber si ha habido un aumento en el nmero de unidades producidas. Es decir, se puede concluir que el nmero medio de escritorios armados en el ltimo ao fue mayor que 200? H0: 200 H1: 200 Entonces el valor crtico ahora es: 2,33
Dado que z= 1,55 est en zona de no rechazo. La evidencia muestral no refleja que la tasa de produccin en la planta haya aumentado. Pruebas para la media de la poblacin: muestra grande y se desconoce la desviacin poblacional. En la mayora de los casos es poco probable que se conozca la desviacin poblacional. As que debe basarse en estudios previos, o se estima utilizando la desviacin de la muestra, s. si el tamao de la muestra, n, es mayor que 30 se puede sustituir por por s. Ejemplo: una cadena de tiendas tiene su propia tarjeta de crdito. El gerente desea averiguar si el saldo vencido medio mensual es mayor que 400$. El nivel de significancia se fija en 5%. Una revisin aleatoria de 172 saldos vencidos revelo que la media muestral es 407$, y la desviacin de la muestra es 38$. Debera concluir el gerente de crditos que la media poblacin es mayor que 400$ o bien es razonable suponer que la diferencia de 7$ se debe al azar. Solucin: H0: 400$ H1: 400$ Dado que tenemos una direccin, la prueba es a una cola. El valor critico 1,645. El valor calculado de z es 2,42 Z= 407 400 = 2,42 38/ Dado que el valor estadstico de prueba, 2,42 es mayor que el valor critico, 1,645, se rechaza la H 0. El gerente de credito puede concluir que el saldo vencido es mayor que 400$.
H0: 1 = 2 H1: 1 2 Como no especificamos una direccin, se usara una prueba a dos colas. Nivel de significacin: 99% (es decir, la probabilidad de cometer un error de tipo I, vale 0,01). Prueba estadstica: se seleccionaran aleatoriamente cuando menos 30 bloques (n1) de Stanblock y por lo menos 30 de Hipercompresive (n2). Se supone que las dos poblaciones no estn relacionadas, supuesto de independencia. La teora dice: si un numero grande de muestras aleatorias independientes se seleccionan de las dos poblaciones, la distribucin de las diferencias entre las dos medias muestrales, dividida entre el error estndar de la diferencia entre las los medias se aproxima a una distribucin normal estndar. Z = x1 x2 Se selecciono aleatoriamente un total de 81 bloques de la produccin de Stanblock y 64 bloques de la empresa Hicompresive.
Stanblock X1 = 1070 psi n1 = 81 s1 = 63 psi Hicompresive X2 = 1055 psi n2 = 64 s2 = 57 psi
El valor estadstico resulta ser 1,50. El valor critico (0,01) es de 2,58. Por lo tanto no es posible rechazar la hiptesis de que es la misma la resistencia media a la compresin de los bloques, la decisin final el dividir el contrato entre los dos proveedores.
Las siguientes caractersticas de la distribucin t, se basan en el supuesto de que la poblacin de inters es normal, o casi normal. 1. Como la distribucin z, es una distribucin continua. 2. Tambin, como la distribucin z, es acampanada y simtrica. 3. No hay una sola distribucin t, sino una familia de distribuciones t. Todas tienen la misma media igual a cero, pero sus desviaciones estndares difieren de acuerdo al tamao de muestra, n. Hay una distribucin t para un tamao de muestra 20, otra para un tamao de muestra 22, y as sucesivamente. 4. La distribucin t es ms extendida y menos aguda en el centro que la distribucin normal estndar. Sin embargo a medida que aumenta el tamao de muestra, la curva de la distribucin t se aproxima a la de la distribucin normal estndar. 5. Los valores crticos de t para un nivel de significancia dado son mayores en magnitud que los valores crticos de z correspondientes. Con un nivel de 0,05 de significancia, el valor critico para la prueba z es 1,645, mientras que para t es 2,132. Cul es la importancia del hecho que el valor critico para un nivel de significancia, sea mayor para muestra pequeas que para muestras grandes? El intervalo de confianza ser ms amplio que para muestras grandes aplicando la distribucin z. La regin de aceptacin de H0 ser ms amplia. Ser necesario un mayor valor t calculado para rechazar la hiptesis nula. Es decir, que dado que hay mayor variabilidad en las medias muestrales calculadas a partir de muestras ms pequeas, se tiene menos confianza en los estimadores resultantes y son menos adecuados para rechazar la hiptesis nula. Ejemplo: el departamento de reclamos en una aseguradora revela que en promedio cuesta 60$ la realizacin de todos los tramites, manejar todo el papeleo, pagar al investigador y otros. Este costo se considero muy alto comparado con el de otras compaas aseguradoras, y se instauraron medidas para abatir los costos. A fin de evaluar el impacto del costo de tales medidas, la aseguradora selecciono aleatoriamente una muestra de 26 demandas y encontr que la media muestral tena un valor de 57$ y la desviacin muestral era de 10$. En el nivel de significancia de 0,01, se puede concluir que las medidas realmente redujeron el costo? O bien, se debe concluir que la diferencia de 3$ entre la media muestral de 57$ y la poblacional de 60$ puede atribuirse al azar? Utilizamos el procedimiento comn. Paso 1: planteamos las hiptesis H0: 60 H1: < 60 La prueba es a una cola ya que nos interesa saber si hay o no reduccin en el costo. Paso 2: se usara el nivel de significancia de 0,01 Paso 3: proporcionar el estadstico de prueba. Usamos la distribucin t, ya que no conocemos la desviacin estndar de la poblacin, y el tamao de muestra es pequeo (menor que 30). t= - s/
Paso 4: formular la regla de decisin. Tenemos que utilizar la tabla de la distribucin t, para ello necesitamos los grados de libertad, para esta muestra, n=26, entonces los gl= 25, es decir, n-1. Y se debe elegir el valor crtico para prueba de una cola, en este caso el valor es 2,485. Debo tomar el valor negativo, es decir -2,485 pues es de una cola a izquierda. Paso 5: calcular t, y tomar una decisin. t = - = 57-60 s/ 10/ = -1,530 este valor se encuentra en zona de aceptacin, la H0 no se rech.
No hay una diferencia estadstica importante entre y . Esto indica que las medidas para reducir el costo no han abatido el costo medio por reclamo a menos de 60$, con base en los resultados muestrales. La diferencia de 3$ entre la media muestral y la media poblacional, se debe al azar.
Supongamos que somos uno de los prisioneros, no sabemos que har el otro por lo que el mejor de los casos es delatar al otro independientemente de lo que haga, ya que en ambas situaciones minimizamos los aos de pena esperados en la crcel. Si el otro nos delata iremos seis aos en vez de 10 y si no nos delata iremos uno en vez de 2. Dado que el otro es igual de inteligente que nosotros, lo mas probable es que llegue a la misma decisin. Al final lo que acaba pasando es que ambos acaban perdiendo 6 aos entre rejas, mientras que si hubieran cooperado hubieran sido solo 2.
La situacin alcanzada es un EQUILIBRIO DE NASH, porque ambas partes no pueden cambiar sino empeorar. Es decir, no se haya la mejor situacin para las partes.
Tu encubres El encubre Maximo beneficio comun (-2,-2) El traiciona El gana, tu pierdes (-1,-10) Tu traicionas Tu ganas, el pierde (-10, -1) Maximo perjuicio comun (-6,-6)
EQUILIBRIO DE NASH:
Un concepto que fue desarrollado por el economista Antonie Aguistin Cournot en su anlisis denominado Oligopolios en 1838, y en el que plantea un modelo competitivo de varias empresas que compiten por un mismo bien. Y que en el que cada una de ellas intenta determinar la cantidad optima que deben producir para maximizar sus ganancias individuales. El equilibrio de Nash se ha utilizado para regular situaciones de competencia entre empresas y disear subastas de adjudicaciones publicas. Una legislacin que tenga en cuenta el equilibrio de Nash puede evitar oligopolios, por eso en la legislacin antimonopolios se suele buscar formas de evitar que se pacten precios entre las partes iplicadas.