Vous êtes sur la page 1sur 14

UNIVERSIDAD DE SAN CARLOS FACULTAD DE INGENIERA REA DE ESTADSTICA ANLISIS PROBABILSTICO SECCIN A

Documento de Estudio Introduccion a la Inferencia Estadstica


Mdulo 1 Distribuciones Muestrales Mdulo 2 Estimacin Mdulo 3 Comprobacin de Hiptesis

Profesora Guisela Gaitn Garavito (2013)

Pgina 1

UNIVERSIDAD DE SAN CARLOS FACULTAD DE INGENIERA REA DE ESTADSTICA ANLISIS PROBABILSTICO SECCIN A

Modulo Distribuciones Muestrales


Introduccin
En este mdulo se presentan los conceptos bsicos de muestreo y se identifican los modelos que describen el comportamiento de los estadsticos, especialmente: medias, proporciones y varianzas; modelos que servirn de base para la presentacin de los temas Teora de la Estimacin y Prueba de Hiptesis en los mdulos siguientes.

Objetivos
Al finalizar el mdulo el lector estar en capacidad de: 1. Identificar en el contexto de una investigacin: la poblacin, la muestra, el parmetro y el estadstico. 2. Explicar a qu se refiere el trmino muestreo aleatoria simple. 3. Explicar que es una distribucin muestral. 4. Identificar la media y el error estndar en la distribucin muestral de: medias, proporciones y varianzas 5. Calcular la probabilidad de que un estadstico se incluya en un intervalo dado de valores.

Conceptos fundamentales
Se conoce como teora del muestreo al estudio de las relaciones entre una poblacin y una muestre extrada de la misma. Este concepto involucra dos definiciones importantes: poblacin y muestra. 1. Poblacin es el total de observaciones concebibles de un tipo particular en el desarrollo de un experimento o investigacin. El nmero total de observaciones se identifica como N, nmero de elementos de la poblacin. Profesora Guisela Gaitn Garavito (2013)

Pgina 2

Por ejemplo: La poblacin, en un lugar determinado, de individuos de 18 aos, incluye a todos los individuos de esa edad en el lugar. La poblacin de estudiantes fumadores de cierta universidad, incluye a todos los estudiantes que fuman al menos un cigarrillo diario, (observe que se define como fumador a la persona que fuma al menos un cigarrillo diario) En el desarrollo de una investigacin se est interesado en estudiar una o ms caractersticas de la poblacin, a esas caractersticas se le llaman variables. Por ejemplo: en la poblacin de estudiantes fumadores el investigador se interesa en conocer el nmero de cigarrillos que fuman diariamente y su relacin con el gnero del estudiante. Las variables gnero y cantidad de cigarrillos que fuma diariamente un estudiante son las de inters para el estudio. Para cada una de las variables existe una distribucin de probabilidad discreta o continua que determina las probabilidades de ocurrencia de cada uno de sus posibles valores. Se llamean parmetros a los nmeros que son utilizados para resumir esa distribucin de probabilidades de la variable en la poblacin. Los parmetros ms usados frecuentemente son la media () la varianza ( ) la desviacin estndar () la proporcin de casos favorables (p ) y la proporcin de casos desfavorables (q) Por ejemplo: la poblacin de estudiantes fumadores se encuentran distribuidos en 80% de gnero masculino (p =0.8) y 20 % (q= 0.2) de gnero femenino. Adems en promedio fuman 7 cigarrillos al da con una desviacin estndar de 2.56 ( = 7, = 2.56) Note que la variable gnero es una variable de Bernoulli y se desconoce la distribucin de la variable cantidad de cigarrillos que fuman al da. 2. Muestra: es un nmero limitado de observaciones de una poblacin que se hacen o registran en un experimento o en una investigacin. El nmero de observaciones realizadas corresponde al nmero de elementos de la muestra y se representa por n. Por ejemplo, de 1000 estudiantes inscritos en una escuela se seleccionaron 50 para evaluar su grado de motivacin para el estudio de las matemticas. El tamao de la poblacin N = 1000 y el tamao de la muestra n = 50 Por ejemplo: de la poblacin de lechugas producidas en una hectrea determinada de terreno se seleccionaron 200 para identificar la presencia de cierto tipo de bacteria. El tamao de la poblacin no est definido se puede asumir muy grande (infinita) y el tamao de la muestra n = 200. En las muestras, se estudia el comportamiento de las variables y este comportamiento se describe por medio de los estadsticos, los cuales son funciones de los datos observados en la muestra, as los estadsticos son nmeros que describen los datos de la muestra y los ms usados son: la media aritmtica () la Profesora Guisela Gaitn Garavito (2013) Pgina 3

varianza (s2 ) la desviacin estndar (s) la proporcin de casos favorables (P) y la proporcin de casos desfavorables (Q) .

Seleccin de la muestra
La seleccin de la muestre debe hacerse de tal modo que garantice que sea representativa de la poblacin de donde fue extrada. Hay diversas formas de extraer la muestra, para los conceptos de teora de muestreo que se estudian en los mdulos se considera que se utiliza el mtodo de muestreo aleatorio simple o al azar. Si se extrae una muestra de tamao n de una poblacin de tamao N de tal manera que cada uno de los elementos de la poblacin tiene igual probabilidad de ser seleccionado para formar parte de la muestra se dice que el procedimiento usado es el muestreo aleatorio simple. Una manera de proceder para seleccionar la muestra aleatoria simple, consiste en enumerar todos los elementos de la poblacin en orden correlativo (marco de muestreo); utilizando una secuencia de n nmeros aleatorios entre uno y N se seleccionan los elementos de la poblacin que corresponden a esos nmeros. Generalmente se seleccionan los nmeros aleatorios por medio de Excel con la funcin aleatorio.entre. Por ejemplo, si se tiene una poblacin de 900 individuos y es necesario seleccionar una muestra de treinta, se generan treinta nmeros aleatorios entre 1 y 900, los elementos de la poblacin numerados con estos nmeros son los que deben formar parte de la muestra.

Distribuciones muestrales
La teora de muestreo se involucra en situaciones en la que se necesita determinar el probable comportamiento de una muestra si se conoce la distribucin de probabilidades de una variable de la poblacin de donde fue extrada, esto es, permite hacer predicciones sobre los valores que se esperan para los estadsticos calculados en las muestras observadas. Los estadsticos son cantidades cuyos valores se calcula una vez se ha tomado la muestra, dado que las muestras son seleccionadas al azar, los estadsticos son iguales o distintos para cada una de ellas, pues sus elementos no siempre son iguales, por lo tanto se comportan como una variable aleatoria que tiene su propia distribucin de probabilidades. La distribucin de probabilidades de los valores que puede tomar un estadstico calculado a partir de muestras de los mismos tamaos y seleccionadas al azar de la misma poblacin se conoce como distribucin muestral del estadstico.

Profesora Guisela Gaitn Garavito (2013)

Pgina 4

La aplicacin ms frecuente de la distribucin muestral es calcular la probabilidad de obtener una muestra con un estadstico de magnitud determinada o entre un intervalo determinado de valores. Por ejemplo si de la poblacin de estudiantes fumadores que se present prrafos anteriores, se desea calcular la probabilidad de que una muestra de 10 estudiantes seleccionados al azar presente una cantidad media de cigarrillos fumados al da de 6.78. Planteamiento general de las distribuciones muestrales Considere todas las posibles muestras de tamao n que pueden extraerse de una poblacin con parmetro . Si para cada una de estas muestras ( 1, 2, i, j ) se calcula un estadstico E que vara de una muestra a otra se tendr el conjunto de todos los posibles valores de E: Donde Ei = Ej o Ei Ej por lo que pueden existir k valores diferentes para E Con este conjunto de valores de E se puede construir una distribucin muestral del estadstico y determinar la esperanza (media del estadsticos), la varianza y la raz cuadrada de la varianza que es conocida como el error estndar del estadstico.
Muestra 1 2 3 4 .. .. .. Observaciones X11 X21 X31 X41 .. .. .. Estadstico E1 E2 E3 E4 Ei Ej ..

X12 X22 X32 X43 .. ..

X13 X23 X33 X43 .. .. ..

.. .. .. .. .. .. ..

X1n X2n X3n X4n .. .. ..

Distribucin muestral de E Estadstico Probabilidad Ea p(Ea) Eb p(Eb) .. .. .. Ek p(Ek) ( E) media del estadstico V ( E) Varianza del estadstico Profesora Guisela Gaitn Garavito (2013) Pgina 5

( E) error estndar del estadstico

Por ejemplo Suponga que una poblacin de cinco elementos que consta de los valores de los aos de trabajo de cinco personas que laboran en una empresa. Estos aos son: 6, 8, 10, 12, y 14 Si de esta poblacin se extraen todas las muestras posibles de tamao dos y se calcula el estadstico media aritmtica los resultados son los siguientes
Primer elemento de la muestra Segundo elemento de la muestra 6 6 8 7 10 8 12 9 14 10

8 7 9 10 11

10 8 9 11 12

12 9 10 11 13

14 10 11 12 13

Media de los dos elementos seleccionados

Distribucin Muestral Valor de la Media 7 8 9 10 11 12 13 Probabilidad 0.1 0.1 0.2 0.2 0.2 0.1 0.1 1 Clculos para Esperanza 0.7 0.8 1.8 2 2.2 1.2 1.3 10 Clculos para Varianza 0.9 0.4 0.2 0 0.2 0.4 0.9 3

Parmetros de la distribucin muestral de la media aritmtica de las muestras ( E) media del estadstico, media de media aritmtica =10 Profesora Guisela Gaitn Garavito (2013) Pgina 6

V ( E) Varianza del estadstico, de la media aritmtica= 3 ( E) error estndar del estadstico, error estndar de la media aritmtica, la raz cuadrada de la varianza= 1.73 Al seleccionar una muestra de esta poblacin, no se sabe con exactitud qu valor tendr el estadstico media aritmtica, puede ser cualquier valor entre siete y trece, la media aritmtica es una variable aleatoria, as, tiene probabilidad de 0.2 de que tenga un valor de 11 o 0.1 de que tenga un valor de doce. Distribucin muestral de medias Si de una poblacin con media y desviacin estndar se seleccionan todas las posibles muestras de tamao n y a cada una de ellas se calcula el estadstico media o promedio aritmtico se obtiene una distribucin muestral con los siguientes parmetros Esperanza, media () = Varianza 2 () = 2 /n Si la poblacin es infinita = ( 2 / n) * ( (N-n)/ (N-1)) Si la poblacin es finita Error estndar () = / =( / si la poblacin es infinita )* Para poblacin finita

Al seleccionar una muestra de tamao n de esta poblacin, la media aritmtica, la variable aleatoria, tiene una distribucin de probabilidades normal, si la poblacin de valores sigue esta distribucin. Cuando la distribucin de la poblacin no es normal, el Teorema Central del Lmite garantiza que la distribucin muestras se aproxima a la distribucin normal a medida que crece el tamao de la muestra. Para calcular la probabilidad de que la variable media aritmtica se localice en un intervalo de valores determinado se utiliza, la transformacin a la variable Z, normal estndar: Z= ( ) / () Ejemplo 1 En cierto hospital trabajan 300 empleados de cierta categora, los salarios por hora estn distribuidos de forma normal con media de $22.5 y desviacin estndar de $2.25 Si se selecciona una muestra de 16 empleados de esta poblacin, la probabilidad de que el salario Profesora Guisela Gaitn Garavito (2013)

Pgina 7

medio por hora de la muestra sea menor que $21.00 procedimiento: Datos: N= 300 n=16 = 22.5 = 2.25

se calcula con el siguiente

Planteamiento: La variable aleatoria es el salario promedio por hora de una muestra de 16 empleados, , por lo que tiene una distribucin muestral con distribucin normal y parmetros () = = 22.5 () = (2.25 / ) * ((300-16)/ (300-1)) = 0.5482

Solucin la probabilidad de que la media sea menor que $21.00 P ( z < (21-22.5)/0.5482 ) = P( Z <- 2.736) = 0.0031 Respuesta: La probabilidad de que el salario medio por hora de la muestra sea menor que $21 es 0.0031 Ejemplo 2 Supongamos que la estatura media de las alumnas de un instituto es de 165 cm, con desviacin tpica 8 cm. a) Halle los parmetros de una media muestral de tamao n=36 b) Cul es la probabilidad de que una muestra de 36 alumnas tenga una media de 167 cm o ms? Datos: n = 36 = 165 cm = 8 cm

Planteamiento: La variable aleatoria es la estatura promedio de la muestra de las alumnas de ese instituto especfico ,por lo que tiene una distribucin muestral con distribucin normal y parmetros Profesora Guisela Gaitn Garavito (2013)

Pgina 8

() = = 165 cm () = (8 / ) = 4/3 cm

Solucin la probabilidad de que la media sea mayor a 167 cm. P ( z > (167-165)/1.333333 ) = P( z >1.5) = 1-P(z<1.5) = 0.0668

Respuesta: La probabilidad de que la muestra de 36 alumnas tenga una media de 167 cm o ms es de 0.0668.

Resuelva: En cierto pas centroamericano, el peso de los recin nacidos en el ltimo ao, en una maternidad se ha distribuido con una media de 3100 g y una desviacin tpica de 100 g. Cul ser la probabilidad de que la media de una muestra de 100 recin nacidos sea superior a 3130? Datos: N= n=

Planteamiento:

Solucin:

Respuesta: Profesora Guisela Gaitn Garavito (2013)

Pgina 9

Distribucin muestral de proporciones Considere una poblacin en la que un suceso (conocido como xito) tiene probabilidad de ocurrencia igual a p y la probabilidad de no ocurrencia del suceso (conocida como fracaso) igual a q ( q = 1-p). Al seleccionar todas las posibles muestras de tamao n de esta poblacin, contar el nmero de veces que ocurre en suceso (nmero de xitos que aparecen) y calcular la proporcin P de xitos en la muestra (estadstico P) se construye una distribucin muestral de proporciones con parmetros Media (P) = p Varianza (P) = pq/n si la poblacin es infinita = (pq/n) * ((N-n)/ (N-1)) si la poblacin es de tamao finito Error estndar (P) = = (pq/n) si la poblacin es infinita * si la poblacin es de tamao finito

Al seleccionar una muestra de tamao n de esta poblacin el estadstico resultante es una variable aleatoria Binomial, que cuando n es mayor que 30 elementos y n*p y n*q son mayores que cinco la distribucin puede representarse por el modelo Normal. En este caso para calcular la probabilidad de que P est entre un intervalo de valores definido, se utiliza la transformacin Z = normal estndar. Ejemplo 1 Suponga que en una poblacin de adolescentes el 90 % ha tenido una computadora personal de uso exclusivo. Si se extrae de esta poblacin una muestra de tamao 200, la probabilidad de que el estadstico P sea mayor que 85% se calcula de la siguiente forma Datos N= supuestamente infinita n= 200 una computadora personal) = 0.9 computadora personal) = 0.1 Planteamiento Profesora Guisela Gaitn Garavito (2013) p (probabilidad de que el adolescente ha tenido q(probabilidad de que no haya tenido una que tiene una distribucin de probabilidad

Pgina 10

Al seleccionar la muestra y calcular la proporcin de adolescentes que han tenido una computadora personal, la variable aleatoria P tiene una distribucin muestral con media = 0.9 (P) = = 0.0212

Solucin P(P > 0.85) = P(z > ( (0.85-0.9)/0.0212) = P(z > -2.36)= 0.91 Respuesta La probabilidad de que la muestra presente una proporcin de xitos superior a 85% es 0.91

Ejemplo 2 Se ha determinado que 60% de los estudiantes de la facultad de medicina fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporcin de la muestra de los estudiantes sea menor que 0.55. Datos N= supuestamente infinita n= 800 p (probabilidad de que el estudiante fume) = 0.6 q (probabilidad de que el estudiante no fume) = 0.4 Planteamiento Al seleccionar la muestra y calcular la proporcin de estudiantes que fuman cigarrillos, la variable aleatoria P tiene una distribucin muestral con media = 0.6 (P) = = 0.01732

Solucin P(P < 0.55) = P(z < ( (0.55-0.6)/0.01732) = P(z < -2.886)= 0.0017 Profesora Guisela Gaitn Garavito (2013)

Pgina 11

Respuesta La probabilidad de que la muestra presente una proporcin de xitos inferior a 55% es 0.0017

Resuelva En las pasadas elecciones a alcalde del municipio de Villa Canales, el 56% de los votantes opt por el candidato A mientras que el 44% lo hizo por el candidato B. a). Halle la distribucin de probabilidad de las muestras de tamao 50 extradas de la poblacin. b). Calcule la probabilidad de que en una muestra de 50 votantes, haya, al menos 30 favorables al candidato A. Datos: N= n= p= q=

Planteamiento:

Solucin:

Respuesta:

Profesora Guisela Gaitn Garavito (2013)

Pgina 12

Distribucin muestral de varianzas Si de una poblacin se seleccionan todas las posibles muestras de tamao n y para una de sus caractersticas variables (con distribucin Normal) se calcula el estadstico Varianza Muestral S2 de cada muestra, se obtiene una distribucin de varianzas con los siguientes parmetros ( S2 ) = 2 ((n-1) /n) 2 (S2) = 2 ( 2/n) Para el clculo de probabilidades de la variable S2 es necesario transformar la variable a una con distribucin Chi- cuadrado con (n-1) grados de libertad utilizando como nueva variable 2 = (S2 / 2) * (n-1)

Ejemplo 1 Los pesos de una poblacin muy grande de estudiantes se distribuyen normalmente, la desviacin estndar es de 10 libras. Si se extrae una muestra al azar de 100 estudiantes, la probabilidad de que la varianza de la muestra sea menor de 77.44 se calcula de la forma siguiente: Datos N= infinita n= 100 = 10 2 = 100 S2 = 77.4 Planteamiento La variable S2 es la varianza de los pesos de 100 estudiantes que fueron seleccionados para la muestra. Solucin P (S2 < 77.44) = P ( 2 < (S2 / 2 ) ( n-1)) = P ( 2 = (77.44/100) * 99 ) = P (2 < 76.67) = 0.053 Nota: la distribucin Chi cuadrado con 99 grados de libertad. Respuesta La probabilidad de que la varianza de la muestra sea menor que 77.44 es 0.053

Profesora Guisela Gaitn Garavito (2013)

Pgina 13

Ejemplo 2 Las calificaciones de ciertos alumnos se distribuyen normalmente, la desviacin estndar es de 5.6 puntos. Si se extrae una muestra al azar de 50 estudiantes, la probabilidad de que la varianza de la muestra sea mayor a 25 se calcula de la forma siguiente: Datos N= infinita n= 50 = 5.6 2 = 31.36 S2 = 25 Planteamiento La variable S2 es la varianza de las calificaciones de los alumnos que fueron seleccionados para la muestra. Solucin P (S2 > 25) = P ( 2 > (S2 / 2 ) ( n-1)) = P ( 2 = (25/31.36) * 49 ) = P (2 > 39.06) = 0.9982 La probabilidad de que la varianza de la muestra sea mayor a 25 es 0.9982. Resuelva Un fabricante de bateras para automvil garantiza que su producto durar, en promedio, 3 aos con una desviacin estndar de 1 ao. Si cinco de estas bateras tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 aos. Calcule la varianza de la muestra y la probabilidad que tena este resultado, el fabricante continuar convencido de que sus bateras tienen una desviacin estndar de 1 ao? Suponga que las duraciones de las bateras siguen una distribucin normal. Datos: N= n= = 2 = S2 =

Planteamiento:

Solucin:

Respuesta: Profesora Guisela Gaitn Garavito (2013)

Pgina 14