Académique Documents
Professionnel Documents
Culture Documents
1. Introduccin. 2. Muestreo Aleatorio. 3. Diseo de Muestras. 4. Muestreo sistemtico. 5. Muestreo Estratificado. 6. Muestreo por conglomerados. 7. Distribuciones muestrales. 8. El error estndar de la media 9. El teorema Central del lmite.
pgina nmero 2
**** Para ver la idea de muestreo aleatorio en una poblacin finita de tamao N, primero veamos cuantas N muestras distintas se pueden tomar de tamao n. El nmero de muestras distintas es Por ejemplo si n 12 12 11 = 66 muestras distintas. N=12 y n= 2 = 2! 2 N Con base en el resultado de que hay muestras distintas de tamao n de una poblacin finita de tamao n N, podemos definir como muestra aleatoria o muestra aleatoria simple de una poblacin finita: Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si se selecciona 1 N de manera tal que cada una de las muestras posibles tienen la misma probabilidad N de ser n n seleccionada. Por ejemplo si una poblacin consistente en lo N= 5 elementos a,e,i, o, u (que podran ser los ingresos 5 anuales de cinco personas, los pesos de 5 vacas,.....) hay = 10 muestras posibles de tamao n = 3 . estas 3 constan de los elementos: aei aeo aeu aio aiu aou eio eiu eou iou si seleccionamos una de esas muestras de forma que esta muestra tenga probabilidad 1/10 de ser elegida, decimos que dicha muestra es aleatoria. En la prctica el describir todas las posibles muestras seria complicado si N y n son grandes. Por ejemplo si n = 4 y N = 200 tendramos 64,684,950 muestras distintas. Por suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas todas. Basta con numerar los N elementos de la poblacin y retirar una a una hasta completar los n- elementos de la muestra. Este 1 procedimiento tambin da una probabilidad de N de ser seleccionada la muestra por los que sera n aleatoria. Ahora bien si la poblacin es infinita: diremos que: Una muestra de tamao n de una poblacin infinita es aleatoria si consta de valores de variables aleatorias independientes que tienen la misma distribucin. Por ejemplo si lanzamos un dado 12 veces y obtenemos 2, 5, 5, 3, 3, 3, 5, 1, 6, 1,4, 1. Estos nmeros constituyen una variable aleatoria si son valores aleatoria independientes que tienen la misma distribucin de probabilidad f(x) = 1/6 para x= 1,2,3,4,5,6 3- Diseos de muestras:
pgina nmero 3
4.- Muestreo Sistemtico: En algunos casos la manera ms prctica de realizar un muestreo consiste en seleccionar, un primer elemento al azar y luego ir escogiendo cada x-trmino de una lista, o dejar pasar a x- individuos y preguntar al que sigue y as sucesivamente. Aunque un muestreo sistemtico puede no ser aleatorio de acuerdo con la definicin, a menudo es razonable tratar las muestras sistemticas como si fueran aleatorias. El riesgo de los muestreos sistemticos es el de las periodicidades ocultas. Supongamos que queremos testear el funcionamiento de una mquina, para lo cul vamos a seleccionar una de cada 15 piezas producidas. Si ocurriera la desgracia de que justamente 1 de cada 15 piezas fuese defectuosa y el error de la mquina fuera defectuoso peridicamente, tendramos dos posibles resultados muestrales: - Que falla siempre - Que no falla nunca. 5.- Muestreo Estratificado: Si tenemos informacin a cerca de una poblacin (es decir de su composicin) y esta es importante para nuestra investigacin, podemos mejorar el muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en estratificar o dividir la poblacin en un numero de subpoblaciones o estratos. Y seleccionamos de cada estrato una muestra aleatoria. Este procedimiento se conoce como muestreo aleatorio (simple) estratificado. Supongamos una poblacin de tamao N que se divide en k estratos cuyos tamaos son: N1, N2, .....,Nk (N1 +N2 +.....+Nk =N) Para obtener una distribucin proporcional hemos de tener en cuenta que :
n N
1 1
n N
2 2
=. . .. . . . =
n N
k k
n N
N N n
i
tamao de la muestra. Esta seria una distribucin proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que seran: - Distribucin ptima. - Estratificacin cruzada. - Muestreo por cuotas. Distribucin ptima: En la Distribucin optima, no slo se maneja el tamao del estrato, como en la distribucin proporcional, sino que tambin se maneja la variabilidad (o cualquier otra caracterstica pertinente) del estrato.
pgina nmero 4
N 1 1 N 2 2 N 3 3 N k 1k de donde se obtienen los tamaos muestrales de la distribucin ptima o Distribucin de Neyman (su inventor) que se obtienen por la frmula:
=........ =
n= n1+n2+.......+nk
n N n N + N +.......+ N
i
para y=1,2,...., k
k
Estratificacin cruzada: La estratificacin no se limita a una variable nica de clasificacin o una caracterstica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenacin o clasificacin. As por ejemplo si queremos realizar un estudio entre los alumnos de distintos centros de EE. MM. podramos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... As parte de la muestra se dedicara a los alumnos de sexo femenino del 1 de Bachillerato tcnico, otra parte a los alumnos de sexo masculino de 1 Bachillerato artstico, y as sucesivamente. As y hasta cierto punto una estratificacin de este tipo, llamada estratificacin cruzada, incrementar la precisin de las estimaciones y otras generalizaciones que se usan comnmente en el muestreo de opinin y las investigaciones de mercado. Muestreo por cuotas: En el muestreo estratificado, el costo de la toma de muestras aleatorias de los estratos individuales es tan alto, que a los encuestadores slo se les dan cuotas que deben cubrir de los diferentes estratos, con alguna restricciones (si no es que ninguna) Por ejemplo si se quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y 45 aos que sean asalariadas, 20 hombres de entre 30 y 45 aos que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 aos que estn jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente econmico, lo nico es que las muestras resultantes no cumplen las caractersticas esenciales de las muestras aleatorias. Por tanto estos muestreos, por cuotas en esencia son muestras de opinin, pero no son vlidos para realizar un estudio estadstico formal.
6- Muestreo Por Conglomerados: Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere estudiar los patrones variables de los gastos familiares de una ciudad como Buenos Aires. Al intentar elaborar los programas de gastos de una muestra de 1200 familias, nos encontramos con la dificultad de realizar un muestreo aleatorio simple, (es complicado tener una lista actualizada de todos los habitantes de una ciudad). Una manera de tomar una muestra en esta situacin es dividir el rea total (Buenos Aires en este caso) en reas ms pequeas que no se solapen (Por ejemplo cdigo postal, barrios, manzanas etc..) En este caso seleccionaramos algunas reas al azar y todas las familias (o muestras de stas) que residen en estos cdigos postales, barrios o manzanas, constituiran la muestra definitiva. En este tipo de muestreo, llamado muestreo por conglomerados, se divide la poblacin total en un nmero determinado de subdivisiones relativamente pequeas y se seleccionan al azar algunas de estas
pgina nmero 5
5 Ahora si tomamos una muestra aleatoria de tamao n = 2 de esta poblacin hay = 10 posibilidades: 2
(3 7) + (5 7) + (7 7) + (9 7) + (11 7) 5
2 2 2 2
n nuestra 1 2 3 4 5 6 7 8 9 10
Muestras 3 5 3 7 3 9 3 11 5 7 5 9 5 11 7 9 7 11 9 11
x 4 5 6 7 6 7 8 8 9 10
pgina nmero 6
Un anlisis de esta distribucin muestral revela cierta informacin relacionada con el problema de la estimacin de la media de la poblacin de referencia con una muestra aleatoria de tamao n=2. Por ejemplo
x = 6,7 u 8 la probabilidad de que la media poblacin ( 7) no difiera por ms de 1 de la muestral es de 6/10. Sin embargo para x = 5,6,7,8 0 9 la media de una muestra no difiera en mas de 2 unidades es
para 8/10. Por consiguiente si no conociramos la media de la poblacin de referencia y quisiramos estimarla con la media de una muestra aleatoria de tamao n=2, el procedimiento anterior nos da alguna idea del posible tamao del error. Si calculamos la media y la desviacin tpica de la distribucin de las medias obtenemos que: x = 7 y x = 3 , luego la media x coincide con la media de la poblacin y la desviacin tpica ha disminuido. Evidentemente este proceso realizado con una muestra pequea no es lo suficientemente explicativo. si tomsemos para n=10 y N=100 sera necesario una lista de mas de 17 billones de muestras.. por lo que para realizar el proceso sera necesario hacer una simulacin por computadora. 8.- El error Estndar de la media: En la mayora de las situaciones reales, no podremos numerar todas las muestras posibles, o simular una distribucin del muestreo para determinar cunto puede aproximarse la media a la media de la poblacin de la muestra. No obstante normalmente podemos obtener la informacin que necesitamos a partir de dos teoremas que expresan hechos esenciales sobre las distribuciones en el muestreo de la media: El primero nos expresa formalmente lo que descubrimos en el ejemplo anterior . La media de la distribucin del muestreo es igual a la media de la poblacin y la desviacin tpica de la distribucin del muestreo es menor que la desviacin tpica de la poblacin. Esto se puede expresar de la siguiente forma: En el caso de variables aleatorias de tamao n tomadas de una poblacin con la media y desviacin tpica
pgina nmero 7
N n N 1
dependiendo de que la poblacin de infinita o de tamao N Es comn referirse a x como el error estndar de la media donde se utiliza estndar en el sentido de desviacin tpica de la distribucin muestral. Su funcin es fundamental en la estadstica pues mide el grado en el que se puede esperar que flucten o varen las medias de una muestra como consecuencia del azar. si x es baja, hay buenas posibilidades de que la media de una muestra se aproxime a la media de la poblacin si x alta, es ms probable que obtengamos una muestra que difiera considerablemente de la media de la poblacin. A partir de las dos frmula anteriores se puede apreciar lo que determina el tamao de x . Ambas frmulas demuestran (para poblaciones finitas e infinitas) poblacin y que se reduce conforme el tamao de la muestra es mayor. De hecho es directamente proporcional a e inversamente proporcional a n ( en las poblaciones finitas se reduce an ms rpido ya N n que aparece el factor ) N 1 N n El factor de la segunda frmula de x se conoce como factor de correccin de la poblacin finita. N 1 En la prctica, este se omite a menos de que la muestra constituya al menos un 5% de la poblacin, pues en otro caso se aproxima tanto a 1 que es despreciable (es decir si la muestra no llega al 5% del tamao de la poblacin, no es necesario usar el factor de correccin) 9- El Teorema Central del Lmite: Antes de introducir este teorema, sin duda de los mas importantes dentro de la estadstica moderna, vamos a estudiar un teorema previo. El Teorema de Chebyshev. El Teorema de Chebyshev. Para cualquier conjunto de datos (de una poblacin o una muestra) y cualquier constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k-veces la desviacin tpica de cualquier lado de la media es de por lo menos:1
1 k
El teorema de Chebyshev se aplica a cualquier tipo de datos, pero slo nos indica por lo menos que porcentaje debe caer entre ciertos lmites. Pero para casi todos los datos, el porcentaje real de datos que cae entre esos limites es bastante mayor que el que especifica el teorema de Chebyshev. Para las distribuciones que tienen forma de campana puede hacerse una aseveracin ms fuerte: (1) alrededor del 68% de los valores caern dentro de una desviacin tpica de la media esto es: entre X , X + ; (2) aproximadamente el 95% de los valores caern dentro de dos desviaciones tpicas de la media, esto es : X 2, X + 2 ; (3) aproximadamente el 99,7% de los valores caern dentro de dos desviaciones tpicas de la media, esto es : X 3, X + 3 ;
pgina nmero 8
Teorema Central del Lmite. Para muestras grandes, se puede obtener una aproximacin cercana de la distribucin muestral de la media con una distribucin normal. Teniendo en cuenta que ya sabemos la media y desviacin tpica de la distribucin muestral, podemos decir que: x = y x = entonces:
/ n
Este teorema es muy importante, puesto que justifica el uso de los mtodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porcin muy pequea de la poblacin. Es difcil sealar con precisin qu tan grande debe ser n de modo que podamos aplicar el Teorema Central del lmite, pero a no ser que la distribucin sea muy Inusual, por lo general se considera que n =30 es lo suficientemente alto. Veamos el mismo ejemplo anterior aplicando el Teorema Central del Lmite.
pgina nmero 9
La probabilidad se obtiene por medio del rea marcada de la zona gris, especficamente por medio del rea de la N(0,1) entre: 5 5 z= = 2 y z = =2 20 / 64 20 / 64 lo que consultando en las tablas da una probabilidad de 0,9544. As sustituimos la afirmacin de que la probabilidad es como mnimo 0,75 por una aseveracin ms firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra aleatoria de tamao n=64 de la poblacin de referencia difiera de la de la poblacin menos de 5 unidades) Tambin se puede usar el teorema Central del lmite para poblaciones finitas, pero una descripcin precisa de las situaciones en que se puede hacer esto, sera ms bien complicada. El uso apropiado ms comn es en el caso en que n es grande y n/N es pequea. Este es el caso de la mayora de las encuestas polticas. Veamos a continuacin un ejemplo de la importancia de la seleccin adecuada de la muestra. Para ello vamos a suponer una poblacin de tamao 60 elementos en el que se ha medido una determinada caracterstica. De esta poblacin vamos a realizar 25 muestras aleatorias y vamos a comprobar las diferencias existentes entre los valores estimados y los valores poblacionales. 111 539 216 128 462 283 413 237 193 177 406 257 290 213 325 306 184 168 310 266 279 393 450 92 241 302 319 193 281 313 295 402 183 310 257 257 302 315 353 128 244 116 127 348 418 232 400 166 451 315 335 707 266 91 703 380 618 79 588 199 Media Desviacin Tpica 298,87 139,42 78
pgina nmero 10
pgina nmero 11
pgina nmero 12
A continuacin observemos, las muestras obtenidas: 1 3 3 4 5 6 7 8 9 10 1 402 177 707 295 290 193 588 184 451 116 2 380 257 257 92 266 166 295 313 183 413 3 266 462 128 281 402 380 183 295 266 257 4 451 116 127 450 315 193 319 310 116 315 5 588 290 306 92 183 257 177 306 177 166 6 128 128 283 91 393 193 79 283 183 232 7 193 310 335 462 127 193 406 128 295 257 8 306 310 319 266 310 295 335 128 306 539 9 400 302 279 92 283 335 281 315 279 184 10 237 281 266 707 313 281 400 295 183 266
Nmero de muestras: 11 12 13 14 15 335 402 302 283 216 335 241 91 111 315 588 244 266 707 79 116 116 193 618 127 244 166 588 707 184 184 462 335 232 92 213 232 279 257 319 116 290 451 413 116 257 400 295 462 237 380 418 588 315 539 297, 1 111, 2 338, 410, 222, 8 5 4 152, 198 133, 2 4
16 306 400 257 618 315 418 232 306 450 283 358, 5 109, 7
17 79 91 335 283 257 281 618 400 257 450 305, 1 152, 1
18 237 91 406 232 257 79 310 402 168 325 250, 7 108, 8
19 406 184 380 232 353 302 79 184 325 237 268, 2 97,6 3
20 257 310 462 325 400 237 588 319 290 348 353, 6 99,8 8
21 313 283 393 91 199 279 241 193 402 283 267, 7 88,6 7
24 128 302 281 325 400 335 313 393 241 306
25 406 283 402 177 393 283 335 402 302 348
199, 270, 311, 275 322, 276, 3 6 4 9 8 94,4 107 94,0 79,6 138, 134, 8 4 6 3 2
Como se puede observar las diferencias con respecto a los valores poblacionales son importantes.