Vous êtes sur la page 1sur 13

MUESTREO Y DISTRIBUCIONES DE MUESTREO:

1. Introduccin. 2. Muestreo Aleatorio. 3. Diseo de Muestras. 4. Muestreo sistemtico. 5. Muestreo Estratificado. 6. Muestreo por conglomerados. 7. Distribuciones muestrales. 8. El error estndar de la media 9. El teorema Central del lmite.

Muestreo y Distribuciones en el Muestreo


1.- Introduccin: La estadstica trabaja sobre poblaciones, extrae conclusiones sobre la base de un anlisis de un muestrario de datos de una poblacin. Hay muchas maneras de tomar una muestra de una poblacin. Adems las conclusiones que se extraen acerca de la poblacin dependen de como se selecciona la muestra, deseamos que la muestra sea representativa de la poblacin. Vamos a concluir esta introduccin con un ejemplo hipottico y algo extrao que ilustra como las conclusiones sacadas de una muestra pueden ser muy diferentes de la realidad. Supongamos que una nave espacial del planeta Marte llega por primera vez a la Tierra, y aterriza por casualidad en el centro de Africa. Despus de haber aterrizado en un claro de la selva, los marcianos recogen muestras de la vegetacin que los rodea, toman nota de la constitucin, temperatura, presin y humedad del ambiente y capturan como muestra a tres nios pigmeos. Vuelven a Marte y pasan varias semanas analizando los datos recogidos, haciendo, mas tarde, el informe para sus superiores. ste da a entender que la Tierra est cubierta de selva, envuelta en un ambiente de aire caliente y hmedo y poblada de gente de piel negra, casi sin ropa cuya estatura media no es superior a un metro. Del ejemplo observamos que hay varias cosas a tener en cuenta cuando se procede a tomar una muestra. Hay que elegir el tamao de la muestra y esto depender no solamente de la cantidad de informacin que se quiere conseguir, y el grado de certeza deseada, sino tambin del costo del muestreo. Cualquiera sea el mtodo elegido, el requisito ms importante es que la muestra obtenida proporcione una imagen tan real como sea posible de aquella poblacin que s ha sometido al muestreo. Describiremos a continuacin los metodos de muestreo mas importantes, que introducen el azar y que aseguran la representatividad de las muestras. 2.- Muestreo Aleatorio: Empezaremos definiendo Poblacin, como un conjunto de individuos que se pueden identificar por separado. Se puede pensar en una poblacin concreta que realmente existe, como en una conceptual que no exista ni que existir jams. En ambos casos, el inters se centrar casi exclusivamente en las poblaciones nmeros. Una poblacin puede ser discreta o continua, dependiendo de que el conjunto de nmeros referidos sea discreto o continuo. Una poblacin es discreta si consta de un nmero finito o fijo de elementos, medidas u observaciones. Por ejemplo los pesos netos de 20 latas de atn. A diferencia de las poblaciones discretas, las poblaciones continuas contienen una infinidad de elementos. Este es el caso de cuando observamos una variable continua y hay una infinidad de resultados distintos. Tambin es el caso de las alturas de los estudiantes de la Universidad. Un mtodo para obtener una muestra sencilla aleatoria de una poblacin es el siguiente: el empleo de una tabla de nmeros aleatorios. Estas tablas son listas de cifras del 0 al 9, colocados de tal manera que si se elige al azar una posicin cualquiera de la tabla, cada dgito tiene una posibilidad igual de aparecer en dicha posicin. Es fcil seleccionar una muestra al azar de un conjunto de nmeros, empleando estas tablas como se muestra en el siguiente ejemplo:
Obtener una muestra sencilla aleatoria de tamao 5 de una clase de 30 estudiantes. Suponer que los estudiantes estn numerados del 1 al 30 en la listad de la clase. Solucin : vamos a una tabla de nmeros aleatorios, y escogemos un punto de comienzo. Entonces leemos a lo largo de la fila desde este punto, tomando las cifras por parejas (o de una columna de dos cifras hacia abajo), obteniendo los nmeros as: 01, 53, 25, 73, 49, 82, 35, 15, 10, 32, 97, 08 En la serie elegimos slo los nmeros comprendidos entre el 1 y el 30, ignorando los otros

pgina nmero 2

Muestreo y Distribuciones en el Muestreo

**** Para ver la idea de muestreo aleatorio en una poblacin finita de tamao N, primero veamos cuantas N muestras distintas se pueden tomar de tamao n. El nmero de muestras distintas es Por ejemplo si n 12 12 11 = 66 muestras distintas. N=12 y n= 2 = 2! 2 N Con base en el resultado de que hay muestras distintas de tamao n de una poblacin finita de tamao n N, podemos definir como muestra aleatoria o muestra aleatoria simple de una poblacin finita: Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si se selecciona 1 N de manera tal que cada una de las muestras posibles tienen la misma probabilidad N de ser n n seleccionada. Por ejemplo si una poblacin consistente en lo N= 5 elementos a,e,i, o, u (que podran ser los ingresos 5 anuales de cinco personas, los pesos de 5 vacas,.....) hay = 10 muestras posibles de tamao n = 3 . estas 3 constan de los elementos: aei aeo aeu aio aiu aou eio eiu eou iou si seleccionamos una de esas muestras de forma que esta muestra tenga probabilidad 1/10 de ser elegida, decimos que dicha muestra es aleatoria. En la prctica el describir todas las posibles muestras seria complicado si N y n son grandes. Por ejemplo si n = 4 y N = 200 tendramos 64,684,950 muestras distintas. Por suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas todas. Basta con numerar los N elementos de la poblacin y retirar una a una hasta completar los n- elementos de la muestra. Este 1 procedimiento tambin da una probabilidad de N de ser seleccionada la muestra por los que sera n aleatoria. Ahora bien si la poblacin es infinita: diremos que: Una muestra de tamao n de una poblacin infinita es aleatoria si consta de valores de variables aleatorias independientes que tienen la misma distribucin. Por ejemplo si lanzamos un dado 12 veces y obtenemos 2, 5, 5, 3, 3, 3, 5, 1, 6, 1,4, 1. Estos nmeros constituyen una variable aleatoria si son valores aleatoria independientes que tienen la misma distribucin de probabilidad f(x) = 1/6 para x= 1,2,3,4,5,6 3- Diseos de muestras:

pgina nmero 3

Muestreo y Distribuciones en el Muestreo


La nica clase de muestras estudiadas hasta ahora son las aleatorias, y no hemos considerado siquiera la necesidad de que en ciertas condiciones pueda haber muestras que sean mejores (digamos ms fciles de obtener, ms econmicas o mas formativas) que las aleatorias, y no hemos entrado en detalles sobre la pregunta de cuando un muestreo aleatorio es imposible. En estadstica un diseo de una muestra es un plan definitivo, determinado por completo antes de recopilar cualquier dato, para tomar una muestra de una poblacin de referencia. Vamos a estudiar las mas comunes:

4.- Muestreo Sistemtico: En algunos casos la manera ms prctica de realizar un muestreo consiste en seleccionar, un primer elemento al azar y luego ir escogiendo cada x-trmino de una lista, o dejar pasar a x- individuos y preguntar al que sigue y as sucesivamente. Aunque un muestreo sistemtico puede no ser aleatorio de acuerdo con la definicin, a menudo es razonable tratar las muestras sistemticas como si fueran aleatorias. El riesgo de los muestreos sistemticos es el de las periodicidades ocultas. Supongamos que queremos testear el funcionamiento de una mquina, para lo cul vamos a seleccionar una de cada 15 piezas producidas. Si ocurriera la desgracia de que justamente 1 de cada 15 piezas fuese defectuosa y el error de la mquina fuera defectuoso peridicamente, tendramos dos posibles resultados muestrales: - Que falla siempre - Que no falla nunca. 5.- Muestreo Estratificado: Si tenemos informacin a cerca de una poblacin (es decir de su composicin) y esta es importante para nuestra investigacin, podemos mejorar el muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en estratificar o dividir la poblacin en un numero de subpoblaciones o estratos. Y seleccionamos de cada estrato una muestra aleatoria. Este procedimiento se conoce como muestreo aleatorio (simple) estratificado. Supongamos una poblacin de tamao N que se divide en k estratos cuyos tamaos son: N1, N2, .....,Nk (N1 +N2 +.....+Nk =N) Para obtener una distribucin proporcional hemos de tener en cuenta que :

n N

1 1

n N

2 2

=. . .. . . . =

n N

k k

n N

de donde se obtiene que

N N n
i

para y=1,2,3,4,.... k donde n=

tamao de la muestra. Esta seria una distribucin proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que seran: - Distribucin ptima. - Estratificacin cruzada. - Muestreo por cuotas. Distribucin ptima: En la Distribucin optima, no slo se maneja el tamao del estrato, como en la distribucin proporcional, sino que tambin se maneja la variabilidad (o cualquier otra caracterstica pertinente) del estrato.

pgina nmero 4

Muestreo y Distribuciones en el Muestreo


La idea de la Distribucin ptima, trata de jugar no slo con el tamao del estrato, sino que tambin pretende jugar con la variabilidad del mismo, de forma que parece lgico que los estratos de mayor variabilidad le correspondan muestras mayores. Si 1, 2, 3, ...., k son las desviaciones tpicas de los kestratos podemos explicar tanto los tamaos de los estratos, as como su variabilidad.

N 1 1 N 2 2 N 3 3 N k 1k de donde se obtienen los tamaos muestrales de la distribucin ptima o Distribucin de Neyman (su inventor) que se obtienen por la frmula:

=........ =

n= n1+n2+.......+nk

n N n N + N +.......+ N
i

para y=1,2,...., k
k

Estratificacin cruzada: La estratificacin no se limita a una variable nica de clasificacin o una caracterstica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenacin o clasificacin. As por ejemplo si queremos realizar un estudio entre los alumnos de distintos centros de EE. MM. podramos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... As parte de la muestra se dedicara a los alumnos de sexo femenino del 1 de Bachillerato tcnico, otra parte a los alumnos de sexo masculino de 1 Bachillerato artstico, y as sucesivamente. As y hasta cierto punto una estratificacin de este tipo, llamada estratificacin cruzada, incrementar la precisin de las estimaciones y otras generalizaciones que se usan comnmente en el muestreo de opinin y las investigaciones de mercado. Muestreo por cuotas: En el muestreo estratificado, el costo de la toma de muestras aleatorias de los estratos individuales es tan alto, que a los encuestadores slo se les dan cuotas que deben cubrir de los diferentes estratos, con alguna restricciones (si no es que ninguna) Por ejemplo si se quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y 45 aos que sean asalariadas, 20 hombres de entre 30 y 45 aos que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 aos que estn jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente econmico, lo nico es que las muestras resultantes no cumplen las caractersticas esenciales de las muestras aleatorias. Por tanto estos muestreos, por cuotas en esencia son muestras de opinin, pero no son vlidos para realizar un estudio estadstico formal.

6- Muestreo Por Conglomerados: Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere estudiar los patrones variables de los gastos familiares de una ciudad como Buenos Aires. Al intentar elaborar los programas de gastos de una muestra de 1200 familias, nos encontramos con la dificultad de realizar un muestreo aleatorio simple, (es complicado tener una lista actualizada de todos los habitantes de una ciudad). Una manera de tomar una muestra en esta situacin es dividir el rea total (Buenos Aires en este caso) en reas ms pequeas que no se solapen (Por ejemplo cdigo postal, barrios, manzanas etc..) En este caso seleccionaramos algunas reas al azar y todas las familias (o muestras de stas) que residen en estos cdigos postales, barrios o manzanas, constituiran la muestra definitiva. En este tipo de muestreo, llamado muestreo por conglomerados, se divide la poblacin total en un nmero determinado de subdivisiones relativamente pequeas y se seleccionan al azar algunas de estas

pgina nmero 5

Muestreo y Distribuciones en el Muestreo


subdivisiones o conglomerados, para incluirlos en la muestra total. Si estos conglomerados coinciden con reas geogrficas, este muestreo se llama tambin muestreo por reas. Aunque las estimaciones basadas en el muestreo por conglomerados, por lo general no son tan fiables como las obtenidas por muestreos aleatorios simples del mismo tamao, son ms baratas. Volviendo al ejemplo anterior, es mucho ms econmico visitar a familias que viven en el mismo vecindario, que ir visitando a familias que viven en un rea muy extensa. En la prctica se pueden combinar el uso de varios de los mtodos de muestreo que hemos analizados para un mismo estudio. 7.- Distribuciones Muestrales: Veamos ahora el concepto de distribucin muestral de una estadstica, que quiz es el concepto mas importante de la inferencia estadstica. Para introducir el concepto de distribucin muestral, elaboraremos la de la media de una muestra aleatoria de tamao n=2 tomada sin remplazo de la poblacin finita de tamao N=5, cuyos elementos son: 3,5,7,9,11. 3 + 5 + 7 + 9 + 11 La media de esta poblacin es: = = 7 y su desviacin tpica es: 5

5 Ahora si tomamos una muestra aleatoria de tamao n = 2 de esta poblacin hay = 10 posibilidades: 2

(3 7) + (5 7) + (7 7) + (9 7) + (11 7) 5
2 2 2 2

n nuestra 1 2 3 4 5 6 7 8 9 10

Muestras 3 5 3 7 3 9 3 11 5 7 5 9 5 11 7 9 7 11 9 11

x 4 5 6 7 6 7 8 8 9 10

pgina nmero 6

Muestreo y Distribuciones en el Muestreo


Media 4 5 6 7 8 9 10 Probabilidad 1/10 1/10 2/10 2/10 2/10 1/10 1/10

Un anlisis de esta distribucin muestral revela cierta informacin relacionada con el problema de la estimacin de la media de la poblacin de referencia con una muestra aleatoria de tamao n=2. Por ejemplo

x = 6,7 u 8 la probabilidad de que la media poblacin ( 7) no difiera por ms de 1 de la muestral es de 6/10. Sin embargo para x = 5,6,7,8 0 9 la media de una muestra no difiera en mas de 2 unidades es
para 8/10. Por consiguiente si no conociramos la media de la poblacin de referencia y quisiramos estimarla con la media de una muestra aleatoria de tamao n=2, el procedimiento anterior nos da alguna idea del posible tamao del error. Si calculamos la media y la desviacin tpica de la distribucin de las medias obtenemos que: x = 7 y x = 3 , luego la media x coincide con la media de la poblacin y la desviacin tpica ha disminuido. Evidentemente este proceso realizado con una muestra pequea no es lo suficientemente explicativo. si tomsemos para n=10 y N=100 sera necesario una lista de mas de 17 billones de muestras.. por lo que para realizar el proceso sera necesario hacer una simulacin por computadora. 8.- El error Estndar de la media: En la mayora de las situaciones reales, no podremos numerar todas las muestras posibles, o simular una distribucin del muestreo para determinar cunto puede aproximarse la media a la media de la poblacin de la muestra. No obstante normalmente podemos obtener la informacin que necesitamos a partir de dos teoremas que expresan hechos esenciales sobre las distribuciones en el muestreo de la media: El primero nos expresa formalmente lo que descubrimos en el ejemplo anterior . La media de la distribucin del muestreo es igual a la media de la poblacin y la desviacin tpica de la distribucin del muestreo es menor que la desviacin tpica de la poblacin. Esto se puede expresar de la siguiente forma: En el caso de variables aleatorias de tamao n tomadas de una poblacin con la media y desviacin tpica

x tiene la media: Media de la distribucin muestral de x


la distribucin del muestreo de

pgina nmero 7

Muestreo y Distribuciones en el Muestreo


Error estndar de la media (desviacin tpica de la muestra)

N n N 1

dependiendo de que la poblacin de infinita o de tamao N Es comn referirse a x como el error estndar de la media donde se utiliza estndar en el sentido de desviacin tpica de la distribucin muestral. Su funcin es fundamental en la estadstica pues mide el grado en el que se puede esperar que flucten o varen las medias de una muestra como consecuencia del azar. si x es baja, hay buenas posibilidades de que la media de una muestra se aproxime a la media de la poblacin si x alta, es ms probable que obtengamos una muestra que difiera considerablemente de la media de la poblacin. A partir de las dos frmula anteriores se puede apreciar lo que determina el tamao de x . Ambas frmulas demuestran (para poblaciones finitas e infinitas) poblacin y que se reduce conforme el tamao de la muestra es mayor. De hecho es directamente proporcional a e inversamente proporcional a n ( en las poblaciones finitas se reduce an ms rpido ya N n que aparece el factor ) N 1 N n El factor de la segunda frmula de x se conoce como factor de correccin de la poblacin finita. N 1 En la prctica, este se omite a menos de que la muestra constituya al menos un 5% de la poblacin, pues en otro caso se aproxima tanto a 1 que es despreciable (es decir si la muestra no llega al 5% del tamao de la poblacin, no es necesario usar el factor de correccin) 9- El Teorema Central del Lmite: Antes de introducir este teorema, sin duda de los mas importantes dentro de la estadstica moderna, vamos a estudiar un teorema previo. El Teorema de Chebyshev. El Teorema de Chebyshev. Para cualquier conjunto de datos (de una poblacin o una muestra) y cualquier constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k-veces la desviacin tpica de cualquier lado de la media es de por lo menos:1

x se incrementa conforme aumenta la variabilidad de la

1 k

El teorema de Chebyshev se aplica a cualquier tipo de datos, pero slo nos indica por lo menos que porcentaje debe caer entre ciertos lmites. Pero para casi todos los datos, el porcentaje real de datos que cae entre esos limites es bastante mayor que el que especifica el teorema de Chebyshev. Para las distribuciones que tienen forma de campana puede hacerse una aseveracin ms fuerte: (1) alrededor del 68% de los valores caern dentro de una desviacin tpica de la media esto es: entre X , X + ; (2) aproximadamente el 95% de los valores caern dentro de dos desviaciones tpicas de la media, esto es : X 2, X + 2 ; (3) aproximadamente el 99,7% de los valores caern dentro de dos desviaciones tpicas de la media, esto es : X 3, X + 3 ;

pgina nmero 8

Muestreo y Distribuciones en el Muestreo


Basndonos en el teorema de Chebyshev con k=2 Qu podemos decir del tamao de nuestro error, si vamos a usar la media de una muestra aleatoria de tamao n=64 para estimar la media de una poblacin infinita con =20? Sustituyendo n=64 y =20 en la frmula apropiada para el error estndar de la media, obtenemos 20 = 2,5 y por el teorema de Chebyshev podemos afirmar que como mnimo 1 - 1/22 = que : x = 64 0,75 que el error ser menor que kx = 22,5= 5. Es decir que tenemos una garanta de que en el 75% de los casos la media de la poblacin estar entre la media calculada 5 . Pero esto no es suficiente, cuando la probabilidad real de este caso puede estar entre 0,98 y el 0,999

Teorema Central del Lmite. Para muestras grandes, se puede obtener una aproximacin cercana de la distribucin muestral de la media con una distribucin normal. Teniendo en cuenta que ya sabemos la media y desviacin tpica de la distribucin muestral, podemos decir que: x = y x = entonces:

para muestras aleatorias infinitas con media y desviacin tpica y n grande,

/ n

es un valor de una variable N(0,1)

Este teorema es muy importante, puesto que justifica el uso de los mtodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porcin muy pequea de la poblacin. Es difcil sealar con precisin qu tan grande debe ser n de modo que podamos aplicar el Teorema Central del lmite, pero a no ser que la distribucin sea muy Inusual, por lo general se considera que n =30 es lo suficientemente alto. Veamos el mismo ejemplo anterior aplicando el Teorema Central del Lmite.

pgina nmero 9

Muestreo y Distribuciones en el Muestreo

La probabilidad se obtiene por medio del rea marcada de la zona gris, especficamente por medio del rea de la N(0,1) entre: 5 5 z= = 2 y z = =2 20 / 64 20 / 64 lo que consultando en las tablas da una probabilidad de 0,9544. As sustituimos la afirmacin de que la probabilidad es como mnimo 0,75 por una aseveracin ms firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra aleatoria de tamao n=64 de la poblacin de referencia difiera de la de la poblacin menos de 5 unidades) Tambin se puede usar el teorema Central del lmite para poblaciones finitas, pero una descripcin precisa de las situaciones en que se puede hacer esto, sera ms bien complicada. El uso apropiado ms comn es en el caso en que n es grande y n/N es pequea. Este es el caso de la mayora de las encuestas polticas. Veamos a continuacin un ejemplo de la importancia de la seleccin adecuada de la muestra. Para ello vamos a suponer una poblacin de tamao 60 elementos en el que se ha medido una determinada caracterstica. De esta poblacin vamos a realizar 25 muestras aleatorias y vamos a comprobar las diferencias existentes entre los valores estimados y los valores poblacionales. 111 539 216 128 462 283 413 237 193 177 406 257 290 213 325 306 184 168 310 266 279 393 450 92 241 302 319 193 281 313 295 402 183 310 257 257 302 315 353 128 244 116 127 348 418 232 400 166 451 315 335 707 266 91 703 380 618 79 588 199 Media Desviacin Tpica 298,87 139,42 78

pgina nmero 10

Muestreo y Distribuciones en el Muestreo

pgina nmero 11

Muestreo y Distribuciones en el Muestreo

pgina nmero 12

A continuacin observemos, las muestras obtenidas: 1 3 3 4 5 6 7 8 9 10 1 402 177 707 295 290 193 588 184 451 116 2 380 257 257 92 266 166 295 313 183 413 3 266 462 128 281 402 380 183 295 266 257 4 451 116 127 450 315 193 319 310 116 315 5 588 290 306 92 183 257 177 306 177 166 6 128 128 283 91 393 193 79 283 183 232 7 193 310 335 462 127 193 406 128 295 257 8 306 310 319 266 310 295 335 128 306 539 9 400 302 279 92 283 335 281 315 279 184 10 237 281 266 707 313 281 400 295 183 266

Nmero de muestras: 11 12 13 14 15 335 402 302 283 216 335 241 91 111 315 588 244 266 707 79 116 116 193 618 127 244 166 588 707 184 184 462 335 232 92 213 232 279 257 319 116 290 451 413 116 257 400 295 462 237 380 418 588 315 539 297, 1 111, 2 338, 410, 222, 8 5 4 152, 198 133, 2 4

16 306 400 257 618 315 418 232 306 450 283 358, 5 109, 7

17 79 91 335 283 257 281 618 400 257 450 305, 1 152, 1

18 237 91 406 232 257 79 310 402 168 325 250, 7 108, 8

19 406 184 380 232 353 302 79 184 325 237 268, 2 97,6 3

20 257 310 462 325 400 237 588 319 290 348 353, 6 99,8 8

21 313 283 393 91 199 279 241 193 402 283 267, 7 88,6 7

22 310 348 380 79 166 244 400 393 168 418

23 241 302 111 193 91 216 91 462 128 335

24 128 302 281 325 400 335 313 393 241 306

25 406 283 402 177 393 283 335 402 302 348

Medi 340, a 3 Desv 184, Tpi: 3

262, 292 271, 254, 2 2 2 92,1 94,9 121, 130, 1 9 2 1 291, 7

199, 270, 311, 275 322, 276, 3 6 4 9 8 94,4 107 94,0 79,6 138, 134, 8 4 6 3 2

290, 217 302, 333,1 6 4 113, 115, 73,5 69,98 1 4 4

Media de todas las muestras

Como se puede observar las diferencias con respecto a los valores poblacionales son importantes.

Vous aimerez peut-être aussi