Muestreo en Poblacion Finita

A.
Morillas: Muestreo en poblaciones finitas
MUESTREO EN POBLACIONES FINITAS

Antonio Morillas1
1 Conceptos estadsticos bsicos

2 Etapas en el muestreo
3 Tipos de error
4 Mtodos de muestreo
5 Tamao de la muestra e inferencia
6 Muestreo en poblaciones finitas
6.1 Muestreo aleatorio simple
6.2 Muestreo aleatorio estratificado
Estos apuntes de clase incorporan diversas sugerencias realizadas por los profesores M. Aguilar, A. Caparrs y
B. Daz. En sus primeras pginas, especialmente, se recogen lugares comunes acerca del muestreo tratados en
diversos manuales.
A. Morillas: Muestreo en poblaciones finitas
Muestreo en poblaciones finitas
1. Conceptos estadsticos bsicos

A lo largo del curso se ha estudiado como hacer inferencia acerca de la poblacin partiendo de la
informacin suministrada por la muestra. Pero casi nada se ha dicho an sobre dos aspectos
importantes del proceso de inferencia:
como seleccionar los elementos u observaciones de una muestra.
como proceder en esa seleccin y cul es su tamao adecuado, si la poblacin no es tan grande
como se ha venido admitiendo hasta ahora (infinita).
Se ha visto a lo largo de la asignatura como la ciencia estadstica es una herramienta fundamental en la

investigacin econmica y empresarial, dado que permite conocer las caractersticas de poblaciones
concretas, contrastar hiptesis sobre ellas o realizar predicciones sobre su evolucin. Dentro de este
proceso un componente de gran ayuda para el investigador, que an no se ha estudiado, es la
realizacin de encuestas. Este va a ser el objeto bsico de la presente leccin. No obstante, antes de
meternos en ello, es conveniente recordar algunos conceptos bsicos:
a) Poblacin.
Colectivo objeto del estudio formado por un conjunto de elementos con caractersticas similares y
sobre el que se pretenden inferir regularidades.
b) Muestra.
Subconjunto de la poblacin o colectivo que se investiga. Debe ser representativa del conjunto de la
poblacin.
c) Individuos.
Cada uno de los elementos que forman la poblacin. Los individuos pueden ser:
-
Personas fsicas: por ejemplo, un cliente de una empresa.
Personas jurdicas o sociedades: por ejemplo, una empresa hotelera.
Unidades familiares: por ejemplo, una familia de turistas.
d) Variables cuantitativas.
Caracteres que se observan en los individuos y que son susceptibles de tener valores numricos: por
ejemplo, edad y gasto mensual del encuestado.
e) Atributos.
Son variables cualitativas, que no son susceptibles de tomar valores y se expresan mediante
modalidades: por ejemplo, sexo del encuestado, medio de transporte al destino, nivel de estudios.
2. Etapas en el muestreo.
Antes de preguntarnos de qu manera se toma una muestra de una poblacin, quizs debamos de
cuestionarnos sobre la necesidad de trabajar con muestras. La alternativa sera tratar de obtener la
informacin para todos y cada uno de los elementos de la poblacin, es decir, trabajar con censos ms
bien que con encuestas. Pero recordemos que hay, al menos, tres buenas razones para que una muestra
sea generalmente preferida a un censo:
El coste, ya que un censo ser mucho ms caro y, a veces, incluso, prohibitivo.
El tiempo disponible, cuando en muchos casos la informacin se necesita de forma ms o

menos urgente.
La precisin que presumiblemente se ganara con un censo no compensa la prdida en tiempo

y dinero, pudindose alcanzar un nivel razonable de precisin con un adecuado mtodo de
muestreo.
Los pasos a seguir dentro de un proceso de muestreo son:

1.-Definir la informacin que se necesita.
Esto supone en la prctica la bsqueda de un equilibrio entre las preguntas acerca de la cuestin
principal o motivo de la encuesta y lo que puede ser complementario, introducido con afn de
aprovechar el esfuerzo econmico y de dedicacin que supone una encuesta.
2.-Determinar la poblacin a muestrear y comprobar si existe un listado.
Hay que definir la poblacin de referencia de forma adecuada, pues, aunque el mtodo seguido sea
correcto, las conclusiones no sern vlidas si la poblacin no ha sido elegida de forma adecuada. Por
ejemplo, encuestas de opinin entre los turistas procedentes de Holanda, no se pueden extrapolar para
definir la opinin del conjunto de los potenciales turistas de toda la Unin Europea.
Como se ha dicho anteriormente, el paso previo a la realizacin de cualquier proceso de muestro se
centra en la concrecin de los objetivos del estudio, definiendo as, implcitamente, las caractersticas
y la naturaleza de la poblacin a analizar. Esta parte de la investigacin requiere una definicin de las
variables a utilizar en el mbito poblacional, sus caractersticas y su periodo de referencia. As, por
ejemplo, si se quieren estudiar las caractersticas de la demanda turstica de las familias procedentes en
un determinado pas de la UE, es evidente que la poblacin objeto de estudio es exclusivamente la
formada por las familias residentes en el mismo.
De acuerdo con los objetivos establecidos en la investigacin, debe obtenerse toda la informacin
correspondiente a esas familias, as como los movimientos tursticos realizados por ellas. Por tanto, las
variables a las que se referir el estudio sern una serie de caractersticas sociodemogrficas,
econmicas y culturales relativas a esas familias.
Del mismo modo, se debe definir la cobertura o mbito de objeto del estudio, tanto temporal (periodo
en que es interesante el estudio), como geogrfica (delimitacin geogrfica del trabajo). Cuando la
poblacin est bien definida es relativamente fcil obtener una muestra representativa. El problema
surge cuando la poblacin no est bien delimitada o no es conocida. Por ejemplo, esto ocurrira si el
objetivo del estudio fuera la poblacin futura de visitantes a un parque temtico que se acaba de
construir. En este caso es evidente que se desconoce la posible poblacin, as como las caractersticas
que la definen. Por ello, el trabajo de obtencin de la muestra resulta ms complejo, y sera imposible
de realizar si no fuera con la inclusin de determinados supuestos en el anlisis.
La definicin de las unidades de estudio es un paso necesario en esta etapa del proceso. Las unidades
de estudio pueden ser los individuos (los turistas que llegan a un balneario) o bien grupos de
individuos con algunas caractersticas comunes (las familias u hogares de un determinado pas, los
jvenes, los matrimonios sin hijos...).
El resultado del estudio, como se ha dicho, depende en gran medida de la adecuacin de la muestra a
los objetivos y al marco de la investigacin. Es por ello que en esta fase se deben recoger
explcitamente todos los posibles casos poblacionales que se pretenden analizar. Por ejemplo, si lo que
se quiere estudiar son las caractersticas de la demanda potencial de un determinado destino turstico
es evidente que no se puede obtener una muestra slo de los turistas que viajan a ese destino. Esto
supondra dejar de lado una parte importante de informacin que proporcionaran otros turistas que
estaran dispuestos a viajar a ese destino, si las condiciones variaran. Por el contrario, si el objeto del
estudio es analizar las circunstancias que permiten la fidelizacin de los turistas a un destino concreto,
la muestra debera ser tomada exclusivamente entre aquellos que hayan visitado ms de una vez dicho
destino.
3.-Definicin del mtodo a seguir para tomar la muestra y su tamao.
No hay un mtodo ptimo de llevar a cabo la seleccin de los elementos de la muestra. Depender,
generalmente, del problema que nos ocupa y de los recursos disponibles. El ms conocido es el
muestreo aleatorio simple, en el que cada uno de los n elementos de la muestra tiene la misma
probabilidad de ser elegido. Sin embargo, hay circunstancias en que pueden ser mas indicados otros
tipos de muestreo. Por ejemplo, si deseamos recabar informacin acerca de la opinin de los visitantes
de un destino turstico, no sera lgico hacer un muestreo aleatorio simple, sino que lo ms razonable
sera hacer un muestreo por estratos, teniendo en cuenta caractersticas diferenciadoras como podran
ser la edad, el pas de origen o el nivel de renta.
Otro aspecto importante, que veremos ms adelante, ser el tamao de la muestra, que depender del
grado de fiabilidad requerido y del coste.
4.-Diseo adecuado de la forma de obtener la informacin (cuestionario).
Los cuestionarios son la serie de preguntas que constituyen el tema de la encuesta. La elaboracin de
un cuestionario adecuado resulta fundamental para la obtencin de la informacin necesaria para
llevar a cabo el estudio. Las caractersticas de un buen cuestionario han de ser:
-
Objetividad: el entrevistador nunca debe influir en la opinin del entrevistado.
Claridad: es importante utilizar un lenguaje fcilmente asimilable por el entrevistado.
Precisin: hay que definir bien las cuestiones y evitar ambigedades para obtener la
informacin que se busca.
Correccin: ha que evitar preguntas que por su contenido o su lenguaje puedan molestar al
entrevistado.
Duracin limitada: hay que reducir el tamao del cuestionario lo mximo posible, evitando
preguntas repetidas o excesivamente largas, para impedir el cansancio y la monotona en las
respuestas del entrevistado.
Las tipologas de preguntas que nos podemos encontrar son:

-
Pregunta abierta: el entrevistado tiene libertad para contestar.
Pregunta cerrada: el entrevistado debe contestar seleccionando una o varias opciones de las
que se le proponen. La pregunta cerrada facilita la tabulacin posterior de las respuestas.
Pregunta mixta: por ejemplo, una pregunta cerrada donde una de las opciones es una
pregunta abierta de respuesta libre.
Las diferentes formas de realizar la entrevista son:

-
Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo.
Entrevista telefnica.
Entrevista postal: envo del cuestionario por correo.
Entrevista virtual (uso de Internet).
Desde el punto de vista de la inferencia estadstica, hay que tratar de asegurar dos aspectos claves:
Que el nmero de no respuestas no sea alto, para evitar que los cuestionarios de los que
responden dejen de ser representativos del conjunto de la poblacin. El nmero de preguntas y
la forma en que se realiza la encuesta (entrevista personal, correo, telfono, etc.) tiene mucho
que ver con la tasa de no respuesta. Conviene analizar la falta de respuesta con objeto de ver la
representatividad que podemos seguir adjudicando a la muestra (caractersticas o patrn de

comportamiento de los elementos no observados por falta de respuesta).
Que las respuestas sean honestas y precisas. La tcnica (arte) en el diseo del cuestionario y
en la realizacin de la entrevista, o forma de hacer la pregunta, es esencial en este punto.
5.-Uso de la muestra para hacer inferencia.

Se comienza con la preparacin y anlisis de los datos: codificacin, depuracin y anlisis descriptivo
inicial. Posteriormente, se entra en la inferencia, de la que ya se han estudiado diversas formas de
realizarla. A lo largo de esta leccin, no obstante, trataremos algunos mtodos de inferencia para tipos
particulares de muestreo.
6.-Obtencin de conclusiones acerca de la poblacin.
Se trata de resumir y presentar la informacin obtenida: estimacin por intervalos, tablas resumen,
presentaciones grficas, etc. Una vez destacadas las conclusiones del estudio, puede argumentarse
como actuar y, posiblemente, sugerir la obtencin posterior de nueva informacin de inters aparecida
a lo largo del estudio. En este sentido, muchas veces, la aparicin de cuestiones importantes no
previstas en el proceso, puede servir de estmulo para posteriores estudios de la poblacin.
3. Tipos de error
Nunca sabremos, ciertamente, cul es el verdadero valor de cualquier parmetro poblacional. Una
fuente posible de error procede del hecho de que no observamos toda la poblacin, y le llamamos error
de muestreo, de azar o de estimacin. Este tipo de error es inevitable, ya que siempre habr diferencia
entre los valores medios de la muestra y los valores medios de la poblacin. La magnitud de este error
depende del tamao de la muestra (a mayor tamao de muestra menor error) y de la dispersin o
desviacin estndar del estimador (a mayor dispersin mayor error).La Estadstica estudia de qu
forma se puede tratar ese tipo de error o, al menos, cmo se puede incorporar en el proceso de
inferencia (intervalos de confianza, nivel de significacin, etc.).
Sin embargo, hay otras posibles fuentes de error que no pueden ser tratadas de la misma forma. Los
llamaremos errores ajenos al muestreo y algunos de ellos son:
Definicin incorrecta de la poblacin de referencia.
Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario

y de la formulacin de preguntas delicadas para el entrevistado.
Falta de respuesta. Este hecho puede producir estimaciones sesgadas, ya que los que
respondieron pueden no representar fielmente a la poblacin. Por eso, en este caso, conviene
analizar las caractersticas de los que no lo hicieron (posible sesgo) y compararlas con los que
s lo hicieron, para ver si son homogneos o no ambos grupos.
Sesgo en la seleccin de los elementos de la muestra. Por ejemplo, cambio de un vecino por
otro ausente, desatendiendo el proceso de muestreo estipulado.
Errores de manipulacin, tabulacin y clculo.
No existe un procedimiento general para evitar y analizar tales errores. Pero el investigador debe
tenerlos muy presentes para tratar de minimizarlos. Es preciso recabar toda la informacin disponible.
Puede hacerse una encuesta previa para detectar posibles fallos.
4. Mtodos de muestreo
Los mtodos de muestreo pueden ser de dos tipos: aleatorios y no aleatorios, dependiendo del mtodo
de obtencin de la muestra. En los primeros, la seleccin de los elementos de la muestra es aleatoria e
independiente de la opinin de cualquier persona (investigador o entrevistador). En los segundos, esta
condicin no siempre se cumple. En ambos casos, pueden seleccionarse elementos de la poblacin
(por ejemplo, empleados) o grupos de elementos (por ejemplo, familias). De esta forma, podemos
establecer la siguiente clasificacin de los mtodos de muestreo:
Figura 1. Principales mtodos de muestreo
Muestreos
aleatorios
Unidad
muestral
elemental
Muestreo
aleatorio
simple
Muestreo
aleatorio
sistemtico
Unidad
muestral
grupo
Muestreo
aleatorio
estratificado
Muestreo por
reas y
conglomerados
Muestreo
por
etapas
Muestreos
no
aleatorios
Muestreo
por cuotas
Muestreo de
juicio
u opinin
Muestreo
intencional
Muestreo por
bola de nieve
Una clasificacin general de estos mtodos puede verse en la Figura 1. A continuacin, vamos a
realizar un breve recorrido de los mismos, pero centrndonos fundamentalmente en los definidos como
aleatorios.
1) Muestreo aleatorio.
Muestreo aleatorio simple.
Se caracteriza porque cada elemento de la poblacin tiene la misma probabilidad de ser elegido. Si se
dispone de una lista de los elementos de la poblacin, la seleccin de una muestra aleatoria simple es
muy sencilla. Supongamos que numeramos los elementos de la poblacin de 1 a N, una muestra
aleatoria simple puede obtenerse colocando N bolas numeradas en una caja, mezclndolas, y
extrayendo n de ella, o bien, tambin puede utilizarse una tabla de nmeros aleatorios, ordenador o
simple calculadora de mano (tecla RANDOM RND).
Muestreo aleatorio sistemtico.
Si existe una lista de los elementos de la poblacin en la que aparecen ordenados y el orden existente
no es un factor distorsionante de la aleatoriedad para el tema bajo estudio (de ser as habra sesgo en la
seleccin) se utiliza con mayor frecuencia el muestreo sistemtico. Se trata de seleccionar un primer
elemento al azar (arranque aleatorio) entre 1 y p, siendo p=N/n, y, si este elemento es el k-simo, los
dems se obtienen sumndole p al inmediato anterior: k, k+p, k+2p, .......
El mtodo garantiza que aparezcan elementos de todas las clases, por lo que genera muestras ms
representativas que el aleatorio simple. Este procedimiento exige, como el anterior, numerar todos los
elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno.
El riesgo de este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya
que al elegir a los miembros de la muestra con una periodicidad constante (p) podemos introducir una
homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra
sobre diferentes listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres,
si empleamos un muestreo aleatorio sistemtico con p=10 siempre seleccionaramos o slo hombres o
slo mujeres, no podra haber una representacin de los dos sexos. Otro ejemplo: si seleccionamos una
muestra de ocupacin hotelera basada en una serie de datos mensuales para distintos aos y p=12,
siempre se obtendra la observacin correspondiente al mismo mes, por lo que la muestra estara
afectada por el sesgo propio del factor estacional encontrado en el arranque aleatorio (al alza en meses
de alta ocupacin, a la baja en el resto)
Muestreo estratificado.
Hace referencia a poblaciones con caractersticas diferentes, en las que existen estratos (grupos)
homogneos con respecto al carcter que se investiga y que, por tanto, deben ser analizados de forma
diferente, ya que pueden obtenerse estimaciones ms precisas (menos errores) tomando una muestra
8
aleatoria en cada estrato y, adems, se garantiza que todos los estratos (subpoblaciones, en definitiva)
estn representados. Cada estrato tiene elementos que son homogneos entre s y heterogneos
respecto a los dems estratos. Por ejemplo, si se quieren estudiar caractersticas de los hoteles de una
determinada provincia, se tienen como estratos los hoteles de 5 estrellas, de 4 estrellas, de 3 estrellas,
etc. y se utilizar un muestreo estratificado que nos asegure una adecuada representacin de todos los
estratos.
Muestreo por conglomerados y por reas.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que
forman una unidad, a la que llamamos conglomerado (familias, empresas, municipios, etc.). El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto nmero de
conglomerados (el necesario para alcanzar el tamao muestral establecido) e investigar despus todos
los elementos pertenecientes a los conglomerados elegidos.
En el caso particular de que los conglomerados sean reas geogrficas bastante frecuentehablaremos de muestreo por reas.
Muestreo polietpico o por etapas.
El muestreo polietpico es una generalizacin del muestreo por conglomerados en el que se intenta
reducir el coste al mnimo. En la primera etapa se selecciona un nmero determinado de
conglomerados (unidades primarias de muestreo), por ejemplo, provincias. En la segunda se
seleccionan conglomerados ms pequeos pertenecientes a los anteriores (unidades secundarias de
muestreo), por ejemplo, municipios. Y as sucesivamente (procedimiento de embudo) hasta llegar a
los elementos de la poblacin que van a ser observados (unidades ltimas). Slo necesitamos, por
tanto, contar con un listado de los elementos de esta ltima etapa.
Como ejemplo prctico, la Encuesta de Poblacin Activa (EPA), una investigacin por muestreo de
periodicidad trimestral realizada por el INE desde 1964 dirigida a analizar la actividad laboral, utiliza
un muestreo en dos etapas con estratificacin en la primera etapa. El INE selecciona como unidades
muestrales primarias alrededor de 3.000 secciones censales de entre las ms de 30.000 en que esta
dividida Espaa2. En cada una de estas secciones censales se entrevistan un promedio de 20 viviendas
familiares (unidades muestrales secundarias), obtenindose una muestra de aproximadamente 64.000
viviendas para las que se recoge informacin para todos sus miembros, lo que produce una muestra
final en torno a las 200.000 personas.
Como resumen, en trminos generales, las ventajas e inconvenientes de los distintos tipos de muestreo
aleatorio se presentan en la Tabla 1:
Una seccin censal es una unidad territorial que se establece con criterios operativos para el trabajo de campo en las
operaciones estadsticas, mediante la subdivisin de los distritos de los municipios atendiendo fundamentalmente al volumen
de poblacin. En esta etapa el diseo de la EPA estratifica las secciones censales utilizando un doble criterio: geogrfico y
socioeconmico.
Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio

CARACTERISTICAS
Se selecciona una muestra de tamao n de

Aleatorio simple una poblacin de N unidades, cada
elemento tiene una probabilidad de
inclusin igual y conocida de n/N.
Sistemtico
Estratificado
VENTAJAS
Sencillo y de fcil comprensin.
INCONVENIENTES
Requiere que se posea de

antemano un listado
completo de toda la
poblacin. Caro.
Se necesita un listado de los N elementos de Fcil de aplicar. Cuando la

poblacin est ordenada
la poblacin. Tras determinar el tamao
siguiendo una tendencia
muestral n, se define un valor p= N/n. Se
conocida, asegura una cobertura
elige un nmero aleatorio, k, entre 1 y p
(k= arranque aleatorio) y se seleccionan los de unidades de todos los tipos.
elementos de la lista que ocupan los lugares
k, k+p, k+2p, ....
Si la constante de muestreo
est asociada con el
fenmeno de inters, las
estimaciones obtenidas a
partir de la muestra pueden
contener sesgo de seleccin
En ciertas ocasiones resultar conveniente

estratificar la muestra segn ciertas
variables de inters. Para ello debemos
conocer la composicin estratificada de la
poblacin.
Tiende a asegurar que la muestra

represente adecuadamente a la
poblacin en funcin de las
variables seleccionadas.
Estimaciones ms precisas.
Su objetivo es conseguir una
muestra lo ms semejante posible
a la poblacin en lo referente a las
variables estratificadoras.
Se ha de conocer la
distribucin en la poblacin
de las variables utilizadas
para la estratificacin.
Es muy eficiente cuando la

poblacin es muy grande y
dispersa.
No es preciso tener un listado de
toda la poblacin, slo de las
unidades ltimas de muestreo.
Menor coste.
El error estndar es mayor

que en el muestreo aleatorio
simple o estratificado.
El clculo del error estndar
es complejo.
Se seleccionan aleatoriamente cierto

Conglomerados- nmero de conglomerados y se investigan
todos los elementos de cada uno de ellos. El
Etapas
muestreo por etapas es una generalizacin,
que va de ms grandes a ms pequeos. Se
realizan varias fases de muestreo sucesivas.
2) Muestreo no aleatorio
A veces, para estudios exploratorios, el muestreo aleatorio resulta excesivamente costoso y se acude a
mtodos no aleatorios, aun siendo conscientes de que no son adecuados para realizar generalizaciones,
pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la
poblacin tienen la misma probabilidad de se elegidos. Slo comentaremos aqu el muestreo por
cuotas y el de opinin.
Muestreo por cuotas.
Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o
"adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo
aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul.
10
En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen
unas determinadas condiciones (variables de control), por ejemplo: 20 individuos de 25 a 40 aos, de
sexo femenino y residentes en Mlaga. Siempre que se ajuste a las cuotas fijadas, el entrevistador tiene
libertad para elegir a los entrevistados. Este mtodo se utiliza mucho en las encuestas de opinin.
Muestreo de juicio o de opinin.
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas"
mediante la inclusin en la muestra de grupos supuestamente tpicos. Para la obtencin de una muestra
mediante este mtodo se puede acudir a criterios especficos de los investigadores o bien requerir las
opiniones de expertos en la materia. Por ejemplo, cuando el inters del estudio se centra en comparar
las caractersticas diferenciadoras de los clientes que han presentado cierta insatisfaccin en el servicio
respecto a aquellos otros que no, se determina a juicio del investigador un nmero predeterminado de
encuestas a los clientes satisfechos y otro nmero de encuestas a clientes insatisfechos.
5. Tamao de la muestra e inferencia.

La muestra debe reproducir las caractersticas del universo o poblacin. Hay dos cuestiones bsicas: la
primera, sobre la cantidad de elementos que debe incluir la muestra y, la segunda, hasta qu punto
puede generalizarse a la poblacin el resultado obtenido en ella. Ambas cuestiones conducen al
problema de la exactitud o precisin de la estimacin del parmetro desconocido. El objetivo es no
incurrir en errores a la hora de obtener los resultados. Pero como los errores son inevitables, lo
importante entonces es minimizarlos.
Una vez especificadas las caractersticas que ha de tener la muestra, hay que determinar su tamao (n),
de forma que sea suficientemente representativa de la poblacin y que asegure, para un nivel de
confianza (1-) dado, un error muestral () mximo permitido. La poblacin puede ser infinita (a
veces, suele considerarse infinita cuando tiene ms de 100.000 elementos) o de tamao finito N, que
es lo ms general. Vamos a ver, como introduccin general al caso ms real de poblaciones finitas, la
forma en que se puede tratar este tema cuando la poblacin se supone infinita.
Caso de la media:
El error muestral se define como la diferencia entre el verdadero valor del parmetro y el arrojado por
su estimador para la muestra en cuestin:
= x
Recordemos que un intervalo de confianza del 100(1-) % para la media, en caso de normalidad,
vendra dado por:
11
x z1 / 2 x x + z1 / 2 x
x z1 / 2 x x =
Se desprende de la anterior expresin que siempre son el nivel de confianza y el error estndar o
desviacin tpica del estimador del parmetro desconocido los que determinan la amplitud del error
que cometemos al estimar dicho parmetro con una muestra de tamao n. El error mximo para una
muestra de tamao n, cuando se estima la media en una poblacin normal con una confianza del
100(1-) %, sera, por tanto:
= x = z1 / 2
En esta expresin, es la desviacin tpica poblacional, x la media de la muestra y la media

poblacional.
Obsrvese una cuestin que va a ser muy importante desde un punto de vista conceptual: dado un
nivel de confianza (z, en definitiva), otorgar un determinado valor al error mximo que se puede
cometer, equivale exactamente a fijar la varianza del estimador. Despejando, resulta que el tamao de
la muestra viene dado por la siguiente expresin:
n=
z12 / 2 2
Recordemos que z1-/2 es un valor (percentil) de la distribucin normal tipificada que acumula a su
izquierda una probabilidad de (1-/2), o lo que es igual, /2 a su derecha. Este valor es de 1,96 para
un nivel de confianza del 95 %. Es bastante frecuente redondear los valores del percentil de Z a z =2 y
a z =3, siendo entonces del 95,5% y 99,5%, respectivamente, los correspondientes niveles de
confianza. Para el primer caso, por ejemplo, el tamao de la muestra vendra dado por la expresin:
n=
4 2
En la mayora de los casos se desconoce el valor de , por lo que es necesario establecer un proceso de
muestreo previo con informacin ms reducida (muestra piloto) y a partir de ah estimar la varianza ,
o bien utilizar los resultados obtenidos en otro estudio.
12
Ejemplo:
Para llevar a cabo el anlisis de un destino turstico con alta afluencia de turistas (200.000, en
concreto) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido
aceptar un error mximo en el gasto medio de 30 euros. Suponiendo una desviacin estndar de la
poblacin de 200 euros y un nivel de confianza del 95%, obtenga el tamao adecuado de la muestra.
Solucin:
Al ser una poblacin mayor de 100.000 elementos, vamos a tratar el tema, por ahora, como si se
tratase de una poblacin infinita, tal y como se ha dicho anteriormente. As, la frmula para obtener el
tamao de la muestra es:
n=
z12 / 2 2
1,962 2002
= 170, 74 171
302
Caso de la proporcin:
Cuando se estima una proporcin, caso frecuente de respuestas dicotmicas, la varianza del estimador
de la proporcin es, como se recordar:
p2 =
pq
n
El error mximo vendra dado, de acuerdo con lo que acabamos de ver, por:
= p p = z1 / 2
pq
n
El tamao de la muestra se obtendr, como anteriormente, despejando n de esta expresin:
n=
z12 / 2 pq
Generalmente, los valores poblacionales de la proporcin buscada (p) y de su complementario (q=1-p)

se desconocen. Pero en este caso, en vez de obtenerlos mediante una muestra piloto, pueden sustituirse
por p=q=0,5, lo que conduce al mximo valor exigible de n, ya que cualquier otra combinacin de
valores de p y q, al multiplicarlos, dara una valor inferior a 0,25. Obsrvese adems que si se
considera una confianza del 95,5%, el valor de nmax queda slo en funcin del error:
nmax =
4 pq
4 0, 25
13
Ejemplo
Para completar el anlisis del anterior destino turstico, se desea realizar utilizar la encuesta para
determinar la proporcin de visitantes de origen europeo. Se ha decidido aceptar un error mximo del
5%, y un nivel de confianza del 95,5%. Obtener el tamao de la muestra.
Solucin:
Con esta informacin, puesto que no sabemos nada acerca del valor poblacional de p, el tamao de la
muestra sera:
nmax =
4 pq
4 0, 25
= 400
(0, 05) 2
La respuesta a por qu en estudios de mercado y encuestas de opinin se utiliza a menudo un tamao

muestral de 400, 1110 2500 est en esta frmula: se asume un desconocimiento total de la
proporcin en la poblacin, por lo que se considera p=0.5, se usa un nivel de confianza del 95.5% y la
imprecisin mxima admisible (error) se suele fijar en el 5, 3 2%, respectivamente.
Caso del total:

Por ltimo, el tercer parmetro en el que podemos estar interesados es por el total o suma de todos los
valores de la variable, que en una poblacin, como se recordar, viene dado por N . Evidentemente,
si estamos hablando de conocer N, la poblacin ha de ser finita, cosa que no hemos supuesto en los
dos casos anteriores. Pero vamos a continuar desarrollando este caso slo con el objeto de cerrar el
tratamiento de la bsqueda del tamao muestral, cuando se pretende hacer inferencia sobre los tres
parmetros ms comunes. Ya veremos, sin embargo, como para poblaciones finitas todas estas
expresiones del tamao de la muestra cambian. Pero, como hemos dicho anteriormente, sigamos el
argumento como simple ejercicio, para ms adelante puntualizarlo debidamente.
Por ejemplo, se puede estar interesado en el gasto total anual de los turistas que visitan una cierta zona.
Es fcilmente comprensible que, en este caso, el mejor estimador de ese total vendra dado por Nx .
Y, puesto que N es constante, la varianza del total ser:
2
Nx
= Var ( Nx ) = N 2 x2 Nx = N x
El error para el total, por tanto, ser el de la media multiplicado por N:
T = N Nx = z1 / 2 N
= N
14
Simplificando N en los dos ltimos miembros de esta igualdad, se comprueba fcilmente que el
tamao de la muestra debera de ser exactamente igual que para el caso de la media.
Ejemplo:
Para completar el anlisis del destino en estudio se desea conocer tambin el gasto total que los
turistas realizarn en la zona. Se ha decidido aceptar un error mximo en el gasto total de 6 millones
de euros. Suponiendo un nivel de confianza del 95%, obtener el tamao adecuado de la muestra.
Solucin:
T = z1 / 2 N
n=
n=
z 21 / 2 N 2 2
T2
1,962 2000002 2002

= 170,74 171
60000002
Obsrvese que, como era de esperar, se obtiene exactamente el mismo nmero de observaciones que
para el caso de la media, ya que el error del total se ha elegido a propsito multiplicando por N el de la
media. De esta forma se ha mantenido el especificado anteriormente para la media:
T = N =
T
N
6000000
= 30
200000
Una vez fijado el tamao de la muestra, y obtenida sta mediante el procedimiento adecuado, la mejor
estimacin por puntos del gasto medio ser la media de la muestra. La de la proporcin, la observada
en la muestra y la del total, la media de la muestra multiplicada por N.
Los correspondientes intervalos de confianza, que nos dan una idea de la horquilla en que se mueve el
verdadero valor del parmetro, se construirn para cada uno de los casos, segn lo visto anteriormente,
como sigue:
Media : ( x z1 / 2 x x + z1 / 2 x )
Proporcin : ( p z1 / 2 p p p + z1 / 2 p )
Total : ( Nx z1 / 2 N x N Nx + z1 / 2 N x )
Es decir, una vez seleccionados los elementos de la muestra, se obtendrn, respectivamente, las
correspondientes estimaciones por puntos de la media, proporcin y total. Con estos datos como centro
del intervalo, para un nivel de confianza dado y conocida la varianza del estimador, quedaran
determinados los correspondientes intervalos para los parmetros desconocidos.
15
6. Muestreo en poblaciones finitas.

Si el tamao de la poblacin o universo es conocido, la eleccin del tamao de la muestra, aunque
siguiendo los argumentos expuestos en el epgrafe anterior, tiene ciertas especificidades, que veremos
a continuacin. Las diferencias se basan fundamentalmente en el hecho (relativamente probable para
el caso de una poblacin finita, pero imposible para una de tamao infinito) de que nos podemos
encontrar con situaciones en las que el nmero de elementos de la muestra puede llegar a ser una
proporcin apreciable de los de la poblacin. En tal situacin, puede entenderse fcilmente que la
precisin de la estimacin sera superior, al estar mejor representada el conjunto de la poblacin.
En concreto, para el caso de poblaciones finitas, puede demostrarse que la varianza del estimador (de
la media, proporcin o total) propia de poblaciones infinitas, tal como la hemos visto anteriormente, ha
N -n
de corregirse por un factor. Este factor de correccin sera
, por lo que para el caso de la
N -1
media su frmula de clculo quedara como sigue:
x2 =
2 N -n
n N -1
Si nos fijamos en el numerador del factor de correccin, comprenderemos que no se puede valorar de
forma absoluta al tamao de una muestra, sino que hay que confrontarlo con el de la poblacin de la
que se extrae3. Si observamos dos poblaciones, siendo la muestra de la primera ms pequea que la de
la segunda, puede llegar a dar ms precisin (menor varianza) si el tamao de la poblacin de la que
procede es proporcionalmente menor. Esto, dicho as, parece algo complicado cuando resulta obvio:
en igualdad de condiciones, una muestra de tamao 100 nos informa mucho mejor sobre las
caractersticas de una poblacin de tamao 200, dnde representa la mitad de sus elementos, que otra
de tamao 200 en una poblacin de 20.000, que representa slo el 1% de sus elementos.
Por tanto, independientemente del nmero de elementos que contenga, cuanto mayor sea el tamao de
la muestra (n) en relacin al de la poblacin (N), mayor garanta tendremos en las estimaciones, como
se observa en la frmula anterior. En el caso extremo de que N=n la varianza del estimador se hace
nula. Estaramos, evidentemente, en presencia de una observacin exhaustiva de la poblacin, propia
de la estadstica descriptiva, y no en un caso de inferencia estadstica. Por el contrario, cuando el
tamao de la muestra sea mnimo, de una sola observacin (n=1), la varianza (precisin) del estimador
coincidira con el caso de una poblacin de tamao infinito.
Obsrvese que si en dicha frmula se considera que (N-1) N, la expresin del factor de correccin quedara bien
expresada como la razn de estos dos tamaos, el de la muestra y el de la poblacin, pues (N-n)/N = 1- n/N. Cuanto mayor es
la proporcin de la muestra respecto a la poblacin, ms se reduce la varianza del estimador.
16
Teniendo en cuenta esta particularidad, se presenta a continuacin la forma en que se debe de obtener
el tamao de la muestra para el caso de poblaciones finitas y para los cada uno de los dos tipos de
muestreos aleatorios ms utilizados, el aleatorio simple y el estratificado.
6.1. Muestreo aleatorio simple.

Caso de la media:
Como se dijo anteriormente, dado un determinado nivel de significacin, fijar el tamao del error
equivale a predeterminar la propia varianza del estimador. Es decir, varianza del estimador y error
mximo permitido son dos caras de una misma moneda, siendo el tamao de la muestra el resultado
del supuesto que hagamos acerca de cualquiera de ambos. Por tanto, dicho tamao se puede obtener a
partir de la definicin del error o de la frmula de la varianza del estimador. Obsrvese que, fijado el
valor de z por el nivel de confianza, el error es igual a la desviacin estndar del estimador
multiplicado por una constante (para el caso del 95% el valor sera 1,96 ):
= z1 / 2 x = 1, 96 x
Si elevamos al cuadrado e introducimos el valor de la varianza del estimador, tendremos:
2 = z2 2 = z2
1 / 2
1 / 2
2 N n
n N 1
A partir de esta expresin, si se suponen conocidos la varianza () y el tamao de la poblacin (N), y

fijados el tamao del error () y el nivel de confianza que determina el valor de z1-/2, podemos obtener
el correspondiente tamao de la muestra (n). Esta es la forma en que generalmente se obtiene el
tamao adecuado de la muestra. Haremos este ejercicio una sola vez, ya que en adelante omitiremos
clculos similares para el resto de los casos. Operando en la igualdad anterior:
n( N 1) 2 = z12 / 2 2 ( N n ) = z12 / 2 2 N z12 / 2 2n

n( N 1) 2 + z12 / 2 2 n = z12 / 2 2 N
( N 1) 2 + z 2 2 n = z 2 2 N
1 / 2
1 / 2
n=
Nz12 / 2 2
( N 1) 2 + z12 / 2 2
2 = z12 / 2 x2
17
Si en la frmula obtenida para n sustituimos el error por la expresin del mismo que ya conocemos,
entonces obtendremos esta otra expresin para el tamao de la muestra cuando se desea estimar una
media en poblaciones finitas:
2 = z 2 x2 n =
1 / 2
N 2
2
2
=
x
z12 / 2
( N 1) x2 + 2
Esta expresin es exactamente la que se hubiera obtenido si se toma directamente la frmula de la

varianza del estimador de la media en poblaciones finitas para despejar de ella el valor de n, cuestin
que dejamos como ejercicio para el alumno. En resumen, conocidos el tamao y la varianza de la
poblacin, por estudios anteriores o por una encuesta piloto desarrollada para el caso, se observa
claramente en la expresin anterior que fijar el error o la varianza del estimador son procesos
equivalentes, pudindose utilizar cualquiera de las dos expresiones de n que se acaban de mostrar.
Ejemplo (mismo caso de poblaciones infinitas):

Para llevar a cabo el anlisis de un destino turstico con alta afluencia de turistas (200.000) se desea
realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error
mximo en el gasto medio de 30 euros. Suponiendo una desviacin estndar de la poblacin de 200
euros y un nivel de confianza del 95%, obtener el tamao adecuado de la muestra.
Solucin frmula 1:
n=
Nz12 / 2 2
( N 1) 2 + z12 / 2 2
200.000 (1, 96) 2 ( 200) 2

= 170, 59 171
( 200.000 1) ( 30) 2 + (1, 96) 2 ( 200) 2
Solucin frmula 2:
n=
N 2
=
( N 1) x2 + 2
200.000 ( 200) 2
2
30
2
( 200.000 1)
+ ( 200)
,
1
96
= 170, 59 171
Como puede observarse, el tamao muestral resultante es el mismo que cuando supusimos que la
poblacin era infinita. Ello es debido al gran tamao de la misma.
Intervalo para la media:
Una vez obtenida la muestra, se puede calcular un intervalo de confianza para el parmetro (media)
poblacional. Normalmente, la varianza poblacional es desconocida, por lo que el intervalo que se
defini anteriormente debe dejar paso a este otro, en el que se sustituye la varianza desconocida por su
estimador insesgado en poblaciones finitas, que llamaremos x2 :
18
x z1 / 2 x x + z1 / 2 x
x2 =
s 2 ( N - n)
n N
De esta forma, con los datos de la muestra se puede obtener un intervalo de confianza para el
verdadero valor del parmetro desconocido, con el error y el nivel de confianza predeterminados a la
hora de obtener el tamao adecuado de la muestra.
Ejercicio:
Supongamos que la media y la desviacin estndar obtenidas en la muestra de los 171 turistas del
ejercicio anterior son, respectivamente, de 450 y 320 euros. Determinar el intervalo de confianza del
95% para el verdadero valor del gasto medio por turista.
Solucin:
Comenzaremos por obtener el estimador de la varianza:
x2 =
s 2 ( N - n ) ( ns 2 / n 1) ( N - n ) (171 3202 /170) (200.000 171)

=
=
= 601,84
n N
n
N
171
200.000
Por tanto, tendremos que x = 24,53 y el correspondiente intervalo de confianza vendra dado por:
x z1 / 2 x x + z1 / 2 x
450 1,96 24,53 450 + 1,96 24,53
401,92 498,08
(450 48,08)
En esta ltima expresin se da el intervalo, tomando como pivote del mismo la estimacin por puntos
del parmetro (media de la muestra) y fijando el error mximo cometido a izquierda y derecha del
mismo (producto del valor de z, o sea 1,96, por la desviacin estndar del estimador, que es 24,53).
Como ya hemos comentado, para obtener el tamao adecuado de la muestra en el caso de estar
realizando inferencia sobre la proporcin se procede de forma similar al caso anterior. La varianza del
estimador es ahora:
p2 =
pq N n
n N 1
19
Despejando n, se llega a obtener la siguiente expresin de clculo para el tamao de la muestra,

cuando se hace inferencia acerca de una proporcin:
n=
Npq
( N 1) p2 + pq
Volviendo a tomar la ya conocida relacin entre error y varianza del estimador, p2 =
2
z12 / 2
, una
segunda frmula de clculo es la siguiente:
n=
Nz12 / 2 pq
( N 1) 2 + z12 / 2 pq
Generalmente, no se conoce el valor de p, por lo que habr que estimarlo mediante una encuesta piloto
o tomando informacin procedente de investigaciones anteriores. La alternativa ms inmediata es
optar por tomar el tamao muestral mximo, considerando pq=0,25.
Ejemplo (mismo caso de poblaciones infinitas):

Para completar el anlisis del anterior destino turstico, se desea realizar utilizar la encuesta para
determinar la proporcin de turistas de origen europeo. Se ha decidido aceptar un error mximo del
5%, y un nivel de confianza del 95%. Obtener el tamao de la muestra.
Solucin frmula 1:
Como no se tiene informacin sobre la proporcin en la poblacin, optaremos por obtener el n
mximo:
n=
0, 25N
=
( N 1) p2 + 0, 25
0, 25 200.000
2
0,05
(200.000 1)
+ 0, 25
1,96
= 383, 43 384
Solucin frmula 2:
n=
Nz12 / 2 pq
200.000 1,962 0, 25
=
= 383, 43 384
( N 1) 2 + z12 / 2 pq (200.000 1) 0,052 + 1,962 0, 25
Puede comprobarse de nuevo como el hecho de tener como referencia a una poblacin de gran
tamao, no cambia prcticamente el tamao de la muestra.
20
Ejemplo:
En un hotel saben que el nivel de satisfaccin de sus clientes ronda el 90% y quieren realizar un
estudio para ver si la nueva gestin de limpiezas ha sido de su agrado. Cul sera el tamao necesario
para la muestra, si el total de clientes del hotel es de 10.000? Suponga un nivel de confianza para los
resultados del estudio del 95% y un error mximo permitido del 5%.
Solucin:
n=
Nz12 / 2 pq
10.000 1,962 0,90 0,10
=
= 136, 42 137
( N 1) 2 + z12 / 2 pq (10.000 1) 0,052 + 1,962 0,90 0,10
Luego, el tamao necesario de la muestra sera de 137 clientes.
Intervalo para la proporcin:

El intervalo de confianza para la proporcin se puede obtener de forma similar, sin ms que aplicar la
correspondiente expresin para el mismo:
p z1 / 2 p p p + z1 / 2 p
Ahora, la varianza desconocida de la proporcin muestral se estima mediante el siguiente estimador
insesgado:
p2 =
( N n)
pq
( n 1) N
Ejemplo:
En la muestra de 142 clientes, se ha obtenido que 105 estn satisfechos con la limpieza. Obtenga un
intervalo de confianza para el verdadero valor de la proporcin de clientes satisfechos.
Solucin:
La proporcin en la muestra es el estimador por puntos y ser el pivote utilizado para establecer el
intervalo: p =
105
= 0,7394
142
La varianza del estimador ser:
p2 =
( N n ) 0,7394 (1 0,7394) (10.000 142)

pq
=
= 0,001347
( n 1) N
(142 1)
10.000
La desviacin estndar, por tanto, es 0,0367 y el intervalo queda como sigue:
21
p z1 / 2 p p p + z1 / 2 p
0,7394 1,96 0,0367 p 0,7394 + 1,96 0,0367
0,6675 p 0,8113
p (0,7394 0,0719)
Es decir, el porcentaje de clientes satisfecho est entre el 66,75% y el 81,13%, con una confianza del
95%. El error al estimar la proporcin puede llegar a ser de 0,0719 ( 7,19%). Aproximadamente,
siete puntos arriba o abajo del 74%.
Caso del total:

El tamao de la muestra a la hora de hacer inferencia sobre el total o suma de todos los valores de una
poblacin, como ya se coment, es exactamente el mismo que para la media, ya que la varianza para
poblaciones finitas sera la siguiente, que en nada cambia los clculos para obtener n:
Var ( Nx ) = N 2 x2 = N 2
2 N -n
n N -1
Slo ha de tenerse en cuenta esta expresin y que el error del total sera N veces el error de la media,
como ya vimos en su momento. El intervalo de confianza es el de la media multiplicado por N,
evidentemente. Las frmulas de clculo, por tanto, seran:
n=
n=
Nz12 / 2 2
( N 1) 2 + z12 / 2 2
2 =
T2
N
N 2
Var ( Nx )
x2 =
2
2
( N 1) x +
N2
Ejercicio (mismo de poblaciones infinitas):

En el estudio sobre el gasto total en la zona por los turistas se acept un error mximo en el gasto total
de 6 millones de euros. Suponiendo que la desviacin estndar poblacional es de 200 euros y un nivel
de confianza del 95%, obtenga el tamao muestral adecuado. Si de la muestra obtenida se obtuviese un
gasto medio de 450 euros con una desviacin estndar de 320 euros, diga cul es el intervalo para el
gasto total.
22
Solucin:
Evidentemente, el resultado para n va a ser el mismo que para el caso de la media. Lo nico que
hemos de hacer es pasar del error del total al error de la media:
n=
Nz12 / 2 2
( N 1) 2 + z12 / 2 2
Nz12 / 2 2
( N 1)
T2
N
+ z1 / 2
2
= 170, 59 171
2
El intervalo de confianza no vale la pena volver a calcularlo, pues ya sabemos que es el mismo de la
media, pero multiplicado por N:
( 80.576.000 N 99.924.000 )
Es decir, el gasto total estara entre algo ms de 80 millones y algo menos de 100 millones de euros,
con una confianza del 95%.
6.2. Muestreo aleatorio estratificado.

Como paso previo al clculo del tamao de la muestra para cada uno de los tres parmetros con los
que venimos trabajando y a la obtencin de los intervalos de confianza, vamos a proponer el uso de la
siguiente nomenclatura:
Poblacin dividida en k estratos:
N1 + N2 + . + Nk = N
Tamaos muestrales de los estratos:
n1 + n2 + + nk = n
Medias poblacionales en los estratos:
1 2 k
Medias muestrales en los estratos:
x1 x2 .. xk
Proporciones muestrales en los estratos:
p 1 p 2 .. p k
En cada estrato, se har un muestreo aleatorio simple en el que se definen los siguientes
estimadores insesgados:
o
Para la media de cada estrato i : xi
Para la proporcin de cada estrato pi : p i
Para las varianzas de las xi : x2 =
si2 ( N i - ni )
ni
Ni
Para las varianzas de las p i : p2 =
p i qi ( N i - ni )
( ni -1) N i
23
Para determinar el tamao de una muestra por estratos se siguen dos etapas. En primer lugar, se
calcula el tamao total de la muestra que se debe obtener, y posteriormente se estudia el nmero de
elementos que hay que asignar a cada uno de los estratos. A este reparto o asignacin de los elementos
de la muestra a los distintos estratos se le denomina afijacin, pudindose realizar segn los siguientes
mtodos o criterios:
Criterio uniforme: se trata de una forma muy simple de reparto, asignando el mismo nmero
de elementos a cada estrato.
Criterio proporcional: reparto de elementos entre los estratos de la muestra en la misma

proporcin en que se presentan en la poblacin:
N i ni
N
=
ni = i n
N
N n
Criterio ptimo: reparto en funcin de la varianza de cada estrato, con la idea que a menor
varianza ser precisa menor cantidad de informacin y viceversa. Si las varianzas de los
estratos fuesen iguales, coincidira con el proporcional:
Media y total: ni =
N i i
K
N i i
n i encuesta piloto
i =1
Proporcin:
ni =
N i pi qi
K
N i pi qi
n p encuesta o n mxima
i =1
En realidad, el primer mtodo carece de inters, siendo los ms utilizados el segundo (el ms
frecuente) y el tercero, en caso de estar especialmente interesados en la precisin de los estimadores.
Caso de la media y del total:

A partir de la idea inicial desarrollada para el muestreo aleatorio simple, pero haciendo algunas
simplificaciones para poder llegar a una solucin, se obtiene la siguiente frmula de clculo:
K
N i i
; con =
Asignacin proporcional:
n=
Asignacin ptima:
2
1 K
N i i
2
; con x2 = 2
n = N i =1 K
1
z1- / 2
N x2 + N i i2
N i =1
i =1
N x2 +
1 K
2
N i i
N i =1
2
x
z1-2 / 2
24
K
Asignacin ptima:
n=
N i pi qi
i =1
N p2 +
1 K
N i pi qi
N i =1
; con p2 =
2
z12 / 2
2
1 K
N i pi qi
2
; con p2 = 2
n = N i =1 K
1
z1 / 2
N p2 + N i pi qi
N i =1
Ejemplo:
El parque hotelero de una determina zona turstica consta de 4.200 hoteles. Se sabe que 1.150 de estos
hoteles son de 4 y 5 estrellas, 2.120 son de 3 estrellas y 930 de menos de 3 estrellas. Se pide:
1. Obtenga el tamao de la muestra para estimar la facturacin media semanal de los hoteles,
con un error mximo de 500 euros y con una confianza del 95,5%. Supondremos que por
estudios anteriores se sabe que la desviacin estndar en cada uno de los estratos es de
4.000, 6.000 y 8.000 euros, respectivamente.
2. Determine el total de encuestas que habra que realizar para estimar el grado de ocupacin,
con un error mximo del 5% y con una confianza del 95%.
3. Suponga ahora que, por estudios anteriores, se estima que el grado de ocupacin fue,
respectivamente, del 70%, 90% y 60%. cul sera el correspondiente tamao muestral?
4. Diga, finalmente, cul debe ser el tamao definitivo de la muestra y obtenga el nmero de
formularios que habra que asignar a cada uno de los tres grupos mencionados, utilizando
tanto el criterio proporcional como el ptimo.
Solucin 1:
El tamao muestral adecuado para hacer inferencia sobre la media y sobre el total, utilizando un
criterio proporcional de reparto entre estratos, sera el siguiente:
K
n=
N i i
i =1
N x2 +
1 K
2
N i i
N i =1
(1150 40002 + 2120 60002 + 930 80002 )

= 497, 47 498
5002
1
2
2
2
+
4200
(1150 4000 + 2120 6000 + 930 8000 )
1,962 4200
Si consideramos ahora un reparto ptimo de las observaciones de la muestra entre los diferentes
estratos, el tamao adecuado para garantizar el error y el nivel de confianza que se ha propuesto, sera
el siguiente:
25
2
1 K
1
2
N i i
(1150 4000 + 2120 6000 + 930 8000 )
4200
n = N i =1 K
=
= 470,79 471
2
1
500
1
2
2
2
2
2
N x + N i i 4200
(1150
4000
2120
6000
930
8000
)
+
N i =1
1,962 4200
Luego hay una diferencia de 27 cuestionarios entre utilizar una u otra forma de asignar los elementos
de la muestra entre los tres estratos contemplados.
Solucin 2:
Comenzaremos determinando el tamao de la muestra para estimar el grado de ocupacin
(proporcin). Como no se sabe nada acerca de las proporciones muestrales en los diferentes estratos,
buscaremos el n mximo:
K
n=
N i pi qi
i =1
N p2 +
1
N i pi qi
N i =1
0, 25 N i
=
N
i =1
z12 / 2
0, 25 K
Ni
N i =1
0, 25 N
nmax =
N
2
z12 / 2
+ 0, 25
Como se puede observar, al no distinguir entre las diferentes proporciones poblacionales de los
estratos, lo que implica varianzas iguales en todos ellos, la expresin del tamao de la muestra
coincide prcticamente con el caso de muestreo aleatorio simple y, por supuesto, el resultado es
idntico para ambos tipos de asignacin (proporcional u ptima). Obtenindolo por el proporcional, se
tiene:
0, 25 N
nmax =
N
z2 / 2
+ 0, 25
0, 25 4.200
= 351,97 352
0, 052
4.200
+ 0, 25
1, 962
Solucin 3:
Si suponemos que por anteriores investigaciones se sabe que la ocupacin fue, respectivamente, del
70%, 90% y 60%, los clculos arrojaran este otro resultado para el criterio de asignacin
proporcional:
K
n=
Ni pi qi
i =1
1 K
N p2 + Ni pi qi
N i=1
1150 0,70 0,30 + 2120 0,90 0,10 + 930 0,60 0,40

= 226,87 227
0,052
1
+
4.200
1150
0,70
0,30
2120
0,90
0,10
930
0,60
0,40
(
)
1,962 4.200
Evidentemente, los resultados nos indican que, al tener mayor informacin sobre las varianzas de los
estratos, la precisin del estimador aumenta y la cantidad de elementos necesarios para hacer
inferencia sobre la poblacin resulta ms pequea.
Si consideramos ahora el criterio de asignacin ptima, el resultado sera el siguiente:
26
2
2
1 K
1
1150 0,7 0,3 + 2120 0,9 0,1 + 930 0,6 0, 4
N i pi qi
i =1
N
4200
=
= 215,89 216
n=
2
1 K
N p2 + N i pi qi 4200 0,052 + 1 (1150 0,7 0,3 + 2120 0,9 0,1 + 930 0,6 0, 4 )
N i =1
1,96
4200
Luego se necesitaran 11 cuestionarios menos con este tipo de distribucin del tamao de la muestra
entre los distintos estratos. Veamos ahora exactamente cuantos debemos asignar a cada uno.
Solucin 4:
La primera pregunta que hay que hacer es con qu tamao de muestra hemos de trabajar finalmente, si
deseamos llevar a cabo en paralelo las dos investigaciones, sobre la facturacin media y sobre el grado
de ocupacin. Evidentemente, la respuesta no puede ser otra: hay que seleccionar el tamao muestral
adecuado para conservar en el ms desfavorable de los casos el grado de fiabilidad y el error que se
han propuesto. Es decir, tomaremos el tamao exigible para hacer inferencia sobre la media, que es el
que arroja un mayor nmero de observaciones: 498 para el reparto proporcional y 471 para el ptimo.
Con ese tamao aseguramos la precisin de la inferencia sobre la facturacin media y sobre la
ocupacin, mejorando en este ltimo caso el error si se mantiene fijo el nivel de confianza. Veamos:
n1 =
ni =
Ni
n
N
n2 =
N1
1150
n=
498 = 136, 4 137
N
4200
N2
2120
n=
498 = 251, 4 252
N
4200
N
930
n3 = 3 n =
498 = 110,3 111
N
4200
Tamao final
500
(redondear por exceso)
Asignacin ptima:
o
Caso de la media y del total:

n1 =
ni =
N i i
K
N i i
i =1
n2 =
1150 4000
471 = 87,5 88
24760000
2160 6000
471 = 246,5 247
24760000
930 8000
n3 =
471 = 141,5 142
24760000
Tamao final
477
(redondear por exceso)
27
Como puede observarse, el reparto difiere significativamente, ampliando especialmente el nmero de

cuestionarios del grupo 3, que es el de mayor variabilidad y, por tanto, ms difcil de predecir el valor
del parmetro a estimar, y reduciendo el del grupo 1, con menor dispersin. El incremento de
informacin en el mismo, a costa de una disminucin de los que tienen menor variabilidad, muy
especialmente del primero, hace que la estimacin sea ms precisa.
Intervalos para la media, el total y la proporcin:

El procedimiento para obtener los intervalos de confianza sigue siendo bsicamente el mismo, como
es lgico. Una vez hechas las correspondientes estimaciones por puntos, el problema ser calcular las
correspondientes estimaciones de las varianzas de cada uno de los estadsticos. Para la media y la
proporcin, se llega fcilmente a las siguientes expresiones:
Media (estimador y su varianza):
Poblacin: =
1
N
N i i Estimador: x =
i =1
Var ( x ) = Var (
1
N
N x
i =1
i i
1 K
1 K 2 2
2
N i xi ) = x = 2 N i xi
N i =1
N i =1
siendo x2i =
si2 N i ni
ni N i
Proporcin (estimador y su varianza):
Poblacin: p =
1
N
N p
Var ( p ) = Var (
i =1
Estimador: p =
1
N
N p
i =1
1 K
1 K 2 2
2
N i p i ) = p = 2 N i pi
N i =1
N i =1
siendo p2 =
i
p i qi ( N i - ni )
(ni -1) N i
Una vez obtenidos los valores de las varianzas para la media muestral o para la proporcin, los
intervalos se establecen exactamente igual que en muestreo aleatorio simple. Se toma la estimacin
por puntos (media o proporcin en la muestra obtenida) como pivote del intervalo y se le suma y resta
el error; es decir, el producto de z (por ejemplo, 1,96 para una confianza del 95%) por la desviacin
estndar del estadstico correspondiente ( xi o pi , respectivamente). El intervalo para el total es el
de la media multiplicado por N, como siempre. Los clculos son algo ms farragosos, puesto que hay
que estimar previamente las varianzas para un muestreo simple en cada uno de los estratos, pero, en
28
esencia, se trata del mismo procedimiento. Las frmulas de dichos intervalos sern, al fin y al cabo, las
mismas que para el muestreo aleatorio simple, pero tomando en consideracin la diferente forma en la
que hay que obtener la varianza del estimador, tal como se ha expuesto en el prrafo anterior.
Ejercicio:
Tomando el reparto proporcional, establecer un intervalo de confianza para la facturacin media,
suponiendo que en la muestra finalmente seleccionada las medias y correspondientes desviaciones
tpicas, as como las proporciones en la muestra para los estratos fueron las siguientes:
N1 = 1.150; N 2 = 2.120; N 3 = 930; N = 4.200

x = 16.628; x = 21.593; x = 32.711
1
2
3
s = 4.187; s = 6.195; s = 8.243
1
2
3
p1 = 0,80; p 2 = 0,85; p 3 = 0, 70
Solucin:
Para comenzar, se obtiene la estimacin puntual de la media:
x=
1
N
N x
i i
i =1
1
(1.150 16.628 + 2.120 21.593 + 930 32.711) = 22.695,38
4200
Como segundo paso, se calculan las estimaciones de las desviaciones tpicas para cada uno de los
estratos:
x =
(1 3 7 4 1 8 7 2 ) / 1 3 6 (1 1 5 0 - 1 3 7 )
= 3 3 6, 9 7
137
1150
x =
(252 6195 2 ) / 251 (2120 - 252 )

= 367, 05
252
2120
x =
(1 1 1 8 2 4 3 2 ) / 1 1 0 ( 9 3 0 - 1 1 1)
= 737, 55
111
930
s 2 ( N i - ni )
= i
ni
Ni
2
xi
Y la varianza del estimador de la media ser, por tanto:
29
x2 =
1 K 2 2
1
N =
(11502 336,972 +21202 367,052 +9302 737,552) =69.510,64
2 i xi
N i=1
42002
As, pues, la desviacin estndar del estimador de la media es x = 263,65. Con este dato, el
intervalo de confianza del 95% sera:
x z1 / 2 x x + z1 / 2 x
22695,38 1,96 263,65 22695,38 + 1,96 263,65

22178,63 23212,13
(22695,38 516,75)
La facturacin media est entre los 22.178,63 y 23.212,13 euros con una confianza del 95%.
Por ltimo, digamos que el intervalo para la proporcin sigue el mismo esquema del que acabamos de
ver para la media (para el del total, bastara con multiplicar el de sta por N). La nica complicacin
que puede presentar es la laboriosidad que hemos visto implica su clculo.
30

Muestreo en Poblacion Finita

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Muestreo en Poblacion Finita

Transféré par

Droits d'auteur :

Formats disponibles

A.

Morillas: Muestreo en poblaciones finitas

MUESTREO EN POBLACIONES FINITAS

1 Conceptos estadsticos bsicos

A. Morillas: Muestreo en poblaciones finitas

Muestreo en poblaciones finitas

1. Conceptos estadsticos bsicos

como seleccionar los elementos u observaciones de una muestra.

Se ha visto a lo largo de la asignatura como la ciencia estadstica es una herramienta fundamental en la

Personas fsicas: por ejemplo, un cliente de una empresa.

Personas jurdicas o sociedades: por ejemplo, una empresa hotelera.

Unidades familiares: por ejemplo, una familia de turistas.

A. Morillas: Muestreo en poblaciones finitas

El coste, ya que un censo ser mucho ms caro y, a veces, incluso, prohibitivo.

El tiempo disponible, cuando en muchos casos la informacin se necesita de forma ms o

La precisin que presumiblemente se ganara con un censo no compensa la prdida en tiempo

Los pasos a seguir dentro de un proceso de muestreo son:

A. Morillas: Muestreo en poblaciones finitas

A. Morillas: Muestreo en poblaciones finitas

Objetividad: el entrevistador nunca debe influir en la opinin del entrevistado.

Claridad: es importante utilizar un lenguaje fcilmente asimilable por el entrevistado.

Las tipologas de preguntas que nos podemos encontrar son:

Pregunta abierta: el entrevistado tiene libertad para contestar.

Las diferentes formas de realizar la entrevista son:

Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo.

Entrevista postal: envo del cuestionario por correo.

Entrevista virtual (uso de Internet).

A. Morillas: Muestreo en poblaciones finitas

representatividad que podemos seguir adjudicando a la muestra (caractersticas o patrn de

5.-Uso de la muestra para hacer inferencia.

Definicin incorrecta de la poblacin de referencia.

Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario

A. Morillas: Muestreo en poblaciones finitas

Errores de manipulacin, tabulacin y clculo.

Figura 1. Principales mtodos de muestreo

A. Morillas: Muestreo en poblaciones finitas

A. Morillas: Muestreo en poblaciones finitas

A. Morillas: Muestreo en poblaciones finitas

Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio

Se selecciona una muestra de tamao n de

Sencillo y de fcil comprensin.

Requiere que se posea de

Se necesita un listado de los N elementos de Fcil de aplicar. Cuando la

En ciertas ocasiones resultar conveniente

Tiende a asegurar que la muestra

Es muy eficiente cuando la

El error estndar es mayor

Se seleccionan aleatoriamente cierto

A. Morillas: Muestreo en poblaciones finitas

5. Tamao de la muestra e inferencia.

A. Morillas: Muestreo en poblaciones finitas

En esta expresin, es la desviacin tpica poblacional, x la media de la muestra y la media

A. Morillas: Muestreo en poblaciones finitas

El tamao de la muestra se obtendr, como anteriormente, despejando n de esta expresin:

Generalmente, los valores poblacionales de la proporcin buscada (p) y de su complementario (q=1-p)

A. Morillas: Muestreo en poblaciones finitas

La respuesta a por qu en estudios de mercado y encuestas de opinin se utiliza a menudo un tamao

Caso del total:

El error para el total, por tanto, ser el de la media multiplicado por N:

A. Morillas: Muestreo en poblaciones finitas

1,962 2000002 2002

A. Morillas: Muestreo en poblaciones finitas

6. Muestreo en poblaciones finitas.

media su frmula de clculo quedara como sigue: