Vous êtes sur la page 1sur 27

1 Unidad N◦ 1: Introducción al Muestreo Probabilístico

La recogida de información de la variable de interés sobre cada unidad de la población se conoce


como enumeración completa o censo. La cantidad de dinero, recursos humanos y tiempo requeridos
para realizar un censo generalmente es muy elevado y, en muchas situaciones, generalmente cuando
se dispone de medios limitados, no es posible realizar una enumeración completa. En este caso,
el investigador no tiene más remedio que recurrir a técnicas de muestreo para realizar el estudio.
Existen una serie de ventajas en la utilización del muestreo sobre una enumeración completa y que
exponemos a continuación.

Mayor velocidad. El tiempo necesario para la recogida y análisis de los datos de una muestra
es mucho menor que el necesario para una enumeración completa. En cierto tipo de estudios, nos
encontramos con que la publicación de resultados tiene una fecha límite y nos enfrentamos a una
población con un número elevado de elementos. En estos casos, el muestreo es la única alternativa
posible para realizarlo.

Mayor exactitud. Un censo generalmente involucra una gran carga de trabajo con lo que es nece-
sario un gran despliegue humano para la realización del mismo. En este caso es frecuente cometer
errores debido a la complejidad de la organización. En muestreo, el volumen de trabajo se reduce
de manera considerable con lo que los recursos humanos son mucho menores pudiendo tener una
plantilla más eciente.

Información más detallada. Al tener el muestreo un número menor de unidades, es posible


observar/entrevistar cada unidad de una manera más detallada obteniéndose información de varias
variables. Sin embargo, en el caso del censo, esta situación llega a ser muy compleja desde un punto
de vista operativo.

Coste reducido. Al muestrear un menor número de elementos, el coste de muestreo generalmente


es menor que el de una enumeración completa.

De lo señalado anteriormente, el muestreo resulta ser más económico, proporciona una información
más exacta y tiene un mayor alcance en la cobertura individual cuando lo comparamos con una
enumeración completa. Sin embargo, existen una serie de errores, denominados errores de muestreo
que está presentes en cualquier resultado de una investigación por muestreo. Este hecho se debe,
principalmente, a que en el muestreo sólo se analiza una parte de la población. Las técnicas de
muestreo se diseñan con el n de reducir este tipo de errores de muestreo.

1.1 Nociones básicas en muestreo de elementos


En esta sección se presentan algunos conceptos básicos en muestreo de elementos, tales como
muestreo probabilístico, marco de muestreo, diseño de muestreo, probabilidad de inclusión, en-
tre otros, los cuales fueron extraídos de Särndal et al. (1992) y Bautista (1988).

1
1.1.1 Población nita
Una población nita es una colección de N unidades, donde N < ∞, siendo N el tamaño de la
población. Las unidades del universo pueden ser etiquetadas de k = 1, ..., N , y la población nita
es denotada como U = {1, ..., k, ..., N }.

1.1.2 Muestra aleatoria


Es un subconjunto de la población que ha sido extraído mediante un mecanismo estadístico de
selección. Se denota con una letra mayúscula S a la muestra aleatoria y con una letra minúscula
s a una realización de la misma. De tal forma que sin ambigüedad una muestra seleccionada
(realizada) es el conjunto de unidades pertenecientes a:

s = {1, ..., k, ..., n (S)}


El número de componentes de s es llamado tamaño de muestra y no siempre es jo. Es decir, en
algunos casos n (S) es una cantidad aleatoria. El conjunto de todas las posibles muestras se conoce
como soporte. Haciendo una analogía con la inferencia estadística clásica, el soporte generado por
una muestra aleatoria corresponde al espacio muestral generado por una variable aleatoria.

1.1.3 Muestreo probabilístico


Una muestra probabilística es aquella que cumple:

1. Se puede denir el conjunto de muestras posibles que se derivan del proceso de selección pro-
puesto, aunque no es necesario especicarlo, es decir, se cuente con un marco de muestreo.

2. A cada muestra posible le corresponde una probabilidad de ser seleccionada.

3. Se selecciona la muestra mediante un mecanismo aleatorio que asegura que cada muestra sea
seleccionada con probabilidad asignada.

4. El proceso de selección garantiza que todo elemento del universo tiene una probabilidad mayor
a cero de ser incluido en una muestra.

1.1.4 Marco de muestreo


El marco de muestreo es cualquier material o dispositivo que se utiliza para obtener acceso obser-
vacional (identicar y ubicar) a la población nita de interés. Debe ser posible con la ayuda del
marco identicar y seleccionar una muestra de una manera que respete un diseño de muestreo de
probabilidad, además se debe poder establecer contacto con elementos seleccionados (por teléfono,
visita en casa, cuestionario enviado por correo, entre otros).

2
1.1.5 Diseño de muestreo
Si S es el conjunto de todas las muestras posibles del universo U , se llama diseño de muestra a la
función p (s) denida por:

p: S −→ (0, 1)
si −→ p (si )
En la práctica la función p (s) , que asigna a cada muestra posible s una probabilidad, son originadas
por los mecanismos de selección, por lo que también reciben el nombre de diseños muestrales. Los
dos resultados básicos que determinan el resultado de un estudio de muestreo, son las probabilida-
des de selección de la muestra y el tratamiento de los datos muestrales observados. El primero se
reere al conjunto de probabilidades de selección y se conocen como diseño muestral, el segundo
como el estimador. El conjunto diseño muestral, estimador y las condiciones de tipo operativa y
económica, se conoce como el plan de muestreo.

Dentro de los diseños básicos de muestreo tenemos:


• Diseño Bernoulli (BER)
• Diseño de muestreo aleatorio simple sin reemplazo (MAS)
• Diseño de muestreo aleatorio simple con reemplazo (MCR)
• Diseño r-sistemático (r-SIS)
Se distingues las siguientes probabilidades:
• p (si ) : probabilidad de selección de una muestra.
• pk : probabilidad de selección de un individuo.
• πk : probabilidad de inclusión de un individuo en una muestra.

1.1.6 Estadístico muestral


Para S el conjunto de muestras aleatorias, cada una de ellas con probabilidad p(si ), se llama
estadístico muestral a la función real Q de S, denida por:
Q :S −→ R
si −→ Q(si )
La naturaleza aleatoria del estadístico muestral Q proviene únicamente del hecho de que el conjunto
S sea aleatorio. Para un estadístico muestral Q se denen la esperanza, la varianza y la covarianza
como sigue:
X
E (Q) = p (s) Q (s)
s∈S
X 2
V (Q) = p (s) [Q (s) − E (Q)]
s∈S

3
1.1.7 Estimador de muestreo
Un estimador de muestreo para el parámetro θ, denotado por θ̂ = θ̂ (s), se dene como un estadístico
muestral con dominio sobre el conjunto S de muestras aleatorias. Sobre el estimador se denen la
esperanza, la varianza, el coeciente de variación y el error cuadrático medio como sigue:
  X
E θ̂ = p (s) .θ̂ (s)
s∈S

  X h  i2
V θ̂ = p (s) . θ̂ (s) − E θ̂
s∈S
q
V (θ̂ )
 
CV θ̂ = E (θ̂ )

1.2 Estimador de Horvitz-Thompson para el total poblacional


Horvitz and Thompson (1952), para una población de N elementos, sea s una muestra de tamaño
jo n, seleccionada del universo U = {1, ..., k, ..., N } acorde a un diseño muestral p (s) . Asumiendo
πk > 0 para k ∈ s, el estimador insesgado de Horvitz-Thompson, también llamado π -estimador del
total poblacional de la variable y , es denido como:
X yk
t̂y,π =
s
πk
Si se cumple que πkl > 0 para todas las parejas (k, l) del universo, existe un estimador insesgado
para la varianza dado por:
X X ∆kl yk yl
V̂ (t̂y,π ) =
s
πkl πk πl
Para diseños con tamaño de muestra jo, la varianza estimada del estimador de Horvitz-Thompson
asume la forma:
 2
1 X X ∆kl yk yl
V̂ (t̂y,π ) = − −
2 s
πkl πk πl

1.3 Estimador de Hansen-Hurwitz para el total poblacional


Para valores p1 , p2 , ..., pN conocidos, tales que pk > 0 y U pk = 1, sea pk la probabilidad de
P

selección de un elemento. El proceso consiste en extraer un elemento del universo con probabilidad
pk , reemplazarlo y repetir la selección. De esta manera se extraen m elementos. Naturalmente un
elemento puede estar incluido en la muestra varias veces.

Para este diseño Hansen and Hurwitz (1943) proponen un estimador insesgado para el total, lla-
mado también el estimador p-estimador o simplemente MCR-estimador (MCR por muestreo con
reemplazamiento).

4
m
1 X yki
t̂y,p =
m i=1 pki
donde yki es el valor del k -ésimo elemento en la i-ésima extracción, pk es la probabilidad de selección
del k -ésimo elemento.

Un estimador insesgado para la varianza del p-estimador está dado por:

m  2
 1 X yki
V̂ t̂y,p = − t̂y,p
m (m − 1) i=1 pki
m  2 !
1 X yki 2
= − mt̂y,p
m (m − 1) i=1
pki

1.4 Intervalos de Conanza


Sea t el total poblacional y t̂ su estimador puntual, un intervalo de conanza asintótico para t del
100 (1 − α) % de conanza esta dado por:

q 
t̂ ± Z1− α2 V̂ t̂
Siempre y cuando se cumplan las condiciones:

i) La distribución muestral de t̂ es normal con media t y varianza V t̂ . Así , Z1− α2 es el




percentil de la distribución normal estándar que deja un área de α2 a la derecha de él.

ii) Existe un estimador consistente V̂ t̂ , para la varianza V t̂ .


 

1.5 Diseños muestrales.


1.5.1 Diseño Bernoulli (BER)
Särndal et al. (1992) para los elementos k = 1, ..., N que pertenecen al marco de muestreo, se ja
un valor π, tal que 0 < π < 1, luego para cada elemento k se realiza un experimento aleatorio ξk
de forma independiente con distribución uniforme en el intervalo (0, 1) (ξk ∼ U (0, 1)), así:

Si εk < π entonces k ∈ s

Si εk ≥ π entonces k ∈
/s

Claramente la probabilidad de selección de un individuo es:

p(ξk < π) = π

5
El número de elementos seleccionados (denotado como ns ) es una variable aleatoria con distribución
binomial de parámetros N y π . Además la probabilidad de selección de una muestra de tamaño ns
está dada por:

N −ns
p (S) = ππ...π
| {z } (1 − π) (1 − π) ... (1 − π) = π ns (1 − π)
| {z }
ns veces N −ns veces

Para el diseño de muestreo Bernoulli, las probabilidades de inclusión de primer y segundo orden
están dadas por:
(
π si k = l
πk = π y πkl =
π 2
si k 6= l
De los resultados anteriores se tiene que:
(
π (1 − π) si k = l
∆kl = πkl − πk πl =
0 si k 6= l
El estimador de Horvitz-Thompson para el total está dado por:

X yk
t̂y,π =
s
πk
X yk
=
s
π
1X
= yk
π s

La varianza estimada del estimador esta dada por:

X X ∆kl yk yl
V̂ (t̂y,π ) =
s
πkl πk πl
X ∆kk  yk 2 X X ∆kl yk yl
= +
s
πkk πk πkl πk πl
k6=l
X ∆kk yk 2
 
=
s
πkk πk
X π (1 − π)  yk 2
=
s
π π
(1 − π) X 2
= yk
π2 s
 X
1 1
= −1 yk2
π π s

6
Ejercicio 1.5.1 Por cuestiones practicas asuma que se tiene una población de tamaño 4 y que se
desea implementar un diseño Bernoulli con π = 0.1. Determine todas las posibles muestras que
se pueden derivar del proceso de selección (el soporte), con sus correspondientes probabilidades de
selección.

i Muestra p (si )
1 0 1 4
1
 
φ 10 1 − 10 = 0.6561
2 {1}
3 {2} 1 1
 1 3

1− = 0.0729
4 {3} 10 10

5 {4}
6 {1, 2}
7 {1, 3}
8 {1, 4} 1 2
 1 2

1− = 0.0081
9 {2, 3} 10 10

10 {2, 4}
11 {3, 4}
12 {1, 2, 3}
13 {1, 2, 4} 1 3
 1 1

1− = 0.0009
14 {1, 3, 4} 10 10

15 {2, 3, 4}
1 4 1 0
16
 
{1, 2, 3, 4} 10 1− 10 = 0.0001

Ejercicio 1.5.2 Suponga que se cuenta con una población de tamaño 10 y se desea seleccionar una
muestra mediante un diseño Bernoulli, con π = 0.45
Solución
Tenemos que N = 10 y π = 0.45, así:

k ξk Ik
1 0.799 0
2 0.578 0
3 0.378 1
4 0.155 1
5 0.801 0
6 0.017 1
7 0.104 1
8 0.316 1
9 0.970 0
10 0.491 1

luego, la muestra es conformada por los siguientes individuos:

7
s = {3, 4, 6, 7, 8, 10}

Suponga que una de las características de interés corresponde a la variable Y y que el valor de la
variable para los individuos seleccionados está dada de la siguiente manera:

yk = {52.6, 37.6, 67.2, 41.2, 59, 60.1}

Estime el total y la media poblacional, con sus correspondientes coecientes de variación estimados.

La estimación para el total poblacional mediante el π -estimador es:

1X
t̂y,π = yk
π s
1
= × (52.6 + 37.6 + 67.2 + 41.2 + 59 + 60.1)
0.45
= 706

 X
11
V̂ (t̂y,π ) = −1 yk2
ππ s
 
1 1
− 1 52.62 + 37.62 + 67.22 + 41.22 + 592 + 60.12

=
0.45 0.45
 
1 1
= − 1 (17486.81) = 47495.04
0.45 0.45

q 
V̂ (t̂y,π )
Cve(t̂y,π ) =   × 100%
t̂y,π
√ !
47495.04
= × 100%
706
= 30.87%

La estimación para la media poblacional mediante el π -estimador está dada por:


t̂y,π 706
ȳˆ = N = 10 = 70.6
 
 t̂ 1
 47495.04
V̂ ȳˆ = V̂ y,π N = N 2 V̂ t̂y,π = 102 = 474.9504
q !
V̂ (ȳˆ)
√ 
474.9504
Cve = ȳˆ
× 100% = 70.6 × 100% = 30.86%

8
1.5.2 Diseño de muestreo aleatorio simple sin reemplazo (MAS)
Según Särndal et al. (1992), el muestreo aleatorio simple es el más popular y el más usado de los dis-
eños en poblaciones nitas. Consiste en seleccionar sin reemplazamiento y de forma equiprobable un
valor establecido de n elementos, en igual número de extracciones del universo U = {1, ..., k, ..., N }.

1. Se selecciona el 1er elemento de N , con probabilidad N.


1

2. Se selecciona el 2do elemento de N − 1 restantes, con probabilidad N −1 .


1

..
.

n. Se selecciona el n-ésimo elemento de los N − n + 1 restantes, con probabilidad N −n+1 .


1

Bajo este esquema de muestreo las probabilidades de selección y las probabilidades de inclusión
están dadas de la siguiente forma:

 1  si s es de tamaño n

 N



p(s) = n



0 en otro caso

 
N −1
X n−1 n
πk = p(s) =   = para k = 1, ..., N
N N
k∈s
n
 
N −2
X n−2 n(n − 1)
πkl = p(s) =   = para k 6= l = 1, ..., N
N N (N − 1)
k,l∈s
n

∆kl = πkl − πk πl
n (N − n)

− 2
 si k 6= l
= N (N − 1)
 n (N − n)

si k = l
N2
− 1 f (1 − f ) si k 6= l

= N −1
f (1 − f ) si k = l

con f = N.
n

9
Mecanismos de Selección

De acuerdo con Bautista (1988), para un universo con N elementos y una cantidad n preestable-
cida, denominada tamaño de muestra, se escogen n elementos del universo sin reemplazamiento y
en forma tal que en cada extracción los elementos presentes en el universo tengan igual probabilidad
de selección.

Método coordinado negativo

Un primer método de selección de elementos, que conducen a un diseño MAS, es el conocido como
método coordinado negativo, que consiste en realizar N ensayos con distribución de probabilidad
uniforme (0, 1), asignarlos a cada uno de los elementos del universo, ordenar los elementos con
respecto a los valores aleatorios de menor a mayor y considerar como muestra los elementos corre-
spondientes a los n valores aleatorios más pequeños. Este método presenta algunos inconvenientes
con los valores aleatorios repetidos y de otra parte, para universos muy grandes, el proceso de
ordenar datos puede llegar a ser consumidor de tiempo y espacio memoria del computador.

Método Fan-Muller

El algoritmo es el siguiente:
Paso 1: Realice un experimento aleatorio ξk uniforme (0, 1).

Paso 2: Determine Ck = N −(k−1) ,


n−nk
donde nk es igual a la cantidad de objetos seleccionados en los
k − 1 ensayos anteriores.

Paso 3: Decida: si ξk < Ck entonces el elemento k pertenece a la muestra.

Paso 4: Detener el proceso cuando nk = n.

El estimador de Horvitz-Thompson para el total está dado por:


X yk
t̂y,π =
s
πk
X yk
= n
s N
NX
= yk
n s
Un estimador insesgado para la varianza del estimador de Horvitz-Thompson es dado por:
 N2  n 2
V̂ t̂y,π = 1− Sys
n N
donde:

10
yk2 − nȳ 2
P
2 s
Sys =
n−1
Ejercicio 1.5.3 Suponga que por cuestiones practicas se cuenta una población de tamaño 6, de
la cual se desea seleccionar una muestra de tamaño 3, mediante un diseño de muestreo aleatorio
simple sin reemplazo, utilizando el mecanismo de selección Fan-Muller

Tenemos que N = 6 y n = 3, luego:

k Ck ξk Ik (s) nk
1 0.5 0.673 0 0
2 0.6 0.476 1 1
3 0.5 0.385 1 2
4 0.33 0.451 0 2
5 0.5 0.392 1 3

por consiguiente los individuos seleccionados son:

s = {2, 3, 5}

Suponga que una característica medida a los individuos seleccionados, está dada por: yk = {20, 8, 35},
es decir, y2 = 20, y3 = 8, y5 = 35. Estime el total poblacional, mediante el π -estimador, con su
correspondiente error estándar y coeciente de variación.
NX 6
t̂y,π = yk = 3 × (20 + 8 + 35) = 126
n s

 N2  n 2
V̂ t̂y,π = 1− S
n N ys
62 3
= 1− (183) = 1098
3 6
q  √
e.e = V̂ t̂y,π = 1098 = 33.14
q !
V̂ (t̂y,π ) 33.14

Cve = t̂y,π
× 100% = 126 × 100% = 26.3%

Tamaño de muestra para la estimación de la media, mediante un diseño


de muestreo aleatorio simple sin reemplazo
• Tamaño de muestra cuando se desea controlar el error máximo absoluto
Si ȳ se usa como estimación de µ, podemos tener (1 − α) .100% de conanza de que el error no
excederá una cantidad especica  cuando el tamaño de muestra sea:

11
n0
n=
1 + N1 n0

2 2
z1− αS
yU
2
n0 =
δ2
donde:

z1− α2 : es el correspondiente percentil de la distribución normal estándar, que deja un área de 1 − α2


a su izquierda.

δ : es el error máximo absoluto en la estimación de la media (equivalente a la mitad del intervalo


de conanza establecido)

2
SyU : es la varianza poblacional de la característica de interés.

Si N es sucientemente grande, o el muestreo es con reemplazo, n puede aproximarse por n0 .

• Tamaño de muestra cuando se desea controlar el error máximo relativo


No siempre el interés del proceso de estimación está centrado en controlar el error máximo absoluto,
además no siempre es posible conocer esta medida sobretodo cuando se tiene poca experiencia. En
muchos casos es más conveniente tratar de controlar el error máximo relativo. Una justicación,
aparentemente razonable, considera que el establecimiento del error como una cantidad absoluta no
puede suponerse que sea suciente, puesto que al no compararse esta cantidad con otra de interés,
no puede armarse que sea grande o pequeña. Esto es especialmente valido cuando se desconoce en
alto grado la distribución poblacional de la variable y el resultado de la muestra se vuelve bastante
incierto.

El error relativo se dene como:

ȳs − ȳU δ
ε= = , implica que δ = ȳU ε
ȳU ȳU
Reemplazando δ en la expresión obtenida anteriormente para el tamaño de muestra, se obtiene que:
n0
n=
1 + N1 n0

2 2
z1− α CVy
2
n0 =
ε2
donde:

CVy : es el coeciente de variación de la variable de interés en la población.

12
ε : es el error máximo relativo admisible.

Si N es sucientemente grande, o el muestreo es con reemplazo, n puede aproximarse por n0 .

Procedimientos sugeridos para la estimación previa de la varianza


poblacional
Según Ospina (2001), el desconocimiento de la varianza poblacional es el principal problema a
enfrentar cuando se desea estimar un tamaño de muestra y se desea controlar el error máximo
absoluto. En la practica existen varios caminos para estimar esta varianza, los cuales se describen
a continuación.

1. Revisión bibliográca de estudios anteriores sobre la misma población o poblaciones similares.


Si en tales estudios se presentan estimaciones de varianza, el buen juicio del investigador decidirá
cuál de las estimaciones es más apropiada. Es posible que ella necesite ajustarse teniendo en cuenta
el tipo de variable analizada, el tiempo transcurrido y el hecho de que la población estudiada sea
la misma u otra similar.

2. Selección de una muestra piloto n1 y con esta estimar la varianza poblacional. Si la muestra no
se selecciona en forma completamente aleatoria, los elementos que hacen parte de ella no deben ser
parte de la muestra denitiva. Muchas veces los elementos pueden seleccionarse intencionalmente
atendiendo criterios de expertos en el tema.

3. Determinación tentativa, o con base en supuestos adecuados, de la estructura de la población


para escoger la distribución teórica que mejor podría representarla (Normal, exponencial, uniforme,
etc.). La identicación de una distribución adecuada permite hacer uso de sus propiedades para
tener una estimación más realista de la varianza. Cuando el desconocimiento es total se debe re-
currir a la distribución uniforme.

Tamaño de muestra para la estimación de la proporción mediante un


diseño de muestreo aleatorio simple sin reemplazo
Como la proporción es un caso particular de la media, por consiguiente todo el desarrollo llevado a
cabo para determinar el tamaño de muestra para la media es igualmente valido para proporciones.
No obstante, debe tenerse en cuenta un aspecto que corrientemente es ignorado y que es la base
para la determinación del tamaño de muestra por el método tradicional: la proporción muestral
debe seguir aproximadamente una distribución normal. Para que ello ocurra deben garantizarse
los valores mínimos que n puede tomar. En caso de que ello no ocurra, es necesario recurrir a la
distribución hipergeométrica o binomial para encontrar el tamaño de muestra apropiado. Para nes
prácticos se asumirá que la condición de normalidad se cumple, recurriendo entonces a las formulas
ya utilizadas para el caso de medias y totales.

13
• Tamaño de muestra cuando se desea controlar el error máximo absoluto
Siguiendo la misma metodología usada para medias y totales se llega a:
2
z1− αPQ
2

n= δ2 ; Q=1−P
2
N −1 1 z1− α2 P Q
N + N δ2
Si el muestreo es con reemplazo o la población es lo sucientemente grande para ser asumida como
innita, la formula se reduce a:
2
z1− αPQ
2
n0 =
δ2
El problema de la estimación del tamaño de muestra en proporciones es generalmente más fácil de
solucionar que en el caso de la media, ya que la proporción es un número real entre 0 y 1, lo cual
permite, en el peor de lo casos, establecer un tamaño de muestra suciente, cuando la proporción
se hace igual a 12 , valor con el cual se tiene un tamaño de muestra máximo. Esto implica que en
ningún caso el tamaño de muestra debe ser mayor que:
2
z1− α
2
n0 =
4δ 2
• Tamaño de muestra cuando se desea controlar el error máximo relativo
En el caso de proporciones, controlar el error máximo relativo es de gran importancia cuando existe
un desconocimiento considerable de la proporción poblacional. En esas situaciones establecer un
error máximo absoluto puede ser inconveniente pues se puede fallar fácilmente por exceso o por
defecto, originando valores para n demasiado grandes o pequeños (en este último caso se puede
originar, eventualmente, intervalos de conanza inconsistentes, donde el límite inferior puede ser
negativo). En el caso del error relativo esto no ocurre siempre que se tenga cuidado con la esti-
mación previa de P .

Similar al desarrollo utilizado para medias y totales se tiene que:


2
z1− αQ
2

n= ε2 P
2
z1− αQ
2
1+
N ε2 P
Desafortunadamente este tamaño de muestra es muy sensible a ligeros cambios en la estimación
previa de P , lo que implica hacer un esfuerzo adicional para tener estimaciones validas de este
parámetro. Si el tamaño de la población es muy grande, la anterior formula puede aproximarse por:
2
z1− αQ
2
n0 =
ε2 P

14
Debe tenerse mayor cuidado si se carece de una muestra piloto que proporcione información adi-
cional. En este caso debe recurrirse a fuentes secundarias. Es posible que se conozca la proporción
aproximada en comunidades similares. Si es así, sería necesario considerar el menor valor de todas
las proporciones conocidas, ya que el tamaño de muestra en este caso es decreciente.

1.5.3 Diseño de muestreo aleatorio simple con reemplazo (MCR)


Särndal et al. (1992) considérese una población U de tamaño N , de la cual se desea extraer una
muestra con reemplazo de tamaño m a partir de m extracciones independientes tales que en cada
extracción, cada uno de los N elementos tiene la misma probabilidad de selección (1/N ). Como
cada elemento seleccionado es regresado a la población, entonces, cada elemento participa en cada
extracción, implicando que este pueda ser extraído o seleccionado para la misma muestra más de una
vez. De esta forma la probabilidad de que un elemento sea seleccionado r−veces en m−extracciones
es:
   r  m−r
m 1 1
P r (R = r) = 1−
r N N
En particular, la probabilidad de que un elemento en particular no sea seleccionado esta dada por:
 m
1
P r (R = 0) = 1−
N
De donde se puede determinar las probabilidades de inclusión de primer y segundo orden, de un
elemento en la muestra como:
 m
1
πk = 1 − 1 − para k = 1, ..., N
N
 m  m
1 2
πkl =1−2 1− + 1− para k 6= l = 1, ..., N
N N
Mecanismo de selección.
De acuerdo con Bautista (1988) para valores p1 , p2 , ..., pN conocidos tales que pk > 0 y U pk = 1,
P

sea pk la probabilidad de selección de un elemento el mecanismo consiste en extraer un elemento


del universo con probabilidad pk , reemplazarlo y repetir la selección con la misma probabilidad de
selección. De esta manera se extraen m elementos. Para este diseño se plantean dos muestras difer-
entes, la primera llamada muestra ordenada (s0 ) y conformada por los m elementos seleccionados y
en la que un mismo elemento puede aparecer más de un vez. La segunda muestra sin repeticiones
(s) y en la que aparecen los ns ≤ m elementos diferentes entre los m seleccionados, en este diseño
el tamaño ns es aleatorio.

Un método de selección que garantiza los supuestos de probabilidad planteados para este diseño es
el conocido método acumulativo total. Este método consiste en acumular las probabilidades y

15
construir intervalos de selección de acuerdo a la diferencia de acumulados. Se realizan m experi-
mentos, v1 , v2 , ..., vm aleatorios con distribución uniforme (0, 1) y cada uno de ellos se asigna al
intervalo de selección correspondiente según su tamaño. Un elemento es incluido en la muestra
tantas veces como resultados vk haya sido asignado al intervalo correspondiente.

Para el diseño de muestreo aleatorio simple con reemplazo y pk = 1


N se tiene que:

El estimador de Hansen-Hurwitz para el total está dado por:

m
1 X yki
t̂y,p =
m i=1 pki
m
1 X yki
=
m i=1 N1
m
NX
= yki
m i=1
NX
= yk
m s

La varianza estimada del estimador está dada por:


m  2
 1 X yki
V̂ t̂y,p = − t̂y,p
m (m − 1) i=1 pki
m  2
1 X yki
= 1 − N ȳs
m (m − 1) i=1 N
m
1 X 2
= (N yki − N ȳs )
m (m − 1) i=1
m
N2 X 2
= (yki − ȳs )
m (m − 1) i=1
 2 m
N 1 X 2
= (yki − ȳs )
m m − 1 i=1
N2 2
= S
m ys
Tamaño de muestra mediante un diseño MCR
Las expresiones para el tamaño de muestra mediante un diseño de muestreo aleatorio simple con
reemplazo, son las que fueron recalcadas en los respectivos casos del MAS cuando el tamaño pobla-
cional era considerado como grande. Cuando se desea controlar el error máximo relativo, para un
nivel de conanza establecido, estas expresiones son:

16
 2
z α S2
 1− 2 yU si el parámetro a estimar es la media (o el total)


m = n0 = 2
δ2
z αPQ
 1− 2 si el parámetro a estimar es la proporción


δ2
Si se desea controlar el error máximo relativo para un nivel de conanza establecido, se tiene que:
 2
z α Cv 2
 1− 2 si el parámetro a estimar es la media (o el total)


m = n0 = 2
2
z αQ
 1− 2 si el parámetro a estimar es la proporción


δ2 P
Ejercicio 1.5.4 Suponga que por cuestiones practicas se cuenta una población de tamaño 10, de
la cual se desea seleccionar una muestra de tamaño 4, mediante un diseño de muestreo aleatorio
simple con reemplazo.

Tenemos que N = 10 y m = 4. Como se desea implementar un diseño de muestreo aleatorio simple


con reemplazo, se tiene que pk = N1 = 10
1
= 0.1.

Luego para la selección de la muestra se utiliza método acumulativo total, como se muestra a con-
tinuación:

Como el tamaño de muestra es m = 4, se generan 4 números aleatorios con distribución uniforme


en el intervalo (0, 1) y determinamos en que intervalo de selección caen dichos números aleatorios.

ξk = {0.554, 0.462, 0.114, 0.563}

k pk pk acumulado Intervalo de selección ξk


1 0.1 0.1 [0.0001, 0.1000]
2 0.1 0.2 [0.1001, 0.2000] 0.114
3 0.1 0.3 [0.2001, 0.3000]
4 0.1 0.4 [0.3001, 0.4000]
5 0.1 0.5 [0.4001, 0.5000] 0.462
6 0.1 0.6 [0.5001, 0.6000] 0.554; 0.563
7 0.1 0.7 [0.6001, 0.7000]
8 0.1 0.8 [0.7001, 0.8000]
9 0.1 0.9 [0.8001, 0.9000]
10 0.1 1 [0.9001, 1.0000]

Por consiguiente los individuos seleccionados son:

s = {6, 5, 2, 6}

17
Suponga que una característica medida a los individuos seleccionados, está dada por: y2 = 65, y5 =
68, y6 = 63. Estime el total poblacional, mediante el p-estimador, con su correspondiente error
estándar y coeciente de variación.

NX
t̂y,p = yk
m s
10
= × [65 + 68 + (2 × 63)] = 647.5
4

 N2 2
V̂ t̂y,p = S
m ys
102
= × (5.68) = 142
4
donde:
yk2 − nȳ 2
P
2 s (652 +682 +632 +632 )−(4)(64.752 )
Sys = = 4−1 = 5.68
n−1
65+68+63+63
ȳ = 4 = 64.75

Luego:
 q  √
e.e
ˆ t̂y,p = V̂ t̂y,p = 142 = 11.92
q !
 V̂ (t̂y,p ) 11.92

Cve t̂y,p = t̂y,p
× 100% = 647.5 × 100% = 1.84%

1.5.4 Diseño r−Sistemático (SIS)


En algunas ocasiones cuando no se dispone de un marco de muestreo, por lo menos no de forma im-
plícita, o cuando el marco esta ordenado de forma particular, con respecto a los rótulos del mismo,
es posible utilizar el diseño de muestreo sistemático como una opción para la selección de muestras.
La característica más particular de este diseño de muestreo es que todas las unidades se suponen
enumeradas de 1 a N , al menos implícitamente, y se tiene conocimiento de que la población se
encuentra particionada en a grupos poblacionales latentes.

Mecanismo de selección:

Según Bautista (1988) para valores establecidos de antemano n y r, llamados tamaño de muestra
y cantidad de replicas, tales que N = n.ar + c, con c < a y a un número entero, se seleccionan
mediante un diseño MAS, r elemetos r1 , r2 , ..., rr , del conjunto 1, ..., a. A estos valores se les de-
nominan arranques aleatorios y el valor a se llama intervalo muestral.

18
La muestra queda entonces conformada por:

s = {k : k = ri + (j − 1)a; i = 1, ..., r; j = 1, ..., n/r}


Se deduce entonces que el tamaño de muestra es jo e igual a n si c = 0 y es aleatorio entre n y
n + c si c > 0.

Ejercicio 1.5.5 Para una población de tamaño N = 20, seleccione una muestra aleatoria de
tamaño n = 12, mediante un diseño r-sistemático, con 3 arranques.

Tenemos que: N = 20, n = 12 y r = 3, lego debemos determinar la amplitud del intervalo de


selección, para ello realicemos los siguientes cálculos:
n 12
= =4
r 3

N 20
a= k nr k = 4 = 5

n×a 12×5
c=N− r = 20 − 3 =0

Por consiguiente debemos seleccionar 3 individuos de 5 en total, mediante un diseño MAS, para lo
cual se va implementar el mecanismo de selección coordinado negativo. como se muestra a conti-
nuación:

k ξk k ξk Ik (s)
1 0.922 2 0.21 1
2 0.211 3 0.386 1
=⇒
3 0.386 4 0.713 1
4 0.713 5 0.920 0
5 0.920 4 0.922 0

Luego los individuos seleccionados (arranques) en el intervalo de selección son:

sr = {2, 3, 4}

Por tanto la muestra seleccionada queda conformada por los siguientes individuos:

s = {2, 7, 12, 17, 3, 8, 13, 18, 4, 9, 14, 19}


 
a
Para el caso mas sencillo, cuando c = 0, el conjunto de muestras posibles esta conformada por
r
combinaciones posibles, cada una de ella con igual probabilidad. De acuerdo a las propiedades de
esta estrategía de muestreo, se deduce entonces que en el diseño r-sistemático las probabilidades de
inclusión de primer y segundo orden son respectivamente:

19
r
πk =
a
 r
 si l = k + a(j − 1); j = 1, 2, ..., nr
a



πkl =
r (r − 1)
si l 6= k + a(j − 1); j = 1, 2, ..., nr



a (a − 1)

Nótese que si se tiene una única réplica, r = 1, entonces πkl = 0 para una gran cantidad de parejas,
o cual índica de acuerdo a la teoria general que no se tendrá estimativa de la varianza para una
gran cantidad de casos, ni se podrá asegurar que el estimador de la varianza será insesgado.

El estimador de Horvitz-Thompson para el total se deja escribir como:

X yk
t̂y,π =
s
πk
X yk
= r
s a
r
a XX
= yk
r i=1 s
i
r
aX
= ti
r i=1

Para una mejor comprensión de las particularidades de este diseño vale la pena partir del siguiente
esquema, en el que los datos se colocan consecutivamente en la, de forma tal que las columnas
constituyen las posibles muestras a obtener. Son a columnas de las que se seleccionan r mediante
un diseño MAS (N = a, n = r).

U1 U2 ··· Ur ··· Ua
y1 y2 ··· yr ··· ya
ya+1 ya+2 ··· yr+a ··· y2a
.. .. .. .. .. ..
. . . . . .
y(n/r−1)a+1 y(n/r−1)a+2 ··· y(n/r−1)a+r ··· y(n/r)a
t1 t2 ··· tr ··· ta
De esta forma la varianza del estimador está dada por:

 a2  r 2
V t̂y,π = 1− S
r a tUA
donde

2 1 X 2
StU = (ti − t̄UA )
A
a−1
UA

20
UA = {U1 , U2 , ..., Ua }
La varianza estimada del estimador para r > 1 tiene la siguiente forma:

 a2  r 2
V̂ t̂y,π = 1− S
r a tSA
donde

2 1 X 2
StS = (ti − t̄SA )
A
r−1
SA

SA = {Ur1 , Ur2 , ..., Urr }


Para el caso de r = 1 no se tiene un estimador insesgado para la varianza, en este caso se propone
entonces, utilizar como estimador de la varianza, el estimador propuesto para el caso del diseño
MAS que presenta algo de sesgo pero en general sobrestima la varianza del estimador produciendo
intervalos de conanza mayores a los necesarios.

Ejercicio 1.5.6 Suponga que a los individuos seleccionados en el ejercicio anterior se les midió
la siguiente característica de interés (Y ). Estime el total poblacional con su respectiva varianza
estimada.
r 1 2 3
k 2 7 12 17 3 8 13 18 4 9 14 19
yk 9.11 12.45 10.63 9.74 10.62 9.40 9.57 10.55 10.30 8.82 13.31 7.18
ti 41.93 40.14 39.61

Tenemos que: a = 5, r = 3, por consiguiente la estimación del total mediante el π -estimador está
dada por:
r
aX 5
t̂y,π = ti = 3 × (41.93 + 40.14 + 39.61) = 202.8
r i=1

La varianza estimada:
 a2  r 2 52 3

V̂ t̂y,π = 1− S = 1− (1.48) = 4.93
r a tSA 3 5

donde:

2
StSA
= 1.48, es la varianza de los totales (ti )

21
1.5.5 Muestreo estraticado
Bautista (1988). El muestreo estraticado no es un diseño propiamente dicho, en el sentido de que
no se trata de una forma especial de selección que genere probabilidades p(s) de selección especícas.
El muestreo estraticado es una combinación de diseños que tienen en cuenta las diferencias que se
presentan entre grupos poblacionales. Su eciencia se obtiene precisamente de considerar en forma
separada las particularidades de cada grupo. El principio que rige el muestreo estraticado son:

• Se cuenta con una partición del universo. Es decir hay H estratos, ninguno vacio, no se
interceptan y su unión constituye el universo.

• En cada estrato h se aplica en forma independiente un diseño ph (s) para extraer la muestra
sh , realizar las estimaciones t̂yh con varianza Vh (t̂yh ).

• El estimador del total es entonces la suma de los totales estimados en los estratos y debido a
la independencia en la selección, la varianza del estimador es la suma de las varianzas en los
estratos.

La razón para proceder a un muestreo estraticado radica en que los grupos, es decir los estratos,
presentan características tan diferentes que merecen la consideración en forma separada. La uti-
lización del muestreo estraticado signica además que se cuenta con información auxiliar que
permita detectar esas diferencias y dividir la población en estratos.

Sea entonces una partición U = {U1 , U2 , ..., Uh , ..., UH } , es decir un conjunto de subconjuntos que
cumple que:
• Uh 6= φ

• Uh ∩ Uj = φ para todo h 6= j = 1, ..., H


H
[
• Uh .
h=1

Para cada subconjunto Uh de tamaño Nh , denominado estrato, se propone un diseño ph (·), un


tamaño nh , y un estimador t̂h para el total del estrato. Se realiza entonces la selección en cada
estrato en forma independiente, la muestra queda conformada por s = s1 ∪ s2 ∪ . . . ∪ sH , donde el
tamaño de la muestra y el tamaño poblacional estan dados respectivamente por:
H
X H
X
n= nh y N = Nh
h=1 h=1
El estimador del total en muestreo estraticado es simplemente la suma de los estimadores de los
totales de los estratos, de igual forma, la varianza y la varianza estimada del estimador, es la suma
de las respectivas varianzas del estimador en los estratos:
H
X
• t̂y = t̂yh
h=1

22
H
 X 
• V t̂y = V t̂yh
h=1

H
 X 
• V̂ t̂y = V̂ t̂yh
h=1

El diseño estraticado ESTMAS


Un caso particular del diseño estraticado es aquel en el que todos los diseños p1 (·) , p2 (·) , . . . , pH (·)
son aplicaciones independientes de un plan MAS de muestreo de tamaño nh en Nh . Para este diseño
conocido como ESTMAS se tiene que la estimación del total y la varianza estimada del estimador
del total son respectivamente:
H
X
t̂y,π = Nh ȳsh ,
h=1
 
H N2 1 − nh
 X h Nh 2
V̂ t̂y,π = Sys
nh h
h=1
donde:

2 1 X 2
Sys = (yk − ȳsh )
h
nh − 1 s
h

Tamaño de muestra en el muestreo estraticado para medias y totales

• Si los costos son desconocidos o se asumen iguales, se recomienda tomar n de la siguiente


forma:

H
!2
X
Nh Sh
h=1
n= H
X
N 2V + Nh Sh2
h=1
2
δ
donde: V = 2
z1− α
2

Nh Sh
nh = n H
(Asignación de Neyman)
X
Nh Sh
h=1

23
• Si las varianzas por estrato se consideran parecidas generalmente se toma:

H
X
Nh Sh2
h=1
n= H
X
N 2V + Nh Sh2
h=1
y

Nh
(Asignación Proporcional)
nh = n
N
Para estimar tamaños de muestra en un muestreo ESTMAS para proporciones, simplemente se
toman los resultados anteriores y hacemos Sh2 = Ph (1 − Ph ).

Ejercicio 1.5.7 En un cultivo de 310 salmones, se desea estimar la talla media de salmones que
se encuentran distribuidos en tres estanques, asuma que los estanques representan estratos y calcule
el tamaño de muestra total y por estrato si se desea una conanza del 95% y un error no mayor a
2 centímetros. Utilice la asignación de Neyman y la asignación proporcional al tamaño, la infor-
mación requerida se muestra en la siguiente tabla:

Estanque Nh Sh2
1 155 25
2 62 225
3 93 100
Total 310
Tenemos que:

1 − α = 0.95 ⇒ Z1− α2 = Z0.975 = 1.96, δ = 2.

Así:
δ2 22
V = 2 = 1.962 = 1.04
z1− α
2

Para la asignación de Neyma tenemos:

H
!2
X
Nh Sh
2
h=1 [(155 × 5) + (62 × 15) + (93 × 10)]
n= = = 55.36 ≈ 56
H
X (3102 × 1.04) + [(155 × 25) + (62 × 225) + (93 × 100)]
N 2V + Nh Sh2
h=1

24
Nh Sh
nh = n H
X
Nh Sh
h=1
 
155 × 5
n1 = 56 × = 16.47 ≈ 16
(155 × 5) + (62 × 15) + (93 × 10)
 
62 × 15
n2 = 56 × = 19.76 ≈ 20
(155 × 5) + (62 × 15) + (93 × 10)
 
93 × 10
n3 = 56 × = 19.76 ≈ 20
(155 × 5) + (62 × 15) + (93 × 10)

25
Referencias
Barcaroli, G., D. Pagliuca, and E. Willighagen (2012). Optimal stratication of sampling frames
for multipurpose sampling surveys. Package SamplingStrata , 823.

Bautista, L. L. (1988). Diseños de Muestreo Estadístico. Universidad Nacional de Colombia. Bogotá.

Brewer, K. (1963). A model of systematic sampling with unequal probabilities. Australina Journal
of Statistics , 93105.
Brewer, K. (1975). A simple procedure for π pswor. Australian Journal of Statistics , 166172.

Corneld, J. (1951). The determination of sampling size. American journal of public health , 654
661.

Fan, C., M. Muller, and I. Rezucha (1962). Development of sampling plans by using sequential
(item by item) selection techniques and digital computer. Journal of the American Statistical
Association 57 , 387402.
Gambino, J. G. (2015). Functions for pps sampling. Package pps , 28.

Gentleman, R., R. Ihaka, D. Bates, et al. (1993). The r project for statistical computing. URL:
http://www. r-project. org/254 .
Gutiérrez, H. (2010). Estrategias de Muestreo. Diseño de encuesta y estimación de parámetros.
Universidad Santo Tomas, Bogotá.

Gutiérrez, H. A. (2009). Selection of samples and parameter estimation in nite population. Package
TeachingSampling , 475.
Hansen, M., W. Hurwitz, and W. Madow (1953). Sample survey methods and theory. John Wiley
and Sons .
Hansen, M. H. and W. N. Hurwitz (1943). On the theory of sampling from nite populations.
Annals of Mathematical Statistics , 333362.
Horvitz, D. G. and D. J. Thompson (1952). A generalization of sampling without replacement from
a nite universe. Journal of the American Statistical Asocciation , 663685.

Knottnerus, P. (2003). Sample Survey Theory. Springer-Verlag, New York.

Lahiri, D. (1951). A method for sample selection providing unbiased ration estimates. Bulletin of
the International Statistical Institute , 133140.
Lohr, S. (2000). Design and Analysis. Thompson.

Lumley, T. (2014). analysis of complex survey samples. Package survey , 4562.

Manitz, J. (2013). Survey sampling procedures. Package samplingbook , 325.

26
Matei, A. and Y. Tillé (2012). Survey sampling. Package Sampling , 475.

Ospina, D. (2001). Introdución al muestreo. UNIBIBLOS.

Särndal, C. E., J. H. Wretman, and C. M. Cassel (1992). Foundations of Inference in SurveySam-


pling. Wiley New York.
Sunter, A. (1977). List sequential sampling with equal or unequal probabilities without replacement.
Applied Statistics , 261268.
Vries, A. D. (2013). Tools to manipulate survey data. Package Surveydata .

Yates, F. and P. Grundy (1953). Selection without replacement from within strata with probability
proportional to size. Journal of the Royal Statistical Society. Series B (Methodological) , 253261.

27

Vous aimerez peut-être aussi