Académique Documents
Professionnel Documents
Culture Documents
A mis nias
CONTENIDO
INTRODUCCIN ............................................................................................................................. xi
Los ms de 150 problemas que contiene el texto, as como los conceptos tericos, se
dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o
cursan la materia de muestreo estadstico. El libro es tambin de utilidad para los profesionales de
la economa, biologa, botnica, zoologa, marketing, auditora, agronoma, comercio, transporte,
medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se
aplican las tcnicas de muestreo.
OBJETIVOS
1. Presentar el concepto de muestreo estadstico en poblaciones finitas.
2. Distinguir claramente los conceptos de poblacin, marco y muestra.
3. Introducir el concepto de estimador y su distribucin en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisin de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisin de los estimadores.
8. Comprender el concepto de estimacin mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimacin por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimacin por intervalos de
confianza.
11. Realizar la estimacin mediante intervalos de confianza.
2 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Conceptos iniciales en la teora del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisin de los estimadores. Comparacin de estimadores.
4. Estimacin por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.
Muestreo estadstico: conceptos, estimadores y su distribucin 3
Al hablar de mtodos de muestreo nos referimos al conjunto de tcnicas estadsticas que estudian
la forma de seleccionar una muestra lo suficientemente representativa de una poblacin cuya
informacin permita inferir las propiedades o caractersticas de toda la poblacin cometiendo un
error medible y acotable. A partir de la muestra, seleccionada mediante un determinado mtodo
de muestreo, se estiman las caractersticas poblacionales (media, total, proporcin, etc.) con un
error cuantificable y controlable. Las estimaciones se realizan a travs de funciones matemticas
de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la
variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o
errores cuadrticos medios de los estimadores, que miden la precisin de stos. La metodologa
que permite inferir resultados, predicciones y generalizaciones sobre la poblacin estadstica,
basndose en la informacin contenida en las muestras representativas previamente elegidas por
mtodos de muestreo formales, se denomina inferencia estadstica.
Es muy importante tener en cuenta que para medir el grado de representatividad de la
muestra es necesario utilizar muestreo probabilstico. Diremos que el muestreo es probabilstico
cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible
seleccionar, esto es, cuando la seleccin de muestras constituya un fenmeno aleatorio
probabilizable. Dicha seleccin se verificar en condiciones de azar, siendo susceptible de
medida la incertidumbre derivada de la misma. Esto permitir medir los errores cometidos en el
proceso de muestreo (a travs de varianza u otras medidas estadsticas).
Existen varios tipos de muestreo, dependiendo de que la poblacin estadstica sea
finita o infinita, materia sobre la que existe amplia literatura estadstica, pero nosotros
consideraremos solamente el muestreo en poblaciones finitas. La poblacin finita inicial que
se desea investigar se denomina poblacin objetivo, pero el muestreo de toda la poblacin objetivo
no siempre es posible debido a diferentes problemas que no permiten obtener informacin de
algunos de sus elementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar,
ausencias, etc.), con lo que la poblacin que realmente es objeto de estudio o poblacin investigada
no coincide con la poblacin objetivo.
Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo
denominado marco que tericamente debiera coincidir con la poblacin objetivo. Un marco ser
ms adecuado cuanto mejor cubra la poblacin objetivo, es decir, cuanto menor sea el error de
cobertura. Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas
unidades, las duplicaciones de otras y la presencia de unidades extraas y otras impurezas que
obligan a su depuracin (depuracin de marcos imperfectos). Idealmente podra conseguirse la
poblacin objetivo eliminando del marco las unidades errneamente incluidas en l (unidades
extraas, duplicaciones, etc.) y aadiendo las omisiones. Asimismo, tambin sera una meta que al
eliminar del marco las unidades de las que no se puede obtener informacin (inaccesibles, ausentes,
no colaboradoras, etc.) se obtuviera la poblacin investigada. El marco puede estar constituido por
unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la
unidad de muestreo ms sencilla posible y una unidad compuesta (o primaria) est formada por
varias unidades elementales. Como en la prctica no es fcil disponer de marcos de unidades
elementales, se intenta conseguir marcos de unidades compuestas que son ms accesibles. Por
ejemplo, para estudiar habitantes de una regin es ms fcil disponer de un listado de hogares que de
un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de
varios individuos) y despus se estudian las propiedades de los individuos con tcnicas adecuadas.
4 Muestreo estadstico. Conceptos y problemas resueltos
Consideramos los sucesos elementales asociados a un fenmeno o experimento aleatorio dado S1,
S2, ..., Sm, entendiendo por sucesos elementales los ms simples posibles, es decir, aquellos que no
pueden ser descompuestos en otros sucesos. El conjunto {S1, S2, ..., Sm} se denomina espacio
muestral asociado al fenmeno o experimento. Si consideramos como fenmeno o experimento
la extraccin aleatoria de muestras dentro de una poblacin por un procedimiento o mtodo
de muestreo dado, podemos considerar como sucesos elementales las muestras obtenidas,
constituyendo el conjunto de las mismas el espacio muestral.
Habitualmente en los mtodos de muestreo comunes se consideren iguales muestras con
los mismos elementos, aunque estn colocados en orden diferente (el orden de colocacin no
interviene). Una muestra de tamao n extrada de una poblacin U = {U1, U2, ..., UN} de tamao
N mediante un mtodo de muestreo dado, suele denotarse como s = {u1, u2, ..., un}. De esta forma,
El conjunto de las Nn muestras posibles de tamao n que se pueden formar con los N
elementos de la poblacin U es el espacio muestral S.
Evidentemente, para establecer la probabilidad de todas las muestras posibles
derivadas de un procedimiento de muestreo dado, ser necesario conocer ese conjunto de
muestras; es decir, ser necesario delimitar tanto el mtodo de muestreo como el espacio
muestral derivado del mismo. Un procedimiento, o mtodo, de muestreo es sencillamente un
proceso o mecanismo mediante el que se seleccionan las muestras de modo que cada una tenga
una determinada probabilidad de ser elegida. Por tanto, el mtodo aleatorio empleado para
seleccionar la muestra define en el espacio muestral S una funcin de probabilidad P tal que:
P(Si) 0 i
P(S ) = 1
S
i
Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi
i = 1, 2, ..., n que toma la caracterstica X sobre las unidades de la muestra s mediante
s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al
procedimiento de muestreo, y los valores que toma la caracterstica X sobre dichas muestras,
se obtiene el conjunto S(X) = {s(X) / sS}. Por tanto, podemos formalizar el concepto de
estimador $ para el parmetro poblacional definindolo mediante la aplicacin medible:
: S ( X ) R n R
( X 1 L X n ) ( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadstico funcin de los valores que
toma la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos
ms sencillos de estimadores de los parmetros poblaciones total poblacional y media
poblacional, tenemos los estimadores total muestral X$ y media muestral X$ , definidos como
se indica a continuacin:
1 : S ( X ) R n R 2 : S ( X ) R n R
X1 + L + X n
( X 1 L X n ) 1 ( X 1 L X n ) = X 1 + L + X n = X ( X 1 L X n ) 2 ( X 1 L X n ) = =X
n
En cuanto a la construccin del estimador, ha de ser tal que la funcin $ que asocia a cada
muestra s el valor numrico $ (s(X)) = $ (X1, ..., Xn) sea calculable y est definida para todas las
muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La
formacin de estimadores no es una operacin independiente del procedimiento de muestreo que se
adopte. Generalmente, para construir estimadores se utiliza el principio de analoga; es decir, se
estima un parmetro poblacional a partir del estimador muestral anlogo. Por ejemplo, para estimar
la media poblacional, la razn poblacional, etc., se utilizan como estimadores sus anlogos
muestrales, es decir, la media muestral, la razn muestral, etc. No siempre estos estimadores por
analoga tienen las propiedades ms deseables, pero suelen ser siempre consistentes, y a veces
puede corregirse su sesgo multiplicndolos por una constante convenientemente elegida.
Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y
por las probabilidades de que el estimador tome esos valores, se lo denomina distribucin del
estimador en el muestreo. A partir de la introduccin del concepto de muestreo probabilstico
y del conocimiento de la distribucin de los estimadores en el muestreo, tanto la teora de la
probabilidad como la inferencia estadstica estn disponibles para ser aplicadas al muestreo.
En todo el desarrollo de este libro se supone la existencia de muestreo probabilstico.
De esta forma los conceptos de acuracidad y error del estimador son similares para
estimadores insesgados. Por tanto, para comparar varios estimadores insesgados $i del
parmetro poblacional en cuanto a precisin bastar considerar sus errores de muestreo
(i ) = + V (i ) , siendo ms preciso el estimador que menor error de muestreo presente.
Muestreo estadstico: conceptos, estimadores y su distribucin 7
() ()
CV =
E ()
=
()
y al ser una constante el error relativo est en funcin slo del error de muestreo.
Para estimadores $ sesgados del parmetro poblacional , la magnitud general para analizar su
precisin es su error cuadrtico medio. Por tanto, para comparar varios estimadores sesgados del
parmetro poblacional en cuanto a precisin se utilizar el error cuadrtico medio y el
estimador ms preciso ser el que menor error cuadrtico medio presente.
Pero en la prctica el clculo del error cuadrtico medio puede ser problemtico.
Por esta razn, cuando se intentan comparar varios estimadores $i del parmetro
poblacional todos sesgados, se calcula para cada uno de ellos la cantidad:
( )
B i
( )
i
siendo ms preciso aquel estimador que presenta una relacin del sesgo al error de muestreo
en valor absoluto ms pequea. Tambin puede utilizarse el coeficiente de variacin
()
CV i = (i ) / E (i ) , siendo ms preciso el estimador con menor coeficiente de variacin
(error relativo). Se observa que el denominador del coeficiente de variacin es el valor
esperado del estimador, con lo que el coeficiente de variacin recoge el efecto de un posible
sesgo en el estimador.
Para comparar en cuanto a precisin varios estimadores $i unos sesgados y otros
insesgados del parmetro poblacional , se utilizar el error cuadrtico medio, y el
estimador ms preciso ser el que menor error cuadrtico medio presente. A veces, ante las
dificultades de clculo del error cuadrtico medio se utiliza el coeficiente de variacin
()
CV i = (i ) / E (i ) (que contempla el posible efecto del sesgo en su denominador), siendo
ms preciso el estimador con menor coeficiente de variacin (error relativo).
8 Muestreo estadstico. Conceptos y problemas resueltos
Si los estimadores sesgados tienen todos sesgo despreciable, B(i ) / (i ) < 1 / 10 , se
hara la comparacin global como insesgados de acuerdo con los valores de (i ) .
Para medir la precisin de los estimadores suele utilizarse el error cuadrtico medio,
el error relativo (coeficiente de variacin) o el error de muestreo (desviacin tpica). En cada
caso, la ganancia en precisin estar dada por las respectivas tasas de variacin:
[
(), + ()] con
= FN
1(0,1) 1
2
[
t (), + t ()] con
t = Ftn
11 1
2
()
, +
()
[
()
| B() |, + ()
| B() |]
[
()
| B() |, + ()+ | B() |]
10 Muestreo estadstico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
1.1. Sobre las regiones que componen un determinado pas se mide la variable X=Nmero de
personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones
con probabilidades iniciales de seleccin 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada
regin. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo
muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de
colocacin de sus elementos. Para ello se consideran los estimadores alternativos
MEDIANA y MEDIA ARMNICA. Se pide lo siguiente:
S ( X ) P( X ) M XH
(6 4) 3 / 20 5 24 / 5
(6 3) 3 / 20 9/2 4
(6 8) 1 / 15 7 48 / 7
(4 3) 1 / 3 7/2 24 / 7
(4 8) 3 / 20 6 16 / 3
(3 8) 3 / 20 11 / 2 48 / 11
1 2 2 1 3
P (6,4) = P{6,4} + P{4,6} = P (6) P (4 / 6) + P (4) P (6 / 4) =
+
=
6 5 6 4 20
1 2 2 1 3
P (6,3) = P{6,3} + P{3,6} = P (6) P (3 / 6) + P (3) P (6 / 3) =
+
=
6 5 6 4 20
1 1 1 1 1
P (6,8) = P{6,8} + P{8,6} = P (6) P (8 / 6) + P (8) P (6 / 8) =
+
=
6 5 6 5 15
Muestreo estadstico: conceptos, estimadores y su distribucin 11
2 2 2 2 1
P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) =
+
=
6 4 6 4 3
2 1 1 2 3
P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) =
+
=
6 4 6 5 20
2 1 1 2 3
P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) =
+
=
6 4 6 5 20
Las probabilidades anteriores tambin pueden calcularse mediante la expresin
P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj)) = PiPj/(1-Pi) + PiPj(1-Pj).
T 3 T 24 3
P (M = 5) = P (6,4) =
20 P ( X H =
5
) = P (6,4) =
20
P T ( M 9 3 P T ( X 3
= ) = P (6,3) = = 4) = P (6,3) =
2 20 H
20
P T ( M 1 P T ( X 48 1
= 7) = P (6,8) = H = ) = P (6,8) =
15 7 15
M XH
P T ( M 7 1 P T ( X 24 1
= ) = P (4,3) = H = ) = P (4,3) =
2 3 7 3
3 16 3
P T ( M = 6) = P (4,8) = P T ( X H = ) = P (4,8) =
20 3 20
T 11 3 T 48 3
P ( M = ) = P (3,8) = P ( X H = ) = P (3,8) =
2 20 11 20
24 3 3 48 1 24 1 16 3 48 3
E( X H ) =
+ 4
+
+
+
+
= 4,37 X H = 4,57
5 20 20 7 15 7 3 3 20 11 20
Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:
B(M ) = E( X )
X = 4,78
5 =
0,22 B( X H ) = E( X H )
X H = 4,37
4,57 =
0,2
24 3 3 48 1
V ( X H ) = E ( X H
4,37) 2 = (
4,37) 2
+ (4
4,37) 2
+ (
4,37) 2
5 20 20 7 15
24 1 16 3 48 3
+ (
4,37) 2
+ (
4,37) 2
+
(
4,37) 2 = 0,89
7 3 3 20 11 20
Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a travs
B i ( )
del error cuadrtico medio, pero antes se deben calcular las cantidades
i ( )
para ver si el
Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningn caso (los dos estimadores son igualmente precisos segn la razn del sesgo a la
desviacin tpica). Calculamos ahora los errores cuadrticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qu estimador es mejor.
3 9 3 1 7 1 3 11 3
ECM(M ) = E(M
5)2 = (5
5)2
+ (
5)2
+ (7
5)2
+ (
5)2
+ (6
5)2
+ (
5)2
= 1,24
20 2 20 15 2 3 20 2 20
24 3 3 48 1 24 1
ECM( X H ) = E( X H
4,57)2 = (
4,57)2
+ (4
4,57)2
+ (
4,57)2
+ (
4,57)2
5 20 20 7 15 7 3
16 3 48 3
+ (
4,57)2
+
(
4,57)2 = 0,93
3 20 11 20
El mejor estimador resulta ser la media armnica porque tiene menor error
cuadrtico medio. Para cuantificar las ganancias en precisin calculamos:
1, 24
1
100 = 33 ,33
0 ,93
() () () ()
[
| B |, + + | B |]
Tenemos:
M [7 / 2
3 1,19
|
0,22 |, 7 / 2 + 3 1,19 + |
0,22 |] = [0,004, 6,99]
X H [24 / 7
3 0,89
|
0,2 |, 24 / 7 + 3 0,89 + |
0,2 |] = [0,39, 6,45]
1.2. Dada la poblacin {U1, U2, U3, U4, U5} seleccionamos muestras de tamao 3 por el siguiente
mtodo de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se
extraen al azar dos bolas mediante muestreo aleatorio sin reposicin con probabilidades
iguales, y a continuacin, de otro recipiente con dos bolas numeradas con el 4 y el 5 se
extrae una bola. Se supone que extraer la bola i-sima equivale a elegir para la muestra la
unidad Ui. Consideramos los estimadores por analoga siguientes:
1, 2 , 3 4, 5
U1 U2
Como en la urna U1 seleccionamos dos bolas sin reposicin, las posibilidades son
(A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se
selecciona una bola en la urna U2, las posibles muestras de tres elementos sern (A1 A2 A4),
(A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5).
S_ X Pi T1 T2
A1 A 2 A 4 1/ 6 2/3 1
A1 A 2 A 5 1/ 6 1/ 3 2
A1 A 3 A 4 1/ 6 1/ 3 2
A1 A 3 A 5 1/ 6 0 3
A 2 A3 A 4 1/ 6 2/3 1
A 2 A3 A5 1/ 6 1/ 3 2
T 1 1 T 1 1
P (T 1= 2 / 3) = 2
6 = 3 P (T 2 = 1) = 2
6 = 3
1 1 1 1
T1 P T (T 1= 1 / 3) = 3
= T1 P T (T 2 = 2) = 3
=
6 2 6 2
T 1 T 1
P (T 1= 0) = 6 P (T 2 = 3) = 6
1 = 2/3 2 = 3
7/6 =
1,16666. Las varianzas de los estimadores son:
2 1 1 1 1
V (T1 ) = (
0,388 ) 2
+ (
0,388 ) 2
+ (0
0,388 ) 2
= 0,0524
3 3 3 2 6
1 1 1
V (T2 ) = (1
1,833 ) 2
+ ( 2
1,833 ) 2
+ (3
1,833 ) 2
= 0,4722
3 2 6
Con lo que las desviaciones tpicas valdrn:
(T1 ) = 0,0524 = 0,2289 y (T2 ) = 0,4722 = 0,687
16 Muestreo estadstico. Conceptos y problemas resueltos
Como |B( T1 )/ ( T1 )| = 0,0485 < 1/10, el sesgo del estimador T1 es despreciable, por lo
que este puede considerarse a todos los efectos insesgado. Como |B( T )/ ( T )| = 1,69 > 1/10
2 2
pues su error cuadrtico medio es mucho menor que el de T2 . La ganancia en precisin por
usar T en vez de T es:
1 2
GP = (EMC( T2 )/EMC( T1 )
1)*100 = (1,833/0,0526
1)*100 = 3385,9%
( ) ( )
[T1
T1 , T1 + T1 ] = [2 / 3
1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15]
g1 = m3/ 3 =
0,0027/0,2293 = 0,22
g2 = m4/ 4
3 =
0,0058/0,2294
3 =
0,89
2 1 1 1 1
m 3(T1 ) = (
0,388 ) 3
+ (
0,388 ) 3
+ (0
0,388 ) 3
= 0, 22
3 3 3 2 6
2 1 1 1 1
m 4(T1 ) = (
0,388 ) 4
+ (
0,388 ) 4
+ (0
0,388 ) 4
=
0,89
3 3 3 2 6
T1
( ), T1 +
( )
T1 T1
= 2 / 3
0,229
, 2/3+
0,229
= [0.357, 1.69]
0,05 0,05
() () () ()
[T2
T2
| B T2 |, T2 + T2 + | B T2 |] = [1
1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [
1.513, 3.513]
1.3. En una poblacin de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamao 2
mediante el siguiente mtodo de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3), y se
extraen de la poblacin las dos unidades que tengan los mismos nmeros que las dos bolas
extradas. Se pide:
1) Considerando la extraccin de las bolas en la urna con reposicin y el estimador por analoga
T= Nmero de unidades distintas en las muestras, hallar su distribucin en el muestreo
analizando su precisin. Obtener una estimacin puntual del nmero de unidades distintas en
la poblacin y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basndose en la
muestra de mayor probabilidad.
2) Contestar a las preguntas del apartado anterior suponiendo que la extraccin de las bolas en la
urna sin reposicin. Comparar las estimaciones en los dos casos comentando los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposicin
consideramos la urna U con 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el
nmero 3).
1 2
1 1 2
U
Como en la urna U seleccionamos dos bolas sin reposicin, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).
3 2 1
P(1,1) = P1 (1) + P2 (1 / 1) =
=
6 5 5
3 2 2 3 2
P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) =
+
=
6 5 6 5 5
3 1 1 3 1
P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) =
+
=
6 5 6 5 5
2 1 1
P(2,2) = P1 (2)
P2 (2 / 2) =
=
6 5 15
2 1 1 2 2
P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) =
+
=
6 5 6 5 15
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
S_X Pi T
( sin reposicn )
1 (1,1) 1/ 5 1
2 (1, 2 ) 2/5 2
3 (1,3) 1/ 5 2
4 ( 2, 2 ) 1 / 15 1
5 ( 2 ,3 ) 2 / 15 2
T 1 1 4
P (T = 1) = 5 + 15 = 15
T
P T (T = 2) = 2 + 1 + 2 = 11
5 5 15 15
4 11
E (T ) = 1
+ 2
= 26 / 15 = 1,7333333333 3 =
15 15
El estimador T es sesgado con sesgo B(T)=E(T)
= 26/15-3 =
19/15 =
1,26666.
La varianza del estimador es la siguiente:
4 11
V (T ) = (1
1,733 ) 2
+ ( 2
1,733 ) 2
= 0,1955
15 15
(T ) = 0,1955 = 0,442
Como |B(T)/ (T)| = 1,266/0,442 = 2,864 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
4 11
ECM (T ) = (1
3) 2
+ ( 2
3) 2
= 1,8
15 15
20 Muestreo estadstico. Conceptos y problemas resueltos
[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3 * 0,442
1,26 + 3 * 0,442 + 1,26] = [
0,593, 4,593]
3 3 1
P(1,1) = P(1)
P(1) =
=
6 6 4
3 2 1
P(1,2) = 2 P(1)
P(2) = 2
=
6 5 3
3 1 1
P(1,3) = 2 P(1)
P(3) = 2
=
6 6 6
2 2 1
P(2,2) = P(2)
P(2) =
=
6 6 9
2 1 1
P(2,3) = 2 P(2)
P(3) = 2
=
6 6 9
1 1 1
P(3,3) = P(3)
P(3) =
=
6 6 36
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
S_X Pi T
( con reposicin )
1 (1,1) 1/ 4 1
2 (1, 2 ) 1/ 3 2
3 (1,3) 1/ 6 2
4 ( 2, 2 ) 1/ 9 1
5 ( 2,3) 1/ 9 2
6 (3,3) 1 / 36 1
T 1 1 1 7
P (T = 1) = 4 + 9 + 36 = 18
T
P T (T = 2) = 1 + 1 + 1 = 11
3 6 9 18
7 11
E (T ) = 1
+ 2
= 29 / 18 = 1,611111 3 =
18 18
El estimador T es sesgado con sesgo B(T)=E(T)- = 29/18-3 = -25/18=-1,3888. La
varianza del estimador es la siguiente:
7 11
V (T ) = (1
1,6111) 2
+ ( 2
1,6111) 2
= 0,237
18 18
(T ) = 0,237 = 0,486
Como |B(T)/ (T)| = 1,388/0,486 = 2,85 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
7 11
ECM (T ) = (1
3) 2
+ ( 2
3) 2
= 2,1666
18 18
Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda
muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:
[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3* 0,486
1,38 + 3* 0,486+1,38] = [
0,851, 4,851]
Para comparar las estimaciones con y sin reposicin observamos los errores
cuadrticos medios, resultando que el mtodo sin reposicin tiene menor error cuadrtico
medio, lo que indica que es mejor mtodo de estimacin.
La ganancia en precisin por trabajar sin reposicin en vez de con reposicin se
cuantifica como sigue:
GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37%
Se ve que la precisin mejora un 20,37% en caso de usa seleccin sin reposicin.
Adems, tambin se observa que el intervalo de confianza del estimador menos preciso (con
reposicin) es ms ancho.
1.4. Con la finalidad de ensayar el anlisis de la divisibilidad en una poblacin numrica,
consideramos una poblacin virtual finita con 6 elementos U = {12, 13, 17, 23, 6, 1}.
Mediante un mtodo de muestreo aleatorio con probabilidades iguales y sin reposicin se
extraen muestras de tamao 2 sin tener en cuenta el orden de colocacin de sus elementos.
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras.
2) A partir de las muestras del espacio muestral se trata de estimar el parmetro poblacional
PROPORCIN DE NMEROS PRIMOS mediante el estimador por analoga y el
parmetro poblacional TOTAL DE NMEROS PRIMOS mediante el estimador de
expansin de la proporcin por el tamao poblacional (producto del estimador de la
proporcin por el tamao poblacional). Hallar la distribucin en el muestreo de dichos
estimadores. Qu estimador es mejor? Comparar el estimador de expansin del total
con el estimador por analoga.
6
=15
2
Por otra parte, en este problema estamos considerando la clase A de los nmeros
primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen
uno cuando Ui es primo. Luego sobre el conjunto Ui{2, 13, 17, 23, 6, 1} se mide la variable
A y se obtiene el conjunto Ai{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin
reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos
de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier
muestra puede hallarse mediante la expresin:
TOTAL ( A = 6 P ) TOTAL ( T = 2 P )
S1_X S2_X P_X PROPORCIN ( P ) EXPANSIN MUESTRAL
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 0 1/15 0 0 0
0 1 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
0 1 1/15 0,5 3 1
T 1 2 T 1 2 T 1 2
P ( P = 1) = 6
15 = 5 P ( A = 6) = 6
15 = 5 P (T = 2) = 6
15 = 5
1 8 1 8 1 8
P P T ( P = 1 / 2) = 8
= A P T ( A = 3) = 8
= T P T (T = 1) = 8
=
15 15 15 15 15 15
T 1 T 1 T 1
P ( P = 0) = 15 P ( A = 0) = 15 P (T = 0) = 15
Muestreo estadstico: conceptos, estimadores y su distribucin 25
2 1 8 1
E( P ) = 1
+
+ 0
= 2 / 3 = 0,6666 = 1
5 2 15 15
2 8 1
E( A ) = 6
+ 3
+ 0
= 6E( P ) = 4 = 2
5 15 15
2 8 1
E(T ) = 2
+ 1
+ 0
= 2E( P ) = 4 / 3 = 1,33333 4 = 2
5 15 15
Como los estimadores P y A son insesgados, su varianza coincide con su error cuadrtico
medio, por lo que su precisin se mide a travs de la varianza. De esta forma, el estimador P para
estimar 1 es ms preciso que el estimador A para estimar 2 por tener menor varianza.
m3
1
6
[
2(0
2 / 3) 3 + 4(1
2 / 3) 3 ]
g1 = = = 0,968
3 1
3
6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ]
m4
1
6
[
2(0
2 / 3) 4 + 4(1
2 / 3) 4 ]
g2 =
3 =
3 =
1,875
4 1
4
6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ]
( P ) ( P ) 0, 298 0, 298
P
,P+ = 0
,0+ = [
2 .98 , 2 .98 ]
0,01 0,01
[ P
( P ), P + ( P ) = [0
2,57
0,298, 0 + 2,57
0,298] = [
0.766, 0.766 ]
( A ) ( A ) 1,7888 1,7888
A
, A+ = 0
,0+ = [
17 .8, 17 .8]
0,01 0,01
[ A
( A ), A + ( A ) = [0
2,57
1,7888 , 0 + 2,57
1,7888 ] = [
4.59, 4,59 ]
Adems, se observa que los intervalos de confianza para P son ms estrechos que los
correspondientes intervalos de confianza para A , lo que concuerdo con la superior precisin del
estimador P .
1.5. Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 ltimos
meses fueron los siguientes:
X 3 4 2 2,5 3,5 4,5
Y 6 7 4 5 6,5 8
Se extraen muestras aleatorias simples de dos meses sin reposicin y con probabilidades
iguales y se pide:
1) Distribucin en el muestreo de los estimadores por analoga del gasto total y del
estimador por analoga de la proporcin que significan los gastos en los ingresos (razn
de gastos totales sobre ingresos totales). Qu estimador es mejor? Calcular la ganancia
en precisin y expresar los resultados en trminos de intervalos de confianza al 95%
basados en la muestra de mayor total.
2) Distribucin en el muestreo de los estimadores del gasto total siguientes:
Estimador de expansin del gasto total.
Proporcin de los gastos en los ingresos por el ingreso total poblacional
Qu estimador es mejor?
Como se trata de muestreo aleatorio sin reposicin en el que se supone que el orden de
colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras
6
posibles, tanto para X como para Y, ser =15.
2
Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.
Denominamos GTOTAL al estimador por analoga del gasto total (total muestral del
gasto) y RAZN al estimador por analoga de la proporcin que significan los gastos en los
ingresos (total muestral del gasto entre total muestral del ingreso). Se tendr presente que el
estimador expandido del gasto total es el producto del tamao poblacional por la media
muestral del gasto (GTOTALEXP = 6(GTOTAL/2) = 3GTOTAL) y que la proporcin de los
gastos en los ingresos por el ingreso total poblacional es TOTAL = (36,5)RAZN. En los
estimadores, para las cuatro primeras filas de la tabla se indican todas las operaciones y para el
resto de las filas las operaciones son similares y se indican slo los resultados.
Muestreo estadstico: conceptos, estimadores y su distribucin 29
GTOTALEXP TOTAL
S1_X S2_X S1_Y S2_Y P=PX=PY GTOTAL RAZN (3*GTOTAL) (36,5*RAZN)
3 4 6 7 1/15 7=3+4 0,53=(3+4)/(6+7) 21=3*7 19,65=36,5*0,53
3 2 6 4 1/15 5=3+2 0,5=(3+2)/(6+4) 15=3*5 18,25=36,5*0,5
3 2,5 6 5 1/15 5,5=3+2,5 0,5=(3+2,5)/(6+5) 16,5=3*5,5 18,25=36,5*0,5
3 3,5 6 6,5 1/15 6,5=3+3,5 0,52=(3+3,5)/(6+6,5) 19,5=3*6,5 18,98=36,5*0,52
3 4,5 6 8 1/15 7,5 0,535714286 22,5 19,55357143
4 2 7 4 1/15 6 0,545454545 18 19,90909091
4 2,5 7 5 1/15 6,5 0,541666667 19,5 19,77083333
4 3,5 7 6,5 1/15 7,5 0,555555556 22,5 20,27777778
4 4,5 7 8 1/15 8,5 0,566666667 25,5 20,68333333
2 2,5 4 5 1/15 4,5 0,5 13,5 18,25
2 3,5 4 6,5 1/15 5,5 0,523809524 16,5 19,11904762
2 4,5 4 8 1/15 6,5 0,541666667 19,5 19,77083333
2,5 3,5 5 6,5 1/15 6 0,52173913 18 19,04347826
2,5 4,5 5 8 1/15 7 0,538461538 21 19,65384615
3,5 4,5 6,5 8 1/15 8 0,551724138 24 20,13793103
15
1 1 1
E ( RAZN ) = RAZN P = 0,53
15 + 0,5
15 + L + 0,55
15 = 0,53206 0,53424 =
i =1
i i 2
15
+ L + (8
6,5) 2
= 1,1666
15
15
1 1
(RAZN )
2
V ( RAZN ) = i
E ( RAZN ) Pi = (0,53
0,532) 2
+ L + (0,55
0,532) 2
= 0,000399
i =1 15 15
15
1 1
ECM (GTOTAL) = (GTOTAL
i =1
i
1 ) Pi = (7
19,5) 2
2
15
+ L + (8
19,5) 2
= 170,166
15
ECM ( RAZN ) = V ( RAZN ) = 0,00399
() () () ()
[
| B |, + + | B |] = [8,5
1,96
1,08
13, 8,5 + 1,96
1,08 + 13] = [
6.61, 23.61]
() ()
[
, + ] = [0,566
1,96
0,0199, 0,566+1,96
0,0199] = [0.527, 0.605]
Para comparar los estimadores del gasto total GTOTAEXP y TOTAL, observamos
que GTOTALEXP = 3GTOTAL y TOTAL = (36,5)RAZN. Tenemos:
Los dos estimadores han resultado ser insesgados, con lo que ser ms preciso el que
tenga menor varianza; es decir, TOTAL es ms preciso que GTOTALEXP.
1.6. Consideramos una poblacin virtual para simulacin formada por 10 individuos agrupados
en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla
adjunta:
HOGARES H1 H2 H3 H4
--
INGRESOS (Xi) 1, 2, 3 4, 6 9, 11 2, 2, 5
En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los
estimadores para cada muestra.
S(X ) P( X ) T1 T2
{1,2,3} 3 / 10 2 6
{4,6} 1/ 5 5 10
{9,11} 1/ 5 10 20
{2,2,5} 3 / 10 3 9
T 3 T 3
P (T 1= 2) = P{1,2,3} = 10 P (T 2= 6) = P{1,2,3} = 10
P T (T = 5) = P{4,6} = 1 P T (T = 10) = P{4,6} = 1
1
5 2
5
T1 T2
P T (T = 10) = P{9,11} = 1 P T (T = 20) = P{9,11} = 1
1 2
5 5
3 3
P T (T 1= 3) = P{2,2,5} = P T (T 2= 9) = P{2,2,5} =
10 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) / 10 = 45 / 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) = 45
3 1 1 3
E (T1 ) = 2
+ 5
+ 10
+ 3
= 4,5 = X
10 5 5 10
3 1 1 3
E (T2 ) = 6
+ 10
+ 20
+ 9
= 10,5 X = 45
10 5 5 10
Como |B(T2)/ (T2)| = 6.92 > 1/10, el sesgo del estimador T2 no es despreciable, y
como T1 es insesgado, la comparacin de estimadores ha de hacerse a travs del error
cuadrtico medio. Tenemos:
3 1 1 3
ECM (T1 ) = (2
4,5) 2
+ (5
4,5) 2
+ (10
4,5) 2
+ (3
4,5) 2
= 8,65
10 5 5 10
3 1 1 3
ECM (T2 ) = (6
45) 2
+ (10
45) 2
+ (20
45) 2
+ (9
45) 2
= 1215,1
10 5 5 10
Evidentemente, el mejor estimador es T1, pues su error cuadrtico medio es mucho
menor que el de T2. La ganancia en precisin por usar T1 en vez de T2 es:
GP=(EMC(T2)/EMC(T1) - 1)100 = (1215,1/8,65-1)100=13946,24%
Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la
muestra de mayor total {9,11}, suponemos primeramente que la poblacin se distribuye
normalmente, en cuyo caso se utiliza como intervalo de confianza el siguiente:
() ()
[
, + ] = [10
3
2.94, 10 + 3
2.94] = [1.17, 18.82]
()
, +
()
= 10
2.94
,10 +
2.94
= [
55.74, 75.7]
0.002 0.002
1.7. Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han
sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos
calificaciones y se consideran los estimadores por analoga media muestral y varianza muestral.
Hallar la distribucin en el muestreo y sus errores para los dos estimadores en los casos siguientes:
1) Muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos.
2) Muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos.
3) Muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos.
4) Muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos.
Para muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos el
nmero de muestras de tamao 2 en el espacio muestral sern las combinaciones sin repeticin
de tres elementos tomados de dos en dos:
3
C3,2 = =3
2
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
3
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i
3
E (VARIANZAM ) = VARIANZA P = 0,5 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuacin se calculan las varianzas de los
estimadores.
36 Muestreo estadstico. Conceptos y problemas resueltos
3
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2
3
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2
3
V3,2 =
2! = 6
2
Se observa que las probabilidades de las muestras sern todas iguales a 1/6. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
6
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i
6
E (VARIANZAM ) = VARIANZA P = 0,5 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuacin se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2
6
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2
Los clculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:
Muestreo estadstico: conceptos, estimadores y su distribucin 39
Para muestreo con reposicin sin tener en cuenta el orden de colocacin de los
elementos el nmero de muestras de tamao dos en el espacio muestral sern las
combinaciones con repeticin de tres elementos tomados de dos en dos:
3 + 2
1
CR3,2 = = 6
2
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
6
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i
6
E (VARIANZAM ) = VARIANZA P = 1 / 3 = 0,3333 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuacin se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2
6
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2
9
E (VARIANZAM ) = VARIANZA P = 1 / 3 = 0,3333 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3
2/3 =
1/3 =
0,3333. A continuacin se calculan las varianzas de los
estimadores.
9
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2
9
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2
1.8. En una prueba de patinaje artstico los 10 jueces del jurado calificaron a un patinador con tres
cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de
dos calificaciones sin reposicin y teniendo en cuenta el orden de colocacin de los elementos.
Se consideran los estimadores por analoga media muestral, varianza muestral y recorrido para
estimar la calificacin media y su dispersin (por dos vas). Hallar la distribucin en el muestreo y
sus errores para los tres estimadores.
Xi 5 6 7
Pi 3 / 10 4 / 10 3 / 10
3
V3,2 =
2! = 6
2
6
E ( MEDIAM ) = MEDIAM i Pi = 6 = MEDIAP
i =1
6
E (VARIANZAM ) = VARIANZAi Pi = 0,442 0,6 = VARIANZAP
i =1
6
E ( RM ) = RM i Pi = 1,257 2 = RP
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP,
B(VARIANZAM) = 0,442-0,6 =
0,157, y B(RM) = 1,257
2 =
0,743. A continuacin se
calculan las varianzas de los estimadores.
6
V ( MEDIAM ) = (MEDIAM i
E ( MEDIAM ) ) Pi = 0,185
2
i =1
6
V (VARIANZAM ) = (VARIANZAM i
E (VARIANZAM ) ) Pi = 0,107
2
i =1
6
V ( RM ) = (RM i
E ( RM ) ) Pi = 0,191
2
i =1
Como |B(RM)/ (RM)| = 1,7 > 1/10, el sesgo del estimador RM no es despreciable.
Para hallar el error de muestreo de MEDIAM, VARIANZAM y RM vemos que los dos
ltimos estimadores son sesgados con sesgo no despreciable y el primero es insesgado. La
medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
i =1
EJERCICIOS PROPUESTOS
1.2. Para medir la variable X = nivel de precipitacin atmosfrica en una determinada regin
disponemos de un marco de 4 zonas climticas de la misma cuyos niveles de precipitacin
actual son de 6, 4, 3 y 8 decenas de litros por metro cuadrado, siendo sus probabilidades
iniciales de seleccin en el muestreo 1/6, 1/3, 1/3 y 1/6, respectivamente. Se trata de estimar
en decenas de litros por metro cuadrado el nivel actual medio de precipitacin atmosfrica
en la regin extrayendo muestras de la variable X con tamao 2 sin reposicin y sin tener en
cuenta el orden de colocacin de sus elementos. Para ello se consideran los estimadores
alternativos MEDIA ARITMTICA, MEDIA GEOMTRICA, MEDIA CUADRTICA y
MEDIA ARMNICA. Se pide lo siguiente:
1) Especificar el espacio muestral definido por este procedimiento de muestreo S(X), las
probabilidades asociadas a las muestas P(S) y la distribucin en el muestreo de los cuatro
estimadores analizando su precisin. Cul de ellos es mejor? Razonar la respuesta y
cuantificar las ganancias en precisin.
2) Hallar intervalos de confianza para la media segn los cuatro estimadores basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( =0,002). Como
dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal (0,1).
Comentar los resultados.
1.5. Para la poblacin A = {A1 , A2 , L , A12 } consideramos el siguiente proceso de seleccin de muestras
de tamao 3. Se selecciona un entero al azar en el conjunto {1,2,3,4} y siendo este nmero se
forma la muestra {A , A + 4 , L , A +8 } . Considerando la variable Xi=X(Ai)=i se pide la distribucin,
esperanza y varianza de los estimadores T1=Mx(Xi) y T2=2(Xi)/n 1. Cul de los dos
estimadores es ms preciso? Realizar estimaciones por intervalos al 95% basadas en las
muestras de mayor valor de los estimadores y comentar los resultados.
1.6. En una poblacin con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad
toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposicin con probabilidades
iniciales de seleccin Pi = (1/5, 2/5, 2/5) y tamao muestral n = 2 sin tener en cuenta el orden de
colocacin de las unidades en las muestras. Se pide:
OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades
compuestas.
2. Distinguir claramente los conceptos de muestreo con probabilidades
iguales y muestreo con probabilidades desiguales.
3. Distinguir entre muestreo con reposicin y muestreo sin reposicin.
4. Comprender cmo se forman los estimadores en el proceso de estimacin puntual.
5. Comprender el concepto de factor de elevacin.
6. Obtener el estimador lineal insesgado general para el caso de seleccin con
reposicin y probabilidades desiguales: Estimador de Hansen y Hurwitz.
7. Obtener la varianza y su estimacin para el estimador de Hansen y Hurwitz.
8. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Mtodo del tamao acumulativo y mtodo de Lahiri.
9. Obtener el estimador lineal insesgado general para el caso de seleccin sin
reposicin y probabilidades desiguales: Estimador de Horvitz y Thompson.
10. Obtener la varianza y la estimacin de la varianza para el estimador de
Horvitz y Thompson.
11. Obtener el estimador alternativo de Yates y Grundy para la varianza.
12. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy.
13. Analizar el muestreo con probabilidades gradualmente variables: Estimador
de Snchez Crespo y Gabeiras, error y estimacin del error.
14. Obtener muestras aleatorias, especialmente mediante el mtodo de Montecarlo.
50 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Seleccin con y sin reposicin. Probabilidades iguales y desiguales.
2. Estimacin puntual y formacin general de estimadores.
3. Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen
Hurwitz.
4. Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
5. Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz
y Thompson.
6. Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
7. Mtodo de Montecarlo
8. Problemas resueltos
9. Ejercicios propuestos
Muestreo estadstico: conceptos, estimadores y su distribucin 51
1.1. Con probabilidades iguales: Todas las unidades de la poblacin tienen la misma
probabilidad de ser seleccionadas en cada extraccin.
1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades
de seleccin en cierta extraccin.
2.1. Muestreo con reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin se repone a la poblacin antes de realizar la siguiente
extraccin; es decir, la estructura poblacional permanece invariante.
2.2. Muestreo sin reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin no se repone a la poblacin antes de realizar la siguiente
extraccin, por lo que una unidad podr aparecer en la muestra a lo sumo una vez y
la estructura poblacional va cambiando de una extraccin a otra.
Combinando estos cuatro tipos de muestreo resulta:
- Muestreo con reposicin y probabilidades iguales
Supongamos que tenemos definida una caracterstica X en la poblacin U = {U1, U2, ..., UN}
que toma el valor numrico Xi sobre la unidad Ui i = 1, 2, ..., N, dando lugar al conjunto de
valores {X1, X2, ..., XN}. Consideramos ahora una cierta funcin de los N valores Xi, que suele
denominarse parmetro poblacional. Seleccionamos una muestra s = {u1, u2, ..., un} de U mediante
un procedimiento de muestreo dado, y consideramos los valores s(X) = {X1, X2, ... , Xn} que toma la
caracterstica X en estudio sobre los elementos de la muestra. A partir de estos valores estimamos
puntualmente el parmetro poblacional mediante la expresin = (s(X))= (X1, ..., Xn), basada
en los valores Xi i = 1, 2, ..., n, que toma la caracterstica X sobre las unidades de la muestra s.
X
U = {U 1 LU N } (X 1 L X N )
X
s = {u1 L u n } s( X ) = (X 1 L X n )
52 Muestreo estadstico. Conceptos y problemas resueltos
La funcin que asocia a cada muestra s el valor numrico (s(X)) = (X1, ..., Xn), se
denomina estimador del parmetro poblacional . A los valores (s(X)) para cada s del espacio
muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto
de estimador $ para el parmetro poblacional definindolo mediante la aplicacin medible:
$: S ( X ) R n R
(X 1 L X n ) $( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadstico funcin de los valores que toma
la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos
los estimadores total muestral y media muestral que estiman el total y la media poblacionales:
1 : S ( X ) R n R
( X 1 L X n ) 1 ( X 1 L X n ) = X 1 + L + X n = X
2 : S ( X ) R n R
X1 + L + X n
( X 1 L X n ) 2 ( X 1 L X n ) = = X
n
X 1 N N
Xi
Media poblacional: X = (X1, ..., XN) = =
N N
X =
i =1
i
i =1 N
Hasta ahora hemos supuesto que la caracterstica X definida sobre los elementos de la
poblacin es cuantitativa, es decir, cuantificable numricamente. Sin embargo, tambin se pueden
definir caractersticas cualitativas sobre los elementos de la poblacin, como, por ejemplo, su
pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la poblacin
definimos la caracterstica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma
valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la
poblacin que pertenecen a la clase A (total de clase) y la proporcin de elementos de la
poblacin que pertenecen a la clase A (proporcin de clase) de la forma siguiente:
N
Total de clase: A = (A1, ..., AN) = Ai
i =1
N N
A 1 Ai
Proporcin de clase: P = (A1, ..., AN) = =
N N
A = N
i =1
i
i =1
N N
= Yi = f ( X i )
i =1 i =1
denominan pesos o factores de elevacin, ya que so los nmeros por los que hay que multiplicar
los valores muestrales para obtener los valores poblacionales.
Concretamente, para muestreo sin reposicin, el estimador ptimo es el de Horvitz y
n
Yi
Thompson HT = , donde i es la probabilidad que tiene la unidad ui de la poblacin de
i =1 i
pertenecer a la muestra. Se observa que los pesos o factores de elevacin son en este caso w i = 1 .
i
Para muestreo con reposicin el estimador ptimo es el de Hansen y Hurwitz
n
Yi
HH = , donde Pi es la probabilidad de seleccionar la unidad ui de la poblacin para
i =1 nPi
la muestra (probabilidad unitaria de seleccin de la unidad ui ). Se observa que los pesos o
factores de elevacin son, en este caso, w i = 1 .
nPi
N
Existen justificaciones para considerar que el parmetro poblacional = Y i puede
i =1
n
estimarse convenientemente mediante el estimador $ = w Y , entre las que podemos citar:
i i
i =1
P (~
x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 1424 3 14243
t1 veces t2 veces t N veces
n! N
= 1
P1t P2t L PNt n! = (t1 + t 2 + L + t N )! t i = n
2 N
t1 !t 2 !L t N ! i =1
n n
1 n
Y
HH = iYi = Yi = i
i =1 i =1 nPi i =1 nPi
N
An
Total de clase = A = Ai Yi = Ai A HH = i
i =1 i =1 nPi
Ai
A N
A n
1 n
Ai
Proporcin = P = i Yi = i PHH = N = nP
i =1 N N i =1 nP i N i =1 i
Sea Mi un entero positivo asociado a la unidad ui que denominamos tamao de ui para i = 1, 2, ..., N
(Mi puede ser el nmero de unidades elementales de la unidad compuesta ui o una ponderacin o
medida de la importancia que concedemos a la seleccin de la unidad ui para la muestra).
A continuacin se expone un mtodo prctico que permite seleccionar muestras con
reposicin de modo que en cada extraccin la unidad ui tiene probabilidad Pi proporcional a
su tamao Mi .
N
Sea M = M i . Consideramos el intervalo de nmeros enteros [1, M] y lo dividimos en
i =1
N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:
Este mtodo tambin permite extraer una muestrea con probabilidades desiguales
no necesariamente proporcionales a sus tamaos. Basta formar un rango acumulativo del
los Pi y extraer una muestra de nmeros aleatorios uniformes en (0,1). Es decir, basta montar
un cuadro como el anterior donde los intervalos acumulativos Ii se formaran ahora con los
Pi = Mi/M, en vez de con los Mi. Y en vez de obtener nmeros aleatorios entre 1 y M, se
obtendran entre 0 y 1.
Una variante que abrevia el mtodo del tamao acumulativo la constituye el mtodo de
Lahiri, que permite tambin seleccionar muestras con reposicin y probabilidades
proporcionales a los tamaos.
Sea M0 un nmero entero mayor o igual que todos los Mi, por ejemplo,
{ ( M i ) . Elegimos un par de nmeros aleatorios (i, j) tales que 1 i N y 1 j M0.
M 0 = Max
i =1, 2 ,..., N
Decimos que un procedimiento aleatorio de muestreo es sin reposicin cuando todas las
muestras que tienen algn elemento repetido son imposibles. Las unidades seleccionadas no
se reponen a la poblacin para seleccionar la siguiente unidad de la muestra, con lo que las
muestras resultantes tienen todos sus elementos distintos.
Decimos que un procedimiento aleatorio de muestreo es con probabilidades iguales
cuando todas las unidades de la poblacin ui tienen la misma probabilidad de ser elegidas
para la muestra en una determinada extraccin. En caso de que no sea la misma estaremos
ante muestreo con probabilidades desiguales. Tanto el muestreo con reposicin como el
muestreo sin reposicin pueden ser con probabilidades iguales o desiguales.
n n
1 n
Yi
$HT = wY
i i = Yi =
i =1 i =1 i i =1 i
N n
Xi
Total = X = X i Yi = X i X HT =
i =1 i =1 i
N
Xi X 1 n
Xi
Media = X =
i =1 N
Yi = i X HT =
N N
i =1 i
N
A n
Total de clase = A = Ai Yi = Ai A HT = i
i =1 i =1 i
N
A Ai 1 n
Ai
Proporcin = P = i Yi = PHT =
i =1 N N N i =1 i
Yj
( )= Yi 2
(1
i ) + 2 Yi
N N N
V HT ( ij
i j )
i =1 i i =1 j >i i j
donde i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra y ij es
la probabilidad de que el par de unidades de la poblacin (i,j) pertenezcan a la muestra.
Estimacin de la varianza del estimador de Horvitz y Thompson
Y Y j ( ij
i )
( ) Yi 2
n n n
V HT = 2 (1
i ) + 2 i
i =1 i i =1 j >i i j ij
Estimador de la varianza de Yates y Grundy para el estimador de Horvitz y Thompson
Y Y j ( i j
ij )
2
( )
n n
V HT = i
i =1 j >i i j ij
Todas las frmulas para estimadores y errores vistas hasta ahora para el caso general
sin reposicin con probabilidades desiguales son vlidas para el caso particular de
probabilidades iguales sin reposicin haciendo las siguientes sustituciones:
n n(n
1)
i = , ij =
N N ( N
1)
Se observa que cualquier mtodo de seleccin sin reposicin queda perfectamente
definido al conocer i yij ya que los estimadores y sus errores dependen slo de estos valores.
UN U3
MN bolas ..... M3 bolas
U1 U2
M1 bolas M2 bolas
Mi
Mi
Mi Mi N N
M
Pi = = N Pi = = i =1
= =1
M i =1 M M M
Mi i =1
i =1
con lo que el modelo est bien definido. Los valores i y ij relativos, respectivamente, a la
probabilidad de que una unidad de la poblacin pertenezca a la muestra y de que un par de
unidades de la poblacin pertenezcan a la muestra para muestras de tamao 2 son:
1
N Pj 1
2 Pi N
Pi 1
i = Pi 1 + = P
i + ij = Pi Pj +
j =1 1
Pj 1
Pi i =1 1
Pi 1
Pi 1
Pj
j i
Al conocer i yij este mtodo de seleccin sin reposicin queda perfectamente definido,
ya que los estimadores y sus errores dependen slo de estos valores.
Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi
(1
Pi ) Pi <
(1
2 Pi )
y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .
Para muestras de tamao 2 las probabilidades i y ij son las siguientes:
2 Pi Pj 1 1
i = 2Pi ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi
1 1
k j = Pj +
1
2 Pi 1
2 Pj
n
1 n
1 n
1 n
2 n
1 N
n
ij = Pi * + Pj + (1
(Pi + Pj )) * * = * (Pi + Pj ) + n
2
N
1 N
1 N
1 N
2 N
1 N
2 N
2
60 Muestreo estadstico. Conceptos y problemas resueltos
Este mtodo de Ikeda es un caso particular del mtodo ms general de Mitzuno, que
consiste en comenzar efectuando m extracciones sin reposicin y con probabilidades iguales; en
la extraccin m + 1 se asignan probabilidades:
m
Pr
Pi +
r =1 N
m
donde Pr corresponde a la unidad extrada en r-simo lugar (1 r m), y por ltimo las
n
(m+1) unidades muestrales restantes se seleccionan sin reposicin y probabilidades
iguales. El mtodo de Ikeda es un caso particular del mtodo de Mitzuno para m = 0.
P (~
x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 14243 14243
t1 veces t2 veces t N veces
M 1 M 2 M N M
P1 M
P2 M
PN
L L
t1 t 2 t N t1 t 2 t N N
=
M1 + M 2 +LM N
=
M
con t
i =1
i =n
t1 + t 2 + L t N n
Mediante seleccin con probabilidades gradualmente variables, el estimador lineal
N
insesgado (de Snchez Crespo y Gabeiras) para el parmetro poblacional = Yi ser:
i =1
n n
1 n
Y
SCG = i Yi = Yi = i = HH
i =1 i =1 nPi i =1 nPi
Muestreo estadstico: conceptos, estimadores y su distribucin 61
que coincide con la expresin del estimador de Hansen y Hurwitz para muestreo con
reposicin y probabilidades desiguales. Se cumple que:
( )
V SCG =
M
n
M
1
V ( HH )
M
n 1 n Y
2
M
n
V (SCG ) = i
nSCG
2
= V (HH )
M n( n
1) i =1 Pi M
Se observa que el estimador de Snchez Crespo y Gabeiras tiene menor varianza y
menor varianza estimada que el estimador de Hansen y Hurwitz, ya que:
( )
V SCG =
M
n
M
1
V ( HH ) V (HH ) y V SCG =
M
( )
M
n
V ( HH ) V (HH )
Mtodo de Murthy
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y as sucesivamente. Propuso el estimador del total:
n
P( S / i) X X
2
( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj X i
j
i n n
X M = i =1
, V X M =
P( S ) P( S ) 2 i =1 j > i
Pi Pj
MTODO DE MONTECARLO
Consideremos la variable aleatoria discreta siguiente y veremos cmo se toma una muestra de ella.
x P(x) F(x)
_______________________________________
0 0,41 0,41
1 0,26 0,67
2 0,18 0,85
3 0,10 0,95
4 0,05 1
Observamos los valores de la funcin de distribucin y, basndonos en ellos,
construimos la tabla:
Intervalos x F(x)
_______________________________________
00-40 0 0,41
41-66 1 0,67
67-84 2 0,85
85-94 3 0,95
95-99 4 1
Para seleccionar la muestra aleatoria segn la variable X, elegimos un nmero
aleatorio entre 0 y 99 y observamos en qu intervalo cae, eligiendo para la muestra el valor x
correspondiente a ese intervalo. Tambin se puede tomar el nmero aleatorio y convertirlo
en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el
valor x ms pequeo que verifica F(x) > NA
F(x)
1
0,95
0,85
NA=0,69
0,67
0,41
0 1 2 3 4 x
El valor x ms pequeo que verifica F(x) > 0,69 es x = 2, luego el primer valor para
la muestra es x = 2.
Muestreo estadstico: conceptos, estimadores y su distribucin 63
F(x)
NA
x=F-1(NA) x
Dado el nmero aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).
64 Muestreo estadstico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
2.1. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. Con la
informacin sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamao (nmero de pacientes) con reposicin
utilizando el modelo del tamao acumulativo (o modelo polinomial).
Puesto que sern seleccionados tres hospitales, deben ser elegidos tres nmeros aleatorios entre el
0001 y el 1559 = Pacientes. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu
hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados registraron
los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das:
1) Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales.
2) Establecer un lmite para el error de estimacin con una confianza del 95%.
Para seleccionar tres hospitales para la muestra se eligen tres nmeros aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos nmeros en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuacin se presenta un esquema ilustrativo de la seleccin de las unidades
muestrales.
Muestreo estadstico: conceptos, estimadores y su distribucin 65
M3 = 432
M5=280
M4=220 M2=109 A2 = 150
PPT M3=432 P 2=150/280
M5=280 A3 = 250 A1=80
P3=250/432 P1= 80
190
M6=190 M1=328 M6=190
N = 6, M=1559 n=3
1 1 n
Xi 1 n
Mi Xi 1 n 1 n 1 80 150 250
X = X HH = nP = = X i P = Pi = + + = 0,51
M M i M i M n i n i 3 190 280 432
i
n i
M
Por lo tanto, se estima que un 51% de los pacientes permanece ms de dos das en el
hospital. A continuacin hallamos el error de esta estimacin.
2
Xi
2
2
n n M
1 Y 1 1 n
V (HH ) = i
HH
V ( X HH ) =
X HH = X i
X HH
n(n
1) i =1 Pi
n(n
1) i =1 M i n(n
1) i =1
M
con lo que se tiene:
(P )
n 2
P
1 80
2 2 2
()
i
150 250
V P = i
=
0 ,51 +
0 ,51 +
0 ,51 = 0,0022
n (n
1) 3
2 190 280 432
()
C v P =
V P
=
()
0,0022
= 0,0091 1%
P 0,51
Se observa que el error relativo de muestreo es del 1%. A continuacin se realiza
una estimacin por intervalos al 95% de confianza.
2.2. Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fbricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposicin de 25
fbricas presenta la siguiente distribucin de obreros mayores de 50 aos:
Total de obreros
12 17 23 33 36
mayores de 50 aos
N de fbricas
2 3 9 5 6
de la muestra
9
M2=100 A3 = 23
PI 3
A4 = 33
5 A2 = 17
SR
M400=100 M1=100 A5 = 36 A1 = 12
6 2
N = 400 n = 20
ij
i j
2
i< j 0,00376
0,0625 i < j
[ ]
= 9,957 2
3(12
17 ) + L + 5
6(33
36) 2 = 386906,5
2
V ( A HT ) = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2
+3*6(17-36)2 +9*5(23-33)2+9*6(23-36)2+5*6(33-36)2 = 386906,553
A 10608
PHT = HT = = 0,2642 = 26,42%
M 40000
El estimador insesgado de su varianza ser :
V ( A HT ) 386906,5
V ( PHT ) = = = 0,000242
M2 40000 2
El error absoluto de muestreo ser ( PHT ) = 0,000242 = 0,0155 , con lo que el error
( PHT ) 0,0155
relativo valdr
100 =
100 = 0,05863 5,8% .
PHT 0,2642
68 Muestreo estadstico. Conceptos y problemas resueltos
Grupos ( Poblacin) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mi 44 33 26 22 76 63 20 44 54 34 46 24 46 100 15
Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaos de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introduccin a la
Estadstica. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra) a b c d e
Horas 120 203 100 90 40
La muestra estar formada por los grupos {6, 14, 11, 9, 7} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 6 14 11 9 7
Tamaos ( M i ) 63 100 54 46 20
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 6 14 11 9 7
Horas ( X i ) 120 203 100 90 40
1 120
2 2 2 2 2
203 100 90 40
V X HH =
1,94 +
1,94 +
1,94 +
1,94 +
1,94 = 0,0034
5
4 63 100 54 46 20
V X HH
()
C v P =
=
0,0034
= 0,03 3%
X HH
1,94
La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 9 14 13 12
Tamaos ( M i ) 76 54 100 46 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 5 9 14 13 12
Horas ( X i ) 120 203 100 90 40
1 120
2 2 2 2 2
203 100 90 40
V X HH =
1,99 +
1,99 +
1,99 +
1,99 +
1,96 = 0,73
5
4 76 54 100 46 24
V X HH
0,73
C v X HH = = = 0,429 43%
X 1,99
HH
2
74 Muestreo estadstico. Conceptos y problemas resueltos
2.5. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposicin utilizando el mtodo de Ikeda.
Mediante el mtodo de Ikeda la primera unidad se obtiene sin reposicin con probabilidad Pi
proporcional a su tamao Mi y las n
1 = 4 unidades restantes de la muestra se seleccionan sin
reposicin y con probabilidades iguales (1/4) descartando el elemento elegido inicialmente.
N
n n
1 n
1 N
n
i = * Pi + ij = * (Pi + Pj ) + n
2
N
1 N
1 N
1 N
2 N
2
Las probabilidades Pi, i y los cuatro nmeros aleatorios restantes para seleccionar
las cuatro unidades que faltan para completar la muestra, pueden obtenerse como se indica
en la tabla Excel siguiente.
La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 11 4 2 12
Tamaos ( M i ) 76 46 22 33 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 5 11 4 2 12
Horas ( X i ) 120 203 100 90 40
1 1 25
Xi 1 120 203 100 90 40 1658
X HT = X HT = = + + + + = = 2,56
M M i =1 i 647 0,369 0,336 0,310 0,322 0,312 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a
la materia de Introduccin a la Estadstica es prcticamente dos horas y media. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
1 5 X X X j ij
i j
( )
2
1 5 5
V X HT = 2 V X HT = 2 2i (1
i ) + 2 i =
M M i =1 i i =1 j > i i j
ij
1 X1 X X
X X
2 2
X
(1
1 ) + L + 5 (1
5 ) + 2 1 2 12 1 2 + L + 4 5 45 4 5 =
M 1 5 1 2 12 4 5 45
2
443913,7269
346506,8426
= = 0,232692
647 2
2.6. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposicin utilizando el mtodo de Sampford.
1 + (Pi + Pj )
Pk2 + 2(Pi 2 + Pj2 )
2 Pk3
(n
2) Pi Pj +
k k
ij n(n
1) Pi Pj
+ (n
3)(Pi + Pj )
Pk3
(n
3) Pk2
k k
Para llevar a la prctica el mtodo de Sampford se calculan los Pi = Mi/M y a
continuacin se hallan Pi2 y Pi3, valores que se utilizarn para calculai ij. La siguiente
tarea es calcular Pi/(1
5Pi), Pi = [Pi/(1
5Pi)]/ [Pi/(1
5Pi)] y i = 5Pi.
La siguiente tarea es extraer las cinco unidades muestrales. La primera unidad se extrae
con probabilidad Pi = Mi/M proporcional a su tamao Mi y las siguientes unidades se extraen con
probabilidades Pi= [Pi/(1
5Pi)]/[Pi/(1
5Pi)] proporcionales a Pi/(1
5Pi), con reemplazamiento.
Si sale alguna unidad repetida se repiten otra vez todas las extracciones hasta que no salga
ninguna repetida. Para elegir la primera unidad proporcional a su tamao podemos utilizar el
mtodo de Lahiri del problema 2.4, resultando seleccionada como primera unidad muestral u5.
Para elegir las cuatro siguientes unidades volvemos a repetir el mtodo de Lahiri [extraccin de
pares de nmeros aleatorios (i,j) con 1 i 15 y 0 j Mx(Mi) = 0,68 hasta que j Mi] y
resultan elegidas u3, u8, u13 y u14. Las tablas siguientes ilustran las frmulas con Excel y los
resultados obtenidos.
La muestra estar formada por los grupos {5, 3, 8, 13, 14} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 3 8 13 14
Tamaos ( M i ) 76 26 44 46 100
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 5 3 8 13 14
Horas ( X i ) 120 203 100 90 40
1 1 25
Xi 1 120 203 100 90 40 1813,7
X HT = X HT = = + + + + = = 2,8
M M i =1 i 647 0,587 0,201 0,340 0,355 0,772 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 2,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 5).
1 5 X2 X X j ij
i j
1
( )
5 5
V X HT = 2 V X HT = 2 2i (1
i ) + 2 i =
M M i =1 i
i =1 j > i i j ij
X 12 45
4 5
(1
5 ) + 2 X 1 X 2 12
1 2
1 X 52 X X
(1
1 ) + L + + L + 4 5 =
M2 1 5 1 2 12 4 5 45
931870,648
385862,8633
= = 1,3043
647 2
V X HT
1,3043
C v X HT = = = 0,4074 41%
X
HT
2,8
2.7. Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin mediante el mtodo de Brewer.
Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi
(1
Pi ) Pi <
(1
2 Pi )
y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .
2 Pi Pj 1 1
i = 2Pi ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi
Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.
82 Muestreo estadstico. Conceptos y problemas resueltos
La muestra estar formada por los grupos {12, 4} cuyos tamaos son los siguientes:
Grupos ( Muestra) 12 4
Tamaos ( M i ) 24 22
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 12 4
Horas ( X i ) 120 203
1 1 25
Xi 1 120 203 4602,5227
X HT = X HT = = + = = 4,614
M M i =1 i 647 0,074 0,068 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,6 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
1 5 X i2 X X
= 1 V X ( )
5 5
V X HT = 2
(1
i ) + 2 i j ij i j =
M 2 HT
M i =1 i 2
i =1 j > i i j ij
1 X 12
(1
2 ) + 2 X 1 X 2 12
1 2 = 9,458
X 22
2
(1
1 ) +
M 12
22
1 2 12
V X HT
9,458
C v X HT = = = 0,66 66%
X 4,614
HT
2.8. Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin utilizando el estimador de Murthy.
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y as sucesivamente. Propuso el estimador del total:
P( S / i) X X
2
( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj X i
j
i n n
X M = i =1
, V X M =
P( S ) P( S ) 2 i =1 j > i
Pi Pj
2
Pj 1 Xi Xj (1
Pi )(1
Pj )(1
Pi
Pj ) Xi X j
i = Pi 1+ X M = (1
Pj ) + (1
Pi ) , V(X M ) =
P P
j i 1
Pj 2
Pi
Pj Pi Pj (2
Pi
Pj )2 i j
Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.
Muestreo estadstico: conceptos, estimadores y su distribucin 85
La muestra estar formada por los grupos {10, 2} cuyos tamaos son los siguientes:
Grupos ( Muestra) 10 2
Tamaos ( M i ) 34 33
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 10 2
Horas ( X i ) 120 203
ESTIMADOR
MUESTRA Mi Pi=Mi/M i Xi Xi/Pi DEL TOTAL
10 34 0,05255 0,055375 120 2283,5294 3131,088537
2 33 0,051005 0,053834 203 3980,0303
1 1 1 Xi Xj 1
X HT = X HT = (1
Pj ) + (1
Pi ) = 3131,088 = 4,839
M M 2
Pi
Pj Pi Pj 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza.
(1
P )(1
P )(1
P
P ) X X
2
M
1
( ) M
1
V X HT = 2 V X HT = 2
i j
(2
Pi
Pj ) 2
i j
i
j = 1 1223240,6 = 2,92
P Pj 6472
i
86 Muestreo estadstico. Conceptos y problemas resueltos
V X HT
2,92
C v X HT = = = 0,3532 35%
HTX 4,839
2.9. En una regin montaosa de 25000 hectreas se trata de estudiar la superficie dedicada a la
plantacin de pinos. La regin de divide en 100 zonas disjuntas lo ms similares entre s, de
tal forma que cada zona contiene plantas de todas las clases que crecen en la regin. Se
extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a
sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:
0.05, 0.25, 0.10, 0.30, 0.15, 0.25, 0.35, 0.25, 0.10 y 0.20
Se pide:
2) Contestar a las mismas preguntas del apartado anterior suponiendo que la seleccin es
sin reposicin mediante el mtodo de Ikeda. En este caso considerar la muestra con slo
tres zonas de igual superficie (250 hectreas) para las que las proporciones de superficie
total dedicadas a la plantacin de pinos en cada una de ellas son 0.25, 0.35 y 0.40,
respectivamente. Se supone en este caso que las 100 zonas de la poblacin son de igual
superficie.
N = 100 M = 25000 n = 20
88 Muestreo estadstico. Conceptos y problemas resueltos
n
X n
Xi M n
Xi 25000
X HH = i = = M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i
M
2 2 2
n Xi n
Xi
n
X
X
X M i
X HH
i =1 Pi
HH
i =1 M i M
HH Mi
i =1
V ( X HH ) = = = =
n(n
1) n(n
1) n(n
1)
(25000
0,05
5000) 2 + (25000
0,25
5000) 2 + L + (25000
0,20
5000) 2
= 590278
10(10
1)
V ( X ) 590278
C v( X ) = = = 0,15 (15%)
X 5000
( X ) 590278
X = 5000 = [1564, 8346]
0,05
Para resolver el segundo apartado del problema consideramos la muestra con slo tres
zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total
dedicadas a la plantacin de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente.
Como los Pi son proporcionales a las superficies de las zonas se tiene:
M 250
P = i = = 0,01 (i = 1,2,3 j = 1,2,3)
X1 X1 i M 25000
= = 0,25 X 1 = 62,5
M 1 250 i = Pi + n
1 (1
Pi ) = 0,01 + 2
0,9 = 0,028
X2 X N
1 99
= 2 = 0,35 X 2 = 87,5
P + Pj
M 2 250 ij = (n
1) [( N
n)
i +
n
2
]=
X3 X3 ( N
1) N
2 N
2
= = 0,40 X 3 = 100
M 3 250 = (3
1) [(100
3)
0,02 + 3
2 ] = 0,006
(100
1) 100
2 100
2
n
Xi 1
Sin reposicin X HT = = (62,5 + 87,5 + 100) = 8928,6
i =1 i 0,028
Muestreo estadstico: conceptos, estimadores y su distribucin 89
2
n
X n
X X
i j
V ( X HT ) = i (1
i ) + 2 i j ij = 49429600
i =1 i
i< j i j ij
49429600
C v( X ) = = 0,78 X ( X ) = [
5122.6, 22989.8]
8928,6
2.10. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15
departamentos. Se selecciona una muestra de tres departamentos con reposicin y
probabilidades proporcionales al nmero de artculos de equipo en cada departamento. La
tabla siguiente presenta el nmero de artculos de equipo NA en cada departamento D.
D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6
a) Suponiendo que los tres departamentos seleccionados (que sern los de mayor
probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero
total de artculos impropiamente identificados en la empresa y su error relativo de muestreo.
M1=12 M2 = 9 M3 =10
M4=40
A1 = 2
M4=40 M5 = 35 M6 =15 PPT M5=35 P 1=2/40
A 2 = 2 A3=2
M7=18 M8 = 10 M9 =31 CR P 2=2/35 P3= 2
33
M10=22 M11= 22 M12 =19 M14=33
40 35 33
P1 = , P2 = y P3 =
315 315 315
90 Muestreo estadstico. Conceptos y problemas resueltos
Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n
A n
M i Pi 1 n M i Pi M n
315 2 2 2
A HH = i = = = P = i + + 18
i nPi i n Mi M n i Mi M n i 3 40 35 33
Pi = proporcin muestral en el conglomerado i-simo.
()
V A = i
n (n
1)
= i
n (n
1)
= i
n (n
1)
=
315 2 2 18
2
2 18
2
2 18
2
+
+
= 1,04209
3
2 40 315 35 315 33 315
1 1 n
A 1 M n
1 n 1 36 30 27
PHH = AHH = i nPi = M n i i = n i Pi = 3 40 + 35 + 33 = 0,858
P
M M i
(P
P )
n 2
1 36
2 2 2
() 1
() 30 27
i
V P = 2 V A = i
=
0,858 +
0,858 +
0,858 = 0,000558
M n(n
1) 3
2 40 35 33
P V ( P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043]
2.11. Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una,
emprende un proceso de auditora informtica. Para ello se extrae una muestra sin reposicin
y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay
microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos
ordenadores defectuosos. Se pide:
2) Resolver el problema con reposicin y comparar los resultados con los del apartado
primero.
Muestreo estadstico: conceptos, estimadores y su distribucin 91
Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposicin, el
total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y
Thompson. Adems, al ser el muestreo con probabilidades iguales tenemos que i = n/N =
20/1000 = 0,02 y ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:
25
A 9
0 + 8
1 + 3
2
A HT = i = = 700
i =1 i 0,02
A Aj ij
i j 1
0,02 20 2 2(0,00038
0,022 ) 20 20
( ) A2
20 20 20
V A HT = i2 (1
i ) + 2 i
0,022 Ai Aj
= Ai +
i =1 i
i =1 j >i i j 0,022
0,00038 i =1 j >i
ij i =1
9 8 3
2450(9
02 + 8
12 + 3
22 )
263,15 (0
0) + 9
8(0
1) + 9
3(0
2) + (1
1) + 8
3(1
2) + (2
2)
2 2 2
= 25842,1
V ( A ) 25842,1
C v( A ) = = = 0,2296 (22,96%)
A 700
( A ) 25842,1
A = 700 = [
907.55, 2307.55]
0,01
Para muestreo sin reposicin, para estimar la varianza podramos haber tomado el
estimador de Yates y Grundy:
2
20
j
ij
Ai A j 2
= 0,02
0,00038 (Ai
A j )2 =
20
V ( A HT ) =
i
ij
i< j i j 0,00038
0,02 2 i < j
[
= 131,58 9
8(0
1) + 9
3(0
2 ) L + 8
3(1
2) 2 = 26842,3
2 2
]
Se observa que el estimador de Yates y Grundy sobreestima la varianza en este caso.
n
A n
A N n
1000
A HH = i = i = A i = (9
0 + 8
1 + 3
2) = 700
i nPi 1 n 20
i
n i
()
i
V A = i = i = i =1
= i =1
=
n (n
1) n (n
1) 20 (20
1) 380
=
1000
38
[ 2 2 2
]
9 (10
0
7 ) + 8 (10
1
7 ) + 3(10
2
7 ) = 26842 ,1
V ( A ) 26842,1
C v( A ) = = = 0,234 (23,4%)
A 700
( A ) 26842,1
A = 700 = [
921.9, 2321.9]
0,01
V ( A ) 26842,3
C v( A ) = = = 0,234 (23,4%)
A 700
( A ) 26842,1
A = 700 = [
938.35, 2338.35]
0,01
Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo
con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea,
peores) en muestreo con reposicin. La ganancia en precisin es (26842,1/25842,1-1)100=3,8%,
que es una cantidad pequea. Tambin se observa que el estimador de Yates y Grundy para
muestreo sin reposicin sobreestima la varianza hasta hacerla incluso mayor que en el caso de
con reposicin (debido a la baja ganancia en precisin del muestreo sin reposicin).
Muestreo estadstico: conceptos, estimadores y su distribucin 93
2.12. Generar una muestra de tamao 50 de cada una de las siguientes distribuciones:
a) Uniforme entre 10 y 20
b) Poisson con =1
Calcular la media aritmtica en cada muestra y realizar un histograma para sus valores
comentando los resultados.
Para obtener muestras aleatorias segn una distribucin dada es necesario utilizar una
herramienta adecuada. Antiguamente se usaban tablas de nmeros aleatorios, pero en la
actualidad cualquier software estadstico dispone de esta funcionalidad. Por ejemplo, Excel
dispone de dos funciones para seleccin de nmeros aleatorios uniformemente con reposicin.
La funcin ALEATORIO( ) devuelve un nmero aleatorio mayor o igual que 0 y menor que 1,
distribuido uniformemente. Cada vez que se calcula la hoja de clculo, se devuelve un nmero
aleatorio nuevo. Si desea usar ALEATORIO para generar un nmero aleatorio, pero no desea
que los nmeros cambien cada vez que se calcule la celda, puede escribir =ALEATORIO( ) en
la barra de frmulas y, despus, pulsar la tecla F9 para cambiar la frmula a un nmero
aleatorio. Para generar un nmero real aleatorio entre a y b, use: ALEATORIO( )*(b-a)+a. No
obstante, la funcin ALEATORIO.ENTRE(a,b) devuelve un nmero entero aleatorio
uniforme entre los nmeros a y b
Por otra parte, Excel permite obtener nmeros aleatorios independientes extrados
segn una distribucin dada utilizando herramientas de anlisis. Si en el cuadro de dilogo
Anlisis de datos de la Figura 2-1 elegimos Generacin de nmeros aleatorios, se obtiene el
cuadro de dilogo Generacin de nmeros aleatorios de la Figura 2-2. En el cuadro Nmeros
de variables introduzca el nmero de columnas de valores que desee incluir en la tabla de
resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas las columnas del
rango de salida que se haya especificado. En el cuadro Cantidad de nmeros aleatorios
introduzca el nmero de puntos de datos que desee ver. Cada punto de datos aparecer en una
fila de la tabla de resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas
las columnas del rango de salida que se haya especificado. En el cuadro Distribucin haga clic
en la distribucin estadstica que desee utilizar para crear los valores aleatorios.
Normal: Caracterizada por una media y una desviacin estndar. Una aplicacin normal
utilizar una media de 0 y una desviacin estndar de 1 para la distribucin estndar normal.
Bernoulli: Caracterizada por la probabilidad de xito (valor p) en un ensayo dado. La
variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una
variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la
probabilidad de xito, se asignar el valor 1 a la variable aleatoria de Bernoulli; en caso
contrario, se le asignar el valor 0.
Binomial: Caracterizada por una probabilidad de xito (valor p) durante un nmero de
pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de nmero de
pruebas, cuya suma ser una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribucin de Poisson se
utiliza con frecuencia para caracterizar el nmero de incidencias por unidad de tiempo; por
ejemplo, el ritmo promedio al que llegan los vehculos a una garita de peaje.
Frecuencia relativa: Caracterizada por un lmite inferior y superior, un incremento, un
porcentaje de repeticin para valores y un ritmo de repeticin de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe
contener dos columnas. La columna izquierda deber contener valores y la derecha
probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1.
En el campo Parmetros introduzca un valor o valores para caracterizar la
distribucin seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual
se generarn nmeros aleatorios. Podr volver a utilizar este valor para generar los mismos
nmeros aleatorios ms adelante. En el cuadro Rango de salida introduzca la referencia
correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel
determinar el tamao del rea de resultados y mostrar un mensaje si la tabla de resultados
reemplaza datos ya existentes. Haga clic en la opcin En una hoja nueva para insertar una
hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo. Para asignar un nombre a la nueva hoja de clculo, escrbalo en el cuadro.
Haga clic en la opcin En un libro nuevo para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las
opciones de Generacin de nmeros aleatorios de la Figura 2-2 (10 nmeros aleatorios
normales de media cero y varianza 1 con semilla 50).
Figura 2-3
Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposicin de
una poblacin numrica dada como rango de entrada. Si en el cuadro de dilogo Anlisis de datos
de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de dilogo Muestra de la Figura 2-5. A
continuacin se explica la funcionalidad de todos los campos del cuadro de dilogo Muestra.
Muestreo estadstico: conceptos, estimadores y su distribucin 95
Figura 2-4
Rtulos: Active esta casilla si la primera fila y la primera columna del rango de entrada
contienen rtulos. Desactvela si el rango de entrada carece de rtulos; Excel generar los
rtulos de datos correspondientes para la tabla de resultados.
Perodo: Introduzca el intervalo peridico en el que desee realizar la muestra. El valor n del
perodo del rango de entrada y cada valor n del perodo siguiente se copiarn en la columna
de resultados. El muestreo terminar cuando se llegue al final del rango de entrada.
En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.
En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados
en una hoja nueva del libro creado.
Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamao
10 con reposicin de la columna C de la Figura 2-6, que ha sido extrada de la poblacin de
22 elementos de la columna B. Si la muestra se quiere sin reposicin, se utiliza este mismo
procedimiento hasta obtener tantos elementos distintos como tamao muestral se requiera.
Figura 2-7
Figura 2-8
Figura 2-11
98 Muestreo estadstico. Conceptos y problemas resueltos
2.13. Sea la poblacin {U1, U2, U3} en la que se conocen los valores de una determinada variable X:
X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades
proporcionales a los valores de la variable X en cada extraccin, resultando elegidas las unidades U1
y U3. Se pide:
1) Calcular la estimacin puntual lineal insesgada para el total de la variable X.
2) Calcular la estimacin por intervalos al 95% para el total de la variable X (poblacin normal).
Como el muestreo es con probabilidades proporcionales a los nmeros 2, 3 y 6,
tenemos que las probabilidades iniciales de seleccin de cada unidad poblacional para la
muestra son Pi = Mi/Mi, es decir: 2/11, 3/11 y 6/11. Como el mtodo es sin reposicin
tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:
1
2 Pi 3
P
i = Pi + i
1
Pi i =1 1
Pi
1
2( 2 / 11) 2 / 11 3 / 11 6 / 11
1 = (2 / 11) + + + = 0,468
1
2 / 11 1
2 / 11 1
3 / 11 1
6 / 11
1
2(3 / 11) 2 / 11 3 / 11 6 / 11
2 = (3 / 11) + + + = 0,660
1
3 / 11 1
2 / 11 1
3 / 11 1
6 / 11
1
2(6 / 11) 2 / 11 3 / 11 6 / 11
3 = (6 / 11) + + + = 0,871
1
6 / 11 1
2 / 11 1
3 / 11 1
6 / 11
2
X 2 6
X HT = i = + = 11,16
i =1 i 0,468 0,871
12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase tambin mediante:
1 1 2 6 1 1
ij = Pi Pj + = +
11 11 1
2 / 11 1
6 / 11
=0,34
1
P 1
P
i j
X X j ij
i j 4(1
0,468) 36(1
0,871)
( ) X2
2 2 2
V X HT = 2i (1
i ) + 2 i = + +
i =1 i i =1 j > i i j
ij 0,468 2 0,8712
2 6 0,34
(0,468)(0,871)
+2
= 15,837
11,711 = 4,126
0,468 0,871 0,34
( X HT ) 4,126
El error relativo de muestreo ser
100 =
100 18,2%
X HT 22
La estimacin por intervalos suponiendo normalidad en la poblacin es:
2.14. Consideremos una regin con N = 3 municipios con una poblacin de 3, 5 y 7 miles de habitantes
cada uno. Sabemos que la variable X = Nmero de mujeres en cada municipio toma los valores 1,
3, y 4 (en miles). Para estudiar el nmero medio de mujeres en la regin se toman muestras de dos
municipios con probabilidades proporcionales a sus tamaos sin reposicin y sin tener en cuenta el
orden de colocacin de sus elementos utilizando el mtodo de Brewer. A partir de las distribuciones
en el muestreo de X HT y V ( X HT ) , hallar V ( X HT ) , E ( X HT ) y E (V ( X HT )) . Comentar los
resultados.
Como estamos ante un mtodo de seleccin de unidades primarias compuestas con
probabilidades iniciales proporcionales a los tamaos 3, 5 y 7, dichas probabilidades sern
{3/15, 5/15, 7/15}. Como no hay reposicin y las probabilidades son desiguales, utilizamos el
estimador de Horwitz y Thompson.
Dado que el mtodo de seleccin es el de Brewer tenemos:
2 Pi Pj 1 1
i = nPi = 2Pi , ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi
Segn el esquema de probabilidades gradualmente variables, se puede suponer que existen seis
bolas en una urna de las que una bola representa a la unidad u1, dos bolas representan a la unidad
u2 y tres bolas representan a la unidad u3, ya que P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 = 2/6 y P3 =
p(u3) = 1/2 = 3/6. En cada seleccin se extrae una nica bola que no se repone a la urna para
seleccionar la siguiente bola, con lo que al seleccionar la segunda bola falta una bola de la urna.
Segn este esquema, el espacio muestral y las probabilidades asociadas a las muestras sern:
S(X ) P (u i , u j ) = P (u i ) P (u j / u i ) + P (u j ) P (u i / u j )
(u 1 , u 2 ) 1 1 2 1 2
+
= = 0 ,13333333
6 5 6 5 15
(u 1 , u 3 ) 1 3 3 1 3
+
= = 0,2
6 5 6 5 15
2 1 1
(u 2 , u 2 )
= = 0 , 06666666
6 5 15
2 3 3 2 6
(u 2 , u 3 )
+
= = 0,4
6 5 6 5 15
3 2 3
= = 0,2
(u 3 , u 3 ) 6 5 15
n
X X X
X SCG = i = 1 + 2
i =1 nPi 2 P1 2 P2
6
2 1 X 12 X 22 X 32
( )
Su varianza es V X HT =
M
n 1 n X i2
M
1 n i =1 Pi
X 2 =
6
1 2 P1
+
P2
+
P3
82
El estimador insesgado de la varianza vale:
M
n 1 n Xi 6
2 1 X 2 X 2
2
V ( X SCG) =
nX SCG
2
= 1 + 2
2 X SCG
2
M n(n
1) i =1 Pi 6 2(2
1) P1 P2
1 X
2 2
X X X
X1 X2 ij X SCG = 1 + 2 V ( X SCG ) = 1 + 2
2 X SCG
2
2 P1 2 P2 3 P1 P2
1 3 0 ,1333 7 ,5 1,5
1 4 0,2 7 0 , 6666
3 3 0 , 0666 9 0
3 4 0,4 8 ,5 0 ,1666
4 4 0,2 8 0
Muestreo estadstico: conceptos, estimadores y su distribucin 101
Para el caso de muestreo con reposicin sin importar el orden de colocacin de los
elementos en las muestras la probabilidad de cualquier muestra ser:
P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2
Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 =
p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposicin el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X HH = X1/2P1 +
X2/2P2). Como estimador insesgado para la varianza se puede utilizar:
1 n X 2 1 X 2 X
2
V ( X HH ) = i
nX HH
2
= 1 + 2
2 X HH
2
n ( n
1) i =1 Pi 2( 2
1) P1 P2
1 X
2 2
X X X
X1 X2 Pij = P ( u i , u j ) X HH = 1 + 2 V ( X HH ) = 1 + 2
2 X HH
2
2 P1 2 P2 2 P1 P
2
1 1 0 ,1666 6 0
1 3 0 ,1666 7 ,5 2 , 25
1 4 0 ,1666 7 1
3 3 0 ,3333 9 0
3 4 0 ,3333 8 ,5 0 , 25
4 4 0 ,5 8 0
El clculo de la varianza del estimador del total de Hansen y Hurwitz tambin puede
realizarse a travs de su frmula correspondiente como sigue:
1 12 32 42
( ) 1 3 X2
2 i =1 Pi
1 X2 X2 X2
V X HT = i
X 2 = 1 + 2 + 3
82 =
+ +
82 = 0,5
2 P1 P2 P3 2 1/ 6 1/ 3 1/ 2
M
n
Observando los resultados vemos que se cumple V ( X SCG ) =
V ( X HH ) , ya que
M
1
0,4=[(6-2)/(6-1)]0,5.
M
n
Adems, V ( X SCG ) =
V ( X HH ) , ya que V ( X SCG ) = [(6-2)/6] V ( X HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.
( )
Como V ( X SCG ) =0,4 y V X HT =0,5, el mtodo de seleccin con probabilidades
gradualmente variables con el estimador de Snchez Crespo y Gabeiras resulta ms preciso
que el mtodo de seleccin con reposicin de Hansen y Hurwitz.
2.16. Supongamos que tenemos una poblacin de N = 5 nios para los que sus edades correspondientes en
aos son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposi-
cin de tamao 2 de la poblacin de nios con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los nios basado en la muestra de
mayor probabilidad, as como su error de muestreo.
2) Si consideramos la seleccin de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
nios basado en la muestra (4,8) as como su error de muestreo.
Como no se especifica nada respecto al orden de colocacin de los elementos en las muestras y
el muestreo es sin reposicin, supondremos que el orden no interviene. Habr entonces
5
=10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
2
Las probabilidades iniciales de seleccin Pi proporcionales a M1=10, M2=16, M3=16,
M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25,
M4/M=1/4, M5/M=33/100}. Las probabilidades ij se calcularn de la siguiente forma:
1 = 12+13+14+15=0,0368+0,0368+0,0611+0,0859=0,22069
2 = 12+23+24+25=0,0368+0,0609+0,1009+0,1416=0,34039
3 = 13+23+34+35=0,0368+0,0609+0,1009+0,1416=0,34039
4 = 14+24+34+45=0,0611+0,1009+0,1009+0,2331=0,49614
5 = 15+25+35+45=0,0859+0,1416+0,1416+0,2331=0,60237
Tambin pueden calcularse los i mediante una expresin que los haga depender
solamente de los Pi, tal y como se indica a continuacin.
Mi P Pj P
= Pi + Pj = Pi + i Pj = Pi 1 + = Pi 1
2Pi + Pi + j
j i M
M j j i 1
Pj
j i 1
P 1
P j i 1
Pj
j i
1
2Pi Pi P = P 1
2Pi + Pj
= Pi 1
2Pi + Pi
N N
+
j
= Pi +
1
Pi 1
Pi j i 1
Pj i
1
P
j =1 1
Pj
144 42444 3 i 1
Pi i =1 1
Pi
Y como ya conocemos las Pi, para calcular las probabilidades ij basta sustituir en
la frmula anterior, con lo que se obtienen los mismos resultados. El diseo muestral ser el
siguiente:
2
Xi 1 2 X
S(X ) P ( X ) = ij X HT = X HT = i
i =1 i N i =1 i
(3,3) 0,0368 3 / 0, 22069 + 3 / 0,34039 = 22 , 41 4, 482
(3, 4) 0,0368 3 / 0, 22069 + 4 / 0,34039 = 25,34 5,068
(3,6) 0,0611 3 / 0, 22069 + 6 / 0, 49614 = 25,69 5,138
(3,8) 0,0859 3 / 0, 22069 + 8 / 0,60237 = 26 ,87 5,374
(3, 4) 0,0609 3 / 0,34039 + 4 / 0,34039 = 20 ,56 4,112
(3,6) 0,1009 3 / 0,34039 + 6 / 0, 49614 = 20 ,91 4,182
(3,8) 0,1416 3 / 0,34039 + 8 / 0,60237 = 22 ,09 4, 418
( 4,6 ) 0,1009 4 / 0,34039 + 6 / 0, 49614 = 23,84 4,768
( 4,8) 0,1416 4 / 0,34039 + 8 / 0,60237 = 25,03 5,006
(6,8) 0,2331 6 / 0, 49614 + 8 / 0,60237 = 25,37 5,074
104 Muestreo estadstico. Conceptos y problemas resueltos
ij = P((u i u j ) ( ~x )) = P(u i 1 u j 2 ) + P (u j 1 u i 2 )
= P(u i 1 ) P(u j 2 / u i 1 ) + P(u j 1 ) P(u i 2 / u j 1 ) =
Mi 1 M j 1 1 1 Pi + Pj
+
= Pi
+ Pj
=
M 4 M 4 4 4 4
Calculamos ahora los i mediante una expresin que los haga depender solamente de
los Pi, tal y como se indica a continuacin.
1 1 1 3 1
= Pi + Pj = Pi + Pj = Pi + (1
Pi ) = Pi +
j i 4 4 j i 4 4 4
Muestreo estadstico: conceptos, estimadores y su distribucin 105
Se observa que estamos ante el mtodo de seleccin sin reposicin de Ikeda para el
caso de tamao de muestra n=2, con lo que las i y ij tambin podran haberse calculado
mediante las expresiones siguientes (se obtendran los mismos resultados):
n
1 N
n n
1
i = Pi + (1
Pi ) * = * Pi +
N
1 N
1 N
1
n
1 N
n
ij = * (Pi + Pj ) + n
2
N
1 N
2 N
2
Ya tenemos todos los datos para calcular los valores de i y ij , pues slo dependen de Pi
y Pj que son datos. Tambin podemos calcular ya el estimador X HT . El diseo muestral ser:
Pi + Pj 2
X 3 1
S ( X ) P( X ) = ij = X HT = i i = Pi +
4 i =1 i 4 4
(3,3) 0,065 3 / 0,325 + 3 / 0,37 = 17,34
(3,4) 0,065 3 / 0,325 + 4 / 0,37 = 20,04
(3,6) 0,0875 3 / 0,325 + 6 / 0,4375 = 22,95 0,325
(3,8) 0,1075 3 / 0,325 + 8 / 0,4975 = 25,31 0,37
(3,4) 0,08 3 / 0,37 + 4 / 0,37 = 18,92 0,37
(3,6) 0,1025 3 / 0,37 + 6 / 0,4375 = 21,82 0,4375
(3,8) 0,1225 3 / 0,37 + 8 / 0,4975 = 24,19 0,4975
(4,6) 0,1025 4 / 0,37 + 6 / 0,4375 = 24,53
(4,8) 0,1225 4 / 0,37 + 8 / 0,4975 = 26,90
(6,8) 0,145 6 / 0,4375 + 8 / 0,4975 = 29,8
Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obtenindose que la edad
media estimada de los nios es 5 aos aproximadamente.
Para hallar la varianza del estimador del total se puede utilizar su distribucin en el
muestreo o bien se puede aplicar directamente la frmula apropiada tal y como se indica a
continuacin:
( ) X2 X Xj 2 2
( ij
i j ) = X1 (1
1 ) + L + X 5 (1
5 ) +
5 5 5
V X HT = i (1
i ) + 2 i
i =1 i i =1 j > i i j 1 5
X X X X 32 82
+ 2 1 2 (12
1 2 ) + L + 4 5 ( 45
4 5 ) = (1
0,325) + L + (1
0,4975)
1 2 4 5 0,325 0,4975
3 3
+ 2 (0,065
0,325* 0,37) + L + 6 8
(0,145
0,4375* 0,4975) = 12,66
0,325 0,37 0,4375 0,4975
X X (
) X 2 X X (
)
( ) X2 X2
2 2 2
V X HT = 2i (1
i ) + 2 i j ij i j = 12 (1
1 ) + 22 (1
2 ) + 2 1 2 12 1 2
i =1 i i =1 j >i i j ij 1 2 1 2 12
8 (0,1225
0,37 * 0,4975])
2 2
4 8
= 2
(1
0,37) + 2
(1
0,4975) + 2 4 = 43,3
0,37 0,4975 0,37 0,4975 0,1225
1
( )
Para la media se tiene que V X HT = V X HT = 1,73 .
25
Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) tambin
se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:
X X j ( i j
ij ) X1 X 2 (1 2
12 ) 4
2 2
8 (0,37* 0,4975
0,1225])
2
2 2
( )
V X HT = i
j
=
=
=13,958
i =1 j >i i ij 1 2 12 0,37 0,4975 0,1225
Para la media, V X HT
25
( )
= 1 V X
HT = 0,55
Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza
del total resulta ms preciso que el estimador de la varianza de Horwitz y Thompson.
Muestreo estadstico: conceptos, estimadores y su distribucin 107
EJERCICIOS PROPUESTOS
2.1. Supongamos que tenemos una poblacin de N = 3 unidades primarias de la que se obtienen
todas las muestras posibles de tamao n = 2 con probabilidades iguales y bajo los siguientes
supuestos:
Muestreo sin reposicin sin intervenir el orden
Muestreo sin reposicin interviniendo el orden
Muestreo con reposicin sin intervenir el orden
Muestreo con reposicin interviniendo el orden
Se pide:
Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades
asociadas a las muestras.
Si al medir una variable X sobre los elementos de la poblacin se obtienen los valores {1, 3, 4},
cul de todos los mtodos de muestreo es ms preciso al estimar el total poblacional mediante
un estimador lineal insesgado apropiado?
2.2. Una poblacin consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposicin de tamao 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N de conglomerados
2 3 9 5 6
de la muestra
2.3. Supongamos que tenemos una poblacin de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamao n = 2
sin reposicin asignando en la primera extraccin probabilidades proporcionales a los nmeros
10, 16, 16, 25 y 33, y tambin en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Calcular las probabilidades ij (ij) y comprobar que i =2 para i = 1, 2, ..., 5
N N
Comprobar tambin que i = n
j y
i =1
i =1
ij = (n
1) j .
i j i j
Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), as como sus errores de muestreo.
2.4. Supongamos que tenemos una poblacin de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de seleccin
proporcionales a los tamaos 3, 5 y 7. Se toman muestras de tamao n=2 sin reposicin y sin
tener en cuenta el orden de colocacin de los elementos mediante el mtodo de seleccin de
Durbin. A partir de las distribuciones en el muestreo de X y V ( X ) , hallar V ( X ) ,
HT HT HT
OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposicin o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposicin.
4. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple sin reposicin.
5. Especificar los factores de elevacin en muestreo aleatorio simple sin
reposicin.
6. Evaluar el tamao de la muestra en muestreo aleatorio simple sin
reposicin.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposicin.
8. Analizar el muestreo aleatorio simple con reposicin.
9. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple con reposicin.
10. Especificar los factores de elevacin en muestreo aleatorio simple con
reposicin.
11. Evaluar el tamao de la muestra en muestreo aleatorio simple con
reposicin.
12. Comparar el muestreo aleatorio simple con y sin reposicin.
13. Obtener estimadores en subpoblaciones con y sin reposicin.
14. Calcular errores y estimacin de los errores en subpoblaciones con y sin
reposicin.
110 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Muestreo aleatorio simple sin reposicin. Especificaciones
2. Estimadores, varianzas y estimacin de varianzas.
3. Tamao de la muestra.
4. Muestreo aleatorio simple con reposicin. Estimadores
5. Varianzas y su estimacin con reposicin.
6. Tamao de la muestra con reposicin.
7. Comparacin entre muestreo aleatorio sin y con reposicin.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 111
Podramos resumir las especificaciones del muestro aleatorio simple sin reposicin o
muestreo irrestricto aleatorio como sigue:
En la seleccin de una muestra aleatoria simple sin reposicin de n elementos de entre los N
de la poblacin, el espacio muestral asociado tiene un nmero total de muestras igual a:
N
C N ,n =
n
Casos favorables 1 1
p( u1 ,L, un ) = = =
Casos posibles C N ,n N
n
N
1
CN
1,n
1 =
n
1
ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas
posibles de seleccionar de entre los N-1 elementos de la poblacin restantes n-1 de ellos para
la muestra (el elemento ui ya est fijo en la muestra).
Tenemos entonces:
i = P (u i ( ~x ) ) =
Casos favorables
=
Casos posibles
N de muestras que contienen la unidad u i
=
N total de muestras
N
1 ( N
1)! ( N
1)!
1 = ( n
1)! ( N
n )! = ( n
1)! ( N
n )! = 1 = n
=
n
N N! N .( N
1)! N N
n n ! ( N
n )! n ( n
1 )! ( N
n )! n
Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposicin
es el estimador de Horvitz y Thompson HT .
Y
()
n N
Se tiene que HT = i estima = Yi , con E = , es decir, insesgadamente,
i =1 i i =1
Entonces podemos deducir los estimadores lineales insesgados para el total (Yi=Xi),
media (Yi =Xi/N), proporcin (Yi =Ai/N) y total de clase (Yi =Ai) como sigue:
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 113
N n
Xi n
Xi 1 n
= X = X i Yi = X i = X = = = N X i = Nx
i =1 i i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
= X = Yi = = X = N = N = X i = x
i =1 N N i =1 i i =1 n n i =1
N
Ai
N
A A n
1 n
= P = i Yi = i = P = N = Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
= A = Ai Yi = Ai = A = i = N Ai = NP
i =1 i =1 n n i =1
N
Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
Y N 2 N Yi Yj
( )
V $HT = i (1
i ) + 2
i =1 i i< j i j
( ij
i j )
Para el caso particular del muestreo aleatorio simple sin reposicin se sabe que i = n/N
y ij = n(n
1) / [N(N
1)]. Considerando el estimador del total y sustituyendo estos valores de i
y ij en la expresin de la varianza tenemos:
j n (n
1)
N X X
( ) X2 n n n
N N
V X = i 1
+ 2
i
i =1 n N i =1 j > i n n N ( N
1) N N
N N N
2
1 N
n N
1
( X i
X ) S2
= N 2 1
i =1
= N 2 (1
f )
N n n
Para los estimadores de la media, total y total de clase tenemos:
N
PQ
()
2 2
S S N 1
V X = (1
f ) V P = (1
f )
= (1
f ) N
1 = (1
f )PQ
n n n N
1 n
N
PQ
()
2
S N
1 N3 1
V A = N (1
f )
2
= N (1
f )
2
= (1
f )PQ
n n N
1 n
114 Muestreo estadstico. Conceptos y problemas resueltos
Estimacin de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
Y
n 2 n Yi Yj ij
i
V$ ( $ HT ) = i 2 ( 1
i ) +
j
i =1 i i< j i j ij
Si aplicamos la expresin anterior al estimador del total tendremos:
n(n
1) n n
X i X j N (N
1) N N
( )
2
X
n
n n n
V X = 1
+ 2
i
=
i =1 n
2
N i =1 j > i n n n(n
1)
N2 N N N (N
1)
N (N
n ) 1 n 2 2 (N
n ) S
2 S 2
i ( X
x ) = N = N 2
(1
f )
n n
1 i =1 n N N
144 424443
S 2
TAMAO DE LA MUESTRA
n N n n N
2 2 2 2
S S S NS
= e2 + n= 2
=
n N S Ne 2 + S 2
e2 +
N
Se observa que cuando N (fraccin de muestreo n/N tendiendo a cero) el tamao
muestral n S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo).
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 115
S2 S 2 e2 n0 n N
n= = = = 0 = f (N )
S 2 2
S e 2
n0 n0 + N
2
e + 1+ 1+
N N N
n 02
f '(N ) =
( n0 + N ) 2
es siempre positiva, que no tiene mximos ni mnimos dado que la ecuacin definida por
f(N) = 0 no tiene solucin en N, que es siempre convexa ya que la segunda derivada:
2 n 02
f ''(N ) =
( n0 + N ) 3
es siempre negativa y que no tiene puntos de inflexin ya que que la ecuacin definida por
f(N)=0 no tiene solucin en N. Por tanto, la representacin grfica de n = f(N) es la
siguiente:
n
n = n0
n0
n0
n
n-
O N
n0 N n02 2 S2 S2
n0
n = n0
= < 1 n0 < n0 + N N > n0 (n0
1) = 2 2
1
n0 + N n0 + N e e
S2 S2
N > n 0 ( n 0
1) = 2 2
1
e e
116 Muestreo estadstico. Conceptos y problemas resueltos
Total:
S2 n S 2 N 2S 2 N 2S 2
e = ( X ) = N 2 (1
f ) e 2 = N 2 1
=
n N n n N
N 2S 2 N 2S 2 N 2S 2 N 3S 2 N 2S 2
= e2 + n= = =
n N N 2S 2 1 2
Ne42 + N432 2
S e 2 + NS 2
e2 +
N (
N e 2 + NS 2 )
La expresin anterior tambin puede escribirse como:
2
S
2
N 2
n= e = N n1 = f ( N )
2
S 1 + Nn1
1+ N
e
Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa
por el origen de coordenadas ya que f(0) = 0, que tiene una asntota oblicua de ecuacin n =
N
1/n1 ya que:
f (N )
N 1
lim = 1 y lim ( f ( N )
N ) = lim =
N N N N 1 + n1 N n1
2n1 N + n12 N 2
f '(N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene mximos ni mnimos ya que la ecuacin definida por
f(N)=0 no tiene solucin en N, que es siempre cncava puesto que:
2 n12 N
f ''(N ) =
(1 + n1 N ) 3
es siempre positiva. Por tanto, la representacin grfica de n = f(N) es la siguiente:
n
n=f(N)
n=N-1/n1
0 1/n1 N
Observando la grfica de n = f(N) se ve que n siempre crece al crecer N, es decir,
que al aumentar el tamao poblacional tambin aumentar el tamao de muestra necesario
para cometer un error de muestreo prefijado.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 117
Proporcin:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para la media tendremos para la estimacin de la proporcin el tamao:
N
NS 2 N PQ N 2 PQ NPQ
N
1
n= = = 2 = 2
Ne 2 + S 2 N NPQ + ( N
1) Ne e ( N
1) + PQ
PQ + Ne 2 14442444 3
N
1
(
N e 2 ( N
1) + PQ )
En el caso de la proporcin se observa que cuando N (fraccin de muestreo n/N
N
tendiendo a cero) el tamao muestral n S2/e2 = PQ e 2 PQ e 2 =n0 (n inversamente
N
1
proporcional al cuadrado del error de muestreo y directamente proporcional a la proporcin
poblacional P). En este caso, la misma precisin da una muestra de tamao n para una
poblacin de N elementos que para una poblacin de N elementos con N > N siempre y
cuando se cumpla la desigualdad definida por:
N N
PQ PQ PQ
PQ
N > n0 (n0
1) = N
12 N
12
1 2
1
e e 2
e e
Para la estimacin de la proporcin es muy interesante tener en cuenta que para
poblaciones grandes o fraccin de muestreo pequea (N ), el valor mximo de n se
obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N el tamao
muestral n tiende al valor n0 = PQ/e2 = f(P), expresin que tenemos que maximizar en P. Si
igualamos la primera derivada al valor cero tenemos que como f(P) = P(1
P)/e2 entonces
f(P) = (1
2P)/e2 = 0 P = 1/2. Por otra parte f (P) =
2/e2 < 0, lo que asegura la presencia
de un mximo para la funcin f en el punto P = 1/2. Como Q =1
P = 1
1/2 = 1/2, el valor
mximo de n para poblaciones grandes o fracciones de muestreo pequeas se obtiene para P =
Q = 1/2. Por lo tanto, para un error prefijado se necesitarn tamaos de muestra ms pequeos
cuanto ms prximo est P a cero o a uno. Este resultado es muy importante en la prctica, ya
que cuando se estiman proporciones y no se conoce el valor de la proporcin poblacional P
ni se tiene una aproximacin suya (proporcionada por una encuesta similar, por una
encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro
mtodo), entonces se toma P=1/2, con lo que estamos situndonos en el caso de mximo
tamao muestral para el error fijado, lo cual siempre es aceptable estadsticamente. La
dificultad prctica puede ser que se obtenga un tamao muestral n demasiado grande para el
presupuesto de que se dispone.
Total de clase:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para el total tendremos para la estimacin del total de clase el tamao:
N
N2 PQ
N 2S 2 N
1 N 3 PQ
n= 2 = = 2
e + NS 2 N e (N
1) + N 2 PQ
e2 + PQN
N
1
118 Muestreo estadstico. Conceptos y problemas resueltos
N n
Xi n
X 1 n
= X = X i Yi = X i = X = = i = N X i = Nx
i =1 nPi i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
= X = Yi = = X = N = N = X i = x
i =1 N N i =1 nPi i =1 n n i =1
N
Ai
N
A A n
1 n
= P = i Yi = i = P = N = Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
= A = Ai Yi = Ai = A = i = N Ai = NP
i =1 i =1 n n i =1
N
Da la casualidad de que se obtienen los mismos estimadores insesgados para los
parmetros poblacionales que para el caso de muestreo aleatorio simple sin reposicin. Por
lo tanto, los estimadores de la media y la proporcin poblacional son los estimadores por
analoga (media y proporcin muestral), mientras que los estimadores del total y el total de clase
poblacionales son la expansin mediante el tamao poblacional de la media y proporcin
muestrales (en este caso, X = Nx = ( N / n) x los factores de elevacin son N/n).
y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2
n 2
( )
2
1 X N2 1 n 2 S
V X = i
X = i ( X
x ) = N
n(n
1) i =1 1 n n
1 i =1 n
N
X S 2 S 2
1
( ) 1
V X = V = 2 V X = 2 N 2
=
N N N n n
n n
2 PQ 2 PQ
()
V P =
S
n
= n
1
n
=
1
n
1
PQ ()
V A =N 2 S
n
=N 2 n
1
n
= N2
1
n
1
PQ
Igual que en el caso de sin reposicin, consideraremos el tamao de muestra necesario para
cometer un error de muestreo e = ( ) dependiendo de si estima la media, el total, la
proporcin o el total de clase. Tambin se considerar el tamao de muestra necesario para
cometer un error relativo de muestreo er = Cv( ) dependiendo de si se estima la media, el total, la
proporcin y el total de clase. Asimismo, se tendr presente la introduccin de un coeficiente de
confianza adicional P al error de muestreo a cometer (lmite de tolerancia), en cuyo caso las
frmulas de los tamaos muestrales necesarios para cometer un error absoluto o relativo de
muestreo dado en presencia del coeficiente de confianza adicional se derivarn de las expresiones
e = ( ) y er = Cv( ) . En general, = F-1(1
/2), siendo F la funcin de distribucin de
una normal (0,1). El cuadro siguiente resume las expresiones de los tamaos muestrales.
Se pueden realizar las comparaciones a travs error de muestreo o a travs del tamao
muestral necesario para cometer un error de muestreo dado. Desde el primer enfoque ser
ms preciso aquel mtodo de seleccin cuyo error de muestreo sea menor, es decir, el que
tenga menor varianza de los estimadores. Tenemos:
N V SR X
2 2 N
n
2
S n N
1 N
n = <1
V SR X = (1
f ) = (1
) = N
1
n N n V
N
1 n CR X
2
2
VCR X = n= 2 V X < V X
n e SR
CR
Para el resto de los estimadores todo sera equivalente, luego la varianza siempre es
menor en el caso del muestreo sin reposicin, lo que nos indica que el muestreo sin
reposicin es en general ms preciso que el muestreo con reposicin.
Desde el punto de vista del tamao muestral, ser mejor aquel mtodo de seleccin
en el que se necesite menor tamao muestral para cometer un error de muestreo dado. En
este captulo hemos visto que para muestreo sin reposicin el valor de n era:
n0
n SR =
1 + n0 N
N 2 n1 nCR
n SR = < nCR n SR < nCR
1 + Nn1 1 + nCR N
En los mismos casos para muestreo con reposicin se observa que el tamao
muestral resulta ser nCR = N2n1.
SUBPOBLACIONES
n3 N 3 y3 n2
N2
y2
n1
N1 y1
N = Tamao de la poblacin
n = tamao de la muestra
n j S 2j
(Y jk
Y j ) donde Y j = Y jk
Nj Nj
1
2 2
V ( y j ) = (1
) siendo S j =
N j nj N j
1 k =1 k =1 N j
n j S 2j
(Y jk
y j ) dnde y j = Y jk
nj nj
1
V ( y j ) = (1
2 2
) siendo S j =
N j nj n j
1 k =1 k =1 n j
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 123
n S j
2 2
n Sj
V ( y j ) = (1
) V ( y j ) = (1
)
N nj N nj
2j 1
Nj
S 2j
(Y
Yj ) y V ( y j ) =
2
V(yj ) = siendo = 2
j jk
nj Nj k =1 nj
n S '
2 2
n S'
V (Y j ) = N 2 (1
) 2
y V (Y j ) = N (1
)
N n N n
1 Y j2 1 j y 2j
n nj
Y jk
N , S ' = n
1
e y j = Y jk
2 2 2 2
siendo S ' = Y jk
N
1 Dominio j n
k =1 k =1
'2 S ' 2 1 Y j2
V (Y j ) = N 2 y V (Y j ) = N 2
2
con ' 2 = Y jk
n n N Dominio j N
124 Muestreo estadstico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
3.1. Un auditor muestrea aleatoriamente con reposicin 20 cuentas impagadas de una empresa y
verifica en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o
no cumplen (0) con los procedimientos establecidos. Se tienen la siguiente estructura
poblacional:
1 278 1 11 188 0
2 192 1 12 212 0
3 310 1 13 92 1
4 94 0 14 56 1
5 86 1 15 142 1
6 335 1 16 37 1
7 310 0 17 186 0
8 290 1 18 221 1
9 221 1 19 229 0
10 168 1 20 305 1
Figura 3-1
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 125
Figura 3-2
Figura 3-3
1 12
X= X i = 209,583
12 i =1
con un error absoluto de:
2
V X = = 655,745
n
1 12
P = Ai = 0,75
12 i =1
()
V P =
PQ (14 / 20)(6 / 20)
n
=
12
=
84
4800
= 0,0175
126 Muestreo estadstico. Conceptos y problemas resueltos
Cv X =
655,745
209,583
100 = 12,218% ()
Cv P =
0,0175
0,75
100 = 17,638%
3.2. El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin
reposicin a los que se les toma el tiempo, Se obtienen los siguientes resultados:
Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los
operadores estableciendo lmites al 95% para los errores de estimacin.
Comenzamos introduciendo los datos como la variable T en una hoja de clculo de Excel. A
continuacin, para calcular los estadsticos necesarios, en el men Herramientas de Excel
elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla
de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadsticos
maestrales de la Figura 3-5. Por ltimo, se calculan los estimadores y sus errores segn las
frmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7.
1 12
Se observa que el tiempo medio por operario para terminar la tarea es T = Ti =
12 i =1
S 2
5,0125 minutos con un error de muestreo de V (T ) = (1
f ) = 0,189 y un error relativo
n
(T ) 0,189
dado por Cv(T ) = 100 = 100 = 9,69%. El tiempo total para terminar la tarea se
T 5,0125
estima en T = NT = 89
5,0125 = 491,225 minutos con un error de muestreo estimado por
V (T ) = N 2V (T ) = 89 2
0,189 = 1822,07, siendo el error relativo el mismo que el del estimador
del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no est en el intervalo
[
2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para
la media de anchura 1,07475886 no es vlido.
Figura 3-6
Figura 3-7
()
, +
()
cuya anchura es 2
()
. Esta anchura (3,895 para el estimador de la media y 381,79 para el
estimador del total) suele considerarse como un lmite para el error de estimacin. Se
observa que estas anchuras son mayores que con normalidad, ya que en este caso las
estimaciones son menos precisas (errores mayores).
3.3. En una regin con N = 1000 viviendas determinar el tamao de muestra necesario para que,
con un grado de confianza del 95%, la estimacin de la proporcin de viviendas sin agua
corriente no difiera en ms del 0,1 del valor verdadero. Comentar los resultados para
muestreo sin reposicin y con reposicin.
128 Muestreo estadstico. Conceptos y problemas resueltos
P(| P
P | 0,10) = 0,95 P (
0,10 P
P 0,10) = 0,95
0,10 P
P 0,10
0,10 0,10
P = 0,95 P N (0,1) = 0,95
( P ) ( P ) ( P ) ( P ) ( P )
0,10 0,10
= = 1,96 ( P ) = = 0,051
( P ) 1,96
3.4. De una poblacin con 33 millones de habitantes se ha obtenido una muestra de 10.000. En
ella, 4.000 se han clasificado como poblacin activa, y de stos, 40 se encuentran en
situacin de desempleo. Se pide:
1) Estimar el porcentaje de poblacin activa. Estimar tambin el nmero de personas activas que
se encuentran en situacin de desempleo. Calcular los errores absoluto y relativo de muestreo
en ambas estimaciones as como intervalos de confianza con un riesgo del 3 por mil.
2) Cuntas personas de todas las edades sera necesario incluir en una muestra para
estimar la tasa de actividad en Espaa con un error absoluto E = 0,02 y una probabilidad
del 95%? Del ltimo censo se sabe que en el pas hay un 39% de activos. Contestar a la
misma pregunta para cometer un error relativo del 5%.
Realizamos el siguiente esquema de apoyo (PA significa poblacin activa y NPA significa el
complentario):
PA=4000
n=10000
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 129
n P (1
P ) 10000 0,4(1
0,4)
( P ) = 1
= 1
= 0,00489
N n
1 33000000 10000
1
[ P
( P ), P + ( P )] = [0,4
2,997
0,00489, 0,4 + 2,997
0,00489] = (0.3853, 0.4146)
40
A = 33000000 = 132000
110000
424 3
P
n P (1
P ) 10000 0,004(1
0,004)
( A ) = N 2 1
= 33000000 1
= 20827
N n
1 33000000 10000
1
( A ) 20827
C v( A ) = = = 0,157 (15,7%)
A 132000
Para hallar el intervalo de confianza para el total con = 0,003, utilizamos el valor
=F-1N(0,1) (1
/2) = F-1 N(0,1) (1
0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
[ A
( A ), A + ( A )] = [132000
2,997
20827, 132000+ 2,997
20827] = (69581, 194419)
3.5. Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de aciertos
obtenidos en un juego ilegal en el que se realizan un total de 6000 apuestas. En un ensayo
previo se han obtenido 1/3 de fallos en las apuestas. Se pide:
1) Hallar el nmero de apuestas necesario para que el error de muestreo sea de una dcima
al estimar la proporcin de aciertos en las apuestas del juego ilegal. Hallar tambin el
nmero de apuestas necesario para que el error relativo de muestreo sea del 20% en la
misma estimacin.
2) Hallar el nmero de apuestas necesario para que el error de muestreo sea de 600 unidades
al estimar el total de aciertos en las apuestas con un coeficiente de confianza del 99,7% y
suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las
condiciones anteriores pero para un error relativo de muestreo del 10%.
Tenemos como datos N = 6000 y P = 2/3. El tamao de muestra necesario para
estimar la proporcin de aciertos en las apuestas con un error de muestreo e = 0,1 ser:
NQ 6000
(1
0,6666)
n= = = 12,47
( N
1) Pe r + Q (6000
1)
0,6666
0,2 2 + (1
0,6666)
2
Para hallar el tamao de muestra necesario para estimar el total de aciertos con = 0,003,
se usa = F-1N(0,1) (1
/2) = F-1N(0,1) (1
0,003/2) = F-1N(0,1) (0,9985) = 2,997. Dicho tamao en
muestreo con reposicin para un error de muestreo e = 600 se calcula de la siguiente forma:
2 Q 2,997 2
(1
0,6666)
n= = = 449,1 (450 apuestas)
e2 P 0,12
0,6666
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 131
3.6. De una poblacin de 100 opositores que se presentan a un examen se ha extrado una
muestra irrestricta aleatoria de tamao n = 8, siendo sus edades (variable X) las siguientes:
{25, 32, 28, 35, 26, 34, 30, 28}. Basndose en esta muestra, estimar la edad media y la suma
de las edades de los opositores as como sus errores absoluto y relativo de muestreo.
Determinar tambin:
3) Hallar el tamao de muestra del apartado anterior suponiendo muestreo con reposicin.
Comentar los resultados.
Para hallar el tamao de muestra necesario para estimar la edad media (media) con un
error de muestreo e igual a 50, consideramos la muestra anterior como una muestra piloto que
nos proporciona una estimacin del valor de la cuasivarianza. Se aplica la frmula:
NS 2 100
13,3571
n= 2 2
= = 3,23
S + Ne 13,3571 + 100.2 2
con lo que se tomar como tamao de muestra necesario n = 4.
Para hallar el tamao de muestra necesario para estimar la suma de edades (total) con
un error de muestreo e igual a 50, se aplica la frmula:
132 Muestreo estadstico. Conceptos y problemas resueltos
N 2S 2 100 2
13,3571
n= = = 34,82
NS 2 + e 2 100
13,3571 + 50 2
A i
6 6
P = i =1
=
= 0,75 (75%) A = N
P = 100 = 75
n 8 8
P Q 8 0,75
0,25
e = ( P ) = (1
f ) = 1
= 0,0246
n
1 100 8
1
e = ( A ) = N
( P ) = 100
0,0246 = 2,46
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 133
Vamos a realizar a continuacin para muestreo con reposicin el clculo del tamao
de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporcin
de edades pares de la poblacin con un coeficiente de confianza del 95%. Utilizamos:
Q 1,96 2 1
0,75
2
C
2 2
0,75
n= X
= 2P = = 355
e r2 e r 0,06 2
luego el tamao de muestra necesario ser n = 355, que supera al tamao poblacional. Eso se
debe a lo bajo que es el error especificado a cometer. En este caso habr que aumentar el
error a cometer. No obstante, se ha comprobado que el tamao de muestra necesario para
estimar el mismo parmetro cometiendo el mismo error siempre es mayor en el muestreo
con reposicin, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin
reposicin. Esto concuerda tambin con el hecho de que los errores de muestreo siempre son
menores en el caso de sin reposicin.
3.7. Una muestra irrestricta aleatoria de 600 habitantes procedente de una poblacin de N = 15.000
presenta los siguientes datos para la variable X = nmero de visitas anuales a doctores
especialistas:
600 600
X
i =1
i = 2946 y X
i =1
i
2
= 18694
Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas
a doctores especialistas en la poblacin admitiendo normalidad para la distribucin de los
estimadores. Tomando la muestra anterior como muestra piloto, qu tamao de muestra
ser necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el
total de visitas a doctores especialistas en la poblacin? Y para cometer un error relativo de
muestreo del 15%?
1 20 2 20
2
2946
X = N
x = 15000
= 73650 S 2 = i i n = 7,06
X
X
600 n
1 i =1 i =1
S 2 600 7,06
( X ) = N 2 (1
f ) = 15000 2 1
= 1594,239
n 15000 600
El tamao de muestra necesario para cometer un error relativo de muestreo del 15%
al estimar el total poblacional de X puede hallarse como sigue:
S2 7,06
2 N 15000
NC 1, x X 2
4,912
n= = = = 13
Ne r2 + C12, x S2 2 7,06
2
Ne r + 2 15000
0,15 +
X 4,912
Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamao 600 con los
datos dados en el enunciado del problema se utiliza como muestra piloto.
3.8. Un sector industrial de Estados Unidos tiene un censo de 1000 fbricas. Hallar el tamao de
muestra necesario (nmero de fbricas) para que, con un grado de confianza del 95%, la
estimacin de la produccin total del sector quede dentro del 10% de su valor verdadero. Se
utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de
variacin poblacional es 0,6.
P(| X
X | 0,10 X ) = 0,95 P(
0,10 X X
X 0,10 X ) = 0,95
0,10 X X
X 0,10 X
0,10 X 0,10 X
P = 0,95 P
( X ) N ( 0,1) = 0,95
( X ) (
X ) (
X ) (
X )
0,10 X ( X ) ( X )
= 0,10 = = = Cv( X ) = er con =1,96
( X ) X E ( X )
Por lo tanto, el problema se traduce en calcular el tamao de muestra necesario para
cometer un error relativo de muestreo de 0,051 al estimar la produccin total.
2
S2 N 2 2
2 N 1,962
1000
2 NC12,x N 2
2
N
1 X
(CV )
2
0,62
n= = X = = N
1 = 999 = 122
Ner2 + 2 C12, x 2 S
2
2
N
2
2 1,962
Ner + 2 Ner +
2 2
2
er + (CV ) 0,1 +
2 2
.0,6 2
X N
1 X N
1 999
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 135
3.9. Los partidos de izquierdas desean obtener informacin rpida sobre el nmero total de concejales
que obtuvieron en las ltimas elecciones en los 300 municipios ms pequeos de una regin
espaola. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados:
1) Estimar el nmero total de concejales que obtuvieron los partidos de izquierdas en las
ltimas elecciones en la regin en los municipios ms pequeos.
2) Si se hubiera querido un error de muestreo inferior a 150 concejales, cuntos municipios
habra sido necesario seleccionar?
Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de
izquierdas se procede como sigue:
1 k 196
x=
n i =1
x i ni =
50
= 3,92 X = Nx = 300 3,92 = 1176 concejales
n S
2
4,8098
( X ) = N 2 (1
) = 2,575 300(300
50) = 218,7189
N n 50
2 1 k 2
x i ni
( xi ) 1
2
=
196 2
S = 1004
= 4,8098
n
1 i =1 n 49 50
Por tanto, la estimacin del nmero de concejales obtenidos en los 300 municipios
ms pequeos de esa regin durante las pasadas elecciones es de 1178 concejales. El error de
muestreo con un 99% de confianza ha resultado ser 218,7, que en trminos relativos (de
coeficiente de variacin) es:
218,7189
C v ( X ) =
100 = 18,59%
1176
136 Muestreo estadstico. Conceptos y problemas resueltos
Sea X la variable que mide la deuda sin cobrar. Dicha deuda total se estimar mediante:
n S
2
36 3000 2
( X ) = N 2 (1
) = 1000 2 1
= 2764,8
N n 1000 36
[ X
( X ), X + ( X )] = [75000
1,96(2764,8); 75000+ 1,96(2764,8)] = [65217655,9; 84782344,1]
Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir
una muestra de tamao superior al valor siguiente:
3.11. En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones.
Para ello, de entre los 500 visitantes de un da determinado, se seleccion una muestra
aleatoria simple de 100 y a la salida del recinto ferial se les pregunt la cantidad en euros
que haban gastado. Se obtuvieron los siguientes datos:
100 100
X i = 250
i =1
X
i =1
i
2
= 649,75
Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el
recinto ferial. A cuntas personas se debera haber preguntado para que, con la misma
confianza, el error de la estimacin anterior no superarse los 75 euros? Cuntas personas
deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas
insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una
confianza del 95%?
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 137
n S
2
n S
2
I = x
(1
) ; x
(1
)
N n N n
1 n 250
x = xi = = 2,50 euros
n i! 100
1 n 2 1 n 1
2
1
2
S = X i
X i = 649,75
(250)2 = 0,25
n
1 i =1 n i =1 99 100
El intervalo de confianza para el gasto medio en euros por persona en la feria ser:
3.12. Para tomar la decisin de mantener un determinado libro como texto oficial de una
asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una
universidad y enviarles un cuestionario a travs del cual manifiesten si son favorables a la
renovacin del libro como texto oficial.
1) Cul deber ser el nmero apropiado de profesores encuestados de entre los 1250 para
obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del
libro de texto con un error de muestreo inferior al 12% y una confianza del 90%?
2) Si de la encuesta realizada el ao anterior se sabe que la proporcin de profesores
favorables al mantenimiento del libro de texto estar entre el 75% y el 85%, cul debera
ser en este caso el nmero apropiado de profesores encuestados del apartado anterior?
3) Si finalmente se decidi enviar cuestionarios a 100 profesores, de los cuales tan slo 35
no se manifestaron favorables a la renovacin del libro de texto, estimar la proporcin del
nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin.
138 Muestreo estadstico. Conceptos y problemas resueltos
El nmero apropiado de profesores a encuestar de entre los 1250 para obtener una
estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto
con un error de muestreo inferior al 12% y una confianza del 90% ser el siguiente:
Para el caso de que se estime que la proporcin oscilar entre el 75% y el 85%, en la
frmula para obtener el tamao muestral se utilizar P = 0,75, pues es el que proporciona
mayor variabilidad entre los posibles. Ahora tenemos:
1 n
P = Ai (Ai =1 si el profesor i-simo mantiene el libro y Ai = 0 en caso contrario)
n i =1
Como slo 35 profesores de los 100 deciden la no renovacin del libro de texto,
tenemos:
65
P = = 0,65
100
El error de muestreo ser:
N
n pq 1250
100 0,65 0,35
e p = = 1,645 * = 0,0753
N
1 n 1249 100
3.13. Una empresa industrial est interesada en el tiempo por semana que los cientficos emplean
para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta
aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en
esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compaa emplea N
= 750 cientficos. Estimar el nmero total de horas-hombre que se pierden por semana en las
tareas insignificantes y establecer un lmite para el error de estimacin al 95% ( = 2).
Un lmite para el error de estimacin ser el radio del intervalo de confianza al 95%:
n S
2
50 2,25
( X ) = 2 N 2 (1
) = 2 700 2 1
= 307,4 horas
N n 750 50
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 139
3.14. Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de un colegio fue
seleccionada para estimar: (1) la fraccin de entre los N = 300 estudiantes del ltimo ao que
asistirn a una universidad, y (2) la fraccin de estudiantes que han tenido trabajos de tiempo
parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, , 100) las respuestas del i-
simo estudiante seleccionado. Estableceremos que Yi = 0 si el i-simo estudiante no
planifica asistir a una institucin superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el
estudiante i-simo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha
tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la
proporcin de estudiantes del ltimo ao que planea asistir a una universidad y P2, la
proporcin de estudiantes del ltimo ao que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).
Estudiante Y X
1 1 0
2 0 1
3 0 1
4 1 1
5 0 0
6 0 0
7 0 1
. . .
. . .
96 0 1
97 1 0
98 0 1
99 0 1
100 1 1
100 100
Y
i =1
i = 15 X
i =1
i = 65
Las estimaciones de las respectivas proporciones estarn dadas por las proporciones
muestrales:
1 100 15 1 100 65
P1 = Yi = = 0,15 P2 = Xi = = 0,65
100 i =1 100 100 i =1 100
Los lmites para los respectivos errores de estimacin al 95% estarn dados por los
radios de los dos intervalos de confianza, que se calculan como sigue:
3.15. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente
de una poblacin de 750 empleados de una multinacional. Al medir el salario mensual X en
cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:
50 50
X X
2
i = 454 y i = 4306
i =1 i =1
20 20
X X
2
i = 172 y i = 1536
i =1 i =1
1 Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de
la multinacional para todos sus empleados y para los empleados del sector financiero, as
como sus errores absolutos y relativos de muestreo.
2 Responder a las preguntas del apartado anterior para muestreo aleatorio simple con
reposicin comentando resultados y comparndolos con los del apartado 1.
Xi 454
X i
x= i =1
= = 9,08 y X = Nx = 750 i =1
= 750
9,08 = 6810
n 50 n
Las estimaciones de los errores de muestreo sern:
2
1 50 2 50
X i
X i 50
49 1 23 1
i =1
23
i =1
50
4306 454
V ( x ) = (1
) = 0,07 ( x ) = 0,07 = 0,26
750 50
( x ) 0,27 ( X ) 198,43
C v( x ) = = = 0,029 (2,9%) y C v( X ) = = = 0,029 (2,9%)
x 9,08 X 6810
X i
172 x X i
172
x1 = i =1
= = 8,6 y X 1 = N
1 = 750. i =1 = 750
= 2580
n1 20 n 50 50
1 20 2 20
2
X i
X i n1 1
[
1536
172 2 20 ]
n n1
1 i =1 i =1
50
V ( x1 ) = (1
) = (1
) 19 = 0,14
N n1 750 20
1 20 2 20
2
X i
X i n 1
[
1536
172 2 50 ]
n n
1 i =1
50
2
V ( X 1 ) = N (1
)
i =1
2
= 750 (1
) 49
N n 750 50
= 202354,28
( x1 ) 0,374 ( X 1 ) 450
C v( x1 ) = = = 0,043 ( 4,3%) y C v( X 1 ) = = = 0,1744 (17,44%)
x1 8,6 X 1 2580
Hemos estimado que el salario medio de los trabajadores del sector financiero de la
multinacional es de 860 euros mensuales (algo inferior a los 908 euros mensuales de media
cuando se consideran todos los trabajadores) y que los pagos totales mensuales de la
multinacional en salarios de sus empleados del sector financiero es 258000 euros. Estas
estimaciones tienen unos errores del 4,3% y del 17,44%, respectivamente. Es mucho ms
precisa la estimacin del salario medio de los empleados del sector financiero que la
estimacin de los pagos totales a empleados de dicho sector.
En el caso de muestreo con reposicin los estimadores son los mismos (para la
poblacin y para la subpoblacin). Los errores de muestreo para la poblacin y la
subpoblacin sern:
142 Muestreo estadstico. Conceptos y problemas resueltos
V ( x ) 0,07
CR ( x ) = VCR ( x ) = = = 0,289
1
f 1
50 / 750
V ( X ) 39375
CR ( X ) = VCR ( X ) = = = 212,28
1
f 1
50 / 750
V ( x1 ) 0,14
CR ( x1 ) = VCR ( x1 ) = = = 0,4
1
f 1
50 / 750
V ( X 1 ) 202354,28
CR ( X 1 ) = VCR ( X 1 ) = = = 482,14
1
f 1
50 / 750
Los errores relativos de muestreo al estimar la media y el total tambin son mayores
en el caso de muestreo con reposicin, tanto para la poblacin como para la subpoblacin.
3.16. La tabla adjunta muestra la distribucin de frecuencias del nmero de residentes en cada una
de las 197 ciudades de Estados Unidos que tenan ms de 50000 habitantes en 1940.
Calcular los errores absoluto y relativo de muestreo del nmero total de habitantes estimado en
las 197 ciudades utilizando los siguientes mtodos de muestreo:
2) Muestreo que consiste en seleccionar las cinco ciudades ms grandes y posteriormente una
muestra irrestricta aleatoria de tamao 45 para las 192 ciudades restantes.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 143
1 197
2
2
S =
197
ni X i
n i X i N =
N
1 i =1
2 1
[
85363125
(46275) 197 = 380067,33
2
]
i =1 197
1
El error de muestreo para una muestra aleatoria simple sin reposicin de tamao 50 es:
n S2 50 380067,33
( X ) = V ( X ) = N 2 (1
) = 197 2 (1
) = 14836,79 miles de personas
N n 197 50
197
14836,79
Como X = ni X i = 46275 Cv( X ) = * 100 = 32% (error relativo).
i =1 46275
1 192
2
S1
2
=
192
n i X i
n i X i N 1 =
N 1
1 i =1
2 1
[ 2
]
9425000
(30350 ) 192 = 24227,68
i =1 192
1
n1 S12 45 24227,268
( X ) = V ( X ) = N 2 (1
) = 192 2 (1
) = 3898,09 miles de personas
N 1 n1 192 45
192
3898,09
Como X 1 = ni X i = 30350 Cv( X ) = * 100 = 12,84% (error relativo).
i =1 30350
3.17. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El
doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con
caries de cada nio, con los siguientes resultados:
El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr
aquellos que no tenan caries, encontrando que 60 nios no tenan dientes daados.
1) Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en
los nios cuantificando la ganancia en precisin.
2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los
resultados comparndolos con los del apartado anterior.
144 Muestreo estadstico. Conceptos y problemas resueltos
0
8 + 1
4 + L + 10
1
X = Nx = 200 = 200
2,1 = 420 dientes con caries.
20
n S 2 20 8,62
( X ) = V ( X ) = N 2 (1
) = 200 2 (1
) = 123,04
N n 200 20
1 10 1
2
S 2 =
10
n i X i
ni X i n =
20
1 i = 0
2
19
[ 2
]
252
(42 ) 20 = 8,62
i =1
Para el doctor B se considera la subpoblacin de los 140 nios con caries resultante de
eliminar de los 200 nios iniciales los 60 que no tenan caries. En cuanto a la muestra, hay que
eliminar de la distribucin inicial los ocho nios que tienen cero caries (20
8=12). La
distribucin muestral de frecuencias de esta subpoblacin queda como sigue:
1
4 + L + 10
1
X 1 = N 1 x1 = 140 = 140
3,5 = 490 dientes con caries.
12
n1 S1
2
12 9,545
( X 1 ) = V ( X 1 ) = N 12 (1
) = 140 2 (1
) = 419,370
N 1 n1 140 12
1 10 1
2
S12 =
10
ni X i
ni X i n1 =
12
1 i =1
2
[ 2
]
252
(42) 12 = 9,545
i =1 11
EJERCICIOS PROPUESTOS
3.1. Consideramos una poblacin finita de seis elementos sobre los que medimos una variable X,
obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto
aleatorio se extraen muestras de tamao 2. Se pide:
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los
estimadores de la media y del total de X, as como de los estimadores de sus varianzas.
S2
Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1
f ) ,
n
2
S
V ( X ) = N 2 (1
f ) y E ( S 2 ) = S 2 , as como que el estimador T = Total muestral no es
n
insesgado del total poblacional X.
2) Hallar el tamao de muestra necesario para que el error de muestreo sea 2 al estimar la
media de la poblacin. Y al estimar el total poblacional? Hallar tambin el tamao de
muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas
estimaciones. Calcular todos los tamaos de muestra anteriores en presencia de un
coeficiente de confianza adicional del 95%. Comentar los resultados.
3) Contestar a todas las preguntas del apartado anterior para muestreo con reposicin.
Comparar los resultados con los de muestreo sin reposicin. Comentar los resultados.
3.2. Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de piezas
correctas producidas en un proceso industrial en el que se fabrican un total de 6000 unidades.
Una muestra piloto ha suministrado 1/3 de piezas defectuosas. Se pide:
1) Hallar el tamao de muestra necesario para que el error de muestreo sea de una dcima al
estimar la proporcin de piezas correctas producidas en el proceso industrial. Hallar tambin el
tamao de muestra necesario para que el error relativo de muestreo sea de 20% en la misma
estimacin.
2) Hallar el tamao de muestra necesario para que el error de muestreo sea de 600 unidades al
estimar el total de piezas correctas con un coeficiente de confianza del 99,7% y suponiendo
muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero
para un error relativo de muestreo del 10%.
146 Muestreo estadstico. Conceptos y problemas resueltos
3) Hallar el tamao de muestra necesario para que el error de muestreo sea 1/4 al estimar la
proporcin de nmeros primos de la poblacin. Hallar tambin el tamao de muestra necesario
para que el error relativo de muestreo sea del 2% en la misma estimacin.
5) Hallar el tamao de muestra necesario para que el error de muestreo sea 6 al estimar el total de
nmeros primos de la poblacin con un coeficiente de confianza del 99% y suponiendo muestreo
aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un
error relativo de muestreo del 90%. Comentar los resultados.
3.5. Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo
estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si
suponemos que hay N = 10000 casas dentro de la comunidad, estimar , el promedio de
consumo diario verdadero, y establezca un lmite para el error de estimacin.
CAPTULO
MUESTREO ESTRATIFICADO
SIN Y CON REPOSICIN
OBJETIVOS
1. Presentar el concepto de muestreo estratificado.
2. Comprender las especificaciones del muestreo estratificado.
3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado
sin reposicin.
4. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
7. Comprender el concepto de afijacin de la muestra.
8. Estudiar los distintos tipos de afijacin.
9. Especificar los errores de los estimadores en funcin de los distintos tipos
de afijacin.
10. Analizar el tamao de la muestra en general.
11. Estudiar el tamao de la muestra en funcin de los distintos tipos de
afijacin.
12. Comparar la eficiencia de los distintos tipos de afijacin.
13. Presentar el concepto de postestratificacin.
14. Analizar estimadores y errores en postestratifiaccin.
148 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Concepto de muestreo estratificado.
2. Muestreo estratificado sin reposicin. Estimadores y errores.
3. Muestreo estratificado con reposicin. Estimadores y errores.
4. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo sin reposicin.
5. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo con reposicin.
6. Tamao de la muestra para muestreo sin reposicin.
7. Tamao de la muestra para muestreo con reposicin.
8. Comparacin de eficiencias en muestreo estratificado.
9. Postestratificacin.
10. Problemas resueltos
11. Ejercicios propuestos
Muestreo estratificado sin y con reposicin 149
Nh N4
nh n4
N1 N2 N3
n1 n2 n3
POBLACIN
A continuacin se expresa de modo esquemtico la formacin de estratos en la
poblacin y la formacin de la muestra estratificada de la forma siguiente:
POBLACIN
u11 u12 Lu 1 N1
u 21 u 22 Lu 2 N 2 L
{u1 u 2 Lu N }
Se divide en L estratos
Nh = N
LLLLLL h =1
u u Lu
L1 L 2 LN L
MUESTRA
u11 u12 Lu 1n
1
u 21 u 22 Lu 2 n L
{u1 u 2 Lu n }
Se extrae en cada estrato
nh = n
2
LLLLLL h =1
u u Lu
L1 L 2 Ln
L
150 Muestreo estadstico. Conceptos y problemas resueltos
3. Paliar los defectos del marco, aislando esos defectos en algunos estratos.
Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para
la estratificacin cuyos valores permitan dividir convenientemente la poblacin en estratos
homogneos. Las variables utilizadas para la estratificacin debern estar correlacionadas con las
variables objeto de la investigacin. Por ejemplo, para realizar estadsticas sobre los ingresos de las
familias en una ciudad puede estratificarse segn los valores de la variable cualificacin profesional
de los cabezas de sus componentes (a ms cualificacin normalmente hay ms ingresos, con lo que
los estratos resultarn homogneos). Si se quiere estudiar el volumen de negocio de los
establecimientos de venta al pblico de una ciudad, se puede utilizar como variable de
estratificacin su nmero de empleados, y clasificar (estratificar) los establecimientos en grandes
superficies, supermercados, tiendas grandes, tiendas pequeas y otros, segn el nmero de
empleados; as resulta una divisin de los establecimientos en grupos homogneos. Si se quiere
estudiar caractersticas de hospitales se puede utilizar la variable de estratificacin nmero de
pacientes, para estratificarlos en grandes hospitales, clnicas medias y clnicas pequeas, resultando
as grupos de hospitales con problemtica similar. Para realizar estadsticas en el sector educativo
puede utilizarse la variable de estratificacin nivel de enseanza, tomando como estratos los niveles
de enseanza infantil, enseanza primaria, enseanza secundaria obligatoria, bachillerato y
enseanza universitaria (cada estrato tiene as unas caractersticas muy peculiares que lo hacen
homogneo).
El parmetro puede ser estimado mediante la suma extendida a todos los estratos de los
estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:
L nh
Y hi
=
h i hi
~
donde hi es la probabilidad de que la unidad u hi pertenezca a la muestra ( Xh ) de nh unidades,
obtenida de entre las Nh unidades del estrato h-simo. Para los diferentes estimadores tendremos las
siguientes expresiones:
Muestreo estratificado sin y con reposicin 151
nh nh
L
X hi L
X hi L
1 nh L L
= X Yhi = X hi X st = = = N h X hi = N h xh = X h
hi h=1 i =1 nh N h n =1
h=1 i =1 h=1
1h4i243 h=1 h=1
X h = xh
X hi L
1 nh X L
1 nh X L
N 1 nh L
= X Yhi = X st = xst = hi = hi = h X hi = Wh xh
N h=1 N i =1 hi h=1 N i =1 nh N h N nh i=1
h=1 { h=1
Wh
nh nh
L
Ahi L
Ahi L
1 nh L L
= A Yhi = Ahi A st = = = N h Ahi = N h Ph = A h
hi nh N h h=1 nh i =1
h=1 i =1 h =1 i =1
1424 3 h=1 h =1
Ph
Ahi L
1 nh A L
1 nh Ahi L
N 1 nh L
= P Yhi = Pst = hi = = h Ahi = Wh Ph
N N N n N N n
h =1 { h i =1
h =1 i =1 hi h =1 i =1 h h
W
1424 3 h=1
h
Ph
( ) S2 L L S2
L
V X st = N h2 (1
f h ) h , V (x st ) = V W h x h = W h2 (1
f h ) h
h =1 nh h =1 h =1 nh
( ) N h Ph Q h
( ) N h Ph Q h
L L
V A st = N h2 (1
f h ) , V Pst = Wh2 (1
f h )
h =1 N h
1 nh h =1 N h
1 nh
S h2 S h2
( )
L L
V X st = N h (1
f h )
2
, V (X st ) = W h (1
f h )
2
h =1 nh h =1 nh
P Q P Q
( ) ( )
L L
V A st = N h2 (1
f h ) h h , V Pst = W h2 (1
f h ) h h
h =1 nh
1 h =1 nh
1
Para el caso del muestreo estratificado con reposicin los estimadores son los
mismos, y sus varianzas son las siguientes:
( ) 2 2 PQ
( ) PQ
( )
L L L L
V X st = N h2 h , V ( x st ) = Wh2 h , V A st = N h2 h h , V Pst = Wh2 h h
h =1 nh h =1 nh h =1 nh h =1 nh
152 Muestreo estadstico. Conceptos y problemas resueltos
2 2 P Q P Q
( ) 2 Sh 2 Sh
( ) ( )
L L L L
V X st = N h , V (X st ) = Wh
, V A st = N h2 h h , V Pst = Wh2 h h
h =1 nh h =1 nh h =1 nh
1 h =1 nh
1
Afijacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se
tomarn todos los nh iguales a n/L, aumentando o disminuyendo este tamao en una unidad
si n no fuese mltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.
L L
nh k
n h = k h = 1LL n h = k n = Lk f h = =
h =1 h =1 Nh Nh
Para este tipo de afijacin, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las frmulas generales fh por k/Nh. Este tipo de afijacin da la misma
importancia a todos los estratos, en cuanto a tamao de la muestra, con lo cual favorecer a los
estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es conveniente
en poblaciones con estratos de tamao similar.
Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcional a su tamao.
Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos
expresados en nmero de unidades. Tenemos:
L L L
n
n h = N h k n h = N h k = k N h n = kN k = = f
1 23 h =1
h =1
1 23
h =1 N
n N
nh N k N h nh k nh
fh = = h =k = f Wh = = =
N Nh N nk n
{h
hi
( )
V X st =
(1
k ) L N
S 2 , V (x ) = (1
k ) L W
S 2
k h=1
h h st
n h=1
h h
( )
(1
k ) L Nh2 (1
k ) L Nh2 N
( )
V Ast =
k h=1 Nh
1
PhQh , V Pst =
k h=1 Nh
1
PhQh
L L
n 1 L x h
x Total muestral
X st = N h x h = h x h = nh x h = h =1
= =
h =1 h =1 k K h =1
{ k f Fraccion demuestreo
x h nh
L
L L
1 L x h
X st = x st = Wh x h = h x h = nh x h =
n h =1 Total muestral
=
h =1 h =1 n n h =1 x{n n Tamao de muestra
h h
Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccin global
de muestreo, siendo su valor la constante de proporcionalidad.
El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fraccin de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fraccin de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fraccin de muestreo).
El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamao de la muestra. Similar propiedad tiene el estimador insesgado
para la proporcin poblacional (cociente entre el total de clase muestral y el tamao de la
muestra).
nh
Como hi = = k = f, todas las unidades de la poblacin tienen la misma probabilidad
Nh
de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras
autoponderadas.
Nh
Sh
NhSh W S
La expresin para nh es n h = n
L =n
L N =n
L h h .
Nh
h =1
NhSh h =1 N
Sh h =1
Wh S h
Una vez calculados los nh para afijacin de mnima varianza, vamos a ver cunto
vale la varianza del estimador de la media y del total para este tipo de afijacin. Tenemos:
2 2
( ) 1 L 1 L
1 L 1 L
V ( x st ) = Wh S h
Wh S , V X st2
h = Nh Sh
N h S h2
n h =1 N h =1 n h =1 N h =1
Afijacin ptima
La afijacin ptima consiste en determinar los valores de nh (nmero de unidades que se
extraen del estrato h-simo para la muestra) de forma que para un coste fijo C la varianza de
los estimadores sea mnima. El coste fijo C ser la suma de los costes derivados de la
seleccin de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de
muestreo en el estrato h, el coste total de seleccin de las nh unidades muestrales en ese
estrato ser chnh. Sumando los costes chnh para los L estratos tenemos el coste total de
seleccin de la muestra estratificada.
Nh Sh ch Wh S h ch
Podemos escribir que n h = n
L
= n
L
N
h =1
h Sh ch W
h =1
h Sh ch
1 L L 1 L
V ( x st ) = Wh S h c h Wh S h c h
W S h
2
h
n h =1 h =1 N h =1
( ) 1 L L 1 L
V X st = N h S h c h N h S h c h
N h S h2
n h =1 h =1 N h =1
Dada la forma en que estn definidos los clculos de los nh para las afijaciones uniforme y
proporcional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea
con o sin reposicin. Sin embargo, s variarn las varianzas de los estimadores. Las
afijaciones de mnima varianza y ptima s van a verse afectadas por la existencia de
reposicin o no, ya que el clculo de nh depende de las varianzas en los estratos.
Afijacin uniforme
( )
( ) ( )
2 2
L L
PQ PQ
L L
V X st = Nh2 h , V (xst ) = Wh2 h , V Ast = Nh2 h h , V Pst = Wh2 h h
h=1 k h=1 k h=1 k h=1 k
Afijacin proporcional
( ) 1 L 1 L
k h=1
( ) 1 L
n h=1
1 L PQ
V X st = N h h2 , V A st = N h Ph Qh , V (xst ) = Wh h2 , V Pst = Wh h h
k h=1 n h=1 k
( )
Tenemos:
2 2
Wh h N h h 1 L 1 L
nh = n
L
= n
L
, V ( x st ) = h h
W , V ( x st ) = N h h
n h =1 n h =1
W
h =1
h h N
h =1
h h
Afijacin ptima
Tenemos:
Wh h N h h
ch ch 1 L L
nh = n
=n
, V ( x st ) = Wh h c h Wh h c h ,
L
Wh h L
N h h n h =1 h =1
h =1 ch
h =1 ch
( )
1 L
V X st = N h h
n h =1
L
c h N h h c h
h =1
Si se quiere la afijacin ptima y la expresin de la varianza mnima para el estimador de
la proporcin y el total de clase basta sustituir en las fmulas anterioriores h2 por PhQh.
Vamos a analizar ahora el tamao de muestra estratificada con reposicin necesario para
cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos
de error de muestreo dado con y sin coeficiente de confianza adicional y, adems,
distinguiremos entre los diferentes tipos de afijacin de la muestra.
Muestreo estratificado sin y con reposicin 157
S2 1 L 1 L
W h S h2 + W h (X h
X ) = W h S h2 + W h (X h
X )
L L
2 2
S2 =
h =1 h =1 n n h =1 n h =1
S 2 1
f L 1
f L
W h (X h
X ) V MAS ( x )
2 2
(1
f ) = W S + V MEP ( x )
n 1n442 3 1n4 4
h h
14243 h =1
44 4 24 4 4 3
h =1 La igualdad se da
V MAS ( x ) V MEP ( x ) 0 si X = X h =1,L, L h
Hemos visto que el muestreo estratificado con afijacin proporcional es ms preciso que el
muestreo aleatorio simple, producindose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado respecto del
aleatorio simple ser mayor cuanto ms distintas entre s sean las medias de los estratos; es decir,
para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogneos
entre s en media, afirmacin que ya conocamos desde el comienzo del tema y que constituye una
de las especificaciones clsicas en el muestreo estratificado.
1
f L 1 L
2
1 L
V MEP ( x )
V MEMV ( x ) =
n3 h =1
2
Wh S h
Wh S h
W S 2 =
n h =1 N
h h
12 h =1
1 1
n N
1 L 1 L
2
L
( )
L
2
n h =1
W S
h h
2
h =1
Wh S h
= Wh S h
S
n h =1
0 con S = Wh S h
La igualdad se da h =1
si S h = S h =1,L, L
Luego VMEP ( x )
VMEMV ( x ) 0 VMEP ( x ) VMEMV ( x )
158 Muestreo estadstico. Conceptos y problemas resueltos
S 2 1
f L 1
f L
W (X )
2
(1
f ) = W h S h2 + h h
X =
142 43 n 1n442h =1
44 3 n h =1
V MAS ( x ) V MEP ( x )
1 L
1
f L
V MEMV ( x ) +
n
(
Wh Sh
S )
2
+
n
W (X h h
X )
2
h =1 h =1
2 1 L 1 L
2 = Wh h2 + Wh (X h
X ) Wh h2 + Wh (X h
X )
L L
2 2
=
h =1 h =1 {n n4
1 243 1
h =1 n h4
=1
4
42444 3
VMAS ( x ) VMEP ( x ) 0
VMAS ( x ) VMEP ( x )
La igualdad se da
si X h = X h =1,L, L
1 L
2 2
1 L 1 L L
VMEP ( x )
VMEMV ( x ) = h h n
n h =1
W 2
h =1
W
h h
= h h
n h =1
W 2
h =1
W
h h
1 L
Wh ( h
)
L
2 1 L 1 L
Wh (X h
X ) =
2
= W
h h
2
+
{n n4
1 243 n h =1
h =1
V MAS ( x ) VMEP ( x )
1 L
) + 1n W (X
L
VMEMV ( x ) + Wh h
n h =1
( 2
h h
X)
2
h =1
POSTESTRATIFICACIN
Ejemplos tpicos son las caractersticas personales como la edad, el sexo, la estatura,
etc., y el nivel de educacin.
Los tamaos de los estratos Nh se pueden obtener de manera bastante exacta a partir
de las estadsticas oficiales, pero las unidades se pueden clasificar en estratos solamente
despus de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los
Nh son conocidos.
160 Muestreo estadstico. Conceptos y problemas resueltos
Este mtodo se utiliza cuando se desconocen a priori las unidades que pertenecen a
cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los
pesos de stos son conocidos, se puede utilizar el estimador insesgado.
L
x ' = Wh x h
h =1
cuya precisin es similar a la obtenida con la afijacin proporcional, siempre que todos los
nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen slo las
aproximaciones Wh, el estimador:
L
x ' ' = W 'h xh
h =1
N
n L N
n L 2
V (x' ' ) = h h N n2
N '
S ' 2
+ S ' h (1
f ' h )
N 2 n h =1 h =1
N
n L N ( N
n) L 2
V ( X ' ' ) = h h
N '
S ' 2
+ S ' h (1
f ' h )
n h =1 n2 h =1
N
n L N
n L 2
V ( x ' ' ) = 2 N ' h
S ' h2 +
N n h =1
S ' h (1
f ' h )
N n 2 h =1
N
n L N ( N
n) L 2
V ( X ' ' ) = N ' h
S ' h2 + S ' h (1
f ' h )
n h =1 n2 h =1
n' h
Para totales y proporciones cambiamos S h2 por P' h (1
P ' h ) y S ' 2h por
n' h
1
N 'h
P ' h (1
P' h ) . El apstrofe indica siempre valor de postestratificacin.
N ' h
1
Muestreo estratificado sin y con reposicin 161
PROBLEMAS RESUELTOS
4.1. Una empresa publicitaria est interesada en medir la influencia de la publicidad televisiva en un
municipio y decide realizar una encuesta por muestreo para estimar el nmero promedio de horas
por semana que se ve la televisin en los hogares del municipio. ste comprende dos pueblos A y
B y un rea rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el
rea rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares
(20 del pueblo A, 8 del pueblo B y 12 del rea rural) midiendo en cada uno el tiempo que se ve la
televisin en horas por semana. Se obtienen los datos siguientes:
Puebla A (estrato I) 35 28 26 41 43 29 32 37 36 25 29 31 39 38 40 45 28 27 35 34
Pueblo B (estrato II) 27 4 49 10 15 41 25 30
rea rural (estrato III) 8 15 21 7 14 30 20 11 12 32 34 24
Estimar el tiempo promedio que se ve la televisin, en horas por semana, en cada uno de los
estratos y en todo el municipio fijando lmites para el error de estimacin a travs de intervalos de
confianza al 95%.
Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en
una hoja de clculo de Excel. A continuacin, para calcular los estadsticos necesarios en cada
estrato, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos
Estadstica descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1.
Al pulsar Aceptar se obtienen los estadsticos muestrales por estrato de la Figura 13-2. Se
observa que el tiempo promedio que se ve la televisin en el pueblo A es 33,9 horas por
semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son
33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el
tamao muestral seleccionado en cada estrato obtenemos los errores de los estimadores en
cada estrato suponiendo muestreo con reposicin (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12
= 7,3). Como los coeficientes de asimetra y curtosis en cada estrato estn en el intervalo
[
2,2], puede suponerse normalidad, con lo que los lmites para el error de estimacin en cada
estrato (suponiendo muestreo con reposicin) sern los radios de los intervalos de confianza al
95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposicin, las
varianzas en cada estrato hay que multiplicarlas por (1
nh/Nh) h = 1, 2, 3.
Figura 13-1
162 Muestreo estadstico. Conceptos y problemas resueltos
Figura 13-2
L
S 2
V ( X st ) = Wh2
(1
f h )
h
h =1 nh
La Figura 13-3 presenta las frmulas para el clculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.
Figura 13-3
Figura 13-4
L 2
2 Sh
( )
V X st = Wh
h =1 nh
La Figura 13-5 presenta las frmulas y la Figura 13-6 presenta los resultados.
Muestreo estratificado sin y con reposicin 163
4.2. Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una
empresa se obtiene la siguiente distribucin de frecuencias:
Xi ni
2 100
3 80
5 200
10 30
20 30
50 30
100 20
200 10
Comenzamos realizando los clculos por estratos necesarios para la resolucin del
problema. Tenemos:
Estratos
Sh S h2 h h2 Nh
I 1,32 1,75 1,32 1,74 380
II 17,1 292,13 16,99 288,88 90
III 47,95 2298,85 47,14 2222,22 30
N 1 S1
n1 = 100
15
N 1 S1 + N 2 S 2 + N 3 S 3
N S N2S2
n h = n
L h h n 2 = 100
44
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh
h =1 N3 S3
n 3 = 100
41
N 1 S1 + N 2 S 2 + N 3 S 3
Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer
estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero
ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima
varianza entre los dos primeros estratos. Tendremos:
N 1 S1
n1 = 70
N S + N S 17
N S 1 1 2 2
nh = n
L h h
n = 70
N2S2
Nh Sh
2
N 1 S1 + N 2 S 2
53
h =1
Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del
estimador de la media para esta afijacin sin reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza, calculamos
N 380 N 90
W '1 = 1 = = 0,8085 y W '2 = 2 = = 0,1915 . La varianza ser:
N' 470 N' 470
2
1 2 1 2
V X = W ' h S h
W ' h S h2 = 0,184064 .
n' h =1 N ' h =1
N 1 1
n1 = 100
15
N 1 1 + N 2 2 + N 3 3
N N 2 2
n h = n
L h h n 2 = 100
44
N 1 1 + N 2 2 + N 3 3
N h h
h =1 N 3 3
n 3 = 100
41
N 1 1 + N 2 2 + N 3 3
Se observa que la afijacin coincide exactamente con la obtenida para muestreo sin
reposicin. Ahora el nmero de unidades a seleccionar para la muestra en el tercer estrato
vuelve a ser superior al nmero de unidades de dicho estrato, pero como el muestreo es con
reposicin, es posible seguir haciendo extracciones porque las unidades se reponen a la
poblacin cuando se extrae y nunca se acabarn. El valor de la varianza mnima ser ahora:
2
1 3 1 380 90 30
V X = Wh h = (
1,32 +
16,99 + 47,14) 2 = 0,47469344
n h =1 100 500 500 500
N 1 1
n1 = 70
N + N 17
N 1 1 2 2
nh = n
L h h
N 2 2
N h h n = 70
2
N 1 1 + N 2 2
53
h =1
Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del
estimador de la media para esta afijacin con reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N' 470
y N 90
W '2 = 2 = = 0,1915 . La varianza ser:
N ' 470
2
1 2 1
V X = W ' h h = (0,8085
1,32 + 0,1915
16,99) 2 = 0,266705.
n' h =1 70
Las afijaciones coinciden para muestreo con y sin reposicin, pero el muestreo sin
reposicin resulta ms preciso, ya que tiene menor varianza (tanto si se exigen unidades
distintas, como en caso contrario).
Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el
muestreo sin reposicin sigue siendo ms preciso que el muestreo con reposicin.
4.3. Las mil unidades de una poblacin se clasifican en tres estratos para los que se conocen los
datos de la tabla adjunta:
Estratos
i Wi
I 4 0,6
II 12 0,3
III 80 0,1
Se pide:
2) Determinar el tamao de muestra para afijacin ptima con costes C1=1000, C2=1200 y
C3=2000, considerando el muestreo con y sin reposicin. Realizar las respectivas
afijaciones ptimas. Comprobar que los resultados coinciden para costes unitarios con
los de afijacin de mnima varianza.
W1=0,6=N1/NN1=600 12=16=(N1-1)S12/N1S12=6,02S1=4,003
W2=0,3=N2/NN2=300 22=144=(N2-1)S22/N2S22=144,5S2=12,02
W3=0,1=N3/NN3=100 32=6400=(N3-1)S32/N3S32=6464,6S3=80,4
Tenemos entonces:
Estratos
Sh S h2 h h2 Nh Wh
I 4,003 6,02 4 16 600 0,6
II 12,02 144,5 12 144 300 0,3
III 80,4 6464,6 80 6400 100 0,1
1 1 L W S h
2
h
e 2 = V X =
Wh S h2 n = h =1
122
n N h =1 1 L
2
e +
N
W S
h =1
h
2
h
n1 = kN 1 = 0,122
600 73
n 122
n h = kN h con k = = = 0,122 n 2 = kN 2 = 0,122
300 37
N 1000 n = kN = 0,122
100 12
3 3
1 L W h
2
h
e = V X = Wh h2 n =
2 h =1
139
n h =1 e2
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Ello es debido a que el muestreo con reposicin es menos
preciso que el muestreo sin reposicin. Una vez hallado el tamao de muestra realizamos la
afijacin proporcional como sigue:
n1 = kN 1 = 0,139
600 83
n 139
nh = kN h con k = = = 0,139 n 2 = kN 2 = 0,139
300 42
N 1000 n = kN = 0,139
100 14
3 3
N h =1
Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza
como sigue:
Muestreo estratificado sin y con reposicin 167
N 1 S1
n1 = 35
6
N 1 S1 + N 2 S 2 + N 3 S 3
N S N2S2
n h = n
L h h n 2 = 35
9
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh
h =1 N3S3
n 3 = 35
20
N 1 S1 + N 2 S 2 + N 3 S 3
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
de mnima varianza como sigue:
N 1 1
n1 = 35
7
N 1 1 + N 2 2 + N 3 3
N h h N 2 2
nh = n
L n 2 = 35
10
N 1 1 + N 2 2 + N 3 3
N h h
h =1 N 3 3
n 3 = 35
23
N 1 1 + N 2 2 + N 3 3
L L
Wh Sh ch Wh Sh ch
1 L L 1 L h=1 h=1
V (xst ) = e 2 = Wh Sh ch Wh Sh ch
Wh Sh2 n = 35
n h=1 h=1 N h=1 1 L
e + Wh Sh
2 2
N h=1
Una vez hallado el tamao de muestra, realizamos la afijacin ptima como sigue:
N 1 S 1 / C1
n1 = 35
7
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
N h S h / Ch N2S2
nh = n
L n 2 = 35
10
N S / C + N S / C + N S / C
N h S h / Ch
1 1 1 2 2 2 3 3 3
h =1
n 3 = 35
N3S3
18
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
168 Muestreo estadstico. Conceptos y problemas resueltos
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
ptima como sigue:
N 1 1 / C1
n1 = 40
8
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
N h h / C h N 2 2
nh = n
L n 2 = 40
12
N / C + N / C + N / C
N h h / C h
1 1 1 2 2 2 3 3 3
h =1
n 3 = 40
N
3 3
20
N / C + N / C + N / C
1 1 1 2 2 2 3 3 3
Si utilizamos costes unitarios los clculos son exactamente los mismos que para la afijacin
de mnima varianza, luego los resultados tambin lo son. Se observa que tanto en muestreo con
reposicin como sin reposicin la afijacin que menos tamao muestral necesita para cometer un
determinado error de muestreo es la afijacin de mnima varianza, y en este caso tambin la ptima.
4.4. Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total 310 hogares y es dividido en
tres estratos. Se selecciona una muestra estratificada de n = 40 hogares con afijacin
proporcional. Estimar la proporcin de hogares en el municipio donde se ve el programa
televisivo estimando los errores absoluto y relativo cometidos. Datos:
N de hogares donde
Estratos Tamaos muestrales Ph
se ve el pro gra ma
1 n 1 = 20 16 0,80
2 n2 = 8 2 0,25
3 n 3 = 12 6 0,50
n1 20
N 1 = k = 0,129 155
n 40 n 8
nh = kN h con k = = = 0,129 N 2 = 2 = 62
N 310 k 0,129
n3 12
N1 = = 93
k 0,129
3 3
N 155 62 93
Pst = W h Ph = h Ph = 0,80 + 0,25 + 0,50 = 0,60 (60%)
h =1 h =1 N 310 310 310
V ( Pst ) 0,0045
El error relativo sera C v( Pst ) =
100 =
100 = 11,18% .
Pst 0,60
4.5. Una empresa publicitaria est interesada en determinar lo que debe enfatizar la publicidad
televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para
estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del
municipio. ste comprende dos pueblos, pueblo A y pueblo B, y un rea rural. El pueblo A
circunda una fbrica, y la mayora de los hogares son de trabajadores fabriles con nios en
edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de
habitantes ms viejos con pocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el rea rural. Se pide:
1. Analizar los mritos de usar muestreo aleatorio estratificado en esa situacin.
2. Supngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene
tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras
aleatorias de tamao n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del rea rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisin en horas por semana, son los siguientes:
Estrato 1(pueblo A) 35 43 36 39 28 28 29 25 38 27 26 32 29 40 35 41 37 31 45
Estrato 2 (pueblo B) 27 15 4 41 49 25 10 30
Estrato 3 (pueblo C) 8 14 12 15 30 32 21 20 34 7 11 24
Estimar el tiempo promedio que se ve televisin, en horas por semana, para (a) todos los
hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un lmite
para el error de estimacin.
3. Estimar el nmero total de horas por semana que las familias del municipio dedican a ver
la televisin fijando un lmite para el error de estimacin.
Estratos
nh S h2 Sh xh Nh
1 20 35,358 5,946 33,9 155
2 8 232,411 15,245 25,125 62
3 12 87,636 9,361 19 93
170 Muestreo estadstico. Conceptos y problemas resueltos
3
155 62 93
x st = Wh x h = 33,9 + 25,125 + 19 = 27,7
h =1 310 310 310
V (xst ) = Wh2 (1
f h ) h = 1
+ 1
+ 1
= 1,97
h=1 nh 310 155 20 310 62 8 310 93 12
Las ocho observaciones del estrato relativo al pueblo B forman una muestra aleatoria
simple para la que podemos aplicar las frmulas del muestreo irrestricto aleatorio. Tenemos:
x2 =25,125
S 2 8 232,4
V (x2 ) = (1
f 2 ) 2 = 1
= 25,5
n2 62 8
x 2 V (x 2 ) = 25,12510,1
El nmero total de horas estimado que las familias del municipio dedican a ver la
televisin ser:
( )
V X st = N 2V (x st ) = 300 2 (1,97 ) = 189278 ,56
( )
X st V X st = 85872 189278,56 =8587870
Por lo tanto, estimamos que el nmero total de horas que se ve la televisin en los
hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435
horas y un lmite para el error de estimacin de 870 horas.
Cuando se estiman totales es conveniente relativizar los errores, para que sean ms
comprensibles. En nuestro caso, el error relativo ser:
( )
C v X st =
( )
V X st
100 =
189278,56
100 = 5%
X st 8587
4.6. La empresa publicitaria del ejercicio anterior comprob que cuesta ms obtener una
observacin del rea rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observacin en cada pueblo se ha
estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observacin en el rea rural se han
estimado en 16 euros (esto es, c3 = 16). Las desviaciones estndar por estrato (aproximadas
por las varianzas muestrales de una encuesta previa) son 1 5 , 2 15 y 3 10 . Halle
el tamao de muestra total n y los tamaos de muestra para los estratos n1, n2 y n3, que
permiten a la empresa estimar, al mnimo costo, el tiempo promedio que se ve televisin,
con un lmite para el error de estimacin igual a 2 horas.
Supongamos que la firma publicitaria decide utilizar entrevistas por telfono en lugar de
entrevistas personales, porque todos los hogares en el municipio tienen telfono y este
mtodo reduce los costos. El costo de obtener una observacin es entonces el mismo en los
tres estratos y la empresa desea estimar en este caso la media poblacional con un lmite
para el error de estimacin igual a 2 horas. Encuentre el tamao aproximado de la muestra n
y los tamaos de muestra para los estratos n1, n2 y n3.
Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se
usaron en los ejemplos previos son errneas y que las varianzas de los estratos son iguales. El
valor comn de i fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas
por telfono, por lo que los costos sern iguales en todos los estratos. La empresa desea estimar el
nmero promedio de horas por semana que se ve la televisin en los hogares del municipio, con
un lmite para el error de estimacin igual a 2 horas. Determine el tamao de muestra y los
tamaos de estratos necesarios para lograr esta exactitud.
172 Muestreo estadstico. Conceptos y problemas resueltos
En primer lugar observamos que, como el lmite del error de estimacin es 2, tenemos:
2 V (x st ) = 2 V (x st ) = 1
L L
Wh S h ch Wh S h ch
1 L L 1 L
V (xst ) = Wh S h ch Wh S h ch
Wh S h2 n= h=1
h =1
N h=1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):
L L
Wh h c h Wh h c h
h =1 h =1
n= = 57,42 58
1 L
V (x st ) + Wh h 2
N h =1
N 1 1 / C1
n1 = 58
18
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
N h h / C h N 2 2
nh = n
L n 2 = 58
23
N / C + N / C + N / C
N h h / C h
1 1 1 2 2 2 3 3 3
h =1
n3 = 58
N 3 3
17
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V (x st ) = Wh S h
Wh S h2 n =
n h =1 N 1 L
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):
Muestreo estratificado sin y con reposicin 173
2
L
Wh h
n= h =1 = 56,34 57
1 L
V (x st ) + Wh h 2
N h =1
Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es unitaria, podemos aproximar la afijacin ptima y la de mnima varianza por la
proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para
cometer un error de muestreo unitario ser:
1 1 L W S h
2
h
e 2 = V (x st ) =
Wh S h2 n = h =1
n N h =1 1 L
V (x st ) + W S h
2
h
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):
W h
2
h
n= h =1
= 75,6 76
1 L
V (x st ) + W h
2
h
N h =1
n1 = kN 1 = 0,245
155 38
n 76
nh = kN h con k = = = 0,245 n 2 = kN 2 = 0,245
62 15
N 310 n = kN = 0,245
93 23
3 3
174 Muestreo estadstico. Conceptos y problemas resueltos
4.7. Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total N = 310 hogares y es dividido
en tres estratos (pueblo A, pueblo B y un rea rural) de tamaos 155, 62 y 93 hogares,
respectivamente. Datos de un estudio anterior indican que las proporciones de hogares donde
se ve el programa pueden estimarse por 0,80, 0,25 y 0,30, respectivamente, en cada estrato.
Adems, el coste para obtener una observacin es de 9 unidades monetarias para cualquiera
de los pueblos y de 16 para el rea rural. Hallar el tamao de muestra n y su reparto entre los
estratos para estimar la proporcin poblacional de hogares donde se ve la televisin con un
lmite para el error de estimacin igual a 0,1 y con un coste mnimo.
Resolver el problema suponiendo que las entrevistas se realizan por telfono y la proporcin
de hogares donde se ve el programa televisivo es similar en cada uno de los tres estratos.
Estratos Tamaos ci Ph
1 N 1 = 155 9 0.80
2 N 2 = 62 9 0.25
3 N 3 = 93 16 0,50
L L
Wh S h ch Wh S h ch
1 L L 1 L
V (xst ) = Wh S h ch Wh S h ch
Wh S h2 n= h=1
h =1
L Nh L N
Ph Q h c h h Ph Q h c h
h =1 N h =1 N
n= = 62,3 64
1 L Nh
V (x st ) + Ph Qh
N h =1 N
N1 P1Q1 / C1
n1 = 63
31
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3
N h Ph Qh / Ch N 2 2
nh = n
L n2 = 63
14
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3
N h Ph Qh / Ch
h =1
n3 = 63
N 3 3
18
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3 Q3 / C3
En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V ( x st ) = Wh S h
Wh S h2 n =
n h =1 N h =1 1 L
V (x st ) + Wh S h2
N h =1
2
L Nh
Ph Qh
h =1 N
n= = 61,08 62
1 L Nh
V (x st ) + Ph Qh
N h =1 N
N1 P1Q1
n1 = 62
29
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
N h Ph Qh N 2 2
nh = n
L n2 = 62
12
N P Q + N P Q + N P Q
N h Ph Qh
1 1 1 2 2 2 3 3 3
h =1
n3 = 62
N 3 3
21
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es constante (Ph 0,4 h2 = PhQh = Ph(1
Ph) = 0,24), podemos aproximar la afijacin
ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres.
Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:
176 Muestreo estadstico. Conceptos y problemas resueltos
1 1 L W S h
2
h
e 2 = V (x st ) =
Wh S h2 n = h =1
n N h =1 1 L
V (x st )+ W S h
2
h
N h =1
L
Nh
h =1 N
Ph Qh
n= = 73,3 74
1 L N
V (x st ) + h Ph Q h
N h =1 N
Si suponemos los pesos con una distribucin normal, la desviacin estndar en cada estrato puede
aproximarse por un cuarto de la amplitud de variacin, es decir, 1 = 10/4 = 2,5 y 2 = 8/4 = 2.
Como los costes de muestreo son similares en los estratos, es lgico utilizar afijacin de
mnima varianza (que coincide con la ptima en este caso) y que siempre es ms eficiente que
la afijacin proporcional. En este caso, el tamao de muestra para cometer un error de
muestreo unitario ser:
2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V (x st ) = Wh S h
Wh S h2 n =
n h =1 N 1 L
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos:
2
L Nh
h
n= h =1 N = 16,83 17
1 L Nh 2
V (x st ) + h
N h =1 N
Muestreo estratificado sin y con reposicin 177
N 1 1 + N 2 2 + N 3 3
7
4.9. Un mayorista del sector de la distribucin de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusin de un nuevo producto en
sus existencias. Para tomar la decisin, planifica aadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X).
El distribuidor suministra nicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamao n = 20 almacenes. Dado que no tiene informacin previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijacin proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Despus de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:
Estimar las ventas promedio para el mes y fijar un lmite para el error de estimacin.
Realizar la misma estimacin y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.
N 24 36 30 30
n1 = n 1 = 20 = 4 , n2 = 20 = 6 , n3 = 20 = 5 , n 4 = 20 =5
N 120 120 130 130
Estratos I II III IV
Medias ( x h ) 99 100 98 100
Cuasivarianzas ( S h2 ) 78,67 55,6 39,5 112,5
L L
Nh 24 36 30 30
x st = Wh x h = xh = 99 + 100 + 98 + 100 = 99,3
h =1 h =1 N 120 120 120 120
2 2
1 L 1 L
1 L Nh 1 L
Nh 2
V (x st ) = Wh S h
Wh S h2 = Sh
S h = 2,93
n h =1 N h =1 n h =1 N N h =1 N
1 L 1
x=
n h =1
Xi =
20
(94 + 90 + L + 91 + 113) = 99,3
S 2 20 59,8
V ( x ) = (1
f ) = (1
) = 2,49
n 120 20
Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisin dada por:
2,93
GP =
1100 = 17,67%
2,49
4.10. La consejera de medio ambiente de una comunidad est realizando un estudio del nmero
de personas X que utiliza las instalaciones de campings pblicos. La comunidad tiene dos
reas para acampar, una localizada en las montaas y otra localizada a lo largo de la costa.
La consejera desea estimar el nmero promedio de personas por camping y la proporcin de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estn ocupados. El nmero promedio de personas se va a
estimar con un lmite de 1 para el error de estimacin, y la proporcin de personas de fuera
de la comunidad con un lmite de 0,1. Las dos reas para acampar forman convenientemente
dos estratos, la localidad de la montaa como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamao de
muestra y la asignacin necesarios para lograr estos dos lmites. Se supone que la consejera
de medio ambiente conoce por experiencia que la mayora de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.
Como los costes de muestreo son constantes en los estratos, utlizaremos afijacin de mnima
varianza (equivalente a la ptima en este caso). Adems, como la desviacin tpica es
alrededor de 1/4 de la amplitud de variacin en una distribucin normal, podemos suponer
que su valor para el nmero de personas que ocupan los campings es constante en todos los
campings y con valor i = (9
1)/4 = 2.
En primer lugar observamos que, como el lmite del error de estimacin es 1
tenemos:
2 V (x st ) = 1 V (x st ) = 0,25
1 1 L
W S h
2
h
e = V (x st ) =
Wh S h2 n =
2 h =1
n N h =1 1 L
V (x st ) + W S h
2
h
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 2 en este caso, tenemos:
L
Nh 2
h =1 N
h
n= = 14,8 15
1 L Nh 2
V (x st ) + h
N h =1 N
n 15 n = kN 1 = 0,075
120 = 9
nh = kN h con k = = = 0,075 1
N 200 n 2 = kN 2 = 0,075
80 6
L
Nh
h =1 N
Ph Qh
n= = 67
1 L Nh
V (x st ) + Ph Qh
N h =1 N
n 67 n = kN 1 = 0,335
120 40
nh = kN h con k = = = 0,335 1
N 200 n 2 = kN 2 = 0,238
62 27
4.11. Determinar el tamao n de la muestra estratificada que con afijacin de mnima varianza
produzca la misma precisin que una muestra aleatoria simple (no estratificada) de tamao n,
para estimar la proporcin P de una cierta clase en la poblacin. Suponer en ambos casos
muestreo con reposicin y aplicar el resultado a los datos de la tabla con n=1000.
Estratos
I II III
Wh 0,2 0,3 0,5
Ph 0,5 0,6 0,4
Resolver el mismo problema para afijacin proporcional y comparar resultados realizando los
comentarios pertinentes.
n' n
Estratos W h Ph 1
Ph W h Ph Ph (1
Ph ) Wh Ph (1
Ph )
I 0,2 0,5 0,5 0,10 0,5 0,1
II 0,3 0,6 0,4 0,18 0,49 0,147
III 0,5 0,4 0,6 0,20 0,49 0,245
3 3
W
h =1
h Ph = 48 W h =1
h Ph (1
Ph ) = 0,492
n' n
2
3
n' Wh Ph (1
Ph )
1000 (0,492 )
2
n= h =1 = = 970
P (1
P ) 0,48(1
0,48)
P (1
P) W P (1
P )
h h h
V AS ( P ) = y VSTP ( P ) = h =1
n' n
P(1
P) W P (1
P )
h h h
V AS (P ) = VSTP (P ) = h =1
n' n
3
n' Wh Ph (1
Ph )
n=
h =1 = 1000 (0,242) = 970
P (1
P ) 0,48(1
0,48)
4.12. Se trata de estudiar el consumo anual de leche en una ciudad de 110000 habitantes. La
poblacin se divide en tres estratos por edades y se toman muestras aleatorias simples en
cada uno de ellos. Se tienen los siguientes datos para el consumo anual de leche en litros:
Estimar la cantidad total de leche consumida al ao entre los menores de 25 aos, indicando
el error de muestreo cometido, y calcular el tamao muestral necesario para estimar el
consumo medio de leche al ao entre los mayores de 50 aos, con un error de muestreo de 5
litros al 95% de confianza. Realizar una estimacin por intervalos al 95% del consumo
medio anual de leche por habitante.
Supongamos ahora que se multiplica por tres el tamao de la muestra. Realizar la nueva
afijacin por los diferentes mtodos para elegir el mejor.
S 2 1460 15876
V ( X 1 ) = (1
f 1 ) 1 = (1
) ( X 1 ) = V ( X 1 ) = 155857,578 litros
n 48000 1460
2 N 3 S 32 1,96 2 (24000)(23409)
n3 = = = 3128,25 3129
e2 N 3 + 2 S 32 5 2 (24000) + 1,96 2 (23409)
Para realizar la estimacin por intervalos al 95% del consumo medio anual de leche
por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo
estratificado y, por tanto, el intervalo de confianza ser:
Muestreo estratificado sin y con reposicin 183
x st ( x st )
L
1 L
1
x st = Wh x h = N h xh = (48000 102,7 + 38000 71,4 + 24000 73,2) = 85,451
h =1 N h =1 110000
2
L
S h2 48000 1460 15876
( x st ) = Wh2 (1
f h )
h =1
= 1
n h 110000
48000 1460
+
2 2
38000 1160 48841 24000 1730 23409
1
+ 1
= 2,73
110000 38000 1160 110000 24000 1730
Entonces:
Afijacin uniforme
Por tanto, de cada estrato se tomara un muestra aleatoria simple de 4350 personas.
Afijacin proporcional
Nh
Wh = , h = 1, 2, 3
N
N1 48000
n1 = n= 13050 = 5694,5455 5695
N 110000
N2 38000
n2 = n= 13050 = 4508,1818 4508
N 110000
N3 24000
n3 = n= 13050 = 2847,2727 2847
N 110000
Nh Sh
nh = L
n , h = 1, 2, 3
N i Si
i =1
184 Muestreo estadstico. Conceptos y problemas resueltos
N
h =1
h S h = 48000 15876 + 38000 48841 + 24000 23409 = 18118000
48000 15876
n1 = 13050 = 4356,2424 4356
18118000
38000 48841
n2 = 13050 = 6048,8961 6049
18118000
24000 23409
n3 = 13050 = 2644,8615 2645
18118000
Como la afijacin de mnima varianza siempre supera a las dems, esta ltima es la
afijacin ms eficiente entre los estratos.
2 N 2 p 2 q 2 1,96 2 (38000)(0,5)(0,5)
n= = = 380,3251 381
e 2p (N 2
1) + 2 p 2 q 2 0,05 2 (37999) + 1,96 2 (0,5)(0,5)
3
1,96 2 (38000)(0,5)(0,5)
n= = 380,3251 381
0,05 2 (37999) + 1,96 2 (0,5)(0,5)
1,96 2 (38000)(0,6)(0,4)
n= = 365,2583 366
0,05 2 (37999) + 1,96 2 (0,6)(0,4)
Cuando no hay informacin sobe las proporciones poblaciones siempre nos situamos
en la peor de las situaciones para nosotros en trminos de coste, es decir, el caso en que ms
tamao muestral se va a necesitar; sin embargo sta es la situacin de ms precisin, es
decir, que lo que se pierde en trminos de coste se gana en trminos de precisin.
14.13. Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad,
seleccionndose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las
caractersticas siguientes para los tres grupos:
Realizar una estimacin por intervalos al 99% de confianza para el salario total percibido por
los empleados ms jvenes. Hallar tambin la estimacin del salario mensual medio de los
diez mil trabajadores, as como su error de muestreo. Hallar el reparto muestral ms eficiente
en los distintos grupos de edad para estimar el salario mensual medio.
Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los
trabajadores ms jvenes mediante un intervalo de confianza, utilizaremos la expresin
correspondiente al muestreo aleatorio simple aplicada al primer estrato:
n S2 n S2
I X = N 1 X 1
N 12 (1
1 ) 1 ; N 1 X 1 + N 12 (1
1 ) 1
1
N 1 n1 N 1 n1
666 38000 2
2900 120500 2,575 2900 2 1
= [339799178,2; 359100821,8]
2900 66
Para estimar el salario medio de todos los trabajadores utilizamos el estimador del
muestreo aleatorio estratificado:
L
x st = Wh x h = 0,29 120500 + 0,47 163000 + 0,24 195000 = 158355
h =1
L
S h2
( x st ) = Wh2 (1
f h )
h =1 nh
Nh Sh
nh = L
n
Nh Sh
h =1
N
h =1
h S h = 2900 38000 + 4700 35000 + 2400 40000 = 370700000
2900 38000
n1 = 2000 = 594,5508 595
370700000
4700 35000
n2 = 2000 = 887,5101 887
370700000
2400 40000
n3 = 2000 = 517,9390 518
370700000
Para estimar la proporcin de trabajadores con contrato inferior a dos aos, debemos
obtener la estimacin de la proporcin poblacional en un muestreo aleatorio estratificado
como sigue:
L
Pst Wh Ph = 0,29 0,5631 + 0,47 0,1989 + 0,24 0,1552 = 0,2940
h =1
375 150 90
P1 = = 0,5631 , P2 = = 0,1989 , P3 = = 0,1552
666 754 580
L
N h
n h Ph Q h
( Pst ) = W h
2
h =1 N h
1 nh
Muestreo estratificado sin y con reposicin 187
2900
6660,56310,4369 4700
7540,19890,8011 2400
5800,15520,8448
0,292 + 0,472 + 0,242 = 0,008
2899 666 4699 754 2399 580
Hemos supuesto que p3 = 0,5 puesto que no se tiene informacin anterior sobre la proporcin
de trabajadores de ms de 50 aos que padecieron enfermedades por motivos laborales.
Hemos llegado a que, para estimar esta proporcin con un error de muestreo no superior al 6%
habr que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 aos.
4.14. Para estudiar el terreno agrcola de una comarca se consideraron tres zonas segn su
localizacin geogrfica y en cada una de ellas, de forma independiente, se seleccion,
mediante un muestreo aleatorio simple, cierto nmero de fincas. Se tiene la siguiente
informacin:
Zonas Nmero total Nmero de fincas Superficie media Desviacin tpica Nmero de fincas
de fincas seleccionadas muestral (Ha) muestral (Ha) barbecho
A 3200 380 28 3,5 124
B 5600 800 15 6,7 250
C 1200 200 45 8 17
Estimar puntualmente la superficie total del terreno agrcola en cada una de las zonas, as
como su error de muestreo. Hallar los tamaos muestrales necesarios para realizar las
estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un
coeficiente de confianza del 99%.
Realizar una estimacin por intervalos al 99% de confianza de la superficie media de las
fincas de la comarca y realizar la afijacin ms eficiente de la muestra anterior en las tres
zonas para realizar la estimacin de la superficie media.
Hallar tambin el tamao muestral y la afijacin que se debera haber realizado para estimar
del modo ms eficiente posible la superficie total del terreno agrcola de la comarca con un
error de muestreo no superior a 1000 Ha y una confianza del 99%.
Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona
podrn obtenerse a travs de las frmulas del muestreo aleatorio simple y los globales a
partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en
tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de
forma independiente entre ellas.
188 Muestreo estadstico. Conceptos y problemas resueltos
Los estimadores puntuales de la superficie total del terreno agrcola en cada una de
las zonas se calculan mediante X h = N h x h y su error de muestreo se calcula mediante:
n S
( X h ) = N h2 1
h h , h = 1, 2, 3
N h nh
X 1 = N 1 x1 = 3200 28 = 89600 Ha
380 3,5
( X 1 ) = 3200 2 1
= 539,35 Ha
3200 380
X 2 = N 2 x 2 = 5600 15 = 84000 Ha
800 6,7
( X 1 ) = 5600 2 1
= 1228,13 Ha
5600 800
X 3 = N 3 x 3 = 1200 45 = 54000 Ha
200 8
( X 1 ) = 1200 2 1
= 619,67 Ha
1200 200
Los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos
errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en
cada estrato mediante:
2 N h2 S h2
nh = , h = 1, 2, 3
eT2 + N h 2 S h2
h
1200 2 2,575 2 8 2
n3 = = 404,8936 405
1000 2 + 1200 2,575 2 8 2
Muestreo estratificado sin y con reposicin 189
Para realizar la estimacin por intervalos al 99% de la superficie media de las fincas
de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y,
por tanto, el intervalo de confianza ser:
x st ( x st )
L
x st = Wh x h = 0,32 28 + 0,56 15 + 0,12 45 = 22,76
h =1
L
N = N h = 3200 + 5600 + 1200 = 10000
h =1
N1 3200 n 380
W1 = = = 0,32 ; f 1 = 1 = = 0,1188
N 10000 N 1 3200
N2 5600 n 800
W2 = = = 0,56 ; f 2 = 2 = = 0,1429
N 10000 N 2 5600
N3 1200 n 200
W3 = = = 0,12 ; f 3 = 3 = = 0,1667
N 10000 N 3 1200
L
Sh2 3,52 6,72 82
(xst ) = Wh2 (1
f h )
h=1 nh
= 0,322 (1
0,1188)
380
+ 0,562 (1
0,1429)
800
+ 0,122 (1
1667)
200
= 0,147
Entonces:
Nh Sh
nh = L
n , h = 1, ,L
N
h =1
h Sh
Tenemos:
N
h =1
h S h = 3200 3,5 + 5600 6,7 + 1200 8 = 58320
3200 3,5
n1 = 1380 = 265,0205 265
58320
5600 6,7
n2 = 1380 = 887,8189 888
58320
1200 8
n3 = 1380 = 227,1605 227
58320
L
N h2 S h2
h =1 wh Nh Sh
n= 2
wh = L
, h = 1, .,L
e L
2
+ NhS
h =1
2
h N
i =1
h Sh
3200 3,5
w1 = = 0,1920
58320
5600 6,7
w2 = = 0,6433
58320
1200 8
w3 = = 0,1646
58320
nh = wh n , h = 1, ,L
L
NL
N L Nh
124 250 17
Pst = Wh Ph = h Ph = h A ih = 0,32 + 0,56 + 0,12 = 0,2896
h =1 h =1 N h =1 N i =1 380 800 200
1 n1
124
P1 = A i1 = = 0,3263
n1 i =1 380
1 n2
250
P2 = A i2 = = 0,3125
n2 i =1 800
1 n3
17
P3 = A i3 = = 0,085
n3 i =1 200
L
N h
n h Ph Q h
( Pst ) = Wh2
h =1 N h
1 nh
3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
(Pst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200
4.15. En una ciudad turstica de temporada con 10000 viviendas se desea conocer la proporcin de
viviendas en alquiler al menos una vez al ao. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamao proporcional
al nmero total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales haba 800 en alquiler al menos un mes al ao. En el barrio B se eligieron 900
viviendas, de las cuales haba 600 en alquiler al menos un mes al ao. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al ao.
Estimar la proporcin de apartamentos que estaran dispuestos a ser alquilados al menos una
vez al ao y cuantificar el error de muestreo cometido.
Para estimar la proporcin de viviendas en alquiler al menos una vez al ao, definimos:
L
N L L
n h 1050 800 900 600 1700 1300
Pst = Wh Ph = h Ph =
{ Ph = + + = 0,7397
h =1 h =1 N h =1 n 3650 1050 3650 900 3650 1700
Afijacin
proporcional
1 n1
800 1 n2
600 1 n3
1300
P1 = Ai1 = = 0,7619, P2 = Ai 2 = = 0,6667 , P3 = A i3 = = 0,7647
n1 i =1 1050 n2 i =1 900 n3 i =1 1700
N 1 n1 1050 1050
W1 = = = N1 = 10000 = 2877
N n 3650 3650
N n 900 900
W2 = 2 = 2 = N2 = 10000 = 2466
N n 3650 3650
N n 1700 1700
W3 = 3 = 3 = N3 = 10000 = 4658
N n 3650 3650
L
N h
n h Ph Q h
( Pst ) = W h
2
h =1 N h
1 nh
3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
(Pst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200
4.16. Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor despus del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor Por menor
n1 = 70 n2 = 30
y1 = 520 y 2 = 280
S1 = 210 S 2 = 90
Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un lmite para el error
de estimacin.
Muestreo estratificado sin y con reposicin 193
Como la proporcin observada de cuentas al por mayor (0,7) est muy alejada de la proporcin
verdadera (0,4), la estratificacin despus de seleccionar la muestra irrestricta aleatoria
(estratificacin a posteriori) puede ser adecuada, lo cual puede tambin ser justificado porque n1
y n2 exceden de 20.
L L
Nh
x st = Wh x h = x h = 0,4 520 + 0,6 280 = 376
h =1 h =1 N
L
S h2
( x st ) = Wh2 (1
f h )
h =1 nh
2102 90 2
0,4 2 + 0,6 2 = 14,07
70 30
El lmite para el error de estimacin al 95% ser 2 ( x st ) 28, con lo que un intervalo
de confianza al 95% para la estimacin de la cantidad promedio de cuentas que recibe la
empresa ser 376 28.
4.17. Un farmacutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el ltimo mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevara
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en funcin de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuacin:
Realizar una estimacin del ingreso neto del farmacutico y de su error de muestreo.
194 Muestreo estadstico. Conceptos y problemas resueltos
L
X ' ' = N h' x h = 750 303728 + 346 176,8 = 288968,8 euros
h =1
N
n L N ( N
n) L 2
V ( X ' ' ) = N ' h
S h2 + S ' h (1
f h ) = 71689746,68
n h =1 n2 h =1
71689746,68
C v( X ' ' ) = = 0,03 3%
288968,8
Muestreo estratificado sin y con reposicin 195
EJERCICIOS PROPUESTOS
4.1. Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X
sobre una poblacin de 870 personas se obtiene la siguiente distribucin de frecuencias:
Valores de X 2 3 4 7 10 12 16 20 25 30 35 50 60 100
Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10 8 4
Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblacin
utilizando dos mtodos diferentes de estratificacin. El mtodo I consiste en realizar tres
estratos segn los criterios dados por 2 X 7, 10 X 25, 30 X 100. El mtodo II
consiste en realizar tres estratos segn los criterios dados por 2 X 10, 12 X 35,
50 X 100. Se pide lo siguiente:
1) Suponiendo muestreo con reposicin y para un tamao de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mnima varianza para los dos mtodos de
estratificacin. Comentar los resultados. Elegir el mejor mtodo de estratificacin y su tipo
de afijacin justificando la respuesta. Cuantificar la ganancia en precisin para el mtodo y
afijacin elegidos respecto del muestreo aleatorio simple con reposicin.
2) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposicin. Comentar los resultados comparndolos con los del apartado anterior.
3) Para la misma muestra de tamao 100 realizar la afijacin ptima para los dos mtodos de
estratificacin, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 =
25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i segn el mtodo de
estratificacin j. Considerar muestreo sin reposicin y con reposicin y comparar los resultados.
Para este tipo de afijacin cul es el mejor mtodo de estratificacin? Razona la respuesta.
4) En una encuesta de salarios posterior, qu tamao de muestra sera necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposicin y afijacin
de mnima varianza? y si el muestreo es con reposicin? Comentar los resultados.
5) En una encuesta de salarios posterior qu tamao de muestra sera necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( r
=1,96) al estimar el total salarial con reposicin y afijacin proporcional. Y si el muestreo
es sin reposicin? Comentar los resultados.
4.2. Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rpidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces ms bienes que una casa en el estrato de renta baja, y se
espera que Sh sea proporcional a la raz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) Cmo se distribuira de forma ptima entre los dos estratos una muestra de 1000 familias
extrada de la poblacin?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos cmo
debe distribuirse la muestra?
196 Muestreo estadstico. Conceptos y problemas resueltos
4.3. Consideramos un proceso de muestreo estratificado con afijacin ptima en el que se define
la funcin de coste total C de la siguiente forma:
L
C = c0 + c h n h
h =1
donde c0 representa un coste fijo dado y los ch son tambin conocidos y representan el coste
unitario en el estrato h (h = 1, 2, ..., L). Se pide:
1 Realizar la afijacin de mnima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresin general que nos da la varianza mnima.
Estrato Wh Sh ch
1 0,4 4 1
2 0,3 5 2
3 0,3 6 3
4.4. Supongamos conocidos los siguientes datos de una poblacin dividida en tres estratos: S12 = 9,
S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide
lo siguiente:
b) Contestar a las mismas cuestiones del apartado anterior, pero con reposicin, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijacin ptima y la de mnima varianza coinciden para costes unitarios.
CAPTULO
MUESTREO SISTEMTICO
OBJETIVOS
1. Presentar el concepto de muestreo sistemtico.
NDICE
1. Muestreo sistemtico. Especificaciones.
2. Estimadores y varianzas.
5. Estimacin de varianzas.
7. Problemas resueltos.
8. Ejercicios propuestos
Muestreo sistemtico 199
i \ j 1 2 3 L j L k
1 u 11 u 12 u 13 L u1 j L u 1k
2 u 21 u 22 u 23 L u1 j L u 2k
M M M M M M
i u i1 ui2 u i3 L u1 j L u ik
M M M M M M
n u n1 u n2 u n3 L u nj L u nk
i\j 1 2 3 L j L k
1 u1 u2 u3 u
L j L uk
2 uk +1 uk +2 uk +3 L uk + j L uk +k
3 u2 k +1 u2 k +2 u2 k +3 L u2 k + j u2 k +k
M M M M M M
i u(i
1) k +1 u(i
1) k +2 u(i
1) k +3 L u(i
1) k + j L u(i
1) k +k
M M M M M M
n u( n
1) k +1 u( n
1) k +2 u( n
1) k +3 L u(n
1) k + j L u(n
1) k +k
12
44 3
uN
Para extraer una muestra de tamao n se elige al azar una unidad en la primera zona, y
para seleccionar las n
1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirn las n
1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemticas as obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.
( u~ ) = {u
1 1 , u 1+ k , L u 1+ ( n
1 ) k }
LLLLLLLLLLL
( u~ ) = {u
j j , u j + k , L u j + ( n
1) k }
LLLLLLLLLLL
( u~ ) = {u
k k , u k + k , L u k + ( n
1) k }
El muestreo sistemtico extiende la muestra a toda la poblacin, recoge el posible
efecto de estratificacin debido al orden en que figuran las unidades de la poblacin (cada
fila se puede considerar como un estrato), permite la consideracin de conglomerados en la
poblacin (cada columna se puede considerar como un conglomerado), es fcil de aplicar y
comprobar, no presenta problemas de clculo algebraico y no precisa distincin entre
reposicin y no reposicin. Adems, si la disposicin de los elementos en la poblacin es
aleatoria, la seleccin sistemtica equivale a un muestreo aleatorio simple. Por ltimo, el
error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en
estratificado.
Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si
existe periodicidad en la poblacin y el problema terico que se presenta en la estimacin de
varianzas debido a que no hay independencia en la seleccin de unidades en las distintas
zonas, ya que la unidades extradas en cada zona dependen de la seleccionada en la primera
zona. En general slo hay seleccin aleatoria para la primera unidad de la muestra.
ESTIMADORES Y VARIANZAS
n 1 Yij n k
$ =
1
estima insesgadamente el parmetro poblacional = Y . ij
i j i j
k
X ij n n
1 n
1
Total = X Yij = X ij X = = k X ij = N. X ij = Nx j
i j =1 1
n i=1
i =1 n
k N
X ij
X ij n 1
1 n
Media = X Yij = X = nk = X ij = x j
N
{ i j =1 1 n i=1
nk k
Aij
Aij n 1
1 n
Proporcin = P Yij = P = nk = Aij = P j
nk i j =1 1 n i=1
k
n 1 A n
1 n
Totaldeclase = X Yij = Aij A = = k Aij = N. Aij = NP j
ij
i j =1 1
n i=1
i =1 n
k N
Media X = x j
Proporcin P = P j
Total de clase A = NP j
(X ij
X ) = ( X ij
x j ) + (x j
X )
( N
1)S 2 = ( N
k )Sws
2
2 2
+ (k
1)Sbs2
i =1 j =1 i =1 j =1 i =1 j =1
1 442443 1 442443 1 442443
( N
1) S 2 2
( N
k ) S ws 2
( k
1) Sbs
202 Muestreo estadstico. Conceptos y problemas resueltos
(x ) 2
Entre muestas k
1 j
X S bs2
i j
n k
Dentro de muestras N
k (X
i j
ij
xj ) 2 2
S ws
n k
Total k
1+ (N
k ) = N
1 (X
i j
ij
Xj ) S2
2
S S 2
V ( X ) = V (x j ) = (1
f ) ,bs
V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1
f ) bs
n n
2 2 2
( ) ( ) ( ) ( )
k n k n k k
1 1 1 1
V ( P ) = V P j =
k j
Pj
P =
nk i j
P j
P =
N i j
P j
P = PQ
k
P Q
j
j j
2 2
( ) ( ) (P
P) = N (P
P) = N PQ
k P Q
k n k k
1 1
V ( A ) = V NPj = N 2V Pj = N 2 j j
2
j j
k j i j j
Un concepto interesante en muestreo sistemtico es el coeficiente de correlacin
intramuestral w, que mide la interrelacin entre las unidades dentro de las muestras. Lgicamente,
esta interrelacin debe ser lo ms pequea posible, ya que en el muestreo sistemtico interesa la
heterogeneidad intramuestral, con la finalidad de que una nica muestra sistemtica represente lo
mejor posible a toda la poblacin. Para que una muestra sistemtica aspire a ser fiel espejo de toda
la poblacin ha de ser heterognea, y la interrelacin entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lgico que interesen valores muy pequeos del coeficiente de correlacin
intramuestral. La expresin matemtica de w es la siguiente:
k n
2 (X ij
X )(X zj
X ) 2
1 k n
(X ij
X ) = varianza poblacional
j i< z
w = , 2 =
N (n
1) 2 nk j i
La varianza de los estimadores puede expresarse en funcin de w. Para la media
tenemos:
2 2
V (x j ) = [1 + (n
1) w ] = N
1 S [1 + (n
1) w ]
n N n
2 2
( )
V ( X ) = V Nx j = N 2V x j = N 2( ) [1 + (n
1) w ] = N ( N
1) S [1 + (n
1) w ]
n n
( )
V P j =
PQ
n
[1 + (n
1) w ] V A = N 2 ()
PQ
n
[1 + (n
1) w ]
Segn esta expresin, la precisin del muestreo sistemtico puede analizarse en funcin
del coeficiente de correlacin intramuestral, de tal modo que la precisin mxima se produce para
=
1/(n-1), y la mnima para = 0, igualndose la precisin del muestreo sistemtico con la
del muestreo aleatorio simple para = 0. De esta forma, para valores de entre
1/(n-1) y 0,
el muestreo sistemtico es ms preciso que el aleatorio simple, y para valores de entre 0 y 1, el
muestreo sistemtico es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a
precisin, convienen valores negativos del coeficiente de correlacin intraconglomerados .
Muestreo sistemtico 203
Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra
estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el
muestreo estratificado aleatorio la seleccin se efecta independientemente en cada estrato,
mientras que en el muestreo sistemtico todos los elementos seleccionados ocupan el mismo
lugar o nmero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad
de seleccin. Adems, sera conveniente que las n zonas sistemticas de k elementos cada
una (estratos) sean lo ms homogneas posible dentro de ellas y heterogneas entre ellas.
Esta clasificacin de los elementos de la poblacin en n filas de k unidades cada una origina
la siguiente tabla del anlisis de la varianza poblacional:
Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios
(X
X)
n k
2 2
Entre estratos n
1 i S bst
i j
(X
Xi)
n k
2
Dentro de estratos N
n ij
2
S wst
i j
(X )
n k
Total n
1 + ( N
n) = N
1 ij
X j S2
i j
204 Muestreo estadstico. Conceptos y problemas resueltos
2
1 n k
2
Swss =
N
n i j
Xij
Xi2 ( )
tenemos:
n k n k n k
(X ij
X ) = (X ij
X i ) + ( X i
X ) ( N
1)S = ( N
n)Swst + (n
1)Sbst
2 2 2 2 2 2
() L
h
n
i
n
1 S2 1 1 n
V X = V (xst ) = Wh2V (xh ) = Wi 2V ( xi ) = 2 (1
f i )
i = 2 1
Si2 =
i n ni n k i
2 2 2
1 1 n 1 k 1 n k N
n 2 S wst
1
( X
X )
ij i n2k = ( X ij
X i ) = S wst = (1
f )
n 2 k i k
1 j i Nn n
1 4j 42443
( N
n)Swst2
1 k n
(X ij
X i )(X zj
X z ) k n
n j i< z
k 2(X ij
X i )(X zj
X z )
cov(X ij ; X zj ) 2 j i< z
st = = =
1 k n 1 k n 2
n(n
1)(k
1)S wst
(X ij
X i )2 ij i ( X
X )2
N j i=1 N j i=1
1442443
( N
n)Swst
2
Se demuestra que la varianza del estimador de la media en funcin de st y Sst tiene la
forma siguiente:
2
S
V ( X ) = V (x j ) = (1
f ) wst (1 + (n
1) st )
n
y lo mismo se calcularan las varianzas del resto de los estimadores en funcin del
coeficiente de correlacin intraestratal st.
Muestreo sistemtico 205
n
1
ESTIMACIN DE VARIANZAS
No podemos decir que en muestreo sistemtico haya un mtodo directo para la estimacin de
varianzas a partir de una muestra sistemtica. Tenemos las siguientes situaciones:
x1 + x 2 x1 + x 2
2
x1 + x 2
2
( x1
x2 ) 2
xc = V ( x c ) = x1
$ 2
+ x2
2
=
2 2 2 4
Se observa que al aumentar el nmero de arranques aleatorios, manteniendo el mismo
tamao de muestra, la precisin obtenida se aproxima a la del muestreo aleatorio simple.
1 j k
1 x1 xj xk
2 x1+ k x j +k xk +k
M M M M
i x1+(i
1)k L x j +(i
1)k L x k +(i
1)k
M M M M
n x1+(n
1)k x j +(n
1)k x k +(n
1) k
Muestreo sistemtico 207
PROBLEMAS RESUELTOS
N de robot 1 2 3 4 5 6 7 8 9 10 11 12 13
N de piezas producidas 5 5 4 2 5 4 5 4 3 4 4 3 2
Si definimos una variable dicotmica A a la que asignamos el valor 1 para las piezas
defectuosas y el valor 0 para las piezas correctas, y clasificamos las 50 piezas en 10 filas de
5 piezas cada una (muestreo sistemtico 1 en 5) siguiendo el orden del enunciado del
problema, tendremos la tabla de la Figura 5-1.
1 0 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 1 0 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 0 1 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 1 0 2/5
6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50
Figura 5-1
Figura 5-2
Figura 5-3
Con la notacin que utilizamos habitualmente, la tabla ANOVA ser:
Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios
n k
(x
X ) = 1,72
2
Entre k
1= 5
1= 4 j S bs2 = 1,72 / 4 = 0,43
i j
n k
(X
x j ) = 7,9
2
Dentro N
k = 50
5 = 45 ij
2
S ws = 7,9 / 45 = 0,1755
i j
n k
Total N
1 = 50
1 = 49 (X
i j
ij
X j ) = 9,62 S 2 = 9,62 / 49 = 0,1963
Muestreo sistemtico 209
Conocida esta tabla, pueden realizarse ya todos los clculos. La varianza del
estimador de la proporcin puede calcularse como:
( ) n S2 S2 1 0,43
V ( P ) = V P j = 1
bs = (1
f ) bs = (1
)
N n n 5 10
= 0,0344
( )
2
S
V ( A ) = V NP j = N 2V ( P j ) = N 2 (1
f ) bs = 50 2 0,0344 = 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlacin
2
intramuestral a travs de la frmula V ( x j ) = (1 + (n
1) ) . Tendremos:
n
49
0 ,1963
0 , 0344 = 50 (1 + (10
1) ) = 0 , 0875
10
Se observa un valor de muy cercano a cero, lo que indica que el muestreo sistemtico
va a tener una precisin muy cercana a la del aleatorio simple en la estimacin de la proporcin de
piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws tambin tienen valores muy
cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es ms preciso el muestreo
aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es
(1
1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisin del aleatorio simple ser
(0,0344
0,0157)/0,0344 = 54,3%.
Dado el valor del coeficiente de correlacin intramuestral, muy cercano a cero, podemos
estimar varianzas mediante la frmula del muestreo aleatorio simple. Se tiene:
6 6
2 1
( )
V P1 = (1
f )
S1
n
= (1
f )
P1Q1 1 10 1 10
= 1
n
1 5 10
1
= 0,0213
3 3
2 Q 1
( )
V P2 = (1
f )
S
n
2
= (1
f )
P2 2 1
= 1
1 10
10
n
1 5 10
1
= 0,0186
1 1
2 1
( )
V P3 = (1
f )
S3
n
= (1
f )
P3 Q3 1 10 1 10
= 1
n
1 5 10
1
= 0,008
( ) ( )
V P4 = V P3 = 0,008
2 2
2 Q 1
( ) S P 1
V P5 = (1
f ) 5 = (1
f ) 5 5 = 1
n
10
1
n
1 5 10
1
10
= 0,0142
( ) 1
f
V P1 = 2
n
(x
2
h
h1
xh 2 ) =
2 1
0,2
10 2
[ ]
(1
1) 2 + (1
0) 2 + (0
1) 2 + (1
0) 2 + (0
1) 2 = 0,032
n
( ) 1
f 2
V P2 = 2 (xh1
xh 2 ) =
n h
2 1
0,2
10 2
[
(0
0) 2 + (0
1) 2 + (1
0) 2 + (0
0) 2 + (1
0) 2 = 0,024 ]
( )
V P = 0,008(0
1) 2 = 0,008 = V P
3 ( ) ( )
V P = 0,008 (1
0) 2 + (1
0) 2 = 0,016
4 5 [ ]
Las mejores muestras segn el mtodo del muestreo estratificado tambin resultan ser
la tercera y la cuarta, y adems coinciden en varianza con el mtodo anterior. Para las restantes
muestras se observa ganancia en precisin del mtodo de estimacin utilizando la frmula del
muestreo aleatorio simple. La proporcin estimada de piezas defectuosas producidas ser la
derivada de la 3 o 4 muestra, esto es: P = P3 = P4 = 1 / 10 ; es decir que se estima un 10%
de produccin defectuosa.
mi m1 m2 m3 m4 m5 m6 m7 m8
Xi 1 3 5 2 4 6 2 7
[ ]
3 3
(x
X ) 2 = 4 (3
3,75 ) + (4,5
3,75 ) = 4,5
2 2
j
1 3 2 i =1 j =1
5 2 3,5 3 3
(X
x j ) 2 =(1
3) + (5
3) + ... + (6
4,5) + (7
4,5) 2 = 27
2 2 2
4 6 5 ij
i =1 j =1
2 7 4 ,5 3 3
3 4 ,5 3,75
(X
X ) 2 =(1
3,75 ) + (5
3,75 ) + ... + (7
3,75) 2 = 31,5
2 2
ij
i =1 j =1
Hemos creado un cuadro con las muestras sistemticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.
Muestreo sistemtico 211
Figura 5-4
Figura 5-5
(x )
n k
2
Entre muestras k
1 = 2
1 = 1 j
X = 4,5 S bs2 = 4,5 / 1 = 4,5
i j
(X
x j ) = 27
n k
2
Dentro de muestras N
k = 8
2 = 6 ij S ws2 = 27 / 6 = 4,5
i j
(X )
n k
Total N
1 = 8
1 = 7 ij
X j = 31,5 S 2 = 31,5 / 7 = 4,5
i j
1 k 1
[
V ( X ) = V ( x j ) = ( x j
X ) 2 = (3
3,75) + (3,5
3,75) 2 = 0,5625
k j 2
2
]
La varianza del estimador de la media tambin puede calcularse como:
2
nS S2 1 4,5
V ( X ) = V (x j ) = 1
bs = (1
f ) bs = (1
) = 0,5625
N n n 2 4
( )( ) 2(X )( )
k n k n
2 X ij
X X zj
X ij
X X zj
X
j i<z j i<z
w = = =
0,14285
N (n
1) 2 ( N
1)(n
1)S 2
Tendremos entonces:
7
4,5
2
V (x j ) = (1 + ( n
1) ) = 8 (1 + 3(
0,14285)) = 0,5625
n 4
Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S2ws = 4,5 = S2, por lo que la precisin en muestreo aleatorio simple coincide con la
precisin del muestreo sistemtico, y podremos utilizar la frmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlacin
intramuestral indica que la precisin del muestreo sistemtico es buena, ya que ste es
muy bajo y adems es negativo. Al ser negativo vemos que no existe interrelacin dentro de
las muestras, esto es, que las muestras tienden a ser heterogneas dentro de s, lo cual es muy
conveniente en muestreo sistemtico a la vista de que la muestra ha de representar fielmente
a toda una poblacin que se supone heterognea.
Para estimar la varianza de la media podemos utilizar la frmula del muestreo
aleatorio simple, ya que en este problema coincide en precisin con el sistemtico.
Tendremos los siguientes resultados para cada una de las dos muestras:
S
[ ] 4 = 0,41
2
1 1
V (x1 ) = (1
f )
1 = 1
(1
3) + (5
3) + (4
3) + (2
3) 2
2 2 2
n 2 3
S
[ ] 4 = 0,71
2
1 1
V (x2 ) = (1
f )
2 = 1
(3
4,5) + (2
4,5) + (6
4,5) + (7
4,5) 2
2 2 2
n 2 3
La mejor muestra sistemtica resulta ser la primera, pues es la que presenta menor
varianza.
Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la poblacin en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemtica consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 4
filas de 2 unidades cada una origina una tabla del anlisis de la varianza para la poblacin
que puede calcularse a travs de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuacin
elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men
Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7
presenta los resultados.
Figura 5-6
Figura 5-7
214 Muestreo estadstico. Conceptos y problemas resueltos
Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios
(X
X ) = 10,5 S bst
n k
2 2
Entre estratos n
1= 4
1= 3 i = 10,5 / 3 = 3,5
i j
(X
X i ) = 21
n k
2
Dentro de estratos N
n=8
4=4 ij
2
S wst = 21 / 4 = 5,25
i j
(X
X j ) = 31,5
n k
Total N
1= 8
1= 7 ij S 2 = 31,5 / 7 = 4,5
i j
(X
X ) ( ) [ ]
n k k
2 2
i = k Xi
X = 2 (2
3,75)2 + (3,5
3,75)2 + (5
3,75)2 + (4,5
3,75)2 = 10,5
i j j
(X )
n k
2
ij
Xi = (1
2)2 + (3
2)2 + (5
3,5)2 + (2
3,5)2 + (4
5)2 + (6
5)2 + (2
4,5)2 + (7
4,5)2 = 21
i j
S2 1 5,25
V ( X ) = V ( x j ) = (1
f ) wst = 1
= 0,65625
n 2 4
( )( )
k n
2 Xij
Xi X zj
X z
2
st = j i<z
2
= ((1
2)(5
3,5) + (1
2)(4
5) + ...+ (6
5)(7
4,5)) =
0,047
n(n
1)(k
1)S wst 4.3.1.5,25
El valor de st es negativo y muy pequeo, lo que indica que la falta de aleatoriedad
en la seleccin de una unidad por estrato no es muy elevada. Para calcular el valor correcto
de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la
siguiente expresin en funcin de st:
2
S 5,25
V ( X st ) = V ( x jst ) = (1
f ) wst (1+ (n
1)st ) = (1
0,5) (1
(4
1)0,047) = 0,56
n 4
Se observa que ahora ya coincide la varianza con la calculada sin estratificar.
1 3
Estrato 1
5 2
4 6
Estrato 2
2 7
n
1
f 1
0,5
[ ]
2
V ( x1 ) = 2 (x
xh2 ) =
2
h1 (1
5) 2 + (4
2) 2 = 0,625
n h 42
n
1
f 1
0,5
[ ]
2
V ( x 2 ) = 2 (x
xh2 ) =
2
h1 (3
2) 2 + (6
7) 2 = 0,0625
n h 42
5.3. Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los
hogares con ingresos mensuales superiores a 1500 euros son los que tienen los nmeros 3,
5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34.
1) Se trata de estimar la proporcin de hogares con sueldo mensual superior a 1500 euros
utilizando muestreo sistemtico. Comparar la precisin de una muestra sistemtica 1 en 4
con una muestra aleatoria simple del mismo tamao para estimar la proporcin de hogares
con sueldo mensual superior a 1500 euros. Justificar la respuesta en funcin del valor del
coeficiente de correlacin intramuestral y en funcin de la cuasivarianza intramuestral.
2) Hallar el tamao de muestra necesario para estimar la proporcin de viviendas en las que los
ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centsimas.
Hallar ese mismo tamao para muestreo aleatorio simple y comentar el resultado.
Si definimos una variable dicotmica A a la que asignamos el valor 1 para los hogares en
que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y
clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemtico 1 en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:
0 0 1 0 1/ 4
1 1 1 0 3/ 4
0 0 1 1 1/ 2
1 0 1 1 3/ 4
0 0 0 1 1/ 4
1 1 0 0 1/ 2
1 1 0 1 3/ 4
0 1 1 1 3/ 4
1 1 0 0 1/ 2
5/9 5/9 5/9 5/9 5/9
1 5 5 5 5 5 5 5 5
2 2 2 2
V ( P ) =
+
+
+
= 0
4 9 9 9 9 9 9 9 9
Figura 5-9
Figura 5-10
Muestreo sistemtico 217
Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios
(x )
n k
2
Entre k
1 = 4
1 = 3 j
X =0 S bs2 = 0 / 3 = 0
i j
(X
n k
x j ) = 8,88
2
Dentro N
k = 36
4 = 32 ij S ws2 = 8,88 / 32 = 0,277
i j
(X ) = 8,88
n k
Total N
1 = 36
1 = 35 ij
X j S 2 = 8,88 / 35 = 0,254
i j
Conocida esta tabla pueden realizarse ya todos los clculos. Por ejemplo, la varianza
del estimador de la proporcin tambin podra calcularse como:
( )
2
nS S2 1 0
V ( P ) = V P j = 1
bs = (1
f ) bs = (1
) = 0
N n n 4 9
Estamos ante el caso de mxima precisin del muestreo sistemtico, ya que la varianza
1
es nula, o lo que es lo mismo, =
.
n
1
Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 <
S2ws = 0,277, lo que indica que es ms preciso el muestreo sistemtico que el aleatorio simple.
La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1
1/4)*0,254/9
= 0,021.
Para resolver el segundo apartado del problema consideramos ahora cada una de las
9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la poblacin en 9
estratos de 4 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por
estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin
de los elementos de la poblacin en 9 filas de 4 unidades cada una origina una tabla del
anlisis de la varianza que se puede calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a
G13, que recogen los valores de las nueve filas. A continuacin elegimos Anlisis de la varianza de
un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada
como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.
218 Muestreo estadstico. Conceptos y problemas resueltos
Figura 5-11
Figura 5-12
Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios
(X )
n k
2 2
Entre estratos n
1 = 9
1 = 8 i
X = 1,388 S bst = 1,388 / 8 = 0,1735
i j
(X )
n k
2
Dentro de estratos N
n = 36
9 = 27 ij
Xi = 7,5 2
S wst = 7,5 / 27 = 0,277
i j
(X )
n k
Total N
1 = 36
1 = 35 ij
X j = 8,888 S 2 = 8,888 / 35 = 0,254
i j
( )( )
k n
2 Xij
Xi X zj
X z
j i<z 2 1 3 1 1 3 1
st = 2
= (0
)(1
) + (0
)(0
) + ... + (1
)(0
) =
0,125
n(n
1)(k
1)S wst 9.8.3.0,277 4 4 4 2 4 2
S2 n 0,277
V (Pst ) = (1
f ) wst (1 + (n
1)st ) 0,162 = (1
) (1 + (n
1)(
0,125) n = 5
n 36 n
Para calcular el tamao de muestra anterior en muestreo aleatorio simple despejamos
n en la expresin que define la varianza de la proporcin en ese tipo de muestreo. Tenemos:
S2 n 0,254
V (Pst ) = (1
f ) 0,162 = (1
) n =8
n 36 n
Obviamente el tamao de muestra necesario para cometer el mismo error de muestreo es
mayor en muestreo aleatorio simple que en muestreo sistemtico, ya que en este problema el
muestreo sistemtico es ms preciso que el muestreo aleatorio simple.
5.4. Un investigador desea determinar la calidad del azcar contenida en la sabia de los rboles
de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras.
El nmero total de rboles es desconocido, por lo que no puede realizarse una muestra
irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra
sistemtica de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azcar en
la sabia de los rboles muestreados:
X
i =1
i = 17066 X
i =1
i
2
= 1486800
X
i =1
i
X = xj = = 80,5
212
2
212
212
i
2
X
X i
i =1
212
S 2 = x j =
i =1
= 535,48
212
1
1 535,48
V ( X ) = V ( x j ) = 1
= 2,16 ( X ) = 1,47
7 212
V ( x j ) 1,47 1,47
C v( X ) = = = = 0,0182 (1,82%)
E(x j ) 80,5
X
El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza para la media suponiendo normalidad en la poblacin ser:
130 0,48
V ( X ) = N 2V ( x j ) = 1300 2 1
= 5625 ( X ) = 75
1300 130
V ( X ) 75 1,47
C v( X ) = = = = 0,016 (1,6%)
X 4576 80,5
El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza al 95% para la produccin total suponiendo normalidad en la
poblacin ser:
2 ( X ) = 150
5.6. Una muestra sistemtica de 1 en 10 es obtenida de una lista de votantes registrados para
estimar la proporcin de votantes que estn a favor de la emisin de bonos propuesta. Se
utilizan diferentes puntos de inicio aleatorio para asegurar que los resultados de la muestra
no se ven afectados por variacin peridica en la poblacin. Los resultados codificados de
esta encuesta de eleccin previa se muestran en la tabla adjunta. Estimar p, la proporcin de
los 5775 votantes registrados que estn a favor de la emisin de bonos propuesta (N = 5775).
Establecer un lmite para el error de estimacin.
Votante Respuesta
4 1
10 0
16 1
. .
. .
. .
5760 0
5766 0
5772 1
962
y
i =1
i = 652
212
X i
652
P = P j = i =1
= = 0,678
962 962
n P j (1
P j ) 962 0,678(1
0,678)
V ( P ) = V ( P j ) = 1
= 1
= 0,000196 ( X ) = 0,014
N n
1 5775 962
1
V ( P ) 0,014 1,47
C v( P ) = = = = 0,0206 (2,06%)
P 0,678 80,5
Por otra parte, un intervalo de confianza para la proporcin, suponiendo normalidad
en la poblacin ser:
P ( P ) = 0,678 2 0,014
El lmite para el error de estimacin ser el radio del intervalo de confianza, o sea,
0,028 (2,8%).
5.7. Un parque estatal cobra la admisin por automvil en lugar de por persona, y un funcionario
del parque quiere estimar el nmero promedio de personas por automvil para un da
concreto en particular durante el verano. El funcionario sabe por experiencia que entrarn al
parque alrededor de 400 automviles y quiere muestrear 80 de ellos. Para obtener una
estimacin de la varianza, utiliza el muestreo sistemtico replicado con 10 muestras de 8
automviles cada una. En la tabla siguiente se presentan los datos del nmero de personas
por automvil (entre parntesis):
Estimar el nmero promedio de personas por automvil y establezcer un lmite para el error
de estimacin.
1 t 1
xc =
t 1
x t = (3,75 + 3,38 + L + 4,38) = 4,16
10
El estimador insesgado de su varianza mediante la aplicacin del mtodo de las
muestras interpenetrantes es:
1 t 2 1 t 2 t 2 1 t 2
V (xc ) = (1
n / N ) i c
t(t
1) i
x
tx 2
= (1
n / N ) i i c
t(t
1) i
x
x = (1
n / N ) (xi
xc2 )
t(t
1) i
1
V (xc ) = (1
80 / 400) 177410
10* 4,162 = 0,0365
10(9
1)
5.8. Una empresa publicitaria est iniciando una campaa de promocin para un nuevo producto.
La empresa quiere muestrear clientes potenciales en una pequea comunidad para
determinar la aceptacin del producto. Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra sistemtica de entre N
= 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por telfono. Determinar el tamao de muestra requerido para estimar la
proporcin de personas que consideran <<aceptable>> el producto, con un lmite para el
error de estimacin de magnitud 0,03 (esto es, 3%).
() ()
2 V P = 0,03 V P = 0,000225
NP Q 5000(0,5)(0.5)
n= = = 909,240 910
( N
1)V ( P ) + P Q 4999(0,000225) + (0,5)(0,5)
EJERCICIOS PROPUESTOS
ui u1 u2 u3 u4 u5 u6 u7 u8 u9
Xi 1 3 5 2 4 6 2 7 3
5.2. En un directorio de 13 casas de una calle las personas estn distribuidas hogar a hogar como
sigue:
1 2 3 4 5 6 7 8 9 10 11 12 13
M M M M M M M M M M M M M
F F F F F F F F F F F F F
f f m m f f m m m f f
m m f m m f f f m
f f f m
M=varn adulto, F=mujer adulta, m=hijo varn, f=hija
Se realiza muestreo sistemtico de una de cada 5 personas (muestreo 1 en 5), numerando los
elementos de la poblacin por columnas hacia abajo y luego yendo a la parte superior de la
siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente:
1) Calcular el valor del coeficiente de correlacin st y hallar la varianza del estimador de la
proporcin de varones adultos en la poblacin utilizando la relacin entre muestreo sistemtico
y muestreo estratificado.
2) Qu muestra sistemtica es la mejor? Cul es la proporcin estimada de varones
adultos en la poblacin?
OBJETIVOS
1. Presentar el concepto de estimacin no lineal.
2. Presentar el concepto de estimacin por mtodos indirectos.
3. Analizar el estimador de razn, su sesgo y su varianza.
4. Estimar el sesgo y la varianza del estimador por razn.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Comprender la formacin de estimadores de magnitudes poblacionales
basados en la razn.
7. Estudiar los errores y su estimacin para estimadores indirectos basados en
la razn.
8. Analizar el estimador de razn, su sesgo y su varianza.
9. Obtener la varianza mnima para el estimador de regresin y su estimacin.
10. Comparar la estimacin indirecta por regresin con otros tipos de muestreo.
11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones.
12. Comprender los mtodos indirectos en muestreo estratificado.
13. Analizar la estimacin por razn en muestreo estratificado.
14. Analizar la estimacin por regresin en muestreo estratificado.
15. Diferenciar entre estimadores separados y estimadores combinados.
16. Comparar las precisiones de los mtodos de estimacin indirecta con
estratificacin.
226 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Estimadores no lineales.
2. Muestreo por mtodos indirectos. El estimador de razn.
3. Estimaciones de los parmetros poblacionales basadas en la razn y errores.
4. Estimaciones por regresin y errores.
5. Estimaciones por diferencia y errores.
6. Estimadores de razn en el muestreo estratificado.
7. Estimadores de regresin en el muestreo estratificado.
8. Problemas resueltos.
9. Ejercicios propuestos.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 227
ESTIMADORES NO LINEALES
Al estimar un parmetro poblacional la dificultad principal suele estar en el clculo del error
de muestreo (raz cuadrada de la varianza del estimador). Por esta razn, son muchos los
procedimientos analizados para la estimacin de varianzas. Segn Wotter (1985), podemos
clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parmetro a
estimar (parmetros lineales o no lineales) y al diseo muestral utilizado (diseos simples o
complejos). Se pueden estimar parmetros lineales en diseos simples, parmetros no
lineales en diseos simples, parmetros lineales en diseos complejos o parmetros no
lineales en diseos complejos. Aunque la mayor parte de la teora bsica de muestreo se basa
en el clculo de estimadores de parmetros lineales en diseos simples, tambin se han
desarrollado procedimientos para aproximacin lineal de estimadores que estn basados en
un desarrollo en serie de Taylor para obtener una aproximacin lineal del estimador y as
poder aplicar posteriormente toda la teora desarrollada para estimadores lineales.
Adems existen otras tcnicas, como los mtodos de exploracin intensiva de una
muestra, que consisten en la generacin de muestras a partir de la muestra inicial, obtenida
mediante un determinado diseo, usando tcnicas muy variadas.
( ) (
1 ,...,k = ( 1 ,..., k ) + d 1 ,...,k )( 1 ,..., k )
+ Tn
(
d 1 ,...,k )( =
k
(
1 ,...,k ) (
r )
1 ,..., k )
r =1 r r
(1 ,..., k )
228 Muestreo estadstico. Conceptos y problemas resueltos
( )
2
k ,...,
() (
V = E
)2
E
r =1
1
r
k
( r )
r
(1 ,..., k )
= E
(
k k ,...,
1 k ) (
) (
1 ,..., k
) l
l (
)
r =1 l =1 r
r r
(1 ,..., k ) (1 ,..., k )
l
k
=
k
(
1 ,...,k )
(
1 ,...,k
) Cov r ,l ( )
r =1 l =1
r
(1 ,..., k ) l (1 ,..., k )
Sea R = un parmetro poblacional y R = un estimador del mismo.
! !
Observamos que R = ( , ! ) y R = ( , ! ) , por lo que estamos en condiciones
de aplicar el mtodo general de linealizacin de varianzas previamente explicado. Haciendo
un desarrollo en serie de Taylor de la funcin ( , ! ) en el punto ( , ! ) resulta:
, !
R
R
( ) (
) + (, ! )
(!
! )
( , ! ) ! ( , ! )
( ) ( ) (!
! )
2
, ! , !
() (
V R = E R
R )2
E
(
)+
!
( , ! ) ( , ! )
2 2
R R R
=
V ()+
! V ! ()
+ 2 R
! Cov , ! ( )
( , ! ) ( , ! ) ( , ! ) ( , ! )
2
!
1 1
()
= 2 V ( ) +
2 V ! + 2
2 Cov , !
! !
( )
!
1
[ ()
= 2 V ( ) + R 2V !
2 RCov , !
!
( )]
Otra expresin alternativa para la varianza de R = ( , ! ) es:
() V ( ) V !
V R R 2 2 + 2
2
Cov , !
() ( )
! !
Muestreo por mtodos indirectos. Razn, regresin y diferencia 229
Los mtodos indirectos utilizan la informacin conocida relativa a una variable auxiliar Y
(variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones
ms precisas para X que las calculadas nicamente a partir de la muestra de la variable que
se estudia.
Entre los mtodos clsicos de estimacin indirecta ms utilizados se encuentran el
mtodo de estimacin por razn (basado en la razn entre X e Y), el mtodo de estimacin
por regresin (basado en la regresin entre X e Y) y el mtodo de estimacin por diferencia
(basado en la diferencia entre X e Y). Estos tres mtodos sern desarrollados a lo largo de
este captulo.
( ) ( ) (
f X G = f X + b0 f (Y )
f Y ( ))
siendo f una funcin, X G el estimador indirecto de X , X e Y los estimadores directos
de X e Y , respectivamente, y b0 un coeficiente de correccin que, dependiendo de su
valor, nos dar los diferentes tipos de estimadores indirectos. Como caso particular
(
supongamos f ( x) = x . Entonces X G = X + b0 Y
Y . )
Los casos ms frecuentes de estimadores indirectos son los siguientes:
1. Si b0 = 0 , se tiene X G = X , es decir, el estimador obtenido es el directo.
( )
2. Si b0 = 1 , entonces X G = X + Y
Y , denominado estimador de la diferencia o
diferencial.
X
3. Si b0 = = R , se obtiene el estimador de razn.
Y
X X
X G = X +
Y
[ ]
Y
Y = Y = R Y = X R
Y
4. Si b0 = b , se obtiene el estimador de regresin.
( )
X G = X + b Y
Y = X rg
230 Muestreo estadstico. Conceptos y problemas resueltos
x i
X x
R = i =1
= =
Y
n
y
y
i =1
i
X R = R Y
X R = R Y
Estos estimadores no son insesgados pero tienen varianza muy pequea y otras
propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder
calcularlos.
Cov( R , y ) R y
B ( R ) =
=
Y Y
B ( R )
es una medida del sesgo por unidad de desviacin tpica, es decir, una medida
R
B ( R )
relativa del sesgo respecto del error de muestreo. Adems, si es del orden del 10%,
R
entonces el sesgo puede ser considerado despreciable en relacin al error estndar.
B( R$ )
B( R$ ) =
( R$ , y ) R$ Cv ( y ) = ( R$ , y )
Cv ( y ) Cv ( y )
R$
con lo que el sesgo relativo (mdulo del cociente entre el sesgo del estimador de la razn y
su desviacin tpica) est acotado por el coeficiente de variacin de y .
Muestreo por mtodos indirectos. Razn, regresin y diferencia 231
Entonces, para que el sesgo del estimador de la razn sea despreciable bastar con
que el coeficiente de variacin de la media muestral de la variable auxiliar sea menor que
1/10, ya que en este caso:
B( R$ ) 1
Cv ( y ) <
R$ 10
Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Adems,
para intentar eliminar la influencia del sesgo se tomarn tamaos de muestra tales que el
sesgo sea despreciable, es decir, tamaos de muestra tales que Cv( y ) < 1/10. Para hallar este
tamao de muestra en el muestreo sin reposicin operamos como se indica a continuacin:
n S2 SY2
1
Y 100 N
( y) V ( y) N n 1 100 NSY2 y2
Cv ( y ) = = = < n> =
E( y) Y Y 10 Ny 2 + 100SY2 SY2
N + 100 2
y
Para hallar el tamao de muestra para el que el sesgo es despreciable en el muestreo
con reposicin operamos como se indica a continuacin:
Y2
( y) V ( y) n 1 100 Y2 Y2
Cv ( y ) = = = < n> = 100 2
E( y) Y Y 10 Y2 Y
La segunda condicin de insesgadez del estimador de la razn es que si la recta de
regresin de la variable auxiliar Y sobre la variable en estudio X (o la de X sobre Y) pasa
por el origen de coordenadas entonces el estimador de la razn R$ es insesgado para R.
(1
f )
B( R ) = (RS Y2
S XY )
nY 2
1
B( R ) = 2
(R Y2
XY )
nY
B ( R ) =
nY 2
(
1 2
RS Y
S XY )
Varianza aproximada del estimador de la razn
() 1
f 1
f N
N N
V R = 2
(S x2 + R 2 S y2
2 RS xy ) = 2
X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(N
1) i i i
Muestreo con reposicin
() 1 1 N
N N
V R = 2
( x2 + R 2 y2
2 R xy ) = 2
X i2 + R 2 Yi 2
2 R X i Yi
Y n Y nN i i i
() 1
f
( ) 1
f n
n n
V R = 2
S x2 + R 2 S y2
2 R S xy = 2
X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i
() 1
( ) 1 n
n n
V R = 2
S x2 + R 2 S y2
2 R S xy = 2
X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i
Muestreo por mtodos indirectos. Razn, regresin y diferencia 233
x x x P A
X R = Y = Y = R Y , X R = x R = Y = R Y , PRX = X PY = R PY , A RX = X PY = R AY
y y y PY A Y
V ( X R ) = V ( R Y ) = Y 2V ( R ) = N
2 1
f
(
S x2 + R 2 S y2
2RS xy
n
)
V ( X R ) = V ( R Y ) = Y 2V ( R ) =
1
f 2
n
(
S x + R 2 S y2
2 RS xy )
Muestreo con reposicin
N2
V(X R ) =V(RY) =Y 2V(R) = ( x2 + R2 y2
2R xy )
n
V(X R ) =V(RY ) = Y 2V(R) = ( x2 + R 2 y2
2R xy )
1
n
V ( X R ) = N
2
n
(
1
f 2 2 2
S x + R S y
2RS xy = N 2 )
1
f n
i
n ( n
1) i
X 2
+ 2
R
n
Y i
2
2
R
n
X i Yi
i i
V ( X R ) =
1
f 2 2 2
n
(
S x + R S y
2R S xy =
1
f n
i
n(n
1) i
X )
2
+ 2 Y 2
2 R X Y
R
n
i i
n
i i i
1
(
V$ ( X$ R ) = S$ x2 + R$ 2 S$ y2
2 RS )
n n n
$$ = 1
n xy
n(n
1)
i
X i2 + R 2
i
Yi 2
2 R X Y
i
i i
234 Muestreo estadstico. Conceptos y problemas resueltos
Supongamos ( xi , y i ) i = 1,..., N pares de valores situados sobre una recta que no pasa por el
origen, es decir, xi = a + by i con a 0 . Entonces, para los valores muestrales y poblacionales se
(
cumple, respectivamente x = a + by y X = a + bY por lo que x
X = b y
Y , o lo que es lo )
( )
mismo, X = x
b y
Y . Se tiene:
- Si y = Y , entonces X = x y V ( x ) = 0
- ( )
Si y Y , entonces X x , siendo b y
Y el ajuste.
bo = 0 x rg = x (estimador simple)
x rg = x + bo ( Y
y ) b = x x = x + x (Y
y ) = x + x Y
x y = x Y = X (razn )
o rg R
y y y y y
b = 1x = ( x
y ) + Y (estimador por diferencia )
o rg
( )
x rg = x + bo (Y
y ) , X rg = Nx rg , Prg = PX + bo PY
PY y A rg = NPrg
Muestreo por mtodos indirectos. Razn, regresin y diferencia 235
El estimador de regresin es en general sesgado salvo que los puntos (Xi , Yi ) con i = 1,2, .... ,N,
donde Yi representa la variable auxiliar correlacionada con la variable en estudio Xi, estuviesen
situados sobre una lnea recta que no pasa por el origen de ecuacin Xi = a + b Yi .
V (xrg ) =
1
f 2
n
(
(S x + bo2 S y2
2bo S xy ) , V (x rg ) = 1
f S x2 + bo2 S y2
2bo S xy
n
)
( ) ( ) ( )
2
V X rg = (Sx + bo S y
2bo Sxy ) , V X rg = N (1
f ) S x2 + bo2 S y2
2bo S xy
N 2 (1
f ) 2 2 2
n n
1
f 2
Vmin (x rg ) =
n
( )
S x (1
2 ) , Vmin X rg =
N 2 (1
f ) 2
n
S x (1
2 )
V (xrg ) =
1 2
n n
( )
( x + bo2 y2
2bo xy ), V (x rg ) = 1 S x2 + bo2 S y2
2bo S xy , Vmin (x rg ) = 1 S x2 (1
2 )
n
( ) N2 2
( ) ( )
2
( x + bo2 y2
2bo xy ) , V X rg = N S x2 + bo2 S y2
2bo S xy , Vmin X rg = N Sx2 (1
2 )
( )
2
V X rg =
n n n
Hasta aqu hemos considerado el caso en que b0 es constante. Sin embargo, cuando
se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0
mediante la expresin:
n
S (X i
x )(Yi
y )
b0 = ! = XY2 = i
SY
n
(Y
y)
2
i
i
( )
V X$ = V ( x ) =
1
f 2
n
Sx
( )
V X$ R =
1
f 2
n
(
S x + R 2 S y2
2 RS x S y
xy )
( ) ( )
Vmin X$ rg = Vmin xrg =
1
f 2
n
(
S x 1
xy2 )
( )
Es evidente que Vmin x rg V ( x ) , ya que 1
xy2 1, correspondiendo el signo
igual al caso xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la
variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo
aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en
precisin a la estimacin aleatoria simple.
Por otra parte:
( ) ( )
Vmin xrg < V ( x R ) V ( x R )
Vmin xrg 0
1
f 2 1
f 2
( S x + R 2 S y2
2 RS x S y xy )
S x (1
2 xy ) 0
n n
1
f 1
f
( ) ( )
2
R 2 S y2
2 RS x S y xy + S x2 xy2 0 RS y
xy S x 0
n n
La desigualdad es siempre cierta, y se produce la iguladad si:
Sx
RS y
xy S x = 0 R = =!
Sy
( ) 1
V X$ = V ( x ) = x2
n
( ) ( 1
V X$ R = x2 + R 2 y2
2 R x y
xy
n
)
( ) ( ) 1
(
Vmin X$ rg = Vmin xrg = x2 1
xy2
n
)
Muestreo por mtodos indirectos. Razn, regresin y diferencia 237
( )
Es evidente que Vmin x rg V ( x ) , ya que 1
xy2 1, correspondiendo el signo
igual al caso xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando
la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el
muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin
supera en precisin a la estimacin aleatoria simple.
( ) ( )
Vmin xrg < V ( x R ) Vmin ( x R )
V xrg 0
1 2 1
( x + R 2 y2
2 R x y xy )
x2 (1
2 xy ) 0
n n
1 2 2 1
( ) ( )
2
R y
2 R x y xy + x2 xy2 0 R y
xy x 0
n n
x S
R y
xy x = 0 R = = x =!
y Sy
X = x
y + Y = D + Y X = N ( x
y ) + Y = D T + Y = ND + Y
Las varianzas y sus estimaciones para los estimadores de la media y el total basados
en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores
diferencia. Para muestreo sin reposicin tenemos:
1
f 2
V ( X ) = V ( D + Y ) = V ( D ) =
n
(
S x + S y2
2S xy ) ( Y es una constante)
238 Muestreo estadstico. Conceptos y problemas resueltos
V ( X ) = V ( D T + Y ) = V ( D T ) = N 2
1
f 2
n
( )
S x + S y2
2 S xy (Y es una constante)
()
V ( X ) = V D =
n
(
1
f 2 2
)
S x + S y
2 S xy , V ( X ) = V ( D T ) = N 2 (
1
f 2 2
n
S x + S y
2 S xy )
Para muestreo con reposicin tenemos:
1 1
(
V ( X ) = x2 + y2
2 xy
n
) (
V ( X ) = N 2 x2 + y2
2 xy
n
)
( ) ( 1
V ( X ) = V D = S x2 + S y2
2 S xy
n
) 1
(
V ( X ) = V ( D T ) = N 2 S x2 + S y2
2 S xy
n
)
ESTIMADORES DE RAZN EN EL MUESTREO ESTRATIFICADO
Existen dos formas de plantear un estimador de razn para el total X , en el caso de muestreo
estratificado. En la primera de ellas se obtiene un estimador de razn para cada el total de cada
estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razn.
La principal ventaja de este estimador es que permite que la razn de X a Y vare de un estrato a
otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Yh , en cada estrato por
separado. En la segunda de ellas se obtiene una nica razn con los totales de X e Y estimados
X st
mediante muestreo estratificado, es decir, , y se multiplica este cociente por el total de la
Y st
variable auxiliar Y , que se supone conocido. El estimador obtenido se denomina estimador
combinado de razn. Para construir este estimador no es preciso conocer el total de la variable
auxiliar en cada estrato; basta conocer el total de la poblacin. sta es una ventaja con respecto al
estimador separado de razn. Sin embargo, el estimador combinado supone, implcitamente, que la
razn permanece constante de un estrato a otro.
4.2.1 Estimador separado de razn
Estimador de razn simple o separado (para el total poblacional)
Se define el estimador separado de razn para el total poblacional X en un
muestreo estratificado como:
L L
x L
X RS = X Rh = R hYh = h Yh
h =1 h =1 h =1 y h
Se observa que es la suma de los estimadores de razn para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo R h h = 1, ..., L .
E ( R h )Yh
RhYh = (1
E ( R h )
Rh )Yh = B ( R h )Yh
4243
h h h B ( R ) h
h
Muestreo por mtodos indirectos. Razn, regresin y diferencia 239
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh. Para muestreo sin reposicin la expresin del sesgo ser:
L L
(1
f h ) L
N h2 (1
f h )
B( X RS ) = Yh B ( R h ) = Yh 2
R S 2
h Yh
S (
XYh = )
Rh S Yh2
S XYh ( )
h h n h Yh h n hYh
{
Yh2 N h2
N h2 (1
f h ) 2
( )
L
que puede estimarse como: B ( X RS ) = n Y Rh SYh
S XYh
h h h
N2
( )
L
que puede estimarse como: B ( X RS ) = h R h SYh2
S XYh
h nh Yh
L L L
1
f
V ( X RS ) = V ( R h
Yh ) = Y h2
V ( R h ) = Y h2
2 h (S xh2 + Rh2 S yh2
2 Rh S xyh ) =
h h h Yh n h
N h2Yh2
2
L
N (1
f h ) 2 L
N h2 (1
f h ) N N N
( )
h h h
n h
S xh + R 2 2
h S yh
2 R S
h xyh = n ( N
1) i hi h i hi
X 2
+ R 2
Y 2
2 R h X hi Yhi
h h h h h i
N 2 (1
f h ) 2
( )
L
V ( X RS ) = h S xh + R h2 S yh2
2 R h S xyh =
h n h
2
L
N (1
f h ) n
h n h n
h
= h X hi2 + R h2 Yhi2
2 R h X hi Yhi
h n h (nh
1) i i i
El valor de la varianza del estimador separado del total para muestreo con reposicin ser:
240 Muestreo estadstico. Conceptos y problemas resueltos
L L
1 L
V ( X RS ) = V ( R h
Yh ) = Y h2
V ( R h ) = Y h2
2 ( xh2 + Rh2 yh2
2 Rh xyh ) =
h h h Yh n h
N h2Yh2
2 2
N
L L
N N N N
n ( + Rh2 yh2
2 Rh xyh ) =
h h h
h 2
xh X hi2 + Rh2 Yhi2
2 Rh X hi Yhi
h
h h h n h ( N h
1) i i i
La estimacin de la varianza para muestreo con reposicin ser:
L
N h2 $ 2 L
N h2 nh 2 nh nh
V ( X RS ) =
$ $ $ (
S xh + Rh S yh
2 Rh S xyh =
2 $2 $ $ ) X hi + R$ h2 Yhi2
2 R$ h X hi Yhi
h nh h nh (nh
1) i i i
Wh2
Wh2 (1
f h ) N h 2
L Nh Nh
n ( N
1) hi h hi
X + R 2
Y 2
2 R h X hi Yhi
h h h i i i
X X 1 1 L
Y
B ( X RS ) = E ( X RS )
X = E ( RS )
= ( E ( X RS )
X ) = B ( X RS ) = B ( R h ) h
N N N N h N
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh/N. Para muestreo sin reposicin la expresin del sesgo ser:
N 2 (1
f h )
1
(Rh S Yh2
S XYh ) = Wh (1
f h ) (Rh SYh2
S XYh )
L L
B( X RS ) = B( X RS ) = h
N h Nn h Yh h n h Yh
(
Wh (1
f h ) 2
)
L
que puede estimarse como: B ( X RS ) = Rh S Yh
S XYh
h nhYh
El valor de la varianza del estimador separado de la media para muestreo con reposicin
ser:
1 L
N2 1 2
V ( X RS ) = 2 V ( X RS ) = h2
n
(
xh + Rh2 yh2
2 Rh xyh = )
N h 1N23 h
Wh2
Wh2
L
Nh 2 Nh Nh
n N X hi + Rh2 Yhi2
2 Rh X hi Yhi
h h h i i i
W2
( ) Wh2 n
L L n n
V ( X RS ) = h S xh2 + R h2 S yh2
2R h S xyh =
h h h
X hi2 + R h2 Yhi2
2R h X hi Yhi
h nh h nh (nh
1) i i i
1 L
N h2 L
W
B ( X RS ) = B ( X RS ) =
N
R h Yh
2
( )
XYh = h R h Yh
2
XYh ( )
h Nn h Yh h n h Yh
Wh
(R S )
L
que puede estimarse como: B ( X RS ) = n Y h
2
Yh
S XYh
h h h
xst X st $
Se considera inicialmente la razn de los estimadores estratificados R$C = = $ , y se
y st Yst
forma el estimador del total X RC = RC
Y (ya que el estimador del total basado en la razn
es X$ = R$
Y ).
h h h h h h
2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = N 2 W (1
f h ) X hi2 + R 2 Yhi2
2R X hiYhi
L L Nh N Nh h
N2 h h
h nh h nh ( N h
1) i i i
L
Wh2 (1
fh ) $2 $ 2 $2 L
Wh2 (1
fh ) nh 2 2 nh 2 nh
V( XRC ) = N
$ $ 2
nh
(
Sxh + R Syh
2R Sxyh = N
$ $ 2
) Xhi + R Yhi
2RXhiYhi
h h nh (nh
1) i i i
X
B ( X$ RC ) = E ( X$ RC )
X = E ( R$ C Y )
Y = E ( R$ C )Y
RY = ( E ( R$ C )
R ) Y = B ( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L L
S2 S
Wh2 (1
f h ) nYhh Wh2 (1
f h ) nXYhh
h h
67
4 48 6 447 448 2
$ $ R V ( y st )
Cov ( x st , y st ) L W (1
f )
h h
B ( X RC ) = B ( RC )Y =
Y = N 2
2
( RS Yh
S XYh )
Y{2 h nh Y
Y2 / N2
L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) = N
$ $ 2
n Y
( RSYh
S$ XYh )
h h
El valor de la varianza del estimador combinado del total para muestreo con reposicin ser:
Muestreo por mtodos indirectos. Razn, regresin y diferencia 243
1
V ( X RC ) = V ( R C
Y ) =Y 2
V ( R C ) = Y 2
2 (V ( x st ) + R 2 V ( y st )
2 R Cov ( x st , y st ) )
{ Y 123 123 142
4 43 4
2 2 L 2 L 2 L
N Y
W n W n h
2
W n
Xh
h
2 Yh
h
2 XYh
h h h h h h
2 2
W
( xh2 + R 2 yh2
2 R xyh ) = N 2 W X hi2 + R 2 Yhi2
2 R X hi Yhi
L L N N N h h h
N2 h h
h nh h nh N h i i i
L
Wh2 $ 2 $ 2 $ 2 L
Wh2 nh 2 $ 2 nh 2 nh
V ( X RC ) = N
$ $ 2
(
Sxh + R S yh
2 RS xyh = N
$ $ 2
) X hi + R Yhi
2 R$ X hiYhi
h nh h nh (nh
1) i i i
6
h
78 647 h h
48 h
2
RV ( y )
Cov ( x st , y st )
L W
B( X RC ) = B( R C )Y = st
Y = N 2
h
( R Yh2
XYh )
Y{2 h n Y
h
Y2 / N2
2
Wh $ $ 2 $ L
que puede estimarse como: B$ ( X$ RC ) = N 2 ( RSYh
S XYh )
h nhY
h
2
f )
n W
h (1
Xh
f )
n
h
2
h
Yh
h
2
h
XYh
h h h h h h
2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = W (1
f h ) X hi2 + R 2 Yhi2
2R X hi Yhi
L L Nh Nh Nh
nh
h
h h n h ( N h
1) i i i
(
W 2 (1
fh ) 2 2 2
)
W 2 (1
fh ) n 2
L L n n
V ( X RC ) = h
h h h
Sxh + R S yh
2R Sxyh = h X hi + R2 Yhi2
2R X hiYhi
h nh h nh (nh
1) i i i
244 Muestreo estadstico. Conceptos y problemas resueltos
2
R V ( y )
Cov ( x , y st )
L W (1
f )
B ( X RC ) = B ( R C )Y = st
2
st
Y = h h
( RS Yh2
S XYh )
Y h nhY
$
L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) =
$
n Y
( RSYh
S$ XYh )
h h
h h h h h h
2 2
W
( xh2 + R 2 yh2
2 R xyh ) = W
L L Nh Nh Nh
h h
X hi2 + R 2 Yhi2
2 R X hi Yhi
h nh h nh N h i i i
La estimacin de la varianza para muestreo con reposicin ser:
W2
( )
Wh2 n
L L n n
V ( X RC ) = h S xh2 + R 2 S yh2
2 R S xyh =
h h h
X hi2 + R 2 Yhi2
2 R X hi Yhi
h nh h n h (n h
1) i i i
Para muestreo con reposicin la expresin del sesgo ser:
L 2 L
Yh XYh
W n hW n
2
h
2
6
h
78 647 4
h h
484 h
2
RV ( y )
Cov ( x , y st )
L W
B( X RC ) = B( R C )Y = st st
Y = h
( R Yh2
XYh )
Y2 h n Y
h
2
$ Wh $ $ 2 $ L
que puede estimarse como: B$ ( X RC ) = ( RSYh
S XYh )
h nhY
El mtodo de estimacin estratificada por razn combinada presenta como principal
ventaja la no acumulacin de los sesgos de las estimaciones en los estratos para el clculo
del sesgo total, lo que reduce el sesgo del estimador final respecto de la estimacin separada.
El principal inconveniente de este mtodo es la imposibilidad de obtencin de estimaciones
separadas por estratos, lo que no permite disponer de informacin de la poblacin al
subnivel de estratos. En la prctica suele utilizarse este mtodo cuando los estratos son de tamao
pequeo (habr muchos estratos en la poblacin, lo que implica demasiado sesgo por estimacin
separada). En general suele utilizarse siempre que la estimacin separada presenta demasiado
sesgo. Tambin suele utilizarse cuando los Rh tienden a ser constantes.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 245
E ( xrgc ) = E ( xst ) + b( Y
E ( yst )) = X + b(Y
Y ) = X
L
Para la estimacin separada del total X$ rgst = N h x rgh se tiene:
h
L L
1
f h 2 L
1
f h 2
( ) h
( )
V X$ rgst = N h2V xrgh = N h2
h nh
( S Xh + ! h S Xh
2
2 ! h S XYh ) = N h2
h nh xh
S (1
2 xyh )
246 Muestreo estadstico. Conceptos y problemas resueltos
Estimador combinado
( )
V xrgc = V ( xst ) + bo2V ( Y
yst )
2bo cov( xst , Y
yst ) =
L
Wh2 ( 1
f h )
V ( xst ) + bo2V ( yst )
2bo cov( xst , yst ) =
h nh
(
S xh2 + bo2 S yh
2
2bo S xyh )
Muestreo por mtodos indirectos. Razn, regresin y diferencia 247
Para hallar el valor de bo que minimiza esta expresin, igualamos a cero su derivada
respecto de bo y tenemos:
Wh2 ( 1
f h )
L
L
Wh2 ( 1
f h ) 2 L
Wh2 ( 1
f h )
n
S xyh
2b0
S yh
2
h h
S xyh = 0 bo =
nh nh Wh2 ( 1
f h ) 2
L
n
S yh
h h
h h
Wh2 ( 1
f h ) 2
L
S xyh n
S yh ! h
h h
Pero como ! h = S xyh = ! h S yh
2
, se tiene bo =
Wh2 ( 1
f h ) 2
2
S yh L
n
S yh
h h
El valor bo que minimiza la varianza del estimador combinado es entonces una medida
ponderada de los coeficientes de regresin !h, siendo las ponderaciones dadas por
L
W (1
f h ) 2
h
2 ! h h
h
h =
S yh , de tal forma que se puede escribir bo = L = ! c , pudiendo
nh
h
h
expresarse la varianza mnima como:
l
1
fh
( )
Vmin xrgc = Wh2
h nh
(
S xh2 + ! c2 S yh
2
2 ! c S xyh )
que puede estimarse como:
1
fh $2
( )
l
( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$yh
2
2 !$c S$xyh
donde:
L
$ !$ h h Wh2 ( 1
f h ) 2 S$xyh
!$c = h
L , $h =
S$ yh y !$h = $ 2 .
nh S yh
$ h
h
( )
X rgc = X st + bo Y
Yst = Nx st + bo (NY
Ny st ) = Nx rgc
L Wh2 ( 1
f h )
( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2 ( ) h nh
(
S xh2 + bo2 S yh
2
2bo S xyh )
248 Muestreo estadstico. Conceptos y problemas resueltos
1
fh l
( )
Vmin X$ rgc = N 2 Wh2
h nh
S xh2 + ! c2 S yh
2
2 ! c S xyh ( )
que puede estimarse como:
1
fh $2
( )
l
( )
V$min X$ rgc = N 2 Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
W2 ! h h
h = h
yh2 , de tal forma que se puede escribir bo = h
L = ! c , pudiendo expresarse la
nh
h
h
varianza mnima como:
l
1
( )
Vmin x rgc = Wh2
h nh
(
xh2 + ! c2 yh2
2 ! c xyh )
que puede estimarse como:
1 $2
( )
l
( )
V$min x rgc = Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
donde:
L
$ !$ h h
Wh2 $ 2 S$xyh
!$c = h
L , $h =
S yh y !$h = $ 2 .
nh S yh
$ h
h
( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2
h nh
( )
xh2 + bo2 yh2
2bo xyh ( )
pudiendo expresarse la varianza mnima como:
l
1
( )
Vmin X$ rgc = N 2 Wh2
h nh
xh2 + ! c2 yh2
2 ! c xyh( )
que puede estimarse como:
1 $2
( )
l
$ $ ( 2
)
Vmin X rgc = N Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
Muestreo por mtodos indirectos. Razn, regresin y diferencia 249
(1
f h ) 2
[ ]
L
Vmin ( X rg ,c )
Vmin ( X rg , s ) = Wh2 S Xh + ! c2 S Yh2
2 ! c S XYh
h =1 nh
2 (1
f h )
[ ] [ ( ]
L L
Wh
nh
2 2 2
)
S Xh + ! h S Yh
2 ! h S XYh = u h ! c2
! h2
2u h (! c
! h )! h
h =1 h =1
L
= u h (! c
! h ) 0
2
h =1
PROBLEMAS RESUELTOS
6.1. En un estudio para estimar el contenido total de azcar de una carga de naranjas, se pes una
muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azcar. Se obtuvieron los
siguientes resultados:
1 0,021 0,40
2 0,030 0,48
3 0,025 0,43
4 0,022 0,42
5 0,033 0,50
6 0,027 0,46
7 0,019 0,39
8 0,021 0,41
9 0,023 0,42
10 0,025 0,44
1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azcar de las
naranjas y su error de muestreo.
2) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.
Figura 6-3
Figura 6-4
6.2. Consideramos una poblacin de 500 individuos en la que est definida la caracterstica
bidimensional (Xi,Yi) que mide las ganancias mensuales en miles de euros de los varones (X)
y las mujeres (Y) con ttulo universitario superior. Una muestra aleatoria simple de tamao
80 proporciona los siguientes datos:
80 80 80 80 80
X i = 420
i =1
Yi = 190
i =1
X i2 = 2284
i =1
Yi 2 = 512
i =1
X Y
i =1
i i = 1045
, , , y
2) Se trata de estimar con y sin reposicin la media y el total de las ganancias mensuales
femeninas en la poblacin utilizando la informacin adicional de la variable ganancia
mensual masculina mediante un mtodo de estimacin indirecta. Qu mtodo indirecto
sera el ms adecuado? Por qu? Realizar las estimaciones de las ganancias femeninas
media y total mensuales mediante los mtodos indirectos conocidos ordenndolos en
precisin y sabiendo que la ganancia total masculina es 10000.
1 80 2 1 80 1 80 2 1 80
2 2
S x2 = i n
X
X i = 1 , S 2
= i n
Y
Yi = 0,768
n
1 i =1 n
1 i =1
y
i =1 i =1
1 80 1 80 80
S xy = X i Yi
X i Yi = 0,6012
n
1 i =1 n i =1 i =1
1 80 1 80
x= X i = 5,25
n i =1
y= Yi = 2,375
n i =1
252 Muestreo estadstico. Conceptos y problemas resueltos
B ( R ) =
nx 2
(
(1
f ) 2
RS x
S XY = )
(1
80 / 500)
80
5,25 2
(0,452
1
0,6012) =
0,0000568
(R ) =
nx 2
(
(1
f ) 2 2 2
)
S y + R Sx
2R SXY =
(1
80/ 500)
80
5,252
(0,768+ 0,4522
1
2
0,452
0,6012) = 0,0128
Para ver si el sesgo del estimador de la razn es influyente hallamos el valor del sesgo
B ( R ) 0,0000568
relativo = = 0,004 < 0,1 , por lo que el sesgo es despreciable.
( R ) 0,0128
S xy
y
y = ( x
x ) y = 0,6012 x
0,78
S 2 x
y 10000 y
Y = R X = X = 0,452
= 9,04 Y = R X = X = 0,452
10000 = 4520
x 500 x
80
(1
)
V (Y ) =
n
(
(1
f ) 2 2 2
S y + R S x
2R S XY = ) ( )
500 0,768 + 0,4522
1
2
0,452
0,6012 = 0,0073
80
V (Y ) = N 2
n
(
(1
f ) 2 2 2
)
S y + R S x
2 R S XY = 500 2
0,0073 = 1825
S xy 0,6012 1000
Yrg = y + b( X
x ) = y + 2 ( X
x ) = 2,375 +
5,25 = 11,2427
Sx 1 500
Y = NY = 500
11,2427 = 5621,35
rg rg
80
1
(1
f ) 2
Vmin (Yrg ) =
n
S y 1
2 = ( ) 500 0,768(1
0,7 2 ) = 0,004
80
V (Y ) = N V (Y ) = 500 2
0,004 = 1000
min rg
2
min rg
10000
Y = D + X = y
x + X = 2,375
5,25 + = 17,125
500
Y = D + X = N ( y
x ) + NX = NY = 500
17,125 = 8562,5
T
V (Y ) = V ( D + X ) = V ( D ) =
(1
f ) 2 2
n
(
S y + S x
S XY = 0,009 )
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2
0,009 = 2250
80
1
(1
f ) 2
V (Yas ) = Sy = 500 0,768 = 0,008
n 80
V (Y ) = N 2V (Y ) = 500 2
0,008 = 2000
as as
1 C x
El estimador basado en la razn mejora al aleatorio simple si se cumple >
2 C y
1 C x S x 1
0,7 = > = R= 0,452 = 0,5157
2 C y S y 0,678
Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple.
Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el
aleatorio simple.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(0,008/0,004
1)100 = 100%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(0,008/0,0073
1)100 = 9,5%.
La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =
(0,009/0,008
1)100 = 12,5%.
Muestreo con reposicin
Las estimaciones de la media y total valen lo mismo que en muestreo sin reposicin.
Calculamos las estimaciones de las varianzas de los estimadores para estimacin indirecta
por razn.
1
( )
V (Y ) = S y2 + R 2 Sx2
2 R S XY = 0,00869
n
1
( )
V (Y ) = N 2 S y2 + R 2 S x2
2 R S XY = 2172,5
n
1 1
( )
Vmin (Yrg ) = S y2 1
2 = 0,768(1
0,7 2 ) = 0,00476
n 80
V (Y ) = N V (Y ) = 500 2
0,00476 = 11900
2
min rg min rg
1
( )
V (Y ) = V ( D + X ) = V ( D ) = S y2 + S x2
S XY = 0,0107
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2
0,0107 = 2675
1 1
V (Yas ) = S y2 = 0,768 = 0,0096
n 80
V (Y ) = N V (Y ) = 500 2
0,0096 = 2400
2
as as
Muestreo por mtodos indirectos. Razn, regresin y diferencia 255
6.3. De los N = 750 trabajadores de una fbrica se conoce que el nmero medio de das anuales de
ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres
(variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500
y que la razn de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qu
tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin
y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre
muestras de esta poblacin?
xy
X = 10 , Y = 8 , x2 = 2500 y = 0,6
x2
B( R )
De la condicin de que el sesgo relativo sea menor que un dcimo se
( R )
750
750
100
2500
N
100
S x2 749
obtiene que n = = 577 .
NX 2 + 100S x2 2 750
750
10 + 100 2500
749
256 Muestreo estadstico. Conceptos y problemas resueltos
En caso de muestreo con reposicin la misma condicin de sesgo relativo menor que un
2 2500
dcimo nos lleva a n 100 x2 = 100 = 2500 , que sobrepasa el tamao poblacional (con
X 100
los datos del problema nunca podra ser el sesgo despreciable).
S xy
La recta de regresin de Y sobre X tiene de ecuacin y
y = (x
x)
S 2
x
y
8 = 0,6( x
10) y = 0,6 x + 2 , lo que indica que la estimacin por razn podra
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimacin por
regresin siempre es el mtodo ms adecuado. La pendiente de la recta no es unitaria, con lo
que no es muy apropiada la estimacin por diferencia.
6.4. Para estudiar el grado medio de implantacin de un determinado cultivo en una regin se obtuvo
una muestra de 100 fincas para las que se midi la superficie dedicada al cultivo en estudio
(variable X) y su superficie total (variable Y), obtenindose los datos que se presentan en la tabla
adjunta. Se pide:
2) Dada la estructura de las fincas se consider conveniente realizar una estratificacin segn la
variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie
total superior a una hectrea y a fincas de superficie total menor o igual que una hectrea. Los
datos obtenidos tambin se presentan en la tabla adjunta. A la vista de esta informacin, justificar
si sern adecuados los mtodos de estimacin indirecta con estratificacin y cul de entre ellos
puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes mtodos de
estimacin con muestreo estratificado cuantificando sesgos y ganancias en precisin y razonando
adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando
muestreo con reposicin y sin reposicin.
Superficie
S yh S xh
2 2
Estratos Nh xyh yh xh nh
de las fincas
1 0
1Ht 1580 2055 312 0.62 82.5 19.4 70
2 > 1Ht 430 7357 922 0.3 244.8 51.6 30
Poblacin 7619 620 0.67
S xy
Tenemos como dato que = = 0,67 , por lo que la utilizacin de mtodos
S S
x y
1 C y S y 1 7619 26,30
0,67 = > = R= = 0,393
2 C x S x 2 620 117,28
Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin
embargo, ya hemos razonado que el muestreo por diferencia probablemente ser menos preciso
que el aleatorio simple, y, por tanto, tambin ser menos preciso que la estimacin por razn y
regresin. Vamos a realizar los clculos de varianzas.
100
(1
)
V ( X ) =
n
(
(1
f ) 2 2 2
)
S x + R S y
2R S XY = ( )
2010 620 + 0,2242
7619
2
0,224
1453 = 3,335
100
100
1
(1
f ) 2
Vmin ( X rg ) = S x (1
2 ) = 2010 620(1
0,67 2 ) = 3,24
n 100
Ahora estimamos el error del estimador de la media basado en la diferencia.
100
1
V ( X ) = V ( D + Y ) = V ( D ) =
n
(
(1
f ) 2 2
S x + S y
S XY = ) 2010 (620 + 7619
1453) = 64,4
100
2010
(1
f ) 2
V ( X as ) = Sx = 100 620 = 5,89
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresin.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(5,89/3,24
1)100 = 81,8%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(5,89/3,335
1)100 = 76,6%.
La ganancia en precisin del estimador de regresin sobre el de razn es G =
(3,335/3,24
1)100 = 2,9%.
En cuanto a la estimacin del sesgo de estimador de la razn tenemos:
100
1
B ( R ) =
ny 2
(
(1
f ) 2
RS y
S XY ) = 2010 (0,224
7619
1453) = 0,02
100
117,28
1
(
V ( X ) = Sx2 + R 2 S y2
2 R S XY =
n
) 1
100
(
620 + 0,2242
7619
2
0,224
1453 = 3,51 )
Ahora estimamos el error del estimador de la media basado en regresin.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 259
1 1
n
(
Vmin ( X rg ) = S x2 1
2 =
100
)
620(1
0,67 2 ) = 3,41
S 2 620
V ( X as ) = x = = 6,2
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo
sin reposicin debido a que el muestreo con reposicin es menos preciso.
El sesgo del estimador de la razn se estima mediante:
1
(
B ( R ) = 2 R S y2
S XY =
ny
)
(1
600 / 1500)
600
5,58 2
(2
7
3,75) = 0,0005
h nh
(
W 2 (1
f h ) 2
)
L
B ( X RC ) = h RS Yh
S XYh =0,83/ Y . Las operaciones a realizar son:
h nhY
( )
2
W L
V ( X RC ) = h S xh2 + R 2 S yh2
2 R S xyh = 3,1375 .
h nh
260 Muestreo estadstico. Conceptos y problemas resueltos
( )
2
W L
B ( X RC ) = h R SYh2
S XYh =1.00456/ Y
h nhY
El valor del sesgo del estimador simple o separado sin reposicin puede estimarse
W (1
f h ) 2
( )
L
como: B ( X RS ) = h Rh S Yh
S XYh = 0,0029. Y 1 e Y 2 se estimarn mediante y 1
h nh Yh
e y 2 respectivamente. Los clculos a realizar seran:
La varianza del estimador separado de la media para muestreo con reposicin puede
( )
2
estimarse como V ( X RS ) = Wh Sxh2 + Rh2 S yh2
2Rh Sxyh = 3,09792.
L
h nh
Para muestreo con reposicin la expresin del sesgo puede estimarse como:
W
( )
L
B ( X RS ) = h R h SYh2
S XYh = 0,0033.
h n hYh
1
fh $2
( )
l
( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$yh
2
2 !$c S$xyh
donde:
L
! h
h
Wh2 ( 1
f h ) 2 S$xyh
! c = h
0,16155 con $h =
S$ yh y !$h = $ 2 .
L
nh S yh
h
h
Calculado ! c ya podemos hallar el valor de la varianza mnima mediante:
1
fh $2
( )
l
( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$xyh =1,46407.
1 $2
( )
l
$ ( )
Vmin x rgc = Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
donde:
L
! h S$xyh
h
Wh2 $ 2
! c = h
= 0,18977 con $h =
S yh y !$h = $ 2 .
L
nh S yh
h
h
Calculado ! c ya podemos hallar el valor de la varianza mnima mediante:
1 $2
( )
l
( )
V$min x rgc = Wh2
h n h
S xh + !$c2 S$ yh
2
2 !$c S$ xyh =3,10321.
6.5. En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de
los bienes inmuebles en los dos ltimos aos. Se selecciona una muestra irrestricta aleatoria
de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se
obtiene el valor catastral para este ao (X) o valor actual y el valor correspondiente de hace
dos aos (Y) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se
desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la
comunidad, usando la informacin contenida en la muestra.
La estimacin del cambio relativo R en el valor catastral desde hace dos aos se
obtiene mediante el estimador de razn siguiente:
n
X x x i
164,7
R = = = i =1
= = 1,07
Y y
n
154,5
y
i =1
i
() 1
f
( ) 1
f n
n n
V R = 2
S x2 + R 2 S y2
2 R S xy = 2
X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i
()
V R =
1
20 / 100
(154,5 / 20) 2 ( 20)(19)
[ ]
1373,71 + 1,07 2 (1210,55)
2(1,07)1288,95 = 0,0001 .
Muestreo por mtodos indirectos. Razn, regresin y diferencia 263
() ()
Por tanto, el error de muestreo es R = V R = 0,0001 = 0,01 .
() ()
C v R =
R 0,01
= = 0,0093 1%
R 1,07
Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07,
la subida en los dos ltimos aos se estima que es del 7%, con un error del 1%.
6.6. Una compaa desea estimar la cantidad promedio de dinero x pagado a los empleados por
gastos mdicos durante los tres primeros meses del ao en curso. Los resultados del
promedio por trimestres y estn disponibles en los informes fiscales del ao anterior. Una
muestra aleatoria de 100 registros de empleados se seleccion de una poblacin de 1000
empleados. Los resultados de la muestra se resumen a continuacin:
n = 100, N = 1000
100
Total para el trimestre actual: x
i =1
i = 1750
100
Total para el trimestre correspondiente del ao anterior: y
i =1
i = 1200
1000
Total poblacional para el trimestre correspondiente del ao anterior y
i =1
i = 12500
xi2 = 31650
i =1
yi2 = 15620
i =1
y x
i =1
i i = 22059,35 .
Usar los datos para estimar y y establecer un lmite para el error de estimacin.
Como tenemos informacin de una variable auxiliar Y, la utilizaremos para realizar una
estimacin indirecta de X basada en la razn de X a Y. Tenemos:
100
x
x i
12500 1750 12500
X R = x R = Y = R Y = i =1
100
= = 18,23
y 1000 1200 1000
y
i =1
i
V ( X R ) =
n
(
1
f 2 2 2
) n
n( n
1) i
n n
S x + R S y
2R S xy = 1
f X i2 + R 2 Yi 2
2 R X i Yi
i i
264 Muestreo estadstico. Conceptos y problemas resueltos
100
1
Hemos estimado que la cantidad promedio de dinero pagado a los empleados por
gastos mdicos es 18,23 unidades monetarias y tenemos una confianza alta de que el error
cometido no supera las 0,42 unidades monetarias.
6.7. Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca
analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos
zonas, una de secano y otra de regado. En cada zona se mide el nmero de granjas existente
(variable X) y el nmero de cerdos (variable Y) por municipios muestrales. Se obtienen los
siguientes datos:
Se pide:
2) Hallar el tamao muestral necesario para cometer un error del 10% al estimar el nmero
total de cerdos mediante muestreo estratificado con afijacin proporcional al nmero de
granjas existentes en cada municipio y realizar la afijacin.
Sean:
Xih= Nmero de granjas de cerdos existentes en el municipio muestral i-simo del estrato h-
simo.
Tenemos:
n1 4 n2 6
f1 = 0,1 = N 1 = 40 f2 = 0,2 = N 2 = 30
N1 N1 N2 N2
Muestreo por mtodos indirectos. Razn, regresin y diferencia 265
Vamos a estimar el nmero total de cerdos en las granjas y sus errores absoluto y
relativo de muestreo mediante muestreo estratificado como sigue:
2
10 + 25 + 22 + 11 55 + 90 + 61 + 77 + 66 + 51
Y = N h yh =N 1y1 + N 2y2 = 40 + 30 = 2780
h =1 4 6
2 S yh
2
S y21 S y22 7.61 30,15
V (Y ) = N h2 = 40 2
+ 30 2
= 40 2 + 30 2 = 7566,5
h =1 nh 4 6 4 6
1 nh S y21 = 7,61
S yh
2
=
nh
1 i =1
(
Yhi
yh )2
2
(Y ) = V (Y ) = 7566,5 = 87
S y 2 = 30,15
(Y ) 87 6357,67
C v(Y ) = = = = 0,0312 (3,12%)
Y 2780 2780
Y
N h yh
2780 2780
R = = h =1
= = = 10,9
X 1+ 2 + 3 +1 5+8+6+7+6+5
2
255
N
h =1
h xh 40
4
+ 30
6
1 1
V (R ) = 2 (S y2 + R 2 S x2
2R S xy ) = (
795,51+ 112
6,26
2
11
70,2 = 0,004426 )
10(4,4)
2
nx
( R ) 0,004426
C v( R ) = = = 0,006 (0,6%)
R 11
El muestral para afijacin proporcional con reposicin para un error relativo del 5%
al estimar el total de cabezas de ganado se halla despejando n en la expresin:
N h2 S yh
2 2
h=1 n
N 2 253
N N h S yh
2
(71
7,61 + 182
30,15)
(Y ) N
h
n h=1 n
0,1 = Cv(Y ) = = = = n 20
Y 2780 2780 2780
6.8. Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis
majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden
tres majadas y otra de regado a la que corresponden las otras tres majadas. En cada majada se
mide el nmero de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se
obtienen los siguientes datos:
Estrato 1 Estrato 2
X 1i Y1i X 2i Y2i
2 1 5 4
4 2 7 5
5 3 12 6
Estrato N h Wh S xh2 S yh
2
X h Yh S xyh f h nh
1 3 1 / 2 7 / 3 1 11 / 3 2 3/ 2 2/3 2
2 3 1 / 2 13 1 8 5 7/2 2/3 2
A continuacin se calculan las varianzas del estimador de la media para los distintos
mtodos de estimacin directos e indirectos y estratificados y sin estratificar.
S x2
Aleatorio simple V1 ( x ) = (1
f ) = 0,98
n
2
S2
Estratific ado V2 ( x ) = Wh2 (1
f h ) xh = 0,63
h =1 nh
(1
f ) 2
Razn V3 ( x ) = (S x + R 2 S y2
2 RS xy ) = 0,151296
n
2
(1
f h ) 2
Razn separada V4 ( x ) = Wh2 (S xh + Rh2 S yh2
2 Rh S xyh ) = 0,189
h =1 n
(1
f h ) 2
(S xh + R 2 S yh2
2 RS xyh ) = 0,1759
2
Razn combinada V5 ( x ) = Wh2
h =1 n
2
S
Regresin V6 ( x ) = (1
f ) x (1
2 ) = 0,15119
n
Muestreo por mtodos indirectos. Razn, regresin y diferencia 267
2
(1
f h ) 2
Regresin separada V7 ( x ) = Wh2 (S xh + ! h2 S yh2
2! h S xyh ) = 0,0347
h =1 n
(1
f h ) 2
( )
2
Regresin combinada V8 ( x ) = Wh2 S xh + ! c2 S yh2
2 ! c S xyh = 0,118
h =1 n
(1
f ) 2
Diferencia V9 ( x ) = (S x + S y2
2S xy ) = 0,28833
n
Ello nos lleva a concluir que en este problema es importante la consideracin de los
mtodos indirectos de estimacin.
1 S
0,9 = > R y = 0,45
2 Sx
lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el mtodo
de estimacin por razn.
6.9. Antes del ingreso en un centro educativo se hizo un examen de conocimientos matemticos a
486 estudiantes. Se seleccion una muestra irrestricta aleatoria de n = 10 estudiantes y se
observaron sus progresos en clculo mediante una prueba de conocimientos cuyas
calificaciones constituyen la variable Y. Ms adelante se observaron sus calificaciones
finales en clculo mediante la variable X. Los datos se recogen en la tabla siguiente:
Estudiante x y
1 39 65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75
Se sabe que la calificacin media de la prueba de conocimientos para los 486 estudiantes que
presentaron el examen es 52. Estimar la calificacin final media en clculo para esta
poblacin, y establecer un lmite para el error de estimacin.
x rg = x + bo (Y
y )
Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se
deduce que x = 76 e y = 46. Para calcular el estimador por regresin slo nos faltara
estimar bo . Tenemos:
n n
S ( X i
x )(Yi
y ) X iYi
nxy 36,854
10(46)(76)
b0 = ! = XY2 = i
= i
= = 0,766
SY
n n
23,634
10(46) 2
(Y
y) Y
2 2
i i
ny 2
i i
x rg = x + bo (Y
y ) = 76 + 0,766(52
46) = 80
6.10. Los auditores frecuentemente estn interesados en comparar el valor intervenido de los
artculos con el valor asentado en los libros. Generalmente, los valores en los libros son
conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos con
una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse para obtener
una buena estimacin del valor intervenido total o promedio para la poblacin. Supngase
que una poblacin contiene 180 artculos inventariados con un valor establecido en el libro
de $13,320. Denotar por yi el valor en el libro y por xi el valor intervenido del i-simo
artculo. Una muestra irrestricta aleatoria de n = 10 artculos produce los resultados que se
muestran en la tabla adjunta. Estimar el valor intervenido medio por el mtodo de diferencia
as como el error cometido. Realizar las mismas estimaciones pero usando un estimador de
regresin y un estimador de razn.
X = x
y + Y = D + Y = (72,1-71,7) + 74 = 74,4
V ( X ) =
1
f 2 2
n
(
S x + S y
2 S xy = 0,59 )
La estimacin por regresin se realiza de la siguiente forma:
x rg = x + bo (Y
y ) = 72,1 + 0,99(74
71,7) = 74,38
n n
(X i
x )(Yi
y ) X Y i i
nx y
105,881
10(71,7)(72,1)
b0 = i
n
= i
n
= = 0,99
106,003
10(71,7) 2
(Y
y) Y
2 2
i i
ny 2
i i
270 Muestreo estadstico. Conceptos y problemas resueltos
x 721
X R = x R = Y = R Y = 74 = 74,41
y 717
V ( X R ) =
n
(
1
f 2 2 2
)
S x + R S y
2R S xy =
1
f n 2 2 n 2
n(n
1) i
X i + R Yi
2 X Y = 0,66
R
n
i i
i i
Muestreo por mtodos indirectos. Razn, regresin y diferencia 271
EJERCICIOS PROPUESTOS
6.1. Sobre una poblacin de 500 unidades est definida un caracterstica bidimensional (Xi,Yi).
Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:
80 80 80 80 80
X i = 420
i =1
Yi = 190
i =1
X i2 = 2284
i =1
Yi 2 = 512
i =1
X Y
i =1
i i = 1045
, , , y
6.2. Una empresa est interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un perodo de tres meses (variable Y). Se tienen cifras del total de ganancias
de todas las sucursales de la empresa para el perodo de tres meses correspondiente del ao
anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre
las 123 de la empresa. Usando un estimador de razn, estimar el total de ganancias por las
ventas de televisiones de color al final de un perodo de tres meses y establecer un lmite
para el error de estimacin. Usar los datos de la tabla adjunta, y considerar que la media
poblacional de la variable X vale 128,200.
Estimar tambin las ganancias medias para las oficinas de la empresa y establecer un lmite
para el error de estimacin.
272 Muestreo estadstico. Conceptos y problemas resueltos
6.3. Una empresa industrial elabora un producto que es empaquetado, para propsitos de
mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el
volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de
clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de
ventas (en nmero de unidades) para el prximo trimestre. La cifra de las ventas verdaderas
del ao pasado, para el mismo trimestre, est disponible para cada uno de los clientes
muestreados y se denota por X. Los datos se presentan en la tabla anexa. La muestra para la
marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo
trimestre del ao pasado fue de 24500 unidades. La muestra de la marca II viene de 180
clientes, con un total trimestral de ventas para el ao pasado de 21000 unidades. Hallar una
estimacin de razn del total potencial de ventas para el prximo trimestre. Estime la
varianza de su estimador.
Marca I Marca II
Xi Yi Xi Yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280 63 60
275 300 103 110
198 190 107 100
159 180
63 75
87 90
6.4. Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.
a) Hallar un estimador de razn del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
b) Hallar un estimador de regresin del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
d) Cul de los tres mtodos es el ms apropiado en este caso? Por qu?
CAPTULO
MUESTREO UNIETPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo unietpico de conglomerados.
2. Analizar los estimadores y sus errores en muestreo unietpico de
conglomerados del mismo tamao y con probabilidades iguales.
3. Analizar los errores y su estimacin en funcin del coeficiente de
correlacin intraconglomerados.
4. Analizar los estimadores y sus errores cuando se considera muestreo
unietpico de conglomerados con reposicin.
5. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades iguales con y sin reposicin.
6. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades desiguales con y sin reposicin.
7. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades proporcionales al tamao con y sin reposicin.
8. Estudiar el problema del tamao de la muestra.
274 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Muestreo unietpico de conglomerados. Estimadores para conglomerados
del mismo tamao y probabilidades iguales.
2. Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas.
3. Muestreo de conglomerados del mismo tamao con reposicin. Varianzas
de los estimadores y estimacin de las varianzas.
4. Muestreo unietpico de conglomerados de distinto tamao.
5. Muestreo unietpico de conglomerados de distinto tamao con probabilidades
desiguales.
6. Tamao de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.
Muestreo unietpico de conglomerados 275
Tanto en el muestreo aleatorio simple con reposicin como sin reposicin, as como en el
muestreo estratificado, sistemtico y mtodos indirectos de estimacin, las unidades de
muestreo son las mismas que las unidades objeto de estudio (unidades simples o
elementales), pero en la prctica nos encontramos con situaciones ms generales en las que
las unidades de muestreo comprenden dos o ms unidades de estudio. En tal caso a las
unidades de muestreo se las denomina unidades primarias o compuestas.
Por otro lado, en el muestreo por conglomerados solemos tener menor precisin en
las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre
va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que
disminuir la precisin. La eficiencia de este tipo de muestreo disminuye al aumentar el
tamao de los conglomerados, cuando en realidad este tipo de muestreo es ms til en caso
de poblaciones muy numerosas en las que se puedan construir conglomerados grandes.
Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son
del mismo tamao M , en cuyo caso utilizaremos la siguiente notacin:
N N M
Consideraremos la caracterstica poblacional general = Yi = Yij que,
i i i
suponiendo muestreo sin reposicin y probabilidades iguales, puede ser estimada mediante
M
Y n n Y ij
N n M
el estimador lineal insesgado de Horwitz y Thompson HT = i = i
= Y ij .
i i i n/ N n i i
Las expresiones iniciales para las varianzas de los estimadores sin reposicin y probabilidades
iguales para conglomerados del mismo tamao son:
N M
(X
X)
2
2 i
S
V (x ) = (1
f )
i j
b
con S b2 =
nM N
1
( ) S2
V X = V (NM
x ) = N 2 M 2
V (x ) = N 2 M 2
(1
f )
b
nM
M N N
N
1 i
( Pi
P )
2
( Pi
P)
2
V ( P$ ) = ( 1
f )
= (1
f ) i
nM n( N
1)
N
( P
P)
2
i
V ( A$ ) = V ( NM
P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
(1
f ) i
n( N
1)
Las expresiones de las varianzas son similares a las obtenidas en el muestreo
aleatorio simple, sustituyendo S2 por S b2 y siendo nM el nmero total de unidades
elementales en la muestra.
Muestreo unietpico de conglomerados 277
Pero las varianzas anteriores pueden expresarse en funcin del coeficiente de correlacin
intraconglomerados, que se define como el coeficiente de correlacin lineal entre todos los pares
de valores de la variable en estudio medidos sobre las unidades de los conglomerados y
extendido a todos los conglomerados, de tal forma que dicho coeficiente ser una <<medida de la
homogeneidad>> en el interior de los conglomerados. Evidentemente interesar que el
coeficiente de homogeneidad intraconglomerados sea lo ms pequeo posible, ya que en
muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La
expresin del coeficiente de correlacin intraconglomerados ser:
1 N M
( X ij
X )( X iz
X )
M i =1 j < z
N
=
Cov( X ij , X iz )
=
[
E ( X ij
E ( X ij ))( X iz
E ( X iz )) ]= 2
( X ij ) ( X iz ) 2 2
2 2
1
(X ij
X ) y 2 = 1
N M N M
de donde al ser S =
2
NM
1 i j l NM
(X
i j l
ij
X ) se puede expresar
N
M
1 2
la varianza como 2 = S , expresin que puede sustituirse en el denominador del
N
M
coeficiente de correlacin intraconglomerados:
1 N M
( X ij
X )( X iz
X ) N M
M i =1 j < z
N 2 ( X ij
X )( X iz
X )
2 i =1 j < z
= =
N
M
1 2
S
(M
1)(NM
1)S 2
N
M
S$b2
S$ 2
Este coeficiente se puede estimar mediante $ =
( M
1) S$ 0
2
2
1 n M
( 1
) 1 n M
n M
( ( Xi
x ) )
2
S$ 2 =
2
X ij
x , S$w2 = X
X , $
S 2
=
nM
1 i j l nM
n i j ij i b
n
1 i j
N
1 2 N (M
1) 2 n
1 2 n(M
1) 2
S 0 = S 2 =
2
Sb +
Sw
Sb +
Sw
NM
1 NM
1 nM
1 nM
1
S
[ ]
2
S2
V (x ) = (1
f )
nM
[ ]
1 + (M
1) V (x ) = (1
f ) 0 1 + (M
1)
nM
S 2
S 2
V (x ) = (1
f ) b V (x ) = (1
f ) b
nM nM
V ( X ) = V ( NMx ) = N M V ( x ) V ( X ) = N 2 M 2V ( x )
2 2
278 Muestreo estadstico. Conceptos y problemas resueltos
El clculo de los trminos de las frmulas anteriores los facilitan los cuadros del
anlisis de la varianza para la poblacin y para la muestra siguientes:
(X )
N M
Entre conglomerados N
1 i
X
2
Sb2
i j
Dentro de conglomerados (
n M
1 ) (X
N M
ij
Xi ) 2
S w2
i j
(X )
N M
Total NM
1 ij
X
2
i j
Sb2
n M
Entre conglomerados n
1 (X i
x )
2
Sb2
i j
Dentro de conglom. (
n M
1 ) n
(X
M
ij
Xi )
2
S w2 S w2
i j
n M
nM
1 (X ) S 2
2
Total ij
x
i j
Para el caso de proporciones y totales de clase las frmulas son las mismas, pero las
magnitudes se obtienen del cuadro del anlisis de la varianza siguiente:
N
B MP (1
P ) i i
Dentro N ( M
1) B = MPi (1
Pi ) S = 2
w S w2 = i =1
i =1 N ( M
1) n( M
1)
C
Total NM
1 C = NMP (1
P) 2
S = S 2 0
NM
1
El trmino M
1 expresa el aumento de la varianza debido a la seleccin de n
conglomerados de tamao M en lugar de n M unidades elementales obtenidas por muestreo
aleatorio simple. Ahora bien, si el coeficiente de correlacin intraconglomerados fuese
negativo, ello supondra mayor precisin en el muestreo por conglomerados que en el
aleatorio simple.
Pero en la prctica suele ocurrir que los elementos de cada conglomerado tienen
cierto parecido entre s aunque se intente que sean lo ms heterogneos posible, con lo cual
la correlacin es positiva y menor la precisin en el muestreo por conglomerados que en el
aleatorio simple. Este problema ya se haba citado al principio del captulo como una de las
desventajas del muestreo por conglomerados.
Precisamente la cantidad 1 + ( M
1)
por la que hay que multiplicar el tamao de
una muestra por conglomerados nc para que coincida con el tamao de muestra necesario en
muestreo aleatorio simple na para igual precisin en ambos tipos de muestreo, se denomina
efecto del diseo.
280 Muestreo estadstico. Conceptos y problemas resueltos
1 N
i M Xi
X ( )
2
b2
()
Vx = N
nM
=
nM
1 N
1 N M
M( X
X) ( X
X ) es la cuasivarianza entre conglomerados
2 2
=2
b i = i
N i N i j
b2
y la expresin de la varianza de la media V ( x ) = es similar a la obtenida en el muestreo
nM
aleatorio simple, sustituyendo 2 por b2 y siendo nM el nmero total de unidades
elementales en la muestra.
b2
V ( X$ ) = V ( NM
x ) = N 2 M 2
V ( x ) = N 2 M 2
nM
M N N
( P
P) ( P
P)
2 2
2
N i i
V ( P$ ) =
b i i
= =
nM nM nN
N
( P
P)
2
i
V ( A$ ) = V ( NM
P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
i
nN
S b2
V (x ) =
nM
2
[
1 + (M
1) V (x ) =
' 2
]
nM
[
1 + (M
1) , V (x ) =
b2
nM
V (x ) =
nM
]
2 2 2 2
V ( X ) = V ( NM x ) = N M V ( x ) V ( X ) = N M V ( x )
2 S$b2
Sb
S$1w +
$ 2
b2
2 $ M S$b2
$ ' 2
= = =
(M
1) 2 2 S$b2 ( M
1) $ ' 2
( M
1) S1w +
$
M
Sb2 2 1 N M 1 n M
1 n M
( ) (
( Xi
x ) )
2
' 2 = S12,w +
2
, S1,w = X ij
X i
2
, 2
= X
X , $
S 2
=
w ij i b
M nM i j NM i j n
1 i j
Muestreo unietpico de conglomerados 281
NM
1 2 NM
1 NMP (1
P ) NMP (1
P )
2 = S = = = P (1
P )
NM NM NM
1 NM
1 1 1
(X
Xi ) =
N M N N
M (P
P ) (P
P )
2 2 2
w2 = ij i = i
NM i j NM i N i
1 M
(X
X) = (X
X) .
N M N
2 2
b2 = i i
N i j N i
M n
b2 = S b2 = (Pi
P )2
n
1 i
1 1 1
(X
Xi ) =
n M n n
w2 = S12,w = MP (1
P ) = n P (1
P )
2
ij i i i i
nM i j nM i =1 i =1
S$b2 1 n M n
$ '2 = S$12,w + = Pi (1
Pi ) +
M n i =1 (Pi
P )
2
n
1 i
Probabilidades iguales
(X
n
(X
X)
x)
N 2
2
1 n
1 X 1 n n
1
f i
1
f i
x= Xi = i = X i , V (x ) =
i =1
, V ( x ) = i =1
n i =1 n i =1 M nM i =1 nM 2 N
1 nM 2 n
1
1 n
N n
Para el total se tiene el estimador X$ = NMx = NM
nM
Xi = n X i , que no
i =1 i =1
depende de M .
282 Muestreo estadstico. Conceptos y problemas resueltos
(X
n
(X
X )
x)
N 2
2
i
1
f i
1
f
V ( X ) = N 2
i =1
, V ( X ) = N 2 i =1
n N
1 n n
1
Muestreo con reposicin
(X
X)
N
(X
n
x)
2 2
i i
1 1
V (x ) =
i =1
, V ( x ) = i =1
nM 2 N nM 2 n
1
(X
n
(X )
x)
N 2
2
i
X 2 i
N 2
N
V ( X ) =
i =1
, V ( X ) =
i =1
n N n n
1
En caso de estimacin de totales y proporciones se utilizan las frmulas ya vistas
N
Mi
anteriormente para conglomerados del mismo tamao tomando M = , tanto para
i =1 M
muestreo sin reposicin como para muestreo con reposicin.
N
b) Los conglomerados varan mucho en tamao (Mi no similares y M = M i )
i =1
X i
X = x = R = i
n
Mi
i
M (X
X) M (X
x)
N n
2 2 2
()
2 i i 2 i i
N N
V ( x ) = (1
f )
i
, V ( x ) = V R = (1
f )
i
nM 2 N
1 nM 2 n
1
Para el estimador del total tendremos:
M i2 (X i
X ) M (X
x)
N n
(1
f )
2 2 2
N (1
f )
( ) ( )
2 2 i i
N
V X = i
, V X = i
n N
1 n n
1
Para el estimador de la proporcin y el total de clase tenemos:
Muestreo unietpico de conglomerados 283
M (P
P )
N n
N2 Mi2 (Pi
P) N2 i
2
i
V ( P ) = (1
f )
i
, V ( P ) = (1
f )
i
nM 2 N
1 nM 2 n
1
M (P
P )
N n
M (P
P )
(1
f ) (1
f )
2 2 2 2
() ()
2 i i 2 i i
N N
V A = i
, V A = i
n N
1 n n
1
Muestreo con reposicin
M (X
X)
N
M (X )
n
2 2 2
2 i i 2
x
N N i i
V (x ) = i
, V ( x ) i
nM 2 N nM 2 n
1
M i2 (X i
X ) M (X
x)
N n
2 2 2
( ) ( )
2 2 i i
N N
V X = i
, V X = i
n N n n
1
Para el estimador de la proporcin y el total de clase tenemos:
M (P
P )
N n
N2 M i2 (Pi
P) N2 i
2
i
V ( P ) = i
V ( P ) = i
,
nM 2 N nM 2 n
1
M (P
P )
N n
M (P
P)
2 2 2 2
() ()
2 i i 2 i i
N N
V A = i
, V A = i
n N n n
1
En este caso se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurweitz.
Muestreo sin reposicin
N
Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M = M
i =1
i .
n
X2 n
X X j ij
i j
V ( X HT ) = 2i (1
i ) + i
i =1 i
i j i j ij
284 Muestreo estadstico. Conceptos y problemas resueltos
M
i =1
i . En este caso se utilizar el estimador general de Hansen y Hurwitz, que
X X 1 1
X HH = HH V ( X HH ) = V ( HH ) = 2 V ( X HH ) V ( X HH ) = 2 V ( X HH )
M M M M
n
X n
M X n
M X 1 n
X HT = i = i i = i i = M X i = Mx
i =1 i i M n i =1
i =1 i =1
n i
M
X Mx
X = HT = =x
M M
Se observa que las expresiones de los estimadores lineales insesgados para la media
y el total en el caso de probabilidades desiguales proporcionales a los tamaos de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Como siempre, los estimadores son los mismos que para el caso sin reposicin. Las
varianzas y su estimacin en el caso de probabilidades proporcionales a los tamaos con
reposicin valdrn:
2 n
V ( X HH ) =
M N
M i ( X i
X ) , V ( X ) = M
HH
n(n
1) i =1
(
Xi
x
2
)
n i =1
1 n
( )
N
1
( )
M i X i
X , V(X HH ) =
2
2
Xi
x
V ( X HH ) =
nM i =1 n(n
1) i=1
TAMAO DE LA MUESTRA
S2
MinV ( x ) = Min (1
f ) (1
( M
1) )
nM
C = co n + c1 n + c 2
n
M
PROBLEMAS RESUELTOS
7.1. Se trata de estudiar una poblacin de 1000 cajas de tornillos todas ellas con 40 unidades cada
una. Para ello se extrae una muestra sin reposicin de 20 cajas, dentro de la cual nueve cajas
no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen
dos tornillos defectuosos. Se pide:
S 2 20 0,0134
( ) 2
( )
V ( A ) = NM V ( P ) = NM (1
f ) b = 400002 (1
nM
)
1000 800
= 26305,26
Figura 7-1
Muestreo unietpico de conglomerados 287
Figura 7-2
V ( A ) 26305,26
C v( A ) = = = 0,2317 (23,17%)
A 700
( A ) 26305,26
A = 700 = [
921,9, 2321,9]
0,01
2
2 Sb 26305,26 26305,26
V ( A) = (NM ) V ( P) = (NM )
2
= = = 26842,1
nM 1
f 20
1
1000
V ( A ) 26842,1
C v( A ) = = = 0,234 (23,4%)
A 700
( A ) 26842,1
A = 700 = [
938,35, 2338,35]
0,01
7.2. En una regin hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5
granjas sin reposicin y probabilidades iguales. Las proporciones de animales enfermos en cada
una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide:
Estimar la proporcin y el total de animales enfermos en la regin y sus errores absoluto y
relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposicin.
Comentar los resultados.
M =50 P2=0,2
P5=0,16
SR P3=0,18
N=300
PI
M =50 M =50 P4=0,12 P1=0,14
n=5
SR significa sin reposicin y PI probabilidades iguales.
Estamos en un caso de muestreo monoetpico de conglomerados del mismo tamao.
Se tiene:
1 n 1
P = Pi = (0,14 + 0,20 + 0,18 + 0,12 + 0,16) = 0,16
n i =1 5
( Pi
P ) 2 =
2 2 2
nM n(n
1) i =1
5 (0,14
0,16) 2 + (0,20
0,16) 2 + (0,18
0,16) 2 + (0,12
0,16) 2 + (0,16
0,16) 2
(300
50)2 1
= 45000
300 5(5
1)
1 45000
V ( P ) = V ( A ) = = 0,0002
2
N M 2
300 2 50 2
V ( A ) 45000
C v( P ) = C v( A ) = = = 0,088 (8,8%)
A 2400
Muestreo unietpico de conglomerados 289
Ahora estimaremos los errores absoluto y relativo de muestreo del total de clase y de
la proporcin considerando muestreo con reposicin. Tenemos:
2 S
2 1
V ( A ) = (NM ) V ( P ) = (NM ) b = (NM )
n
( Pi
P ) 2 = 45762,7
2 2
nM n(n
1) i =1
1 45762,7
V ( P ) = V ( A ) = = 0,000203389
2
N M 2
300 2 50 2
V ( A ) 45762,7
C v( P ) = C v( A ) = = = 0,089 (8,9%)
A 2400
7.3. En un proceso electoral se toma una muestra aleatoria de 10 urnas, el nmero de votantes y sus
papeletas favorables a un determinado partido son:
Nmero de votantes 4 2 6 1 5 3 3 8 1 4
Papeletas favorables 2 1 4 1 2 1 2 5 0 3
Suponiendo muestreo con reposicin, estimar la proporcin de votos favorables a ese partido
en toda la poblacin y su error de muestreo.
Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las
papeletas introducidos en ellas. Por tanto, los nmeros de papeletas en las distintas urnas
sern los tamaos de los conglomerados Mi. Se considera la clase A de los votantes que
votan a favor del partido en cuestin. Por tanto, las papeletas favorables al partido en cada
urna sern los valores Ai.
Ya que los conglomerados son de distinto tamao, para estimar la proporcin del
total de votantes de la poblacin que votan al partido utilizaremos el estimador de la razn
de A a M siguiente:
10
A i
21
P = i =1
10
= = 0,57
37
M
i =1
i
1 2 2 2 1 10 10 10
V (P ) = 2
(SA + R SM
2RSAM ) = 2
( Ai2 + R 2 Mi2
2R Ai Mi )
nM nM (n
1) i =1 i =1 i =1
1
= (65 + 0,572
181
2
0,57
106) = 0,00242
10
3,72
(10
1)
7.4. Se trata de estudiar la superficie de una regin montaosa dedicada a la plantacin de pinos.
La regin, que tiene un total de 25000 km2, se divide en 100 zonas disjuntas lo ms similares
entre s de tal forma que cada zona contiene plantas de todas las clases que crecen en la regin.
Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales
a sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:
0,05, 0,25, 0,10, 0,30, 0,15, 0,25, 0,35, 0,25, 0,10 y 0,20
Se pide un estimador insesgado de la superficie total de la regin dedicada a la plantacin de
pinos, su error relativo y un intervalo de confianza al nivel = 0,05.
n
X n
Xi M n
Xi 2500
X HH = i = = M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i
M
2 2 2
n Xi n Xi n Xi
X HH
X HH M
M
X HH
i =1 Pi = i =1 M i M = i =1 =
V ( X HH ) = i
n(n
1) n(n
1) n(n
1)
(25000
0,05
5000)2 + (25000
0,25
5000)2 + L + (25000
0,20
5000)2
= 590278
10(10
1)
V ( X ) 590278
C v( X ) = = = 0,15 (15%)
X 5000
( X ) 590278
X = 5000 = [1564, 8346]
0,05
Muestreo unietpico de conglomerados 291
7.5. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos.
Se selecciona una muestra de tres departamentos con reposicin y probabilidades
proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente
presenta el nmero de artculos de equipo NA en cada departamento D.
D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6
1) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad)
tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos
impropiamente identificados en la empresa y su error relativo de muestreo.
2) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que
los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente
identificados.
Mi 40 35 33
Pi = P1 = , P2 = y P3 =
M 315 315 315
Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
1 n M P 1 n M P M n
315 2 2 2
A HH = MPHH = i i = i i = P = i + + 18
n i Pi n i Mi M n i 3 40 35 33
()
V A = i
n (n
1)
= i
n (n
1)
= i
n (n
1)
=
315 2 2 18
2
2 18
2
2 18
2
+
+
= 1,04209
3
2 40 315 35 315 33 315
292 Muestreo estadstico. Conceptos y problemas resueltos
Mi Mi
Pi Pi
1 n
M 1 n
1 n 1 36 30 27
P = = M = Pi = + + = 0,858
n i Pi n i Mi M n i 3 40 35 33
(P
P )
n 2
1 36
2 2 2
() 1
() 30 27
i
V P = 2V A = i
=
0,858 +
0,858 +
0,858 = 0,000558
M n(n
1) 3
2 40 35 33
7.6. Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparacin por sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero
de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria
simple sin reposicin de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto
total mensual en reparaciones por industria y el nmero de sierras por industria se presentan en
la tabla siguiente:
Costo total de Costo total de
N de N de
Indus. reparaciones Indus. reparaciones
sierras sierras
mensual mensual
1 3 50 11 8 140
2 7 110 12 6 130
3 11 230 13 3 70
4 9 140 14 2 50
5 2 60 15 1 10
6 12 280 16 4 60
7 14 240 17 12 280
8 3 45 18 6 150
9 5 60 19 5 110
10 9 230 20 8 120
X
i =1
i
50 + 110 + L + 120 2565
x= n
= = = 19,73
3 + 7 +L+ 8 130
M
i =1
i
1
f 2 2 2 S ) = 1
f ( X 2 + R 2 M 2
2R X M ) =
10 10 10
V ( x ) = ( S x + R SM
2R xm i i i i
nM 2 nM 2 (n
1) i =1 i =1 i =1
20
1
N n
96
X = X i = 2565 = 12312
n i =1 20
2
n
n
(X
x) X i
2
1
f i =1 i N 2 (1
f ) n i =1
V ( X ) = N 2 ( X i
2
=
)=
n n
1 n(n
1) i =1 n
20
96 2 (1
)
96 (460225
(2565) ) = 25200516 ( X ) = 1587,467
2
20(20
1) 20
X i
2565
X = i =1
n
M =
710 = 14008,846
130
M
i =1
i
1
f 2 2 2 N 2 (1
f ) 10 2 2 10 2 10
V ( X ) = N 2 (Sx + R SM
2RSxm ) = ( Xi + R Mi
2R Xi Mi )
n n(n
1) i =1 i =1 i =1
20
962 1
= 96 (460225+ 19,732
1188
2
19,73
22285) = 308467,24 ( X ) = 555,4
20
(20
1)
n
1
7.7. Un socilogo quiere estimar el ingreso promedio por persona en una ciudad pequea en la que
no est disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques
rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta
a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:
1) Estimar el ingreso promedio por persona en la ciudad y establecer un lmite para el error de
estimacin.
2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin sabiendo que hay 2500 residentes en la ciudad.
3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin si se desconoce el nmero de residentes en la ciudad.
X i
1329000
x= i =1
n
= = 8801
151
M
i =1
i
1
f 2 2 2 1
f 10 10 10
V ( x ) = 2
( S x + R S M
2 R S xm ) = 2
( X i2 + R 2 M i2
2 R X i M i ) = 653785
nM nM (n
1) i =1 i =1 i =1
Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
X = Mx = 2500(8801) = 22002500
V ( X ) = M 2V ( x ) = 2500 2 (653785)
X 2 V ( X ) = 22002500 4042848
N n
415
X = X i = 1329000 = 22061400
n i =1 25
2
n
n
1
f
(X i
x ) N 2 (1
f ) n2
X i
V ( X ) = N 2 ( X i
)=
2 i =1
i =1
=
n n
1 n( n
1) i =1 n
25
415 2 (1
)
415 (82039000000
(1329000) ) ( X ) = 1752960
2
25(25
1) 25
X 2 V ( X ) = 22061400 3505920
296 Muestreo estadstico. Conceptos y problemas resueltos
7.8. Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el nmero promedio de das de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes nmeros de empleados
por divisin. Ya que el nmero de das de ausencia por enfermedad dentro de cada divisin
debe estar altamente correlacionado con el nmero de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al nmero de empleados. Mostrar cmo
seleccionar la muestra si los respectivos nmeros de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supngase que el nmero total de das de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 =
4160, X3 = 5790. Estimar el nmero promedio de das de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un lmite para el error de estimacin.
Comenzamos listando el nmero de empleados y el intervalo acumulado para cada divisin.
Mi
X HH
X
HH
i =1 MPi M
M
1 i =1 Pi M
V ( X HH ) = 2 = = =
M n(n
1) n(n
1) n(n
1)
2
n Xi 4220
2
4160
2
5790
2
i =1 M i
X HH
2,02 +
2 ,02 +
2,02
3100 1910 3200
= = 0,0119
n(n
1) 3(3
1)
EJERCICIOS PROPUESTOS
7.1. De una poblacin formada por N conglomerados se selecciona una muestra de tamao n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales Pi, y los n
1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizndose todas las extracciones sin reposicin. Se pide una
estimacin insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, Xi el total del conglomerado i-simo y conociendo los siguientes datos
de los conglomerados de la muestra:
7.2. En una poblacin compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetpica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b
=1173. Se pide:
Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8.
Formar la tabla poblacional del anlisis de la varianza y hallar el coeficiente de correlacin
intraconglomerados.
7.3. Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la
proporcin de empleados que apoyan la nueva poltica. La industria consiste de 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos
rpidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a travs de un
cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporcin de
empleados en la industria que apoyan la nueva poltica de jubilacin y establecer un lmite
para el error de estimacin.
7.5. Se disea una encuesta econmica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un lmite para el error de
estimacin.
MUESTREO BIETPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas.
2. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales.
3. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales considerando todas las opciones
posibles de reposicin o no en ambas etapas.
4. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
de distinto tamao con probabilidades iguales.
5. Analizar los estimadores y sus errores en muestreo bietpico de
conglomerados de distinto tamao con probabilidades iguales considerando
todas las opciones posibles de reposicin o no en ambas etapas.
6. Estudiar el tamao de la muestra en muestreo bietpico.
7. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y con reposicin en primera etapa.
8. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y sin reposicin en primera etapa.
9. Presentar el concepto de muestreo polietpico.
10. Analizar los estimadores y sus errores en muestreo polietpico.
11. Estudiar diseos polietpicos complejos.
12. Estudiar el muestreo bietpico con estratificacin en primera etapa.
300 Muestreo estadstico. Conceptos y problemas resueltos
NDICE
1. Muestreo bietpico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamao.
2. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao.
3. Muestreo bietpico de conglomerados de distinto tamao y probabilidades
iguales.
4. Tamao de la muestra en muestreo bietpico.
5. Muestreo bietpico con probabilidades desiguales y con reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
6. Muestreo bietpico con probabilidades desiguales y sin reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
7. Muestreo polietpico.
8. Diseos complejos: Muestreo bietpico con estratificacin en primera
etapa.
9. Problemas resueltos.
10. Ejercicios propuestos.
Muestreo bietpico de conglomerados 301
n m
1 1 n
x=
nm
X ij =
i j
xi
n i
Para el total poblacional, proporcin y total de clase, los estimadores insesgados son
los siguientes:
NM n
1 n NM n
X = N M x = xi , P = Pi , A = NMP = P i
n i n i n i
S b2 S2
V (x ) = (1
f 1 )
+ (1
f 2 )
w
nM nm
N
( X ) (X
Xi )
M
2
X
n m i
i ij
, S b2 = M
j
f1 = , f 2 = , S w2 =
N M N
1 (M
1)
N
N 2 MS b2 N 2 M 2 S w2
V ( X ) = N 2V (x ) = (1
f 1 )
+ (1
f 2 )
n nm
1 N 1 N
M ( Pi
P ) MPi ( 1
Pi )
2
N
1 i N ( M
1) i =1
V ( P$ ) = ( 1
f 1 ) + (1
f 2 ) =
nM nm
N N
( P
P) MP (1
P )
2
i i i
(1
f )1
i
n( N
1)
+ (1
f 2 )
i =1
nm N ( M
1)
N N
( P
P) P (1
P )
2 2 2 3
N M i NM i i
V ( A$ ) = N 2 M 2V ( P$ ) = ( 1
f 1 ) i
+ (1
f 2 ) i =1
n( N
1) nm ( M
1)
( X )
2
Dentro n(m
1) ij
xi S w2 S w2
i j
n m
(X )
2
Total nm
1 ij
x S 2 S2
i j
Las estimaciones de las varianzas para las dos etapas sin reposicin son las siguientes:
S 2 S 2
V (x ) = (1
f 1 ) b + f 1 (1
f 2 ) w , y V ( X ) = N 2 M 2V ( x )
nm nm
n n
(P
P ) PQ
2
()
i i i
V P = (1
f1 )
i
+ f1 (1
f 2 )
i
n(n
1) n (m
1)
2
Muestreo bietpico de conglomerados 303
V$ ( X$ ) = N 2 M 2V$ ( x ) y V$ ( A$ ) = N 2 M 2V$ ( P$ )
S$b2
Si f1 es muy pequea, se toma V ( x ) = ( 1
f 1 )
$ .
nm
b2 w2
V (x ) = +
nM nm
N 2 M b2 N 2 M 2 w2
$ ( )
V ( X ) = V NMx = +
n nm
1 N
1 N N N
M ( P
P) MP (1
P ) ( P
P) P (1
P )
2 2
i i i i i i
N NM
V ( P$ ) =
i i =1 i i =1
+ = +
nM nm nN nm N
N N
NM 2 ( Pi
P ) NM 2 Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) =
i i =1
+
n nm
Las estimaciones de varianzas son:
S 2
V (x ) = b , y V ( X ) = N 2 M 2V ( x )
nm
m n
i (Pi
P ) (P
P ) (P
P )
n n
2 2 2
() ()
i i
n
1
V P = = i
y V A = N 2 M 2 i
nm n(n
1) n(n
1)
b2 S w2
V (x ) = + (1
f 2 )
nM nm
N 2 M b2 N 2 M 2 S w2
$ ( )
V ( X ) = V NMx = + (1
f 2 )
n nm
1 N 1 N N N
M( Pi
P) MPi ( 1
Pi ) ( Pi
P) MPi ( 1
Pi )
2 2
N i N ( M
1) i =1
V ( P$) = + (1
f2 ) = i + (1
f2 ) i =1
nM nm nN nmN ( M
1)
N N
NM 2 ( Pi
P) NM 3 Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) = i
+ (1
f 2 ) i =1
n nm ( M
1)
304 Muestreo estadstico. Conceptos y problemas resueltos
Las estimaciones de varianzas son iguales que para reposicin en las dos etapas:
S 2
V (x ) = b , y V ( X ) = N 2 M 2V ( x )
nm
m n
(Pi
P )2 (P
P ) (P
P )
n n
2 2
() ()
i i
n
1 i
V P = = i
y V A = N 2 M 2 i
nm n(n
1) n(n
1)
S b2 w2
V (x ) = (1
f1 ) +
nM nm
N 2 MSb2 N 2 M 2 w2
V ( X ) = V ( NMx ) = (1
f 1 )
$ +
n nm
1 N 1 N N N
M (Pi
P) MPi (1
Pi ) (Pi
P)2 Pi (1
Pi )
2
()
V P = (1
f1) N
1 i
nM
+ NM i =1
nm
= (1
f1) i
n(N
1)
+ i =1
nmN
N N
N 2 M 2 ( Pi
P) NM 2 Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) = (1
f 1 ) i
+ i =1
n( N
1) nm
S 2 S 2
V (x ) = (1
f 1 ) b + f 1 w , y V ( X ) = N 2 M 2V ( x )
nm nm
N N
(P
P) P(1
P)
2
()
i i i
V P = (1
f1) i
+ i =1
y V ( A ) = N 2 M 2V ( P )
n(N
1) nmN
n
m n m P (1
P )
i i
Para proporciones y totales de clase: S b2 = (Pi
P )2 y S w2 = i =1
.
n
1 i n(m
1)
1 n N n
Para probabilidades iguales se tiene: X = N M i x i = M i xi .
n i n i
Las varianzas y sus estimaciones para las dos etapas sin reposicin son las siguientes:
Muestreo bietpico de conglomerados 305
Mi
(X
Xi )
N
(X
X)
2 2
( )
ij
i
N N
V X = N 2
(1
f 1 ) M
(1
f )
(M
2 j
i
+
n(N
1)
1)mi
i 2i
n i i
mi
(X
xi )
n 2
X
X
)
2
( ) M (1
f 2i
( )
2 2 ij
N 1
f i i
N n
V X =
j
1
i + i
n n
1 n i mi mi
1
1 n
X i = X i , X i = M i x
n i i
(X
X)
2
( ) N M
i N Mi
V X = N 2
(1
f 1 ) i mi (X
Xi )
2
i
+
n(N
1)
ij
n i j
mi
(X
xi )
n 2
X
X
2
( ) N 2
(1
f ) i i
N n
M 2 ij
V X =
j
1
i +
i
n n
1 n i mi mi
1
1 n
X i = X i , X i = M i x i
n i
( ) N N N M N Mi
V X =
(X i
X ) + (X
Xi )
i
i mi
2 2
ij
n i n i j
n 2
i X i
X i
( )
2
N 1 n
V X =
X i = X i y X i = M i x i
n n
1 n i
(X
Xi )
2
( )
ij
N N
N N
V X = (X
X) + M
(1
f )
(M
2 2 j
1)mi
i i 2i
n i n i i
n 2
i X i
X i
( )
2
N 1 n
V X =
X i = X i y X i = M i xi
n n
1 n i
306 Muestreo estadstico. Conceptos y problemas resueltos
1 n
Para proporciones y totales de clase: X i = M i Pi y X i = M i Pi
n i
X N n M i 1 1
X = = xi , V ( X ) = 2 V ( X ) , V ( X ) = 2 V ( X )
M n i M M M
N n
Mi N n
P = M Pi , A = MP = Mi Pi
n i n i
() N 3 PQ N PQ
N
V A = (1
f 1 ) + M
(1
f )
(M
1)m
3 i i
n(N
1) n
i 2i
i i i
2
n
1 n
M i Pi
M i Pi
N (1
f 1 ) i
()
2
n i =1 +N
n
PQ
V A =
n
n
1 n
M (1
f )
m
1
i
i
2
2i
i i
() N 3 PQ N M i2
N
V A = (1
f 1 ) + i m Pi Qi
n(N
1) n i
2
n
1 n
M P
M i Pi
N (1
f 1 ) i Pi Q i
()
2 i i
n i =1 +N
n
V A =
M i2
n n
1 n i mi
1
()N2 N M i2
N
V A = PQ + Pi Qi
n n i mi
2
1 M P
n n
M P
()
i i i i
N2 i n i =1
V A =
n n
1
Muestreo bietpico de conglomerados 307
() N2 N PQ
N
V A =
n
PQ +
n
M
(1
f )
(M
1)m
i
i
3
2i
i i
i i
2
1 M P
n n
M P
()
i i i i
N2 i n i =1
V A =
n n
1
1 1
Para proporciones aplicamos V ( P ) = 2 V ( A ) y V ( P ) = 2 V ( A ) .
M M
en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparacin tcnica, gastos administrativos previos, cartografa, etc. Puede empezarse
por suponer deducido el coste co del total C, para no preocuparse ms que de la distribucin
de los costes variables.
Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Como casos particulares tpicos de nuestra funcin de costes tenemos:
1) a1 = a2 = a3 = 1, C = c1n + c2 nM + c3 nm
Nosotros vamos a suponer en los clculos una funcin de coste de campo definida
como C = n
c1 + n
m
c2 , y evaluaremos la varianza de la media a optimizar mediante la
S2
expresin aproximada V (x ) = (1 + (m
1)
) . Para obtener los valores de n y m que
nm
hagan mnima V ( x ) con la restriccin dada por la funcin de coste de campo construiremos
la funcin de Lagrange:
S2
"=
( 1 + ( m
1) ) + ( C
n
c1
n
m c2 )
nm
n
X 1 n X 1 n M x
Un estimador insesgado del total ser: X HH = i = i = i i .
i nPi n i Pi n i Pi
Mi N
Para probabilidades proporcionales al tamao Pi = con M = M i , luego:
M i =1
1 n M x 1 n M i xi M n
X HH = i i = = x i
n i Pi n i Mi M n i
Mi Mi
x Pi
1 1 n
X i 1 n M i 1 n
1 n M P
X = X HH = i nP n i P
= , A = M P = M M = i i
M M i i n i Pi n i Pi
Mi
P
1 n M i
P=
n i Pi
Pi = proporcin muestral en el conglomerado i-simo.
Muestreo bietpico de conglomerados 309
Varianzas
Como la primera etapa es siempre con reposicin, distinguiremos entre si la segunda etapa
es con reposicin o sin reposicin.
2
1 N X N
M 2 (1
f 2i ) 2 1
V ( X HH ) = i
X Pi + i
S i , V ( X HH ) = 2 V ( X HH )
n i =1 Pi i nPi mi M
1 N A N M2 (1
f2i ) Mi PiQi
V( AHH) = i
A2 + i
n i=1 Pri i nPrimi Mi
1
1
V ( PHH ) = 2 V ( A )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaos Pi =
M
N
con M = M , se tiene:
i
i =1
Mi N Mi2 (1
f2i ) 2 M N Xi2 X 2 N Mi
2 2
1 N Xi
V ( XHH) =
X +
Si =
+ (1
f2i )
Si2
n i =1 Mi / M M i nmi Mi / M n i =1 Mi M i mi
2
1 N X N
M i2 1
V ( X HH ) = i
X Pi +
i2 , V ( X HH ) = 2 V ( X HH )
n i =1 Pi i nPi mi M
2
1 N A N
M i2
V ( A HH ) = i
A Pri +
Pi Qi
n i =1 Pri i nPri mi
1
V ( PHH ) = 2 V ( A )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaos Pi =
M
N
con M = M , se tiene:
i
i =1
M N Xi
2 2
1 N Xi Mi N M i2 X2
2
N
M
V ( X HH ) =
X + 2
i =
+ i
i2
n i =1 M i / M M i nmi M i / M n i =1 M i M i mi
310 Muestreo estadstico. Conceptos y problemas resueltos
Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con
reposicin, no dependen de si la segunda etapa es o no con reposicin.
1
V X =
, V ( X ) = 2 V ( X HH )
i
n(n
1) M
2 2
n A i n M i Pi
i P
A i P
MP
V A = = i
i
n(n
1) n(n
1)
1
V ( P ) = 2 V ( A )
M
n
X n
M x
X HT = i = i i
i i i i
Como casos particulares de este estimador tenemos:
n
Mxi n
x
X HT = = M i
i i i i
N
nM i
Probabilidades proporcionales al tamao i = con M = M i
M i =1
n
M x n
M i xi M n
X HT = i i = = x i
i i i nM i M n i
Muestreo bietpico de conglomerados 311
n
Probabilidades iguales i =
N
n
M x n
M x N n
X HT = i i = i i = M x i i
i i i n N n i
Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposicin.
Mi
xi
1 1 n
X i n
X = X HT = = M
M M i i i i
Mi
n Pi
M
P = Pi = proporcin muestral en el conglomerado i-simo
i i
Mi
Pi
n
M
n
M P
A = MP = M = i i
i i i i
Varianzas
Como la primera etapa es siempre sin reposicin, distinguiremos entre si la segunda etapa es
con reposicin o sin reposicin.
N
X2 N
X Xj N
(1
f 2i ) M i2 S i2
V ( X HT ) = i (1
i ) + i ( ij
i j ) + ,
i =1 i i j i j i mi i
1
V ( X HH ) = 2 V ( X HH )
M
Con reposicin en segunda etapa
N
X2 N
X Xj N
M 2 2 1
V ( X HT ) = i (1
i ) + i ( ij
i j ) + i i , V ( X HH ) = 2 V ( X HH )
i =1 i i j i j i mi i M
Mi
S i2 = Pi Qi , i2 = Pi Qi
Mi
1
312 Muestreo estadstico. Conceptos y problemas resueltos
n
X i2 n
X i X j n
(1
f 2i ) M i2 S i2
V ( X HT ) = (1
i ) + ( ij
i j ) +
i =1 i i j i j i mi i
N
X 2 N
X X j N
M 2 S 2
V ( X HT ) = i (1
i ) + i ( ij
i j ) + i i
i =1 i i j i j i mi i
1
Para las medias se hace V ( X HH ) = 2 V ( X HH ) .
M
mi
Para el caso particular de totales de clase y proporciones se hace S i2 = Pi Qi .
mi
1
MUESTREO POLIETPICO
Muestreo con reposicin de unidades primarias y sin reposicin en las restantes etapas
n
X 1 n X 1 n M x
X HH = i = i = i i
i nPi n i Pi n i Pi
n i =1 Pi i n(n
1)
n
X n
M x n
M x N n
X HT = i = i i = i i = M i xi
i i i i i n N n i
N
X2 N
X Xj N
V ( X HT ) = 2i i + 2 i ij
X 2 + i2 i
i =1 i i< j i j i
n
X i2 n
X i X j n
(1
f 2i ) M i2 S i2
V ( X HT ) = (1
i ) + ( ij
i j ) +
i =1 i i j i j i mi i
NhM h n m
Wh = f h = h h = f 1h
f 2 h
NM NhM h
L L
1 nh
Un estimador insesgado de la media es x st = Wh x h = Wh
x ih pues
h h nh i
L L
1 n L L
E (x st ) = Wh E1 E 2 x h = Wh E1 E 2 xih = Wh E1 x h = Wh X h =X
h h nh i h h
L L S 2 S2
V (x st ) = Wh2
V (x h ) = Wh2 (1
f 1h )
bh + f 1h (1
f 2 h )
wh
h i
nh mh nh mh
PROBLEMAS RESUELTOS
8.1. En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con
probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin
reposicin con fraccin de muestreo igual a 1/6, y se obtienen los siguientes valores para el
nmero de casas en las que viven jubilados:
Manzana 1 2 3 4 5 6
N de casas con jubilados 4 3 5 2 1 5
Se pide:
Consideramos las manzanas como conglomerados de igual tamao (30 casas cada manzana).
mi 1
Tenemos como datos n = 6, M = 30, f 2i = mi = f 2i M = 30 = 5 = m .
M 6
1 n 1 4 3 5 2 1 5 2
P = Pi = + + + + + =
n i =1 6 5 5 5 5 5 5 3
Para calcular la varianza del estimador realizamos la tabla muestral del anlisis de la
varianza. Para ello utilizamos seis variables de clasificacin de, C1 a C6, una por cada
conglomerado muestral, de modo que cada variable tiene un nmero de unos igual al total de
clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del
conglomerado muestral. Se elige Anlisis de la varianza de un factor en Anlisis de datos
del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1.
Los resultados se ven en la Figura 8-2.
S 2 0,53333
La varianza es V ( P ) = b = = 0,018 . El error relativo de muestreo es:
nm 6,5
V$ ( P$ ) 0,018 0,134164
Cv ( P$ ) = = = = 0,2 (20%)
P$ 2/3 2/3
Muestreo bietpico de conglomerados 315
Figura 8-1
Figura 8-2
Al ser la fraccin de muestreo en primera etapa 1/2, tenemos 1/2 = 6/N, de donde el
nmero de conglomerados en la poblacin es N = 13. Para hacer una estimacin por
intervalos del total de la caracterstica A en la poblacin, necesitamos la varianza del
estimador del total. Pero:
(A
( A ), A
( A )) = [240
1,96 48,3,
240 + 1,96 48,3] = [145,33, 334,66 ]
2
A = NMP = 12 30 = 240
3
En el caso de que ambas etapas sean sin reposicin, los estimadores de la proporcin
y el total de clase no varan, pero s cambian los errores de muestreo. La varianza del
estimador de la proporcin ser ahora:
S2 S2 1 0,5333 1 1 0,1666
()
V P = (1
f1) b + f1(1
f2 ) w = 1
nm
+ 1
nm 2 6,5 2 6 6,5
= 0,0112
V$ ( P$ ) 0,0112 0,10583
El error relativo es Cv ( P$ ) = = = = 0,1587 (15,87%) y se
P$ 2/3 2/3
observa que en muestreo sin reposicin el error resulta ser menor.
316 Muestreo estadstico. Conceptos y problemas resueltos
8.2. Una regin tiene 1000 hogares agrupados en 50 pequeos municipios de tamaos desiguales
Mi (i = 1, 2, ..., 50). Se trata de estimar la proporcin de hogares que estn al corriente de
sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con
probabilidades iguales y sin reposicin en las dos etapas. En la primera etapa se obtienen 5
municipios muestrales de tamaos 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada
con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de
primera etapa los valores 1, 3, 2, 2 y 3 para el nmero de hogares que estn al corriente de
sus obligaciones fiscales. Se pide:
Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales
son los hogares de los municipios. Tenemos:
mi 4
f 2i = = mi = 4 i
Mi Mi
N n
M i 50 1 5 1 1 3 2 2 3
P = i M Pi = 5
1000 i M i Pi = 100 6 4 + 10 4 + 8 4 + 20 4 + 60 4 = 0,68
n
n
1 n
2
2
Mi Pi
Mi Pi
1 N (1
f1 ) i
() n i =1 + N M 2 (1
f )
PiQi = 0,1458
n
V P = 2
i 2i m
1
M n n
1 n i i
V ( P ) 0,1458 0,38
Cv( P ) = = = = 0,5588 (55,88%)
P 0,68 0,68
P (1
P )
n
dentro n(m
1) m i i S w2
i =1
Total nm
1 nm P Q S 2
8.3. Consideremos una provincia con 400 municipios. Para estimar el total de hogares con
automvil en la provincia se selecciona una muestra de 10 municipios con igual
probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente
hogares utilizando una fraccin de muestreo f = 1/5. Se obtienen los siguientes datos:
Se pide:
1) Estimar el total de hogares con automvil en la provincia y sus errores absoluto y relativo
de muestreo.
El error relativo de muestreo viene dado por el coeficiente de variacin del estimador.
Tenemos:
V ( A ) 628237 792,614
Cv ( P ) = = = =0,123 (12,3%)
A 6440 6440
Para hacer una estimacin por intervalos del total de la caracterstica suponiendo
normalidad tendremos:
(A
( A ), A
( A )) = [6440
1.96
792,61, 6440 + 1.96
792,61] = [4886.4, 7993.5]
8.4. De una via formada por 1000 lneos de 50 cepas cada uno, se extrae una muestra de 30
lneos. Dentro de cada lneo de la muestra se analizan cinco cepas, utilizando muestreo con
probabilidades iguales y con reemplazamiento en primera etapa. El anlisis de la varianza de
la muestra para una variable medida sobre las cepas presenta los siguientes resultados:
1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las
cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza.
2) Realizar los mismos clculos para muestreo sin reposicin en ambas etapas, comparando
los resultados con los del apartado anterior.
Consideramos cada lneo como conglomerado de 50 cepas (tamaos iguales). Cuando existe
reposicin en primera etapa, la frmula de la estimacin de la varianza de la media,
independientemente de que haya o no reposicin en segunda etapa, es la siguiente:
S 2
V (x ) = b
nm
La tabla del anlisis de la varianza para la muestra en el caso del muestreo bietpico
es la siguiente:
Muestreo bietpico de conglomerados 319
( X )
2
dentro n( m
1) ij
xi S w2
i j
n m
( X )
2
Total nm
1 ij
x S$ 2
i j
Si consideramos los datos de nuestro problema tenemos S$b2 = 600 y S w2 = 400. Por tanto:
S 2 600
V (x ) = b = =4
nm 29
5
S 2 S 2 30 600 30 5 400
()
V x = (1
f1 ) b + f1 (1
f2 )
w = 1
nm
+ 1
nm 1000 30
5 1000 50 30
5
= 3,95
La amplitud del intervalo de confianza al 95% es 2 V (x ) , que en este caso vale 7,9.
Como es natural, tiene menos varianza el muestreo sin reposicin, ya que siempre es ms
preciso. Este hecho tambin se refleja en la anchura de los intervalos de confianza.
8.5. Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y
quiere estimar el nmero promedio de horas que las mquinas de coser estuvieron sin
funcionar por reparacin en los meses pasados. Debido a que las plantas estn muy
dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada
planta como un conglomerado de mquinas. Cada planta contiene muchas mquinas, y el
verificar los registros de reparacin de cada mquina implicara consumir tiempo. Por tanto
el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para
muestrear 10 plantas y aproximadamente un 20% de las mquinas de cada planta. Dados los
siguientes datos sobre el tiempo sin funcionar para las mquinas de coser por plantas
Planta Mi mi Tiempo sin funcionar (en horas) xi S2i
1 so 10 5, 7, 9, 0, 11, 2, 8, 4, 3, 5 5,40 11,38
2 65 13 4, 3, 7, 2, 11, 0, 1, 9, 4, 3, 2, 1, 5 4,00 10,67
3 45 9 5, 6, 4, 11, 12, 0, 1, 8, 4 5,67 16,75
4 48 10 6, 4, 0, 1, 0, 9, 8, 4, 6, 10 4,80 13,29
5 52 10 11, 4, 3, 1, 0, 2, 8, 6, 5, 3 4,30 11,12
6 58 12 12, 11, 3, 4, 2, 0, 0, 1, 4, 3, 2, 4 3,83 14,88
7 42 8 3, 7, 6, 7, 8, 4, 3, 2 5,00 5,14
8 66 13 3, 6, 4, 3, 2, 2, 8, 4, 0, 4, 5, 6, 3 3,85 4,31
9 40 8 6, 4, 7, 3, 9, 1, 4, 5 4,88 6,13
10 56 11 6, 7, 5, 10, 11, 2, 1, 4, 0, 5, 4 5,00 11,80
Estimar el tiempo sin funcionar promedio por mquina y establecer un lmite para el error de
estimacin. El fabricante sabe que tiene un total de 4.500 mquinas en todas las plantas.
Estimar tambin la cantidad total de tiempo sin funcionar durante el mes pasado para todas
las mquinas. Estimar el tiempo sin funcionar promedio por mquina en caso de que no se
conozca el nmero total de mquinas.
320 Muestreo estadstico. Conceptos y problemas resueltos
Para la estimacin de la cantidad total de tiempo sin funcionar para todas las mquinas
tenemos el estimador X = Mx = 4500
4,8 = 21600 , siendo la estimacin de su varianza
V ( X ) = M 2V ( x ) = 4500 2
0,037094 = 751153,5 .
M x
i =1
i i
(50
5,4 + 65
4 + L + 56
5)
x= n
= = 4,6
50 + 65 + L56
M
i =1
i
10 10 10
1
f 2 2 2 S ) = 1
f
V ( x ) = ( S x + R S M
2R xm ( (M i xi ) 2
+ x 2
M i
2
2x
M i xi M i ) = 0,049
nM 2 nM 2 (n
1) i =1 i =1 i =1
8.6. Para estimar el total de una magnitud en una poblacin de 100 conglomerados se estratifica la misma
en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se
selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamao Mi y
con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemtica de
cuatro conglomerados con coeficiente de correlacin intramuestral igual a una milsima. Se tiene:
ZONA RURAL ZONA URBANA
Unidad Unidad
muestral Mi Total muestral Total
1 7 13 1 21
2 6 11 2 15
3 8 18 3 24
4 4 10 4 20
5 5 11
1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de
muestreo. Hallar tambin un intervalo de confianza del 95% para la media por conglomerado
en cada zona.
2) Estimar el total en la poblacin y sus errores absoluto y relativo de muestreo.
Muestreo bietpico de conglomerados 321
1 n Xi 1 1 n Xi 1 n Xi 1 13 11 18 10 11
X HHR = =
= = + + + + = 2,128
MR i nPi MR n i MiR MR n i MiR 5 7 6 8 4 5
2
n Xi 13
2
11
2
18
2
10
2
11
2
i =1 MiR
X HHR
2,128 +
2,128 +
2,128 +
2,128 +
2,128
=7 6 8 4 5 = 0,016
n(n
1) 20
V ( X HHR ) 0,016
Cv( X HHR ) = = = 0,059 6%
X HHR 2,128
Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
21 + 15 + 24 + 20
X U = = 20
4
1
2
S 4 3
[
(21
20)2 + (15
20)2 + (24
20)2 + (20
20)2 ]
V ( XU ) = (1
f ) = 1
= 3,15
n 40 4
V ( X U ) 3,15
Cv ( X U ) = = = 0,0887 8,87%
X U 20
Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:
322 Muestreo estadstico. Conceptos y problemas resueltos
n
V ( X st ) = Nh2V ( xh ) = 602V ( X HHR) + 402V ( X U ) = 602
0,016+ 402
3,15 = 5097,6
h =1
V ( X st ) 5097,6
C v( X st ) = = = 0,077 7,7%
X st 927,68
8.7. En las 10 regiones de un pas se efecta muestreo en dos etapas (1 etapa con reposicin). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada regin de la primera etapa en los que se mide el nmero
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamao en primera etapa.
3) Estimar el error de muestreo en ambos casos.
N n
10
X = M i xi = (50
10 + 60
12,4 + 80
11,2) = 7133,33 7134 condenados
n i 3
i 1 / Ni
X NX i
N 1 M i xi 1 n
n n n n 2
i M i xi
n i M i xi N 2 X
X i
( )
i
i n i N2
V X = = = = i
n(n
1) n(n
1) n n
1 n n
1
100 (50
10
713,33) 2 + (60
12,4
713,33) 2 + (80
11,2
713,33) 2
= 2.19385
107
3 2
Muestreo bietpico de conglomerados 323
1 n M x 1 n M i xi M n
600
X HH = i i = = x i = (10 + 12,4 + 11,2) = 6720 condenados
n i Pi n i Mi M n i 3
2
X
2
n n M M n 2
i xi M 2 xi
1n xi
n n
i M /iM
X i M M i xi
n
( )
V X =
i
n(n
1)
= i
n(n
1)
= i
n(n
1)
i =
(
6002 (10
11,2) + (12,4
11,2) + (11,2
11,2)
2 2
= 172800
2
)
6
8.8. Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extradas del primer estrato son los siguientes:
2
x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S1w =1,5. El segundo estrato (granjas en permetro
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extradas del
2
segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2w = 1,33. A partir
de esta informacin, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposicin y
probabilidades iguales en todas las etapas. Hallar tambin un intervalo de confianza para el
peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%.
1 20
x1 = x i1 = =4 S b2 = i
= 15
n1 i 5 n1
1
S 2 S 2 5 15 5 6 1,5
V (x1 ) = (1
f11 ) 1b + f11(1
f12 )
1w = 1
+ 1
= 0,5
n1m1 n1m1 1000 30 1000 50 30
324 Muestreo estadstico. Conceptos y problemas resueltos
1 21
x2 = i xi 2 = 6 = 3,5 S 22b = i
= 2,8
n2 n2
1
S 2 S 2 6 2,8 6 4 1,33
( ) n2m2
V x2 = (1
f21) 2b + f21(1
f22 )
2w = 1
+ 1
n2m2 100 24 100 40 24
= 0,113
2
1000 100
x st = W h x h = W1 x1 + W 2 x 2 =
4+
3,5 = 3,685 arrobas
h =1 1100 1100
V ( x st ) 0,415
C v( x st ) = = = 0,1748 (17,48%)
x st 3,685
8.9. Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una seccin censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.
2) Hallar el valor de los nmeros ptimos citados para el coste total dado.
Muestreo bietpico de conglomerados 325
0,38(1.0,38)
MinV ( P ) = (1
f ) (1 + (m
1)0,05) c1 1
500 1
0,05
nm m =
=
14 familias
c2 50 0,05
3000000 = 500n + 50nm
3000000 3000000
3000000 = 500n + 50nm n = = = 2500 secciones censales
500 + 50m 500 + 50
14
8.10. Una empresa quiere estimar la proporcin de mquinas que han sido retiradas del proceso de
produccin debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las mquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaos de las plantas Mi, las mquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de mquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:
Porcentaje de mquinas
Planta Mi mi con reparacion es mayores ( Pi )
1 50 10 0, 40
2 65 13 0,38
3 45 9 0, 22
4 48 10 0,30
5 52 10 0,50
6 58 12 0, 25
7 42 8 0,38
8 66 13 0,31
9 40 8 0, 25
10 56 11 0,36
Estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido
a reparaciones mayores para todas las plantas y establecer un lmite para el error de
estimacin al 95%.
326 Muestreo estadstico. Conceptos y problemas resueltos
M i Pi
P = i =1
n
= 0,34
M
i =1
i
(P
P )
n 2
) M
2
(1
f 1
() PQ
i i
1 n
V P =
nM
2
i
n
1
+
nNM 2
M (1
f )
m
1 = 0,0081
i
i
2
2i
i i
()
P 2 V P = 0,34 0,056
EJERCICIOS PROPUESTOS
8.1. Se desea estimar el consumo de los hogares espaoles a travs de una muestra bietpica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la seccin
censal. El coeficiente de correlacin intraconglomerados es 0,1. El coste de preparacin de
listados y planimetra de cada seccin censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerndose ms componentes en la funcin de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:
2) Cules seran los tamaos de muestra en cada etapa que optimizasen el diseo? Se
entiende por diseo ptimo aquel que logra la mxima precisin dentro del presupuesto
fijado.
3) Si se estratifican las secciones censales en dos estratos del mismo tamao correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
travs de la varianza es tres veces superior en la zona urbana que en la rural, cmo se distribuira
la muestra en cada estrato y en cada etapa para optimizar el diseo?
8.2. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. En los tres
hospitales muestreados se examinar un 10% de los registros de los pacientes actuales para
determinar cuntos pacientes permanecern por ms de dos das en el hospital. Con la
informacin sobre los tamaos de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamao.
Puesto que sern seleccionados tres hospitales, tres nmeros aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de nmeros aleatorios. Nuestros nmeros elegidos
son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los
hospitales muestreados dieron los siguientes datos sobre el nmero de pacientes con
permanencia de ms de dos das:
Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales y establecer un lmite para el error de estimacin.
328 Muestreo estadstico. Conceptos y problemas resueltos
8.3. Supongamos que cinco investigadores toman muestras independientes de igual tamao
constituidas por pequeas parcelas de un campo de cultivo y obtienen estimaciones del
rendimiento del campo . Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como
estimador de la media de las cinco estimaciones, calcular el error de muestreo relativo.
Realizar el mismo clculo suponiendo que las muestras son de distintos tamaos, de 3, 1,
10, 10 y 1, respectivamente
14 3 2 3 2 7
V ( X ) = M 2 2
x
i i
s i M i ( M i
5)
M i M j xi x j
45 i =1 3 i =1 45 i j
siendo xi el total muestral y si2 = Si2 la cuasivarianza dentro de la unidad primaria i-sima de
la muestra. Si consideramos muestreo con reposicin en la segunda etapa, cul es el
estimador del total? Qu expresin toma el estimador de su varianza?
MUESTREO BIFSICO Y
MUESTREO EN OCASIONES SUCESIVAS
OBJETIVOS
NDICE
1. Muestreo bifsico.
8. Problemas resueltos.
9. Ejercicios propuestos.
Muestreo bifsico y muestreo en ocasiones sucesivas 331
MUESTREO BIFSICO
El muestreo doble o bifsico se utiliza cuando queremos obtener estimadores de alguna variable
X y disponemos de informacin adicional de otra variable de modo similar a lo que ocurra en los
mtodos de estimacin indirecta. En la prctica, el muestreo doble se lleva a cabo seleccionando
en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse
una o varias caractersticas generales de las unidades que nos proporcionan la informacin que
necesitamos para el estudio de nuestra caracterstica objetivo. En una segunda fase seleccionamos
una submuestra de la primera en la que observamos ya la caracterstica objeto de estimacin. Esta
tcnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifsico.
Para fijar notacin consideramos:
1 fase. Se toma una muestra grande de tamao n relativa a la variable auxiliar Yi
para estimar por ejemplo Y u otras caractersticas relativas a la variable Yi con bajo coste.
2 fase. Se toma una muestra relativa a la variable en estudio Xi de tamao n
(generalmente submuestra de la muestra preliminar n< n) con coste mucho ms alto.
El uso de esta tcnica de muestreo depende de los costes. Si la observacin de la
caracterstica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaramos
una muestra del tamao no necesario para la precisin deseada y con ella haramos las
estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el
coste por unidad de la primera muestra, de tamao n, es c y que el coste por unidad de la
segunda muestra, de tamao n < n, es c. Frecuentemente c es mucho ms pequeo que c,
bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las
unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la
observacin de la caracterstica objetivo implica un proceso de observacin ms costoso. En
estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo
en dos fases C = cn + cn. Supongamos que los costes totales por el procedimiento bifsico
y por el normal (aleatorio) son los mismos, esto es, cno = cn + cn. Igualando los dos costes
c'
totales, se obtiene: no = n + n' , lo que nos dice que con la tcnica de dos fases la
c
observacin efectiva (la referida a la variable Xi) se hace en una muestra de tamao n, menor
que el tamao no de la muestra aleatoria simple correspondiente en una sola fase con el
mismo coste total. Luego al introducir las dos fases el tamao de muestra necesario es ms
pequeo que si hubiese una sola fase (muestreo aleatorio normal) y hay una prdida en la
precisin de los estimadores (al disminuir el tamao de la muestra).
Se trata de decidir si compensa la disminucin del tamao efectivo de la muestra, con
el incremento de informacin adquirido en la primera fase (lo que provocar prdida de
precisin en las estimaciones relativas a Xi). Para ello debe calcularse la varianza
2
correspondiente a muestreo doble y compararla con la del muestreo en una sola fase en
no
caso de estimacin de la media. Es obvio que cuanto menor sea la relacin c/c ms favorable
es el muestreo doble. Ello es debido a que no
n = (c / c ) n mientras menor sea c / c ms
cerca estar n de no y menos disminucin habr del tamao de muestra comparado el bifsico y
el aleatorio simple, siendo la prdida en precisin de los estimadores menor al introducir el
bifsico.
332 Muestreo estadstico. Conceptos y problemas resueltos
Estimadores y varianzas
Nh
El estimador usual de la media en muestreo estratificado es X = W x
h
h h con Wh =
N
.
En muestreo doble los Wh se estiman por los W$h obtenidos de la primera muestra, y con la
xh
segunda muestra estimamos las medias x h = ; de esta forma resulta el estimador para la
nh
media:
n' h
X$ = W$h x h ; W$h =
h n'
Utilizaremos la notacin EW ' (T ) para expresar la esperanza matemtica de un estadstico
T, condicionada al conjunto de muestras de primera fase en las cuales n1, ....,nh , ..., n son fijos, o
lo que es lo mismo, para un n dado, W$1 , L , W$h , L , W$ L son fijos. Anlogamente VW ' ( T )
expresar la varianza condicionada.
La varianza del estimador de la media sin reposicin en las dos fases es:
S2 g 'Wh (1
Wh ) g '
V X = (1
f h ) h Wh2 + + Wh ( X h
X )
2
h nh n' n' h
N
n' S 2 1 S2 nh
V X =
+
1
Wh h ; #h =
N n' h # h n' n h'
S2 W (1
Wh ) 1
V X = (1
f h ) h Wh2 + h + Wh ( X h
X )
2
h nh n' n' h
frmula aproximada para n pequeo respecto de N en caso sin reposicin en segunda fase.
h2 2 Wh (1
Wh ) 1
+ Wh ( X h
X )
V X = Wh +
2
h nh n' n' h
$
Para el total X = NX , el estimador insesgado es X$ = NX y su varianza es
( )
V ( X$ ) = N 2V X$ .
334 Muestreo estadstico. Conceptos y problemas resueltos
Si la muestra de primera fase es de tamao n=N, esto es, se observan todas las
unidades de la poblacin para efectuar la estratificacin, la frmula general de la varianza
del estimador en muestreo doble se convierte en:
S h2
( )
$
V X = ( 1
f h )Wh
h
2
nh
; g' = 0
que coincide con la del muestreo estratificado habitual (una sola fase). Adems se observa
que n aparece dividiendo, y en consecuencia, cuanto mayor es n (n < N ) la prdida de
precisin por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razn por
la cual conviene estudiar los tamaos y la afijacin ptimos en funcin del coste.
La varianza (sin reposicin en las dos fases), aplicando el resultado anterior, ser:
PQ g ' Wh ( 1
Wh ) g '
V ( P$ ) = ( 1
f h ) h h Wh2 + + Wh ( Ph
P)
2
h nh n' n' h
Nh
con la aproximacin S h2 = Ph Qh Ph Qh .
Nh
1
En muestreo con reposicin en las dos fases, o sin reposicin y tamaos muestrales
pequeos respecto de los correspondientes poblacionales ( f h 1; g ' 1) , se tiene:
PQ Wh ( 1
Wh ) 1
V ( P$ ) = h h Wh2 + + Wh ( Ph
P )
2
h nh n' n' h
g ' ( 1
Wh ) g '
( ) 1
V X$ = ( 1
f h ) S h2 Wh +
n h n'
+ Wh ( X h
X )
n' h
2
( ) 1
V X$ = h2Wh +
n h
1
nn' h
1
h2 ( 1
Wh ) + Wh ( X h
X )
n' h
2
( ) 1 1
V X$ = Wh h2 + Wh ( X h
X )
n h n' h
2
2
1 1
V X = Wh h + Wh (X h
X )
2
n h n' h
n n' h h
Estimacin de varianzas
Tenemos:
n' sh2 2 W h 1
V X = W h
+ W h (xn
X )2
n'
1
h nh n' n' h
n'
El factor prcticamente es prximo a la unidad si n no es pequeo. Tambin
( n'
1)
el trmino que aparece en segundo lugar en la frmula de la estimacin de la varianza puede
ser despreciable respecto de los otros dos, ya que aparece el producto nh
n' en el
denominador. Entonces resulta la aproximacin:
336 Muestreo estadstico. Conceptos y problemas resueltos
() s2 1
V X W h2 h + W h x h
X
h n h n'
( )
2
()
2
2 sh
V X Wh
h nh
sh2 ph q h
(x )
2
X$ = ( ph
P$ )
2
= ; h
nh nh
1
El estimador usual de razn para la media X utiliza como informacin conocida previamente
la media Y (o el total) de una caracterstica Y, definida en todas las unidades de la
poblacin, elegida convenientemente de modo que su relacin con X sea lineal al menos
aproximadamente. El muestreo doble utiliza la primera muestra de tamao n para obtener una
buena estimacin de Y , o de Y, y la segunda muestra de tamao n para estimar x e y . De esta
forma , el estimador de razn para la media en muestreo doble es:
x
X$ R =
y ' ; y ' = Media de la primera muestra.
y
En el caso de que las muestras de las dos fases sean independientes, se tiene:
1 1
V X R = { x2 + R2 y2
2R xy }+ R2 y2
n n'
frmula vlida para muestreo con reposicin. En el caso sin reposicin sustituimos varianzas
y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el
factor de finitud en segunda fase y el segundo sumando por el de primera fase.
1 1
V X R = { x2 + R 2 y2
2 R xy }+ {2 R xy
R 2 y2 }
n n'
Muestreo bifsico y muestreo en ocasiones sucesivas 337
X$ R = NX$ R ( )
; V ( X$ R ) = N 2V X$ R
El estimador usual para la media en muestreo indirecto (en una fase) por regresin lineal es
X$ = x + K ( Y
y ) , donde K es una constante prefijada e Y es la media poblacional de la
variable auxiliar. Los estimadores x , y se obtienen de las observaciones de una muestra
( X i , Yi ) de tamao n. En muestreo doble, al suponer desconocida Y , utilizamos la primera
muestra de tamao n para estimar Y , estimacin dada por y' . Con la muestra de tamao n
en segunda fase estimamos x , y , formando entonces el estimador en muestreo doble por
regresin para la media poblacional:
X rg = x + K ( y '
y )
1 2 K 2 y2
V X rg = ( x + K y
2 K xy ) +
2 2
n n'
1 1
V X rg = ( x2 + K 2 y2
2 K xy ) + (2 K xy
K 2 y2 )
n n'
n
xy (X i
x )(Yi
y )
Sea el valor ptimo de K = b = 2 estimado por b = 1
.
y n
(X
x ) (Yi
y )
2 2
i
1
338 Muestreo estadstico. Conceptos y problemas resueltos
V X rl =
(1
2 ) x2 + 2 x2
x2
n n' N
Una estimacin para la varianza ptima es la siguiente:
S x2, y S x2
S x2, y S x2
V X rl = +
n n' N
1 n n
1 n
S x2, y = ( X i
x ) 2
b 2
(Yi
y ) 2 S x2 = ( X i
x)2
n
2 i =1 i =1 n
1 i =1
El estimador por diferencia en muestreo doble resulta del estimador de regresin haciendo K = 1,
por lo que toda la teora anterior es vlida haciendo K=1, resultando el estimador
X$ d = x + ( y '
y ) . Anlogamente, las frmulas de las varianzas se obtienen aplicando a K el
valor 1 en las varianzas del estimador por regresin.
La posibilidad a) nos permitira conocer los cambios individuales entre las dos
ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carcter en
ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sera muy
difcil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no
sera deseable por los sesgos que una exposicin continuada a los mtodos de encuesta pueden
originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se
contamina con el tiempo.
S2 S2
V ( x1 ) = , V (x2 ) =
n n
2
c S S c2 S2 c S2
cov( x1 , x 2 ) = 2
cov( x1c , x 2 c ) = 12
2 = 12
= 12
c
n c c n n n n
340 Muestreo estadstico. Conceptos y problemas resueltos
()
V = V ( x1 ) + V ( x 2 )
2 cov( x1 x 2 ) =
S2 S2
n
+
n
2
S2
n
S2
12 c = 2 [1
12 c ]
n
siendo 12 el coeficiente de correlacin entre los valores comunes a ambas ocasiones y
c la proporcin de unidades comunes. De esta expresin deducimos que para 12 > 0 la
ganancia en precisin es proporcional a c 12 correspondiendo la mxima ganancia a los
valores 12 = +1 y c = 1 . Por lo tanto, la situacin ideal es aquella en la que la
proporcin de unidades comunes en la muestra en las dos ocasiones es del 100% ( c = 1 ),
lo que significa que la muestra es comn en su totalidad en las dos ocasiones. La situacin
tambin es ideal cuando el coeficiente de correlacin entre los valores comunes en ambas
ocasiones es mximo ( 12 = +1 ), que en trminos prcticos significa que las unidades
muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma
positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).
1 2S 2 2S 2 S2
V (x ) = +
12 c =
[1 + 12 c ]
4 n n 2n
Como este valor es mnimo cuando c = 0 , vemos que, en el caso 12 < 0 , para
estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.
Muestreo bifsico y muestreo en ocasiones sucesivas 341
%$ = W ( x 2 c
x1c ) + ( 1
W )
( x 2 c
x1c )
()
= W 2V ( x
x ) + (1
W )2 V
( x
x ) .
Tenemos V % 2c 1c 2c 1c
V ( x2c
x1c )
2W
V ( x2c
x1c )
2
(1
W )
V ( x2c
x1c ) = 0 W =
V ( x2c
x1c ) + V ( x2c
x1c )
2S 2 2S 2
y sustituyendo las varianzas V ( x2c
x1c ) = y V ( x2c
x1c ) = (1
12 )
n
c c
1
n
c c c (1
12 )(1
c )
W= = = 1
W =
1 1
12 c + (n
c)(1
12 ) 1
12 (1
c ) 1
12 (1
c )
+
n
c c
Sustituyendo estos valores en la expresin de la varianza del estimador lineal de
mnima varianza se obtiene:
c 2S 2 (1
12 ) (1
c )
(1
12 ) 2S 2 2
()
V % = W V (x2c
x1c ) + (1
W ) V
(x2c
x1c )
2 2
=
[1
12 (1
c )]2
n [1
12 (1
c )]2
n
2S 2 (1
12 ) 2S 2 (1
12 )
=
[ c + (1
c )
(1
12 )] =
(1
12 + c 12 )
[1
(1
)]
n
12 c
2
[1
(1
)] 12 c
2
n
2S (1
)
2
2S (1
) 2
= 12
(1
(1
)) = 12
[1
(1
)]
n
12 c
2 12
[1
(1
)]
n
c
12 c
Hemos obtenido una expresin para la varianza mnima del estimador lineal:
2 S 2 (1
12 )
()
V % =
[1
12 (1
c )]
n
Vemos que, en este caso, el estimador lineal de mnima varianza combinado %$
proporciona igual precisin que el estimador simple $ cuando c = 1, es decir, cuando se
mantiene la misma muestra para la segunda ocasin.
342 Muestreo estadstico. Conceptos y problemas resueltos
V ( x 2 c
bx1c ) = V ( x 2 c ) + b 2V ( x1c )
2 cov( x 2 c ; x1c ) =
S2 S2 S S S2
c
+ 122
c
2 12
12
=
c
1
122 ( )
c c
S2 2 S
2
S
V (bx1 ) = b
V ( x1 ) = b
2
= 12
2
, (S1 = S 2 b = 1
12 = 12 )
n n S2
1
122 122
Sumando ambas componentes se obtiene: V x ( )'
2c =S 2
+
c n
Utilizaremos el estimador lineal de mnima varianza de la media para la segunda
ocasin combinado definido por:
x 2 = Wx 2' c + ( 1
W ) x 2 c
( ) ( )
cuya varianza V x 2 = W 2V x 2' c + ( 1
W ) V x 2 c es mnima para:
2
( )
V(x ) 2c V ( x 2' c )
W= 1
W =
V( x ) +V( x )
'
2c 2c V ( x 2' c ) + V ( x 2 c )
de donde se deduce que el estimador combinado de varianza mnima para estimar la media
en la segunda ocasin toma la forma:
1 1
V ( x 2' c ) V ( x2c )
x2 =
x 2' c + x 2' c
1 1 1 1
+ +
V ( x2c ) V ( x 2' c ) V ( x2c ) V ( x 2' c )
es una media ponderada con los coeficientes de ponderacin basados en los valores
recprocos de las varianzas. Sustituyendo los valores de W y 1
W en V x 2 , calculamos el ( )
valor de la varianza mnima para el estimador de la media en segunda ocasin. Tenemos
V (x2 ) =
V 2 ( x2c )
( )
V 2 x 2' c +
( )
V 2 x 2' c
V 2 (x2c ) =
( )
V ( x 2 c )V x 2' c
(V (x ) + V (x ))
'
2c 2c
2
(V (x ) + V (x ))
'
2c 2c
2
( )
V ( x 2 c )V x 2' c
1
122 122 S2 S2
( )
y como V x 2' c = S 2 + y V ( x 2 c ) = = tenemos:
c n n
c c
Muestreo bifsico y muestreo en ocasiones sucesivas 343
S 2
( )
1
122 n + c122 S 2
V (x2 ) = cn c = ( )
1
122
n + c122
S2
( )
1
122 n + c122 S 2
S 2
+ ( )
1
122
n + c122 +
cn c
cn c
c
=
S2
n
122 (n
c )
=
( ) (
S 2
n
122 (n
c ) S 2
n
122 (n
1)
=
)
c cn c n
2 2
c + cn n 2
122 c 2
n
12 (n
c ) +
2 12
c
n
122 c 2
V (x2 ) = S 2
n 2
122 c 2
S2 S 2
n
(1
122 ) S 2
En particular , c = 0 V (x 2 ) = y c = n V (x 2 ) = =
n n 2 (1
122 ) n
Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma
precisin manteniendo la muestra que cambindola por completo en cada ocasin.
344 Muestreo estadstico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
9.1. Se trata de estudiar las casas en alquiler en una poblacin. Para ello se extrae una muestra
aleatoria simple extensa y barata de tamao 374 de las casas de un distrito y se halla que 272
casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una
segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes
resultados respecto de la proporcin de casas en alquiler:
En alquiler Total
Blancos 31 74
Otras razas 4 18
n' Ph Q h 2 W h 1 2
()
V P =
n'
1 h nh
1
Wh
( )
+ W h Pn
P =
n' n' h
31 43 272 4 14 82
2
2
374 74 74 272 374 18 18 82 374 +
+
0,0025
El error relativo de muestreo ser = 0,133 (13,3%) .
0,375
Muestreo bifsico y muestreo en ocasiones sucesivas 345
9.2. Se trata de estimar una proporcin a travs de una encuesta para la que se dispone de un
presupuesto de 300000 unidades monetarias utilizando muestreo bifsico con estratificacin.
La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone
de informacin adicional en registros a un coste de 25 unidades monetarias por unidad de
muestreo que permite clasificar las unidades en dos estratos de tamaos casi iguales.
Sabiendo que la proporcin verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se
quiere estimar los tamaos de las muestras en ambas fases n y n ptimos y el
correspondiente valor de la varianza del estimador de la proporcin. Cuantificar la ganancia
en precisin respecto del muestreo aleatorio simple.
Hallaremos los tamaos ptimos n y n correspondientes a un coste total dado tales que
()
V P sea mnima, escribiendo la funcin de Lagrange:
1 1
2
C A
" A A n =
n
=
2 + c = 0 = 2
n cn c ( Ac + Bc ' )
" B B C B
=
2 + c' = 0 = n ' =
n ' n' c' n' 2 c' ( Ac + Bc ' )
"
= c ' n '+ cn
C = 0
V ()
X =
( Ac + Bc ' )
2
pt . C
2
(
A = Wh Ph Qh = 0,5 0,2
0,8 + 0,5 0,8
0,2 )
2
= 0,16
h
B = Wh (Ph
P ) = 0,5
(0,2
0,5) 2 + 0,5
(0,8
0,5) 2 = 0,09
2
y tenemos:
C A 300000 0,16
n= =
c ( Ac + Bc ' ) 1000 ( 0,16
1000 + 0,09
25 ) = 268
C B 300000 0,09
n' = =
c' ( Ac + Bc ' ) 25 ( 0,16
1000 + 0,09
25 ) = 1272
V pt . ()
X =
( Ac + Bc ' ) =(
2
0,16
1000 + 0,09
25 ) 2
= 0,0006673
C 300000
346 Muestreo estadstico. Conceptos y problemas resueltos
Obtener una estimacin del error relativo de muestreo del estimador de la media as como
una estimacin de la media por intervalos al 95% de confianza.
Se considera que para poblaciones grandes, en muestreo bifsico pueden aproximarse todas las
frmulas por su expresin para reposicin en las dos fases. Para estimar la varianza del
estimador de la media tenemos:
()
V X =
n' s h2 2 W h 1
Wh
n'
1 h nh
n' n' h
2
+ W h (xn
X ) =
400 15
400
1 20
2
0,55
0,55
400
)]
+ 0,13(26
7,54) 2 = 3,96
3
X = W h x h = 0,55
2,8 + 0,32
8,2 + 0,13
26 = 7,544
h =1
V ( X ) 3,96
El error relativo ser C v( X ) = = = 0,264 (26,4%)
X 7 ,544
Un lmite para el error de estimacin al 95% vendr dado por la anchura del intervalo de
confianza, que vale 1,96 3,96 = 3,9.
Hemos visto en este captulo que para valores grandes de n (caso habitual) el
estimador de la varianza del estimador de la media puede aproximarse por la frmula
correspondiente al estimador de la varianza del estimador de la media en muestreo
estratificado en una sola fase (seguimos suponiendo reposicin) sustituyendo Wh por su
estimacin. En nuestro caso tendramos:
() h
S 2
V X = W h2 h = 0,552
nh
15
20
+ 0,322
200
10
+ 0,132
1000
10
= 4,12
Muestreo bifsico y muestreo en ocasiones sucesivas 347
V ( X ) 4,12
El error relativo ser C v( X ) = = = 0,269 (26,9%)
X 7 ,544
Observamos que la prdida en precisin es mnima por haber utilizado la aproximacin
citada.
9.4. Consideremos dos caractersticas X e Y medidas sobre los elementos de una poblacin para
las que conocemos los datos x = 2 y = 4 xy = 10 y X = 10. Se lleva a cabo un muestreo
bifsico obteniendo en primera fase una muestra de tamao n = 100 con y ' = 40,6. En la
segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando
muestreo bifsico por regresin ptimo calculando el error relativo de muestreo y el coste
total para c = 0 y c = 600
xy 6 6 xy 6 6
Se tiene = = = = 0,75 y b = 2 = 2 =
x y 2
4 8 y 4 16
6
X rg = x + b( y '
y ) = 9,8 + (40,6
40,1) = 9,998
16
La varianza del estimador ptimo de la media se calcula mediante la expresin:
( )
V X rg =
( +
)
1
2 x2 2 x2
=
( )
1
0,75 2 2 2 0,75 2
2 2
+ = 0,0955
n n' 25 100
V ( X rg ) 0,0955
El error relativo ser C v( X rg ) = = = 0,0309 (3,09%)
X rg 9,998
9.5. Se utiliza una muestra aleatoria simple de tamao 60 extrada de una poblacin sin
reposicin y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos
ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos
son los que representa la tabla adjunta. Adems, se sabe que 2 = 20, = 0,7 y = 0,6.
El nmero c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la
proporcin de unidades muestrales comunes c y del tamao muestral total n.
c
c = c = c
n = 0,6
60 = 36
n
n
c c 60
36 36
x= x ' '+ x ' = 150 + 152 = 0,4
150 + 0,6
152 = 151,2
n n 60 60
n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4
160 + 0,6
158 = 158,8
n n 60 60
Para la estimacin del cambio y su error tenemos entonces:
= y
x = 158,8
151,2 = 7,6
() S2 20
V = 2 [1
12 c ] 2 [1
0,7
0,6] = 0,38666
n 60
El estimador del cambio de mnima varianza y su error vienen dados por:
c 0,6
% = W ( y '
x ') + (1
W )
( y ' '
x ' ') con W = = = 0,8333
1
12 (1
c ) 1
0,7
0,4
= 0,8333(158
152 ) + (1
0,8333)
(160
150 ) = 6,66666
luego ya tenemos %
2 S 2 (1
12 ) 2
20(1
0,7 )
()
V % =
[1
12 (1
c )]
n [1
0,7(1
0,6)]
60
= 0,277
n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4
160 + 0,6
158 = 158,8
n n 60 60
S 2 20
V (y) = = 0,333
n 60
Utilizaremos el estimador estimador lineal de mnima varianza de la media para la
segunda ocasin combinado definido por:
y = W [ y'+ ( x
x ')] + (1
W ) y' ' = 0,65[158 + 0,7(151,2
152)] + (1
0,65)160 = 159
1
122 122 1
0,72 0,72 S2 20
( )
V x2' c = S 2 + = 20 + = 0,446 V ( x2c ) = =
n
c 60
36
= 0,833
c n 32 60
Muestreo bifsico y muestreo en ocasiones sucesivas 349
V (y) =
( ) (
S 2
n
122 (n
1) 20
60
0,7 2 (60
1)
= = 0,29
)
n 2
122 c 2 60 2
0,7 2 (60
36) 2
9.6. Se utiliza una muestra aleatoria simple de tamao 100 de una poblacin de 1000 personas
sin reposicin y probabilidades iguales para repetir una encuesta sobre sus elementos en dos
ocasiones sucesivas preguntando sobre un carcter dicotmico. Se obtienen los resultados de
la tabla adjunta.
O1
O2 S No Total
S 80 5 85
No 10 5 15
Total 90 10 100
P (1
P2 )
D = P2
P1 V ( D ) = V ( P2 ) + V ( P1 )
2Cov( P1 , P2 ) = (1
f ) 2 +
n
1
n
85 85
X 1i
X 2i
nP1 P2 (1
)
P1 (1
P1 ) 10 100 100
(1
f )
2(1
f ) i =1
= 1
+
n
1 n(n
1) 100 100
1
90 90 90 85
(1
) 80
100
10 100 100 + 21
10 100 100 = 0,00134
1
100 100
1 100 n(n
1)
n
Con los datos de la tabla se comprueba fcilmente que X
i =1
1i
X 2i = 80 .
Cov( P1 , P2 ) 0,00032
= = = 0,3
V ( P1 ) V ( P2 ) 0,00082 0,00116
350 Muestreo estadstico. Conceptos y problemas resueltos
EJERCICIOS PROPUESTOS
9.1. Se destinan 3000 unidades monetarias a una encuesta para estimar una proporcin. La
encuesta principal costar 10 unidades monetarias por unidad de muestreo. Se dispone de
informacin en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo,
que permite la clasificacin de las unidades en dos estratos de tamaos casi iguales. Si la
proporcin verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n ptimas y el
valor resultante de V(pst). Produce el muestreo bifsico alguna ganancia en precisin sobre
el muestreo aleatorio simple?
9.2. Si = 0,8 en muestreo doble para regresin, cmo debe ser n con relacin a n, si la prdida
en precisin debida a errores de muestreo en la media de la muestra grande se desea que sea
menor del 10%?
9.3. En una aplicacin de muestreo bifsico por regresin la muestra pequea es de tamao 87 y
la grande de tamao 300. Para la muestra pequea conocemos los siguientes datos:
(X
x ) = 17283 (X
x )(Yi
y ) = 5114 (Y
y ) = 3248
2 2
i i i
i i i
9.4. En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de
modo que los coeficientes de regresin de X2i respecto de X1i y de X1i respecto de X2i en la
parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a .
Demostrar que si las estimaciones x1 y x2 se construyen usando la regresin de X1i respecto
de X2i se tiene:
2S 2 (1
) 2 S 2 (1 + )
v( x 2
x1 ) = v( x2 + x1 ) =
(n
u ) (n + u )
CAPTULO
MUESTREO ESTADSTICO
MEDIANTE SPSS
OBJETIVOS
NDICE
1. SPSS y el muestreo estadstico.
En SPSS, una muestra compleja puede ser distinta de una muestra aleatoria simple en
muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se
seleccionan aleatoriamente con la misma probabilidad y sin reposicin (SR) directamente a
partir de la totalidad de la poblacin. Por el contrario, una muestra compleja determinada
puede tener en SPSS alguna o todas las caractersticas siguientes:
Figura 10-1
Figura 10-2
Muestreo estadstico mediante SPSS 355
Figura 10-3
Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR)
o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos.
Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn
disponibles slo cuando se han definido conglomerados y todos los tipos de PPS estn
disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles
slo en la ltima etapa de un diseo.
356 Muestreo estadstico. Conceptos y problemas resueltos
Figura 10-4
Figura 10-5
Figura 10-6
Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamao poblacional recoge el nmero estimado de unidades en la poblacin de una etapa dada.
El nombre raz de la variable guardada es TamaoPoblacin_. Proporcin muestral recoge la
tasa de la muestra en una etapa dada. El nombre raz de la variable guardada es TasaMuestreo_.
Tamao muestral recoge el nmero de unidades extradas en una etapa dada. El nombre raz de la
variable guardada es TamaoMuestra_. Ponderacin muestral recoge la inversa de las
probabilidades de inclusin.
Figura 10-7
Ya estamos en condiciones de extraer la muestra segn el diseo definido en los pasos
anteriores. Para ello elegimos Extraer muestra Opciones de seleccin en la parte izquierda de
la pantalla del Asistente de muestreo. Tambin puede controlar otras opciones del muestreo,
como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra,
adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar parte del diseo
muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos
que ya se haya extrado la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear
etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generacin de
nmeros aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si
los valores perdidos definidos por el usuario son tratados como vlidos. Si es as, los valores
perdidos definidos por el usuario se tratan como una categora diferente. El campo Los datos ya
estn ordenados permite acelerar el proceso de seleccin si el marco muestral est clasificado
previamente por los valores de las variables de estratificacin.
Figura 10-8
360 Muestreo estadstico. Conceptos y problemas resueltos
Las opciones de Dnde desea almacenar los datos de la muestra? permiten determinar
dnde se escribe el resultado de la muestra. Se puede aadir al archivo de datos de trabajo o
guardar en un archivo externo. Si se especifica un archivo externo, se guardan en el archivo las
variables de los resultados del muestreo y las variables del archivo de datos de trabajo para los
casos seleccionados. Las opciones de Dnde desea guardar las probabilidades conjuntas?
permiten determinar dnde se escriben las probabilidades conjuntas. Las probabilidades
conjuntas se producen si se seleccionan la probabilidad proporcional al tamao sin reposicin,
el muestreo de Brewer proporcional al tamao, el muestreo de Sampford proporcional al
tamao o el mtodo de Murthy proporcional al tamao y la estimacin con reposicin no se
especifica. En cuanto al campo Guardar reglas de seleccin de casos, si est construyendo la
muestra por etapas, es posible que quiera guardar las reglas de seleccin de casos en un
archivo de texto. Son tiles para construir el submarco de las etapas posteriores.
Figura 10-9
Figura 10-10
Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la
sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).
Para modificar un plan de muestreo existente, por ejemplo para guardar la muestra estratificada
anterior en una archivo nuevo de nombre PLAN2.SAV, elija en los mens: Analizar Muestras
complejas Seleccionar una muestra..., seleccione Editar un diseo muestral y elija el archivo de
plan anterior PLAN1.CSPLAN para editar (Figura 10-13). Pulse Siguiente para continuar usando el
Asistente. Revise el plan de muestreo del paso Resumen del plan (Figura 10-14), y a continuacin
pulse Siguiente. En Extraer muestra Archivos de resultados especifique el archivo para guardar la
muestra (Figura 10-15). Vaya al paso final y especifique un nombre nuevo para el archivo de plan
editado (Figura 10-16). Si lo desea, tiene la posibilidad de Especificar las etapas que ya se han
muestreado y Eliminar etapas del plan.
Figura 10-13
Figura 10-14
Muestreo estadstico mediante SPSS 363
Figura 10-15
Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar
coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en
Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo
PLAN2.SAV que contiene la muestra aleatoria.
Figura 10-16
364 Muestreo estadstico. Conceptos y problemas resueltos
Elija en los mens Analizar Muestras complejas Seleccionar una muestra...(Figura 10-1).
En el Asistente de muestreo seleccione Extraer una muestra (Figura 10-13) y elija un
archivo de plan para ejecutar. Pulse Siguiente para continuar usando el Asistente. Revise el
plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente. Cuando se
ejecuta un plan de muestreo se omiten los pasos individuales que contienen informacin de
la etapa. Ya puede pasar al paso de finalizacin. Si lo desea, tiene la posibilidad de
especificar las etapas que ya se han muestreado.
El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modificar un
plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de muestras complejas.
Antes de utilizar el Asistente, debe haber extrado la muestra para el anlisis de acuerdo con un
diseo complejo. Es ms til crear un plan nuevo cuando no se tiene acceso al archivo del plan
de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un
plan de anlisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para
extraer la muestra, puede utilizar el plan de anlisis contenido por defecto en el archivo del
plan de muestreo u omitir las especificaciones del anlisis por defecto y guardar los cambios
en un archivo nuevo.
Para crear un nuevo plan de anlisis, elija en los mens Analizar muestras complejas
Preparar para el anlisis... (Figura 10-19), seleccione Crear un archivo de plan en la Figura
10-20 y elija un nombre de archivo de plan para guardar el plan del anlisis. Crearemos un
plan de anlisis de nombre PLANA.CSAPLAN para la muestra obtenida anteriormente y guardada
en el fichero PLAN2.SAV. Pulse Siguiente para continuar usando el Asistente. Especifique la
variable que contiene las ponderaciones muestrales en el paso Variables del diseo y, si lo desea,
puede definir estratos y conglomerados (Figura 10-21). Es posible seleccionar el mtodo de
estimacin de los errores tpicos en el paso Mtodo de estimacin (Figura 10-22). Tambin
puede especificar el nmero de unidades muestrales o la probabilidad de inclusin por unidad
en el paso Tamao (Figuras 10-23 y 10-24).
Muestreo estadstico mediante SPSS 365
Figura 10-19
Figura 10-20
Figura 10-21
366 Muestreo estadstico. Conceptos y problemas resueltos
Figura 10-22
Figura 10-23
Figura 10-24
Muestreo estadstico mediante SPSS 367
Figura 10-25
Figura 10-26
Para modificar un plan de anlisis existente elija en los mens Analizar Muestras
complejas Preparar para el anlisis... (Figura 10-19), seleccione Editar un archivo de plan y
elija un nombre de archivo de plan en el que se guardar el plan del anlisis (Figura 10-28). Pulse
Siguiente para continuar usando el Asistente. Revise el plan de anlisis en el paso Resumen del
plan y, a continuacin, pulse Siguiente. Los pasos posteriores son prcticamente iguales que los
de un diseo nuevo. Desplcese al paso de finalizacin y especifique un nombre nuevo para el
archivo de plan editado o sobrescriba el archivo de plan existente. Si lo desea, tiene la posibilidad
de eliminar etapas del plan.
Una vez seleccionada una muestra mediante el Asistente de muestreo que se activa con
Analizar Muestras complejas Seleccionar una muestra... (Figura 10-1), y preparada la
muestra para su anlisis mediante el Asistente de preparacin del anlisis que se activa con
Analizar Muestras complejas Preparar para el anlisis... (Figura 10-19), ya estamos
en disposicin de calcular frecuencias, estadsticos, tablas de contingencia y razones a partir
de los datos de nuestra muestra.
Figura 10-39
Muestreo estadstico mediante SPSS 371
Figura 10-40
372 Muestreo estadstico. Conceptos y problemas resueltos
Figura 10-49
Figura 10-50