Vous êtes sur la page 1sur 394

IMPRESO EN MXICO - PRINTED IN MEXICO

A mis nias
CONTENIDO

INTRODUCCIN ............................................................................................................................. xi

CAPTULO 1. MUESTREO ESTADSTICO: CONCEPTOS, ESTIMADORES


Y SU DISTRIBUCIN ......................................................................................... 1

Conceptos iniciales en la teora del muestreo ........................................................ 3


Muestreo y estimadores. Distribuciones en el muestreo ........................................ 4
Propiedades y precisin de los estimadores. Comparacin de estimadores........... 6
Estimacin por intervalos de confianza.................................................................. 8
Problemas resueltos................................................................................................ 10
Ejercicios propuestos.............................................................................................. 47

CAPTULO 2. MTODOS GENERALES DE SELECCIN DE MUESTRAS.


ESTIMACIN Y ERRORES.............................................................................. 49

Seleccin con y sin reposicin. Probabilidades iguales y desiguales..................... 51


Estimacin puntual y formacin general de estimadores ....................................... 51
Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen Hurwitz ... 54
Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin ........................................................................ 55
Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz Thompson . 56
Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin ........................................................................ 57
Mtodo de Montecarlo ........................................................................................... 62
Problemas resueltos................................................................................................ 64
Ejercicios propuestos.............................................................................................. 108

CAPTULO 3. MUESTREO ALEATORIO SIMPLE SIN Y CON REPOSICIN.


SUBPOBLACIONES ........................................................................................... 109

Muestreo aleatorio simple sin reposicin. Especificaciones .................................. 111


Estimadores, varianzas y estimacin de varianzas................................................. 112
Tamao de la muestra ............................................................................................ 114
viii Muestreo estadstico. Conceptos y problemas resueltos

Muestreo aleatorio simple con reposicin. Estimadores ........................................ 118


Varianzas y su estimacin con reposicin.............................................................. 119
Tamao de la muestra con reposicin .................................................................... 120
Comparacin entre muestreo aleatorio sin y con reposicin.................................. 121
Subpoblaciones....................................................................................................... 122
Problemas resueltos................................................................................................ 124
Ejercicios propuestos.............................................................................................. 145

CAPTULO 4. MUESTREO ESTRATIFICADO SIN Y CON REPOSICIN ....................... 147

Concepto de muestreo estratificado ....................................................................... 149


Muestreo estratificado sin reposicin. Estimadores y errores ................................ 150
Muestreo estratificado con reposicin. Estimadores y errores............................... 151
Afijacin de la muestra. Tipos de afijacin y errores de los estimadores
para muestreo sin reposicin .............................................................................. 152
Afijacin de la muestra. Tipos de afijacin y errores de los estimadores
para muestreo con reposicin ............................................................................. 155
Tamao de la muestra para muestreo sin reposicin.............................................. 156
Tamao de la muestra para muestreo con reposicin............................................. 156
Comparacin de eficiencias en muestreo estratificado .......................................... 157
Postestratificacin .................................................................................................. 159
Problemas resueltos................................................................................................ 161
Ejercicios propuestos.............................................................................................. 195

CAPTULO 5. MUESTREO SISTEMTICO ............................................................................ 197

Muestreo sistemtico. Especificaciones ................................................................. 199


Estimadores y varianzas ......................................................................................... 200
Relacin entre el muestreo sistemtico y el muestreo aleatorio simple ................. 203
Relacin entre el muestreo sistemtico y el muestreo estratificado ....................... 203
Estimacin de varianzas ......................................................................................... 205
Relacin entre el muestreo sistemtico y el muestreo por conglomerados ............ 206
Problemas resueltos................................................................................................ 207
Ejercicios propuestos.............................................................................................. 224

CAPTULO 6. MUESTREO POR MTODOS INDIRECTOS. RAZN, REGRESIN


Y DIFERENCIA................................................................................................... 225

Estimadores no lineales .......................................................................................... 227


Muestreo por mtodos indirectos. El estimador de razn ...................................... 229
Estimaciones de los parmetros poblacionales basadas en la razn y errores ....... 233
Estimaciones por regresin y errores ..................................................................... 234
Estimaciones por diferencia y errores .................................................................... 237
Estimadores de razn en el muestreo estratificado ................................................ 238
Estimadores de regresin en el muestreo estratificado .......................................... 245
Problemas resueltos................................................................................................ 250
Ejercicios propuestos.............................................................................................. 271
Contenido ix

CAPTULO 7. MUESTREO UNIETPICO DE CONGLOMERADOS ................................. 273

Muestreo unietpico de conglomerados. Estimadores para conglomerados


del mismo tamao y probabilidades iguales....................................................... 275
Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas .................................................................................... 276
Muestreo de conglomerados del mismo tamao con reposicin.
Varianzas de los estimadores y estimacin de las varianzas............................. 280
Muestreo unietpico de conglomerados de distinto tamao .................................. 281
Muestreo unietpico de conglomerados de distinto tamao con
probabilidades desiguales................................................................................... 283
Tamao de la muestra ............................................................................................ 285
Problemas resueltos................................................................................................ 286
Ejercicios propuestos.............................................................................................. 297

CAPTULO 8. MUESTREO BIETPCO DE CONGLOMERADOS...................................... 299

Muestreo bietpico de conglomerados. Estimadores para probabilidades iguales


y conglomerados del mismo tamao .................................................................. 301
Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao .................................................................. 301
Muestreo bietpico de conglomerados de distinto tamao y probabilidades iguales...... 304
Tamao de la muestra en muestreo bietpico ........................................................ 307
Muestreo bietpico con probabilidades desiguales y con reposicin
en 1 etapa. Estimadores, varianzas y su estimacin.......................................... 308
Muestreo bietpico con probabilidades desiguales y sin reposicin
en 1 etapa. Estimadores, varianzas y su estimacin.......................................... 310
Muestreo polietpico .............................................................................................. 312
Diseos complejos. Muestreo bietpico con estratificacin en primera etapa....... 313
Problemas resueltos................................................................................................ 314
Ejercicios propuestos.............................................................................................. 327

CAPTULO 9. MUESTREO BIFSICO Y MUESTREO EN OCASIONES


SUCESIVAS ......................................................................................................... 329

Muestreo bifsico ................................................................................................... 331


Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin
de varianzas ....................................................................................................... 332
Muestreo bifsico para estimadores de razn......................................................... 336
Muestreo bifsico para estimadores de regresin................................................... 337
Muestreo bifsico para estimadores de diferencia ................................................. 338
Mestreo en ocasiones sucesivas ............................................................................. 338
Estimadores de mnima varianza en el muestreo en ocasiones sucesivas ............. 341
Problemas resueltos................................................................................................ 344
Ejercicios propuestos.............................................................................................. 350
x Muestreo estadstico. Conceptos y problemas resueltos

CAPTULO 10. MUESTREO ESTADSTICO MEDIANTE SPSS............................................ 351

SPSS y el muestreo estadstico............................................................................... 353


Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan
de muestreo...................................................................................................... ... 354
Asistente de muestreo: Modificar un plan existente .............................................. 362
Asistente de muestreo: Ejecutar un plan de muestreo dado ................................... 364
Preparacin de una muestra compleja para su anlisis: Creacin de un nuevo
plan de anlisis ................................................................................................... 364
Preparacin de una muestra compleja para su anlisis: Modificar un plan
de anlisis existente............................................................................................ 368
Clculos en muestras complejas: frecuencias, descriptivos, tablas de contingencia
y razones............................................................................................................. 368
INTRODUCCIN

La finalidad esencial de este libro es presentar las tcnicas de muestreo estadstico en su


faceta prctica. Cada captulo comienza con una breve exposicin de los conceptos tericos
a utilizar en los problemas con el objetivo de que no sea necesario recurrir a textos externos
para comprender las herramientas utilizadas en la solucin de los ejercicios. Adems,
determinados ejercicios se refuerzan con aplicaciones informticas para obtener la solucin.
En particular se utilizan Excel y SPSS.

Los ms de 150 problemas que contiene el texto, as como los conceptos tericos, se
dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o
cursan la materia de muestreo estadstico. El libro es tambin de utilidad para los profesionales de
la economa, biologa, botnica, zoologa, marketing, auditora, agronoma, comercio, transporte,
medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se
aplican las tcnicas de muestreo.

En cuanto al contenido, se comienza exponiendo los conceptos iniciales de la teora del


muestreo, para facilitar la situacin del lector en el contexto de la teora de muestras moderna. A
continuacin se presentan los mtodos bsicos para seleccionar la muestra y se desarrollan los
diferentes tipos de muestreo, como muestreo aleatorio simple, muestreo estratificado, muestreo
sistemtico, mtodos indirectos de estimacin por razn, regresin y diferencia, muestreo por
conglomerados unietpico, bietpico y polietpico, los procedimientos para el muestreo bifsico
y los problemas peculiares de las encuestas repetidas.

Los problemas suelen adecuarse en lo posible a situaciones prcticas y la metodo-


loga pretende mantener la secuencia conceptos  aplicaciones, muy til en los mtodos de
enseanza modernos. Comenzar presentando los temas de forma terica, para a continuacin
resolver ejercicios prcticos que ilustran los mtodos tericos, cuya resolucin suele
apoyarse en la medida de lo posible en las herramientas informticas ms adecuadas, es la
secuencia ms lgica a seguir en la didctica de esta materia.
CAPTULO

MUESTREO ESTADSTICO: CONCEPTOS,


ESTIMADORES Y SU DISTRIBUCIN

OBJETIVOS
1. Presentar el concepto de muestreo estadstico en poblaciones finitas.
2. Distinguir claramente los conceptos de poblacin, marco y muestra.
3. Introducir el concepto de estimador y su distribucin en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisin de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisin de los estimadores.
8. Comprender el concepto de estimacin mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimacin por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimacin por intervalos de
confianza.
11. Realizar la estimacin mediante intervalos de confianza.
2 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Conceptos iniciales en la teora del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisin de los estimadores. Comparacin de estimadores.
4. Estimacin por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.
Muestreo estadstico: conceptos, estimadores y su distribucin 3

CONCEPTOS INICIALES EN LA TEORA DEL MUESTREO

Al hablar de mtodos de muestreo nos referimos al conjunto de tcnicas estadsticas que estudian
la forma de seleccionar una muestra lo suficientemente representativa de una poblacin cuya
informacin permita inferir las propiedades o caractersticas de toda la poblacin cometiendo un
error medible y acotable. A partir de la muestra, seleccionada mediante un determinado mtodo
de muestreo, se estiman las caractersticas poblacionales (media, total, proporcin, etc.) con un
error cuantificable y controlable. Las estimaciones se realizan a travs de funciones matemticas
de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la
variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o
errores cuadrticos medios de los estimadores, que miden la precisin de stos. La metodologa
que permite inferir resultados, predicciones y generalizaciones sobre la poblacin estadstica,
basndose en la informacin contenida en las muestras representativas previamente elegidas por
mtodos de muestreo formales, se denomina inferencia estadstica.
Es muy importante tener en cuenta que para medir el grado de representatividad de la
muestra es necesario utilizar muestreo probabilstico. Diremos que el muestreo es probabilstico
cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible
seleccionar, esto es, cuando la seleccin de muestras constituya un fenmeno aleatorio
probabilizable. Dicha seleccin se verificar en condiciones de azar, siendo susceptible de
medida la incertidumbre derivada de la misma. Esto permitir medir los errores cometidos en el
proceso de muestreo (a travs de varianza u otras medidas estadsticas).
Existen varios tipos de muestreo, dependiendo de que la poblacin estadstica sea
finita o infinita, materia sobre la que existe amplia literatura estadstica, pero nosotros
consideraremos solamente el muestreo en poblaciones finitas. La poblacin finita inicial que
se desea investigar se denomina poblacin objetivo, pero el muestreo de toda la poblacin objetivo
no siempre es posible debido a diferentes problemas que no permiten obtener informacin de
algunos de sus elementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar,
ausencias, etc.), con lo que la poblacin que realmente es objeto de estudio o poblacin investigada
no coincide con la poblacin objetivo.
Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo
denominado marco que tericamente debiera coincidir con la poblacin objetivo. Un marco ser
ms adecuado cuanto mejor cubra la poblacin objetivo, es decir, cuanto menor sea el error de
cobertura. Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas
unidades, las duplicaciones de otras y la presencia de unidades extraas y otras impurezas que
obligan a su depuracin (depuracin de marcos imperfectos). Idealmente podra conseguirse la
poblacin objetivo eliminando del marco las unidades errneamente incluidas en l (unidades
extraas, duplicaciones, etc.) y aadiendo las omisiones. Asimismo, tambin sera una meta que al
eliminar del marco las unidades de las que no se puede obtener informacin (inaccesibles, ausentes,
no colaboradoras, etc.) se obtuviera la poblacin investigada. El marco puede estar constituido por
unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la
unidad de muestreo ms sencilla posible y una unidad compuesta (o primaria) est formada por
varias unidades elementales. Como en la prctica no es fcil disponer de marcos de unidades
elementales, se intenta conseguir marcos de unidades compuestas que son ms accesibles. Por
ejemplo, para estudiar habitantes de una regin es ms fcil disponer de un listado de hogares que de
un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de
varios individuos) y despus se estudian las propiedades de los individuos con tcnicas adecuadas.
4 Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO Y ESTIMADORES. DISTRIBUCIONES EN EL MUESTREO

Consideramos los sucesos elementales asociados a un fenmeno o experimento aleatorio dado S1,
S2, ..., Sm, entendiendo por sucesos elementales los ms simples posibles, es decir, aquellos que no
pueden ser descompuestos en otros sucesos. El conjunto {S1, S2, ..., Sm} se denomina espacio
muestral asociado al fenmeno o experimento. Si consideramos como fenmeno o experimento
la extraccin aleatoria de muestras dentro de una poblacin por un procedimiento o mtodo
de muestreo dado, podemos considerar como sucesos elementales las muestras obtenidas,
constituyendo el conjunto de las mismas el espacio muestral.
Habitualmente en los mtodos de muestreo comunes se consideren iguales muestras con
los mismos elementos, aunque estn colocados en orden diferente (el orden de colocacin no
interviene). Una muestra de tamao n extrada de una poblacin U = {U1, U2, ..., UN} de tamao
N mediante un mtodo de muestreo dado, suele denotarse como s = {u1, u2, ..., un}. De esta forma,
El conjunto de las Nn muestras posibles de tamao n que se pueden formar con los N
elementos de la poblacin U es el espacio muestral S.
Evidentemente, para establecer la probabilidad de todas las muestras posibles
derivadas de un procedimiento de muestreo dado, ser necesario conocer ese conjunto de
muestras; es decir, ser necesario delimitar tanto el mtodo de muestreo como el espacio
muestral derivado del mismo. Un procedimiento, o mtodo, de muestreo es sencillamente un
proceso o mecanismo mediante el que se seleccionan las muestras de modo que cada una tenga
una determinada probabilidad de ser elegida. Por tanto, el mtodo aleatorio empleado para
seleccionar la muestra define en el espacio muestral S una funcin de probabilidad P tal que:

P(Si)  0 i
P(S ) = 1
S
i

A partir de una muestra, seleccionada mediante un determinado mtodo de muestreo, se


estiman las caractersticas poblacionales (media, total, proporcin, etc.), con un error cuantificable
y controlable. Las estimaciones se realizan a travs de funciones matemticas de la muestra
denominadas estimadores, que se convierten en variables aleatorias al considerar la variabilidad
de seleccin de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o
errores cuadrticos medios de los estimadores, que miden la precisin de los mismos.
Para formalizar el problema de la estimacin en poblaciones finitas, se considera que
tenemos definida una caracterstica X en la poblacin U que toma el valor numrico Xi sobre la
unidad Ui i = 1, 2 ,..., n. Consideramos ahora una cierta funcin  de los N valores Xi, por
ejemplo, el total poblacional (X1, ...,XN) = Xi para la caracterstica X, o la media poblacional
(X1, ..., XN) = (Xi )/N para la caracterstica X, que suele denominarse parmetro poblacional.
Seleccionamos una muestra s, y a partir de ella queremos estimar el parmetro poblacional 
mediante una funcin  =  (s(X))=  (X1, ..., Xn ), basada en los valores Xi i = 1, 2, ..., n, que toma
la caracterstica X sobre las unidades de la muestra s (por ejemplo, el total muestral  (X1, ..., Xn)
= Xi, o la media muestral  (X1, ..., Xn) = (Xi )/n, para estimar el total poblacional o la media
poblacional, respectivamente. La funcin  que asocia a cada muestra s el valor numrico
 (s(X)) =  (X1, ..., Xn), se denomina estimador del parmetro poblacional . A los valores
 (s(X)) para cada s, se los denomina estimaciones.
Muestreo estadstico: conceptos, estimadores y su distribucin 5

Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi
i = 1, 2, ..., n que toma la caracterstica X sobre las unidades de la muestra s mediante
s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al
procedimiento de muestreo, y los valores que toma la caracterstica X sobre dichas muestras,
se obtiene el conjunto S(X) = {s(X) / sS}. Por tanto, podemos formalizar el concepto de
estimador $ para el parmetro poblacional  definindolo mediante la aplicacin medible:
 : S ( X )  R n  R
( X 1 L X n )  ( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadstico funcin de los valores que
toma la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos
ms sencillos de estimadores de los parmetros poblaciones total poblacional y media
poblacional, tenemos los estimadores total muestral X$ y media muestral X$ , definidos como
se indica a continuacin:

1 : S ( X )  R n  R 2 : S ( X )  R n  R
X1 + L + X n
( X 1 L X n )  1 ( X 1 L X n ) = X 1 + L + X n = X ( X 1 L X n )  2 ( X 1 L X n ) = =X
n
En cuanto a la construccin del estimador, ha de ser tal que la funcin $ que asocia a cada
muestra s el valor numrico $ (s(X)) = $ (X1, ..., Xn) sea calculable y est definida para todas las
muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La
formacin de estimadores no es una operacin independiente del procedimiento de muestreo que se
adopte. Generalmente, para construir estimadores se utiliza el principio de analoga; es decir, se
estima un parmetro poblacional a partir del estimador muestral anlogo. Por ejemplo, para estimar
la media poblacional, la razn poblacional, etc., se utilizan como estimadores sus anlogos
muestrales, es decir, la media muestral, la razn muestral, etc. No siempre estos estimadores por
analoga tienen las propiedades ms deseables, pero suelen ser siempre consistentes, y a veces
puede corregirse su sesgo multiplicndolos por una constante convenientemente elegida.

Distribucin de un estimador en el muestreo


Se denomina distribucin de probabilidad de una variable aleatoria a la funcin que asigna
probabilidad a los valores que puede tomar la variable. Cuando se especifican los posibles valores
de la variable aleatoria y sus probabilidades respectivas, tenemos construido el modelo de
distribucin de probabilidad. En nuestro caso la variable aleatoria es el estimador, y los posibles
valores que puede tomar son las estimaciones, con lo que habremos obtenido la distribucin de
probabilidad en el muestreo para el estimador cuando conozcamos todos los valores posibles del
estimador junto con las probabilidades de que el estimador tome cada valor.

En el prrafo anterior hemos formalizado el concepto de estimador $ para el


parmetro poblacional , definindolo mediante la variable aleatoria (aplicacin medible):
 : S ( X )  R n  R
( X 1 L X n )  ( X 1 L X n ) = t
Sea T = {tR /  (X1, ..., Xn)S(X) que cumple  (X1, ..., Xn) = t}. El conjunto TR
constituye el conjunto de valores del estimador. Ahora vamos a definir las probabilidades de que
el estimador tome estos valores (ley de probabilidad de la variable aleatoria $ ) como sigue:
6 Muestreo estadstico. Conceptos y problemas resueltos

PT(  (X1, ..., Xn ) = t) = P( s ) i


{ S i /  ( S i ( X )) = t }

Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y
por las probabilidades de que el estimador tome esos valores, se lo denomina distribucin del
estimador en el muestreo. A partir de la introduccin del concepto de muestreo probabilstico
y del conocimiento de la distribucin de los estimadores en el muestreo, tanto la teora de la
probabilidad como la inferencia estadstica estn disponibles para ser aplicadas al muestreo.
En todo el desarrollo de este libro se supone la existencia de muestreo probabilstico.

PROPIEDADES Y PRECISIN DE LOS ESTIMADORES.


COMPARACIN DE ESTIMADORES

Como un estimador $ de un parmetro poblacional  es sencillamente una variable


aleatoria unidimensional, nos interesarn sus caractersticas de centralizacin y dispersin,
particularmente su esperanza, su varianza y sus momentos, as como otras medidas relativas
a su precisin.

Precisin de los estimadores


Para analizar la precisin de un estimador suelen utilizarse los conceptos de error de
muestreo (o desviacin tpica), acuracidad (o error cuadrtico medio) y sesgo. Suele
llamarse precisin a la acuracidad, lo que no es del todo correcto, ya que, aunque la
acuracidad sea la magnitud ms general para la medicin de la precisin, hay casos en los
que el anlisis puede realizarse en funcin de otras magnitudes, como el sesgo o la
desviacin tpica. Todas estas magnitudes que influyen en la precisin de un estimador
pueden relacionarse a partir de la descomposicin del error cuadrtico medio en sus
componentes de la forma siguiente:
() () 2
ECM  =  + B  () 2

Por tanto, la acuracidad (error cuadrtico medio) de un estimador se descompone en


la suma del cuadrado del error de muestreo y el cuadrado del sesgo.

En la prctica, se considera que el sesgo de  no es influyente cuando


()
B 
<
1
()
 10
.

Comparacin de estimadores insesgados

Un estimador $ insesgado para el parmetro poblacional  tiene la propiedad de que su


error cuadrtico medio coincide con su varianza, ya que al ser E  =  se tiene: ()
() ( )2
(
V  = E 
E () = E 
 ) 2
= ECM ()

De esta forma los conceptos de acuracidad y error del estimador son similares para
estimadores insesgados. Por tanto, para comparar varios estimadores insesgados $i del
parmetro poblacional  en cuanto a precisin bastar considerar sus errores de muestreo
(i ) = + V (i ) , siendo ms preciso el estimador que menor error de muestreo presente.
Muestreo estadstico: conceptos, estimadores y su distribucin 7

Tambin en el caso de insesgadez el concepto de error relativo de muestreo puede


()
expresarse en trminos de una nica magnitud variable  ya que:

() ()
CV  =
 
E ()
=
()


y al ser  una constante el error relativo est en funcin slo del error de muestreo.

Con lo que resulta que, en el caso de estimadores insesgados, la precisin puede


hacerse depender exclusivamente del error de muestreo  . ()
Comparacin de estimadores sesgados

Para estimadores $ sesgados del parmetro poblacional , la magnitud general para analizar su
precisin es su error cuadrtico medio. Por tanto, para comparar varios estimadores sesgados del
parmetro poblacional  en cuanto a precisin se utilizar el error cuadrtico medio y el
estimador ms preciso ser el que menor error cuadrtico medio presente.

Pero en la prctica el clculo del error cuadrtico medio puede ser problemtico.
Por esta razn, cuando se intentan comparar varios estimadores $i del parmetro
poblacional  todos sesgados, se calcula para cada uno de ellos la cantidad:

( )
B i
( )
i

siendo ms preciso aquel estimador que presenta una relacin del sesgo al error de muestreo
en valor absoluto ms pequea. Tambin puede utilizarse el coeficiente de variacin
()
CV i = (i ) / E (i ) , siendo ms preciso el estimador con menor coeficiente de variacin
(error relativo). Se observa que el denominador del coeficiente de variacin es el valor
esperado del estimador, con lo que el coeficiente de variacin recoge el efecto de un posible
sesgo en el estimador.

Si los estimadores sesgados a comparar tienen todos sesgo despreciable, es decir,


B(i ) / (i ) < 1 / 10 , se compararan como si fuesen insesgados, de acuerdo con lo expresado
en el apartado anterior.

Comparacin de estimadores sesgados e insesgados

Para comparar en cuanto a precisin varios estimadores $i unos sesgados y otros
insesgados del parmetro poblacional , se utilizar el error cuadrtico medio, y el
estimador ms preciso ser el que menor error cuadrtico medio presente. A veces, ante las
dificultades de clculo del error cuadrtico medio se utiliza el coeficiente de variacin
()
CV i = (i ) / E (i ) (que contempla el posible efecto del sesgo en su denominador), siendo
ms preciso el estimador con menor coeficiente de variacin (error relativo).
8 Muestreo estadstico. Conceptos y problemas resueltos

Si los estimadores sesgados tienen todos sesgo despreciable, B(i ) / (i ) < 1 / 10 , se
hara la comparacin global como insesgados de acuerdo con los valores de (i ) .

Cuantificacin de la ganancia en precisin de los estimadores

Para medir la precisin de los estimadores suele utilizarse el error cuadrtico medio,
el error relativo (coeficiente de variacin) o el error de muestreo (desviacin tpica). En cada
caso, la ganancia en precisin estar dada por las respectivas tasas de variacin:

ECM (1 ) CV (1 ) (1 )



1 x100
1 x100
1 x100
ECM ( ) CV ( ) ( )
2 2 2

ESTIMACIN POR INTERVALOS DE CONFIANZA

Al estimar parmetros de la poblacin en estudio basndose en la informacin contenida en la


muestra, pueden usarse los valores puntuales de un estadstico basado en la misma, o puede
utilizarse un intervalo de valores dentro del cual se tiene confianza de que est el valor del
parmetro. En el primer caso estamos ante el proceso de estimacin puntual, en el que
utilizamos directamente los valores de un estadstico, denominado estimador puntual, sobre la
muestra dada (estimaciones puntuales), para estimar los valores poblacionales. En el segundo
caso estamos ante la estimacin por intervalos, donde se calcula un intervalo de confianza en
el que razonablemente cae el valor estimado con un nivel de confianza prefijado.

Obtener una estimacin por intervalos (o definir un intervalo de confianza) para un


parmetro poblacional  al nivel de confianza consiste en hallar un intervalo real para el
que se tiene una probabilidad 1
de que el verdadero valor del parmetro  caiga dentro
del citado intervalo. El valor 1
suele denominarse coeficiente de confianza.

Intervalos de confianza cuando el estimador es insesgado

En este caso se persigue estimar el parmetro poblacional  mediante un intervalo de


confianza basado en el estimador  insesgado para  (E(  ) =  ). Para estimadores
insesgados, es necesario distinguir entre el caso en que la distribucin del estimador es
normal y el caso en que dicha distribucin no puede asegurarse que sea normal.

a) El estimador $ tiene una distribucin normal

El intervalo de confianza para el parmetro poblacional  basado en  ser:

[
(), + ()] con


= FN
1(0,1) 1

2

F es la funcin de distribucin de la normal (0,1), y es el nivel de confianza. Si


realmente es dudoso que $ tenga una distribucin normal, puede utilizarse la distribucin t de
Student con n
1 grados de libertad para calcular el intervalo de confianza para  que, en este
caso, ser:
Muestreo estadstico: conceptos, estimadores y su distribucin 9

[
t (), + t ()] con


t = Ftn

11 1

2

F es la funcin de distribucin de una t de Student con n


1 grados de libertad.

b) El estimador $ no tiene una distribucin normal


El intervalo de confianza, derivado de la desigualdad de Tchevichev, para el parmetro
poblacional  basado en $ que cubre el valor de  con una probabilidad 1
(coeficiente
de confianza), ser:



()
 
, +
()

Este intervalo suele ser ms ancho que el obtenido cuando la distribucin de $ es


normal. A medida que $ se aleja ms de la normalidad, la anchura de este intervalo es
mucho mayor respecto del obtenido para normalidad. Ya sabemos que una estimacin por
intervalos es tanto mejor cuanto ms reducido sea el intervalo de confianza correspondiente;
de ah que la propiedad de normalidad sea muy deseable, pues en este caso los intervalos
obtenidos son muy estrechos, lo que implica una buena estimacin por intervalos.

Intervalos de confianza en estimadores sesgados

El intervalo de confianza para  basado en el estimador $ en presencia del sesgo no


() ()
despreciable B  = E 
 es el siguiente:

[
()
| B() |, + ()
| B() |]

Observamos que se trata de un intervalo no centrado en  y desplazado en la


()
cantidad B  respecto del intervalo sin sesgo, que debe centrarse situndonos en la peor de
las circunstancias, es decir, tomando como extremo fijo del intervalo el ms lejano del centro
 , y calculando el otro extremo por equidistancia al centro. Ante esta situacin, la presencia
()
del sesgo B  origina que el intervalo de confianza para  basado en el estimador  y
centrado en  , tenga una longitud superior al intervalo cuando no hay sesgo. Por tanto, la
presencia de sesgo conduce a una estimacin por intervalos menos precisa.

El intervalo de confinaza ya centrado ser el siguiene:

[
()
| B() |, + ()+ | B() |]

10 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

1.1. Sobre las regiones que componen un determinado pas se mide la variable X=Nmero de
personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones
con probabilidades iniciales de seleccin 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada
regin. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo
muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de
colocacin de sus elementos. Para ello se consideran los estimadores alternativos
MEDIANA y MEDIA ARMNICA. Se pide lo siguiente:

1) Especificar el espacio muestral definido por este procedimiento de muestreo, las


probabilidades asociadas a las muestras y la distribucin en el muestreo de los dos
estimadores. Analizar la precisin de los dos estimadores. Cul de ellos es mejor?

2) Hallar intervalos de confianza para la mediana y la media armnica basados en la


muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( = 0,002).
Como dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal
(0,1). Comentar los resultados relacionndolos con los del apartado 1.

Tenemos un procedimiento de muestreo sin reposicin en el que no interviene el orden de


colocacin de las unidades en las muestras, con lo que el espacio muestral tendr
4
= 6 muestras.
2
A continuacin se especifican las muestras, sus probabilidades y los valores de los
estimadores mediana M y media armnica X H para cada muestra.


S ( X ) P( X ) M XH
(6 4) 3 / 20 5 24 / 5
(6 3) 3 / 20 9/2 4
(6 8) 1 / 15 7 48 / 7
(4 3) 1 / 3 7/2 24 / 7
(4 8) 3 / 20 6 16 / 3
(3 8) 3 / 20 11 / 2 48 / 11

Dado que no hay reposicin y que no importa el orden de colocacin de los


elementos en las muestras (muestras con los mismos elementos colocados en orden diferente
se consideran la misma muestra), las probabilidades de la columna P(X) se han calculado de
la siguiente forma:

1 2 2 1 3
P (6,4) = P{6,4} + P{4,6} = P (6) P (4 / 6) + P (4) P (6 / 4) = + =
6 5 6 4 20
1 2 2 1 3
P (6,3) = P{6,3} + P{3,6} = P (6) P (3 / 6) + P (3) P (6 / 3) = + =
6 5 6 4 20
1 1 1 1 1
P (6,8) = P{6,8} + P{8,6} = P (6) P (8 / 6) + P (8) P (6 / 8) = + =
6 5 6 5 15
Muestreo estadstico: conceptos, estimadores y su distribucin 11

2 2 2 2 1
P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) = + =
6 4 6 4 3
2 1 1 2 3
P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) = + =
6 4 6 5 20
2 1 1 2 3
P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) = + =
6 4 6 5 20
Las probabilidades anteriores tambin pueden calcularse mediante la expresin
P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj)) = PiPj/(1-Pi) + PiPj(1-Pj).

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT(  (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 3 T 24 3
P (M = 5) = P (6,4) =
20 P ( X H =
5
) = P (6,4) =
20

P T ( M 9 3 P T ( X 3
= ) = P (6,3) = = 4) = P (6,3) =
2 20 H
20

P T ( M 1 P T ( X 48 1
= 7) = P (6,8) = H = ) = P (6,8) =
15 7 15
M XH
P T ( M 7 1 P T ( X 24 1
= ) = P (4,3) = H = ) = P (4,3) =
2 3 7 3
3 16 3
P T ( M = 6) = P (4,8) = P T ( X H = ) = P (4,8) =
20 3 20
T 11 3 T 48 3
P ( M = ) = P (3,8) = P ( X H = ) = P (3,8) =
2 20 11 20

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
mediana y media armnica poblacionales como sigue:
4
M = (4 + 6) / 2 = 5 XH = = 4,57
1/ 6 + 1/ 4 + 1/ 3 + 1/ 8
Ahora, para comprobar la insesgadez, hallamos la esperanza de los estimadores:
3 9 3 1 7 1 3 11 3
E ( M ) = 5 + + 7 + + 6 + = 4,78  X = 5
20 2 20 15 2 3 20 2 20

24 3 3 48 1 24 1 16 3 48 3
E( X H ) = + 4 + + + + = 4,37  X H = 4,57
5 20 20 7 15 7 3 3 20 11 20

Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:

B(M ) = E( X )
X = 4,78
5 =
0,22 B( X H ) = E( X H )
X H = 4,37
4,57 =
0,2

Ahora calculamos las varianzas de los dos estimadores como sigue:


3 9 3 1 7 1 3
V (M ) = E (M
4,78) 2 = (5
4,78) 2 + (
4,78) 2 + (7
4,78) 2 + (
4,78) 2 + (6
4,78) 2
20 2 20 15 2 3 20
11 3
+ (
4,78) 2 = 1,19
2 20
12 Muestreo estadstico. Conceptos y problemas resueltos

24 3 3 48 1
V ( X H ) = E ( X H
4,37) 2 = (
4,37) 2 + (4
4,37) 2 + (
4,37) 2
5 20 20 7 15
24 1 16 3 48 3
+ (
4,37) 2 + (
4,37) 2 + (
4,37) 2 = 0,89
7 3 3 20 11 20

Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a travs
B i ( )
del error cuadrtico medio, pero antes se deben calcular las cantidades
i ( )
para ver si el

sesgo es o no despreciable. Tenemos:

B(M ) 0,22 B(X H ) 0,2


= = 0.2, = = 0,2
(M ) 1,19
(XH ) 0,89

Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningn caso (los dos estimadores son igualmente precisos segn la razn del sesgo a la
desviacin tpica). Calculamos ahora los errores cuadrticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qu estimador es mejor.
3 9 3 1 7 1 3 11 3
ECM(M ) = E(M
5)2 = (5
5)2 + (
5)2 + (7
5)2 + (
5)2 + (6
5)2 + (
5)2 = 1,24
20 2 20 15 2 3 20 2 20

24 3 3 48 1 24 1
ECM( X H ) = E( X H
4,57)2 = (
4,57)2 + (4
4,57)2 + (
4,57)2 + (
4,57)2
5 20 20 7 15 7 3
16 3 48 3
+ (
4,57)2 + (
4,57)2 = 0,93
3 20 11 20

El mejor estimador resulta ser la media armnica porque tiene menor error
cuadrtico medio. Para cuantificar las ganancias en precisin calculamos:
1, 24

1 100 = 33 ,33
0 ,93

Se observa que el uso de la media armnica mejora en un 33,33% la estimacin a


partir de la mediana.

Para calcular los intervalos de confianza par la mediana y la media armnica


basados en la muestra de mayor probabilidad (4,3), una vez que ya sabemos que son
sesgados con sesgo influyente (no despreciable), utilizamos la expresin:

() () () ()
[

| B  |,  +  + | B  |]

Tenemos:

M  [7 / 2
3 1,19
|
0,22 |, 7 / 2 + 3 1,19 + |
0,22 |] = [0,004, 6,99]
X H  [24 / 7
3 0,89
|
0,2 |, 24 / 7 + 3 0,89 + |
0,2 |] = [0,39, 6,45]

Se observa que el intervalo ms estrecho es el relativo a la media armnica, ya que


es el estimador ms preciso.
Muestreo estadstico: conceptos, estimadores y su distribucin 13

Los clculos pueden automatizarse con EXCEL como sigue:

Los resultados son los siguientes:


14 Muestreo estadstico. Conceptos y problemas resueltos

1.2. Dada la poblacin {U1, U2, U3, U4, U5} seleccionamos muestras de tamao 3 por el siguiente
mtodo de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se
extraen al azar dos bolas mediante muestreo aleatorio sin reposicin con probabilidades
iguales, y a continuacin, de otro recipiente con dos bolas numeradas con el 4 y el 5 se
extrae una bola. Se supone que extraer la bola i-sima equivale a elegir para la muestra la
unidad Ui. Consideramos los estimadores por analoga siguientes:

T1 = Proporcin de subndices pares en la muestra


T2 = Total de subndices impares en la muestra

1) Hallar las distribuciones en el muestreo de T1 y T2 y sus varianzas, sesgos y errores


cuadrticos medios.

2) Comparar las precisiones de los estimadores anteriores cuantificando las ganancias en


precisin tanto por la va de la estimacin puntual como por la va de la estimacin por
intervalos al 95%. Comentar los resultados.

Para hallar el espacio muestral asociado a este procedimiento de muestreo consideramos la


urna U1 con tres bolas y la urna U2 con dos bolas.

1, 2 , 3 4, 5

U1 U2

Como en la urna U1 seleccionamos dos bolas sin reposicin, las posibilidades son
(A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se
selecciona una bola en la urna U2, las posibles muestras de tres elementos sern (A1 A2 A4),
(A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5).

Las probabilidades de las muestras se calculan como se indica a continuacin:

P(A1 A2 A4) = P(A1 A2 /U1)P(A4/U2) + P(A2 A1/U1)P(A4/U2) = P1(A1)P1(A2/A1)P2(A4) +


P1(A2 )P1(A1 / A2)P2(A4) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6

P(A1 A2 A5) = P(A1 A2/U1)P(A5/U2) + P(A2 A1/U1)P(A5/U2) = P1(A1 )P1(A2/A1)P2(A5) +


P1(A2)P1(A1/A2)P2(A5) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6

El clculo de las probabilidades de las restantes muestras es similar, y el valor es 1/6


para todas ellas; es decir, estamos ante un mtodo de seleccin con probabilidades iguales. Ya
podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los
valores de los dos estimadores del problema sobre las mismas T1 y T2 , datos que van a
permitirnos el clculo de las distribuciones en el muestreo de los estimadores. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores de los estimadores para cada
muestra.
Muestreo estadstico: conceptos, estimadores y su distribucin 15

S_ X Pi T1 T2
A1 A 2 A 4 1/ 6 2/3 1
A1 A 2 A 5 1/ 6 1/ 3 2
A1 A 3 A 4 1/ 6 1/ 3 2
A1 A 3 A 5 1/ 6 0 3
A 2 A3 A 4 1/ 6 2/3 1
A 2 A3 A5 1/ 6 1/ 3 2

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT(  (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 1 1 T 1 1
P (T 1= 2 / 3) = 2 6 = 3 P (T 2 = 1) = 2 6 = 3

1 1 1 1

T1 P T (T 1= 1 / 3) = 3 = T1 P T (T 2 = 2) = 3 =

6 2 6 2
T 1 T 1
P (T 1= 0) = 6 P (T 2 = 3) = 6

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
proporcin de subndices pares de la poblacin 1 y del total de subndices impares de la poblacin
2, que son los parmetros que estamos estimando con los estimadores T1 y T2 , respectivamente.
Se tiene:

1 = 2/3 2 = 3

Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los


estimadores tal y como se indica a continuacin:
2 1 1 1 1
E(T1 ) = + + 0 = 7 / 18 = 0,388888888 2 / 5 = 1
3 3 3 2 6
1 1 1
E(T2 ) = 1 + 2 + 3 = 11 / 6 = 1,8333333333 3 =  2
3 2 6

El estimador T1 es sesgado con sesgo B( T1 ) = E( T1 )


1=7/18
2/5 =
1/90 =

0,0111, y el estimador T2 tambin es sesgado con sesgo B( T2 ) = E( T2 )


2 = 11/6
3 =

7/6 =
1,16666. Las varianzas de los estimadores son:
2 1 1 1 1
V (T1 ) = (
0,388 ) 2 + (
0,388 ) 2 + (0
0,388 ) 2 = 0,0524
3 3 3 2 6
1 1 1
V (T2 ) = (1
1,833 ) 2 + ( 2
1,833 ) 2 + (3
1,833 ) 2 = 0,4722
3 2 6
Con lo que las desviaciones tpicas valdrn:
(T1 ) = 0,0524 = 0,2289 y (T2 ) = 0,4722 = 0,687
16 Muestreo estadstico. Conceptos y problemas resueltos

Como |B( T1 )/ ( T1 )| = 0,0485 < 1/10, el sesgo del estimador T1 es despreciable, por lo
que este puede considerarse a todos los efectos insesgado. Como |B( T )/ ( T )| = 1,69 > 1/10
2 2

el sesgo del estimador T2 no es despreciable, y como un estimador es sesgado y el otro


insesgado, la comparacin de estimadores puede hacerse a travs de los errores cuadrticos
medios. Tenemos:
2 1 1 1 1
ECM (T1 ) = (
0,4) 2 + (
0, 4) 2 + (0
0, 4) 2 = 0,0526
3 3 3 2 6
1 1 1
ECM (T2 ) = (1
3) 2 + ( 2
3) 2 + (3
3) 2 = 1,833
3 2 6

Se observa que el error cuadrtico medio de T1 es prcticamente igual que su


varianza, dado que es prcticamente insesgado. Evidentemente el mejor estimador es T , 1

pues su error cuadrtico medio es mucho menor que el de T2 . La ganancia en precisin por
usar T en vez de T es:
1 2

GP = (EMC( T2 )/EMC( T1 )
1)*100 = (1,833/0,0526
1)*100 = 3385,9%

Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la primera


muestra y suponiendo normalidad en la poblacin se utilizar la frmula:

( ) ( )
[T1
T1 , T1 + T1 ] = [2 / 3
1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15]

Para el resto de las muestras se realizan clculos similares.


Se puede suponer normalidad en la poblacin porque el coeficiente de asimetra g1 y el
coeficiente de curtosis g2 de T1 caen en el intervalo [-2,2]. El coeficiente de asimetra depende
del momento de tercer orden centrado en la media m3 y el coeficiente de curtosis depende
del momento de orden 4 centrado en la media m4 y se calculan como sigue:

g1 = m3/ 3 =
0,0027/0,2293 = 0,22
g2 = m4/ 4
3 =
0,0058/0,2294
3 =
0,89
2 1 1 1 1
m 3(T1 ) = (
0,388 ) 3 + (
0,388 ) 3 + (0
0,388 ) 3 = 0, 22
3 3 3 2 6
2 1 1 1 1
m 4(T1 ) = (
0,388 ) 4 + (
0,388 ) 4 + (0
0,388 ) 4 =
0,89
3 3 3 2 6

Si no hubiera habido normalidad, el intervalo de confianza para T1 se habra calculado


como sigue:


T1

( ), T1 +
( )
T1 T1
= 2 / 3

0,229
, 2/3+
0,229
= [0.357, 1.69]
0,05 0,05

Se observa que el intervalo de confianza para T1 sin existir normalidad es ms ancho,


es decir, es menos preciso.
Muestreo estadstico: conceptos, estimadores y su distribucin 17

Para hallar un intervalo de confianza para T2 (que es sesgado) basado en la primera


muestra, realizamos los siguientes clculos:

() () () ()
[T2
T2
| B T2 |, T2 + T2 + | B T2 |] = [1
1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [
1.513, 3.513]

Se observa que el intervalo de confianza del estimador menos preciso es ms ancho.


Los clculos pueden automatizarse con Excel como sigue:
18 Muestreo estadstico. Conceptos y problemas resueltos

1.3. En una poblacin de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamao 2
mediante el siguiente mtodo de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3), y se
extraen de la poblacin las dos unidades que tengan los mismos nmeros que las dos bolas
extradas. Se pide:

1) Considerando la extraccin de las bolas en la urna con reposicin y el estimador por analoga
T= Nmero de unidades distintas en las muestras, hallar su distribucin en el muestreo
analizando su precisin. Obtener una estimacin puntual del nmero de unidades distintas en
la poblacin y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basndose en la
muestra de mayor probabilidad.

2) Contestar a las preguntas del apartado anterior suponiendo que la extraccin de las bolas en la
urna sin reposicin. Comparar las estimaciones en los dos casos comentando los resultados.

Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposicin
consideramos la urna U con 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el
nmero 3).

1 2

1 1 2
U

Como en la urna U seleccionamos dos bolas sin reposicin, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).

Las probabilidades de las muestras se calculan como se indica a continuacin:

3 2 1
P(1,1) = P1 (1) + P2 (1 / 1) = =
6 5 5
3 2 2 3 2
P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) = + =
6 5 6 5 5
3 1 1 3 1
P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) = + =
6 5 6 5 5
2 1 1
P(2,2) = P1 (2) P2 (2 / 2) = =
6 5 15
2 1 1 2 2
P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) = + =
6 5 6 5 15

Los ndices 1 y 2 de las probabilidades indican primera y segunda extraccin,


respectivamente. Las barras inclinadas indican condicionada a que se haya obtenido en la
primera extraccin el nmero que aparece en el denominador.
Muestreo estadstico: conceptos, estimadores y su distribucin 19

Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.

Muestras
S_X Pi T
( sin reposicn )
1 (1,1) 1/ 5 1
2 (1, 2 ) 2/5 2
3 (1,3) 1/ 5 2
4 ( 2, 2 ) 1 / 15 1
5 ( 2 ,3 ) 2 / 15 2

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante


la expresin ya conocida PT(  (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 1 1 4
P (T = 1) = 5 + 15 = 15
T
P T (T = 2) = 2 + 1 + 2 = 11
5 5 15 15

Una vez conocida la distribucin de probabilidad en el muestreo del estimador


analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades
distintas en la poblacin es  = 3, que es el parmetro que estamos estimando con el estimador T.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador
tal y como se indica a continuacin:

4 11
E (T ) = 1 + 2 = 26 / 15 = 1,7333333333  3 = 
15 15
El estimador T es sesgado con sesgo B(T)=E(T)
 = 26/15-3 =
19/15 =
1,26666.
La varianza del estimador es la siguiente:

4 11
V (T ) = (1
1,733 ) 2 + ( 2
1,733 ) 2 = 0,1955
15 15

Con lo que las desviaciones tpicas valdrn:

(T ) = 0,1955 = 0,442
Como |B(T)/ (T)| = 1,266/0,442 = 2,864 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
4 11
ECM (T ) = (1
3) 2 + ( 2
3) 2 = 1,8
15 15
20 Muestreo estadstico. Conceptos y problemas resueltos

Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda


muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3 * 0,442
1,26 + 3 * 0,442 + 1,26] = [
0,593, 4,593]

Los clculos pueden automatizarse con Excel como sigue:

Cuando en la urna U seleccionamos dos bolas con reposicin, las posibilidades


son (1,1), (1,2), (1,3), (2,2), (2,3) y (3,3).
Muestreo estadstico: conceptos, estimadores y su distribucin 21

Las probabilidades de las muestras se calculan como se indica a continuacin:

3 3 1
P(1,1) = P(1) P(1) = =
6 6 4
3 2 1
P(1,2) = 2 P(1) P(2) = 2 =
6 5 3
3 1 1
P(1,3) = 2 P(1) P(3) = 2 =
6 6 6
2 2 1
P(2,2) = P(2) P(2) = =
6 6 9
2 1 1
P(2,3) = 2 P(2) P(3) = 2 =
6 6 9
1 1 1
P(3,3) = P(3) P(3) = =
6 6 36

Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.

Muestras
S_X Pi T
( con reposicin )
1 (1,1) 1/ 4 1
2 (1, 2 ) 1/ 3 2
3 (1,3) 1/ 6 2
4 ( 2, 2 ) 1/ 9 1
5 ( 2,3) 1/ 9 2
6 (3,3) 1 / 36 1

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante


la expresin ya conocida PT(  (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 1 1 1 7
P (T = 1) = 4 + 9 + 36 = 18
T
P T (T = 2) = 1 + 1 + 1 = 11
3 6 9 18

Una vez conocida la distribucin de probabilidad en el muestreo del estimador


analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades
distintas en la poblacin es  = 3, que es el parmetro que estamos estimando con el estimador T.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador
tal y como se indica a continuacin:
22 Muestreo estadstico. Conceptos y problemas resueltos

7 11
E (T ) = 1 + 2 = 29 / 18 = 1,611111 3 = 
18 18
El estimador T es sesgado con sesgo B(T)=E(T)- = 29/18-3 = -25/18=-1,3888. La
varianza del estimador es la siguiente:

7 11
V (T ) = (1
1,6111) 2 + ( 2
1,6111) 2 = 0,237
18 18

Con lo que las desviaciones tpicas valdr:

(T ) = 0,237 = 0,486
Como |B(T)/ (T)| = 1,388/0,486 = 2,85 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
7 11
ECM (T ) = (1
3) 2 + ( 2
3) 2 = 2,1666
18 18
Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda
muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3* 0,486
1,38 + 3* 0,486+1,38] = [
0,851, 4,851]

Los clculos pueden automatizarse con Excel como sigue:


Muestreo estadstico: conceptos, estimadores y su distribucin 23

Para comparar las estimaciones con y sin reposicin observamos los errores
cuadrticos medios, resultando que el mtodo sin reposicin tiene menor error cuadrtico
medio, lo que indica que es mejor mtodo de estimacin.
La ganancia en precisin por trabajar sin reposicin en vez de con reposicin se
cuantifica como sigue:
GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37%
Se ve que la precisin mejora un 20,37% en caso de usa seleccin sin reposicin.
Adems, tambin se observa que el intervalo de confianza del estimador menos preciso (con
reposicin) es ms ancho.
1.4. Con la finalidad de ensayar el anlisis de la divisibilidad en una poblacin numrica,
consideramos una poblacin virtual finita con 6 elementos U = {12, 13, 17, 23, 6, 1}.
Mediante un mtodo de muestreo aleatorio con probabilidades iguales y sin reposicin se
extraen muestras de tamao 2 sin tener en cuenta el orden de colocacin de sus elementos.
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras.
2) A partir de las muestras del espacio muestral se trata de estimar el parmetro poblacional
PROPORCIN DE NMEROS PRIMOS mediante el estimador por analoga y el
parmetro poblacional TOTAL DE NMEROS PRIMOS mediante el estimador de
expansin de la proporcin por el tamao poblacional (producto del estimador de la
proporcin por el tamao poblacional). Hallar la distribucin en el muestreo de dichos
estimadores. Qu estimador es mejor? Comparar el estimador de expansin del total
con el estimador por analoga.

3) Hallar intervalos de confianza al 99% ( = 0.01) para el total y la proporcin de


nmeros primos en la poblacin, basados en las muestras cuyos dos elementos son
nmeros no primos. Tenemos como dato conocido que F-1(0.995)= 2.57, siendo F la
funcin de distribucin de la normal (0,1). Comentar los resultados.

Como se trata de muestreo aleatorio sin reposicin en el que el orden de colocacin de


los elementos en las muestras de tamao 2 no interviene, el nmero de muestras posibles ser:
24 Muestreo estadstico. Conceptos y problemas resueltos

6
=15
2
Por otra parte, en este problema estamos considerando la clase A de los nmeros
primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen
uno cuando Ui es primo. Luego sobre el conjunto Ui{2, 13, 17, 23, 6, 1} se mide la variable
A y se obtiene el conjunto Ai{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin
reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos
de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier
muestra puede hallarse mediante la expresin:

P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1


P(ui)) + P(uj)P(ui)/(1
P(uj))) =
(1/62)/(1
1/6) + (1/62)/(1
1/6) = 2(1/62)/(1
1/6) = 1/15
Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.
A continuacin se presenta la tabla que contiene el espacio muestral, las
probabilidades de las muestras y la distribucin de los estimadores.

TOTAL ( A = 6 P ) TOTAL ( T = 2 P )
S1_X S2_X P_X PROPORCIN ( P ) EXPANSIN MUESTRAL
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 0 1/15 0 0 0
0 1 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
0 1 1/15 0,5 3 1

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT(  (X1, ..., Xn ) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 1 2 T 1 2 T 1 2
P ( P = 1) = 6 15 = 5 P ( A = 6) = 6 15 = 5 P (T = 2) = 6 15 = 5

1 8 1 8 1 8
P P T ( P = 1 / 2) = 8 = A P T ( A = 3) = 8 = T P T (T = 1) = 8 =
15 15 15 15 15 15
T 1 T 1 T 1
P ( P = 0) = 15 P ( A = 0) = 15 P (T = 0) = 15

Muestreo estadstico: conceptos, estimadores y su distribucin 25

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
proporcin de nmeros primos de la poblacin 1 = 2/3 y del total de nmeros primos de la
poblacin 2 = 4.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los
estimadores tal y como se indica a continuacin:

2 1 8 1
E( P ) = 1 + + 0 = 2 / 3 = 0,6666 = 1
5 2 15 15
2 8 1
E( A ) = 6 + 3 + 0 = 6E( P ) = 4 =  2
5 15 15
2 8 1
E(T ) = 2 + 1 + 0 = 2E( P ) = 4 / 3 = 1,33333  4 =  2
5 15 15

Se observa que P es insesgado para 1 y A e insesgado para 2. El estimador T es


sesgado para 2 con sesgo B( T ) = E( T )
2 = 4/3
4 =
8/3 =
2,66. Para calcular las
varianzas de los estimadores se tiene en cuenta que A = 6 P y que T = 2 P .
2 1 8 1
V ( P ) = (1
0,666) 2 + (
0,666) 2 + (0
0,66) 2 = 0,088888
5 2 15 15
V ( A ) = V (6P ) = 36V ( P ) = 3,2
V (T ) = V (2P ) = 4V ( P ) = 0,35555
Con lo que las desviaciones tpicas valdrn:
( P ) = 0,088888 = 0,298, ( A ) = 3,2 = 1,7888 y (T ) = 0,35555 = 0,596

Como los estimadores P y A son insesgados, su varianza coincide con su error cuadrtico
medio, por lo que su precisin se mide a travs de la varianza. De esta forma, el estimador P para
estimar 1 es ms preciso que el estimador A para estimar 2 por tener menor varianza.

Como |B( T )/ ( T )| = 4,46 > 1/10, el sesgo del estimador T no es despreciable y al


compararlo con A tenemos un estimador sesgado y el otro insesgado. La comparacin debe
hacerse a travs de los errores cuadrticos medios. Tenemos:
2 1 8 1
ECM (T ) = (1
4 / 3) 2 + (
4 / 3) 2 + (0
4 / 3) 2 = 0,53333 > ECM ( A ) = V ( A ) = 3,2
5 2 15 15
Se observa que el error cuadrtico medio de T es mayor que la varianza de A , luego
A es ms preciso que T para estimar 2. Por lo tanto, el estimador de expansin del total es
ms preciso que el estimador por analoga.
Para el clculo de las estimaciones por intervalos (intervalos de confianza de los
estimadores) es til poder suponer que A se distribuye normalmente. Como el coeficiente de
asimetra de A vale
0,96 y el de curtosis
1,87, puede ser lgico suponer la normalidad, ya que
ambos coeficientes se encuentran en el intervalo [
2,2]. Sin embargo, como el extremo inferior
est muy cerca de
2, para aceptar esta suposicin ser necesario realizar un contraste formal de
normalidad. Por lo tanto, hallamos los intervalos de confianza bajo las dos hiptesis (normalidad
y no normalidad en la poblacin).
26 Muestreo estadstico. Conceptos y problemas resueltos

Los coeficientes de asimetra g1 y curtosis g2 de A se calculan como sigue:

m3
1
6
[
2(0
2 / 3) 3 + 4(1
2 / 3) 3 ]
g1 = = = 0,968
3 1
3


6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ]

m4
1
6
[
2(0
2 / 3) 4 + 4(1
2 / 3) 4 ]
g2 =
3 =
3 =
1,875
4 1
4


6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ]

Supuesta la no normalidad de A, para hallar un intervalo de confianza para la


proporcin P al 99%, basado en la nica muestra (0,0) correspondiente al nico par de
elementos ambos no primos (12,6), utilizamos el intervalo:

( P ) ( P ) 0, 298 0, 298
P
,P+ = 0
,0+ = [
2 .98 , 2 .98 ]
0,01 0,01

Si se hubiera supuesto normalidad el intervalo de confianza para P al 99% sera:

[ P
( P ), P + ( P ) = [0
2,57 0,298, 0 + 2,57 0,298] = [
0.766, 0.766 ]

Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho


(ms preciso) que sin normalidad.
Dada la no normalidad de A, para hallar un intervalo de confianza para el total de
clase A al 99%, basado en la nica muestra (0,0) correspondiente al nico par de elementos
ambos no primos (12,6), utilizamos el intervalo:

( A ) ( A ) 1,7888 1,7888
A
, A+ = 0
,0+ = [
17 .8, 17 .8]
0,01 0,01

Si se hubiera supuesto normalidad el intervalo de confianza para A al 99% sera:

[ A
( A ), A + ( A ) = [0
2,57 1,7888 , 0 + 2,57 1,7888 ] = [
4.59, 4,59 ]

Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho


(ms preciso) que sin normalidad.

Adems, se observa que los intervalos de confianza para P son ms estrechos que los
correspondientes intervalos de confianza para A , lo que concuerdo con la superior precisin del
estimador P .

Los clculos pueden automatizarse con Excel como sigue:


Muestreo estadstico: conceptos, estimadores y su distribucin 27
28 Muestreo estadstico. Conceptos y problemas resueltos

1.5. Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 ltimos
meses fueron los siguientes:
X 3 4 2 2,5 3,5 4,5
Y 6 7 4 5 6,5 8

Se extraen muestras aleatorias simples de dos meses sin reposicin y con probabilidades
iguales y se pide:
1) Distribucin en el muestreo de los estimadores por analoga del gasto total y del
estimador por analoga de la proporcin que significan los gastos en los ingresos (razn
de gastos totales sobre ingresos totales). Qu estimador es mejor? Calcular la ganancia
en precisin y expresar los resultados en trminos de intervalos de confianza al 95%
basados en la muestra de mayor total.
2) Distribucin en el muestreo de los estimadores del gasto total siguientes:
Estimador de expansin del gasto total.
Proporcin de los gastos en los ingresos por el ingreso total poblacional

Qu estimador es mejor?

Como se trata de muestreo aleatorio sin reposicin en el que se supone que el orden de
colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras
6
posibles, tanto para X como para Y, ser =15.
2

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier muestra, tanto para X como para Y, puede
hallarse mediante:

P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1


P(ui)) + P(uj)P(ui)/(1
P(uj))) =

(1/62)/(1-1/6) + (1/62)/(1-1/6) = 2(1/62)/(1-1/6) = 1/15 = 0,066666

Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.

A continuacin se presenta la tabla que contiene, para X y para Y, el espacio muestral,


las probabilidades de las muestras y la distribucin de los estimadores.

Denominamos GTOTAL al estimador por analoga del gasto total (total muestral del
gasto) y RAZN al estimador por analoga de la proporcin que significan los gastos en los
ingresos (total muestral del gasto entre total muestral del ingreso). Se tendr presente que el
estimador expandido del gasto total es el producto del tamao poblacional por la media
muestral del gasto (GTOTALEXP = 6(GTOTAL/2) = 3GTOTAL) y que la proporcin de los
gastos en los ingresos por el ingreso total poblacional es TOTAL = (36,5)RAZN. En los
estimadores, para las cuatro primeras filas de la tabla se indican todas las operaciones y para el
resto de las filas las operaciones son similares y se indican slo los resultados.
Muestreo estadstico: conceptos, estimadores y su distribucin 29

GTOTALEXP TOTAL
S1_X S2_X S1_Y S2_Y P=PX=PY GTOTAL RAZN (3*GTOTAL) (36,5*RAZN)
3 4 6 7 1/15 7=3+4 0,53=(3+4)/(6+7) 21=3*7 19,65=36,5*0,53
3 2 6 4 1/15 5=3+2 0,5=(3+2)/(6+4) 15=3*5 18,25=36,5*0,5
3 2,5 6 5 1/15 5,5=3+2,5 0,5=(3+2,5)/(6+5) 16,5=3*5,5 18,25=36,5*0,5
3 3,5 6 6,5 1/15 6,5=3+3,5 0,52=(3+3,5)/(6+6,5) 19,5=3*6,5 18,98=36,5*0,52
3 4,5 6 8 1/15 7,5 0,535714286 22,5 19,55357143
4 2 7 4 1/15 6 0,545454545 18 19,90909091
4 2,5 7 5 1/15 6,5 0,541666667 19,5 19,77083333
4 3,5 7 6,5 1/15 7,5 0,555555556 22,5 20,27777778
4 4,5 7 8 1/15 8,5 0,566666667 25,5 20,68333333
2 2,5 4 5 1/15 4,5 0,5 13,5 18,25
2 3,5 4 6,5 1/15 5,5 0,523809524 16,5 19,11904762
2 4,5 4 8 1/15 6,5 0,541666667 19,5 19,77083333
2,5 3,5 5 6,5 1/15 6 0,52173913 18 19,04347826
2,5 4,5 5 8 1/15 7 0,538461538 21 19,65384615
3,5 4,5 6,5 8 1/15 8 0,551724138 24 20,13793103

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores


compararemos en primer lugar el estimador GTOTAL (que estima el gasto total poblacional 1) y
RAZN (que estima la proporcin de los gastos totales sobre los ingresos totales en la poblacin 2).
Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores
tal y como se indica a continuacin:
15
1 1 1
E (GTOTAL) = GTOTAL P = 7 15 + 5 15 + L + 8 15 = 6,5  19,5 = 
i =1
i i 1

15
1 1 1
E ( RAZN ) = RAZN P = 0,53 15 + 0,5 15 + L + 0,55 15 = 0,53206  0,53424 = 
i =1
i i 2

Para calcular los sesgos se observa que B(GTOTAL) = E(GTOTAL)


1 = 6,5
19,5 =
13
y B(RAZN) = E(RAZN)
2 = 0,53206
0,53424 =
0,00218. A continuacin se calculan las
varianzas de los estimadores.
15
1 1
V (GTOTAL) = (GTOTAL
i =1
i
E (GTOTAL) ) Pi = (7
6,5) 2
2

15
+ L + (8
6,5) 2 = 1,1666
15
15
1 1
(RAZN )
2
V ( RAZN ) = i
E ( RAZN ) Pi = (0,53
0,532) 2 + L + (0,55
0,532) 2 = 0,000399
i =1 15 15

Con lo que las desviaciones tpicas valdrn:


(GTOTAL) = 1,1666 = 1,08, ( RAZN) = 0,000399 = 0,0199
Como |B(GTOTAL)/ (GTOTAL)| = 12,03 > 1/10, el sesgo del estimador GTOTAL no
es despreciable y como |B(RAZN)/ (RAZN)| = 0,1  1/10, el sesgo de RAZN es
despreciable y a todos los efectos este estimador es insesgado. Al comparar RAZN con
GTOTAL tenemos un estimador sesgado y el otro insesgado. La comparacin debe hacerse a
travs de los errores cuadrticos medios. Tenemos:
30 Muestreo estadstico. Conceptos y problemas resueltos

15
1 1
ECM (GTOTAL) = (GTOTAL
i =1
i
 1 ) Pi = (7
19,5) 2
2

15
+ L + (8
19,5) 2 = 170,166
15
ECM ( RAZN ) = V ( RAZN ) = 0,00399

Como el estimador RAZN es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador RAZN
para estimar 2 es ms preciso que el estimador GTOTAL para estimar 1 por tener menor error
cuadrtico medio.

La ganancia en precisin de RAZN respecto de GTOTAL se cuantifica como sigue:


GP = (EMC (GTOTAL)/EMC (RAZN)
1)100 = (170,166/0,00399-1)100 = 42045172,1%

El intervalo de confianza para GTOTAL (sesgado) basado en la muestra de mayor total


al 95% es el siguiente:

() () () ()
[

| B  |, +  + | B  |] = [8,5
1,96 1,08
13, 8,5 + 1,96 1,08 + 13] = [
6.61, 23.61]

Suponiendo normalidad el intervalo de confianza para RAZN (insesgado) al 95%


basado en la muestra de mayor total sera:

() ()
[
 ,  +  ] = [0,566
1,96 0,0199, 0,566+1,96 0,0199] = [0.527, 0.605]

Se observa que el intervalo de confianza relativo a RAZN es bastante ms estrecho


(ms preciso) que el relativo a GTOTAL. Esta fuerte diferencia de anchuras de intervalos est
en lnea con la cuanta tan fuerte de ganancia en precisin de RAZN sobre GTOTAL.

Para comparar los estimadores del gasto total GTOTAEXP y TOTAL, observamos
que GTOTALEXP = 3GTOTAL y TOTAL = (36,5)RAZN. Tenemos:

E(GTOTALEXP) = 3E(GTOTAL) = 3(6,5) = 19,5 = 1

E(TOTAL) = (36,5)E(RAZN) = (36,5)(0,532) = 19,42  1

V(GTOTALEXP) = 9V(GTOTAL) = 9(1,166) = 10,5

V(TOTAL) = (36,52)V(RAZN) = (36,52)0,000399 = 0,539

Los dos estimadores han resultado ser insesgados, con lo que ser ms preciso el que
tenga menor varianza; es decir, TOTAL es ms preciso que GTOTALEXP.

A continuacin se presentan los clculos anteriores automatizados a travs de Excel.


Las hoja de Excel con las frmulas se ha dividido en dos trozos debido a la extensin de los
clculos necesarios.

A continuacin de las dos hojas de frmulas se presenta la hoja de resultados.


Muestreo estadstico: conceptos, estimadores y su distribucin 31
32 Muestreo estadstico. Conceptos y problemas resueltos

1.6. Consideramos una poblacin virtual para simulacin formada por 10 individuos agrupados
en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla
adjunta:

HOGARES  H1 H2 H3 H4
--
INGRESOS (Xi)  1, 2, 3 4, 6 9, 11 2, 2, 5

Se considera un procedimiento de muestreo que consiste en elegir cada hogar con


probabilidades proporcionales a sus tamaos. Se considera el estimador T1 = Ingreso medio
de los hogares, para estimar el ingreso medio poblacional, y se considera el estimador T2 =
Ingreso total de los hogares, para estimar el ingreso total poblacional. Se pide:

1) Especificar el espacio muestral relativo a este procedimiento de muestreo y las


probabilidades asociadas a las muestras. Hallar tambin las distribuciones de
probabilidad en el muestreo de los estimadores T1 y T2. Cul de ellos es mejor?
Razonar la respuesta y cuantificar la ganancia en precisin.

2) Hallar un intervalo de confianza para el ingreso medio al nivel = 0,002 basado en el


subconjunto de mayor total. Se sabe que F-1 (0,999) = 3, siendo F la funcin de
distribucin de una Normal (0,1). Hallar tambin un intervalo de confianza del 95% para
el ingreso total basado en el subconjunto de mayor media. Se sabe que F-1 (0,975) = 2,
siendo F la funcin de distribucin de una Normal (0,1).
Muestreo estadstico: conceptos, estimadores y su distribucin 33

Como el procedimiento de muestreo es con probabilidades proporcionales a los tamaos


Mi de los hogares tenemos que Pi = kMi i = 1, 2, 3, 4 para una constante de proporcionalidad
k que se calcula de la forma siguiente:
P1 = 3 / 10

P2 = 2 / 10 = 1 / 5
4 4
Pi = kM i
Pi = k M i 1 = k 10 k = 1 / 10
i =1 i =1 P3 = 2 / 10 = 1 / 5
P4 = 3 / 10

En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los
estimadores para cada muestra.

S(X ) P( X ) T1 T2
{1,2,3} 3 / 10 2 6
{4,6} 1/ 5 5 10
{9,11} 1/ 5 10 20
{2,2,5} 3 / 10 3 9

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT(  (X1, ...,Xn) = t) = P(S i ), de la siguiente forma:
{ S i /  ( S i ( X )) = t }

T 3 T 3
P (T 1= 2) = P{1,2,3} = 10 P (T 2= 6) = P{1,2,3} = 10

P T (T = 5) = P{4,6} = 1 P T (T = 10) = P{4,6} = 1
1
5 2
5
T1 T2
P T (T = 10) = P{9,11} = 1 P T (T = 20) = P{9,11} = 1
1 2
5 5
3 3
P T (T 1= 3) = P{2,2,5} = P T (T 2= 9) = P{2,2,5} =
10 10

Una vez conocida la distribucin de probabilidad en el muestreo de los dos


estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los
valores de la media poblacional y el total poblacional, que son los parmetros que estamos
estimando. Se tiene:

X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) / 10 = 45 / 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) = 45

Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los


estimadores tal y como se indica a continuacin:
34 Muestreo estadstico. Conceptos y problemas resueltos

3 1 1 3
E (T1 ) = 2 + 5 + 10 + 3 = 4,5 = X
10 5 5 10
3 1 1 3
E (T2 ) = 6 + 10 + 20 + 9 = 10,5  X = 45
10 5 5 10

El estimador T1 es insesgado, pero el estimador T2 es sesgado con sesgo


B(T2)=E(T2)
X = 10,5
45 =
34,5. Las varianzas de los estimadores son:
3 1 1 3
V (T1 ) = (2
4,5) 2 + (5
4,5) 2 + (10
4,5) 2 + (3
4,5) 2 = 8,65
10 5 5 10
2 3 2 1 2 1 3
V (T2 ) = (6
10,5) + (10
10,5) + (20
10,5) + (9
10,5) 2 = 24,85
10 5 5 10
Con lo que las desviaciones tpicas valdrn:

(T1 ) = 8,65 = 2.94 y (T2 ) = 24,85 = 4.98

Como |B(T2)/ (T2)| = 6.92 > 1/10, el sesgo del estimador T2 no es despreciable, y
como T1 es insesgado, la comparacin de estimadores ha de hacerse a travs del error
cuadrtico medio. Tenemos:
3 1 1 3
ECM (T1 ) = (2
4,5) 2 + (5
4,5) 2 + (10
4,5) 2 + (3
4,5) 2 = 8,65
10 5 5 10
3 1 1 3
ECM (T2 ) = (6
45) 2 + (10
45) 2 + (20
45) 2 + (9
45) 2 = 1215,1
10 5 5 10
Evidentemente, el mejor estimador es T1, pues su error cuadrtico medio es mucho
menor que el de T2. La ganancia en precisin por usar T1 en vez de T2 es:
GP=(EMC(T2)/EMC(T1) - 1)100 = (1215,1/8,65-1)100=13946,24%
Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la
muestra de mayor total {9,11}, suponemos primeramente que la poblacin se distribuye
normalmente, en cuyo caso se utiliza como intervalo de confianza el siguiente:
() ()
[
 , +  ] = [10
3 2.94, 10 + 3 2.94] = [1.17, 18.82]

Si la poblacin no se distribuye normalmente el intervalo para T1 es:





()
 
, +
()
= 10

2.94
,10 +
2.94
= [
55.74, 75.7]
0.002 0.002

Se observa que la longitud del intervalo de confianza cuando no hay normalidad es


mucho mayor que en el caso de normalidad, con lo que la estimacin es ms tosca (peor) en
el caso de no normalidad.
Para hallar un intervalo de confianza para T2 (que es sesgado) basado en la muestra de
mayor media {9,11}, realizamos los siguientes clculos:
() () () ()
[

| B  |,  +   + | B  |] = [20
2 4.98
34.5, 20 + 2 4.98 + 34.5] = [
24.47, 64.47]

El problema puede automatizarse con Excel como sigue:


Muestreo estadstico: conceptos, estimadores y su distribucin 35

1.7. Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han
sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos
calificaciones y se consideran los estimadores por analoga media muestral y varianza muestral.
Hallar la distribucin en el muestreo y sus errores para los dos estimadores en los casos siguientes:
1) Muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos.
2) Muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos.
3) Muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos.
4) Muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos.

Para muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos el
nmero de muestras de tamao 2 en el espacio muestral sern las combinaciones sin repeticin
de tres elementos tomados de dos en dos:
3
C3,2 = =3
2

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:

P_X = P(ui,uj) = P(ui)P(uj/ui)+P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj))) =

(1/32)/(1-1/3) + (1/32)/(1-1/3) = 2(1/32)/(1-1/3) = 1/3 = 0,33333

Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:

S1_X S2_X P_X MEDIAM VARIANZAM


1 2 1/3 1,5 0,25
1 3 1/3 2 1
2 3 1/3 2,5 0,25

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:

3
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i

3
E (VARIANZAM ) = VARIANZA P = 0,5  2 / 3 = 0,6666 = VARIANZAP
i =1
i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuacin se calculan las varianzas de los
estimadores.
36 Muestreo estadstico. Conceptos y problemas resueltos

3
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2

3
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2

Con lo que las desviaciones tpicas valdrn:


(MEDIAM) = 0,1666 = 0,408, (VARIANZAM) = 0,000399 = 0,353

Como |B(VARIANZAM)/ (VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador


VARIANZAM no es despreciable.

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo


estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
3
ECM (VARIANZAM ) = (VARIANZAM
i =1
i
2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%.

A continuacin se presenta la solucin con Excel.


Muestreo estadstico: conceptos, estimadores y su distribucin 37

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin
repeticin de tres elementos tomados de dos en dos:

3
V3,2 = 2! = 6
2

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:

P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = (1/32)/(1-1/3) = 1/6 = 0,1666

Se observa que las probabilidades de las muestras sern todas iguales a 1/6. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:

S1_X S2_X P_X MEDIAM VARIANZAM


1 2 1/6 1,5 0,25
1 3 1/6 2 1
2 1 1/6 1,5 0,25
2 3 1/6 2,5 0,25
3 1 1/6 2 1
3 2 1/6 2,5 0,25
38 Muestreo estadstico. Conceptos y problemas resueltos

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:

6
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i

6
E (VARIANZAM ) = VARIANZA P = 0,5  2 / 3 = 0,6666 = VARIANZAP
i =1
i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuacin se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2

6
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2

Con lo que las desviaciones tpicas valdrn:


(MEDIAM) = 0,1666 = 0,408, (VARIANZAM) = 0,000399 = 0,353

Como |B(VARIANZAM)/ (VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador


VARIANZAM no es despreciable.

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo


estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
6
ECM (VARIANZAM ) = (VARIANZAM
i =1
i
2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error


cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%.

Se observa que cuando se trabaja sin reposicin, el hecho de tener o no en cuenta el


orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de
medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores.

Los clculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:
Muestreo estadstico: conceptos, estimadores y su distribucin 39

Para muestreo con reposicin sin tener en cuenta el orden de colocacin de los
elementos el nmero de muestras de tamao dos en el espacio muestral sern las
combinaciones con repeticin de tres elementos tomados de dos en dos:

3 + 2
1
CR3,2 = = 6
2

Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
40 Muestreo estadstico. Conceptos y problemas resueltos

P_X = P(ui,uj) =2 P(ui)P(uj) = 2(1/3)2 = 2/9 si i  j


P_X = P(ui,ui) =P(ui)2 = (1/3)2 = 1/9 si i = j

Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:

S1_X S2_X P_X MEDIAM VARIANZAM


1 1 1/9 1 0
1 2 2/9 1,5 0,25
1 3 2/9 2 1
2 2 1/9 2 0
2 3 2/9 2,5 0,25
3 3 1/9 3 0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:

6
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i

6
E (VARIANZAM ) = VARIANZA P = 1 / 3 = 0,3333  2 / 3 = 0,6666 = VARIANZAP
i =1
i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuacin se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2

6
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2

Con lo que las desviaciones tpicas valdrn:


(MEDIAM) = 0,3333 = 0,577, (VARIANZAM) = 0,13888 = 0,372

Como |B(VARIANZAM)/ (VARIANZAM)| = 0,894 > 1/10 el sesgo del estimador


VARIANZAM no es despreciable.

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo


estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
6
ECM (VARIANZAM ) = (VARIANZAM
i =1
i
2 / 3) Pi = 0,25
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333


Muestreo estadstico: conceptos, estimadores y su distribucin 41

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es (0,3333/0,25-1)*100 = 33,32%. Hay que subrayar que la ganancia en
precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, debido a la
mayor precisin en general del muestreo sin reposicin.

Los clculos en Excel se muestran a continuacin.


42 Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones con
repeticin de tres elementos tomados de dos en dos:
VR3,2 = 32 = 9
Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las
probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj) = (1/3)2 = 1/9
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:

S1_X S2_X P_X MEDIAM VARIANZAM


1 1 1/9 1 0
1 2 1/9 1,5 0,25
1 3 1/9 2 1
2 1 1/9 1,5 0,25
2 2 1/9 2 0
2 3 1/9 2,5 0,25
3 1 1/9 2 1
3 2 1/9 2,5 0,25
3 3 1/9 3 0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
9
E ( MEDIAM ) = MEDIAM P = 2 = MEDIAP
i =1
i i

9
E (VARIANZAM ) = VARIANZA P = 1 / 3 = 0,3333  2 / 3 = 0,6666 = VARIANZAP
i =1
i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3
2/3 =
1/3 =
0,3333. A continuacin se calculan las varianzas de los
estimadores.
9
V ( MEDIAM ) = (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2

9
V (VARIANZAM ) = (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2

Con lo que las desviaciones tpicas valdrn:


(MEDIAM) = 0,3333 = 0,577, (VARIANZAM) = 0,13888 = 0,372
Como |B(VARIANZAM)/ (VARIANZAM)| = 0,894 > 1/10, el sesgo del estimador
VARIANZAM no es despreciable.
Muestreo estadstico: conceptos, estimadores y su distribucin 43

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo


estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
9
ECM (VARIANZAM ) = (VARIANZAM
i =1
i
2 / 3) Pi = 0,25
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333


Los clculos se automatizan con Excel como sigue:
44 Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es (0,3333/0,25
1)100 = 33,32%. Hay que subrayar que la ganancia en
precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, lo que es debido
a la mayor precisin en general del muestreo sin reposicin.
Se observa que cuando se trabaja con reposicin, el hecho de tener o no en cuenta el
orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de
medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores. Ya vimos
que esto mismo ocurra cuando se trabajaba sin reposicin.
Si comparamos los mtodos con reposicin con los mtodos sin reposicin vemos que
los errores de muestreo siempre son mayores con reposicin. Para el estimador MEDIAM la
ganancia en precisin por muestrear sin reposicin se cuantifica en (0,333/0,166
1)100 =
100%, ya que se duplica la precisin. Para el estimador VARIANZAM la ganancia en precisin
por muestrear sin reposicin se cuantifica en (0,25/0,15277
1)100 = 63,63%. La ganancia en
precisin para VARIANZAM es menor que para MEDIAM, porque habamos visto que
VARIANZAM es ms preciso que media M y los estimadores ms precisos son los que menos
precisin pierden al considerar muestreo con reposicin.

1.8. En una prueba de patinaje artstico los 10 jueces del jurado calificaron a un patinador con tres
cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de
dos calificaciones sin reposicin y teniendo en cuenta el orden de colocacin de los elementos.
Se consideran los estimadores por analoga media muestral, varianza muestral y recorrido para
estimar la calificacin media y su dispersin (por dos vas). Hallar la distribucin en el muestreo y
sus errores para los tres estimadores.

Las probabilidades iniciales de seleccin sern las siguientes:

Xi 5 6 7
Pi 3 / 10 4 / 10 3 / 10

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin
repeticin de 10 elementos tomados de dos en dos:

3
V3,2 = 2! = 6
2

Al tratarse de muestreo aleatorio sin reposicin teniendo en cuenta el orden, la


probabilidad de cualquier muestra puede hallarse mediante:

P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = PiPj/(1-Pi)

El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el


muestreo de los estimadores media muestral (MEDIAM), varianza muestral (VARIANZAM) y
recorrido muestral RM se presentan en la siguiente tabla:
Muestreo estadstico: conceptos, estimadores y su distribucin 45

S1_X S2_X P1 P2 P_X MEDIAM VARIANZAM RM


5 6 0,3 0,4 0,171=0,3*0,4/(1-0,3) 5,5 0,25 1
5 7 0,3 0,3 0,128=0,3*0,3/(1-0,3) 6 1 2
6 7 0,4 0,3 0,2=0,4*0,3/(1-0,4) 6,5 0,25 1
6 5 0,4 0,3 0,2=0,4*0,3/(1-0,4) 5,5 0,25 1
7 5 0,3 0,3 0,128=0,3*0,3/(1-0,3) 6 1 2
7 6 0,3 0,4 0,171=0,3*0,4/(1-0,3) 6,5 0,25 1

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:

6
E ( MEDIAM ) = MEDIAM i Pi = 6 = MEDIAP
i =1
6
E (VARIANZAM ) = VARIANZAi Pi = 0,442  0,6 = VARIANZAP
i =1
6
E ( RM ) = RM i Pi = 1,257  2 = RP
i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP,
B(VARIANZAM) = 0,442-0,6 =
0,157, y B(RM) = 1,257
2 =
0,743. A continuacin se
calculan las varianzas de los estimadores.
6
V ( MEDIAM ) = (MEDIAM i
E ( MEDIAM ) ) Pi = 0,185
2

i =1
6
V (VARIANZAM ) = (VARIANZAM i
E (VARIANZAM ) ) Pi = 0,107
2

i =1
6
V ( RM ) = (RM i
E ( RM ) ) Pi = 0,191
2

i =1

Con lo que las desviaciones tpicas valdrn:


(MEDIAM) = 0,1666 = 0,408, (VARIANZAM) = 0,000399 = 0,353

Como |B(VARIANZAM)/ (VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador


VARIANZAM es no despreciable.

Como |B(RM)/ (RM)| = 1,7 > 1/10, el sesgo del estimador RM no es despreciable.

Para hallar el error de muestreo de MEDIAM, VARIANZAM y RM vemos que los dos
ltimos estimadores son sesgados con sesgo no despreciable y el primero es insesgado. La
medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,185


6
ECM (VARIANZAM ) = (VARIANZAM i
0,6 ) Pi = 0,132
2

i =1

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,742


46 Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional y que el estimador RM para estimar el recorrido poblacional
por tener menor error cuadrtico medio.
Los clculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:
Muestreo estadstico: conceptos, estimadores y su distribucin 47

EJERCICIOS PROPUESTOS

1.1. Para la poblacin U = {U 1 , U 2 , U 3 } consideramos el siguiente proceso de seleccin de muestras


de tamao 2. Se extrae una primera unidad con probabilidades iguales de seleccin, y si sta resulta
ser U1, se extrae la segunda unidad entre las dos restantes tambin con probabilidades iguales; pero
si la primera no es U1, la segunda se extrae de las tres que componen la poblacin asignando doble
probabilidad a U1 que a cada una de las otras dos. Hallar el espacio muestral y las
probabilidades asociadas a las muestras para este procedimiento de muestreo. Si
consideramos la variable X que toma los valores Xi ={1,1,0} i = 1, 2, 3 en los tres elementos
de la poblacin y definimos el estimador para el total poblacional X = k ( X 1 + X 2 ) , hallar su
sesgo, su varianza y el valor de k para que sea insesgado.

1.2. Para medir la variable X = nivel de precipitacin atmosfrica en una determinada regin
disponemos de un marco de 4 zonas climticas de la misma cuyos niveles de precipitacin
actual son de 6, 4, 3 y 8 decenas de litros por metro cuadrado, siendo sus probabilidades
iniciales de seleccin en el muestreo 1/6, 1/3, 1/3 y 1/6, respectivamente. Se trata de estimar
en decenas de litros por metro cuadrado el nivel actual medio de precipitacin atmosfrica
en la regin extrayendo muestras de la variable X con tamao 2 sin reposicin y sin tener en
cuenta el orden de colocacin de sus elementos. Para ello se consideran los estimadores
alternativos MEDIA ARITMTICA, MEDIA GEOMTRICA, MEDIA CUADRTICA y
MEDIA ARMNICA. Se pide lo siguiente:

1) Especificar el espacio muestral definido por este procedimiento de muestreo S(X), las
probabilidades asociadas a las muestas P(S) y la distribucin en el muestreo de los cuatro
estimadores analizando su precisin. Cul de ellos es mejor? Razonar la respuesta y
cuantificar las ganancias en precisin.

2) Hallar intervalos de confianza para la media segn los cuatro estimadores basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( =0,002). Como
dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal (0,1).
Comentar los resultados.

1.3. Para la poblacin A = { A1 , A2 , A3 , A4 , A5 } consideramos el siguiente proceso de seleccin de


muestras de tamao 3. De una urna con tres bolas numeradas del 1 al 3 se extraen al azar y sin
reposicin dos bolas. A continuacin, de otra urna con dos bolas numeradas con el 4 y el 5
se extrae una bola. Se pide:
1) Espacio muestral asociado a este experimento de muestreo y probabilidades de las
muestras. Consideramos el estimador por analoga  = suma de los subndices de unidades
de las muestras para estimar la caracterstica poblacional  = suma de los subndices de las
unidades de poblacin. Calcular la precisin del estimador y hallar un intervalo de confianza
al 95%.
$
2) Se considera el estimador por analoga  = Media de los subndices de unidades de las
muestras para estimar la caracterstica poblacional  = Media de los subndices de las
unidades de poblacin. Calcular la precisin de este estimador y hallar un intervalo de
confianza al 95%. Qu estimacin es mejor? Cuantificar la ganancia en precisin.
48 Muestreo estadstico. Conceptos y problemas resueltos

1.4. Consideramos una poblacin de 3 unidades {u1 , u 2 , u 3 } cuyas probabilidades iniciales de


seleccin son iguales a 1/3. Se extraen muestras de tamao 2 con reposicin sin tener en cuenta el
orden de colocacin de sus elementos. Se pide:
1) Espacio muestral y probabilidad asociadas a las muestras para este tipo de muestreo.
2) Se estima por analoga el parmetro poblacional  = n de unidades distintas en la
poblacin mediante el estimador $ = n de unidades distintas en la muestra Hallar la
distribucin en el muestreo del estimador $ de  .

3) Analizar la precisin de $ para los valores  = 1,  = 2,  = 3 del parmetro poblacional .

4) Se estima el parmetro poblacional  = N medio de unidades distintas en la poblacin


$
mediante el estimador por analoga  = N medio de unidades distintas en la muestra. Hallar
$
la distribucin en el muestreo de  y analizar su precisin para los valores  = 1 y  = 2
del parmetro poblacional  .
5) Cul de las dos estimaciones anteriores es mejor? Hallar intervalos de confianza para
$
ambos estimadores $ y  al 95% y comparar sus precisiones.

1.5. Para la poblacin A = {A1 , A2 , L , A12 } consideramos el siguiente proceso de seleccin de muestras
de tamao 3. Se selecciona un entero al azar en el conjunto {1,2,3,4} y siendo  este nmero se
forma la muestra {A , A + 4 , L , A +8 } . Considerando la variable Xi=X(Ai)=i se pide la distribucin,
esperanza y varianza de los estimadores T1=Mx(Xi) y T2=2(Xi)/n 1. Cul de los dos
estimadores es ms preciso? Realizar estimaciones por intervalos al 95% basadas en las
muestras de mayor valor de los estimadores y comentar los resultados.

1.6. En una poblacin con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad
toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposicin con probabilidades
iniciales de seleccin Pi = (1/5, 2/5, 2/5) y tamao muestral n = 2 sin tener en cuenta el orden de
colocacin de las unidades en las muestras. Se pide:

1) Distribuciones en el muestreo de los estimadores X=Ti+Tj, Y=Min(Ti,Tj), Z= (Ti+Tj)/2.


Si con X estimamos el total poblacional, con Y el menor valor de la poblacin y con Z la media
poblacional, cul de los tres estimadores es mejor? Razonar la respuesta y cuantificar las
ganancias en precisin.

2) Hallar intervalos de confianza para los estimadores X, Y y Z basados en la muestra de mayor


probabilidad para un nivel de confianza del 2 por mil (F-1(0.999)=3 con FN(0,1)). Comentar
los resultados.

1.7. Para la poblacin U = {U 1 , U 2 , U 3 } se mide la variable X sobre sus unidades y se obtiene


X={3, 2, 4}. Se extrae una muestra de tamao 2 mediante el siguiente proceso de seleccin. Se
extraen dos bolas de una urna que tiene ocho (cuatro marcadas con un 1, tres con un 2 y una con
un 3) y si sus nmeros son (i,j) se extraen para la muestra las unidades (Xi,Xj). Hallar el espacio
muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo,
esperanza y varianza del estimador por analoga media muestral. Resolver el problema para
muestreo con y sin reposicin.
CAPTULO

MTODOS GENERALES DE SELECCIN


DE MUESTRAS. ESTIMACIN Y ERRORES

OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades
compuestas.
2. Distinguir claramente los conceptos de muestreo con probabilidades
iguales y muestreo con probabilidades desiguales.
3. Distinguir entre muestreo con reposicin y muestreo sin reposicin.
4. Comprender cmo se forman los estimadores en el proceso de estimacin puntual.
5. Comprender el concepto de factor de elevacin.
6. Obtener el estimador lineal insesgado general para el caso de seleccin con
reposicin y probabilidades desiguales: Estimador de Hansen y Hurwitz.
7. Obtener la varianza y su estimacin para el estimador de Hansen y Hurwitz.
8. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Mtodo del tamao acumulativo y mtodo de Lahiri.
9. Obtener el estimador lineal insesgado general para el caso de seleccin sin
reposicin y probabilidades desiguales: Estimador de Horvitz y Thompson.
10. Obtener la varianza y la estimacin de la varianza para el estimador de
Horvitz y Thompson.
11. Obtener el estimador alternativo de Yates y Grundy para la varianza.
12. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy.
13. Analizar el muestreo con probabilidades gradualmente variables: Estimador
de Snchez Crespo y Gabeiras, error y estimacin del error.
14. Obtener muestras aleatorias, especialmente mediante el mtodo de Montecarlo.
50 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Seleccin con y sin reposicin. Probabilidades iguales y desiguales.
2. Estimacin puntual y formacin general de estimadores.
3. Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen
Hurwitz.
4. Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
5. Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz
y Thompson.
6. Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
7. Mtodo de Montecarlo
8. Problemas resueltos
9. Ejercicios propuestos
Muestreo estadstico: conceptos, estimadores y su distribucin 51

SELECCIN CON Y SIN REPOSICIN. PROBABILIDADES IGUALES Y


DESIGUALES

Las formas bsicas de seleccin de la muestra se clasifican atendiendo a los siguientes


criterios:
1. Atendiendo a las probabilidades de seleccin

1.1. Con probabilidades iguales: Todas las unidades de la poblacin tienen la misma
probabilidad de ser seleccionadas en cada extraccin.

1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades
de seleccin en cierta extraccin.

2. Atendiendo a la mecnica de seleccin

2.1. Muestreo con reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin se repone a la poblacin antes de realizar la siguiente
extraccin; es decir, la estructura poblacional permanece invariante.

2.2. Muestreo sin reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin no se repone a la poblacin antes de realizar la siguiente
extraccin, por lo que una unidad podr aparecer en la muestra a lo sumo una vez y
la estructura poblacional va cambiando de una extraccin a otra.
Combinando estos cuatro tipos de muestreo resulta:
- Muestreo con reposicin y probabilidades iguales

- Muestreo sin reposicin y probabilidades iguales

- Muestreo con reposicin y probabilidades desiguales

- Muestreo sin reposicin y probabilidades desiguales

ESTIMACIN PUNTUAL Y FORMACIN GENERAL DE ESTIMADORES

Supongamos que tenemos definida una caracterstica X en la poblacin U = {U1, U2, ..., UN}
que toma el valor numrico Xi sobre la unidad Ui i = 1, 2, ..., N, dando lugar al conjunto de
valores {X1, X2, ..., XN}. Consideramos ahora una cierta funcin  de los N valores Xi, que suele
denominarse parmetro poblacional. Seleccionamos una muestra s = {u1, u2, ..., un} de U mediante
un procedimiento de muestreo dado, y consideramos los valores s(X) = {X1, X2, ... , Xn} que toma la
caracterstica X en estudio sobre los elementos de la muestra. A partir de estos valores estimamos
puntualmente el parmetro poblacional  mediante la expresin  =  (s(X))=  (X1, ..., Xn), basada
en los valores Xi i = 1, 2, ..., n, que toma la caracterstica X sobre las unidades de la muestra s.

X
U = {U 1 LU N }  (X 1 L X N )

X
s = {u1 L u n }  s( X ) = (X 1 L X n )
52 Muestreo estadstico. Conceptos y problemas resueltos

La funcin  que asocia a cada muestra s el valor numrico  (s(X)) =  (X1, ..., Xn), se
denomina estimador del parmetro poblacional . A los valores  (s(X)) para cada s del espacio
muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto
de estimador $ para el parmetro poblacional  definindolo mediante la aplicacin medible:

$: S ( X )  R n  R
(X 1 L X n )  $( X 1 L X n ) = t

Ya tenemos definido el estimador como un estadstico funcin de los valores que toma
la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos
los estimadores total muestral y media muestral que estiman el total y la media poblacionales:

1 : S ( X )  R n  R
( X 1 L X n )  1 ( X 1 L X n ) = X 1 + L + X n = X

2 : S ( X )  R n  R
X1 + L + X n
( X 1 L X n )  2 ( X 1 L X n ) = = X
n

Entre los parmetros poblacionales  (funcin de los N valores poblacionales Xi)


ms comunes a estimar, tenemos el total poblacional y la media poblacional para la
caracterstica X, definidos de la forma siguiente:
N
Total poblacional: X = (X1, ..., XN) = X i
i =1

X 1 N N
Xi
Media poblacional: X = (X1, ..., XN) = =
N N
X =
i =1
i
i =1 N

Hasta ahora hemos supuesto que la caracterstica X definida sobre los elementos de la
poblacin es cuantitativa, es decir, cuantificable numricamente. Sin embargo, tambin se pueden
definir caractersticas cualitativas sobre los elementos de la poblacin, como, por ejemplo, su
pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la poblacin
definimos la caracterstica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma
valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la
poblacin que pertenecen a la clase A (total de clase) y la proporcin de elementos de la
poblacin que pertenecen a la clase A (proporcin de clase) de la forma siguiente:
N
Total de clase: A = (A1, ..., AN) = Ai
i =1
N N
A 1 Ai
Proporcin de clase: P = (A1, ..., AN) = =
N N
A = N
i =1
i
i =1

Analizados ya los cuatro parmetros poblacionales ms tpicos a estimar, vemos que,


en general, un parmetro poblacional  puede expresarse como una suma de elementos Yi =
f(Xi) funcin de los valores que la caracterstica cuantitativa X o cualitativa A considerada
toma sobre los elementos de la poblacin. De esta forma, podemos escribir:
Muestreo estadstico: conceptos, estimadores y su distribucin 53

N N
 = Yi = f ( X i )
i =1 i =1

Yi = f ( X i ) = X i para el total poblacional X



Yi = Xi
f (X i ) = para la media poblacional X
N
en cuyo caso tenemos:
Yi = f ( Ai ) = Ai para el total de clase A
Ai
Yi = f ( Ai ) = para la proporcin de clase P
N

Ahora surge el problema de analizar la forma de los estimadores puntuales ptimos  =


 (X1, ..., Xn) para estos parmetros poblacionales tpicos. Resulta que las mejores propiedades
n
suelen presentarlas los estimadores lineales insesgados de la forma  = wi Yi . Los valores i se
i =1

denominan pesos o factores de elevacin, ya que so los nmeros por los que hay que multiplicar
los valores muestrales para obtener los valores poblacionales.
Concretamente, para muestreo sin reposicin, el estimador ptimo es el de Horvitz y
n
Yi
Thompson HT =  , donde i es la probabilidad que tiene la unidad ui de la poblacin de
i =1 i

pertenecer a la muestra. Se observa que los pesos o factores de elevacin son en este caso w i = 1 .
i
Para muestreo con reposicin el estimador ptimo es el de Hansen y Hurwitz
n
Yi
HH = , donde Pi es la probabilidad de seleccionar la unidad ui de la poblacin para
i =1 nPi
la muestra (probabilidad unitaria de seleccin de la unidad ui ). Se observa que los pesos o
factores de elevacin son, en este caso, w i = 1 .
nPi
N
Existen justificaciones para considerar que el parmetro poblacional  = Y i puede
i =1
n
estimarse convenientemente mediante el estimador $ = w Y , entre las que podemos citar:
i i
i =1

Todas las mediciones de la variable en estudio sobre las unidades de la muestra


intervienen en la formacin del estimador.
La importancia de la aportacin al estimador de la unidad muestral ui puede controlarse
mediante el coeficiente de ponderacin wi o factor de elevacin.
Cuando wi = 1, todas las unidades muestrales intervienen de igual forma en la formacin
del estimador.
Los coeficientes wi pueden depender, entre otros factores, del tamao de las unidades
muestrales (cuando son compuestas), del orden de colocacin de las mismas en la
muestra, y sobre todo de la probabilidad que tiene la unidad ui de pertenecer a la muestra
segn el mtodo de muestreo considerado.
Las funciones lineales son las ms sencillas de manejar matemticamente.
54 Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO CON REPOSICIN Y PROBABILIDADES DESIGUALES:


ESTIMADOR DE HANSEN HURWITZ
Consideremos una poblacin de tamao N, con unidades {u1 , u 2 , L , u N } . Seleccionamos con
reposicin una muestra (x~ ) de tamao n. Ya sabemos que en este esquema de seleccin cada
unidad ui de la poblacin puede pertenecer a la muestra (x~ ) de tamao n desde 0 a n veces ya
que al seleccionar una unidad para la muestra, sta se devuelve a la poblacin antes de realizar
la siguiente extraccin.
La probabilidad de una muestra cualquiera de tamao n seguir el modelo multinomial
(conjunta de n binomiales ei), ya que al haber reposicin puede seleccionarse para la muestra
N
cada unidad ui de la poblacin ti veces con i = 1,2,...,N y t i =1
i = n, con lo que:

P (~
x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 1424 3 14243
t1 veces t2 veces t N veces
n! N
= 1
P1t P2t L PNt n! = (t1 + t 2 + L + t N )! t i = n
2 N

t1 !t 2 !L t N ! i =1

El estimador lineal insesgado ptimo en el muestreo con reposicin y probabilidades


N
desiguales para el parmetro poblacional  = Yi es el estimador de Hansen y Hurwitz:
i =1

n n
1 n
Y
HH = iYi = Yi = i
i =1 i =1 nPi i =1 nPi

Al particularizar el estimador de Hansen y Hurwitz para los distintos parmetros


poblacionales, tenemos los siguientes estimadores:
N n
Xi
Total   = X = X i Yi = X i X HH =
i =1 i =1 nPi
Xi
N
Xi Xi
n
1 n
Xi
Media   = X = Yi = X HH = N = nP
i =1 N N i =1 nPi N i =1 i

N
An
Total de clase   = A = Ai Yi = Ai A HH = i
i =1 i =1 nPi

Ai
A N
A n
1 n
Ai
Proporcin  = P = i Yi = i PHH = N = nP
i =1 N N i =1 nP i N i =1 i

Varianza del estimador de Hansen y Hurwitz


2 2
1 N Y 1 N Y
2
1 N N Y Yj
V (HH ) = i
 Pi = i
 2 = i
Pi Pj
n i =1 Pi n i =1 Pi n Pi P
i =1 j > i
j
Muestreo estadstico: conceptos, estimadores y su distribucin 55

Estimacin de la varianza del estimador de Hansen y Hurwitz


2
1 n Yi
2
n
1 Yi
V (HH ) =

n HH =
2

 HH
n(n
1) i =1 Pi n(n
1) i =1 Pi

SELECCIN CON REPOSICIN Y PROBABILIDADES PROPORCIONALES


AL TAMAO: MTODOS ESPECIALES DE SELECCIN

Mtodo de seleccin del tamao acumulativo o modelo polinomial

Sea Mi un entero positivo asociado a la unidad ui que denominamos tamao de ui para i = 1, 2, ..., N
(Mi puede ser el nmero de unidades elementales de la unidad compuesta ui o una ponderacin o
medida de la importancia que concedemos a la seleccin de la unidad ui para la muestra).
A continuacin se expone un mtodo prctico que permite seleccionar muestras con
reposicin de modo que en cada extraccin la unidad ui tiene probabilidad Pi proporcional a
su tamao Mi .
N
Sea M = M i . Consideramos el intervalo de nmeros enteros [1, M] y lo dividimos en
i =1

N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:

Subintervalos Unidades Tamaos


I 1 = [1, M 1 ] u1 M1
I 2 = [ M 1 + 1,M 1 + M 2 ] u2 M2
I 3 = [ M 1 + M 2 + 1,M 1 + M 2 + M 3 ] u3 M3
M M M
N
1 N
I N = [ M i + 1, M i ] uN MN
i =1 1 23
i =1
M

Ahora elegimos un entero   [1,M] aleatoriamente y con probabilidades iguales y


seleccionamos como primera unidad de la muestra la unidad u i tal que   Ii. Repetimos este
proceso n veces hasta obtener una muestra de tamao n, de modo que para cualquiera de las
n extracciones se cumple:
M
P(u i ) = P(  I i ) = i = Pi
M
El procedimiento de seleccin es con reposicin, pues el entero   [1,M] elegido
aleatoriamente puede caer varias veces dentro del mismo intervalo Ii, con lo que la unidad ui
estar varias veces en la muestra. Tambin hemos visto que el procedimiento de seleccin se
realiza en cada extraccin con probabilidades proporcionales a los tamaos, ya que
Pi=Mi/M.
Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en
cuenta la obtencin de unidades repetidas y seguir seleccionando hasta acompletar el tamao
de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.
56 Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo tambin permite extraer una muestrea con probabilidades desiguales
no necesariamente proporcionales a sus tamaos. Basta formar un rango acumulativo del
los Pi y extraer una muestra de nmeros aleatorios uniformes en (0,1). Es decir, basta montar
un cuadro como el anterior donde los intervalos acumulativos Ii se formaran ahora con los
Pi = Mi/M, en vez de con los Mi. Y en vez de obtener nmeros aleatorios entre 1 y M, se
obtendran entre 0 y 1.

Mtodo de seleccin de Lahiri

Una variante que abrevia el mtodo del tamao acumulativo la constituye el mtodo de
Lahiri, que permite tambin seleccionar muestras con reposicin y probabilidades
proporcionales a los tamaos.
Sea M0 un nmero entero mayor o igual que todos los Mi, por ejemplo,
{ ( M i ) . Elegimos un par de nmeros aleatorios (i, j) tales que 1 i  N y 1 j  M0.
M 0 = Max
i =1, 2 ,..., N

Si j  Mi, la unidad seleccionada para la muestra es la ui. Si j > Mi se repite la


seleccin del par de nmeros aleatorios (i, j) tales que 1 i  N y 1 j  M0 tantas veces
como sea necesario hasta que j  Mi.
Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en
cuenta la obtencin de unidades repetidas y seguir seleccionando hasta completar el tamao
de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.

MUESTREO SIN REPOSICIN Y PROBABILIDADES DESIGUALES:


ESTIMADOR DE HORVITZ THOMPSON

Decimos que un procedimiento aleatorio de muestreo es sin reposicin cuando todas las
muestras que tienen algn elemento repetido son imposibles. Las unidades seleccionadas no
se reponen a la poblacin para seleccionar la siguiente unidad de la muestra, con lo que las
muestras resultantes tienen todos sus elementos distintos.
Decimos que un procedimiento aleatorio de muestreo es con probabilidades iguales
cuando todas las unidades de la poblacin ui tienen la misma probabilidad de ser elegidas
para la muestra en una determinada extraccin. En caso de que no sea la misma estaremos
ante muestreo con probabilidades desiguales. Tanto el muestreo con reposicin como el
muestreo sin reposicin pueden ser con probabilidades iguales o desiguales.

En el caso de muestreo sin reposicin y probabilidades desiguales, el estimador lineal


N
insesgado para el parmetro poblacional  = Yi es el estimador de Horvitz y Thompson:
i =1

n n
1 n
Yi
$HT = wY
i i = Yi =
i =1 i =1 i i =1 i

donde i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra.


Al particularizar el estimador de Horvitz y Thompson para los distintos parmetros
poblacionales, tenemos los siguientes estimadores:
Muestreo estadstico: conceptos, estimadores y su distribucin 57

N n
Xi
Total   = X = X i Yi = X i X HT =
i =1 i =1 i
N
Xi X 1 n
Xi
Media   = X =
i =1 N
Yi = i X HT =
N N

i =1 i

N
A n
Total de clase   = A = Ai Yi = Ai A HT = i
i =1 i =1  i

N
A Ai 1 n
Ai
Proporcin  = P = i Yi = PHT = 
i =1 N N N i =1 i

Varianza del estimador de Horvitz y Thompson

Yj
( )=  Yi 2
(1
 i ) + 2 Yi
N N N
V HT ( ij
 i j )
i =1 i i =1 j >i i  j
donde i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra y ij es
la probabilidad de que el par de unidades de la poblacin (i,j) pertenezcan a la muestra.
Estimacin de la varianza del estimador de Horvitz y Thompson

Y Y j ( ij
 i )
( ) Yi 2
n n n
V  HT = 2 (1
 i ) + 2 i

i =1 i i =1 j >i i  j  ij
Estimador de la varianza de Yates y Grundy para el estimador de Horvitz y Thompson

Y Y j ( i j
 ij )
2

( )
n n
V HT = i


i =1 j >i  i  j  ij
Todas las frmulas para estimadores y errores vistas hasta ahora para el caso general
sin reposicin con probabilidades desiguales son vlidas para el caso particular de
probabilidades iguales sin reposicin haciendo las siguientes sustituciones:
n n(n
1)
i = ,  ij =
N N ( N
1)
Se observa que cualquier mtodo de seleccin sin reposicin queda perfectamente
definido al conocer i yij ya que los estimadores y sus errores dependen slo de estos valores.

SELECCIN SIN REPOSICIN Y PROBABILIDADES PROPORCIONALES


AL TAMAO: MTODOS ESPECIALES DE SELECCIN
Estimador de Horvitz y Thompson con probabilidades proporcionales al tamao
Sea Mi el entero positivo asociado a la unidad compuesta Ui i = 1,,N que representa su
tamao (nmero de unidades elementales que contiene). En la prctica las unidades de
muestreo suelen ser conglomerados, aunque a veces este modelo tambin suele utilizarse con
unidades de muestreo simples, en cuyo caso los Mi son ponderaciones utilizadas para dar un
mayor peso o importancia a determinadas unidades muestrales.
58 Muestreo estadstico. Conceptos y problemas resueltos

Mediante este modelo se selecciona sin reposicin de la poblacin para la muestra la


unidad compuesta Ui de tamao Mi. Como se trata del modelo clsico de seleccin sin
reposicin, se procede a retirar de la poblacin las Mi unidades elementales que componen la
unidad de muestreo compuesta Ui antes de proceder a la seleccin para la muestra de la
siguiente unidad de muestreo compuesta. Cuando se realiza la siguiente seleccin ya faltan de
la poblacin Mi unidades elementales. Se supone que en la poblacin hay N unidades de
muestreo compuestas que contienen un total de M unidades elementales, es decir:
N
M = Mi
i =1

Este modelo clsico de seleccin de la muestra sin reposicin es equivalente a considerar


un modelo de urna generalizado consistente en introducir en una urna M bolas que representan
las unidades elementales de la poblacin y que se clasifican en N grupos distinguibles, cada uno
de los cuales tiene las Mi bolas correspondientes al tamao de la unidad compuesta Ui, de tal
forma que cada unidad compuesta de muestreo Ui queda representada en la urna por Mi bolas
distinguibles. Si en una extraccin se obtiene una bola que representa una unidad elemental del
grupo de la unidad compuesta Ui, se procede a retirar de la urna las Mi bolas correspondientes a
todas las unidades elementales de Ui antes de realizar la siguiente seleccin.

UN U3
MN bolas ..... M3 bolas

U1 U2
M1 bolas M2 bolas

Segn este modelo, la probabilidad de seleccionar la unidad Ui en una extraccin


(probabilidad unitaria de seleccin) es Pi = Mi/M = p(ui) i = 1, 2,..., N. Se cumple que:
N

Mi
Mi
Mi Mi N N
M
Pi = = N Pi = = i =1
= =1
M i =1 M M M
Mi i =1

i =1

con lo que el modelo est bien definido. Los valores i y ij relativos, respectivamente, a la
probabilidad de que una unidad de la poblacin pertenezca a la muestra y de que un par de
unidades de la poblacin pertenezcan a la muestra para muestras de tamao 2 son:

1
N Pj 1
2 Pi N
Pi 1
 i = Pi 1 + = P
i +  ij = Pi Pj +
j =1 1
Pj 1
Pi i =1 1
Pi 1
Pi 1
Pj
j i

Al conocer i yij este mtodo de seleccin sin reposicin queda perfectamente definido,
ya que los estimadores y sus errores dependen slo de estos valores.

El mtodo es generalizable para muestras de tamao n.


Muestreo estadstico: conceptos, estimadores y su distribucin 59

Estimador de Horvitz y Thompson con seleccin Brewer

Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:

k i = Pi
(1
Pi ) Pi <
(1
2 Pi )
y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .
Para muestras de tamao 2 las probabilidades i y ij son las siguientes:

2 Pi Pj 1 1
 i = 2Pi  ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi

Para muestras de tamao n se demuestra que i = nPi.

Estimador de Horvitz y Thompson con seleccin Durbin


El mtodo de Durbin consiste en un muestreo con probabilidades desiguales y sin
reemplazamiento con el siguiente mtodo de seleccin para una muestra de tamao n = 2: la
primera unidad es seleccionada con probabilidad dada Pi y la segunda unidad se selecciona
con probabilidades proporcionales a kj , siendo:

1 1
k j = Pj +
1
2 Pi 1
2 Pj

Para muestras de tamao 2 las probabilidades i y ij son las siguientes:


2 Pi Pj 1 1
 i = 2Pi  ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi

Para muestras de tamao n se demuestra que i = nPi.


Se observa que los valores de  i y  ij son idnticos a los obtenidos con el mtodo
de seleccin de Brewer. Con estos valores ya se pueden hallar estimadores y errores.
Estimador de Horvitz y Thompson con selecciones de Ikeda y Mitzuno
Ikeda propuso un mtodo de seleccin en el que la primera unidad se obtiene sin reposicin
con probabilidad Pi proporcional a su tamao Mi y las n
1 unidades restantes de la muestra
se seleccionan sin reposicin y con probabilidades iguales.
Los valores de i y ij para este mtodo son:
n
1 N
n n
1
 i = Pi + (1
Pi ) * = * Pi +
N
1 N
1 N
1

n
1 n
1 n
1 n
2 n
1 N
n
 ij = Pi * + Pj + (1
(Pi + Pj )) * * = * (Pi + Pj ) + n
2
N
1 N
1 N
1 N
2 N
1 N
2 N
2
60 Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo de Ikeda es un caso particular del mtodo ms general de Mitzuno, que
consiste en comenzar efectuando m extracciones sin reposicin y con probabilidades iguales; en
la extraccin m + 1 se asignan probabilidades:
m
Pr
Pi +
r =1 N
m
donde Pr corresponde a la unidad extrada en r-simo lugar (1 r m), y por ltimo las
n
(m+1) unidades muestrales restantes se seleccionan sin reposicin y probabilidades
iguales. El mtodo de Ikeda es un caso particular del mtodo de Mitzuno para m = 0.

Estimador de Horvitz y Thompson con seleccin Sampford


En este mtodo los elementos muestrales se eligen con reposicin seleccionando el primer
elemento con probabilidad Pi y los restantes n
1 elementos con probabilidades proporcionales a
Pi/(1
nPi). Finalizada la extraccin, la muestra se acepta si todos los elementos son diferentes, y
en caso contrario se rechaza y se vuelve a empezar. Se tiene que:

1 + (Pi + Pj )
Pk2 + 2(Pi 2 + Pj2 )
2 Pk3
(n
2) Pi Pj +
k k
 i = nPi  ij  n(n
1) Pi Pj
+ (n
3)(Pi + Pj )
Pk3
(n
3) Pk2

k k
Muestreo con probabilidades gradualmente variables
Se considera un esquema de urna en el que la unidad Ui viene representada por Mi bolas. En este
esquema de seleccin con probabilidades gradualmente variables, al seleccionar la unidad Ui se
retira una bola de entre las Mi que representan a Ui y no se vuelve a reponer a la urna para la
siguiente extraccin. Se podr extraer la unidad Ui las veces que corresponda mientras no se
acaben las Mi bolas que la representan o mientras no se cubra el tamao n de la muestra, por lo
que la unidad Ui puede figurar en la muestra un mximo de veces igual a Mn(Mi,n) i=1,..,N.
La probabilidad de una muestra de tamao n seguir el modelo hipergeomtrico
generalizado (conjunta de n hipergeomtricas ei). Si cada unidad Ui de la poblacin puede
N
elegirse para la muestra ti veces con i = 1, 2, ..., N y se cumple que t
i =1
i = n , tenemos:

P (~
x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 14243 14243
t1 veces t2 veces t N veces
M 1 M 2 M N M P1 M P2 M PN
L L
t1 t 2 t N t1 t 2 t N N
=
M1 + M 2 +LM N
=
M
con t
i =1
i =n

t1 + t 2 + L t N n
Mediante seleccin con probabilidades gradualmente variables, el estimador lineal
N
insesgado (de Snchez Crespo y Gabeiras) para el parmetro poblacional  = Yi ser:
i =1
n n
1 n
Y
SCG =  i Yi = Yi = i = HH
i =1 i =1 nPi i =1 nPi
Muestreo estadstico: conceptos, estimadores y su distribucin 61

que coincide con la expresin del estimador de Hansen y Hurwitz para muestreo con
reposicin y probabilidades desiguales. Se cumple que:

( )
V SCG =
M
n
M
1
V ( HH )

M
n 1 n Y
2
M
n
V (SCG ) = i
nSCG
2
= V (HH )
M n( n
1) i =1 Pi M

Se observa que el estimador de Snchez Crespo y Gabeiras tiene menor varianza y
menor varianza estimada que el estimador de Hansen y Hurwitz, ya que:

( )
V SCG =
M
n
M
1
V ( HH )  V (HH ) y V SCG =
M
( )
M
n
V ( HH )  V (HH )

Gabeiras sugiri una generalizacin del mtodo anterior consistente en retirar b


bolas en lugar de una cuando la unidad i-sima es seleccionada para formar parte de la
muestra, supuesto un esquema de urnas en el que la unidad U i est representada por M i
bolas (i = 1, ..., N ) , siendo b el mayor valor que permita a todas las unidades estar
Min( M i )
representadas en la urna durante las n extracciones, es decir, b = .
n
1
Snchez Crespo comprob que con esta restriccin la varianza del estimador
resultante es menor e incluso en ciertos casos inferior a la varianza de los estimadores
obtenidos bajo un muestreo sin reposicin y probabilidades desiguales. La varianza del
estimador para el total con el esquema mixto (generalizacin del muestreo gradual) viene
dada por la expresin:
M
bn
V ( X SC ) = V ( X HH )
M
b
Se denomina esquema mixto a este procedimiento de muestreo ya que puede
considerarse con reposicin, en el sentido de que cada unidad puede pertenecer a la muestra
ms de una vez, y sin reposicin, pues no se reponen en la urna las b unidades retiradas en
cada extraccin.

Mtodo de Murthy
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y as sucesivamente. Propuso el estimador del total:
n

P( S / i) X X
2

( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj X i
j
i n n
X M = i =1
, V X M =
P( S ) P( S ) 2 i =1 j > i
Pi Pj

P(S) = Probabilidad incondicional de obtener la muestra S.


P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera
P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras.
Para n=2 se tiene que P(S/i) = Pj/(1
Pi) y P(S) = ij = PiPj(2
Pi
Pj)/(1
Pi)(1
Pj) y adems:
2
Pj 1 Xi Xj (1
Pi )(1
Pj )(1
Pi
Pj ) Xi X j
 i = Pi 1+ X M = (1
Pj ) + (1
Pi ) , V(X M ) =

P P
j i 1
Pj 2
Pi
Pj Pi Pj (2
Pi
Pj )2 i j
62 Muestreo estadstico. Conceptos y problemas resueltos

MTODO DE MONTECARLO

Es un procedimiento general para seleccionar muestras aleatorias simples de cualquier poblacin


(finita o infinita, real o terica) de la que se conoce su distribucin de probabilidad.

Variable aleatoria discreta

Consideremos la variable aleatoria discreta siguiente y veremos cmo se toma una muestra de ella.
x P(x) F(x)
_______________________________________

0 0,41 0,41
1 0,26 0,67
2 0,18 0,85
3 0,10 0,95
4 0,05 1
Observamos los valores de la funcin de distribucin y, basndonos en ellos,
construimos la tabla:
Intervalos x F(x)
_______________________________________

00-40 0 0,41
41-66 1 0,67
67-84 2 0,85
85-94 3 0,95
95-99 4 1
Para seleccionar la muestra aleatoria segn la variable X, elegimos un nmero
aleatorio entre 0 y 99 y observamos en qu intervalo cae, eligiendo para la muestra el valor x
correspondiente a ese intervalo. Tambin se puede tomar el nmero aleatorio y convertirlo
en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el
valor x ms pequeo que verifica F(x) > NA
F(x)
1
0,95

0,85
NA=0,69
0,67

0,41

0 1 2 3 4 x

El valor x ms pequeo que verifica F(x) > 0,69 es x = 2, luego el primer valor para
la muestra es x = 2.
Muestreo estadstico: conceptos, estimadores y su distribucin 63

Variable aleatoria continua

El proceso a seguir sera el siguiente:

Tomar un nmero aleatorio de tantas cifras como precisin se desee y convertirlo en


decimal (por ejemplo, 23457 se convertira en 0,23457), y sea NA dicho valor.

Considerar el valor NA como un valor de F(x) y tomar como valor observado en la


muestra aquel valor de x tal que NA=F(x) x=F-1(NA).

Repetir el proceso con distintos nmeros aleatorios hasta completar el tamao de


muestra deseado.

F(x)

NA

x=F-1(NA) x

Dado el nmero aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).
64 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

2.1. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. Con la
informacin sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamao (nmero de pacientes) con reposicin
utilizando el modelo del tamao acumulativo (o modelo polinomial).

Hospital Pacientes Hospital Pacientes Hospital Pacientes


1 328 2 109 3 432
4 220 5 280 6 190

Puesto que sern seleccionados tres hospitales, deben ser elegidos tres nmeros aleatorios entre el
0001 y el 1559 = Pacientes. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu
hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados registraron
los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das:

Hospital N de pacientes con ms de dos das de permanencia


a 250
b 150
c 80

1) Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales.

2) Establecer un lmite para el error de estimacin con una confianza del 95%.

Para seleccionar la muestra comenzamos construyendo la tabla relativa al mtodo del


tamao acumulativo.

I 1 = [1, M 1 ] = [1,328] Unidades Tamaos


I 2 = [ M 1 + 1,M 1 + M 2 ] = [329,437] u1 M1
I 3 = [438,869]  827 u2 M2
I 4 = [870,1089] u3 M3
I 5 = [1090,1369]  1256 M M
I 6 = [1370,1559]  1505 uN MN

Para seleccionar tres hospitales para la muestra se eligen tres nmeros aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos nmeros en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuacin se presenta un esquema ilustrativo de la seleccin de las unidades
muestrales.
Muestreo estadstico: conceptos, estimadores y su distribucin 65

M3 = 432
M5=280
M4=220 M2=109 A2 = 150
PPT M3=432 P 2=150/280
M5=280 A3 = 250 A1=80
P3=250/432 P1= 80
190
M6=190 M1=328 M6=190

N = 6, M=1559 n=3

A continuacin se realiza la estimacin de la proporcin de pacientes con


permanencia superior a dos das utilizando el estimador de Hansen y Hurwitz (ya que el
mtodo de seleccin de la muestra es con reposicin). Se tiene:

1 1 n
Xi 1 n
Mi Xi 1 n 1 n 1 80 150 250
X = X HH = nP = = X i P = Pi = + + = 0,51
M M i M i M n i n i 3 190 280 432
i
n i
M

Por lo tanto, se estima que un 51% de los pacientes permanece ms de dos das en el
hospital. A continuacin hallamos el error de esta estimacin.
2
Xi
2
2
n n M
1 Y 1 1 n
V (HH ) = i
HH
V ( X HH ) =
X HH = X i
X HH
n(n
1) i =1 Pi
n(n
1) i =1 M i n(n
1) i =1
M

con lo que se tiene:

(P )
n 2

P
1 80
2 2 2

()
i
150 250
V P = i
=
0 ,51 +
0 ,51 +
0 ,51 = 0,0022
n (n
1) 3 2 190 280 432

()
C v P =
V P
=
()
0,0022
= 0,0091  1%
P 0,51
Se observa que el error relativo de muestreo es del 1%. A continuacin se realiza
una estimacin por intervalos al 95% de confianza.

P V ( P ) = 0,51 1,96 0,0022 = [0.4, 0.6]  95 % confianza

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la


estimacin realizada es bastante precisa (solamente un 5% de error).
Utilizando la hoja de clculo Excel, se pueden automatizar los clculos anteriores tal y
como se indica en las figuras siguientes (en las figuras, Pi juega el papel de Pi )
66 Muestreo estadstico. Conceptos y problemas resueltos

2.2. Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fbricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposicin de 25
fbricas presenta la siguiente distribucin de obreros mayores de 50 aos:

Total de obreros
12 17 23 33 36
mayores de 50 aos
N de fbricas
2 3 9 5 6
de la muestra

Estimar el total y la proporcin de obreros de la multinacional con ms de 50 aos, as como


sus errores de muestreo absolutos y relativos.
Muestreo estadstico: conceptos, estimadores y su distribucin 67

9
M2=100 A3 = 23
PI 3
A4 = 33
5 A2 = 17
SR
M400=100 M1=100 A5 = 36 A1 = 12
6 2

N = 400 n = 20

Como el muestreo es con probabilidades iguales y se seleccionan 25 fbricas de entre


400, se tiene i = 25/400 = 0,0625 y ij = (25.24)/(400.399) = 0,00376. Como el mtodo es sin
reposicin, tomamos como estimador del total de clase el estimador de Horwitz y Thompson
y tenemos:
25
A 2 12 + 3 17 + 9 23 + 5 33 + 6 36
A HT = i = = 10608
i =1  i 25 / 400

Para estimar la varianza tomamos el estimador de Yates y Grundy. Tenemos:


2
25  
j
 ij
Ai A j 2
= 0,0625
0,00376 (Ai
A j )2 =
25
V ( A HT ) =
i

 ij 
i j
2
i< j 0,00376 0,0625 i < j
[ ]
= 9,957 2 3(12
17 ) + L + 5 6(33
36) 2 = 386906,5
2

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.

V ( A HT ) = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2
+3*6(17-36)2 +9*5(23-33)2+9*6(23-36)2+5*6(33-36)2 = 386906,553

El error absoluto de muestreo ser ( A HT ) = 386906,5 = 622, con lo que el error


( A HT ) 622
relativo valdr 100 = 100 = 0,05863  5,8%
A 10608
HT

Como estimador de la proporcin de trabajadores mayores de 40 aos tenemos:

A 10608
PHT = HT = = 0,2642 = 26,42%
M 40000
El estimador insesgado de su varianza ser :

V ( A HT ) 386906,5
V ( PHT ) = = = 0,000242
M2 40000 2

El error absoluto de muestreo ser ( PHT ) = 0,000242 = 0,0155 , con lo que el error
( PHT ) 0,0155
relativo valdr 100 = 100 = 0,05863  5,8% .
PHT 0,2642
68 Muestreo estadstico. Conceptos y problemas resueltos

2.3. Considrese la poblacin de los grupos de la materia Introduccin a la Estadstica que se


imparte en cierta universidad. La universidad tiene 647 estudiantes de esta materia repartidos
en 15 grupos con Mi estudiantes cada grupo segn la tabla siguiente:

Grupos ( Poblacin) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mi 44 33 26 22 76 63 20 44 54 34 46 24 46 100 15

Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaos de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introduccin a la
Estadstica. Los datos se recogen en la siguiente tabla:

Grupos ( Muestra) a b c d e
Horas 120 203 100 90 40

Si se ha selecciona la muestra {a, b, c, d, e} por el mtodo del tamao acumulativo, estimar la


cantidad promedio de tiempo semanal que un estudiante emple para estudiar la materia
Introduccin a la Estadstica midiendo la calidad de la estimacin. Estimar por intervalos al 95%.
Podemos realizar la disposicin de los clculos del mtodo del tamao acumulativo y
la obtencin de los cinco nmeros aleatorios, como se indica en la siguiente hoja de Excel.

Realizados los clculos, tenemos la siguiente tabla:


Muestreo estadstico: conceptos, estimadores y su distribucin 69

La muestra estar formada por los grupos {6, 14, 11, 9, 7} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 6 14 11 9 7
Tamaos ( M i ) 63 100 54 46 20

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:

Grupos ( Muestra) 6 14 11 9 7
Horas ( X i ) 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen
y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:

1 1 n X 1 n X 1 n X 1 n 1 120 203 100 90 40


X HH = X HH = i = i = i = X i = + + + + = 1,94
M M i nPi M i M i n i M i n i 5 63 100 54 46 20
n
M
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es algo inferior a dos horas. A
continuacin hallamos el error de esta estimacin.
2

n
2
n
1 1 1 X 1 1 X
V ( X HH ) = 2 V ( X HH ) = 2 i


X = i

MX
M n(n
1) i =1 Pi
HH HH
M M 2 n(n
1) i =1 M i

M
2 2 2
n
Xi = M n
Xi = 1 n X
X
2
1 1 1
= 2 M
M n(n
1) i =1 M i

MX HH
M 2 n(n
1) i =1 M i

X HH i
n(n
1) i =1
HH

con lo que se tiene:

1 120
2 2 2 2 2
203 100 90 40
V X HH =
1,94 +
1,94 +
1,94 +
1,94 +
1,94 = 0,0034
5 4 63 100 54 46 20

V X HH
()
C v P =

=
0,0034
= 0,03  3%
X HH
1,94

Se observa que el error relativo de muestreo es del 3%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HH V ( X HH ) = 0,51 1,96 0,0034 = [1.83, 2.06 ]  95 % confianza

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la


estimacin realizada es bastante precisa (solamente un 3% de error).

A continuacin se presentan clculos y resultados automatizados con Excel.


70 Muestreo estadstico. Conceptos y problemas resueltos
Muestreo estadstico: conceptos, estimadores y su distribucin 71

2.4. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e}


utilizando el mtodo de Lahiri.
Para seleccionar la muestra mediante el mtodo de Lahiri elegimos un par de
nmeros aleatorios (i, j) tales que 1 i  N = 15 y 1 j  M 0 = Max
{ ( M i ) = 100.
i =1, 2 ,..., N

Si j  Mi la unidad seleccionada para la muestra es la ui. Si j > Mi, se repite la


seleccin del par de nmeros aleatorios (i,j) tales que 1 i  N y 1 j  M0 tantas veces como
sea necesario hasta que j  Mi.
La obtencin de los nmeros aleatorios (i,j) puede realizarse con Excel mediante la
funcin ALEATORIO.ENTRE (que se evaluar las veces necesarias para cubrir el tamao
muestral) tal y como se indica en la figura siguiente.

El resultado obtenido es el siguiente:


72 Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 9 14 13 12
Tamaos ( M i ) 76 54 100 46 24

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:

Grupos ( Muestra) 5 9 14 13 12
Horas ( X i ) 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen
y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:

1 1 n X 1 n X 1 n X 1 n 1 120 203 100 90 40


X HH = X HH = i = i = i = Xi = + + + + = 1,99
M M i nPi M i n Mi n i Mi n i 5 76 54 100 46 24
M
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es prcticamente dos horas. A
continuacin hallamos el error de esta estimacin.
2

n
2
n
1 1 1 X 1 1 X
V ( X HH ) = 2 V ( X HH )V ( HH ) = 2 i


X HH = 2 i

MX HH
M M n(n
1) i =1 Pi
M n(n
1) i =1 M i

M
2 2 2
n
= M
n
1 1 Xi 2
1 Xi 1 n
= 2
M
M n(n
1) i =1 M i

MX HH 2

X HH

= X i
X HH
M n(n
1) i =1 M i n(n
1) i =1

con lo que se tiene:

1 120
2 2 2 2 2
203 100 90 40
V X HH =
1,99 +
1,99 +
1,99 +
1,99 +
1,96 = 0,73
5 4 76 54 100 46 24

V X HH
0,73
C v X HH = = = 0,429  43%
X 1,99
HH

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HH V ( X HH ) = 1,99 1,96 0,73 = [0.31, 3.66 ]  95 % confianza

Se observa que el intervalo de confianza es ms ancho que en el problema anterior.


Esto se debe a que la estimacin realizada es menos precisa (43% de error).

A continuacin se presentan clculos y resultados automatizados con Excel.


Muestreo estadstico: conceptos, estimadores y su distribucin 73

2
74 Muestreo estadstico. Conceptos y problemas resueltos

2.5. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposicin utilizando el mtodo de Ikeda.

Mediante el mtodo de Ikeda la primera unidad se obtiene sin reposicin con probabilidad Pi
proporcional a su tamao Mi y las n
1 = 4 unidades restantes de la muestra se seleccionan sin
reposicin y con probabilidades iguales (1/4) descartando el elemento elegido inicialmente.

Los valores de i y ij para este mtodo son:

N
n n
1 n
1 N
n
i = * Pi +  ij = * (Pi + Pj ) + n
2
N
1 N
1 N
1 N
2 N
2

Para elegir la primera unidad proporcional a su tamao podemos utilizar el mtodo


de Lahiri del problema anterior, resultando seleccionada como primera unidad muestral u5.
A continuacin elegimos cuatro nmeros aleatorios entre 1 y 15 (sin tener en cuenta el 5).

Las probabilidades Pi, i y los cuatro nmeros aleatorios restantes para seleccionar
las cuatro unidades que faltan para completar la muestra, pueden obtenerse como se indica
en la tabla Excel siguiente.

El resultado obtenido es el siguiente:


Muestreo estadstico: conceptos, estimadores y su distribucin 75

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 11 4 2 12
Tamaos ( M i ) 76 46 22 33 24

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:

Grupos ( Muestra) 5 11 4 2 12
Horas ( X i ) 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).

MUESTRA Mi Pi=Mi/M i = Pi (N-n)/(N-1) + (n-1)/(N-1) Xi Xi/i


5 76 0,1174652 0,369618017 120 324,659
11 46 0,0710974 0,336498123 203 603,272
4 22 0,0340031 0,310002208 100 322,578
2 33 0,0510046 0,322146169 90 279,376
12 24 0,0370943 0,312210201 40 128,119
SUMA= 1658,01

1 1 25
Xi 1 120 203 100 90 40 1658
X HT = X HT =  = + + + + = = 2,56
M M i =1 i 647 0,369 0,336 0,310 0,322 0,312 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a
la materia de Introduccin a la Estadstica es prcticamente dos horas y media. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).

(Xi/i)2(1-i) ij Xi Xj i j Pi Pj (Xi/i)(Xj/j)(ij-ij)/ij


66444,64999 0,107 120 203 0,3696 0,3365 0,117 0,0711 -31007,41923
241473,2008 0,099 120 100 0,3696 0,31 0,117 0,034 -16210,59516
71798,95557 0,103 120 90 0,3696 0,3221 0,117 0,051 -14192,52368
52907,24303 0,1 120 40 0,3696 0,3122 0,117 0,0371 -6451,525615
11289,67748 0,089 203 100 0,3365 0,31 0,071 0,034 -33402,58498
SUMA=443913,7 0,093 203 90 0,3365 0,3221 0,071 0,051 -28399,38423
0,09 203 40 0,3365 0,3122 0,071 0,0371 -13220,87321
0,085 100 90 0,31 0,3221 0,034 0,051 -16240,761
0,082 100 40 0,31 0,3122 0,034 0,0371 -7715,377148
0,085 90 40 0,3221 0,3122 0,051 0,0371 -6412,377049
2*SUMA= -346506,8426
76 Muestreo estadstico. Conceptos y problemas resueltos

1 5 X X X j  ij
 i  j
( )
2
1 5 5
V X HT = 2 V X HT = 2 2i (1
 i ) + 2 i =
M M i =1  i i =1 j > i  i  j

ij
1 X1 X X 
  X X 
 
2 2
X
(1
 1 ) + L + 5 (1
 5 ) + 2 1 2 12 1 2 + L + 4 5 45 4 5 =

M  1 5 1  2  12 4 5  45
2

443913,7269
346506,8426
= = 0,232692
647 2

con lo que se tiene:


V X HT
0,232692
C v X HT = = = 0,188  19%
X
HT
2,56

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HT V ( X HT ) = 2,56 1,96 0,232692 = [1.617 , 3.508 ]  95 % confianza

Se observa que el intervalo de confianza es ms estrecho que en el problema


anterior. Esto se debe a que la estimacin realizada es ms precisa (19% de error).
A continuacin se presentan clculos y resultados automatizados con Excel.
Muestreo estadstico: conceptos, estimadores y su distribucin 77

2.6. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposicin utilizando el mtodo de Sampford.

En el mtodo de Sampford los elementos muestrales se eligen con reposicin seleccionando


el primer elemento con probabilidad Pi y los restantes n
1 elementos con probabilidades
proporcionales a Pi/(1-nPi). Finalizada la extraccin, la muestra se acepta si todos los
elementos son diferentes, y en caso contrario se rechaza y se vuelve a empezar.

Mediante este mtodo se tiene que:


 i = nPi
78 Muestreo estadstico. Conceptos y problemas resueltos


1 + (Pi + Pj )
Pk2 + 2(Pi 2 + Pj2 )
2 Pk3
(n
2) Pi Pj +
k k
 ij  n(n
1) Pi Pj
+ (n
3)(Pi + Pj )
Pk3
(n
3) Pk2

k k
Para llevar a la prctica el mtodo de Sampford se calculan los Pi = Mi/M y a
continuacin se hallan Pi2 y Pi3, valores que se utilizarn para calculai ij. La siguiente
tarea es calcular Pi/(1
5Pi), Pi = [Pi/(1
5Pi)]/ [Pi/(1
5Pi)] y i = 5Pi.
La siguiente tarea es extraer las cinco unidades muestrales. La primera unidad se extrae
con probabilidad Pi = Mi/M proporcional a su tamao Mi y las siguientes unidades se extraen con
probabilidades Pi= [Pi/(1
5Pi)]/[Pi/(1
5Pi)] proporcionales a Pi/(1
5Pi), con reemplazamiento.
Si sale alguna unidad repetida se repiten otra vez todas las extracciones hasta que no salga
ninguna repetida. Para elegir la primera unidad proporcional a su tamao podemos utilizar el
mtodo de Lahiri del problema 2.4, resultando seleccionada como primera unidad muestral u5.
Para elegir las cuatro siguientes unidades volvemos a repetir el mtodo de Lahiri [extraccin de
pares de nmeros aleatorios (i,j) con 1 i 15 y 0 j  Mx(Mi) = 0,68 hasta que j  Mi] y
resultan elegidas u3, u8, u13 y u14. Las tablas siguientes ilustran las frmulas con Excel y los
resultados obtenidos.

Mi Pi=Mi/M Mi=Pi/(1-5Pi) i Pi' i j Ui Pi2 Pi3


1 44 0,0680062 0,103044 0,34 0,0499 5 0,0046 0,00031
2 33 0,0510046 0,068465 0,255 0,0332 4 0,613 0,0026 0,00013
3 26 0,0401855 0,05029 0,2009 0,0244 14 0,037 <M'3=0,04 3 0,0016 6,5E-05
4 22 0,0340031 0,040968 0,17 0,0198 14 0,665 0,0012 3,9E-05
5 76 0,1174652 0,284644 0,5873 0,1379 4 0,365 0,0138 0,00162
6 63 0,0973725 0,189759 0,4869 0,0919 13 0,514 0,0095 0,00092
7 20 0,0309119 0,036563 0,1546 0,0177 2 0,585 0,001 3E-05
8 44 0,0680062 0,103044 0,34 0,0499 4 0,096 <M'8=0,10 8 0,0046 0,00031
9 54 0,0834621 0,143236 0,4173 0,0694 14 0,231 0,007 0,00058
10 34 0,0525502 0,071279 0,2628 0,0345 11 0,081 0,0028 0,00015
11 46 0,0710974 0,110312 0,3555 0,0534 15 0,674 0,0051 0,00036
12 24 0,0370943 0,045541 0,1855 0,0221 3 0,295 0,0014 5,1E-05
13 46 0,0710974 0,110312 0,3555 0,0534 13 0,054 <M'13=0,11 13 0,0051 0,00036
14 100 0,1545595 0,680272 0,7728 0,3296 1 0,319 <M'14=0,68 14 0,0239 0,00369
15 15 0,0231839 0,026224 0,1159 0,0127 0,0005 1,2E-05
SUMA 647 1 2,063954 5 1 0,0845 0,00864
Muestreo estadstico: conceptos, estimadores y su distribucin 79

La muestra estar formada por los grupos {5, 3, 8, 13, 14} cuyos tamaos son los
siguientes:
Grupos ( Muestra) 5 3 8 13 14
Tamaos ( M i ) 76 26 44 46 100

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:

Grupos ( Muestra) 5 3 8 13 14
Horas ( X i ) 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).

MUESTRA Mi Pi=Mi/M i = 5Pi Xi Xi/i (Xi/i)2(1-i)


5 76 0,1174652 0,5873 120 204,32 17227,0471
3 26 0,0401855 0,2009 203 1010,3 815643,153
8 44 0,0680062 0,34 100 294,09 57080,3719
13 46 0,0710974 0,3555 90 253,17 41311,3781
14 100 0,1545595 0,7728 40 51,76 608,6976
1813,7 931870,648

1 1 25
Xi 1 120 203 100 90 40 1813,7
X HT = X HT =  = + + + + = = 2,8
M M i =1 i 647 0,587 0,201 0,340 0,355 0,772 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 2,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 5).

(Xi/i)2(1-i) ij Xi Xj i j Pi Pj (Xi/i)(Xj/j)(ij-ij)/ij


17227,0471 0,1024232 120 203 0,58733 0,201 0,117 0,04 -31413,39362
815643,153 0,177923 120 100 0,58733 0,34 0,117 0,068 -7357,500123
57080,3719 0,1865756 120 90 0,58733 0,355 0,117 0,071 -6157,939465
41311,3781 0,4440242 120 40 0,58733 0,773 0,117 0,155 -234,8366464
608,6976 0,0554606 203 100 0,20093 0,34 0,04 0,068 -68900,81915
931870,648 0,0582159 203 90 0,20093 0,355 0,04 0,071 -58046,26694
0,1421053 203 40 0,20093 0,773 0,04 0,155 -4846,785171
0,1016725 100 90 0,34003 0,355 0,068 0,071 -14063,38541
0,2458765 100 40 0,34003 0,773 0,068 0,155 -1046,18541
0,2577209 90 40 0,35549 0,773 0,071 0,155 -864,3197294
-385862,8633
80 Muestreo estadstico. Conceptos y problemas resueltos

1 5 X2 X X j  ij
 i  j
1
( )
5 5
V X HT = 2 V X HT = 2 2i (1
 i ) + 2 i =
M M i =1  i
i =1 j > i  i  j  ij

X 12  45
 4  5
(1
 5 ) + 2 X 1 X 2  12
 1 2
1 X 52 X X
(1
 1 ) + L + + L + 4 5 =

M2  1 5 1  2  12 4 5  45
931870,648
385862,8633
= = 1,3043
647 2

con lo que se tiene:

V X HT
1,3043
C v X HT = = = 0,4074  41%
X
HT
2,8

Se observa que el error relativo de muestreo es del 41%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HT V ( X HT ) = 2,8 1,96 1,3043 = [0.56, 5.04 ]  95 % confianza

A continuacin se presentan los resultados automatizados con Excel.


Muestreo estadstico: conceptos, estimadores y su distribucin 81

2.7. Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin mediante el mtodo de Brewer.

Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:

k i = Pi
(1
Pi ) Pi <
(1
2 Pi )
y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .

Para muestras de tamao 2 las probabilidades i y ij son las siguientes:

2 Pi Pj 1 1
 i = 2Pi  ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi

En nuestro problema, para realizar la primera extraccin con probabilidades


proporcionales a ki aplicaremos el mtodo de Lahiri seleccionando pares de nmeros
aleatorios (i,j) con 1 i 15 y 0 j Mx(ki)=0,68 hasta que j  ki,con lo que resulta elegida
la unidad u12 despus de dos intentos.

Para realizar la segunda extraccin con probabilidades proporcionales a Mi


aplicaremos otra vez el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con
1 i  15 y 0  j  Mx(Mi)=100 hasta que j  Mi,con lo que resulta elegida la unidad u4 despus
de tres intentos.

Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.
82 Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {12, 4} cuyos tamaos son los siguientes:

Grupos ( Muestra) 12 4
Tamaos ( M i ) 24 22

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 12 4
Horas ( X i ) 120 203

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente
se presentan todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).

MUESTRA Mi Pi=Mi/M i Xi Xi/i (Xi/i)2(1-i)


12 24 0,03709 0,074 120 1617,5 2422206,3
4 22 0,034 0,068 203 2985,0227 8304401,1
4602,5227 10726607

1 1 25
Xi 1 120 203 4602,5227
X HT = X HT =  = + = = 4,614
M M i =1 i 647 0,074 0,068 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,6 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).

(Xi/i)2(1-i) ij Xi Xj i j Pi Pj (Xi/i)(Xj/j)(ij-ij)/ij


2422206,3 0,00297 120 203 0,07419 0,068 0,037 0,034 -3383694,955
8304401,1 -6767389,909
10726607
Muestreo estadstico: conceptos, estimadores y su distribucin 83

1 5 X i2 X X 
 
= 1 V X ( )
5 5
V X HT = 2
(1
 i ) + 2 i j ij i j =
M 2 HT
M i =1  i 2
i =1 j > i  i  j  ij

1 X 12
(1
 2 ) + 2 X 1 X 2  12
 1 2 = 9,458
X 22
2
(1
 1 ) +
M  12
22
1  2  12

con lo que se tiene:

V X HT
9,458
C v X HT = = = 0,66  66%
X 4,614
HT

Se observa que el error relativo de muestreo es del 66%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HT V ( X HT ) = 4,614 1,96 9,458 = [


1.414 , 10 .6414 ]  95 % confianza

A continuacin se presentan los resultados automatizados con Excel.


84 Muestreo estadstico. Conceptos y problemas resueltos

2.8. Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin utilizando el estimador de Murthy.

Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y as sucesivamente. Propuso el estimador del total:

P( S / i) X X
2

( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj X i
j
i n n
X M = i =1
, V X M =
P( S ) P( S ) 2 i =1 j > i
Pi Pj

P(S) = Probabilidad incondicional de obtener la muestra S.


P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera
P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras.

Para n=2 se tiene que P(S/i) = Pj/(1


Pi) y P(S) = ij = PiPj(2
Pi
Pj)/(1
Pi)(1
Pj) y adems:

2
Pj 1 Xi Xj (1
Pi )(1
Pj )(1
Pi
Pj ) Xi X j
 i = Pi 1+ X M = (1
Pj ) + (1
Pi ) , V(X M ) =

P P
j i 1
Pj 2
Pi
Pj Pi Pj (2
Pi
Pj )2 i j

En nuestro problema, para realizar la primera extraccin con probabilidad Pi


proporcional a su tamao Mi, aplicamos el mtodo de Lahiri seleccionando pares de nmeros
aleatorios (i,j) con 1  i  15 y 0  j  Mx(Mi)=100 hasta que j  Mi, con lo que resulta
elegida la unidad u10 despus de dos intentos.

Para realizar la segunda extraccin con probabilidad Pj/(1


Pi) aplicamos otra vez
el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con 1  i  15 y 0 j 
Mx(Pj/(1
Pi)) = 0,15456 hasta que j  Pj/(1-Pi), con lo que resulta elegida la unidad u2
despus de tres intentos.

Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.
Muestreo estadstico: conceptos, estimadores y su distribucin 85

La muestra estar formada por los grupos {10, 2} cuyos tamaos son los siguientes:

Grupos ( Muestra) 10 2
Tamaos ( M i ) 34 33

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) 10 2
Horas ( X i ) 120 203

A continuacin se realiza la estimacin del promedio de horas semanales que


dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador
de Murthy. En la siguiente tabla se presentan todos los clculos necesarios para realizar la
estimacin (N = 15, n = 2).

ESTIMADOR
MUESTRA Mi Pi=Mi/M i Xi Xi/Pi DEL TOTAL
10 34 0,05255 0,055375 120 2283,5294 3131,088537
2 33 0,051005 0,053834 203 3980,0303

1 1 1 Xi Xj 1
X HT = X HT = (1
Pj ) + (1
Pi ) = 3131,088 = 4,839
M M 2
Pi
Pj Pi Pj 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza.

(1
P )(1
P )(1
P
P ) X X
2

M
1
( ) M
1
V X HT = 2 V X HT = 2

i j

(2
Pi
Pj ) 2
i j
i
j = 1 1223240,6 = 2,92
P Pj 6472
i
86 Muestreo estadstico. Conceptos y problemas resueltos

con lo que se tiene:

V X HT
2,92
C v X HT = = = 0,3532  35%

HTX 4,839

Se observa que el error relativo de muestreo es del 35%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.

X HT V ( X HT ) = 4,839 1,96 2,92 = [


1.48, 8.18]  95 % confianza

A continuacin se presentan los resultados y frmulas con Excel.


Muestreo estadstico: conceptos, estimadores y su distribucin 87

2.9. En una regin montaosa de 25000 hectreas se trata de estudiar la superficie dedicada a la
plantacin de pinos. La regin de divide en 100 zonas disjuntas lo ms similares entre s, de
tal forma que cada zona contiene plantas de todas las clases que crecen en la regin. Se
extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a
sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:

0.05, 0.25, 0.10, 0.30, 0.15, 0.25, 0.35, 0.25, 0.10 y 0.20

Se pide:

1) Un estimador insesgado de la superficie total de la regin dedicada a la plantacin de


pinos, su error relativo y un intervalo de confianza al nivel = 0,05.

2) Contestar a las mismas preguntas del apartado anterior suponiendo que la seleccin es
sin reposicin mediante el mtodo de Ikeda. En este caso considerar la muestra con slo
tres zonas de igual superficie (250 hectreas) para las que las proporciones de superficie
total dedicadas a la plantacin de pinos en cada una de ellas son 0.25, 0.35 y 0.40,
respectivamente. Se supone en este caso que las 100 zonas de la poblacin son de igual
superficie.

Considerando muestreo con reposicin (CR) y seleccin con probabilidades


proporcionales a los tamaos (PPT), el esquema del problema es el siguiente:

M2 X1/M1 X2/M2 X3/M3


PPT 0,05 0,25 0,10
X4/M4 X5/M5 X6/M6 X7/M7
CR 0,30 0,15 0,25 0,35

X8/M8 X9/M9 X10/M10


M100 M1 0,25 0,10 0,20

N = 100 M = 25000 n = 20
88 Muestreo estadstico. Conceptos y problemas resueltos

Sea Mi = Superficie de la zona i-sima


Sea Xi = Superficie dedicada a la plantacin de pinos

n
X n
Xi M n
Xi 25000
X HH = i = = M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i

M
2 2 2
n Xi n
Xi
n
X

X
X M i
X HH

i =1 Pi
HH
i =1 M i M
HH Mi
i =1
V ( X HH ) = = = =
n(n
1) n(n
1) n(n
1)

(25000 0,05
5000) 2 + (25000 0,25
5000) 2 + L + (25000 0,20
5000) 2
= 590278
10(10
1)

V ( X ) 590278
C v( X ) = = = 0,15 (15%)
X 5000

La estimacin por intervalos suponiendo normalidad en la poblacin es:

X ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:

( X ) 590278
X = 5000 = [1564, 8346]
0,05

Para resolver el segundo apartado del problema consideramos la muestra con slo tres
zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total
dedicadas a la plantacin de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente.
Como los Pi son proporcionales a las superficies de las zonas se tiene:

M 250
P = i = = 0,01 (i = 1,2,3 j = 1,2,3)
X1 X1 i M 25000
= = 0,25 X 1 = 62,5
M 1 250  i = Pi + n
1 (1
Pi ) = 0,01 + 2 0,9 = 0,028
X2 X N
1 99
= 2 = 0,35 X 2 = 87,5
P + Pj
M 2 250  ij = (n
1) [( N
n) i +
n
2
]=
X3 X3 ( N
1) N
2 N
2
= = 0,40 X 3 = 100
M 3 250 = (3
1) [(100
3) 0,02 + 3
2 ] = 0,006
(100
1) 100
2 100
2

n
Xi 1
Sin reposicin X HT = = (62,5 + 87,5 + 100) = 8928,6
i =1 i 0,028
Muestreo estadstico: conceptos, estimadores y su distribucin 89

2
n
X n
X X 
 i j
V ( X HT ) = i (1
 i ) + 2 i j ij = 49429600
i =1  i

i< j  i  j  ij

49429600
C v( X ) = = 0,78 X ( X ) = [
5122.6, 22989.8]
8928,6

2.10. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15
departamentos. Se selecciona una muestra de tres departamentos con reposicin y
probabilidades proporcionales al nmero de artculos de equipo en cada departamento. La
tabla siguiente presenta el nmero de artculos de equipo NA en cada departamento D.

D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6

a) Suponiendo que los tres departamentos seleccionados (que sern los de mayor
probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero
total de artculos impropiamente identificados en la empresa y su error relativo de muestreo.

b) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo


que los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos
impropiamente identificados. Qu estimador es mejor?

El esquema del problema es el siguiente:

M1=12 M2 = 9 M3 =10
M4=40
A1 = 2
M4=40 M5 = 35 M6 =15 PPT M5=35 P 1=2/40
A 2 = 2 A3=2
M7=18 M8 = 10 M9 =31 CR P 2=2/35 P3= 2
33
M10=22 M11= 22 M12 =19 M14=33

M13=16 M14= 33 M15 =6

N = 15, M=315 n=3

Como se selecciona la muestra de tres departamentos con probabilidades PPT


proporcionales al nmero de artculos de equipo en cada departamento, los tres departamentos
seleccionados para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor
probabilidad de seleccin (por tener el mayor nmero de artculos). Al ser la seleccin con
probabilidades proporcionales a los tamaos, se tiene que Pi = M i / M , con lo que:

40 35 33
P1 = , P2 = y P3 =
315 315 315
90 Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n
A n
M i Pi 1 n M i Pi M n
315 2 2 2
A HH = i = = = P = i + +  18
i nPi i n Mi M n i Mi M n i 3 40 35 33
Pi = proporcin muestral en el conglomerado i-simo.

Como estamos en muestreo con reposicin y probabilidades desiguales


proporcionales a los tamaos, utilizamos para estimar la varianza la siguiente expresin:
2 2
A n n M P
( )
n
i Pi
A i Pi i
M P M 2 Pi
P
2

()
V A = i
n (n
1)
= i

n (n
1)
= i

n (n
1)
=

315 2 2 18
2
2 18
2
2 18
2


+
+
= 1,04209
3 2 40 315 35 315 33 315

Para estimar la proporcin de artculos propiamente identificados observamos que


los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27
artculos propiamente identificados respectivamente. El estimador ser el siguiente:

1 1 n
A 1 M n
1 n 1 36 30 27
PHH = AHH = i nPi = M n i i = n i Pi = 3 40 + 35 + 33 = 0,858
P
M M i

(P
P )
n 2

1 36
2 2 2

() 1
() 30 27
i
V P = 2 V A = i
=
0,858 +
0,858 +
0,858 = 0,000558
M n(n
1) 3 2 40 35 33

El intervalo de confianza al 95%, suponiendo normalidad, ser:


P V ( P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043]

2.11. Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una,
emprende un proceso de auditora informtica. Para ello se extrae una muestra sin reposicin
y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay
microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos
ordenadores defectuosos. Se pide:

1) Estimar el nmero total de microordenadores defectuosos en el banco y sus errores absoluto


y relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995) = 2,57).

2) Resolver el problema con reposicin y comparar los resultados con los del apartado
primero.
Muestreo estadstico: conceptos, estimadores y su distribucin 91

Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposicin, el
total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y
Thompson. Adems, al ser el muestreo con probabilidades iguales tenemos que i = n/N =
20/1000 = 0,02 y ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:

25
A 9 0 + 8 1 + 3 2
A HT = i = = 700
i =1  i 0,02

La varianza se estima de la siguiente forma:

A Aj  ij
 i  j 1
0,02 20 2 2(0,00038
0,022 ) 20 20
( ) A2
20 20 20
V A HT = i2 (1
 i ) + 2 i
0,022 Ai Aj
= Ai +
i =1  i

i =1 j >i  i  j 0,022 0,00038 i =1 j >i
ij i =1

9 8 3
2450(9 02 + 8 12 + 3 22 )
263,15 (0 0) + 9 8(0 1) + 9 3(0 2) + (1 1) + 8 3(1 2) + (2 2)
2 2 2
= 25842,1

Ahora calculamos el error relativo.

V ( A ) 25842,1
C v( A ) = = = 0,2296 (22,96%)
A 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A ( A ) = 700 2.57 25842,1 = [286.86, 1113.14]

La estimacin por intervalos sin normalidad en la poblacin es:

( A ) 25842,1
A = 700 = [
907.55, 2307.55]
0,01

Para muestreo sin reposicin, para estimar la varianza podramos haber tomado el
estimador de Yates y Grundy:
2
20  
j
 ij
Ai A j 2
= 0,02
0,00038 (Ai
A j )2 =
20
V ( A HT ) =
i

 ij 
i< j i j 0,00038 0,02 2 i < j
[
= 131,58 9 8(0
1) + 9 3(0
2 ) L + 8 3(1
2) 2 = 26842,3
2 2
]
Se observa que el estimador de Yates y Grundy sobreestima la varianza en este caso.

Cuando el muestreo es con reposicin, el total de microordenadores defectuosos


puede estimarse mediante el estimador de Hansen y Hurwitz. Adems, al ser el muestreo con
probabilidades iguales, Pi = 1/N y tendremos:
92 Muestreo estadstico. Conceptos y problemas resueltos

n
A n
A N n
1000
A HH = i = i = A i = (9 0 + 8 1 + 3 2) = 700
i nPi 1 n 20
i
n i

La varianza se estima de la siguiente forma:


2 2
A
n
n
Ai 20 20
i Pi
A 1/ N
700 (1000 A
700 )
2
100 2 (10 Ai
7 )
2

()
i
V A = i = i = i =1
= i =1
=
n (n
1) n (n
1) 20 (20
1) 380

=
1000
38
[ 2 2 2
]
9 (10 0
7 ) + 8 (10 1
7 ) + 3(10 2
7 ) = 26842 ,1

V ( A ) 26842,1
C v( A ) = = = 0,234 (23,4%)
A 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A ( A ) = 700 2.57 26842,1 = [283.2, 1116.8]

La estimacin por intervalos sin normalidad en la poblacin es:

( A ) 26842,1
A = 700 = [
921.9, 2321.9]
0,01

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.

V ( A ) 26842,3
C v( A ) = = = 0,234 (23,4%)
A 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A ( A ) = 700 2.57 26842,1 = [279, 1121]

La estimacin por intervalos sin normalidad en la poblacin es:

( A ) 26842,1
A = 700 = [
938.35, 2338.35]
0,01

Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo
con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea,
peores) en muestreo con reposicin. La ganancia en precisin es (26842,1/25842,1-1)100=3,8%,
que es una cantidad pequea. Tambin se observa que el estimador de Yates y Grundy para
muestreo sin reposicin sobreestima la varianza hasta hacerla incluso mayor que en el caso de
con reposicin (debido a la baja ganancia en precisin del muestreo sin reposicin).
Muestreo estadstico: conceptos, estimadores y su distribucin 93

2.12. Generar una muestra de tamao 50 de cada una de las siguientes distribuciones:

a) Uniforme entre 10 y 20
b) Poisson con =1

Calcular la media aritmtica en cada muestra y realizar un histograma para sus valores
comentando los resultados.

Para obtener muestras aleatorias segn una distribucin dada es necesario utilizar una
herramienta adecuada. Antiguamente se usaban tablas de nmeros aleatorios, pero en la
actualidad cualquier software estadstico dispone de esta funcionalidad. Por ejemplo, Excel
dispone de dos funciones para seleccin de nmeros aleatorios uniformemente con reposicin.
La funcin ALEATORIO( ) devuelve un nmero aleatorio mayor o igual que 0 y menor que 1,
distribuido uniformemente. Cada vez que se calcula la hoja de clculo, se devuelve un nmero
aleatorio nuevo. Si desea usar ALEATORIO para generar un nmero aleatorio, pero no desea
que los nmeros cambien cada vez que se calcule la celda, puede escribir =ALEATORIO( ) en
la barra de frmulas y, despus, pulsar la tecla F9 para cambiar la frmula a un nmero
aleatorio. Para generar un nmero real aleatorio entre a y b, use: ALEATORIO( )*(b-a)+a. No
obstante, la funcin ALEATORIO.ENTRE(a,b) devuelve un nmero entero aleatorio
uniforme entre los nmeros a y b

Por otra parte, Excel permite obtener nmeros aleatorios independientes extrados
segn una distribucin dada utilizando herramientas de anlisis. Si en el cuadro de dilogo
Anlisis de datos de la Figura 2-1 elegimos Generacin de nmeros aleatorios, se obtiene el
cuadro de dilogo Generacin de nmeros aleatorios de la Figura 2-2. En el cuadro Nmeros
de variables introduzca el nmero de columnas de valores que desee incluir en la tabla de
resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas las columnas del
rango de salida que se haya especificado. En el cuadro Cantidad de nmeros aleatorios
introduzca el nmero de puntos de datos que desee ver. Cada punto de datos aparecer en una
fila de la tabla de resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas
las columnas del rango de salida que se haya especificado. En el cuadro Distribucin haga clic
en la distribucin estadstica que desee utilizar para crear los valores aleatorios.

Figura 2-1 Figura 2-2


Las distribuciones posibles son:
Uniforme: Caracterizada por los lmites inferior y superior. Se extraen las variables con
probabilidades iguales de todos los valores del rango. Una aplicacin normal utilizar una
distribucin uniforme en el rango 0...1.
94 Muestreo estadstico. Conceptos y problemas resueltos

Normal: Caracterizada por una media y una desviacin estndar. Una aplicacin normal
utilizar una media de 0 y una desviacin estndar de 1 para la distribucin estndar normal.
Bernoulli: Caracterizada por la probabilidad de xito (valor p) en un ensayo dado. La
variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una
variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la
probabilidad de xito, se asignar el valor 1 a la variable aleatoria de Bernoulli; en caso
contrario, se le asignar el valor 0.
Binomial: Caracterizada por una probabilidad de xito (valor p) durante un nmero de
pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de nmero de
pruebas, cuya suma ser una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribucin de Poisson se
utiliza con frecuencia para caracterizar el nmero de incidencias por unidad de tiempo; por
ejemplo, el ritmo promedio al que llegan los vehculos a una garita de peaje.
Frecuencia relativa: Caracterizada por un lmite inferior y superior, un incremento, un
porcentaje de repeticin para valores y un ritmo de repeticin de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe
contener dos columnas. La columna izquierda deber contener valores y la derecha
probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1.
En el campo Parmetros introduzca un valor o valores para caracterizar la
distribucin seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual
se generarn nmeros aleatorios. Podr volver a utilizar este valor para generar los mismos
nmeros aleatorios ms adelante. En el cuadro Rango de salida introduzca la referencia
correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel
determinar el tamao del rea de resultados y mostrar un mensaje si la tabla de resultados
reemplaza datos ya existentes. Haga clic en la opcin En una hoja nueva para insertar una
hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo. Para asignar un nombre a la nueva hoja de clculo, escrbalo en el cuadro.
Haga clic en la opcin En un libro nuevo para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las
opciones de Generacin de nmeros aleatorios de la Figura 2-2 (10 nmeros aleatorios
normales de media cero y varianza 1 con semilla 50).

Figura 2-3
Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposicin de
una poblacin numrica dada como rango de entrada. Si en el cuadro de dilogo Anlisis de datos
de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de dilogo Muestra de la Figura 2-5. A
continuacin se explica la funcionalidad de todos los campos del cuadro de dilogo Muestra.
Muestreo estadstico: conceptos, estimadores y su distribucin 95

Figura 2-4

Figura 2-5 Figura 2-6

Rango de entrada: Introduzca la referencia correspondiente al rango de datos que contenga la


poblacin de valores de los que desee extraer una muestra. Microsoft Excel extraer muestras
de la primera columna, luego de la segunda y as sucesivamente.

Rtulos: Active esta casilla si la primera fila y la primera columna del rango de entrada
contienen rtulos. Desactvela si el rango de entrada carece de rtulos; Excel generar los
rtulos de datos correspondientes para la tabla de resultados.

Mtodo de muestreo: Haga clic en Peridico o Aleatorio para indicar el intervalo de


muestreo que desee.

Perodo: Introduzca el intervalo peridico en el que desee realizar la muestra. El valor n del
perodo del rango de entrada y cada valor n del perodo siguiente se copiarn en la columna
de resultados. El muestreo terminar cuando se llegue al final del rango de entrada.

Nmero de muestras: Introduzca el nmero de valores aleatorios que desee en la columna de


resultados. Cada valor se extrae de una posicin aleatoria del rango de entrada y puede
seleccionarse cualquier nmero ms de una vez.

Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la


tabla de resultados. Los datos se escribirn en una sola columna debajo de la celda. Si
selecciona Peridico, el nmero de valores de la tabla de resultados ser igual al nmero de
valores del rango de entrada, dividido por la tasa de muestreo. Si selecciona Aleatorio, el
nmero de valores de la tabla de resultados ser igual al nmero de muestras.
96 Muestreo estadstico. Conceptos y problemas resueltos

En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.

En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados
en una hoja nueva del libro creado.
Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamao
10 con reposicin de la columna C de la Figura 2-6, que ha sido extrada de la poblacin de
22 elementos de la columna B. Si la muestra se quiere sin reposicin, se utiliza este mismo
procedimiento hasta obtener tantos elementos distintos como tamao muestral se requiera.

Centrndonos ya en nuestro problema particular, seleccionaremos nuestra primera


muestra de tamao 50 aleatoria uniforme de valores entre 10 y 20. Para ello, situamos la funcin
ALEATORIO( )*(20-10)+10 en una casilla de Excel y arrastramos esta frmula 50 casillas hacia
abajo. Para seleccionar la muestra de Poisson, en Herramientas  Anlisis de datos elegimos
Generacin de nmeros aleatorios y rellenamos la pantalla de entrada como se indica en la Figura
2-7. Al pulsar Aceptar se obtiene la columna de 50 nmeros aleatorios de Poisson con = 2. Con
las funciones PROMEDIO(A2:A51) y PROMEDIO(B2:B51) calculamos las medias de ambas
columnas de nmeros aleatorios obteniendo como resultado nmeros cercanos a 15 y 2, que son el
centro del intervalo en la distribucin uniforme y el parmetro de la distribucin de Poisson,
respectivamente.

Figura 2-7

Para representar los histograma de frecuencias de cada muestra, en Herramientas 


Anlisis de datos (Figura 2-8) elegimos Histograma y rellenamos la pantalla de entrada como se
indica en las Figuras 2-9 y 2-10. Al pulsar Aceptar se obtienen los histogramas de frecuencias. La
Figura 2-11 presenta las dos series de nmeros aleatorios con sus distribuciones de frecuencias y
sus histogramas. Se observa que el histograma de la distribucin de Poisson se acerca mucho a una
normal.
Muestreo estadstico: conceptos, estimadores y su distribucin 97

Figura 2-8

Figura 2-9 Figura 2-10

Figura 2-11
98 Muestreo estadstico. Conceptos y problemas resueltos

2.13. Sea la poblacin {U1, U2, U3} en la que se conocen los valores de una determinada variable X:
X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades
proporcionales a los valores de la variable X en cada extraccin, resultando elegidas las unidades U1
y U3. Se pide:
1) Calcular la estimacin puntual lineal insesgada para el total de la variable X.
2) Calcular la estimacin por intervalos al 95% para el total de la variable X (poblacin normal).
Como el muestreo es con probabilidades proporcionales a los nmeros 2, 3 y 6,
tenemos que las probabilidades iniciales de seleccin de cada unidad poblacional para la
muestra son Pi = Mi/Mi, es decir: 2/11, 3/11 y 6/11. Como el mtodo es sin reposicin
tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:

1
2 Pi 3
P
 i = Pi + i
1
Pi i =1 1
Pi

1
2( 2 / 11) 2 / 11 3 / 11 6 / 11
 1 = (2 / 11) + + + = 0,468
1
2 / 11 1
2 / 11 1
3 / 11 1
6 / 11

1
2(3 / 11) 2 / 11 3 / 11 6 / 11
 2 = (3 / 11) + + + = 0,660
1
3 / 11 1
2 / 11 1
3 / 11 1
6 / 11

1
2(6 / 11) 2 / 11 3 / 11 6 / 11
 3 = (6 / 11) + + + = 0,871
1
6 / 11 1
2 / 11 1
3 / 11 1
6 / 11
2
X 2 6
X HT = i = + = 11,16
i =1 i 0,468 0,871

Para estimar la varianza necesitamos el valor de 12. Tenemos:

12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase tambin mediante:

1 1 2 6 1 1
 ij = Pi Pj + = +
11 11 1
2 / 11 1
6 / 11
=0,34
1
P 1
P
i j

X X j  ij
 i  j 4(1
0,468) 36(1
0,871)
( ) X2
2 2 2
V X HT = 2i (1
 i ) + 2 i = + +
i =1  i i =1 j > i  i  j
 ij 0,468 2 0,8712

2 6 0,34
(0,468)(0,871)
+2 = 15,837
11,711 = 4,126
0,468 0,871 0,34

( X HT ) 4,126
El error relativo de muestreo ser 100 = 100  18,2%
X HT 22
La estimacin por intervalos suponiendo normalidad en la poblacin es:

X ( X ) = 11,16 1,96 4,126 = [7.17, 15.14]


Muestreo estadstico: conceptos, estimadores y su distribucin 99

2.14. Consideremos una regin con N = 3 municipios con una poblacin de 3, 5 y 7 miles de habitantes
cada uno. Sabemos que la variable X = Nmero de mujeres en cada municipio toma los valores 1,
3, y 4 (en miles). Para estudiar el nmero medio de mujeres en la regin se toman muestras de dos
municipios con probabilidades proporcionales a sus tamaos sin reposicin y sin tener en cuenta el
orden de colocacin de sus elementos utilizando el mtodo de Brewer. A partir de las distribuciones
en el muestreo de X HT y V ( X HT ) , hallar V ( X HT ) , E ( X HT ) y E (V ( X HT )) . Comentar los
resultados.
Como estamos ante un mtodo de seleccin de unidades primarias compuestas con
probabilidades iniciales proporcionales a los tamaos 3, 5 y 7, dichas probabilidades sern
{3/15, 5/15, 7/15}. Como no hay reposicin y las probabilidades son desiguales, utilizamos el
estimador de Horwitz y Thompson.
Dado que el mtodo de seleccin es el de Brewer tenemos:

2 Pi Pj 1 1
i = nPi = 2Pi ,  ij = * +
N
Pi 1
2 Pi 1
2 Pj
1+
i =1 1
2 Pi

Dado que el mtodo es sin reposicin y no importa el orden de colocacin de los


elementos en las muestras, el espacio muestral est constituido por la muestras (u1,u2), (u1,u3) y
(u2,u3) con P1= p(u1) =3 /15, P2 = p(u2) = 5/15 y P3 = p(u3) = 7/15. La distribucin en el
muestreo (con el esquema de seleccin de Brewer) del estimador de Horvitz y Thompson y del
estimador de su varianza, as como el espacio muestral y las probabilidades asociadas a las
muestras se presentan en el siguiente cuadro:
2
X X2  
 12 X 1 X 2
X1 X2 i  ij X HT = 1 + VYG ( X HT ) = 1 2 +
2 P1 2 P2  12 1 2
1 3 6 1 12
15 15 7
10 5 95
1 4 0 ,38265
15 15 14
14 9 123
3 4 15 15 14 0 , 00170

A partir de las distribuciones de X HT y V ( X HT ) podemos calcular su esperanza y su


varianza de la siguiente forma:
E( X HT ) = 7(1/15)+(95/14)(5/15)+(123/14)(9/15) = 8
V( X HT ) = (7-8)2(1/15 -8)2+(95/14 -8)2(5/15 -8)2+(123/14 -8)2(9/15) = 0,9285
E( V ( X HT ) ) = 12(1/15)+0,38265(5/15)+0,0017(9/15) = 0,9285
V( V ( X HT ) ) = (12-0,9285)2(1/15)+(0,38265-0,9285)2 (5/15)+(0,0017-0,9285)2 (9/15) = 8,768

Segn el resultado anterior se tiene E ( X HT ) = 8 = X, con lo que se comprueba que el


estimador de Horwitz y Thompson es insesgado. Tambin se tiene que V ( X HT ) = 0.9285 y
E (V ( X HT )) = 0,9285 = V ( X HT ) , con lo que se comprueba que el estimador de la varianza es
insesgado.
100 Muestreo estadstico. Conceptos y problemas resueltos

2.15. Resolver el problema anterior considerando ahora el esquema de seleccin de probabilidades


gradualmente variables de Snchez Crespo y Gabeiras con probabilidades iniciales de seleccin de
las unidades {1/6, 1/3, 1/2}. Comparar los resultados con los obtenidos utilizando muestreo con
reposicin sin tener en cuenta el orden de colocacin de los elementos en las muestras.

Segn el esquema de probabilidades gradualmente variables, se puede suponer que existen seis
bolas en una urna de las que una bola representa a la unidad u1, dos bolas representan a la unidad
u2 y tres bolas representan a la unidad u3, ya que P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 = 2/6 y P3 =
p(u3) = 1/2 = 3/6. En cada seleccin se extrae una nica bola que no se repone a la urna para
seleccionar la siguiente bola, con lo que al seleccionar la segunda bola falta una bola de la urna.
Segn este esquema, el espacio muestral y las probabilidades asociadas a las muestras sern:

S(X ) P (u i , u j ) = P (u i ) P (u j / u i ) + P (u j ) P (u i / u j )
(u 1 , u 2 ) 1 1 2 1 2
+ = = 0 ,13333333
6 5 6 5 15
(u 1 , u 3 ) 1 3 3 1 3
+ = = 0,2
6 5 6 5 15
2 1 1
(u 2 , u 2 ) = = 0 , 06666666
6 5 15
2 3 3 2 6
(u 2 , u 3 ) + = = 0,4
6 5 6 5 15
3 2 3
= = 0,2
(u 3 , u 3 ) 6 5 15

El estimador insesgado para el total de Snchez Crespo y Gabeiras es:

n
X X X
X SCG = i = 1 + 2
i =1 nPi 2 P1 2 P2

6
2 1 X 12 X 22 X 32
( )
Su varianza es V X HT =
M
n 1 n X i2

M
1 n i =1 Pi

X 2 =
6
1 2 P1
+
P2
+
P3

82

El estimador insesgado de la varianza vale:

M
n 1 n Xi 6
2 1 X 2 X 2
2

V ( X SCG) =
nX SCG
2
= 1 + 2
2 X SCG
2

M n(n
1) i =1 Pi 6 2(2
1) P1 P2

El cuadro del diseo muestral completo sera el siguiente:

1 X
2 2
X X X
X1 X2  ij X SCG = 1 + 2 V ( X SCG ) = 1 + 2
2 X SCG
2

2 P1 2 P2 3 P1 P2

1 3 0 ,1333 7 ,5 1,5
1 4 0,2 7 0 , 6666
3 3 0 , 0666 9 0
3 4 0,4 8 ,5 0 ,1666
4 4 0,2 8 0
Muestreo estadstico: conceptos, estimadores y su distribucin 101

A partir del diseo anterior se tiene E ( X SCG ) = (7,5)0,1333 + + 8(0,2) = 8 = X =


1 + 3 + 4, con lo que se comprueba que el estimador de Snchez Crespo y Gabeiras es
insesgado. Tambin se tiene a partir del diseo que V ( X SCG ) = (7,5-8)2(0,1333) + + (8-8)2(0,2)
= 0.4 y E (V ( X SCG )) = (1,5)0,1333 + + 0(0,2) = 0,4 = V ( X SCG ) , con lo que el estimador de
la varianza es insesgado. Por ltimo se tiene V (V ( X SCG )) = (1,5
0,4)2 (0,1333) +
+(0
0,4)2(0,2) = 0,24.
El clculo de la varianza del estimador del total de Snchez Crespo y Gabeiras
tambin puede realizarse a travs de su frmula correspondiente como sigue:

4 1 X12 X22 X32 2 4 1 12 32 42


( )
V X SCG =
6
2 1 3 Xi2

X 2 =
6
1 2 i =1 Pi
+
5 2 P P P +
8 = + +
5 2 1/ 6 1/ 3 1/ 2
82
= 0,4

1 2 3

Para el caso de muestreo con reposicin sin importar el orden de colocacin de los
elementos en las muestras la probabilidad de cualquier muestra ser:
P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2
Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 =
p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposicin el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X HH = X1/2P1 +
X2/2P2). Como estimador insesgado para la varianza se puede utilizar:

1 n X 2 1 X 2 X
2

V ( X HH ) = i
nX HH
2
= 1 + 2
2 X HH
2

n ( n
1) i =1 Pi 2( 2
1) P1 P2

La distribucin en el muestreo del estimador de Hansen y Hurwitz y del estimador de su


varianza, as como el espacio muestral y las probabilidades asociadas a las muestras se presentan
a continuacin:

1 X
2 2
X X X
X1 X2 Pij = P ( u i , u j ) X HH = 1 + 2 V ( X HH ) = 1 + 2
2 X HH
2

2 P1 2 P2 2 P1 P
2

1 1 0 ,1666 6 0
1 3 0 ,1666 7 ,5 2 , 25
1 4 0 ,1666 7 1
3 3 0 ,3333 9 0
3 4 0 ,3333 8 ,5 0 , 25
4 4 0 ,5 8 0

Segn la tabla anterior, E ( X HH ) = 6(0,1666) + + 8(0,5) = 8 = X = 1 + 3 + 4, con lo que


se comprueba que el estimador de Hansen y Hurwitz es insesgado. Tambin se tiene que
V ( X HH ) = (6-8)2(0,1666 + + (8-8)2(0,5) = 0,5 y E (V ( X HH )) = 0(0,1666) + +0(0,5) =
0,5 = V ( X ) , con lo que el estimador de la varianza es insesgado. Por ltimo se tiene que
HH

V (V ( X HH )) = (0-0,5)2(0,1666) + + (0-0,5)2(0,5) = 0,5.


102 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de la varianza del estimador del total de Hansen y Hurwitz tambin puede
realizarse a travs de su frmula correspondiente como sigue:

1 12 32 42
( ) 1 3 X2
2 i =1 Pi
1 X2 X2 X2
V X HT = i
X 2 = 1 + 2 + 3
82 =

+ +
82 = 0,5

2 P1 P2 P3 2 1/ 6 1/ 3 1/ 2

M
n
Observando los resultados vemos que se cumple V ( X SCG ) = V ( X HH ) , ya que
M
1
0,4=[(6-2)/(6-1)]0,5.
M
n
Adems, V ( X SCG ) = V ( X HH ) , ya que V ( X SCG ) = [(6-2)/6] V ( X HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.

( )
Como V ( X SCG ) =0,4 y V X HT =0,5, el mtodo de seleccin con probabilidades
gradualmente variables con el estimador de Snchez Crespo y Gabeiras resulta ms preciso
que el mtodo de seleccin con reposicin de Hansen y Hurwitz.

2.16. Supongamos que tenemos una poblacin de N = 5 nios para los que sus edades correspondientes en
aos son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposi-
cin de tamao 2 de la poblacin de nios con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los nios basado en la muestra de
mayor probabilidad, as como su error de muestreo.
2) Si consideramos la seleccin de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
nios basado en la muestra (4,8) as como su error de muestreo.

Como no se especifica nada respecto al orden de colocacin de los elementos en las muestras y
el muestreo es sin reposicin, supondremos que el orden no interviene. Habr entonces
5
=10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
2
Las probabilidades iniciales de seleccin Pi proporcionales a M1=10, M2=16, M3=16,
M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25,
M4/M=1/4, M5/M=33/100}. Las probabilidades ij se calcularn de la siguiente forma:

 ij = P((u i u j )  ( ~x )) = P(u i  1  u j  2 ) + P(u j  1  u i  2 )


= P (u i  1 ) P (u j  2 / u i  1 ) + P (u j  1 ) P (u i  2 / u j  1 ) =
Mi Mj Mj Mi Pj P 1 1
+ = Pi + Pj i = Pi Pj +
M M
Mi M M
Mj 1
Pi 1
Pj 1
Pi 1
Pj
Y como ya conocemos las Pi, para calcular las probabilidades ij basta sustituir en la
frmula anterior. Tambin es posible el clculo como sigue:

11 = P(3,3) = P(31)P(32/31) + P(31)P(32/31) = (M1/M)(M2/(M-M1)) +


(M2/M)(M1/(M-M2)) = (1/10)(16/90) + (4/25)(10/84) = 0,0368
Muestreo estadstico: conceptos, estimadores y su distribucin 103

12 = P(3,4) = P(31)P(42/31) + P(41)P(32/41) = (M1/M)(M3/(M-M1)) +


(M3/M)(M1/(M-M3)) = (1/10)(16/90)+(4/25)(10/84) = 0,0368

13 = P(3,6) = P(31)P(62/31) + P(61)P(32/61) = (M1/M)(M4/(M-M1)) +


(M4/M)(M1/(M-M4)) (1/10)(25/90)+(1/4)(10/75) = 0,0611

De la misma forma se obtiene 14=0,0611, 15=0,0859, 23=0,0609, 24=0,1009,


25 =0,1416, 34 =0,1009, 35 =0,1416 y 45 =0,2331
El clculo de los i se realiza de la forma siguiente:

1 = 12+13+14+15=0,0368+0,0368+0,0611+0,0859=0,22069
2 = 12+23+24+25=0,0368+0,0609+0,1009+0,1416=0,34039
3 = 13+23+34+35=0,0368+0,0609+0,1009+0,1416=0,34039
4 = 14+24+34+45=0,0611+0,1009+0,1009+0,2331=0,49614
5 = 15+25+35+45=0,0859+0,1416+0,1416+0,2331=0,60237
Tambin pueden calcularse los  i mediante una expresin que los haga depender
solamente de los Pi, tal y como se indica a continuacin.

 i = P(ui (~x )) = P(ui 1 ) + P(ui  2  u j i 1 ) = P(ui 1 ) +


P(ui  2 / u j i 1 )P(u j i 1 ) = P(ui 1 ) + P(ui  2 / u j 1 )P(u j 1 )
j i

Mi P Pj P
= Pi + Pj = Pi + i Pj = Pi 1 + = Pi 1
2Pi + Pi + j
j i M
M j j i 1
Pj
j i 1
P 1
P j i 1
Pj

j i


1
2Pi Pi P = P 1
2Pi + Pj
= Pi 1
2Pi + Pi

N N
+
j
= Pi +
1
Pi 1
Pi j i 1
Pj i
1
P
j =1 1
Pj
144 42444 3 i 1
Pi i =1 1
Pi

Y como ya conocemos las Pi, para calcular las probabilidades ij basta sustituir en
la frmula anterior, con lo que se obtienen los mismos resultados. El diseo muestral ser el
siguiente:

2
Xi 1 2 X
S(X ) P ( X ) =  ij X HT =  X HT = i
i =1 i N i =1  i
(3,3) 0,0368 3 / 0, 22069 + 3 / 0,34039 = 22 , 41 4, 482
(3, 4) 0,0368 3 / 0, 22069 + 4 / 0,34039 = 25,34 5,068
(3,6) 0,0611 3 / 0, 22069 + 6 / 0, 49614 = 25,69 5,138
(3,8) 0,0859 3 / 0, 22069 + 8 / 0,60237 = 26 ,87 5,374
(3, 4) 0,0609 3 / 0,34039 + 4 / 0,34039 = 20 ,56 4,112
(3,6) 0,1009 3 / 0,34039 + 6 / 0, 49614 = 20 ,91 4,182
(3,8) 0,1416 3 / 0,34039 + 8 / 0,60237 = 22 ,09 4, 418
( 4,6 ) 0,1009 4 / 0,34039 + 6 / 0, 49614 = 23,84 4,768
( 4,8) 0,1416 4 / 0,34039 + 8 / 0,60237 = 25,03 5,006
(6,8) 0,2331 6 / 0, 49614 + 8 / 0,60237 = 25,37 5,074
104 Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es sin reposicin se utiliza el estimador insesgado de Horwitz y


Thompson. Para el total dicho estimador basado en la muestra de mayor probabilidad, la (6,8),
vale 25,37. Para la media vale 5,074. Se estima entonces que la edad media es 5 aos.
Para calcular las varianzas de estos estimadores se pueden utilizar directamente las
frmulas adecuadas, o bien se puede calcular la distribucin en el muestreo de los estimadores.
Para el total tenemos:
Xj
( )
2
X5
X 5 5
X 12 X 52
V X HT = i (1
 i ) + 2 i ( ij
 i j ) = (1
 1 ) + L + (1
 5 ) +
i =1 i i =1 j >i i  j 1 5
X X X X 32 82
+ 2 1 2 ( 12
 1 2 ) + L + 4 5 ( 45
 4 5 ) = (1
0,22069) + L + (1
0,60237)
1  2 4 5 0,22069 0,60237
3 3
+ 2 (0,03683
0,22069* 0,34039) + L + 6 8
(0,23313
0,49614* 0,60237)
0,22069 0,34039 0 ,49614 0,60237
=4,25.
( )
Para la media, como V X HT = N 2V ( X HT ) V ( X HT ) = V ( X HT ) /25 = 4,25/25 = 0,17.

El estimador insesgado para la varianza basado en la muestra de mayor probabilidad


(6,8) ser:
X X j ( ij
 i j ) X12 X X (
  )
( ) X2 X2
2 2 2
V X HT = 2i (1
 i ) + 2 i = 2 (1
1 ) + 22 (1
 2 ) + 2 1 2 12 1 2 = 0,41
i =1  i i =1 j > i  i  j  ij 1 2 1  2 12

Para la media, V ( X HT ) = V ( X HT ) /25 = 0,41/25 = 0,016.

Para el segundo apartado del problema las probabilidades Pi proporcionales a M1=10,


M2=16, M3=16, M4=25 y M5=33 en la primera extraccin tienen los siguientes valores:
P1=M1/M=1/10, P2=M2/M=4/25, P3=M3/M=4/25, P4=M4/M=1/4 y P5=M5/M=33/100. Las
probabilidades iguales en segunda extraccin valdrn 1/4. Las probabilidades ij se calcularn
de la siguiente forma:

 ij = P((u i u j )  ( ~x )) = P(u i  1  u j  2 ) + P (u j  1  u i  2 )
= P(u i  1 ) P(u j  2 / u i  1 ) + P(u j  1 ) P(u i  2 / u j  1 ) =
Mi 1 M j 1 1 1 Pi + Pj
+ = Pi + Pj =
M 4 M 4 4 4 4

Calculamos ahora los  i mediante una expresin que los haga depender solamente de
los Pi, tal y como se indica a continuacin.

 i = P(u i  ( ~x )) = P(u i  1 ) + P(u i  2  u j i  1 )


= P(u i  1 ) + P(u i  2 / u j i  1 ) P(u j i  1 )
= P(u i  1 ) + P(u i  2 / u j  1 ) P(u j  1 )
j i

1 1 1 3 1
= Pi + Pj = Pi + Pj = Pi + (1
Pi ) = Pi +
j i 4 4 j i 4 4 4
Muestreo estadstico: conceptos, estimadores y su distribucin 105

Se observa que estamos ante el mtodo de seleccin sin reposicin de Ikeda para el
caso de tamao de muestra n=2, con lo que las  i y  ij tambin podran haberse calculado
mediante las expresiones siguientes (se obtendran los mismos resultados):

n
1 N
n n
1
 i = Pi + (1
Pi ) * = * Pi +
N
1 N
1 N
1

n
1 N
n
 ij = * (Pi + Pj ) + n
2
N
1 N
2 N
2

Ya tenemos todos los datos para calcular los valores de  i y  ij , pues slo dependen de Pi
y Pj que son datos. Tambin podemos calcular ya el estimador X HT . El diseo muestral ser:

Pi + Pj 2
X 3 1
S ( X ) P( X ) =  ij = X HT = i i = Pi +
4 i =1 i 4 4
(3,3) 0,065 3 / 0,325 + 3 / 0,37 = 17,34
(3,4) 0,065 3 / 0,325 + 4 / 0,37 = 20,04
(3,6) 0,0875 3 / 0,325 + 6 / 0,4375 = 22,95 0,325
(3,8) 0,1075 3 / 0,325 + 8 / 0,4975 = 25,31 0,37
(3,4) 0,08 3 / 0,37 + 4 / 0,37 = 18,92 0,37
(3,6) 0,1025 3 / 0,37 + 6 / 0,4375 = 21,82 0,4375
(3,8) 0,1225 3 / 0,37 + 8 / 0,4975 = 24,19 0,4975
(4,6) 0,1025 4 / 0,37 + 6 / 0,4375 = 24,53
(4,8) 0,1225 4 / 0,37 + 8 / 0,4975 = 26,90
(6,8) 0,145 6 / 0,4375 + 8 / 0,4975 = 29,8

Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obtenindose que la edad
media estimada de los nios es 5 aos aproximadamente.

Para hallar la varianza del estimador del total se puede utilizar su distribucin en el
muestreo o bien se puede aplicar directamente la frmula apropiada tal y como se indica a
continuacin:

( ) X2 X Xj 2 2
( ij
 i j ) = X1 (1
1 ) + L + X 5 (1
 5 ) +
5 5 5
V X HT = i (1
 i ) + 2 i
i =1 i i =1 j > i i  j 1 5
X X X X 32 82
+ 2 1 2 (12
1 2 ) + L + 4 5 ( 45
 4 5 ) = (1
0,325) + L + (1
0,4975)
1  2  4 5 0,325 0,4975
3 3
+ 2 (0,065
0,325* 0,37) + L + 6 8
(0,145
0,4375* 0,4975) = 12,66
0,325 0,37 0,4375 0,4975

El estimador insesgado para la varianza basado en la muestra (4,8) ser:


106 Muestreo estadstico. Conceptos y problemas resueltos

X X (
  ) X 2 X X (
  )
( ) X2 X2
2 2 2
V X HT = 2i (1
 i ) + 2 i j ij i j = 12 (1
1 ) + 22 (1
 2 ) + 2 1 2 12 1 2
i =1  i i =1 j >i  i  j  ij 1 2 1  2 12
8 (0,1225
0,37 * 0,4975])
2 2
4 8
= 2
(1
0,37) + 2
(1
0,4975) + 2 4 = 43,3
0,37 0,4975 0,37 0,4975 0,1225

1
( )
Para la media se tiene que V X HT = V X HT = 1,73 .
25

Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) tambin
se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:

X X j ( i j
 ij ) X1 X 2 (1 2
12 ) 4
2 2
8 (0,37* 0,4975
0,1225])
2
2 2
( )
V X HT = i

 j
=
=

=13,958
i =1 j >i  i  ij 1  2 12 0,37 0,4975 0,1225

Para la media, V X HT
25
( )
= 1 V X
HT = 0,55

Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza
del total resulta ms preciso que el estimador de la varianza de Horwitz y Thompson.
Muestreo estadstico: conceptos, estimadores y su distribucin 107

EJERCICIOS PROPUESTOS
2.1. Supongamos que tenemos una poblacin de N = 3 unidades primarias de la que se obtienen
todas las muestras posibles de tamao n = 2 con probabilidades iguales y bajo los siguientes
supuestos:
Muestreo sin reposicin sin intervenir el orden
Muestreo sin reposicin interviniendo el orden
Muestreo con reposicin sin intervenir el orden
Muestreo con reposicin interviniendo el orden
Se pide:
Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades
asociadas a las muestras.
Si al medir una variable X sobre los elementos de la poblacin se obtienen los valores {1, 3, 4},
cul de todos los mtodos de muestreo es ms preciso al estimar el total poblacional mediante
un estimador lineal insesgado apropiado?

2.2. Una poblacin consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposicin de tamao 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N de conglomerados
2 3 9 5 6
de la muestra

Estimar el total y la proporcin de unidades de la poblacin que pertenecen a la clase C, as como


sus errores de muestreo absolutos y relativos.

2.3. Supongamos que tenemos una poblacin de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamao n = 2
sin reposicin asignando en la primera extraccin probabilidades proporcionales a los nmeros
10, 16, 16, 25 y 33, y tambin en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Calcular las probabilidades ij (ij) y comprobar que i =2 para i = 1, 2, ..., 5
N N
Comprobar tambin que  i = n
 j y
i =1

i =1
ij = (n
1) j .
i j i j

Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), as como sus errores de muestreo.

2.4. Supongamos que tenemos una poblacin de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de seleccin
proporcionales a los tamaos 3, 5 y 7. Se toman muestras de tamao n=2 sin reposicin y sin
tener en cuenta el orden de colocacin de los elementos mediante el mtodo de seleccin de
Durbin. A partir de las distribuciones en el muestreo de X y V ( X ) , hallar V ( X ) ,
HT HT HT

E ( X HT ) y E (V ( X HT )) . Comentar los resultados.


CAPTULO

MUESTREO ALEATORIO SIMPLE SIN Y


CON REPOSICIN. SUBPOBLACIONES

OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposicin o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposicin.
4. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple sin reposicin.
5. Especificar los factores de elevacin en muestreo aleatorio simple sin
reposicin.
6. Evaluar el tamao de la muestra en muestreo aleatorio simple sin
reposicin.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposicin.
8. Analizar el muestreo aleatorio simple con reposicin.
9. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple con reposicin.
10. Especificar los factores de elevacin en muestreo aleatorio simple con
reposicin.
11. Evaluar el tamao de la muestra en muestreo aleatorio simple con
reposicin.
12. Comparar el muestreo aleatorio simple con y sin reposicin.
13. Obtener estimadores en subpoblaciones con y sin reposicin.
14. Calcular errores y estimacin de los errores en subpoblaciones con y sin
reposicin.
110 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo aleatorio simple sin reposicin. Especificaciones
2. Estimadores, varianzas y estimacin de varianzas.
3. Tamao de la muestra.
4. Muestreo aleatorio simple con reposicin. Estimadores
5. Varianzas y su estimacin con reposicin.
6. Tamao de la muestra con reposicin.
7. Comparacin entre muestreo aleatorio sin y con reposicin.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 111

MUESTREO ALEATORIO SIMPLE SIN REPOSICIN. ESPECIFICACIONES

El muestreo aleatorio simple sin reposicin es un procedimiento de seleccin de muestras con


probabilidades iguales, que consiste en obtener la muestra unidad a unidad de forma aleatoria sin
reposicin a la poblacin de las unidades previamente seleccionadas, teniendo presente que el
orden de colocacin de los elementos en las muestras no interviene (es decir, que muestras con
los mismos elementos colocados en orden distinto se consideran iguales). De esta forma, las
muestras con elementos repetidos son imposibles. Como el procedimiento de seleccin es con
probabilidades iguales, todas las muestras son equiprobables, y adems se cumple que todas las
unidades de la poblacin tienen la misma probabilidad de pertenecer a la muestra i = n/N. Se
supone que el tamao de la poblacin es N y el tamao de la muestra es n. Como la muestra
se selecciona sin reposicin, se realiza la seleccin sucesiva de las unidades para la muestra
con probabilidades 1/(N
t) para valores de t = 0, 1, ..., n.

Podramos resumir las especificaciones del muestro aleatorio simple sin reposicin o
muestreo irrestricto aleatorio como sigue:

Se trata de un tipo de muestreo de unidades elementales.

Consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicin a la


poblacin de las unidades previamente seleccionadas.

El orden de colocacin de los elementos en las muestras no interviene; es decir, las


muestras con los mismos elementos colocados en orden distinto se consideran iguales.

Las muestras con elementos repetidos son imposibles.

Se trata de un procedimiento de seleccin con probabilidades iguales porque todas las


unidades de la poblacin van a tener la misma probabilidad de pertenecer a la muestra.

Todas las muestras son equiprobables.

Probabilidad de una muestra cualquiera

En la seleccin de una muestra aleatoria simple sin reposicin de n elementos de entre los N
de la poblacin, el espacio muestral asociado tiene un nmero total de muestras igual a:

N
C N ,n =
n

ya que el orden de colocacin de los elementos en las muestras no interviene. Como el


procedimiento es con probabilidades iguales, la probabilidad de una muestra cualquiera ser:

Casos favorables 1 1
p( u1 ,L, un ) = = =
Casos posibles C N ,n N

n

Estamos entonces ante un procedimiento de seleccin con muestra equiprobables.


112 Muestreo estadstico. Conceptos y problemas resueltos

Probabilidad i que tiene una unidad de la poblacin de pertenecer a la muestra

Para calcular la probabilidad i que tiene una unidad de la poblacin de pertenecer a


la muestra observamos que el nmero de muestras posibles de tamao n en seleccin
irrestricta aleatoria es:
N
CN,n =
n
Por otra parte, el nmero de muestras posibles que se pueden formar con los
elementos de la poblacin y que contengan al elemento dado ui ser:

N
1
CN
1,n
1 =
n
1
ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas
posibles de seleccionar de entre los N-1 elementos de la poblacin restantes n-1 de ellos para
la muestra (el elemento ui ya est fijo en la muestra).

Tenemos entonces:

 i = P (u i  ( ~x ) ) =
Casos favorables
=
Casos posibles
N de muestras que contienen la unidad u i
=
N total de muestras
N
1 ( N
1)! ( N
1)!


1 = ( n
1)! ( N
n )! = ( n
1)! ( N
n )! = 1 = n
=
n
N N! N .( N
1)! N N

n n ! ( N
n )! n ( n
1 )! ( N
n )! n

Como todas las unidades de la poblacin tienen la misma probabilidad de pertenecer a


la muestra, estamos ante un procedimiento de seleccin con probabilidades iguales.

ESTIMADORES, VARIANZAS Y ESTIMACIN DE VARIANZAS

Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposicin
es el estimador de Horvitz y Thompson  HT .

Y
()
n N
Se tiene que HT = i estima  = Yi , con E  =  , es decir, insesgadamente,
i =1 i i =1

siendo i la probabilidad de que la unidad ui pertenezca a la muestra (i = n/N).

Entonces podemos deducir los estimadores lineales insesgados para el total (Yi=Xi),
media (Yi =Xi/N), proporcin (Yi =Ai/N) y total de clase (Yi =Ai) como sigue:
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 113

N n
Xi n
Xi 1 n
 = X = X i Yi = X i  = X = = = N X i = Nx
i =1  i i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
 = X = Yi =  = X = N = N = X i = x
i =1 N N i =1  i i =1 n n i =1
N
Ai
N
A A n
1 n
 = P = i Yi = i  = P = N = Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
 = A = Ai Yi = Ai  = A = i = N Ai = NP
i =1 i =1 n n i =1
N

Se observa que los estimadores de la media y la proporcin poblacional son los


estimadores por analoga (media y proporcin muestral), mientras que los estimadores del total y
el total de clase poblacionales son la expansin mediante el tamao poblacional de la media y
proporcin muestrales (en este caso, X = Nx = ( N / n) x los factores de elevacin son N/n).

Varianzas de los estimadores

Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
Y N 2 N Yi Yj
( )
V $HT = i (1
 i ) + 2
i =1 i i< j  i j
( ij
 i j )
Para el caso particular del muestreo aleatorio simple sin reposicin se sabe que i = n/N
y ij = n(n
1) / [N(N
1)]. Considerando el estimador del total y sustituyendo estos valores de i
y ij en la expresin de la varianza tenemos:

j n (n
1)
N X X
( ) X2 n n n
N N
V X = i 1
+ 2
i


i =1 n N i =1 j > i n n N ( N
1) N N
N N N
2
1 N
n N
1
( X i
X ) S2
= N 2 1
i =1
= N 2 (1
f )
N n n
Para los estimadores de la media, total y total de clase tenemos:
N
PQ
()
2 2
S S N 1
V X = (1
f ) V P = (1
f )
= (1
f ) N
1 = (1
f )PQ
n n n N
1 n
N
PQ
()
2
S N
1 N3 1
V A = N (1
f )
2
= N (1
f )
2
= (1
f )PQ
n n N
1 n
114 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas

Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:

Y
n 2 n Yi Yj  ij
 i 
V$ ( $ HT ) = i 2 ( 1
 i ) +
j

i =1 i i< j  i j  ij
Si aplicamos la expresin anterior al estimador del total tendremos:
n(n
1) n n


X i X j N (N
1) N N
( )
2
X
n
n n n
V X = 1
+ 2
i
=
i =1 n
2
N i =1 j > i n n n(n
1)
N2 N N N (N
1)
N (N
n ) 1 n 2 2 (N
n ) S
2 S 2
i ( X
x ) = N = N 2
(1
f )
n n
1 i =1 n N N
144 424443
S 2

Para los estimadores de la media, total y total de clase tenemos:


n
2 PQ
S 2
V ( X ) = (1
f )
n
()
V P = (1
f )
S
n
= (1
f ) n
1
n
= (1
f )
1
n
1
PQ
n $$
$
S 2 PQ 1 $$
n
1
V$( A$ ) = N 2 ( 1
f ) = N 2 ( 1
f ) = N 2 (1
f ) PQ
n n n
1
De las frmulas de las varianzas y sus estimaciones, se deduce que en muestreo
aleatorio simple sin reposicin la cuasivarianza muestral
1 n
S 2 = ( X i
x )2
n
1 i =1
1 N
es un estimador insesgado de la cuasivarianza poblacional S 2 = Xi
X
N
1 i =1
( )
2
.

TAMAO DE LA MUESTRA

Estudiaremos el tamao de muestra necesario para cometer un error de muestreo e = (  )


dependiendo de si  estima la media, el total, la proporcin o el total de clase.
Media:
2
n S2 S2 S2
e = ( X ) = (1
f ) S
e 2 = 1
=

n N n n N
2 2 2 2
S S S NS
= e2 + n= 2
=
n N S Ne 2 + S 2
e2 +
N
Se observa que cuando N   (fraccin de muestreo n/N tendiendo a cero) el tamao
muestral n  S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo).
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 115

La expresin del tamao muestral n puede ponerse en funcin de N y del valor n0


como sigue:

S2 S 2 e2 n0 n N
n= = = = 0 = f (N )
S 2 2
S e 2
n0 n0 + N
2
e + 1+ 1+
N N N

Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa


por el origen de coordenadas, ya que f(0) = 0, que tiene una asntota paralela al eje OX de
ecuacin n = n0, ya que lim f (N) = n0 , que es siempre creciente dado que la primera derivada:
N 

n 02
f '(N ) =
( n0 + N ) 2

es siempre positiva, que no tiene mximos ni mnimos dado que la ecuacin definida por
f(N) = 0 no tiene solucin en N, que es siempre convexa ya que la segunda derivada:

2 n 02
f ''(N ) =

( n0 + N ) 3

es siempre negativa y que no tiene puntos de inflexin ya que que la ecuacin definida por
f(N)=0 no tiene solucin en N. Por tanto, la representacin grfica de n = f(N) es la
siguiente:
n
n = n0
n0
n0
n
n-

O N

Como la curva n = f(N) es creciente, al aumentar el tamao poblacional N tambin


aumenta el tamao muestral n necesario para un error de muestreo dado. Pero como n ha de
ser un nmero entero y la curva n=n0 es una asntota horizontal, desde un cierto N en
adelante los aumentos de N no producen aumentos en n. Precisamente los aumentos de N no
producen aumentos en n cuando |n0
n|<1. Pero:

n0 N n02 2 S2 S2
n0
n = n0
= < 1 n0 < n0 + N N > n0 (n0
1) = 2 2
1
n0 + N n0 + N e e

Luego la misma precisin da una muestra de tamao n para una poblacin de N


elementos que para una poblacin de N elementos con N > N siempre y cuando se cumpla que:

S2 S2
N > n 0 ( n 0
1) = 2 2
1
e e
116 Muestreo estadstico. Conceptos y problemas resueltos

Total:

S2 n S 2 N 2S 2 N 2S 2
e = ( X ) = N 2 (1
f ) e 2 = N 2 1
=

n N n n N
N 2S 2 N 2S 2 N 2S 2 N 3S 2 N 2S 2
= e2 + n= = =
n N N 2S 2 1 2
Ne42 + N432 2
S e 2 + NS 2
e2 +
N (
N e 2 + NS 2 )
La expresin anterior tambin puede escribirse como:
2
S
2
N 2
n= e = N n1 = f ( N )
2
S 1 + Nn1
1+ N
e
Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa
por el origen de coordenadas ya que f(0) = 0, que tiene una asntota oblicua de ecuacin n =
N
1/n1 ya que:
f (N )
N 1
lim = 1 y lim ( f ( N )
N ) = lim =

N  N N   N   1 + n1 N n1

Adems es siempre creciente ya que la primera derivada:

2n1 N + n12 N 2
f '(N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene mximos ni mnimos ya que la ecuacin definida por
f(N)=0 no tiene solucin en N, que es siempre cncava puesto que:

2 n12 N
f ''(N ) =
(1 + n1 N ) 3
es siempre positiva. Por tanto, la representacin grfica de n = f(N) es la siguiente:
n
n=f(N)

n=N-1/n1

0 1/n1 N
Observando la grfica de n = f(N) se ve que n siempre crece al crecer N, es decir,
que al aumentar el tamao poblacional tambin aumentar el tamao de muestra necesario
para cometer un error de muestreo prefijado.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 117

Proporcin:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para la media tendremos para la estimacin de la proporcin el tamao:
N
NS 2 N PQ N 2 PQ NPQ
N
1
n= = = 2 = 2
Ne 2 + S 2 N NPQ + ( N
1) Ne e ( N
1) + PQ
PQ + Ne 2 14442444 3
N
1
(
N e 2 ( N
1) + PQ )
En el caso de la proporcin se observa que cuando N   (fraccin de muestreo n/N
N
tendiendo a cero) el tamao muestral n  S2/e2 = PQ e 2  PQ e 2 =n0 (n inversamente
N
1
proporcional al cuadrado del error de muestreo y directamente proporcional a la proporcin
poblacional P). En este caso, la misma precisin da una muestra de tamao n para una
poblacin de N elementos que para una poblacin de N elementos con N > N siempre y
cuando se cumpla la desigualdad definida por:

N N
PQ PQ PQ
PQ
N > n0 (n0
1) = N
12 N
12
1  2
1
e e 2
e e


Para la estimacin de la proporcin es muy interesante tener en cuenta que para
poblaciones grandes o fraccin de muestreo pequea (N  ), el valor mximo de n se
obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N   el tamao
muestral n tiende al valor n0 = PQ/e2 = f(P), expresin que tenemos que maximizar en P. Si
igualamos la primera derivada al valor cero tenemos que como f(P) = P(1
P)/e2 entonces
f(P) = (1
2P)/e2 = 0 P = 1/2. Por otra parte f (P) =
2/e2 < 0, lo que asegura la presencia
de un mximo para la funcin f en el punto P = 1/2. Como Q =1
P = 1
1/2 = 1/2, el valor
mximo de n para poblaciones grandes o fracciones de muestreo pequeas se obtiene para P =
Q = 1/2. Por lo tanto, para un error prefijado se necesitarn tamaos de muestra ms pequeos
cuanto ms prximo est P a cero o a uno. Este resultado es muy importante en la prctica, ya
que cuando se estiman proporciones y no se conoce el valor de la proporcin poblacional P
ni se tiene una aproximacin suya (proporcionada por una encuesta similar, por una
encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro
mtodo), entonces se toma P=1/2, con lo que estamos situndonos en el caso de mximo
tamao muestral para el error fijado, lo cual siempre es aceptable estadsticamente. La
dificultad prctica puede ser que se obtenga un tamao muestral n demasiado grande para el
presupuesto de que se dispone.
Total de clase:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para el total tendremos para la estimacin del total de clase el tamao:
N
N2 PQ
N 2S 2 N
1 N 3 PQ
n= 2 = = 2
e + NS 2 N e (N
1) + N 2 PQ
e2 + PQN
N
1
118 Muestreo estadstico. Conceptos y problemas resueltos

Tambin puede estudiarse el tamao de muestra necesario para cometer un error


relativo de muestreo er = Cv( ) dependiendo de si se estima la media, el total, la proporcin
y el total de clase.
Asimismo, es tpico introducir un coeficiente de confianza adicional P al error de
muestreo a cometer (lmite de tolerancia). En este caso las frmulas de los tamaos muestrales
necesarios para cometer un error absoluto o relativo de muestreo dado en presencia del
coeficiente de confianza adicional se derivarn de las expresiones e = ( ) y er = Cv( ) .
En general = F-1(1
/2), siendo F la funcin de distribucin de una normal (0,1).
El cuadro siguiente resume las expresiones de los tamaos muestrales.

Tipo de error  Absoluto y coeficiente Relativo y


Absoluto Relativo
Parmetro de confianza adicional confianza
e er
 e e r
NS 2 NC 1,2 x 2 NS 2 2 NC 1,2 x
Media
Ne 2 + S 2 Ne r2 + C 1,2 x Ne 2 + 2 S 2 Ne r2 + 2 C 1,2 x
2
N S2
NC 1,2 x 2 N 2 S 2 2 NC 1,2 x
Total
e 2 + NS 2 Ne r2 + C 1,2 x e 2 + 2 NS 2 Ne r2 + 2 C 1,2 x
NPQ NQ 2 NPQ NQ 2
Proporcin
e 2 ( N
1) + PQ P ( N
1)e r2 + Q e 2 ( N
1) + 2 PQ e r2 ( N
1) P + 2 Q
N 3 PQ NQ 2 N 3 PQ NQ 2
Total de clase
e 2 ( N
1) + N 2 PQ P ( N
1)e r2 + Q e 2 ( N
1) + 2 N 2 PQ e r2 ( N
1) P + 2 Q

En todas las frmulas S2 es la cuasivarianza poblacional y C1,2 x = (S / X ) . Por otra parte,


2

es el valor crtico de la normal unitaria al nivel .

MUESTREO ALEATORIO SIMPLE CON REPOSICIN. ESTIMADORES

El muestreo aleatorio simple con reposicin es un procedimiento de seleccin con


probabilidades iguales que consiste en obtener la muestra unidad a unidad de forma aleatoria
con reposicin a la poblacin de las unidades previamente seleccionadas. De esta forma las
muestras con elementos repetidos son posibles y cualquier elemento de la poblacin puede
estar repetido en la muestra 0, 1, ..., n veces. Supongamos en todo momento que el tamao
de la poblacin es N y el tamao de la muestra es n. Como la muestra se selecciona con
reposicin (se reponen a la poblacin las unidades previamente seleccionadas) y con
probabilidades iguales, se realiza la seleccin sucesiva de las unidades para la muestra con
probabilidades Pi = 1/N y todas las muestras son equiprobables, ya que:
P(u1, u2, ..., un) = P(u1)P(u2) ... P(un) = (1/N)(1/N) ... (1/N) = 1/(Nn)
En cuanto a los estimadores, partimos de que el estimador lineal insesgado general
n
Yi
para el caso de muestreo con reposicin es el estimador de Hansen y Hurwitz $ HH =
i =1 nPi
(Pi = probabilidad de seleccionar la unidad ui de la poblacin para la muestra =1/N), que estima
N
insesgadamente la caracterstica poblacional  = Y . Segn los distintos valores de Y se tiene:
i i
i =1
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 119

N n
Xi n
X 1 n
 = X = X i Yi = X i  = X = = i = N X i = Nx
i =1 nPi i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
 = X = Yi =  = X = N = N = X i = x
i =1 N N i =1 nPi i =1 n n i =1
N
Ai
N
A A n
1 n
 = P = i Yi = i  = P = N = Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
 = A = Ai Yi = Ai  = A = i = N Ai = NP
i =1 i =1 n n i =1
N
Da la casualidad de que se obtienen los mismos estimadores insesgados para los
parmetros poblacionales que para el caso de muestreo aleatorio simple sin reposicin. Por
lo tanto, los estimadores de la media y la proporcin poblacional son los estimadores por
analoga (media y proporcin muestral), mientras que los estimadores del total y el total de clase
poblacionales son la expansin mediante el tamao poblacional de la media y proporcin
muestrales (en este caso, X = Nx = ( N / n) x los factores de elevacin son N/n).

VARIANZAS Y SU ESTIMACIN CON REPOSICIN

Partiendo de la varianza del estimador de Hansen y Hurwitz:


2
1 N Yi
V (  HH ) =
Y Pi
$
n i =1 Pi
y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2

N
2 2
1 X 1 X 1 N2 1 2
(X
X) = N2
N N

V (X ) = i

X Pi =
i

X = i
n i =1 Pi n i =1 1 N n N i =1 n

N
X 1
( )
1
V X = Var = 2 Var X = 2 N 2

2 2
=
N N N n n
N
1 2
S
()
()
2
N PQ 2 PQ
V P = = = V A = N 2 = N2
n n n n n
Para estimar las varianzas partimos del estimador de la varianza de Hansen y Hurwitz:
2
n
1 Yi
V$ ($HH ) =
Y$HH
n(n
1) i =1 Pi
120 Muestreo estadstico. Conceptos y problemas resueltos

y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2

n 2
( )
2
1 X N2 1 n 2 S
V X = i


X = i ( X
x ) = N
n(n
1) i =1 1 n n
1 i =1 n

N

X S 2 S 2
1
( ) 1
V X = V = 2 V X = 2 N 2

=
N N N n n
n n
2 PQ 2 PQ
()

V P =
S
n
= n
1
n
=
1
n
1

PQ ()
V A =N 2 S
n
=N 2 n
1
n
= N2
1
n
1
PQ

Un resultado interesante que se deduce de las frmulas anteriores es que la


cuasivarianza muestral definida S 2 es un estimador insesgado de la varianza poblacional 2
en muestreo aleatorio simple con reposicin

TAMAO DE LA MUESTRA CON REPOSICIN

Igual que en el caso de sin reposicin, consideraremos el tamao de muestra necesario para
cometer un error de muestreo e = (  ) dependiendo de si  estima la media, el total, la
proporcin o el total de clase. Tambin se considerar el tamao de muestra necesario para
cometer un error relativo de muestreo er = Cv( ) dependiendo de si se estima la media, el total, la
proporcin y el total de clase. Asimismo, se tendr presente la introduccin de un coeficiente de
confianza adicional P al error de muestreo a cometer (lmite de tolerancia), en cuyo caso las
frmulas de los tamaos muestrales necesarios para cometer un error absoluto o relativo de
muestreo dado en presencia del coeficiente de confianza adicional se derivarn de las expresiones
e = ( ) y er = Cv( ) . En general, = F-1(1
/2), siendo F la funcin de distribucin de
una normal (0,1). El cuadro siguiente resume las expresiones de los tamaos muestrales.

Tipo de error  Absoluto y coeficiente Relativo y


Absoluto Relativo
Parmetro de confianza adicional confianza
e er
 e e r
2
2
Cx 2
2
2 C x2
Media 2 2
e er e2 er2
N 2 2 C x2 2 N 2 2 2 C x2
Total 2 2
e er e2 er2
PQ Q 2 PQ 2 Q
Proporcin 2 2
e Per e2 Per2
N 2 PQ Q 2 N 2 PQ 2 Q
Total de clase 2 2
e Per e2 Per2

En todas las frmulas 2 es la varianza poblacional y C x2 = ( / X ) . Por otra parte,


2

es el valor crtico de la normal unitaria al nivel .


Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 121

COMPARACIN ENTRE MUESTREO ALEATORIO SIN Y CON REPOSICIN

Se pueden realizar las comparaciones a travs error de muestreo o a travs del tamao
muestral necesario para cometer un error de muestreo dado. Desde el primer enfoque ser
ms preciso aquel mtodo de seleccin cuyo error de muestreo sea menor, es decir, el que
tenga menor varianza de los estimadores. Tenemos:

N V SR X
2 2 N
n

2
S n N
1 N
n = <1
V SR X = (1
f ) = (1
) = N
1
n N n V
N
1 n CR X

2
2

VCR X = n= 2 V X < V X
n e SR
CR

Para el resto de los estimadores todo sera equivalente, luego la varianza siempre es
menor en el caso del muestreo sin reposicin, lo que nos indica que el muestreo sin
reposicin es en general ms preciso que el muestreo con reposicin.

Desde el punto de vista del tamao muestral, ser mejor aquel mtodo de seleccin
en el que se necesite menor tamao muestral para cometer un error de muestreo dado. En
este captulo hemos visto que para muestreo sin reposicin el valor de n era:

n0
n SR =
1 + n0 N

tanto en el caso de estimaciones de medias y proporciones para un error de muestreo dado


como en el caso de estimaciones de medias, totales, proporciones y totales de clase para un
error relativo de muestreo dado con o sin coeficiente de confianza. En los mismos casos,
para muestreo con reposicin se observa que el tamao muestral resulta ser nCR = n0. Por lo
tanto, tenemos:
n0 nCR
nSR = = < nCR n SR < nCR
1 + n0 N 1 + nCR N

En el caso de estimacin sin reposicin de totales y totales de clase para un error de


muestreo dado con o sin coeficiente de confianza se vio que:

N 2 n1 nCR
n SR =  < nCR n SR < nCR
1 + Nn1 1 + nCR N

En los mismos casos para muestreo con reposicin se observa que el tamao
muestral resulta ser nCR = N2n1.

Por lo tanto, en todas las situaciones, en el caso de muestreo sin reposicin se


necesita menos tamao de muestra para cometer el mismo error que en el caso del
muestreo con reposicin, con lo que el muestreo sin reposicin es ms eficiente que el
muestreo con reposicin.
122 Muestreo estadstico. Conceptos y problemas resueltos

SUBPOBLACIONES

La escasa disponibilidad de marcos que listen especficamente los elementos de la poblacin


que interesa estudiar, sobre todo cuando utilizamos unidades poblacionales muy elementales
(marco muy fino), nos lleva a considerar la teora de subpoblaciones o dominios.
Normalmente se dispone de marcos menos finos cuyas unidades contienen a las unidades
elementales en estudio. Por ejemplo, podemos desear estudiar una muestra de los hogares
que tienen nios, pero el mejor marco disponible puede ser una lista de todos los hogares en
la ciudad (sin poder desagregar hasta los hogares que tienen nios). Utilizaremos entonces el
marco amplio de todos los hogares y consideraremos la subpoblacin de los hogares que
tienen nios para intentar estimar los parmetros de dicha subpoblacin a travs de los
mtodos para subpoblaciones. Supongamos que dividimos una poblacin de tamao N en
subpoblaciones o dominios. Consideremos que el j-simo dominio contiene Nj unidades, y
que nj es el nmero de unidades, en una muestra aleatoria simple de tamao n, que
pertenecen al dominio j.

n3 N 3 y3 n2
N2
y2
n1
N1 y1

N = Tamao de la poblacin
n = tamao de la muestra

Sea Yjk (k = 1, 2, ..., nj y nj = n) son los valores de la variable en estudio medida


sobre los elementos de la muestra que pertenecen al dominio j-simo. Un estimador
insesgado de la media en la subpoblacin o dominio j ser el siguiente:
nj
Y jk
Y j = y j =
k =1 n j

cuya varianza puede expresarse como:

n j S 2j
(Y jk
Y j ) donde Y j = Y jk
Nj Nj
1

2 2
V ( y j ) = (1
) siendo S j =
N j nj N j
1 k =1 k =1 N j

y pudiendo expresarse la estimacin de su varianza como:

n j S 2j
(Y jk
y j ) dnde y j = Y jk
nj nj
1
V ( y j ) = (1

2 2
) siendo S j =
N j nj n j
1 k =1 k =1 n j
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 123

Si no se conoce el valor de Nj, se sustituye nj/Nj por n/N y se tiene:

n S j
2 2
n Sj
V ( y j ) = (1
) V ( y j ) = (1
)
N nj N nj

En el caso del muestreo con reposicin tenemos:

2j 1
Nj
S 2j
(Y
Yj ) y V ( y j ) =
2
V(yj ) = siendo = 2
j jk
nj Nj k =1 nj

Un estimador insesgado del total en la subpoblacin o dominio j en caso de


conocer Nj ser el siguiente:
nj
Y jk
Y j = N j y j = N j
k =1 nj
cuya varianza y estimacin de varianza son, respectivamente:
n j S 2j n j S 2j
V (Y j ) = N 2j V ( y j ) = N 2j (1
) y V (Y j ) = N 2j (1
)
N j nj N j nj
En el muestreo con reposicin tendremos:
2j S 2j
V (Y j ) = N 2j V ( y j ) = N 2j y V (Y j ) = N 2j
nj nj
Un estimador insesgado del total en la subpoblacin o dominio j en caso de no
conocer Nj ser el siguiente:
nj
Y jk nj
Nj N
nj
N
Y j = N j = Y jk =
{ Y = y
k =1 nj k =1 nj  n k =1
jk
n {j
Se aplica Total
Nj N muestral
 en dominio
nj n j
simo

cuya varianza y estimacin de varianza son, respectivamente:

n S '
2 2
n S'
V (Y j ) = N 2 (1
) 2
y V (Y j ) = N (1
)
N n N n

1 Y j2 1 j y 2j
n nj

Y jk
N , S ' = n
1
e y j = Y jk
2 2 2 2
siendo S ' = Y jk

N
1 Dominio j n
k =1 k =1

En el muestreo con reposicin tendremos:

'2 S ' 2 1 Y j2
V (Y j ) = N 2 y V (Y j ) = N 2
2
con ' 2 = Y jk

n n N Dominio j N
124 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

3.1. Un auditor muestrea aleatoriamente con reposicin 20 cuentas impagadas de una empresa y
verifica en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o
no cumplen (0) con los procedimientos establecidos. Se tienen la siguiente estructura
poblacional:

Cuenta Cantidad Concordancia Cuenta Cantidad Concordancia

1 278 1 11 188 0
2 192 1 12 212 0
3 310 1 13 92 1
4 94 0 14 56 1
5 86 1 15 142 1
6 335 1 16 37 1
7 310 0 17 186 0
8 290 1 18 221 1
9 221 1 19 229 0
10 168 1 20 305 1

Basndose en las 12 cuentas verificadas, estimar la proporcin de cuentas cuyos documentos


concuerdan, as como el importe medio adeudado, y cuantificar el error cometido.

Comenzamos introduciendo los datos en una hoja de clculo de Excel. A continuacin,


para elegir la muestra, en el men Herramientas de Excel elegimos Anlisis de datos,
seleccionamos Muestra y rellenamos la pantalla de entrada como se indica en la Figura 3-1. Al
pulsar Aceptar se obtiene la MUESTRA de tamao 12 de la Figura 3-2. Mediante las frmulas de
la Figura 3-2 se obtienen los resultados de la Figura 3-3.

Figura 3-1
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 125

Figura 3-2

Figura 3-3

Hemos obtenido que el importe medio adeudado se estima en:

1 12
X= X i = 209,583
12 i =1
con un error absoluto de:
2

V X = = 655,745
n

La proporcin de cuentas cuyos documentos concuerdan con los procedimientos


establecidos se estima mediante:

1 12
P = Ai = 0,75
12 i =1

El error absoluto de esta estimacin es:

()
V P =
PQ (14 / 20)(6 / 20)
n
=
12
=
84
4800
= 0,0175
126 Muestreo estadstico. Conceptos y problemas resueltos

En trminos relativos estos errores son ms fcilmente interpretables, y se


cuantifican en el 12,2% y el 17,6%, respectivamente (a travs de los coeficientes de
variacin de los estimadores). Tenemos:

Cv X =
655,745
209,583
100 = 12,218% ()
Cv P =
0,0175
0,75
100 = 17,638%

3.2. El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin
reposicin a los que se les toma el tiempo, Se obtienen los siguientes resultados:

4,2 5,1 7,9 3,8 5,3 4,6 5,1 4,1

Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los
operadores estableciendo lmites al 95% para los errores de estimacin.

Comenzamos introduciendo los datos como la variable T en una hoja de clculo de Excel. A
continuacin, para calcular los estadsticos necesarios, en el men Herramientas de Excel
elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla
de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadsticos
maestrales de la Figura 3-5. Por ltimo, se calculan los estimadores y sus errores segn las
frmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7.
1 12
Se observa que el tiempo medio por operario para terminar la tarea es T = Ti =
12 i =1

S 2
5,0125 minutos con un error de muestreo de V (T ) = (1
f ) = 0,189 y un error relativo
n
(T ) 0,189
dado por Cv(T ) = 100 = 100 = 9,69%. El tiempo total para terminar la tarea se
T 5,0125
estima en T = NT = 89 5,0125 = 491,225 minutos con un error de muestreo estimado por
V (T ) = N 2V (T ) = 89 2 0,189 = 1822,07, siendo el error relativo el mismo que el del estimador
del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no est en el intervalo
[
2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para
la media de anchura 1,07475886 no es vlido.

Figura 3-4 Figura 3-5


Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 127

Figura 3-6

Figura 3-7

Al no existir normalidad utilizamos como intervalos de confianza:

()
 
, +
()

cuya anchura es 2
()

. Esta anchura (3,895 para el estimador de la media y 381,79 para el

estimador del total) suele considerarse como un lmite para el error de estimacin. Se
observa que estas anchuras son mayores que con normalidad, ya que en este caso las
estimaciones son menos precisas (errores mayores).

3.3. En una regin con N = 1000 viviendas determinar el tamao de muestra necesario para que,
con un grado de confianza del 95%, la estimacin de la proporcin de viviendas sin agua
corriente no difiera en ms del 0,1 del valor verdadero. Comentar los resultados para
muestreo sin reposicin y con reposicin.
128 Muestreo estadstico. Conceptos y problemas resueltos

P(| P
P | 0,10) = 0,95  P (
0,10  P
P  0,10) = 0,95 

0,10 P
P 0,10
0,10 0,10
P   = 0,95  P  N (0,1)  = 0,95
( P ) ( P ) ( P ) ( P ) ( P )

De lo anterior se deduce que:

0,10 0,10
= = 1,96 ( P ) = = 0,051
( P ) 1,96

Luego el problema se traduce en calcular el tamao de muestra necesario para


cometer un error de muestreo de 0,051 al estimar la proporcin de viviendas sin agua
corriente. Como no tenemos informacin acerca de la proporcin poblacional P de
viviendas sin agua corriente, nos colocamos en la situacin ms desfavorable, es decir, P =
Q = 1/2. Tendremos:
NP (1
P ) 1000 0,5 0,5
n= 2
= = 91 viviendas
P (1
P ) + ( N
1)e 0,5 0,5 + 999.0,0512

Para el caso de muestreo con reposicin tendremos:


P (1
P ) 0,5 0,5
n= = = 96 viviendas
e2 0,0512
Se observa que el tamao de muestra necesario para cometer el mismo error de
muestreo al estimar igual parmetro es superior en el caso de muestreo con reposicin.

3.4. De una poblacin con 33 millones de habitantes se ha obtenido una muestra de 10.000. En
ella, 4.000 se han clasificado como poblacin activa, y de stos, 40 se encuentran en
situacin de desempleo. Se pide:

1) Estimar el porcentaje de poblacin activa. Estimar tambin el nmero de personas activas que
se encuentran en situacin de desempleo. Calcular los errores absoluto y relativo de muestreo
en ambas estimaciones as como intervalos de confianza con un riesgo del 3 por mil.

2) Cuntas personas de todas las edades sera necesario incluir en una muestra para
estimar la tasa de actividad en Espaa con un error absoluto E = 0,02 y una probabilidad
del 95%? Del ltimo censo se sabe que en el pas hay un 39% de activos. Contestar a la
misma pregunta para cometer un error relativo del 5%.

Realizamos el siguiente esquema de apoyo (PA significa poblacin activa y NPA significa el
complentario):

PA=4000

N=33000000 3660 activos


40 parados
NPA=6000

n=10000
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 129

El porcentaje estimado de poblacin activa ser:


4000
P = = 0,4 (40%)
10000
El error de muestreo ser:

n P (1
P ) 10000 0,4(1
0,4)
( P ) = 1
= 1
= 0,00489
N n
1 33000000 10000
1

El error relativo de muestreo ser la estimacin del coeficiente de variacin de P , que


se calcula de la siguiente forma:
( P ) 0,00489
C v( P ) = = = 0,012225 (1,2225%)
P 0,4

Para hallar el intervalo de confianza para la proporcin con = 0,003, utilizamos =


F-1N(0,1) (1
/2) = F-1 N(0,1) (1
0,003/2) = F-1 N(0,1) (0,9985)=2,997. El intervalo ser:

[ P
( P ), P + ( P )] = [0,4
2,997 0,00489, 0,4 + 2,997 0,00489] = (0.3853, 0.4146)

Se podra interpretar el intervalo de confianza diciendo que el porcentaje de la poblacin


activa est comprendido entre el 38,53% y el 41,46% con una probabilidad del 997 por mil, es
decir, prcticamente la certeza.
El total estimado de personas activas que se encuentran en situacin de desempleo ser:

40
A = 33000000 = 132000
110000
424 3
P

El error de muestreo ser:

n P (1
P ) 10000 0,004(1
0,004)
( A ) = N 2 1
= 33000000 1
= 20827
N n
1 33000000 10000
1

El error relativo de muestreo ser la estimacin del coeficiente de variacin de A , que


se calcula de la siguiente forma:

( A ) 20827
C v( A ) = = = 0,157 (15,7%)
A 132000

Para hallar el intervalo de confianza para el total con = 0,003, utilizamos el valor
=F-1N(0,1) (1
/2) = F-1 N(0,1) (1
0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
[ A
( A ), A + ( A )] = [132000
2,997 20827, 132000+ 2,997 20827] = (69581, 194419)

El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un


error de muestreo e = 0,02 y un coeficiente de confianza del 95% ser:

2 NPQ 1,96 2 33000000 0,39 (1


0,39)
n= = = 2379
( N
1)e 2 + 2 PQ (33000000
1) 0,02 2 + 1,96 2 0,39 (1
0,39)
130 Muestreo estadstico. Conceptos y problemas resueltos

El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un


error relativo de muestreo e r =0,05 y un coeficiente de confianza del 95% ser:
2r NQ 1,96 2 33000000 (1
0,39)
n= = = 2379
( N
1) Pe r2 + 2r Q (33000000
1) 0,39 0,02 2 + 1,96 2 (1
0,39)

3.5. Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de aciertos
obtenidos en un juego ilegal en el que se realizan un total de 6000 apuestas. En un ensayo
previo se han obtenido 1/3 de fallos en las apuestas. Se pide:
1) Hallar el nmero de apuestas necesario para que el error de muestreo sea de una dcima
al estimar la proporcin de aciertos en las apuestas del juego ilegal. Hallar tambin el
nmero de apuestas necesario para que el error relativo de muestreo sea del 20% en la
misma estimacin.
2) Hallar el nmero de apuestas necesario para que el error de muestreo sea de 600 unidades
al estimar el total de aciertos en las apuestas con un coeficiente de confianza del 99,7% y
suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las
condiciones anteriores pero para un error relativo de muestreo del 10%.
Tenemos como datos N = 6000 y P = 2/3. El tamao de muestra necesario para
estimar la proporcin de aciertos en las apuestas con un error de muestreo e = 0,1 ser:

NPQ 6000 0,6666 (1


0,6666)
n= = = 22,14
( N
1)e + PQ (6000
1) 0,12 + 0,6666 (1
0,6666)
2

Ser necesario utilizar un tamao de muestra de 23 apuestas.


El tamao de muestra necesario para estimar la proporcin de aciertos con un error
relativo de muestreo e r = 0,2 ser:

NQ 6000 (1
0,6666)
n= = = 12,47
( N
1) Pe r + Q (6000
1) 0,6666 0,2 2 + (1
0,6666)
2

Ser necesario utilizar un tamao de muestra de 13 apuestas.

Para hallar el tamao de muestra necesario para estimar el total de aciertos con = 0,003,
se usa = F-1N(0,1) (1
/2) = F-1N(0,1) (1
0,003/2) = F-1N(0,1) (0,9985) = 2,997. Dicho tamao en
muestreo con reposicin para un error de muestreo e = 600 se calcula de la siguiente forma:

2 PQN 2 2,997 2 0,6666(1


0,6666)6000 2
n= = = 199,6 (200 apuestas)
e 2 600 2

El tamao de muestra en muestreo con reposicin para un error relativo de muestreo


er = 0,1 con = 0,003 se calcula de la siguiente forma:

2 Q 2,997 2 (1
0,6666)
n= = = 449,1 (450 apuestas)
e 2 P 0,12 0,6666
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 131

3.6. De una poblacin de 100 opositores que se presentan a un examen se ha extrado una
muestra irrestricta aleatoria de tamao n = 8, siendo sus edades (variable X) las siguientes:
{25, 32, 28, 35, 26, 34, 30, 28}. Basndose en esta muestra, estimar la edad media y la suma
de las edades de los opositores as como sus errores absoluto y relativo de muestreo.
Determinar tambin:

1) Basndose en la muestra anterior, qu tamao de muestra sera necesario para que el


error de muestreo sea 2 al estimar la edad media y 50 al estimar la suma de las edades?
Y para que el error relativo sea del 6%? Contestar a las mismas preguntas con un
coeficiente de confianza del 95%.

2) A partir de la muestra anterior, estimar la proporcin de edades pares en la poblacin y


el total de la clase de las edades pares estimando los errores absoluto y relativo de
muestreo. Qu tamao de muestra sera necesario para que el error relativo de muestreo
fuese del 6% al 95% de confianza al estimar la proporcin?

3) Hallar el tamao de muestra del apartado anterior suponiendo muestreo con reposicin.
Comentar los resultados.

Se observa que la media muestral es 29,75, la cuasivarianza muestral es 13,3571 y la


cuasidesviacin tpica muestral es 3,65474. Tambin se obtienen buenos valores para los
coeficientes de asimetra (0,28) y curtosis (
0,79), que al estar comprendidos entre
2 y 2
permiten suponer normalidad.
Las estimaciones de la edad media y la suma de edades y sus errores absoluto y
relativo son:
S 2 8 13.3571
X = x = 29,75 e = ( x ) = (1
f ) = 1
= 1,536
n 100 8
( x ) 1,536
e r = Cv( x ) = = = 0,051 (5,1%)
x 29,75

X = N x = 100 29,75 = 2975 e = ( X ) = N ( x ) = 100 1,536 = 153,6


( X ) 153,6
e r = Cv( X ) = = = 0,051 (5,1%)
X 2975

Evidentemente, los errores relativos de las estimaciones de media y total coinciden.

Para hallar el tamao de muestra necesario para estimar la edad media (media) con un
error de muestreo e igual a 50, consideramos la muestra anterior como una muestra piloto que
nos proporciona una estimacin del valor de la cuasivarianza. Se aplica la frmula:
NS 2 100 13,3571
n= 2 2
= = 3,23
S + Ne 13,3571 + 100.2 2
con lo que se tomar como tamao de muestra necesario n = 4.
Para hallar el tamao de muestra necesario para estimar la suma de edades (total) con
un error de muestreo e igual a 50, se aplica la frmula:
132 Muestreo estadstico. Conceptos y problemas resueltos

N 2S 2 100 2 13,3571
n= = = 34,82
NS 2 + e 2 100 13,3571 + 50 2

con lo que se tomar como tamao de muestra necesario n = 35.


Si introducimos un coeficiente de confianza del 95%, los tamaos de muestra necesarios
para cometer el mismo error de muestreo e = 2 al estimar la media y e = 50 para el total
lgicamente sern algo superiores a los calculados anteriormente. Tenemos:

n0 12,82 2 S 2 1,962 13,3571


Media n = = = 11,36 con n0 = 2 = = 12,82
n0 12,82 e 22
1+ 1+
N 100

N 2n1 1002 12,82 2 S2 1,962 13,3571


Total n = = = 99,92 con n0 = 2 = = 12,82
1 + Nn1 1 + 100 12,82 e 22

Para el caso de un error relativo de muestreo igual a er = 0,06 el tamao de muestra


necesario es el mismo para la estimacin del total y de la media. Tendremos:

C12, x 0,015 S 2 13,3571


n= = = 4 con C12, x = 2 = = 0,015
C12, x 2 0,015 X 29,75 2
e r2 + 0,06 +
N 100

Para el caso de un error relativo de muestreo igual a er = 0,06 con un coeficiente de


confianza del 95%, el tamao de muestra necesario es el mismo para la estimacin del total y
de la media, y lgicamente ser mayor que cuando no existe el coeficiente de confianza.
Tendremos:

2 C12, x 1,96 2 0,015


n= = = 61,54
C12, x 2 2 0,015
e r2 + 2 0,06 + 1,96
N 100

con lo que se tomar como tamao de muestra necesario n = 65 que, evidentemente, es


superior al tamao de muestra necesario sin coeficiente de confianza.
A continuacin consideramos la muestra asociada a la inicial, cuyos valores son cero para
edades impares y uno para edades pares, es decir, la nueva muestra ser {0, 1, 1, 0, 1, 1, 1, 1}. A
partir de esta muestra estimaremos la proporcin P y el total de la clase A de los valores pares de X
en la poblacin, as como los errores de muestreo correspondientes. Tenemos:

A i
6 6
P = i =1
=
= 0,75 (75%) A = N P = 100 = 75
n 8 8
P Q 8 0,75 0,25
e = ( P ) = (1
f ) = 1
= 0,0246
n
1 100 8
1
e = ( A ) = N ( P ) = 100 0,0246 = 2,46
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 133

El tamao de muestra necesario para estimar la proporcin de edades pares en la


poblacin con un error relativo de muestreo e r = 0,06 y un coeficiente de confianza del 95%
ser:
2r NQ 1,96 2 100 (1
0,75)
n= = = 78,22
( N
1) Pe r2 + 2r Q (100
1) 0,75 0,06 2 + 1,96 2 (1
0,75)

Vamos a realizar a continuacin para muestreo con reposicin el clculo del tamao
de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporcin
de edades pares de la poblacin con un coeficiente de confianza del 95%. Utilizamos:
Q 1,96 2 1
0,75
2
C
2 2
0,75
n= X
= 2P = = 355
e r2 e r 0,06 2

luego el tamao de muestra necesario ser n = 355, que supera al tamao poblacional. Eso se
debe a lo bajo que es el error especificado a cometer. En este caso habr que aumentar el
error a cometer. No obstante, se ha comprobado que el tamao de muestra necesario para
estimar el mismo parmetro cometiendo el mismo error siempre es mayor en el muestreo
con reposicin, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin
reposicin. Esto concuerda tambin con el hecho de que los errores de muestreo siempre son
menores en el caso de sin reposicin.

3.7. Una muestra irrestricta aleatoria de 600 habitantes procedente de una poblacin de N = 15.000
presenta los siguientes datos para la variable X = nmero de visitas anuales a doctores
especialistas:
600 600

X
i =1
i = 2946 y X
i =1
i
2
= 18694

Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas
a doctores especialistas en la poblacin admitiendo normalidad para la distribucin de los
estimadores. Tomando la muestra anterior como muestra piloto, qu tamao de muestra
ser necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el
total de visitas a doctores especialistas en la poblacin? Y para cometer un error relativo de
muestreo del 15%?

El total de visitas a doctores especialistas en la poblacin, su error y el intervalo de


confianza al 95% se estiman como sigue:

1 20 2 20
2
2946
X = N x = 15000 = 73650 S 2 = i i n = 7,06
X
X
600 n
1 i =1 i =1

S 2 600 7,06
( X ) = N 2 (1
f ) = 15000 2 1
= 1594,239
n 15000 600

IC ( X ) = X ( X ) = 73650 1,96 1594,239 = (70526, 76775)


134 Muestreo estadstico. Conceptos y problemas resueltos

La media de visitas por habitante a doctores especialistas en la poblacin, su error y


el intervalo de confianza al 95% se estiman como sigue:

2946 S 2 600 7,06


x= = 4,91 ( x ) = (1
f ) = 1
= 0,106282
600 n 15000 600
IC ( x ) = x ( x ) = 4,91 1,96 0,106282 = (4,70168, 5,11831)

El tamao de muestra necesario para cometer un error absoluto de muestreo de


1.000 unidades al estimar el total poblacional de X, se puede calcular despejando n en la
frmula de la desviacin tpica del estimador del total, de la forma siguiente:

n 7,06 15000 2 7,06


1000 2 = 15000 2 1
n= = 1437
15000 n 1000 2 + 15000 7,06

El tamao de muestra necesario para cometer un error relativo de muestreo del 15%
al estimar el total poblacional de X puede hallarse como sigue:

S2 7,06
2 N 15000
NC 1, x X 2
4,912
n= = = = 13
Ne r2 + C12, x S2 2 7,06
2
Ne r + 2 15000 0,15 +
X 4,912

Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamao 600 con los
datos dados en el enunciado del problema se utiliza como muestra piloto.

3.8. Un sector industrial de Estados Unidos tiene un censo de 1000 fbricas. Hallar el tamao de
muestra necesario (nmero de fbricas) para que, con un grado de confianza del 95%, la
estimacin de la produccin total del sector quede dentro del 10% de su valor verdadero. Se
utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de
variacin poblacional es 0,6.

P(| X
X | 0,10 X ) = 0,95  P(
0,10 X  X
X  0,10 X ) = 0,95 

0,10 X X
X 0,10 X
0,10 X 0,10 X
P   = 0,95  P
( X )  N ( 0,1)  = 0,95

( X ) (
X ) (
X ) (
X )
0,10 X ( X ) ( X )
= 0,10 = = = Cv( X ) = er con =1,96
( X ) X E ( X )
Por lo tanto, el problema se traduce en calcular el tamao de muestra necesario para
cometer un error relativo de muestreo de 0,051 al estimar la produccin total.
2
S2 N 2 2
2 N 1,962 1000
2 NC12,x N 2
2

N
1 X
(CV )
2
0,62
n= = X = = N
1 = 999 = 122
Ner2 + 2 C12, x 2 S
2
2
N
2
2 1,962
Ner + 2 Ner +
2 2

2
er + (CV ) 0,1 +
2 2
.0,6 2

X N
1 X N
1 999
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 135

3.9. Los partidos de izquierdas desean obtener informacin rpida sobre el nmero total de concejales
que obtuvieron en las ltimas elecciones en los 300 municipios ms pequeos de una regin
espaola. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados:

Nmero de concejales por municipio Nmero de municipios


Xi ni
0 2
1 7
2 5
3 7
4 8
5 10
6 5
7 3
8 2
9 1
Se pide:

1) Estimar el nmero total de concejales que obtuvieron los partidos de izquierdas en las
ltimas elecciones en la regin en los municipios ms pequeos.
2) Si se hubiera querido un error de muestreo inferior a 150 concejales, cuntos municipios
habra sido necesario seleccionar?

Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de
izquierdas se procede como sigue:

1 k 196
x=
n i =1
x i ni =
50
= 3,92 X = Nx = 300  3,92 = 1176 concejales

Como no se especifica lo contrario, se supone que el muestreo es sin reposicin, en


cuyo caso el error del estimador anterior al 99% de confianza es:

n S
2
4,8098
( X ) = N 2 (1
) = 2,575  300(300
50) = 218,7189
N n 50

2 1 k 2
x i ni

( xi ) 1
2

=
196 2
S = 1004
= 4,8098
n
1 i =1 n 49 50

Por tanto, la estimacin del nmero de concejales obtenidos en los 300 municipios
ms pequeos de esa regin durante las pasadas elecciones es de 1178 concejales. El error de
muestreo con un 99% de confianza ha resultado ser 218,7, que en trminos relativos (de
coeficiente de variacin) es:

218,7189
C v ( X ) = 100 = 18,59%
1176
136 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el total de concejales con un error de muestreo inferior a 150, el


nmero de municipios que habra sido necesario seleccionar se calcular como:

N 2 2 S 2 300 2  2,575 2  4,8098


n= = = 89,51  90 municipios
eT2 + N 2 S 2 150 2 + 300  2,575 2  4,8098

3.10. Un prestamista se dispone a contabilizar deudas atrasadas de 10000 clientes. Necesita


aproximar la deuda sin cobrar y para ello elige una muestra aleatoria de 36 clientes, los
cuales adeudan en media 7500 euros con un error (cuasidesviacin tpica) de 3000 euros.
Realizar una estimacin por intervalos al 95% de la deuda sin cobrar. Qu tamao de
muestra deber seleccionarse para estimar la deuda pendiente con un error de muestreo
inferior a 2500000 euros.

Sea X la variable que mide la deuda sin cobrar. Dicha deuda total se estimar mediante:

X = Nx = 1000 * 7500 = 7500000 euros

El error de muestreo ser:

n S
2

36 3000 2
( X ) = N 2 (1
) = 1000 2 1
= 2764,8
N n 1000 36

El intervalo de confianza para el total poblacional ser:

[ X
( X ), X + ( X )] = [75000
1,96(2764,8); 75000+ 1,96(2764,8)] = [65217655,9; 84782344,1]

Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir
una muestra de tamao superior al valor siguiente:

N 2 2 S 2 10000 2  1,96 2  3000 2


n= = = 524,19  525
eT2 + N 2 S 2 (2500000) + 10000  1,96 2  3000 2
2

3.11. En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones.
Para ello, de entre los 500 visitantes de un da determinado, se seleccion una muestra
aleatoria simple de 100 y a la salida del recinto ferial se les pregunt la cantidad en euros
que haban gastado. Se obtuvieron los siguientes datos:

100 100

X i = 250
i =1
X
i =1
i
2
= 649,75

Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el
recinto ferial. A cuntas personas se debera haber preguntado para que, con la misma
confianza, el error de la estimacin anterior no superarse los 75 euros? Cuntas personas
deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas
insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una
confianza del 95%?
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 137

El intervalo de confianza para la media poblacional ser:

n S
2
n S
2

I = x
(1
) ; x
(1
)
N n N n

1 n 250
x = xi = = 2,50 euros
n i! 100

1 n 2 1 n 1
2
1
2
S = X i
X i = 649,75
(250)2 = 0,25
n
1 i =1 n i =1 99 100

El intervalo de confianza para el gasto medio en euros por persona en la feria ser:

100 0,25 100 0,25


I = 2,5
1,96 (1
) ; 2,5
1,96 (1
) = [2,4123; 2,5876]
500 100 500 100

Para un error en la estimacin de la media de 75 euros, el nmero de personas que


ser necesario entrevistar ser:

2 NS 2 1,96 2  500  0,25


n= = = 127,2761  128
e 2 N + 2 S 2 0,075 2  500 + 1,96 2  0,24

El nmero de personas que deberan haber sido preguntadas si se hubiera deseado


estimar la proporcin de personas insatisfechas con los servicios prestados en el recinto
ferial con un error del 10% y una confianza del 95% sera el siguiente:

2 NPQ 1,96 2  500  0,5  0,5


n= = = 80,7005  81 personas
e 2 (N
1) + 2 PQ 0,10 2  499 + 1,96 2  0,5  0,5

Como no se tiene informacin sobre el valor de P, se toma P = 0,5.

3.12. Para tomar la decisin de mantener un determinado libro como texto oficial de una
asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una
universidad y enviarles un cuestionario a travs del cual manifiesten si son favorables a la
renovacin del libro como texto oficial.
1) Cul deber ser el nmero apropiado de profesores encuestados de entre los 1250 para
obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del
libro de texto con un error de muestreo inferior al 12% y una confianza del 90%?
2) Si de la encuesta realizada el ao anterior se sabe que la proporcin de profesores
favorables al mantenimiento del libro de texto estar entre el 75% y el 85%, cul debera
ser en este caso el nmero apropiado de profesores encuestados del apartado anterior?
3) Si finalmente se decidi enviar cuestionarios a 100 profesores, de los cuales tan slo 35
no se manifestaron favorables a la renovacin del libro de texto, estimar la proporcin del
nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin.
138 Muestreo estadstico. Conceptos y problemas resueltos

El nmero apropiado de profesores a encuestar de entre los 1250 para obtener una
estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto
con un error de muestreo inferior al 12% y una confianza del 90% ser el siguiente:

2 NPQ 1,645 2  1250  0,5  0,5


n= = = 45,2968  46 profesores
e 2 (N
1) + 2 PQ 0,12 2  1249 + 1,645 2  0,5  0,5

Se ha utlizado P = 1/2 porque no se tiene informacin sobre P.

Para el caso de que se estime que la proporcin oscilar entre el 75% y el 85%, en la
frmula para obtener el tamao muestral se utilizar P = 0,75, pues es el que proporciona
mayor variabilidad entre los posibles. Ahora tenemos:

1,645 2  1250  0,75  0,25


n= = 34,2954  35 profesores
0,12 2  1249 + 1,645 2  0,75  0,25

En el ltimo apartado, como el estimador puntual de la proporcin poblacional es la


proporcin muestral, tenemos:

1 n
P = Ai (Ai =1 si el profesor i-simo mantiene el libro y Ai = 0 en caso contrario)
n i =1

Como slo 35 profesores de los 100 deciden la no renovacin del libro de texto,
tenemos:
65
P = = 0,65
100
El error de muestreo ser:

N
n pq 1250
100 0,65  0,35
e p = = 1,645 * = 0,0753
N
1 n 1249 100

3.13. Una empresa industrial est interesada en el tiempo por semana que los cientficos emplean
para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta
aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en
esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compaa emplea N
= 750 cientficos. Estimar el nmero total de horas-hombre que se pierden por semana en las
tareas insignificantes y establecer un lmite para el error de estimacin al 95% ( = 2).

Sea X el total de horas-hombre que se pierden por semana. Tenemos:

X = Nx = 750(10,31) = 7732,5 horas

Un lmite para el error de estimacin ser el radio del intervalo de confianza al 95%:

n S
2

50 2,25
( X ) = 2 N 2 (1
) = 2 700 2 1
= 307,4 horas
N n 750 50
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 139

3.14. Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de un colegio fue
seleccionada para estimar: (1) la fraccin de entre los N = 300 estudiantes del ltimo ao que
asistirn a una universidad, y (2) la fraccin de estudiantes que han tenido trabajos de tiempo
parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, , 100) las respuestas del i-
simo estudiante seleccionado. Estableceremos que Yi = 0 si el i-simo estudiante no
planifica asistir a una institucin superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el
estudiante i-simo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha
tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la
proporcin de estudiantes del ltimo ao que planea asistir a una universidad y P2, la
proporcin de estudiantes del ltimo ao que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).

Estudiante Y X
1 1 0
2 0 1
3 0 1
4 1 1
5 0 0
6 0 0
7 0 1
. . .
. . .
96 0 1
97 1 0
98 0 1
99 0 1
100 1 1
100 100

Y
i =1
i = 15 X
i =1
i = 65

Las estimaciones de las respectivas proporciones estarn dadas por las proporciones
muestrales:
1 100 15 1 100 65
P1 = Yi = = 0,15 P2 = Xi = = 0,65
100 i =1 100 100 i =1 100
Los lmites para los respectivos errores de estimacin al 95% estarn dados por los
radios de los dos intervalos de confianza, que se calculan como sigue:

n P1Q 1 100 0,15 0,85


( P1 ) = 2 (1
) = 2 1
= 0,059
N n
1 300 99

n P2 Q 2 100 0,65 0,35


( P2 ) = 2 (1
) = 2 1
= 0,078
N n
1 300 99

Hemos obtenido que el 15% de los estudiantes de ltimo ao planifica asistir a la


universidad con un lmite del error de la estimacin del 5,9%, y el 65% de los estudiantes de
ltimo ao ha tenido un trabajo a tiempo parcial durante su estancia en el colegio con un
lmite para el error de la estimacin del 7,8%.
140 Muestreo estadstico. Conceptos y problemas resueltos

3.15. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente
de una poblacin de 750 empleados de una multinacional. Al medir el salario mensual X en
cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:

50 50

X X
2
i = 454 y i = 4306
i =1 i =1

De esta muestra 20 trabajadores pertenecen al sector financiero de la multinacional, y al medir


los salarios mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:

20 20

X X
2
i = 172 y i = 1536
i =1 i =1

1 Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de
la multinacional para todos sus empleados y para los empleados del sector financiero, as
como sus errores absolutos y relativos de muestreo.

2 Responder a las preguntas del apartado anterior para muestreo aleatorio simple con
reposicin comentando resultados y comparndolos con los del apartado 1.

Consideramos como poblacin todos los empleados de la multinacional y como


subpoblacin todos los empleados del sector financiero de la multinacional.

Para estimar la media y el total de la poblacin con n = 50 y N = 750 se tiene:


50 50

Xi 454
X i
x= i =1
= = 9,08 y X = Nx = 750 i =1
= 750 9,08 = 6810
n 50 n
Las estimaciones de los errores de muestreo sern:


2

1 50 2 50
X i
X i 50
49 1 23 1
i =1
23
i =1
50
4306 454
V ( x ) = (1
) = 0,07 ( x ) = 0,07 = 0,26
750 50

V ( X ) = N 2V ( x ) = 750 2 0,07 = 39375 ( X ) = 39375 = 198,43

Las estimaciones de los errores relativos de muestreo (coeficientes de variacin de


los estimadores) sern las siguientes:

( x ) 0,27 ( X ) 198,43
C v( x ) = = = 0,029 (2,9%) y C v( X ) = = = 0,029 (2,9%)
x 9,08 X 6810

Evidentemente, los errores relativos de muestreo coinciden al estimar la media y el


total para la poblacin.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 141

Hemos estimado que el salario medio de todos los trabajadores de la multinacional


es de 908 euros mensuales y que los pagos totales mensuales de la multinacional en salarios
de todos sus empleados es 681000 euros. Estas estimaciones tiene un error inferior al 3%
(2,9%), lo que indica que son muy aceptables.

Para estimar la media y el total de la subpoblacin con n = 50, N = 750, n1 = 20 y N1


desconocido, se tiene:
20 20

X i
172 x X i
172
x1 = i =1
= = 8,6 y X 1 = N 1 = 750. i =1 = 750 = 2580
n1 20 n 50 50
1 20 2 20
2

X i
X i n1 1
[
1536
172 2 20 ]
n n1
1 i =1 i =1
50
V ( x1 ) = (1
) = (1
) 19 = 0,14
N n1 750 20
1 20 2 20
2

X i
X i n 1
[
1536
172 2 50 ]
n n
1 i =1
50
2
V ( X 1 ) = N (1
)
i =1
2
= 750 (1
) 49
N n 750 50
= 202354,28

Luego las estimaciones de los errores de muestreo para la subpoblacin sern:

( x1 ) = V ( x1 ) = 0,14 = 0,374 y ( X 1 ) = V ( X 1 ) = 202354,28 = 450

Las estimaciones de los errores relativos de muestreo (coeficientes de variacin)


para la subpoblacin sern:

( x1 ) 0,374 ( X 1 ) 450
C v( x1 ) = = = 0,043 ( 4,3%) y C v( X 1 ) = = = 0,1744 (17,44%)
x1 8,6 X 1 2580

Para la subpoblacin ya no coinciden los errores relativos de muestreo al estimar la


media y el total.

Hemos estimado que el salario medio de los trabajadores del sector financiero de la
multinacional es de 860 euros mensuales (algo inferior a los 908 euros mensuales de media
cuando se consideran todos los trabajadores) y que los pagos totales mensuales de la
multinacional en salarios de sus empleados del sector financiero es 258000 euros. Estas
estimaciones tienen unos errores del 4,3% y del 17,44%, respectivamente. Es mucho ms
precisa la estimacin del salario medio de los empleados del sector financiero que la
estimacin de los pagos totales a empleados de dicho sector.

En el caso de muestreo con reposicin los estimadores son los mismos (para la
poblacin y para la subpoblacin). Los errores de muestreo para la poblacin y la
subpoblacin sern:
142 Muestreo estadstico. Conceptos y problemas resueltos

V ( x ) 0,07
CR ( x ) = VCR ( x ) = = = 0,289
1
f 1
50 / 750
V ( X ) 39375
CR ( X ) = VCR ( X ) = = = 212,28
1
f 1
50 / 750
V ( x1 ) 0,14
CR ( x1 ) = VCR ( x1 ) = = = 0,4
1
f 1
50 / 750
V ( X 1 ) 202354,28
CR ( X 1 ) = VCR ( X 1 ) = = = 482,14
1
f 1
50 / 750

Se observa que los errores de muestreo al estimar la media y el total, tanto


para la poblacin como para la subpoblacin, son mayores en el caso de muestreo con
reposicin que en el caso de muestreo sin reposicin.
Las estimaciones de los errores relativos de muestreo (coeficientes de
variacin) para la poblacin y la subpoblacin sern:

y C v( X ) = CR ( X ) = 212,28 = 0,031 (3,1%)
( x ) 0,289
C v( x ) = CR = = 0,031 (3,1%)
x 9,08 X
6810
( x ) 0,4 ( X ) 482,1
C v( x1 ) = CR 1 = = 0,046 ( 4,6%) y C v( X 1 ) = CR 1 = = 0,186 (18,6%)
x1 8,6 X 1 2580

Los errores relativos de muestreo al estimar la media y el total tambin son mayores
en el caso de muestreo con reposicin, tanto para la poblacin como para la subpoblacin.

3.16. La tabla adjunta muestra la distribucin de frecuencias del nmero de residentes en cada una
de las 197 ciudades de Estados Unidos que tenan ms de 50000 habitantes en 1940.

N de residentes en miles Frecuencias N de residentes en miles Frecuencias


de habitantes (clases) absolutas de habitantes (clases) absolutas

50 - 100 105 650 -700 2
100 - 150 36 700 - 750 0
150 - 200 13 750 - 800 1
200 - 250 6 800 - 850 1
250 - 300 7 850 - 900 2
300 - 350 8 900 - 950 0
350 - 400 4 950 - 1000 0
400 - 450 1 1000 - 1050 0
450 - 500 3 1500 - 1550 1
500 - 550 0 1600 - 1650 1
550 - 600 2 1900 - 1950 1
600 - 650 1 3350 - 3400 1
7450 - 7500 1

Calcular los errores absoluto y relativo de muestreo del nmero total de habitantes estimado en
las 197 ciudades utilizando los siguientes mtodos de muestreo:

1) Muestro irrestricto aleatorio con tamao de muestra n = 50.

2) Muestreo que consiste en seleccionar las cinco ciudades ms grandes y posteriormente una
muestra irrestricta aleatoria de tamao 45 para las 192 ciudades restantes.
Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 143

Comenzaremos calculando la cuasivarianza para la distribucin de frecuencias dada relativa


a los tamaos de las ciudades. Considerando las marcas de clase se tiene:

1 197
2
2
S =
197
ni X i
n i X i N =
N
1 i =1
2 1
[
85363125
(46275) 197 = 380067,33
2
]
i =1 197
1

El error de muestreo para una muestra aleatoria simple sin reposicin de tamao 50 es:

n S2 50 380067,33
( X ) = V ( X ) = N 2 (1
) = 197 2 (1
) = 14836,79 miles de personas
N n 197 50

197
14836,79
Como X = ni X i = 46275 Cv( X ) = * 100 = 32% (error relativo).
i =1 46275

En el segundo apartado consideramos la subpoblacin de las cinco ciudades mayores


(ltimos cinco elementos de la tabla de frecuencias) que no presenta variabilidad porque se
eligen todos sus elementos para la muestra, y en la subpoblacin de las 192 ciudades restantes
elegimos una muestra de tamao 45. En esta ltima subpoblacin calcularemos el error de
muestreo (N1 = 192 n1 = 45).

1 192
2

S1
2
=
192
n i X i
n i X i N 1 =
N 1
1 i =1
2 1
[ 2
]
9425000
(30350 ) 192 = 24227,68
i =1 192
1

n1 S12 45 24227,268
( X ) = V ( X ) = N 2 (1
) = 192 2 (1
) = 3898,09 miles de personas
N 1 n1 192 45

192
3898,09
Como X 1 = ni X i = 30350 Cv( X ) = * 100 = 12,84% (error relativo).
i =1 30350

3.17. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El
doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con
caries de cada nio, con los siguientes resultados:

N de dientes con caries por nio 0 1 2 3 4 5 6 7 8 9 10


N de nios 8 4 2 2 1 1 0 0 0 1 1

El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr
aquellos que no tenan caries, encontrando que 60 nios no tenan dientes daados.

1) Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en
los nios cuantificando la ganancia en precisin.

2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los
resultados comparndolos con los del apartado anterior.
144 Muestreo estadstico. Conceptos y problemas resueltos

Para el doctor A, la estimacin del nmero de dientes con caries ser:

0 8 + 1 4 + L + 10 1
X = Nx = 200 = 200 2,1 = 420 dientes con caries.
20

El error de muestreo de esta estimacin es:

n S 2 20 8,62
( X ) = V ( X ) = N 2 (1
) = 200 2 (1
) = 123,04
N n 200 20

1 10 1
2

S 2 =
10
n i X i
ni X i n =
20
1 i = 0
2

19
[ 2
]
252
(42 ) 20 = 8,62
i =1

La estimacin por intervalos al 95% es IC ( X ) = X ( X ) = 420 1,96 123,04 .

Para el doctor B se considera la subpoblacin de los 140 nios con caries resultante de
eliminar de los 200 nios iniciales los 60 que no tenan caries. En cuanto a la muestra, hay que
eliminar de la distribucin inicial los ocho nios que tienen cero caries (20
8=12). La
distribucin muestral de frecuencias de esta subpoblacin queda como sigue:

N de dientes con caries por nio 1 2 3 4 5 6 7 8 9 10


N de nios 4 2 2 1 1 0 0 0 1 1

Tenemos entonces N1 = 140 y n1 = 12.

1 4 + L + 10 1
X 1 = N 1 x1 = 140 = 140 3,5 = 490 dientes con caries.
12

El error de muestreo de esta estimacin es:

n1 S1
2
12 9,545
( X 1 ) = V ( X 1 ) = N 12 (1
) = 140 2 (1
) = 419,370
N 1 n1 140 12

1 10 1
2

S12 =
10
ni X i
ni X i n1 =
12
1 i =1
2
[ 2
]
252
(42) 12 = 9,545
i =1 11

Se observa que la precisin del doctor B es bastante menor (error mayor).

La estimacin por intervalos al 95% es IC ( X 1 ) = X 1 ( X 1 ) = 490 1,96 419,37 .


Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones 145

EJERCICIOS PROPUESTOS
3.1. Consideramos una poblacin finita de seis elementos sobre los que medimos una variable X,
obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto
aleatorio se extraen muestras de tamao 2. Se pide:

1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los
estimadores de la media y del total de X, as como de los estimadores de sus varianzas.
S2
Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1
f ) ,
n
2
S
V ( X ) = N 2 (1
f ) y E ( S 2 ) = S 2 , as como que el estimador T = Total muestral no es
n
insesgado del total poblacional X.

2) Hallar el tamao de muestra necesario para que el error de muestreo sea 2 al estimar la
media de la poblacin. Y al estimar el total poblacional? Hallar tambin el tamao de
muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas
estimaciones. Calcular todos los tamaos de muestra anteriores en presencia de un
coeficiente de confianza adicional del 95%. Comentar los resultados.

3) Contestar a todas las preguntas del apartado anterior para muestreo con reposicin.
Comparar los resultados con los de muestreo sin reposicin. Comentar los resultados.

4) A partir de qu tamao poblacional N el aumento del tamao muestral n no interviene en


el error absoluto de muestreo para la estimacin de la media? Cunto valdr N con un
coeficiente de confianza del 95%? Hallar intervalos de confianza al 95% para la media y el
total basados en las muestras de elementos pares. Si al medir una variable X sobre los
elementos de la poblacin se obtienen los valores {1, 3, 4}, cul de todos los mtodos de
muestreo es ms preciso al estimar el total poblacional mediante un estimador lineal
insesgado apropiado?

3.2. Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de piezas
correctas producidas en un proceso industrial en el que se fabrican un total de 6000 unidades.
Una muestra piloto ha suministrado 1/3 de piezas defectuosas. Se pide:

1) Hallar el tamao de muestra necesario para que el error de muestreo sea de una dcima al
estimar la proporcin de piezas correctas producidas en el proceso industrial. Hallar tambin el
tamao de muestra necesario para que el error relativo de muestreo sea de 20% en la misma
estimacin.

2) Hallar el tamao de muestra necesario para que el error de muestreo sea de 600 unidades al
estimar el total de piezas correctas con un coeficiente de confianza del 99,7% y suponiendo
muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero
para un error relativo de muestreo del 10%.
146 Muestreo estadstico. Conceptos y problemas resueltos

3.3. Con el objetivo del anlisis de la divisibilidad de un conjunto de nmeros consideramos la


poblacin virtual Xi = {2, 13, 17, 23, 6, 1}, i = 1, ..., 6. Mediante muestreo irrestricto aleatorio se
extraen muestras de tamao 2.

1) Se trata de estimar los parmetros poblacionales PROPORCIN DE NMEROS PRIMOS y


TOTAL DE NMEROS PRIMOS mediante estimadores insesgados basados en las muestras del
espacio muestral. Hallar la distribucin en el muestreo de dichos estimadores y de las
estimaciones insesgadas de sus varianzas. Comprobar todas las insesgadeces y que se cumplen
N N
PQ PQ
las relaciones V ( P ) = (1
f ) N
1 , V ( A ) = N 2 (1
f ) N
1 y E ( S 2 ) = S 2 , as como
n n
que el estimador T = Total de nmeros primos en las muestras no es insesgado del total de clase
poblacional A.

3) Hallar el tamao de muestra necesario para que el error de muestreo sea 1/4 al estimar la
proporcin de nmeros primos de la poblacin. Hallar tambin el tamao de muestra necesario
para que el error relativo de muestreo sea del 2% en la misma estimacin.

4) Hallar intervalos de confianza al 99% ( = 0,01) para el total y la proporcin de nmeros


primos en la poblacin basados en las muestras cuyos dos elementos son nmeros no primos.
Tenemos como dato conocido que F-1(0.995)= 2,57, siendo F la funcin de distribucin de la
normal (0,1). Comentar los resultados.

5) Hallar el tamao de muestra necesario para que el error de muestreo sea 6 al estimar el total de
nmeros primos de la poblacin con un coeficiente de confianza del 99% y suponiendo muestreo
aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un
error relativo de muestreo del 90%. Comentar los resultados.

3.4. Un investigador est interesado en estimar la ganancia en peso total en 0 a 4 semanas de N =


1000 polluelos alimentados con una nueva racin. Obviamente, pesar cada ave sera tedioso
y lento. Por lo tanto, determinar el nmero de polluelos que sern seleccionados en este
estudio para estimar con un lmite para el error de estimacin igual a 1000 gramos. Muchos
estudios similares sobre nutricin de polluelos se han llevado a cabo en el pasado. Usando
los datos de esos estudios, el investigador encontr que 2, la varianza poblacional, fue
aproximadamente igual a 36,00 gramos. Determine el tamao de muestra requerido.

3.5. Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo
estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si
suponemos que hay N = 10000 casas dentro de la comunidad, estimar , el promedio de
consumo diario verdadero, y establezca un lmite para el error de estimacin.
CAPTULO

MUESTREO ESTRATIFICADO
SIN Y CON REPOSICIN

OBJETIVOS
1. Presentar el concepto de muestreo estratificado.
2. Comprender las especificaciones del muestreo estratificado.
3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado
sin reposicin.
4. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
7. Comprender el concepto de afijacin de la muestra.
8. Estudiar los distintos tipos de afijacin.
9. Especificar los errores de los estimadores en funcin de los distintos tipos
de afijacin.
10. Analizar el tamao de la muestra en general.
11. Estudiar el tamao de la muestra en funcin de los distintos tipos de
afijacin.
12. Comparar la eficiencia de los distintos tipos de afijacin.
13. Presentar el concepto de postestratificacin.
14. Analizar estimadores y errores en postestratifiaccin.
148 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Concepto de muestreo estratificado.
2. Muestreo estratificado sin reposicin. Estimadores y errores.
3. Muestreo estratificado con reposicin. Estimadores y errores.
4. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo sin reposicin.
5. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo con reposicin.
6. Tamao de la muestra para muestreo sin reposicin.
7. Tamao de la muestra para muestreo con reposicin.
8. Comparacin de eficiencias en muestreo estratificado.
9. Postestratificacin.
10. Problemas resueltos
11. Ejercicios propuestos
Muestreo estratificado sin y con reposicin 149

CONCEPTO DE MUESTREO ESTRATIFICADO

Supongamos que la poblacin objeto de estudio, formada por N unidades elementales, se


divide en L subpoblaciones o estratos, los cuales constituyen una particin, es decir, no se
solapan y la unin de todos ellos es el total. De forma ms precisa podemos decir que en el
muestreo estratificado, una poblacin heterognea con N unidades {ui} i = 1, 2, ..., N se subdivide
en L subpoblaciones disjuntas lo ms homogneas posible (que forman una particin) de tamaos
N1, N2, ..., NL., denominadas estratos {uhi } h =1,2 ,L, L .
i =1, 2 ,L N h

El muestreo estratificado es un tipo de muestreo de unidades elementales ya que la muestra


estratificada de tamao n se obtiene seleccionando nh elementos (h = 1, 2, ..., L) de cada uno de los L
estratos en los que se subdivide la poblacin de forma independiente. Si la seleccin en cada estrato
es aleatoria simple y de forma independiente, el muestreo se denomina muestreo aleatorio
estratificado, pero en general nada impide utilizar diferentes tipos de seleccin en cada estrato. Si
el muestreo aleatorio en cada estrato es sin reposicin, el muestreo estratificado es sin reposicin,
y si el muestreo aleatorio en cada estrato es con reposicin, el muestreo estratificado es con
reposicin. El grfico siguiente muestra la poblacin dividida en h estratos de tamao Nh, en
cada de los cuales elegimos de modo independiente nh unidades (por muestreo aleatorio
simple si no se especifica otra cosa) para la muestra estratificada de tamao n..

Nh N4
nh n4

N1 N2 N3
n1 n2 n3

POBLACIN
A continuacin se expresa de modo esquemtico la formacin de estratos en la
poblacin y la formacin de la muestra estratificada de la forma siguiente:

POBLACIN
u11 u12 Lu 1 N1

u 21 u 22 Lu 2 N 2 L
{u1 u 2 Lu N }      
Se divide en L estratos

Nh = N
LLLLLL h =1
u u Lu
L1 L 2 LN L

MUESTRA
u11 u12 Lu 1n
1

u 21 u 22 Lu 2 n L
{u1 u 2 Lu n }     
Se extrae en cada estrato

nh = n
2

LLLLLL h =1
u u Lu
L1 L 2 Ln
L
150 Muestreo estadstico. Conceptos y problemas resueltos

El principal objetivo del muestreo estratificado es mejorar la precisin de las


estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los
estimadores mediante la creacin de estratos lo ms homogneos posible entre sus elementos
(para que los estimadores del estrato sean precisos) y lo ms heterogneos entre s (para
tener el mximo de informacin). Otros objetivos del muestreo estratificado son los
siguientes:

1. Obtener estimaciones separadas para cada uno de los estratos.

2. Hacer un uso ms racional de la organizacin administrativa.

3. Paliar los defectos del marco, aislando esos defectos en algunos estratos.

Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para
la estratificacin cuyos valores permitan dividir convenientemente la poblacin en estratos
homogneos. Las variables utilizadas para la estratificacin debern estar correlacionadas con las
variables objeto de la investigacin. Por ejemplo, para realizar estadsticas sobre los ingresos de las
familias en una ciudad puede estratificarse segn los valores de la variable cualificacin profesional
de los cabezas de sus componentes (a ms cualificacin normalmente hay ms ingresos, con lo que
los estratos resultarn homogneos). Si se quiere estudiar el volumen de negocio de los
establecimientos de venta al pblico de una ciudad, se puede utilizar como variable de
estratificacin su nmero de empleados, y clasificar (estratificar) los establecimientos en grandes
superficies, supermercados, tiendas grandes, tiendas pequeas y otros, segn el nmero de
empleados; as resulta una divisin de los establecimientos en grupos homogneos. Si se quiere
estudiar caractersticas de hospitales se puede utilizar la variable de estratificacin nmero de
pacientes, para estratificarlos en grandes hospitales, clnicas medias y clnicas pequeas, resultando
as grupos de hospitales con problemtica similar. Para realizar estadsticas en el sector educativo
puede utilizarse la variable de estratificacin nivel de enseanza, tomando como estratos los niveles
de enseanza infantil, enseanza primaria, enseanza secundaria obligatoria, bachillerato y
enseanza universitaria (cada estrato tiene as unas caractersticas muy peculiares que lo hacen
homogneo).

MUESTREO ESTRATIFICADO SIN REPOSICIN: ESTIMADORES Y ERRORES


L Nh
En muestreo estratificado un parmetro poblacional puede escribirse como  = Y
h i
hi .

El parmetro  puede ser estimado mediante la suma extendida a todos los estratos de los
estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:

L nh
Y hi
 = 
h i hi

~
donde  hi es la probabilidad de que la unidad u hi pertenezca a la muestra ( Xh ) de nh unidades,
obtenida de entre las Nh unidades del estrato h-simo. Para los diferentes estimadores tendremos las
siguientes expresiones:
Muestreo estratificado sin y con reposicin 151

nh nh
L
X hi L
X hi L
1 nh L L
 = X Yhi = X hi X st = = = N h X hi = N h xh = X h
 hi h=1 i =1 nh N h n =1
h=1 i =1 h=1
1h4i243 h=1 h=1

X h = xh

X hi L
1 nh X L
1 nh X L
N 1 nh L
 = X Yhi = X st = xst = hi = hi = h X hi = Wh xh
N h=1 N i =1  hi h=1 N i =1 nh N h N nh i=1
h=1 { h=1
Wh

nh nh
L
Ahi L
Ahi L
1 nh L L
 = A Yhi = Ahi A st = = = N h Ahi = N h Ph = A h
 hi nh N h h=1 nh i =1
h=1 i =1 h =1 i =1
1424 3 h=1 h =1

Ph

Ahi L
1 nh A L
1 nh Ahi L
N 1 nh L
 = P Yhi = Pst = hi = = h Ahi = Wh Ph
N N  N n N N n
h =1 { h i =1
h =1 i =1 hi h =1 i =1 h h
W
1424 3 h=1
h
Ph

El estimador del total poblacional en muestreo estratificado aleatorio es la suma de


los estimadores del total en cada estrato y los factores de elevacin son Nh / nh. El estimador
de la media en muestreo estratificado aleatorio es la media ponderada de los estimadores de la
media en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma unitaria, que a
su vez son los factores de elevacin. El estimador del total de clase en muestreo estratificado
aleatorio es la suma de los estimadores del total de clase en cada estrato. El estimador de la
proporcin en muestreo estratificado aleatorio es la media ponderada de los estimadores de la
proporcin en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma
unitaria. Las varianzas de los estimadores y sus errores son (fh = nh / Nh):

( ) S2 L L S2
L
V X st = N h2 (1
f h ) h , V (x st ) = V W h x h = W h2 (1
f h ) h
h =1 nh h =1 h =1 nh

( ) N h Ph Q h
( ) N h Ph Q h
L L
V A st = N h2 (1
f h ) , V Pst = Wh2 (1
f h )
h =1 N h
1 nh h =1 N h
1 nh
S h2 S h2
( )
L L
V X st = N h (1
f h )
2
, V (X st ) = W h (1
f h )
2

h =1 nh h =1 nh
P Q P Q
( ) ( )
L L
V A st = N h2 (1
f h ) h h , V Pst = W h2 (1
f h ) h h
h =1 nh
1 h =1 nh
1

S h2 = cuasivarianza poblacional en el estrato h, Sh2 = cuasivarianza muestral en el estrato h.

MUESTREO ESTRATIFICADO CON REPOSICIN: ESTIMADORES Y ERRORES

Para el caso del muestreo estratificado con reposicin los estimadores son los
mismos, y sus varianzas son las siguientes:

( ) 2 2 PQ
( ) PQ
( )
L L L L
V X st = N h2 h , V ( x st ) = Wh2 h , V A st = N h2 h h , V Pst = Wh2 h h
h =1 nh h =1 nh h =1 nh h =1 nh
152 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de los errores (estimaciones de varianzas) son las siguientes:

2 2 P Q P Q
( ) 2 Sh 2 Sh
( ) ( )
L L L L

V X st = N h , V (X st ) = Wh
, V A st = N h2 h h , V Pst = Wh2 h h
h =1 nh h =1 nh h =1 nh
1 h =1 nh
1

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE


LOS ESTIMADORES PARA MUESTREO SIN REPOSICIN
Se llama afijacin de la muestra al reparto, asignacin, adjudicacin, adscripcin o distribucin
del tamao muestral n entre los diferentes estratos; esto es, a la determinacin de los valores de nh
que verifiquen n1 + n2 + .... + nL = n. Pueden establecerse muchas afijaciones o maneras de
repartir la muestra entre los estratos, pero las ms importantes son: la afijacin uniforme, la
afijacin proporcional, la afijacin de varianza mnima y la afijacin ptima.

Afijacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se
tomarn todos los nh iguales a n/L, aumentando o disminuyendo este tamao en una unidad
si n no fuese mltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.
L L
nh k
n h = k h = 1LL n h = k n = Lk f h = =
h =1 h =1 Nh Nh

Para este tipo de afijacin, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las frmulas generales fh por k/Nh. Este tipo de afijacin da la misma
importancia a todos los estratos, en cuanto a tamao de la muestra, con lo cual favorecer a los
estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es conveniente
en poblaciones con estratos de tamao similar.

Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcional a su tamao.
Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos
expresados en nmero de unidades. Tenemos:

L L L
n
n h = N h k n h = N h k = k N h n = kN k = = f
1 23 h =1
h =1
1 23
h =1 N
n N

nh N k N h nh k nh
fh = = h =k = f Wh = = =
N Nh N nk n
{h
 hi

Para este tipo de afijacin, las varianzas de los estimadores sern:


Muestreo estratificado sin y con reposicin 153

( )
V X st =
(1
k ) L N S 2 , V (x ) = (1
k ) L W S 2
k h=1
h h st
n h=1
h h
( )
(1
k ) L Nh2 (1
k ) L Nh2 N
( )
V Ast =
k h=1 Nh
1
PhQh , V Pst =
k h=1 Nh
1
PhQh

En afijacin proporcional los estimadores de media y total pueden expresarse como


sigue:
L

L L
n 1 L x h
x Total muestral
X st = N h x h = h x h = nh x h = h =1
= =
h =1 h =1 k K h =1
{ k f Fraccion demuestreo
x h nh
L

L L
1 L x h
X st = x st = Wh x h = h x h = nh x h =
n h =1 Total muestral
=
h =1 h =1 n n h =1 x{n n Tamao de muestra
h h

A la vista de los resultados anteriores, en afijacin proporcional, podemos asegurar lo


siguiente:

Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccin global
de muestreo, siendo su valor la constante de proporcionalidad.

Los coeficientes de ponderacin Wh se obtienen exclusivamente a partir de la muestra,


pues para su clculo slo son necesarios valores muestrales (nh y n).

El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fraccin de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fraccin de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fraccin de muestreo).

El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamao de la muestra. Similar propiedad tiene el estimador insesgado
para la proporcin poblacional (cociente entre el total de clase muestral y el tamao de la
muestra).
nh
Como  hi = = k = f, todas las unidades de la poblacin tienen la misma probabilidad
Nh
de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras
autoponderadas.

Afijacin de mnima varianza (o afijacin de Neyman)

La afijacin de mnima varianza o afijacin de Neyman consiste en determinar los valores de


nn (nmero de unidades que se extraen del estrato h-simo para la muestra) de forma que para
un tamao de muestra fijo igual a n la varianza de los estimadores sea mnima.
154 Muestreo estadstico. Conceptos y problemas resueltos

Nh
Sh
NhSh W S
La expresin para nh es n h = n L =n L N =n L h h .
Nh
h =1
NhSh h =1 N
Sh h =1
Wh S h

Vemos que los valores de nh son proporcionales a los productos N h S h y en el


supuesto de que Sh = S, h = 1, 2, ..., L esta afijacin de mnima varianza coincidira con la
proporcional, tal y como se ve a continuacin:
NhS nN h n
S h = S nh = n L
= = kN h con k =
N N
N
h =1
h S

La utilidad de esta afijacin es mayor si hay grandes diferencias en la


variabilidad de los estratos. En otro caso, la mayor sencillez y autoponderacin de la
afijacin proporcional hacen preferible el empleo de sta.

Una vez calculados los nh para afijacin de mnima varianza, vamos a ver cunto
vale la varianza del estimador de la media y del total para este tipo de afijacin. Tenemos:
2 2

( ) 1 L 1 L
1 L 1 L
V ( x st ) = Wh S h
Wh S , V X st2
h = Nh Sh
N h S h2
n h =1 N h =1 n h =1 N h =1

Si se quiere la afijacin y la expresin de la varianza mnima para el estimador de la


proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por PhQhNh/(Nh-1).

Afijacin ptima
La afijacin ptima consiste en determinar los valores de nh (nmero de unidades que se
extraen del estrato h-simo para la muestra) de forma que para un coste fijo C la varianza de
los estimadores sea mnima. El coste fijo C ser la suma de los costes derivados de la
seleccin de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de
muestreo en el estrato h, el coste total de seleccin de las nh unidades muestrales en ese
estrato ser chnh. Sumando los costes chnh para los L estratos tenemos el coste total de
seleccin de la muestra estratificada.
Nh Sh ch Wh S h ch
Podemos escribir que n h = n L
= n L

N
h =1
h Sh ch W
h =1
h Sh ch

Vemos que los valores de nh son proporcionales a los productos N h S h c h y en el


supuesto de que Ch = k h = 1, 2, ..., L (coste constante en todos los estratos) la afijacin
ptima coincide con la de mnima varianza, y si adems Sh = S, h = 1, 2, ..., L la afijacin
ptima coincidir con la de mnima varianza y con la proporcional.
Valor de la varianza mnima
Una vez calculados los nh para afijacin ptima, vamos a ver cunto vale la varianza del
estimador de la media y del total para este tipo de afijacin. Tenemos:
Muestreo estratificado sin y con reposicin 155

1 L L 1 L
V ( x st ) = Wh S h c h Wh S h c h
W S h
2
h
n h =1 h =1 N h =1

( ) 1 L L 1 L
V X st = N h S h c h N h S h c h
N h S h2
n h =1 h =1 N h =1

Si se quiere la afijacin ptima y la expresin de la varianza mnima para el


estimador de la proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por
PhQhNh/(Nh-1).

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE LOS


ESTIMADORES PARA MUESTREO CON REPOSICIN

Dada la forma en que estn definidos los clculos de los nh para las afijaciones uniforme y
proporcional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea
con o sin reposicin. Sin embargo, s variarn las varianzas de los estimadores. Las
afijaciones de mnima varianza y ptima s van a verse afectadas por la existencia de
reposicin o no, ya que el clculo de nh depende de las varianzas en los estratos.

Afijacin uniforme

Para este tipo de afijacin, las varianzas de los estimadores sern:

( )
( ) ( )
2 2
L L
PQ PQ
L L
V X st = Nh2 h , V (xst ) = Wh2 h , V Ast = Nh2 h h , V Pst = Wh2 h h
h=1 k h=1 k h=1 k h=1 k

Afijacin proporcional

Para este tipo de afijacin las varianzas de los estimadores sern:

( ) 1 L 1 L
k h=1
( ) 1 L
n h=1
1 L PQ
V X st = N h h2 , V A st = N h Ph Qh , V (xst ) = Wh h2 , V Pst = Wh h h
k h=1 n h=1 k
( )

Afijacin de mnima varianza (o afijacin de Neyman)

Tenemos:

2 2
Wh h N h h 1 L 1 L
nh = n L
= n L
, V ( x st ) = h h
W , V ( x st ) = N h h
n h =1 n h =1
W
h =1
h h N
h =1
h h

Si se quiere la afijacin de mnima varianza y la expresin de la varianza mnima


para el estimador de la proporcin y el total de clase basta sustituir en la frmula anterior
h2 por PhQh.
156 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima
Tenemos:

Wh h N h h
ch ch 1 L L
nh = n =n , V ( x st ) = Wh h c h Wh h c h ,
L
Wh h L
N h h n h =1 h =1

h =1 ch
h =1 ch

( )
1 L
V X st = N h h
n h =1
L
c h N h h c h
h =1
Si se quiere la afijacin ptima y la expresin de la varianza mnima para el estimador de
la proporcin y el total de clase basta sustituir en las fmulas anterioriores h2 por PhQh.

TAMAO DE LA MUESTRA PARA MUESTREO SIN REPOSICIN

Vamos a analizar ahora el tamao de muestra estratificada necesario para cometer un


determinado error de muestreo conocido de antemano. Distinguiremos los casos de error de
muestreo dado con y sin coeficiente de confianza adicional y, adems, distinguiremos entre
los diferentes tipos de afijacin de la muestra.

Tipo de error  Absoluto y coeficiente Absoluto y coeficiente


Absoluto Absoluto
Parmetro de confianza adicional de confianza adicional
proporcional varianza mnima
 proporcional varianza mnima
2 2
L L
L L
Wh Sh2
Wh Sh
h =1


Wh Sh2
Wh Sh

h =1


h =1 h =1
Media L L 2 L 2 L
1 1 e 1 e 1
e2 +
N
W S
h =1
2
h h
2
e +
N h =1
Wh Sh2
2
+
N
W S
h =1
2
h h +
2 N h =1
Wh Sh2
2 2
L L
L L

N N h Sh2
N h Sh
h =1


N N h Sh2
N h Sh
h =1


h =1 h =1
Total L L 2 L 2 L
e e
e2 + N S
h =1
2
h h e2 + N S
h =1
2
h h
2
+ N Sh =1
2
h h 2

+ N h Sh2
h =1
2 2
L L
Nh L L
Nh
Wh
Nh
Nh
1
PhQh Wh

h =1 N
1
PhQh
Wh
Nh
Nh
1
PhQh
Wh
h =1 N
1
PhQh

Proporcin h =1 h h =1 h
L L 2 L 2 L
1 Nh 1 Nh e 1 Nh e 1 Nh
2
e +
N

h =1
Wh
Nh
1
PhQh 2
e +
N h =1

Wh
Nh
1
PhQh
2
+
N
W h =1
h
Nh
1
PhQh + Wh
2 N h =1 N h
1
PhQh
2 2
L L Nh L L Nh

N Nh
Nh
PhQh
Nh
h =1
1
PhQh
N Nh
Nh
PhQh
Nh
h =1
1
PhQh

h
1 h
1
h =1 N N h h =1 N N h
Total de clase L L 2 L 2 L
Nh Nh e Nh e Nh
e2 + N
h =1
h
Nh
1
PhQh e2 +
h =1
Nh
Nh
1
PhQh
2
+ N h =1
h
Nh
1
PhQh +
2 h =1

N h
Nh
1
P Q
h h

TAMAO DE LA MUESTRA PARA MUESTREO CON REPOSICIN

Vamos a analizar ahora el tamao de muestra estratificada con reposicin necesario para
cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos
de error de muestreo dado con y sin coeficiente de confianza adicional y, adems,
distinguiremos entre los diferentes tipos de afijacin de la muestra.
Muestreo estratificado sin y con reposicin 157

Tipo de error  Absoluto y coeficiente Absoluto y coeficiente


Absoluto Absoluto
Parmetro de confianza adicional de confianza adicional
proporcional varianza mnima
 proporcional varianza mnima
2 2
L L L L
W h
2
h
Wh h
h =1
W h
2
h
Wh h
h =1
h =1 h =1
Media
e2 e2 2
e / 2 e 2 / 2
2 2
L L L L
N N h h2
N h h
h =1
N N h h2
N h h
h =1
h =1 h =1
Total 2
e e2 2
e / 2
e 2 / 2
2 2
L L L L
Wh Ph Qh
Wh Ph Qh
h =1


Wh Ph Qh
Wh Ph Qh
h =1


h =1 h =1
Proporcin 2
e e2 e 2 / 2 e 2 / 2
2 2
L L
L L
N N PQ h h h
N h Ph Qh
h =1


N N PQ h h h
N h Ph Qh
h =1


h =1 h =1
Total de clase
e2 e2 e / 2
2
e 2 / 2

COMPARACIN DE EFICIENCIAS EN MUESTREO ESTRATIFICADO

Muestreo sin reposicin

Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de S2. Tenemos:

S2 1 L 1 L
W h S h2 + W h (X h
X ) = W h S h2 + W h (X h
X )
L L
2 2
S2 =
h =1 h =1 n n h =1 n h =1
S 2 1
f L 1
f L
W h (X h
X ) V MAS ( x )
2 2
(1
f ) = W S +  V MEP ( x )
n 1n442 3 1n4 4
h h

14243 h =1
44 4 24 4 4 3
h =1 La igualdad se da
V MAS ( x ) V MEP ( x ) 0 si X = X h =1,L, L h

Hemos visto que el muestreo estratificado con afijacin proporcional es ms preciso que el
muestreo aleatorio simple, producindose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado respecto del
aleatorio simple ser mayor cuanto ms distintas entre s sean las medias de los estratos; es decir,
para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogneos
entre s en media, afirmacin que ya conocamos desde el comienzo del tema y que constituye una
de las especificaciones clsicas en el muestreo estratificado.

1
f L 1 L
2
1 L
V MEP ( x )
V MEMV ( x ) =
n3 h =1
2
Wh S h

Wh S h
W S 2 =

n h =1 N
h h
12 h =1

1 1

n N

1 L 1 L
2
L
( )
L
2

n h =1
W S
h h
2


h =1
Wh S h

= Wh S h
S
n h =1 
 0 con S = Wh S h
La igualdad se da h =1
si S h = S h =1,L, L

Luego VMEP ( x )
VMEMV ( x )  0 VMEP ( x )  VMEMV ( x )
158 Muestreo estadstico. Conceptos y problemas resueltos

El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo


estratificado con afijacin proporcional, producindose la igualdad de precisiones cuando las
cuasidesviaciones tpicas de los estratos son todas iguales. Por tanto, la ganancia en precisin del
muestreo estratificado con afijacin de mnima varianza respecto del muestreo estratificado con
afijacin proporcional ser mayor cuanto ms distintas entre s sean las cuasidesviaciones tpicas de
los estratos; es decir, para que el muestreo estratificado sea ms preciso es conveniente que los
estratos sean heterogneos entre s en desviacin tpica, afirmacin que ya conocamos desde el
comienzo del tema y que constituye una de las especificaciones clsicas en el muestreo
estratificado.

V MAS ( x )  V MEP ( x )  V MEMV ( x )

El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo


estratificado con afijacin proporcional y que el aleatorio simple, siendo adems el estratificado con
afijacin proporcional ms preciso que el aleatorio simple.

S 2 1
f L 1
f L

W (X )
2
(1
f ) = W h S h2 + h h
X =
142 43 n 1n442h =1
44 3 n h =1
V MAS ( x ) V MEP ( x )
1 L
1
f L
V MEMV ( x ) +
n
(
Wh Sh
S )
2
+
n
W (X h h
X )
2

h =1 h =1

El incremento de la eficiencia del muestreo estratificado con afijacin de mnima varianza


respecto del muestreo aleatorio simple recoge un trmino debido a la variabilidad de las medias de
los estratos y otro debido a la variabilidad de las desviaciones tpicas de los estratos. Se produce la
igualdad de eficiencias cuando las cuasivarianzas y las medias de los estratos son constantes, y se
produce la mxima diferencia de eficiencias cuanto ms distintas sean las cuasivarianzas y las
medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre los estratos, tal y como es
lgico en muestreo estratificado.

Muestreo con reposicin

Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de 2. Tenemos:

2 1 L 1 L
2 = Wh h2 + Wh (X h
X ) Wh h2 + Wh (X h
X )
L L


2 2
=
h =1 h =1 {n n4
1 243 1
h =1 n h4
=1
4
42444 3
VMAS ( x ) VMEP ( x ) 0
VMAS ( x )  VMEP ( x )

La igualdad se da
si X h = X h =1,L, L

Hemos visto que el muestreo estratificado con reposicin y afijacin proporcional es ms


preciso que el muestreo aleatorio simple con reposicin, producindose la igualdad de precisiones
cuando las medias de los estratos son todas iguales.

Ahora vamos a comparar la afijacin proporcional y de mnima varianza con reposicin.


Muestreo estratificado sin y con reposicin 159

1 L
2 2
1 L 1 L L
VMEP ( x )
VMEMV ( x ) = h h n
n h =1
W 2


h =1
W
h h

= h h
n h =1
W 2


h =1
W
h h

1 L
Wh ( h
)
L

0 con = Wh h VMEP ( x )  VMEMV ( x )


2
= 
n h =1 
La igualdad se da h =1
si S h = S h =1,L, L

El muestreo estratificado con reposicin y afijacin de mnima varianza es ms preciso


que el muestreo estratificado con reposicin y afijacin proporcional, producindose la igualdad de
precisiones cuando las cuasidesviaciones tpicas de los estratos son todas iguales.

VMAS ( x )  VMEP ( x )  VMEMV ( x )

En general el muestreo estratificado con reposicin y afijacin de mnima varianza es ms


preciso que el muestreo estratificado con reposicin y afijacin proporcional y que el aleatorio
simple con reposicin, siendo adems el estratificado con reposicin y afijacin proporcional ms
preciso que el aleatorio simple con reposicin.

2 1 L 1 L
Wh (X h
X ) =
2
= W
h h
2
+
{n n4
1 243 n h =1
h =1
V MAS ( x ) VMEP ( x )
1 L
) + 1n W (X
L
VMEMV ( x ) + Wh h

n h =1
( 2
h h
X)
2

h =1

El incremento de la eficiencia del muestreo estratificado con reposicin y afijacin de


mnima varianza respecto del muestreo aleatorio simple con reposicin recoge un trmino debido a
la variabilidad de las medias de los estratos y otro debido a la variabilidad de las desviaciones
tpicas de los estratos. Se produce la igualdad de eficiencias cuando las varianzas y las medias de
los estratos son constantes, y se produce la mxima diferencia de eficiencias cuanto ms distintas
sean las varianzas y las medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre
los estratos, tal y como es lgico en muestreo estratificado.

POSTESTRATIFICACIN

Cuando se manejan determinadas variables de estratificacin puede ocurrir que no se


conozca el estrato a que pertenece una unidad sino hasta despus de recoger los datos.

Ejemplos tpicos son las caractersticas personales como la edad, el sexo, la estatura,
etc., y el nivel de educacin.

Los tamaos de los estratos Nh se pueden obtener de manera bastante exacta a partir
de las estadsticas oficiales, pero las unidades se pueden clasificar en estratos solamente
despus de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los
Nh son conocidos.
160 Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo se utiliza cuando se desconocen a priori las unidades que pertenecen a
cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los
pesos de stos son conocidos, se puede utilizar el estimador insesgado.
L
x ' = Wh x h
h =1

cuya precisin es similar a la obtenida con la afijacin proporcional, siempre que todos los
nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen slo las
aproximaciones Wh, el estimador:
L
x ' ' = W 'h xh
h =1

ser sesgado y la cuanta del sesgo ser:


L L L
E [x ' ']
X = W ' h X h
Wh X h = (W ' h Wh ) X h
h =1 h =1 h =1

La acuracidad vendr dada por el error medio cuadrtico


2
L
S2
E.M .C.( x ' ' ] = W ' h (1
f h ) + (W ' h
Wh )X h
2
h
h =1 nh
L
El estimador del total es: X ' ' = N ' h x h .
h =1

El mtodo de postestratificacin puede aplicarse tambin a una muestra ya


estratificada por otro factor, por ejemplo, en cinco regiones geogrficas a condicin de que los
Wh se conozcan separadamente en cada regin. Esta estratificacin doble se utiliza mucho en
las cuentas nacionales de Estados Unidos. Los errores se calculan y estiman mediante:

N
n L N
n L 2
V (x' ' ) = h h N n2
N ' S ' 2
+ S ' h (1
f ' h )
N 2 n h =1 h =1

N
n L N ( N
n) L 2
V ( X ' ' ) = h h
N ' S ' 2
+ S ' h (1
f ' h )
n h =1 n2 h =1

N
n L N
n L 2
V ( x ' ' ) = 2 N ' h S ' h2 +
N n h =1
S ' h (1
f ' h )
N n 2 h =1

N
n L N ( N
n) L 2
V ( X ' ' ) = N ' h S ' h2 + S ' h (1
f ' h )
n h =1 n2 h =1

n' h
Para totales y proporciones cambiamos S h2 por P' h (1
P ' h ) y S ' 2h por
n' h
1
N 'h
P ' h (1
P' h ) . El apstrofe indica siempre valor de postestratificacin.
N ' h
1
Muestreo estratificado sin y con reposicin 161

PROBLEMAS RESUELTOS

4.1. Una empresa publicitaria est interesada en medir la influencia de la publicidad televisiva en un
municipio y decide realizar una encuesta por muestreo para estimar el nmero promedio de horas
por semana que se ve la televisin en los hogares del municipio. ste comprende dos pueblos A y
B y un rea rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el
rea rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares
(20 del pueblo A, 8 del pueblo B y 12 del rea rural) midiendo en cada uno el tiempo que se ve la
televisin en horas por semana. Se obtienen los datos siguientes:

Puebla A (estrato I) 35 28 26 41 43 29 32 37 36 25 29 31 39 38 40 45 28 27 35 34
Pueblo B (estrato II) 27 4 49 10 15 41 25 30
rea rural (estrato III) 8 15 21 7 14 30 20 11 12 32 34 24

Estimar el tiempo promedio que se ve la televisin, en horas por semana, en cada uno de los
estratos y en todo el municipio fijando lmites para el error de estimacin a travs de intervalos de
confianza al 95%.

Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en
una hoja de clculo de Excel. A continuacin, para calcular los estadsticos necesarios en cada
estrato, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos
Estadstica descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1.
Al pulsar Aceptar se obtienen los estadsticos muestrales por estrato de la Figura 13-2. Se
observa que el tiempo promedio que se ve la televisin en el pueblo A es 33,9 horas por
semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son
33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el
tamao muestral seleccionado en cada estrato obtenemos los errores de los estimadores en
cada estrato suponiendo muestreo con reposicin (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12
= 7,3). Como los coeficientes de asimetra y curtosis en cada estrato estn en el intervalo
[
2,2], puede suponerse normalidad, con lo que los lmites para el error de estimacin en cada
estrato (suponiendo muestreo con reposicin) sern los radios de los intervalos de confianza al
95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposicin, las
varianzas en cada estrato hay que multiplicarlas por (1
nh/Nh) h = 1, 2, 3.

Figura 13-1
162 Muestreo estadstico. Conceptos y problemas resueltos

Figura 13-2

Para hallar la estimacin del tiempo promedio que se ve la televisin en todo el


municipio en horas por semana y su error para muestreo sin reposicin, se tendrn en cuenta
las siguientes expresiones:
nh
L
N 1 L
X st = x st = h X hi = Wh xh
N nh
h =1 { i =1 h =1
Wh

L
S 2
V ( X st ) = Wh2 (1
f h ) h
h =1 nh

La Figura 13-3 presenta las frmulas para el clculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.

Figura 13-3

Figura 13-4

La estimacin del tiempo promedio que se ve la televisin en todo el municipio en


horas por semana en muestreo con reposicin es la misma que sin reposicin y su error de
muestreo se calcula mediante la siguiente expresin:

L 2
2 Sh
( )
V X st = Wh
h =1 nh

La Figura 13-5 presenta las frmulas y la Figura 13-6 presenta los resultados.
Muestreo estratificado sin y con reposicin 163

Figura 13-5 Figura 13-6

4.2. Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una
empresa se obtiene la siguiente distribucin de frecuencias:

Xi ni
2 100
3 80
5 200
10 30
20 30
50 30
100 20
200 10

Se estratifica la poblacin en grupos homogneos de ganancias salariales utilizando como


variable de estratificacin el propio salario anual mediante el criterio dado por 2  X < 10,
10  X < 100, 100  X  200. Realizar las afijaciones de mnima varianza sin y con
reposicin de una muestra de tamao 100 cuando se estima el salario anual medio. Analizar
las precisiones y justificar los resultados.

Comenzamos realizando los clculos por estratos necesarios para la resolucin del
problema. Tenemos:

Estratos
Sh S h2 h h2 Nh

I 1,32 1,75 1,32 1,74 380
II 17,1 292,13 16,99 288,88 90
III 47,95 2298,85 47,14 2222,22 30

Afijacin de mnima varianza sin reposicin

N 1 S1
n1 = 100  15
N 1 S1 + N 2 S 2 + N 3 S 3
N S N2S2
n h = n L h h n 2 = 100  44
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh

h =1 N3 S3
n 3 = 100  41
N 1 S1 + N 2 S 2 + N 3 S 3

Se observa que el nmero de unidades a seleccionar para la muestra en el tercer


estrato es superior al nmero de unidades de dicho estrato.
164 Muestreo estadstico. Conceptos y problemas resueltos

Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer
estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero
ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima
varianza entre los dos primeros estratos. Tendremos:

N 1 S1
n1 = 70 N S + N S  17
N S 1 1 2 2
nh = n L h h
n = 70 N2S2
Nh Sh
2
N 1 S1 + N 2 S 2
 53
h =1

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del
estimador de la media para esta afijacin sin reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza, calculamos
N 380 N 90
W '1 = 1 = = 0,8085 y W '2 = 2 = = 0,1915 . La varianza ser:
N' 470 N' 470
2
1 2 1 2
V X = W ' h S h
W ' h S h2 = 0,184064 .
n' h =1 N ' h =1

Afijacin de mnima varianza con reposicin

Realizaremos la afijacin de mnima varianza con reposicin como sigue:

N 1 1
n1 = 100  15
N 1 1 + N 2 2 + N 3 3
N N 2 2
n h = n L h h n 2 = 100  44
N 1 1 + N 2 2 + N 3 3
N h h

h =1 N 3 3
n 3 = 100  41
N 1 1 + N 2 2 + N 3 3

Se observa que la afijacin coincide exactamente con la obtenida para muestreo sin
reposicin. Ahora el nmero de unidades a seleccionar para la muestra en el tercer estrato
vuelve a ser superior al nmero de unidades de dicho estrato, pero como el muestreo es con
reposicin, es posible seguir haciendo extracciones porque las unidades se reponen a la
poblacin cuando se extrae y nunca se acabarn. El valor de la varianza mnima ser ahora:
2
1 3 1 380 90 30
V X = Wh h = ( 1,32 + 16,99 + 47,14) 2 = 0,47469344
n h =1 100 500 500 500

No obstante, si se exige que las unidades seleccionadas sean distintas, seleccionamos


para la muestra las 30 unidades del tercer estrato; es decir, todas las unidades del tercer estrato
van a ser autorrepresentadas. Pero ahora las 70 unidades restantes de la muestra han de
repartirse mediante afijacin de mnima varianza con reposicin entre los dos primeros
estratos. Tendremos:
Muestreo estratificado sin y con reposicin 165

N 1 1
n1 = 70 N + N  17
N 1 1 2 2
nh = n L h h
N 2 2
N h h n = 70
2
N 1 1 + N 2 2
 53
h =1

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del
estimador de la media para esta afijacin con reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N' 470
y N 90
W '2 = 2 = = 0,1915 . La varianza ser:
N ' 470
2
1 2 1
V X = W ' h h = (0,8085 1,32 + 0,1915 16,99) 2 = 0,266705.
n' h =1 70

Las afijaciones coinciden para muestreo con y sin reposicin, pero el muestreo sin
reposicin resulta ms preciso, ya que tiene menor varianza (tanto si se exigen unidades
distintas, como en caso contrario).

Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el
muestreo sin reposicin sigue siendo ms preciso que el muestreo con reposicin.

4.3. Las mil unidades de una poblacin se clasifican en tres estratos para los que se conocen los
datos de la tabla adjunta:

Estratos
i Wi

I 4 0,6
II 12 0,3
III 80 0,1

Se pide:

1) Determinar el tamao de muestra que con afijacin proporcional proporciona una


varianza del estimador de la media igual a 5, considerando muestreo con y sin
reposicin. Realizar las respectivas afijaciones proporcionales. Qu resultados se
obtendran con afijacin de mnima varianza? Realizar las respectivas afijaciones de
mnima varianza. Comentar todos los resultados y compararlos.

2) Determinar el tamao de muestra para afijacin ptima con costes C1=1000, C2=1200 y
C3=2000, considerando el muestreo con y sin reposicin. Realizar las respectivas
afijaciones ptimas. Comprobar que los resultados coinciden para costes unitarios con
los de afijacin de mnima varianza.

Como es habitual en los problemas de muestreo estratificado, comenzamos


recopilando los datos necesarios para el problema.
166 Muestreo estadstico. Conceptos y problemas resueltos

W1=0,6=N1/NN1=600 12=16=(N1-1)S12/N1S12=6,02S1=4,003
W2=0,3=N2/NN2=300 22=144=(N2-1)S22/N2S22=144,5S2=12,02
W3=0,1=N3/NN3=100 32=6400=(N3-1)S32/N3S32=6464,6S3=80,4

Tenemos entonces:

Estratos
Sh S h2 h h2 Nh Wh

I 4,003 6,02 4 16 600 0,6
II 12,02 144,5 12 144 300 0,3
III 80,4 6464,6 80 6400 100 0,1

Afijacin proporcional sin reposicin


L

1 1 L W S h
2
h
e 2 = V X =
Wh S h2 n = h =1
 122
n N h =1 1 L
2
e +
N
W S
h =1
h
2
h

Una vez hallado el tamao de muestra, realizamos la afijacin como sigue:

n1 = kN 1 = 0,122 600  73
n 122
n h = kN h con k = = = 0,122 n 2 = kN 2 = 0,122 300  37
N 1000 n = kN = 0,122 100  12
3 3

Afijacin proporcional con reposicin


L

1 L W h
2
h
e = V X = Wh h2 n =
2 h =1
 139
n h =1 e2
Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Ello es debido a que el muestreo con reposicin es menos
preciso que el muestreo sin reposicin. Una vez hallado el tamao de muestra realizamos la
afijacin proporcional como sigue:

n1 = kN 1 = 0,139 600  83
n 139
nh = kN h con k = = = 0,139 n 2 = kN 2 = 0,139 300  42
N 1000 n = kN = 0,139 100  14
3 3

Afijacin de mnima varianza sin reposicin


2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V X = Wh S h
Wh S h2 n = = 35
n h =1 N h =1 1 L
e + Wh S h
2 2

N h =1
Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza
como sigue:
Muestreo estratificado sin y con reposicin 167

N 1 S1
n1 = 35 6
N 1 S1 + N 2 S 2 + N 3 S 3
N S N2S2
n h = n L h h n 2 = 35 9
N 1 S1 + N 2 S 2 + N 3 S 3
Nh Sh

h =1 N3S3
n 3 = 35  20
N 1 S1 + N 2 S 2 + N 3 S 3

Afijacin de mnima varianza con reposicin


2
L
2 Wh h
1 L
h =1
e 2 = V X = Wh h n =  40
n h =1 e 2

Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
de mnima varianza como sigue:

N 1 1
n1 = 35 7
N 1 1 + N 2 2 + N 3 3

N h h N 2 2
nh = n L n 2 = 35  10
N 1 1 + N 2 2 + N 3 3
N h h

h =1 N 3 3
n 3 = 35  23
N 1 1 + N 2 2 + N 3 3

Afijacin ptima sin reposicin

L L
Wh Sh ch Wh Sh ch
1 L L 1 L h=1 h=1
V (xst ) = e 2 = Wh Sh ch Wh Sh ch
Wh Sh2 n =  35
n h=1 h=1 N h=1 1 L
e + Wh Sh
2 2

N h=1

Una vez hallado el tamao de muestra, realizamos la afijacin ptima como sigue:

N 1 S 1 / C1
n1 = 35 7
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3

N h S h / Ch N2S2
nh = n L n 2 = 35  10
N S / C + N S / C + N S / C
N h S h / Ch

1 1 1 2 2 2 3 3 3
h =1
n 3 = 35 N3S3
 18
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3

168 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima con reposicin


L L
Wh h c h Wh h c h
1 L L h =1 h =1
V ( x st ) = e 2 = Wh h c h Wh h c h n = 2
= 40
n h =1 h =1 e

Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
ptima como sigue:
N 1 1 / C1
n1 = 40 8
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3

N h h / C h N 2 2
nh = n L n 2 = 40  12
N / C + N / C + N / C
N h h / C h

1 1 1 2 2 2 3 3 3
h =1
n 3 = 40 N
3 3
 20
N / C + N / C + N / C
1 1 1 2 2 2 3 3 3

Si utilizamos costes unitarios los clculos son exactamente los mismos que para la afijacin
de mnima varianza, luego los resultados tambin lo son. Se observa que tanto en muestreo con
reposicin como sin reposicin la afijacin que menos tamao muestral necesita para cometer un
determinado error de muestreo es la afijacin de mnima varianza, y en este caso tambin la ptima.

4.4. Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total 310 hogares y es dividido en
tres estratos. Se selecciona una muestra estratificada de n = 40 hogares con afijacin
proporcional. Estimar la proporcin de hogares en el municipio donde se ve el programa
televisivo estimando los errores absoluto y relativo cometidos. Datos:
N de hogares donde
Estratos Tamaos muestrales Ph
se ve el pro gra ma
1 n 1 = 20 16 0,80
2 n2 = 8 2 0,25
3 n 3 = 12 6 0,50

Como la seleccin de la muestra se realiza con afijacin proporcional, se tiene:

n1 20
N 1 = k = 0,129  155

n 40 n 8
nh = kN h con k = = = 0,129 N 2 = 2 =  62
N 310 k 0,129
n3 12
N1 = =  93
k 0,129

Ya podemos estimar la proporcin de hogares en el municipio donde se ve el


programa televisivo de la siguiente forma:
Muestreo estratificado sin y con reposicin 169

3 3
N 155 62 93
Pst = W h Ph = h Ph = 0,80 + 0,25 + 0,50 = 0,60 (60%)
h =1 h =1 N 310 310 310

Resulta que en el 60% de los hogares del municipio se ve el programa televisivo.


Para calcular el error absoluto de esta estimacin hallamos la estimacin de la
varianza del estimador de la proporcin. Se tiene:
3
N2 3
N2 n P (1
Ph )
V ( Pst ) = h2 V ( Ph ) = h2 (1
h ) h = 0,0045
h =1 N h =1 N Nh nh
1

V ( Pst ) 0,0045
El error relativo sera C v( Pst ) = 100 = 100 = 11,18% .
Pst 0,60

4.5. Una empresa publicitaria est interesada en determinar lo que debe enfatizar la publicidad
televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para
estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del
municipio. ste comprende dos pueblos, pueblo A y pueblo B, y un rea rural. El pueblo A
circunda una fbrica, y la mayora de los hogares son de trabajadores fabriles con nios en
edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de
habitantes ms viejos con pocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el rea rural. Se pide:
1. Analizar los mritos de usar muestreo aleatorio estratificado en esa situacin.
2. Supngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene
tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras
aleatorias de tamao n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del rea rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisin en horas por semana, son los siguientes:
Estrato 1(pueblo A) 35 43 36 39 28 28 29 25 38 27 26 32 29 40 35 41 37 31 45
Estrato 2 (pueblo B) 27 15 4 41 49 25 10 30
Estrato 3 (pueblo C) 8 14 12 15 30 32 21 20 34 7 11 24

Estimar el tiempo promedio que se ve televisin, en horas por semana, para (a) todos los
hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un lmite
para el error de estimacin.
3. Estimar el nmero total de horas por semana que las familias del municipio dedican a ver
la televisin fijando un lmite para el error de estimacin.

Comenzamos recopilando la informacin necesaria para el problema en la tabla siguiente:

Estratos
nh S h2 Sh xh Nh

1 20 35,358 5,946 33,9 155
2 8 232,411 15,245 25,125 62
3 12 87,636 9,361 19 93
170 Muestreo estadstico. Conceptos y problemas resueltos

En cuanto al primer apartado, podemos decir que la poblacin de hogares se ubica


en tres grupos naturales, dos pueblos y un rea rural, de acuerdo con su localizacin
geogrfica. Por lo tanto, la poblacin dividida en tres estratos es bastante natural, lo que
lleva a que los elementos de cada estrato deben de presentar tendencias similares de
comportamiento entre ellos mismos (homogeneidad dentro). Se espera relativamente poca
variabilidad en el nmero de horas que se ve la televisin en los hogares de cada grupo, lo
que hace aplicable el muestro estratificado. Por otro lado, los estratos son adecuados por
conveniencia administrativa para seleccionar las muestras y para ejecutar el trabajo de
campo. Adems, la empresa publicitaria puede obtener estimaciones por separado del
nmero promedio de horas que se ve la televisin en cada estrato.

Para estimar el promedio de horas por semana que se ve la televisin en todo el


municipio, utilizamos el estimador de la media estratificada:

3
155 62 93
x st = Wh x h = 33,9 + 25,125 + 19 = 27,7
h =1 310 310 310

El error de esta estimacin ser:

S 2 155 20 35,3 62 8 232,4 93 12 87,6


L 2 2 2

V (xst ) = Wh2 (1
f h ) h = 1
+ 1
+ 1
= 1,97
h=1 nh 310 155 20 310 62 8 310 93 12

Un intervalo de confianza al 95% (  2) ser el siguiente:

xst V ( x st ) = 27,72 1,97 =27,72,8

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en


los hogares del municipio es de 27,7 horas, con un error de muestreo de 1,97 = 1,4 horas y
un lmite para el error de estimacin de 2,8 horas.

Las ocho observaciones del estrato relativo al pueblo B forman una muestra aleatoria
simple para la que podemos aplicar las frmulas del muestreo irrestricto aleatorio. Tenemos:

x2 =25,125

S 2 8 232,4
V (x2 ) = (1
f 2 ) 2 = 1
= 25,5
n2 62 8

x 2 V (x 2 ) = 25,12510,1

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en


el pueblo B es de 25,5 horas, con un error de muestreo de 25,5 = 5,05 horas y un lmite
para el error de estimacin de 10,1 horas. El lmite del error de estimacin es ms grande
en este caso porque la variabilidad del estrato es grande y su tamao es pequeo. Se observa
que la estimacin en todo el municipio es buena, pero en el estrato 2 es peor.
Muestreo estratificado sin y con reposicin 171

El nmero total de horas estimado que las familias del municipio dedican a ver la
televisin ser:

X st = Nx st = 300(27,7) = 8587 horas

El error de esta estimacin ser:

( )
V X st = N 2V (x st ) = 300 2 (1,97 ) = 189278 ,56

Un intervalo de confianza al 95% (  2) ser el siguiente:

( )
X st V X st = 85872 189278,56 =8587870

Por lo tanto, estimamos que el nmero total de horas que se ve la televisin en los
hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435
horas y un lmite para el error de estimacin de 870 horas.
Cuando se estiman totales es conveniente relativizar los errores, para que sean ms
comprensibles. En nuestro caso, el error relativo ser:

( )
C v X st =
( )
V X st
100 =
189278,56
100 = 5%
X st 8587

Se trata de un error muy aceptable.

4.6. La empresa publicitaria del ejercicio anterior comprob que cuesta ms obtener una
observacin del rea rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observacin en cada pueblo se ha
estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observacin en el rea rural se han
estimado en 16 euros (esto es, c3 = 16). Las desviaciones estndar por estrato (aproximadas
por las varianzas muestrales de una encuesta previa) son 1  5 , 2  15 y 3  10 . Halle
el tamao de muestra total n y los tamaos de muestra para los estratos n1, n2 y n3, que
permiten a la empresa estimar, al mnimo costo, el tiempo promedio que se ve televisin,
con un lmite para el error de estimacin igual a 2 horas.
Supongamos que la firma publicitaria decide utilizar entrevistas por telfono en lugar de
entrevistas personales, porque todos los hogares en el municipio tienen telfono y este
mtodo reduce los costos. El costo de obtener una observacin es entonces el mismo en los
tres estratos y la empresa desea estimar en este caso la media poblacional con un lmite
para el error de estimacin igual a 2 horas. Encuentre el tamao aproximado de la muestra n
y los tamaos de muestra para los estratos n1, n2 y n3.
Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se
usaron en los ejemplos previos son errneas y que las varianzas de los estratos son iguales. El
valor comn de i fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas
por telfono, por lo que los costos sern iguales en todos los estratos. La empresa desea estimar el
nmero promedio de horas por semana que se ve la televisin en los hogares del municipio, con
un lmite para el error de estimacin igual a 2 horas. Determine el tamao de muestra y los
tamaos de estratos necesarios para lograr esta exactitud.
172 Muestreo estadstico. Conceptos y problemas resueltos

En primer lugar observamos que, como el lmite del error de estimacin es 2, tenemos:

2 V (x st ) = 2 V (x st ) = 1

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario


para cometer un error de muestreo unitario para estimar la media vendr dado por:

L L
Wh S h ch Wh S h ch
1 L L 1 L
V (xst ) = Wh S h ch Wh S h ch
Wh S h2 n= h=1
h =1

n h=1 h=1 N h=1 1 L


V (x st ) + Wh S h 2

N h=1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):

L L
Wh h c h Wh h c h
h =1 h =1
n= = 57,42  58
1 L
V (x st ) + Wh h 2

N h =1

Ahora realizamos la afijacin ptima como sigue:

N 1 1 / C1
n1 = 58  18
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3

N h h / C h N 2 2
nh = n L n 2 = 58  23
N / C + N / C + N / C
N h h / C h

1 1 1 2 2 2 3 3 3
h =1
n3 = 58 N 3 3
 17
N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:

2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V (x st ) = Wh S h
Wh S h2 n =
n h =1 N 1 L
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):
Muestreo estratificado sin y con reposicin 173

2
L
Wh h
n= h =1 = 56,34  57
1 L
V (x st ) + Wh h 2

N h =1

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:
N 1 1
n1 = 57  17
N 1 1 + N 2 2 + N 3 3
N N 2 2
n h = n L h h n 2 = 57  20
N 1 1 + N 2 2 + N 3 3
N h h

h =1 N 3 S3
n3 = 57  20
N 1 1 + N 2 2 + N 3 3

Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.

Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es unitaria, podemos aproximar la afijacin ptima y la de mnima varianza por la
proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para
cometer un error de muestreo unitario ser:

1 1 L W S h
2
h
e 2 = V (x st ) =
Wh S h2 n = h =1

n N h =1 1 L
V (x st ) + W S h
2
h
N h =1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):

W h
2
h
n= h =1
= 75,6  76
1 L
V (x st ) + W h
2
h
N h =1

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:

n1 = kN 1 = 0,245 155  38
n 76
nh = kN h con k = = = 0,245 n 2 = kN 2 = 0,245 62  15
N 310 n = kN = 0,245 93  23
3 3
174 Muestreo estadstico. Conceptos y problemas resueltos

4.7. Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total N = 310 hogares y es dividido
en tres estratos (pueblo A, pueblo B y un rea rural) de tamaos 155, 62 y 93 hogares,
respectivamente. Datos de un estudio anterior indican que las proporciones de hogares donde
se ve el programa pueden estimarse por 0,80, 0,25 y 0,30, respectivamente, en cada estrato.
Adems, el coste para obtener una observacin es de 9 unidades monetarias para cualquiera
de los pueblos y de 16 para el rea rural. Hallar el tamao de muestra n y su reparto entre los
estratos para estimar la proporcin poblacional de hogares donde se ve la televisin con un
lmite para el error de estimacin igual a 0,1 y con un coste mnimo.

Resolver el problema suponiendo que las entrevistas se realizan por telfono.

Resolver el problema suponiendo que las entrevistas se realizan por telfono y la proporcin
de hogares donde se ve el programa televisivo es similar en cada uno de los tres estratos.

Observamos que, como el lmite del error de estimacin es 0,1, tenemos:

2 Pst = 0,1 Pst = 0,0025

En la primera parte del problema se trata de buscar el tamao de muestra necesario


para estimar la proporcin de hogares donde se ve el programa televisivo con un error de 0,1
y afijacin ptima. Disponemos de los siguientes datos:

Estratos Tamaos ci Ph
1 N 1 = 155 9 0.80
2 N 2 = 62 9 0.25
3 N 3 = 93 16 0,50

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario


para cometer un error de muestreo unitario para estimar la proporcin vendr dado por:

L L
Wh S h ch Wh S h ch
1 L L 1 L
V (xst ) = Wh S h ch Wh S h ch
Wh S h2 n= h=1
h =1

n h=1 h=1 N h=1 1 L


V (x st ) + Wh S h2
N h=1

Aproximando las cuasivarianzas por Ph Q h = Ph (1


Ph ) por estrato tenemos:

L Nh L N
Ph Q h c h h Ph Q h c h
h =1 N h =1 N
n= = 62,3  64
1 L Nh
V (x st ) + Ph Qh
N h =1 N

Ahora realizamos la afijacin ptima como sigue:


Muestreo estratificado sin y con reposicin 175

N1 P1Q1 / C1
n1 = 63  31
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3

N h Ph Qh / Ch N 2 2
nh = n L n2 = 63  14
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3
N h Ph Qh / Ch

h =1
n3 = 63 N 3 3
 18
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3 Q3 / C3

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:

2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V ( x st ) = Wh S h
Wh S h2 n =
n h =1 N h =1 1 L
V (x st ) + Wh S h2
N h =1

Aproximando las cuasivarianzas por Ph Q h = Ph (1


Ph ) por estrato tenemos:

2
L Nh
Ph Qh
h =1 N
n= = 61,08  62
1 L Nh
V (x st ) + Ph Qh
N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:

N1 P1Q1
n1 = 62  29
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3

N h Ph Qh N 2 2
nh = n L n2 = 62  12
N P Q + N P Q + N P Q
N h Ph Qh

1 1 1 2 2 2 3 3 3
h =1
n3 = 62 N 3 3
 21
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3

Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.

Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es constante (Ph  0,4 h2 = PhQh = Ph(1
Ph) = 0,24), podemos aproximar la afijacin
ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres.
Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:
176 Muestreo estadstico. Conceptos y problemas resueltos

1 1 L W S h
2
h
e 2 = V (x st ) =
Wh S h2 n = h =1

n N h =1 1 L
V (x st )+ W S h
2
h
N h =1

Aproximando las cuasivarianzas por Ph Q h = Ph (1


Ph ) por estrato tenemos:

L
Nh
h =1 N
Ph Qh
n= = 73,3  74
1 L N
V (x st ) + h Ph Q h
N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:
n1 = kN 1 = 0,238 155  37
n 74
nh = kN h con k = = = 0,238 n 2 = kN 2 = 0,238 62  15
N 310 n = kN = 0,238 93  22
3 3

4.8. Se trata de estimar el peso promedio de N = 90 conejos (N1 = 50 machos y N2 = 40 hembras)


que han sido alimentados en cierta dieta. Los conejos se separan por sexo, por lo que el uso
de muestreo aleatorio estratificado con dos estratos pareci apropiado. Para aproximar la
variabilidad dentro de cada estrato, se pes el conejo ms pequeo y el ms grande en cada
estrato, y se hall que la amplitud de variacin fue de 10 gramos para los machos y de 8 para
las hembras. Cul es el tamao de muestra necesario para estimar el peso promedio
poblacional con un lmite de 1 gramo para el error de estimacin suponiendo que el costo de
muestreo fue el mismo para ambos estratos?

Si suponemos los pesos con una distribucin normal, la desviacin estndar en cada estrato puede
aproximarse por un cuarto de la amplitud de variacin, es decir, 1 = 10/4 = 2,5 y 2 = 8/4 = 2.

Como los costes de muestreo son similares en los estratos, es lgico utilizar afijacin de
mnima varianza (que coincide con la ptima en este caso) y que siempre es ms eficiente que
la afijacin proporcional. En este caso, el tamao de muestra para cometer un error de
muestreo unitario ser:
2
L
2 Wh S h
1 L
1 L
h =1
e 2 = V (x st ) = Wh S h
Wh S h2 n =
n h =1 N 1 L
h =1
V (x st ) + Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos:
2
L Nh
h
n= h =1 N = 16,83  17
1 L Nh 2
V (x st ) + h
N h =1 N
Muestreo estratificado sin y con reposicin 177

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:
N 1 1
n1 = 17 N + N + N  10
N 1 1 2 2 3 3
nh = n L h h
N
h =1
N h h n = 17
2
2 2

N 1 1 + N 2 2 + N 3 3
7

4.9. Un mayorista del sector de la distribucin de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusin de un nuevo producto en
sus existencias. Para tomar la decisin, planifica aadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X).
El distribuidor suministra nicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamao n = 20 almacenes. Dado que no tiene informacin previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijacin proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Despus de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:

Estrato 1 Estrato 2 Estrato 3 Estrato 4


94 91 108 92
90 99 96 110
102 93 100 94
110 105 93 91
111 93 113
101

Estimar las ventas promedio para el mes y fijar un lmite para el error de estimacin.
Realizar la misma estimacin y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.

Evidentemente, la afijacin proporcional nos lleva a seleccionar cuatro almacenes elegidos


al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las
cadenas 3 y 4, ya que:

N 24 36 30 30
n1 = n 1 = 20 = 4 , n2 = 20 = 6 , n3 = 20 = 5 , n 4 = 20 =5
N 120 120 130 130

De la tabla de ventas se deducen los siguientes valores:


178 Muestreo estadstico. Conceptos y problemas resueltos

Estratos  I II III IV
Medias ( x h ) 99 100 98 100
Cuasivarianzas ( S h2 ) 78,67 55,6 39,5 112,5

El estimador de la media ser:

L L
Nh 24 36 30 30
x st = Wh x h = xh = 99 + 100 + 98 + 100 = 99,3
h =1 h =1 N 120 120 120 120

Como la afijacin es proporcional, tenemos:

2 2
1 L 1 L
1 L Nh 1 L
Nh 2
V (x st ) = Wh S h
Wh S h2 = Sh
S h = 2,93
n h =1 N h =1 n h =1 N N h =1 N

Un intervalo de confianza al 95% para esta estimacin ser:

x st 2 V (x st ) = 99,3 2 2,93 = 99,3 3,4

Si hubisemos considerado muestreo aleatorio simple, el estimador de la media sera:

1 L 1
x=
n h =1
Xi =
20
(94 + 90 + L + 91 + 113) = 99,3

Su error de muestreo estimado ser:

S 2 20 59,8
V ( x ) = (1
f ) = (1
) = 2,49
n 120 20

Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisin dada por:

2,93
GP =
1100 = 17,67%
2,49

La razn de que el muestreo estratificado proporcional haya sido peor que el


aleatorio simple en un 17,67% radica en que las ventas varan fuertemente dentro de los
almacenes de las distintas cadenas que conforman los estratos. Si observamos los valores de
las cuasivarianzas en los distintos estratos vemos que varan mucho entre s. ste es un caso
tpico de mala aplicacin de la afijacin proporcional.

La posible solucin a este problema podra haber sido la estratificacin a partir de la


cantidad de ventas, esto es, ubicando los almacenes con ventas mensuales bajas en un estrato,
almacenes con ventas altas en otro, y as sucesivamente. De esta forma se conseguiran estratos
muy homogneos dentro de s y heterogneos entre s, lo que disminuira el error de estimacin y
aumentara la ganancia en precisin del muestreo estratificado respecto del aleatorio simple.
Muestreo estratificado sin y con reposicin 179

4.10. La consejera de medio ambiente de una comunidad est realizando un estudio del nmero
de personas X que utiliza las instalaciones de campings pblicos. La comunidad tiene dos
reas para acampar, una localizada en las montaas y otra localizada a lo largo de la costa.
La consejera desea estimar el nmero promedio de personas por camping y la proporcin de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estn ocupados. El nmero promedio de personas se va a
estimar con un lmite de 1 para el error de estimacin, y la proporcin de personas de fuera
de la comunidad con un lmite de 0,1. Las dos reas para acampar forman convenientemente
dos estratos, la localidad de la montaa como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamao de
muestra y la asignacin necesarios para lograr estos dos lmites. Se supone que la consejera
de medio ambiente conoce por experiencia que la mayora de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.

Como los costes de muestreo son constantes en los estratos, utlizaremos afijacin de mnima
varianza (equivalente a la ptima en este caso). Adems, como la desviacin tpica es
alrededor de 1/4 de la amplitud de variacin en una distribucin normal, podemos suponer
que su valor para el nmero de personas que ocupan los campings es constante en todos los
campings y con valor i = (9
1)/4 = 2.
En primer lugar observamos que, como el lmite del error de estimacin es 1
tenemos:
2 V (x st ) = 1 V (x st ) = 0,25

En afijacin proporcional, el tamao de muestra necesario para cometer un error de


muestreo de 0,25 al estimar la media (promedio de personas por camping) podra estimarse
como sigue:
L

1 1 L
W S h
2
h
e = V (x st ) =
Wh S h2 n =
2 h =1

n N h =1 1 L
V (x st ) + W S h
2
h
N h =1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 2 en este caso, tenemos:

L
Nh 2
h =1 N
h
n= = 14,8  15
1 L Nh 2
V (x st ) + h
N h =1 N

Una vez hallado el tamao de muestra (15 campings), realizamos la afijacin


proporcional como sigue:

n 15 n = kN 1 = 0,075 120 = 9
nh = kN h con k = = = 0,075 1
N 200 n 2 = kN 2 = 0,075 80  6

Se estudiarn entonces 9 campings localizados en las montaas y 6 en la costa.


180 Muestreo estadstico. Conceptos y problemas resueltos

En el caso de la estimacin de la proporcin de ocupantes de fuera de la comunidad,


no disponemos de estimaciones previas de las proporciones por estrato, lo que nos llevar a
considerar P1 = P2 = 0,5 para obtener el tamao de muestra mximo posible cuyo valor en
afijacin proporcional ser:

L
Nh
h =1 N
Ph Qh
n= = 67
1 L Nh
V (x st ) + Ph Qh
N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:

n 67 n = kN 1 = 0,335 120  40
nh = kN h con k = = = 0,335 1
N 200 n 2 = kN 2 = 0,238 62  27

Se estudiarn entonces 40 campings localizados en las montaas y 27 en la costa.


Lgicamente se obtienen tamaos de muestra muy altos ya que nos hemos situado en el caso
ptimo de precisin mxima.

4.11. Determinar el tamao n de la muestra estratificada que con afijacin de mnima varianza
produzca la misma precisin que una muestra aleatoria simple (no estratificada) de tamao n,
para estimar la proporcin P de una cierta clase en la poblacin. Suponer en ambos casos
muestreo con reposicin y aplicar el resultado a los datos de la tabla con n=1000.

Estratos
I II III
Wh 0,2 0,3 0,5
Ph 0,5 0,6 0,4

Resolver el mismo problema para afijacin proporcional y comparar resultados realizando los
comentarios pertinentes.

Se trata de igualar la varianza del estimador de la proporcin en muestreo


estratificado con afijacin de mnima varianza a la varianza del estimador de la proporcin
en el muestreo aleatorio simple en ambos casos con reposicin. Se tiene:
2
3
Wh Ph (1
Ph )
P (1
P)
V AS ( P ) = y VSTMV ( P ) =
h =1

n' n

Teniendo presente que P = WhPh, se tiene el siguiente cuadro de datos:


Muestreo estratificado sin y con reposicin 181

Estratos W h Ph 1
Ph W h Ph Ph (1
Ph ) Wh Ph (1
Ph )
I 0,2 0,5 0,5 0,10 0,5 0,1
II 0,3 0,6 0,4 0,18 0,49 0,147
III 0,5 0,4 0,6 0,20 0,49 0,245
3 3

W
h =1
h Ph = 48 W h =1
h Ph (1
Ph ) = 0,492

Igualando las precisiones tenemos:


2
3
Wh Ph (1
Ph )
P (1
P )
V AS (P ) = VSTMV (P ) =
h =1

n' n

2
3
n' Wh Ph (1
Ph )
1000 (0,492 )
2

n= h =1 = = 970
P (1
P ) 0,48(1
0,48)

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin


de mnima varianza, que es ligeramente inferior al tamao necesario en muestreo aleatorio
simple n = 1000. Existe entonces una ganancia en precisin por utilizar muestreo
estratificado, pero es pequea.

A continuacin se iguala la varianza del estimador de la proporcin en muestreo


estratificado con afijacin proporcional a la varianza del estimador de la proporcin en el
muestreo aleatorio simple, en ambos casos con reposicin. Se tiene:
3

P (1
P) W P (1
P )
h h h
V AS ( P ) = y VSTP ( P ) = h =1

n' n

Igualando las precisiones tenemos:


3

P(1
P) W P (1
P )
h h h
V AS (P ) = VSTP (P ) = h =1

n' n

3
n' Wh Ph (1
Ph )
n=
h =1 = 1000 (0,242) = 970
P (1
P ) 0,48(1
0,48)

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin


proporcional, que es ligeramente inferior al tamao necesario en muestreo aleatorio simple
n=1000. Existe entonces una ganancia en precisin por utilizar muestreo estratificado, pero
es pequea. Observamos que este tamao de muestra con afijacin proporcional coincide
con el tamao de muestra para afijacin de mnima varianza, con lo que en este caso la
precisin de ambos tipos de afijacin es similar. Esto es debido a que las variabilidades por
estrato Ph (1
Ph ) son casi iguales (0,5, 0,49 y 0,49).
182 Muestreo estadstico. Conceptos y problemas resueltos

4.12. Se trata de estudiar el consumo anual de leche en una ciudad de 110000 habitantes. La
poblacin se divide en tres estratos por edades y se toman muestras aleatorias simples en
cada uno de ellos. Se tienen los siguientes datos para el consumo anual de leche en litros:

Estratos Tamaos Tamaos Media muestral Varianza


poblacionales muestrales del consumo muestral
Menores de 25 aos 48000 1460 102,7 15876
Entre 25 y 50 aos 38000 1160 71,4 48841
Ms de 50 aos 24000 1730 73,2 23409

Estimar la cantidad total de leche consumida al ao entre los menores de 25 aos, indicando
el error de muestreo cometido, y calcular el tamao muestral necesario para estimar el
consumo medio de leche al ao entre los mayores de 50 aos, con un error de muestreo de 5
litros al 95% de confianza. Realizar una estimacin por intervalos al 95% del consumo
medio anual de leche por habitante.

Supongamos ahora que se multiplica por tres el tamao de la muestra. Realizar la nueva
afijacin por los diferentes mtodos para elegir el mejor.

Si se quiere estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a


comprar un producto lcteo de reciente aparicin, cul sera el tamao muestral necesario
para estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a comprar
un producto lcteo de reciente aparicin con un error de muestreo inferior al 5%? Comparar
el resultado anterior con el obtenido cuando existe un estudio piloto que sugiere que dicha
proporcin ser al menos del 60%.
Consideramos como variable X la cantidad de leche consumida anualmente por una persona.
La primera pregunta del problema pide estimar un total poblacional dentro del primer
estrato; por tanto, su estimador es el correspondiente a un muestreo aleatorio simple:

X 1 = N 1 x1 = 48000(102,7) = 4929600 litros

El error de muestreo estimado ser:

S 2 1460 15876
V ( X 1 ) = (1
f 1 ) 1 = (1
) ( X 1 ) = V ( X 1 ) = 155857,578 litros
n 48000 1460

Par calcular el tamao muestral necesario al estimar el consumo medio de leche en


el tercer estrato con un error de muestreo fijado de 5 litros, ser necesario un tamao
muestral igual a:

2 N 3 S 32 1,96 2 (24000)(23409)
n3 = = = 3128,25  3129
e 2 N 3 + 2 S 32 5 2 (24000) + 1,96 2 (23409)

Para realizar la estimacin por intervalos al 95% del consumo medio anual de leche
por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo
estratificado y, por tanto, el intervalo de confianza ser:
Muestreo estratificado sin y con reposicin 183

x st ( x st )

L
1 L
1
x st = Wh x h = N h xh = (48000  102,7 + 38000  71,4 + 24000  73,2) = 85,451
h =1 N h =1 110000

2
L
S h2 48000 1460 15876
( x st ) = Wh2 (1
f h )
h =1
=  1

n h 110000

48000 1460
+

2 2
38000 1160 48841 24000 1730 23409
 1
 +  1
 = 2,73
110000 38000 1160 110000 24000 1730

Entonces:

x st ( x st ) = 85,451 1,96 * 2,73 = [80,101; 90,801]

Si triplicamos el tamao de la muestra, el nuevo valor ser 3(1460 + 1160 + 1730) =


13050 personas. A continuacin realizamos las distintas afijaciones entre los estratos de este
nuevo tamao muestral.

Afijacin uniforme

Wh = 1/L = 1/3, h = 1, 2, 3 n1 = n2 = n3 = (1/L)n =13050/3 = 4350

Por tanto, de cada estrato se tomara un muestra aleatoria simple de 4350 personas.

Afijacin proporcional

Nh
Wh = , h = 1, 2, 3
N

N1 48000
n1 = n= 13050 = 5694,5455  5695
N 110000

N2 38000
n2 = n= 13050 = 4508,1818  4508
N 110000

N3 24000
n3 = n= 13050 = 2847,2727  2847
N 110000

Afijacin de mnima varianza

Nh Sh
nh = L
n , h = 1, 2, 3
N i Si
i =1
184 Muestreo estadstico. Conceptos y problemas resueltos

N
h =1
h S h = 48000 15876 + 38000 48841 + 24000 23409 = 18118000

48000 15876
n1 = 13050 = 4356,2424  4356
18118000

38000 48841
n2 = 13050 = 6048,8961  6049
18118000

24000 23409
n3 = 13050 = 2644,8615  2645
18118000

Como la afijacin de mnima varianza siempre supera a las dems, esta ltima es la
afijacin ms eficiente entre los estratos.

Para resolver el ltimo apartado utilizaremos muestreo aleatorio simple en el


segundo estrato.

El tamao muestral necesario para conseguir un error inferior a 0,05 al estimar la


proporcin con un coeficiente de confianza del 95% ser una cantidad superior o igual a la
siguiente:

2 N 2 p 2 q 2 1,96 2 (38000)(0,5)(0,5)
n= = = 380,3251  381
e 2p (N 2
1) + 2 p 2 q 2 0,05 2 (37999) + 1,96 2 (0,5)(0,5)
3

Hemos supuesto que si no se tiene informacin sobre p2 o q2 tomamos p2 = q2 = 0,5,


que es la situacin de mxima variabilidad:

1,96 2 (38000)(0,5)(0,5)
n= = 380,3251  381
0,05 2 (37999) + 1,96 2 (0,5)(0,5)

Si de la encuesta piloto se conoce que p 2  0,6 , entonces tomaremos p2 = 0,6 y q2


= 1 0,6 = 0,4 con lo que:

1,96 2 (38000)(0,6)(0,4)
n= = 365,2583  366
0,05 2 (37999) + 1,96 2 (0,6)(0,4)

Cuando no hay informacin sobe las proporciones poblaciones siempre nos situamos
en la peor de las situaciones para nosotros en trminos de coste, es decir, el caso en que ms
tamao muestral se va a necesitar; sin embargo sta es la situacin de ms precisin, es
decir, que lo que se pierde en trminos de coste se gana en trminos de precisin.

Cualquier otro tamao muestral obtenido para valores dados de la proporcin


poblacional distintos de 1/2 para cometer el mismo error de muestreo, ser siempre menor.
Muestreo estratificado sin y con reposicin 185

14.13. Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad,
seleccionndose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las
caractersticas siguientes para los tres grupos:

Gruposde Nmero total de Nmero de Salario mensual Salario mensual Nmero de


edad trabajadores trabajadores Media muestral Desviacin tpica contratos inferiores
seleccionados muestral a 2 aos
18-35 2900 666 120500 38000 375
36-50 4700 754 163000 35000 150
51-65 2400 580 195000 40000 90

Realizar una estimacin por intervalos al 99% de confianza para el salario total percibido por
los empleados ms jvenes. Hallar tambin la estimacin del salario mensual medio de los
diez mil trabajadores, as como su error de muestreo. Hallar el reparto muestral ms eficiente
en los distintos grupos de edad para estimar el salario mensual medio.

Realizar una estimacin puntual de la proporcin de trabajadores de la empresa cuyo


contrato tiene una duracin inferior a los dos aos, indicando el error de muestreo cometido.
Calcular el nmero de trabajadores que sera necesario seleccionar para que el error de
muestreo no superase el 6% si se deseara estimar la proporcin de trabajadores con ms de
50 aos que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en
sus puestos de trabajo.

Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los
trabajadores ms jvenes mediante un intervalo de confianza, utilizaremos la expresin
correspondiente al muestreo aleatorio simple aplicada al primer estrato:

n S2 n S2
I X = N 1 X 1
N 12 (1
1 ) 1 ; N 1 X 1 + N 12 (1
1 ) 1
1
N 1 n1 N 1 n1

El intervalo de confianza ser entonces:

666 38000 2
2900  120500 2,575 2900 2 1
= [339799178,2; 359100821,8]
2900 66

Para estimar el salario medio de todos los trabajadores utilizamos el estimador del
muestreo aleatorio estratificado:

L
x st = Wh x h = 0,29  120500 + 0,47  163000 + 0,24  195000 = 158355
h =1

N1 2900 N 4700 N 2400


W1 = = = 0,29 , W2 = 2 = = 0,47 , W3 = 3 = = 0,24
N 10000 N 10000 N 10000
186 Muestreo estadstico. Conceptos y problemas resueltos

El error de muestreo de la estimacin anterior se calcular mediante:

L
S h2
( x st ) = Wh2 (1
f h )
h =1 nh

cuyo valor es:

666 380002 754 350002 580 400002


0,29 2 1
+ 0,47 2 1
+ 0,24 2 1
= 749,85
2900 666 4700 754 2400 580

La afijacin ms eficiente a realizar ser la de mnima varianza, que siempre supera


en precisin a las dems. Tenemos:

Nh Sh
nh = L
n
Nh Sh
h =1

N
h =1
h S h = 2900  38000 + 4700  35000 + 2400  40000 = 370700000

2900  38000
n1 = 2000 = 594,5508  595
370700000

4700  35000
n2 = 2000 = 887,5101  887
370700000

2400  40000
n3 = 2000 = 517,9390  518
370700000

Por tanto, el reparto muestral del enunciado no es el ms eficiente.

Para estimar la proporcin de trabajadores con contrato inferior a dos aos, debemos
obtener la estimacin de la proporcin poblacional en un muestreo aleatorio estratificado
como sigue:

L
Pst Wh Ph = 0,29  0,5631 + 0,47  0,1989 + 0,24  0,1552 = 0,2940
h =1

375 150 90
P1 = = 0,5631 , P2 = = 0,1989 , P3 = = 0,1552
666 754 580

El error de muestreo de la estimacin anterior ser:

L
N h
n h Ph Q h
( Pst ) = W h
2

h =1 N h
1 nh
Muestreo estratificado sin y con reposicin 187

cuyo valor es:

2900
6660,56310,4369 4700
7540,19890,8011 2400
5800,15520,8448
0,292 + 0,472 + 0,242 = 0,008
2899 666 4699 754 2399 580

En el ltimo apartado hallamos el tamao muestral necesario para estimar la


proporcin de trabajadores en el tercer estrato con un error de muestreo del 6%, que vendr
dado por:

2 N 3 p 3 q 3 2,575 2  2400  0,5  0,5


n3 = = = 386,4730  387
e 2p (N 3
1) + 2 p 3 q 3 0,06 2 (2399) + 2,575 2  0,5  0,5
3

Hemos supuesto que p3 = 0,5 puesto que no se tiene informacin anterior sobre la proporcin
de trabajadores de ms de 50 aos que padecieron enfermedades por motivos laborales.
Hemos llegado a que, para estimar esta proporcin con un error de muestreo no superior al 6%
habr que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 aos.

4.14. Para estudiar el terreno agrcola de una comarca se consideraron tres zonas segn su
localizacin geogrfica y en cada una de ellas, de forma independiente, se seleccion,
mediante un muestreo aleatorio simple, cierto nmero de fincas. Se tiene la siguiente
informacin:

Zonas Nmero total Nmero de fincas Superficie media Desviacin tpica Nmero de fincas
de fincas seleccionadas muestral (Ha) muestral (Ha) barbecho
A 3200 380 28 3,5 124
B 5600 800 15 6,7 250
C 1200 200 45 8 17

Estimar puntualmente la superficie total del terreno agrcola en cada una de las zonas, as
como su error de muestreo. Hallar los tamaos muestrales necesarios para realizar las
estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un
coeficiente de confianza del 99%.

Realizar una estimacin por intervalos al 99% de confianza de la superficie media de las
fincas de la comarca y realizar la afijacin ms eficiente de la muestra anterior en las tres
zonas para realizar la estimacin de la superficie media.

Hallar tambin el tamao muestral y la afijacin que se debera haber realizado para estimar
del modo ms eficiente posible la superficie total del terreno agrcola de la comarca con un
error de muestreo no superior a 1000 Ha y una confianza del 99%.

Estimar puntualmente el porcentaje global de fincas en barbecho y su error de muestreo.

Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona
podrn obtenerse a travs de las frmulas del muestreo aleatorio simple y los globales a
partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en
tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de
forma independiente entre ellas.
188 Muestreo estadstico. Conceptos y problemas resueltos

Los estimadores puntuales de la superficie total del terreno agrcola en cada una de
las zonas se calculan mediante X h = N h x h y su error de muestreo se calcula mediante:

n S
( X h ) = N h2 1
h h , h = 1, 2, 3
N h nh

Tenemos los siguientes resultados:

X 1 = N 1 x1 = 3200  28 = 89600 Ha

380 3,5
( X 1 ) = 3200 2 1
= 539,35 Ha
3200 380

X 2 = N 2 x 2 = 5600  15 = 84000 Ha

800 6,7
( X 1 ) = 5600 2 1
= 1228,13 Ha
5600 800

X 3 = N 3 x 3 = 1200  45 = 54000 Ha

200 8
( X 1 ) = 1200 2 1
= 619,67 Ha
1200 200

Los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos
errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en
cada estrato mediante:

2 N h2 S h2
nh = , h = 1, 2, 3
eT2 + N h 2 S h2
h

Para los distintos estratos tendremos:

5600 2  2,575 2  3,5 2


n1 = = 660,1572  661
1000 2 + 3200  2,575 2  3,5 2

5600 2  2,575 2  6,7 2


n2 = = 3500,1310  3501
1000 2 + 5600  2,575 2  6,7 2

1200 2  2,575 2  8 2
n3 = = 404,8936  405
1000 2 + 1200  2,575 2  8 2
Muestreo estratificado sin y con reposicin 189

Para realizar la estimacin por intervalos al 99% de la superficie media de las fincas
de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y,
por tanto, el intervalo de confianza ser:

x st ( x st )

L
x st = Wh x h = 0,32  28 + 0,56  15 + 0,12  45 = 22,76
h =1

L
N = N h = 3200 + 5600 + 1200 = 10000
h =1

N1 3200 n 380
W1 = = = 0,32 ; f 1 = 1 = = 0,1188
N 10000 N 1 3200

N2 5600 n 800
W2 = = = 0,56 ; f 2 = 2 = = 0,1429
N 10000 N 2 5600

N3 1200 n 200
W3 = = = 0,12 ; f 3 = 3 = = 0,1667
N 10000 N 3 1200

L
Sh2 3,52 6,72 82
(xst ) = Wh2 (1
f h )
h=1 nh
= 0,322 (1
0,1188)
380
+ 0,562 (1
0,1429)
800
+ 0,122 (1
1667)
200
= 0,147

Entonces:

x st ( x st ) = 22,76 2,575 * 0,147 = [22,76 + 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405]

La afijacin ms eficiente de la muestra anterior en las tres zonas para realizar la


estimacin de la superficie media ser la afijacin de mnima varianza definida por:

Nh Sh
nh = L
n , h = 1, ,L
N
h =1
h Sh

Tenemos:

N
h =1
h S h = 3200  3,5 + 5600  6,7 + 1200  8 = 58320

n = 380 + 800 + 200 = 1380

La afijacin ser la siguiente:


190 Muestreo estadstico. Conceptos y problemas resueltos

3200  3,5
n1 = 1380 = 265,0205  265
58320

5600  6,7
n2 = 1380 = 887,8189  888
58320

1200  8
n3 = 1380 = 227,1605  227
58320

En afijacin de mnima varianza puede expresarse el tamao muestral necesario para


estimar el total con un error de muestreo dado e (1000 Ha) y un coeficiente de confianza
adicional P , (99% = 2,575) mediante:

L
N h2 S h2

h =1 wh Nh Sh
n= 2
wh = L
, h = 1, .,L
e L

2
+ NhS
h =1
2
h N
i =1
h Sh

3200  3,5
w1 = = 0,1920
58320

5600  6,7
w2 = = 0,6433
58320

1200  8
w3 = = 0,1646
58320

3200 2  3,5 2 5600 2  6,7 2 1200 2  8 2


+ +
0,1920 0,6433 0,1646
n= 2
= 6564,1970  6565
1000
2,575 2
+ [
3200  3,5 2
+ 5600  6,7 2
+ 1200  8 2
]

La afijacin de los 6565 elementos muestrales en cada zona puede realizarse


mediante:

nh = wh n , h = 1, ,L

n1 = 0,1920  6565 = 1260,48  1261

n2 = 0,6433  6565 = 4223,36  4223

n3 = 0,1646  6565 = 1080,599  1081


Muestreo estratificado sin y con reposicin 191

Para estimar la proporcin de fincas dedicadas al barbecho, definimos:

1 si la finca i del estrato h se destina a barbecho


Ahi = h =1, 2, 3
0 en caso contrario

La proporcin poblacional de fincas dedicadas al barbecho se estima mediante:

L
NL
N L Nh
124 250 17
Pst = Wh Ph = h Ph = h A ih = 0,32 + 0,56 + 0,12 = 0,2896
h =1 h =1 N h =1 N i =1 380 800 200

1 n1
124
P1 = A i1 = = 0,3263
n1 i =1 380

1 n2
250
P2 = A i2 = = 0,3125
n2 i =1 800

1 n3
17
P3 = A i3 = = 0,085
n3 i =1 200

El error de muestreo de este estimador se puede aproximar mediante:

L
N h
n h Ph Q h
( Pst ) = Wh2
h =1 N h
1 nh

3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
(Pst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200

Un 28,96% de las fincas de la regin estn en barbecho, siendo el error de muestreo


de esta estimacin 0,0011.

4.15. En una ciudad turstica de temporada con 10000 viviendas se desea conocer la proporcin de
viviendas en alquiler al menos una vez al ao. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamao proporcional
al nmero total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales haba 800 en alquiler al menos un mes al ao. En el barrio B se eligieron 900
viviendas, de las cuales haba 600 en alquiler al menos un mes al ao. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al ao.
Estimar la proporcin de apartamentos que estaran dispuestos a ser alquilados al menos una
vez al ao y cuantificar el error de muestreo cometido.

Para estimar la proporcin de viviendas en alquiler al menos una vez al ao, definimos:

1 si la vivienda i del barrioo h se alquila al menos una vez al ao


Ahi = h = 1, 2, 3
0 en caso contrario
192 Muestreo estadstico. Conceptos y problemas resueltos

La proporcin de viviendas en alquiler al menos una vez al ao se estima mediante:

L
N L L
n h 1050 800 900 600 1700 1300
Pst = Wh Ph = h Ph =
{ Ph = + + = 0,7397
h =1 h =1 N  h =1 n 3650 1050 3650 900 3650 1700
Afijacin
proporcional

1 n1
800 1 n2
600 1 n3
1300
P1 = Ai1 = = 0,7619, P2 = Ai 2 = = 0,6667 , P3 = A i3 = = 0,7647
n1 i =1 1050 n2 i =1 900 n3 i =1 1700

n = n1 + n2 + n3 = 1050 + 900 + 1700 = 3650, N = 10000

Como la afijacin es proporcional:

N 1 n1 1050 1050
W1 = = = N1 = 10000 = 2877
N n 3650 3650
N n 900 900
W2 = 2 = 2 = N2 = 10000 = 2466
N n 3650 3650
N n 1700 1700
W3 = 3 = 3 = N3 = 10000 = 4658
N n 3650 3650

El error de muestreo de este estimador se puede aproximar mediante:

L
N h
n h Ph Q h
( Pst ) = W h
2

h =1 N h
1 nh

3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
(Pst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200

Un 28,96% de las fincas de la regin est en barbecho, siendo el error de muestreo


de esta estimacin 0,0011.

4.16. Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor despus del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor Por menor
n1 = 70 n2 = 30
y1 = 520 y 2 = 280
S1 = 210 S 2 = 90

Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un lmite para el error
de estimacin.
Muestreo estratificado sin y con reposicin 193

Como la proporcin observada de cuentas al por mayor (0,7) est muy alejada de la proporcin
verdadera (0,4), la estratificacin despus de seleccionar la muestra irrestricta aleatoria
(estratificacin a posteriori) puede ser adecuada, lo cual puede tambin ser justificado porque n1
y n2 exceden de 20.

La cantidad promedio de cuentas que recibe la empresa se estima mediante:

L L
Nh
x st = Wh x h = x h = 0,4  520 + 0,6  280 = 376
h =1 h =1 N

El error de muestreo de la estimacin anterior se calcular mediante:

L
S h2
( x st ) = Wh2 (1
f h )
h =1 nh

cuyo valor, omitiendo la correccin por poblacin finita, es:

2102 90 2
0,4 2 + 0,6 2 = 14,07
70 30

El lmite para el error de estimacin al 95% ser 2 ( x st )  28, con lo que un intervalo
de confianza al 95% para la estimacin de la cantidad promedio de cuentas que recibe la
empresa ser 376 28.

4.17. Un farmacutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el ltimo mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevara
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en funcin de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuacin:

Cliente Ingreso Cliente Ingreso Cliente Ingreso


Jubilado 271,3 Normal 173,69 Jubilado 277,67
Jubilado 301,29 Normal 133,24 Normal 171,89
Normal 163,17 Jubilado 275,8 Normal 165,22
Normal 141,72 Normal 246,48 Jubilado 235
Jubilado 367,94 Normal 176,7 Normal 181,2
Jubilado 328,63 Jubilado 292,09 Normal 177,37
Normal 179,7 Normal 187,52 Normal 161,37
Jubilado 337,77 Jubilado 349,79 Normal 215,76

Realizar una estimacin del ingreso neto del farmacutico y de su error de muestreo.
194 Muestreo estadstico. Conceptos y problemas resueltos

Como estamos ante un proceso de postestratificacin, el nmero de jubilados y personas


normales muestreadas son variables aleatorias con 24 valores. La cantidad ingresada por el
farmacutico se estima mediante:

L
X ' ' = N h' x h = 750  303728 + 346  176,8 = 288968,8 euros
h =1

La estimacin de la varianza se calcular mediante:

N
n L N ( N
n) L 2
V ( X ' ' ) = N ' h S h2 + S ' h (1
f h ) = 71689746,68
n h =1 n2 h =1

El error relativo de muestreo ser:

71689746,68
C v( X ' ' ) = = 0,03  3%
288968,8
Muestreo estratificado sin y con reposicin 195

EJERCICIOS PROPUESTOS

4.1. Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X
sobre una poblacin de 870 personas se obtiene la siguiente distribucin de frecuencias:

Valores de X 2 3 4 7 10 12 16 20 25 30 35 50 60 100

Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10 8 4

Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblacin
utilizando dos mtodos diferentes de estratificacin. El mtodo I consiste en realizar tres
estratos segn los criterios dados por 2  X  7, 10  X  25, 30  X  100. El mtodo II
consiste en realizar tres estratos segn los criterios dados por 2  X  10, 12  X  35,
50  X  100. Se pide lo siguiente:
1) Suponiendo muestreo con reposicin y para un tamao de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mnima varianza para los dos mtodos de
estratificacin. Comentar los resultados. Elegir el mejor mtodo de estratificacin y su tipo
de afijacin justificando la respuesta. Cuantificar la ganancia en precisin para el mtodo y
afijacin elegidos respecto del muestreo aleatorio simple con reposicin.
2) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposicin. Comentar los resultados comparndolos con los del apartado anterior.
3) Para la misma muestra de tamao 100 realizar la afijacin ptima para los dos mtodos de
estratificacin, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 =
25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i segn el mtodo de
estratificacin j. Considerar muestreo sin reposicin y con reposicin y comparar los resultados.
Para este tipo de afijacin cul es el mejor mtodo de estratificacin? Razona la respuesta.
4) En una encuesta de salarios posterior, qu tamao de muestra sera necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposicin y afijacin
de mnima varianza? y si el muestreo es con reposicin? Comentar los resultados.
5) En una encuesta de salarios posterior qu tamao de muestra sera necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( r
=1,96) al estimar el total salarial con reposicin y afijacin proporcional. Y si el muestreo
es sin reposicin? Comentar los resultados.

4.2. Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rpidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces ms bienes que una casa en el estrato de renta baja, y se
espera que Sh sea proporcional a la raz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) Cmo se distribuira de forma ptima entre los dos estratos una muestra de 1000 familias
extrada de la poblacin?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos cmo
debe distribuirse la muestra?
196 Muestreo estadstico. Conceptos y problemas resueltos

4.3. Consideramos un proceso de muestreo estratificado con afijacin ptima en el que se define
la funcin de coste total C de la siguiente forma:
L
C = c0 + c h n h
h =1

donde c0 representa un coste fijo dado y los ch son tambin conocidos y representan el coste
unitario en el estrato h (h = 1, 2, ..., L). Se pide:

1 Realizar la afijacin de mnima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresin general que nos da la varianza mnima.

2 Responder a las preguntas del apartado anterior considerando la extraccin de una


muestra estratificada de tamao 1000 de una poblacin de tamao 10000 con los datos que
se dan a continuacin. Comparar los resultados con los que se obtendran para afijacin
ptima con funcin de coste lineal y cuantificar la ganancia en precisin. Comentar los
resultados.

Estrato Wh Sh ch

1 0,4 4 1
2 0,3 5 2
3 0,3 6 3

4.4. Supongamos conocidos los siguientes datos de una poblacin dividida en tres estratos: S12 = 9,
S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide
lo siguiente:

a) Determinar el coste de una muestra estratificada que proporciona un error relativo de


muestreo de 5% para estimar la media considerando afijaciones proporcional, de mnima
varianza y ptima, respectivamente. Se sabe que X = 22 y que la funcin de coste es lineal.
Comentar los resultados obtenidos para cada tipo de afijacin y justificarlos.

b) Contestar a las mismas cuestiones del apartado anterior, pero con reposicin, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijacin ptima y la de mnima varianza coinciden para costes unitarios.
CAPTULO

MUESTREO SISTEMTICO

OBJETIVOS
1. Presentar el concepto de muestreo sistemtico.

2. Comprender las especificaciones del muestreo sistemtico.

3. Analizar estimadores y errores en el muestreo sistemtico.

4. Comprender el concepto de coeficiente de correlacin intramuestral.

5. Analizar errores en funcin del coeficiente de correlacin intramuestral.

6. Relacionar el muestreo sistemtico con el muestreo aleatorio simple.

7. Relacionar el muestreo sistemtico con el muestreo estratificado.

8. Comprender el concepto de coeficiente de correlacin intraestratal.

9. Analizar errores en funcin del coeficiente de correlacin intraestratal.

10. Realizar la estimacin de varianzas.

11. Relacionar el muestreo sistemtico con el muestreo por conglomerados.


198 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo sistemtico. Especificaciones.

2. Estimadores y varianzas.

3. Relacin entre el muestreo sistemtico y el muestreo aleatorio simple.

4. Relacin entre el muestreo sistemtico y el muestreo estratificado.

5. Estimacin de varianzas.

6. Relacin entre el muestreo sistemtico y el muestreo por conglomerados.

7. Problemas resueltos.

8. Ejercicios propuestos
Muestreo sistemtico 199

MUESTREO SISTEMTICO. ESPECIFICACIONES


Partimos de una poblacin de tamao N, y agrupamos sus elementos en n zonas (filas) de
tamao k (N = nk). Podramos representar la poblacin como sigue:

i \ j 1 2 3 L j L k
1 u 11 u 12 u 13 L u1 j L u 1k
2 u 21 u 22 u 23 L u1 j L u 2k
M M M M M M
i u i1 ui2 u i3 L u1 j L u ik
M M M M M M
n u n1 u n2 u n3 L u nj L u nk

A continuacin se numeran los elementos de la tabla anterior de izquierda a derecha


empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila
siguiente cuando se agota cualquier fila. Tendramos la siguiente estructura:

i\j 1 2 3 L j L k
1 u1 u2 u3 u
L j L uk
2 uk +1 uk +2 uk +3 L uk + j L uk +k
3 u2 k +1 u2 k +2 u2 k +3 L u2 k + j u2 k +k
M M M M M M
i u(i
1) k +1 u(i
1) k +2 u(i
1) k +3 L u(i
1) k + j L u(i
1) k +k
M M M M M M
n u( n
1) k +1 u( n
1) k +2 u( n
1) k +3 L u(n
1) k + j L u(n
1) k +k
12
44 3
uN

Para extraer una muestra de tamao n se elige al azar una unidad en la primera zona, y
para seleccionar las n
1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirn las n
1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemticas as obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.

La probabilidad de seleccionar cualquier muestra ser la probabilidad de elegir la unidad


que la origina en la primera fila por muestreo aleatorio simple, es decir, 1/k. Por tanto, el muestreo
sistemtico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier
unidad de la poblacin (de N unidades) de pertenecer a la muestra (de tamao k) es k/N = k/nk =
1/n; por lo tanto, el muestreo sistemtico es un tipo de muestreo con probabilidades iguales. Las
muestras del espacio muestral pueden representarse como sigue:
200 Muestreo estadstico. Conceptos y problemas resueltos

( u~ ) = {u
1 1 , u 1+ k , L u 1+ ( n
1 ) k }
LLLLLLLLLLL
( u~ ) = {u
j j , u j + k , L u j + ( n
1) k }
LLLLLLLLLLL
( u~ ) = {u
k k , u k + k , L u k + ( n
1) k }
El muestreo sistemtico extiende la muestra a toda la poblacin, recoge el posible
efecto de estratificacin debido al orden en que figuran las unidades de la poblacin (cada
fila se puede considerar como un estrato), permite la consideracin de conglomerados en la
poblacin (cada columna se puede considerar como un conglomerado), es fcil de aplicar y
comprobar, no presenta problemas de clculo algebraico y no precisa distincin entre
reposicin y no reposicin. Adems, si la disposicin de los elementos en la poblacin es
aleatoria, la seleccin sistemtica equivale a un muestreo aleatorio simple. Por ltimo, el
error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en
estratificado.

Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si
existe periodicidad en la poblacin y el problema terico que se presenta en la estimacin de
varianzas debido a que no hay independencia en la seleccin de unidades en las distintas
zonas, ya que la unidades extradas en cada zona dependen de la seleccionada en la primera
zona. En general slo hay seleccin aleatoria para la primera unidad de la muestra.

ESTIMADORES Y VARIANZAS

Se utilizar el estimador lineal insesgado de Horwitz y Thompson porque el muestreo


sistemtico es sin reposicin. En general sabemos que:
n
Yi n
$ = estima insesgadamente el parmetro poblacional  = Y
HT
i i i
i

En muestreo sistemtico la probabilidad i de seleccin de un elemento poblacional


cualquiera para la muestra ser igual a la probabilidad de que resulte elegida la zona que lo
contiene, esto es, i = 1/k = n/(nk) = n/N, luego podemos utilizar la forma general del
estimador de Horwitz y Thompson para asegurar lo siguiente:

n 1 Yij n k
$ =
1
estima insesgadamente el parmetro poblacional  = Y . ij
i j i j
k

Si aplicamos la expresin anterior a las estimaciones del total, media, proporcin y


total de clase poblacionales, se obtienen los siguientes estimadores:
Muestreo sistemtico 201

X ij n n
1 n
1
Total   = X Yij = X ij X = = k X ij = N. X ij = Nx j
i j =1 1
 n i=1
i =1 n
k N

X ij
X ij n 1
1 n
Media  = X Yij = X = nk = X ij = x j
N
{ i j =1 1 n i=1
nk k
Aij
Aij n 1
1 n
Proporcin  = P Yij = P = nk = Aij = P j
nk i j =1 1 n i=1
k
n 1 A n
1 n
Totaldeclase   = X Yij = Aij A = = k Aij = N. Aij = NP j
ij

i j =1 1
 n i=1
i =1 n
k N

Hemos demostrado que un estimador lineal insesgado para la media poblacional es


la media de la muestra sistemtica obtenida, para la proporcin poblacional es la
proporcin de la muestra sistemtica, para el total poblacional es N veces el total de la
muestra sistemtica, y para el total de clase es N veces el total de clase muestral. Es decir,
podemos escribir lo siguiente:
Total  X = Nx j

Media  X = x j
Proporcin  P = P j

Total de clase  A = NP j

Varianzas de los estimadores

Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza intermuestral como:


2
1 n k
2
S =
bs (x j
X )
k
1 i j
y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como:
2
1 n k
2
Sws = (Xij
x j )
N
k i j
Con lo que la descomposicin de la suma de cuadrados para el anlisis de la varianza
poblacional permite escribir lo siguiente:
n k 2 n k n k

(X ij
X ) = ( X ij
x j ) + (x j
X )
( N
1)S 2 = ( N
k )Sws
2
2 2
+ (k
1)Sbs2
i =1 j =1 i =1 j =1 i =1 j =1
1 442443 1 442443 1 442443
( N
1) S 2 2
( N
k ) S ws 2
( k
1) Sbs
202 Muestreo estadstico. Conceptos y problemas resueltos

A partir de la tabla del anlisis de la varianza para la poblacin que se presenta a


continuacin, pueden calcularse los errores de los estimadores.
Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios
n k

(x ) 2
Entre muestas k
1 j
X S bs2
i j
n k
Dentro de muestras N
k (X
i j
ij
xj ) 2 2
S ws
n k
Total k
1+ (N
k ) = N
1 (X
i j
ij
Xj ) S2

2
S S 2
V ( X ) = V (x j ) = (1
f ) ,bs
V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1
f ) bs
n n
2 2 2

( ) ( ) ( ) ( )
k n k n k k
1 1 1 1
V ( P ) = V P j =
k j
Pj
P =
nk i j
P j
P =
N i j
P j
P = PQ

k
P Q
j
j j

2 2

( ) ( ) (P
P) = N (P
P) = N PQ
k P Q

k n k k
1 1
V ( A ) = V NPj = N 2V Pj = N 2 j j
2
j j
k j i j j
Un concepto interesante en muestreo sistemtico es el coeficiente de correlacin
intramuestral w, que mide la interrelacin entre las unidades dentro de las muestras. Lgicamente,
esta interrelacin debe ser lo ms pequea posible, ya que en el muestreo sistemtico interesa la
heterogeneidad intramuestral, con la finalidad de que una nica muestra sistemtica represente lo
mejor posible a toda la poblacin. Para que una muestra sistemtica aspire a ser fiel espejo de toda
la poblacin ha de ser heterognea, y la interrelacin entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lgico que interesen valores muy pequeos del coeficiente de correlacin
intramuestral. La expresin matemtica de  w es la siguiente:
k n
2 (X ij
X )(X zj
X ) 2
1 k n
(X ij
X ) = varianza poblacional
j i< z
w = , 2 =
N (n
1) 2 nk j i
La varianza de los estimadores puede expresarse en funcin de w. Para la media
tenemos:
2 2
V (x j ) = [1 + (n
1) w ] = N
1 S [1 + (n
1) w ]
n N n
2 2
( )
V ( X ) = V Nx j = N 2V x j = N 2( ) [1 + (n
1) w ] = N ( N
1) S [1 + (n
1) w ]
n n
( )
V P j =
PQ
n
[1 + (n
1) w ] V A = N 2 ()
PQ
n
[1 + (n
1) w ]
Segn esta expresin, la precisin del muestreo sistemtico puede analizarse en funcin
del coeficiente de correlacin intramuestral, de tal modo que la precisin mxima se produce para
 =
1/(n-1), y la mnima para  = 0, igualndose la precisin del muestreo sistemtico con la
del muestreo aleatorio simple para  = 0. De esta forma, para valores de  entre
1/(n-1) y 0,
el muestreo sistemtico es ms preciso que el aleatorio simple, y para valores de  entre 0 y 1, el
muestreo sistemtico es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a
precisin, convienen valores negativos del coeficiente de correlacin intraconglomerados  .
Muestreo sistemtico 203

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ALEATORIO SIMPLE

El muestreo sistemtico se ide con la finalidad de mejorar el muestreo aleatorio simple.


Pero habr ocasiones en que esta mejora es mxima. Se demuestra que mientras ms supera
2
la cuasivarianza intramuestral S ws a la cuasivarianza poblacional S2 el muestreo sistemtico
ms gana en precisin al aleatorio simple.

El prrafo anterior puede interpretarse diciendo que el muestreo sistemtico es ms


preciso que el aleatorio simple cuando la variabilidad dentro de muestras es superior a la
variabilidad dentro de las unidades de la poblacin. La precisin del muestreo sistemtico
2
coincide con la del aleatorio simple cuando S ws = S2, es decir, cuando la variabilidad dentro
de muestras es similar a la variabilidad dentro de las unidades de la poblacin, y esto se da
cuando la disposicin de los elementos en la poblacin es aleatoria.

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ESTRATIFICADO

En el muestreo sistemtico puede considerarse cada zona de k elementos consecutivos a


partir del primero como un estrato; es decir, se puede dividir la poblacin en n estratos
constituidos cada uno de ellos por una fila de la tabla (k unidades) del cuadro en que hemos
representado los elementos de la poblacin numerados consecutivamente.
1 j k
1 x1 xj xk
2 x1+ k x j+k xk + k
M M M M
i x1+ (i
1)kL x j + (i
1)k L xk + (i
1)k
M M M M
n x1+ (n
1)k x j + (n
1)k xk + (n
1)k

Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra
estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el
muestreo estratificado aleatorio la seleccin se efecta independientemente en cada estrato,
mientras que en el muestreo sistemtico todos los elementos seleccionados ocupan el mismo
lugar o nmero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad
de seleccin. Adems, sera conveniente que las n zonas sistemticas de k elementos cada
una (estratos) sean lo ms homogneas posible dentro de ellas y heterogneas entre ellas.
Esta clasificacin de los elementos de la poblacin en n filas de k unidades cada una origina
la siguiente tabla del anlisis de la varianza poblacional:

Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios

(X
X)
n k
2 2
Entre estratos n
1 i S bst
i j

(X
Xi)
n k
2
Dentro de estratos N
n ij
2
S wst
i j

(X )
n k
Total n
1 + ( N
n) = N
1 ij
X j S2
i j
204 Muestreo estadstico. Conceptos y problemas resueltos

Si definimos la cuasivarianza entre las n estratos posibles, o cuasivarianza interestratal


como:
2
1 n k
2
Sbss = X i
X
n
1 i j
( )
y la cuasivarianza dentro de los estratos o cuasivarianza intraestratal como:

2
1 n k
2
Swss =
N
n i j
Xij
Xi2 ( )
tenemos:

n k n k n k

(X ij
X ) = (X ij
X i ) + ( X i
X ) ( N
1)S = ( N
n)Swst + (n
1)Sbst
2 2 2 2 2 2

i=1 j =1 i=1 j =1 i=1 j =1


1 442443 1 442443 1 442443
( N
1) S 2 2
( N
n) Swst 2
( n
1) Sbst

Tenemos entonces que la varianza de la media puede expresarse como:

() L

h
n

i
n
1 S2 1 1 n
V X = V (xst ) = Wh2V (xh ) = Wi 2V ( xi ) = 2 (1
f i ) i = 2 1
Si2 =
i n ni n k i
2 2 2
1 1 n 1 k 1 n k N
n 2 S wst
1
( X
X )
ij i n2k = ( X ij
X i ) = S wst = (1
f )
n 2 k i k
1 j i Nn n
1 4j 42443
( N
n)Swst2

Si definimos ahora el coeficiente de correlacin intraestratal st como el


coeficiente de correlacin lineal entre las desviaciones respecto de las medias de los estratos
de todos los pares de valores que estn en la misma muestra sistemtica, su expresin puede
calcularse de la siguiente forma:

1 k n
(X ij
X i )(X zj
X z ) k n
n j i< z
k 2(X ij
X i )(X zj
X z )
cov(X ij ; X zj ) 2 j i< z
st = = =
1 k n 1 k n 2
n(n
1)(k
1)S wst
(X ij
X i )2 ij i ( X
X )2

N j i=1 N j i=1
1442443
( N
n)Swst
2

Se demuestra que la varianza del estimador de la media en funcin de st y Sst tiene la
forma siguiente:
2
S
V ( X ) = V (x j ) = (1
f ) wst (1 + (n
1) st )
n
y lo mismo se calcularan las varianzas del resto de los estimadores en funcin del
coeficiente de correlacin intraestratal st.
Muestreo sistemtico 205

La precisin mxima, que evidentemente se da cuando el error de muestreo es cero


(V( x j ) = 0), se produce si (n
1)st =
1, luego se puede asegurar que la precisin mxima
si:
1
V( x j ) = 0   st =

n
1

La precisin mnima, que evidentemente se da cuando la varianza es mxima, se


produce si st = 1 (valor mximo de st que ser el que efectivamente hace mxima V( x j )),
luego se puede asegurar que PRECISIN MNIMA  st = 1. Por otra parte:
2
S wst
st = 0 V( x j ) = (1
f )
n
con lo que el muestreo sistemtico coincide en precisin con el muestreo aleatorio estratificado
considerando seleccin aleatoria independiente en cada estrato. De esta forma, st es en cierta
forma una medida de la falta de aleatoriedad en la seleccin de unidades para la muestra en
las distintas zonas sistemticas (filas o estratos).

ESTIMACIN DE VARIANZAS

No podemos decir que en muestreo sistemtico haya un mtodo directo para la estimacin de
varianzas a partir de una muestra sistemtica. Tenemos las siguientes situaciones:

a)  prximo a cero o S2ws = S2


Si el coeficiente de correlacin intramuestral se aproxima a cero puede suponerse la
poblacin aleatoria y si S2ws = S2 la precisin del aleatorio simple y el estratificado coinciden,
con lo que la estimacin de la varianza puede realizarse con la misma expresin que en
muestreo aleatorio simple, es decir:
S$ 2
V ( x ) = (1
f )
$
n
siendo S$ 2 la cuasivarianza de la muestra sistemtica.

b) st prximo a cero


Si st se aproxima a cero se puede utilizar el muestreo sistemtico como muestreo
estratificado considerando cada zona sistemtica como un estrato y seleccionando una
muestra estratificada con una unidad por estrato. La razn de esta utilizacin es que la
precisin del muestreo sistemtico se iguala con la del muestreo aleatorio estratificado para
st = 0. En la prctica, lo que se hace es mezclar, antes de la seleccin, las 2k unidades de
dos zonas en una nica zona, con lo que se transforman las n zonas de k unidades cada una
en n/2 zonas de 2k unidades cada una (si n es impar, para la zona que queda suelta se repite
aleatoriamente un elemento de la muestra). Con este modelo se transforman las n zonas de k
unidades en n/2 zonas de 2k unidades. Con ello se dispone de dos unidades muestrales por
zona. Aplicando las frmulas de muestreo estratificado tendremos:
n n n
2 S$h2 2
2
2
( x h1
x h 2 ) 2
2 1
f 2
V$ ( x st ) = Wh ( 1
f h ) = ( 1
f ) ( x
xh2 )
2
2
=
h n n2 h1
h nh 2 h
206 Muestreo estadstico. Conceptos y problemas resueltos

c) Ni  ni st estn prximos a cero


En este caso utilizaremos alguno de los mtodos especiales generales para la estimacin de
varianzas. Concretamente podemos utilizar el mtodo de las muestras interpenetrantes, que
se utiliza cuando tenemos un conjunto de dos o ms muestras, elegidas con el mismo
esquema de muestreo (independientes o no) y tales que cada una proporcione una estimacin
vlida del parmetro que se pretenda estimar con el mismo error de muestreo. Si las
muestras son independientes es fcil obtener un estimador insesgado de la varianza del
estimador. Para aplicar el mtodo de las muestras interpenetrantes al muestreo sistemtico
supongamos que en vez de elegir una muestra sistemtica de tamao n para un solo valor j,
1  j  k , es decir, con un solo arranque aleatorio, obtenemos t muestras de tamao n/t
utilizando t arranques aleatorios. Estas muestras pueden considerarse independientes, ya que
la eleccin del arranque es aleatoria en la primera zona sistemtica.
Podemos formar un estimador combinado de la media poblacional basado en las
medias de las t muestras (cada media muestral es un estimador insesgado de la misma media
poblacional) definido como:
1 t
xc = x
t 1 t
siendo el estimador insesgado de su varianza mediante la aplicacin del mtodo de las
muestras interpenetrantes:
1 t
1 t 2 t
1 t
V$ ( x c ) = xi2
tx c2 = xi
x c2 = ( xi2
x c2 )
t ( t
1) i t ( t
1) i i t ( t
1) i
La frmula puede multiplicarse tambin por (1-f). En particular para t = 2 tenemos:

x1 + x 2 x1 + x 2
2
x1 + x 2
2
( x1
x2 ) 2

xc = V ( x c ) = x1

$ 2
+ x2

2
=
2 2 2 4
Se observa que al aumentar el nmero de arranques aleatorios, manteniendo el mismo
tamao de muestra, la precisin obtenida se aproxima a la del muestreo aleatorio simple.

RELACIN ENTRE MUESTREO SISTEMTICO Y POR CONGLOMERADOS

En el muestreo sistemtico puede considerarse cada columna de n elementos como un


conglomerado; es decir, se puede dividir la poblacin en k conglomerados constituidos cada
uno de ellos por una columna de la tabla (n unidades). Obtener una muestra sistemtica sera
entonces equivalente a obtener una muestra por conglomerados de tamao 1.

1 j k
1 x1 xj xk
2 x1+ k x j +k xk +k
M M M M
i x1+(i
1)k L x j +(i
1)k L x k +(i
1)k
M M M M
n x1+(n
1)k x j +(n
1)k x k +(n
1) k
Muestreo sistemtico 207

PROBLEMAS RESUELTOS

5.1. En un proceso de fabricacin de automviles se trata de analizar la produccin de piezas


en serie de trece robots. Para ello se controlaron las piezas producidas por los trece
robots en la primera hora de su funcionamiento y se obtuvo la siguiente distribucin:

N de robot 1 2 3 4 5 6 7 8 9 10 11 12 13
N de piezas producidas 5 5 4 2 5 4 5 4 3 4 4 3 2

Con la finalidad de estimar el nmero de piezas defectuosas en el proceso de


fabricacin, se realiza un muestreo sistemtico 1 en 5, es decir, se selecciona una de
cada cinco piezas empezando por la primera pieza del primer robot hasta que se agoten
sus piezas, para pasar a continuacin a la primera pieza del segundo robot hasta que se
agoten sus piezas, y as sucesivamente hasta que se agoten todas las piezas de todos los
robots. Suponiendo que la primera pieza producida por cada robot es defectuosa y que
todas las dems son correctas, se pide lo siguiente:

a) Calcular la varianza del estimador de la proporcin de piezas defectuosas producidas


por los robots y el valor del coeficiente de correlacin intramuestral. Existir ganancia
en precisin respecto de un muestreo irrestricto aleatorio con fraccin de muestreo del
20%? Por qu? Cuantificarla. Realizar la tabla del anlisis de la varianza para la
produccin total.

b) Estimar la varianza para cada muestra sistemtica posible segn nuestro


procedimiento de muestreo. Con qu muestra sistemtica nos quedaremos que
represente mejor a toda la produccin? Existir ganancia en precisin si se estiman las
varianzas utilizando estratificacin? Dar la estimacin de la proporcin de piezas
defectuosas producidas por los robots.

Si definimos una variable dicotmica A a la que asignamos el valor 1 para las piezas
defectuosas y el valor 0 para las piezas correctas, y clasificamos las 50 piezas en 10 filas de
5 piezas cada una (muestreo sistemtico 1 en 5) siguiendo el orden del enunciado del
problema, tendremos la tabla de la Figura 5-1.

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin


(produccin total) utilizando Excel. Como estamos clasificando los datos en 5 grupos
(columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por
grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de
Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del
men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-2. La
Figura 5-3 presenta los resultados.
208 Muestreo estadstico. Conceptos y problemas resueltos

1 0 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 1 0 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 0 1 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 1 0 2/5
6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50
Figura 5-1

Figura 5-2

Figura 5-3
Con la notacin que utilizamos habitualmente, la tabla ANOVA ser:

Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios
n k

(x
X ) = 1,72
2
Entre k
1= 5
1= 4 j S bs2 = 1,72 / 4 = 0,43
i j
n k

(X
x j ) = 7,9
2
Dentro N
k = 50
5 = 45 ij
2
S ws = 7,9 / 45 = 0,1755
i j
n k
Total N
1 = 50
1 = 49 (X
i j
ij
X j ) = 9,62 S 2 = 9,62 / 49 = 0,1963
Muestreo sistemtico 209

Conocida esta tabla, pueden realizarse ya todos los clculos. La varianza del
estimador de la proporcin puede calcularse como:

( ) n S2 S2 1 0,43
V ( P ) = V P j = 1
bs = (1
f ) bs = (1
)
N n n 5 10
= 0,0344

La varianza para el estimador del total de clase ser:

( )
2
S
V ( A ) = V NP j = N 2V ( P j ) = N 2 (1
f ) bs = 50 2  0,0344 = 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlacin
2
intramuestral a travs de la frmula V ( x j ) = (1 + (n
1)   ) . Tendremos:
n
49
0 ,1963
0 , 0344 = 50 (1 + (10
1)   )   = 0 , 0875
10

Se observa un valor de  muy cercano a cero, lo que indica que el muestreo sistemtico
va a tener una precisin muy cercana a la del aleatorio simple en la estimacin de la proporcin de
piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws tambin tienen valores muy
cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es ms preciso el muestreo
aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es
(1
1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisin del aleatorio simple ser
(0,0344
0,0157)/0,0344 = 54,3%.
Dado el valor del coeficiente de correlacin intramuestral, muy cercano a cero, podemos
estimar varianzas mediante la frmula del muestreo aleatorio simple. Se tiene:

6 6
2 1

( )
V P1 = (1
f )
S1
n
= (1
f )
P1Q1 1 10 1 10
= 1

n
1 5 10
1
= 0,0213

3 3
2 Q 1

( )
V P2 = (1
f )
S
n
2
= (1
f )
P2 2 1
= 1

1 10
10
n
1 5 10
1
= 0,0186

1 1
2 1

( )
V P3 = (1
f )
S3
n
= (1
f )
P3 Q3 1 10 1 10
= 1

n
1 5 10
1
= 0,008

( ) ( )
V P4 = V P3 = 0,008
2 2
2 Q 1

( ) S P 1
V P5 = (1
f ) 5 = (1
f ) 5 5 = 1

n
10
1
n
1 5 10
1
10
= 0,0142

Segn estos resultados la muestras ms precisas son la tercera y la cuarta.


210 Muestreo estadstico. Conceptos y problemas resueltos

Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando


las 10 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un
estrato del que seleccionamos dos unidades para la muestra. Tendremos:
n

( ) 1
f
V P1 = 2
n
(x
2

h
h1
xh 2 ) =
2 1
0,2
10 2
[ ]
(1
1) 2 + (1
0) 2 + (0
1) 2 + (1
0) 2 + (0
1) 2 = 0,032
n

( ) 1
f 2
V P2 = 2 (xh1
xh 2 ) =
n h
2 1
0,2
10 2
[
(0
0) 2 + (0
1) 2 + (1
0) 2 + (0
0) 2 + (1
0) 2 = 0,024 ]
( )
V P = 0,008(0
1) 2 = 0,008 = V P

3 ( ) ( )
V P = 0,008 (1
0) 2 + (1
0) 2 = 0,016
4 5 [ ]
Las mejores muestras segn el mtodo del muestreo estratificado tambin resultan ser
la tercera y la cuarta, y adems coinciden en varianza con el mtodo anterior. Para las restantes
muestras se observa ganancia en precisin del mtodo de estimacin utilizando la frmula del
muestreo aleatorio simple. La proporcin estimada de piezas defectuosas producidas ser la
derivada de la 3 o 4 muestra, esto es: P = P3 = P4 = 1 / 10 ; es decir que se estima un 10%
de produccin defectuosa.

5.2. En una poblacin de 8 tipos de maletines de herramientas medimos el nmero de elementos


importantes que faltan para considerarse de primera calidad:

mi m1 m2 m3 m4 m5 m6 m7 m8
Xi 1 3 5 2 4 6 2 7

Se realiza muestreo sistemtico 1 en 2 y se pide:


a) Calcular las varianzas de los estimadores insesgados del total y de la media de elementos
importantes ausentes en los maletines. Utilizar adicionalmente la relacin entre muestreo
sistemtico y estratificado.
b) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.

Como se trata de un muestreo sistemtico 1 en 2 y N = 8, habr dos muestras


sistemticas posibles de tamao 4 (columnas). Dividiremos entonces la poblacin en 4 zonas
(filas) de 2 elementos cada una de la forma:

[ ]
3 3

(x
X ) 2 = 4 (3
3,75 ) + (4,5
3,75 ) = 4,5
2 2
j
1 3 2 i =1 j =1
5 2 3,5 3 3

(X
x j ) 2 =(1
3) + (5
3) + ... + (6
4,5) + (7
4,5) 2 = 27
2 2 2
4 6 5 ij
i =1 j =1
2 7 4 ,5 3 3
3 4 ,5 3,75
(X
X ) 2 =(1
3,75 ) + (5
3,75 ) + ... + (7
3,75) 2 = 31,5
2 2
ij
i =1 j =1

Hemos creado un cuadro con las muestras sistemticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.
Muestreo sistemtico 211

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin


utilizando Excel. Como estamos clasificando los datos en 2 grupos (columnas), utilizaremos las
variables M1 y M2, que recogen los valores de las dos columnas. A continuacin elegimos Anlisis
de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su
pantalla de entrada como se indica en la Figura 5-4. La Figura 5-5 presenta los resultados.

Figura 5-4

Figura 5-5

Mediante Excel se ha hallado la siguiente tabla del anlisis de la varianza:


Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios

(x )
n k
2
Entre muestras k
1 = 2
1 = 1 j
X = 4,5 S bs2 = 4,5 / 1 = 4,5
i j

(X
x j ) = 27
n k
2
Dentro de muestras N
k = 8
2 = 6 ij S ws2 = 27 / 6 = 4,5
i j

(X )
n k
Total N
1 = 8
1 = 7 ij
X j = 31,5 S 2 = 31,5 / 7 = 4,5
i j

Conocida esta tabla pueden realizarse ya todos los clculos.


212 Muestreo estadstico. Conceptos y problemas resueltos

1 k 1
[
V ( X ) = V ( x j ) = ( x j
X ) 2 = (3
3,75) + (3,5
3,75) 2 = 0,5625
k j 2
2
]
La varianza del estimador de la media tambin puede calcularse como:
2
nS S2 1 4,5
V ( X ) = V (x j ) = 1
bs = (1
f ) bs = (1
) = 0,5625
N n n 2 4

La varianza para el estimador del total ser:


S bs2
V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1
f ) = 8 2 0,5625 = 36
n
El clculo de la varianza tambin puede realizarse a travs del valor del coeficiente de
2
correlacin intramuestral como V ( x j ) = (1 + (n
1)   ) . Tenemos:
n

( )( ) 2(X )( )
k n k n
2 X ij
X X zj
X ij
X X zj
X
j i<z j i<z
w = = =
0,14285
N (n
1) 2 ( N
1)(n
1)S 2

Tendremos entonces:
7
4,5
2
V (x j ) = (1 + ( n
1)   ) = 8 (1 + 3(
0,14285)) = 0,5625
n 4
Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S2ws = 4,5 = S2, por lo que la precisin en muestreo aleatorio simple coincide con la
precisin del muestreo sistemtico, y podremos utilizar la frmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlacin
intramuestral  indica que la precisin del muestreo sistemtico es buena, ya que ste es
muy bajo y adems es negativo. Al ser negativo vemos que no existe interrelacin dentro de
las muestras, esto es, que las muestras tienden a ser heterogneas dentro de s, lo cual es muy
conveniente en muestreo sistemtico a la vista de que la muestra ha de representar fielmente
a toda una poblacin que se supone heterognea.
Para estimar la varianza de la media podemos utilizar la frmula del muestreo
aleatorio simple, ya que en este problema coincide en precisin con el sistemtico.
Tendremos los siguientes resultados para cada una de las dos muestras:
S
[ ] 4 = 0,41
2
1 1
V (x1 ) = (1
f ) 1 = 1
(1
3) + (5
3) + (4
3) + (2
3) 2
2 2 2

n 2 3
S
[ ] 4 = 0,71
2
1 1
V (x2 ) = (1
f ) 2 = 1
(3
4,5) + (2
4,5) + (6
4,5) + (7
4,5) 2
2 2 2

n 2 3

La mejor muestra sistemtica resulta ser la primera, pues es la que presenta menor
varianza.

Tambin podemos tratar este problema desde el enfoque de la equivalencia entre


muestreo estratificado y muestreo sistemtico.
Muestreo sistemtico 213

Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la poblacin en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemtica consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 4
filas de 2 unidades cada una origina una tabla del anlisis de la varianza para la poblacin
que puede calcularse a travs de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuacin
elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men
Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7
presenta los resultados.

Figura 5-6

Figura 5-7
214 Muestreo estadstico. Conceptos y problemas resueltos

La tabla del anlisis de la varianza por estratos es entonces la siguiente:

Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios

(X
X ) = 10,5 S bst
n k
2 2
Entre estratos n
1= 4
1= 3 i = 10,5 / 3 = 3,5
i j

(X
X i ) = 21
n k
2
Dentro de estratos N
n=8
4=4 ij
2
S wst = 21 / 4 = 5,25
i j

(X
X j ) = 31,5
n k
Total N
1= 8
1= 7 ij S 2 = 31,5 / 7 = 4,5
i j

(X
X ) ( ) [ ]
n k k
2 2
i = k Xi
X = 2 (2
3,75)2 + (3,5
3,75)2 + (5
3,75)2 + (4,5
3,75)2 = 10,5
i j j

(X )
n k
2
ij
Xi = (1
2)2 + (3
2)2 + (5
3,5)2 + (2
3,5)2 + (4
5)2 + (6
5)2 + (2
4,5)2 + (7
4,5)2 = 21
i j

A partir de esta equivalencia entre muestreo estratificado y muestreo sistemtico


podemos hallar la varianza del estimador de la media de la siguiente forma:

S2 1 5,25
V ( X ) = V ( x j ) = (1
f ) wst = 1
= 0,65625
n 2 4

Se observa que ahora la varianza es ligeramente superior al caso en que no se


consideraba estratificacin. Ello es debido a que la seleccin de la unidad por estrato para la
muestra no es aleatoria salvo en el primer estrato. Una medida de esa falta de aleatoriedad la
proporciona el coeficiente de correlacin st, cuyo valor se calcula como:

( )( )
k n
2 Xij
Xi X zj
X z
2
st = j i<z
2
= ((1
2)(5
3,5) + (1
2)(4
5) + ...+ (6
5)(7
4,5)) =
0,047
n(n
1)(k
1)S wst 4.3.1.5,25

El valor de st es negativo y muy pequeo, lo que indica que la falta de aleatoriedad
en la seleccin de una unidad por estrato no es muy elevada. Para calcular el valor correcto
de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la
siguiente expresin en funcin de st:

2
S 5,25
V ( X st ) = V ( x jst ) = (1
f ) wst (1+ (n
1)st ) = (1
0,5) (1
(4
1)0,047) = 0,56
n 4
Se observa que ahora ya coincide la varianza con la calculada sin estratificar.

Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando


las 4 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un
estrato del que seleccionamos dos unidades para la muestra. Tendremos:
Muestreo sistemtico 215

1 3
Estrato 1
5 2
4 6
Estrato 2
2 7

n
1
f 1
0,5
[ ]
2
V ( x1 ) = 2 (x
xh2 ) =
2
h1 (1
5) 2 + (4
2) 2 = 0,625
n h 42
n
1
f 1
0,5
[ ]
2
V ( x 2 ) = 2 (x
xh2 ) =
2
h1 (3
2) 2 + (6
7) 2 = 0,0625
n h 42

Por esta va la menor varianza la presenta la segunda muestra.


La tabla del anlisis de la varianza en el caso de estratificacin es esencial en estos
problemas, ya que proporciona prcticamente toda la informacin para realizar clculos.

5.3. Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los
hogares con ingresos mensuales superiores a 1500 euros son los que tienen los nmeros 3,
5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34.
1) Se trata de estimar la proporcin de hogares con sueldo mensual superior a 1500 euros
utilizando muestreo sistemtico. Comparar la precisin de una muestra sistemtica 1 en 4
con una muestra aleatoria simple del mismo tamao para estimar la proporcin de hogares
con sueldo mensual superior a 1500 euros. Justificar la respuesta en funcin del valor del
coeficiente de correlacin intramuestral y en funcin de la cuasivarianza intramuestral.
2) Hallar el tamao de muestra necesario para estimar la proporcin de viviendas en las que los
ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centsimas.
Hallar ese mismo tamao para muestreo aleatorio simple y comentar el resultado.

Si definimos una variable dicotmica A a la que asignamos el valor 1 para los hogares en
que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y
clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemtico 1 en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:

0 0 1 0 1/ 4
1 1 1 0 3/ 4
0 0 1 1 1/ 2
1 0 1 1 3/ 4
0 0 0 1 1/ 4
1 1 0 0 1/ 2
1 1 0 1 3/ 4
0 1 1 1 3/ 4
1 1 0 0 1/ 2
5/9 5/9 5/9 5/9 5/9

Para calcular la varianza del estimador sistemtico de la proporcin hacemos:


216 Muestreo estadstico. Conceptos y problemas resueltos

1 5 5 5 5 5 5 5 5
2 2 2 2

V ( P ) =
+
+
+
= 0
4 9 9 9 9 9 9 9 9

Tambin podemos calcular la varianza del estimador de la proporcin como:


1 k 20 20 1 5 4 5 4 5 4 5 4
V ( P ) = PQ
P j Q j = 1

+ + + =0
k j =1 36 36 4 9 9 9 9 9 9 9 9

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin


(produccin total) utilizando Excel. Como estamos clasificando los datos en 4 grupos
(columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por
grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de
Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del
men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-8. La
Figura 5-9 presenta los resultados.

Figura 5-9

Figura 5-10
Muestreo sistemtico 217

Por lo tanto, la tabla del anlisis de la varianza para la poblacin es la siguiente:

Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios

(x )
n k
2
Entre k
1 = 4
1 = 3 j
X =0 S bs2 = 0 / 3 = 0
i j

(X
n k

x j ) = 8,88
2
Dentro N
k = 36
4 = 32 ij S ws2 = 8,88 / 32 = 0,277
i j

(X ) = 8,88
n k
Total N
1 = 36
1 = 35 ij
X j S 2 = 8,88 / 35 = 0,254
i j

Conocida esta tabla pueden realizarse ya todos los clculos. Por ejemplo, la varianza
del estimador de la proporcin tambin podra calcularse como:

( )
2
nS S2 1 0
V ( P ) = V P j = 1
bs = (1
f ) bs = (1
) = 0
N n n 4 9

Del valor de la varianza puede deducirse el valor del coeficiente de correlacin


2
intramuestral a travs de la frmula V ( x j ) = (1 + (n
1)   ) . Tendremos:
n
35
0 , 254
1 1
0 = 36 (1 + ( 9
1)   )   =
=
=
0 ,125
9 8 n
1

Estamos ante el caso de mxima precisin del muestreo sistemtico, ya que la varianza
1
es nula, o lo que es lo mismo,   =
.
n
1

Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 <
S2ws = 0,277, lo que indica que es ms preciso el muestreo sistemtico que el aleatorio simple.
La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1
1/4)*0,254/9
= 0,021.

Para resolver el segundo apartado del problema consideramos ahora cada una de las
9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la poblacin en 9
estratos de 4 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por
estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin
de los elementos de la poblacin en 9 filas de 4 unidades cada una origina una tabla del
anlisis de la varianza que se puede calcular con Excel.

Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a
G13, que recogen los valores de las nueve filas. A continuacin elegimos Anlisis de la varianza de
un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada
como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.
218 Muestreo estadstico. Conceptos y problemas resueltos

Figura 5-11

Figura 5-12

El cuadro del anlisis de la varianza por estrato es entonces el siguiente:

Grados de Cuadrados
Fuente de variacin Sumas de cuadrados
libertad medios

(X )
n k
2 2
Entre estratos n
1 = 9
1 = 8 i
X = 1,388 S bst = 1,388 / 8 = 0,1735
i j

(X )
n k
2
Dentro de estratos N
n = 36
9 = 27 ij
Xi = 7,5 2
S wst = 7,5 / 27 = 0,277
i j

(X )
n k
Total N
1 = 36
1 = 35 ij
X j = 8,888 S 2 = 8,888 / 35 = 0,254
i j

Calculamos ahora el valor del coeficiente de correlacin st como sigue:

( )( )
k n
2 Xij
Xi X zj
X z
j i<z 2 1 3 1 1 3 1
st = 2
= (0
)(1
) + (0
)(0
) + ... + (1
)(0
) =
0,125
n(n
1)(k
1)S wst 9.8.3.0,277 4 4 4 2 4 2

Para calcular el tamao de muestra necesario para cometer un error de muestreo


igual a 0,16 despejamos n en la expresin que define la varianza de la proporcin en funcin
de st. Tenemos:
Muestreo sistemtico 219

S2 n 0,277
V (Pst ) = (1
f ) wst (1 + (n
1)st ) 0,162 = (1
) (1 + (n
1)(
0,125) n = 5
n 36 n
Para calcular el tamao de muestra anterior en muestreo aleatorio simple despejamos
n en la expresin que define la varianza de la proporcin en ese tipo de muestreo. Tenemos:
S2 n 0,254
V (Pst ) = (1
f ) 0,162 = (1
) n =8
n 36 n
Obviamente el tamao de muestra necesario para cometer el mismo error de muestreo es
mayor en muestreo aleatorio simple que en muestreo sistemtico, ya que en este problema el
muestreo sistemtico es ms preciso que el muestreo aleatorio simple.

5.4. Un investigador desea determinar la calidad del azcar contenida en la sabia de los rboles
de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras.
El nmero total de rboles es desconocido, por lo que no puede realizarse una muestra
irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra
sistemtica de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azcar en
la sabia de los rboles muestreados:

rbol Contenido de azcar


X2
muestreado en la savia X
1 82 6724
2 76 5776
3 83 6889
M M M
210 84 7056
211 80 6400
212 79 6241
212 212

X
i =1
i = 17066 X
i =1
i
2
= 1486800

Estimar el contenido de azcar promedio en la sabia de los rboles de la finca estableciendo


los errores absoluto y relativo de la estimacin. Realizar la estimacin mediante un intervalo
de confianza al nivel del 5%.

La estimacin de la media vendr dada por:


212


X
i =1
i

X = xj = = 80,5
212

Para calcular el error absoluto de muestreo consideramos la estimacin de la


varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente
podemos suponer que la poblacin de rboles en la finca es aleatoria en cuanto al contenido
de azcar en la sabia debido a que suponemos una distribucin natural de los mismos en la
finca. Previamente necesitamos estimar la cuasivarianza mediante:
220 Muestreo estadstico. Conceptos y problemas resueltos

2
212
212
i
2

X
X i
i =1


212
S 2 = x j =
i =1
= 535,48
212
1

Adems, al ser la muestra sistemtica 1 en 7 y n = 212 entonces N = nk = 212.7 =1484


rboles. La estimacin de la varianza del estimador de la media ser:

1 535,48
V ( X ) = V ( x j ) = 1
= 2,16 ( X ) = 1,47
7 212

El error relativo de muestreo ser:

V ( x j ) 1,47 1,47
C v( X ) = = = = 0,0182 (1,82%)
E(x j ) 80,5
X

El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza para la media suponiendo normalidad en la poblacin ser:

X ( X ) = 80,5 1,96 1.47 = [77,6 83,4]

En caso de no poder suponer normalidad se toma el intervalo ms tosco dado por:


( X ) 1.47
X = 80,5 = [74, 87]
0,05

El intervalo para no normalidad es ms ancho (peor) que en el caso de normalidad,


pero no demasiado.
5.5. Un hortelano tiene un huerto experimental con N = 1300 manzanos de una nueva variedad
en estudio. El investigador desea estimar la produccin total (en quintales) de la huerta, con
base en los manzanos de una muestra sistemtica de 1 en 10. La media y la varianza
muestrales para los rboles muestreados fueron x j = 3,52 quintales y S 2 = 0,48 quintales.
Utilizar estos datos para estimar la produccin total, y establecer un lmite para el error de
estimacin.
La estimacin de la produccin total estar dada por:

X = Nx j = 1300(3,52) = 4576 quintales

Para calcular el error absoluto de muestreo consideramos la estimacin de la


varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente
podemos suponer que la poblacin de manzanos en el huerto es aleatoria debido a que
suponemos una distribucin natural de los mismos en el huerto.

Adems, al ser la muestra sistemtica 1 en 10 y N = 1300 entonces N = nk 1300 = n.10


n = 130 manzanos rboles. La estimacin de la varianza del estimador de la media ser:
Muestreo sistemtico 221

130 0,48
V ( X ) = N 2V ( x j ) = 1300 2 1
= 5625 ( X ) = 75
1300 130

El error relativo de muestreo ser:

V ( X ) 75 1,47
C v( X ) = = = = 0,016 (1,6%)
X 4576 80,5
El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza al 95% para la produccin total suponiendo normalidad en la
poblacin ser:

X ( X ) = 4576 2 75 = [4426 4726]

El lmite para el error de estimacin est dado por:

2 ( X ) = 150

5.6. Una muestra sistemtica de 1 en 10 es obtenida de una lista de votantes registrados para
estimar la proporcin de votantes que estn a favor de la emisin de bonos propuesta. Se
utilizan diferentes puntos de inicio aleatorio para asegurar que los resultados de la muestra
no se ven afectados por variacin peridica en la poblacin. Los resultados codificados de
esta encuesta de eleccin previa se muestran en la tabla adjunta. Estimar p, la proporcin de
los 5775 votantes registrados que estn a favor de la emisin de bonos propuesta (N = 5775).
Establecer un lmite para el error de estimacin.

Votante Respuesta
4 1
10 0
16 1
. .
. .
. .
5760 0
5766 0
5772 1
962

y
i =1
i = 652

Al ser la muestra sistemtica 1 en 6 y N = 5775 entonces N = nk 5775 = n*6 E(n) =


962 donde E(n) significa parte entera de n. Por tanto, el tamao muestral es 962.

Como n es grande y se han tomado varios puntos de inicio aleatorio en la extraccin


de la muestra sistemtica, podemos estimar la proporcin proporcional mediante la
proporcin muestral, y el error se estimar utilizando la frmula del muestreo aleatorio
simple. Tenemos:
222 Muestreo estadstico. Conceptos y problemas resueltos

212

X i
652
P = P j = i =1
= = 0,678
962 962

n P j (1
P j ) 962 0,678(1
0,678)
V ( P ) = V ( P j ) = 1
= 1
= 0,000196 ( X ) = 0,014
N n
1 5775 962
1

El error relativo de muestreo cuando se asegura que el 67,8% de los votantes


registrados favorece la emisin de bonos propuesta, ser:

V ( P ) 0,014 1,47
C v( P ) = = = = 0,0206 (2,06%)
P 0,678 80,5
Por otra parte, un intervalo de confianza para la proporcin, suponiendo normalidad
en la poblacin ser:

P ( P ) = 0,678 2 0,014

El lmite para el error de estimacin ser el radio del intervalo de confianza, o sea,
0,028 (2,8%).

5.7. Un parque estatal cobra la admisin por automvil en lugar de por persona, y un funcionario
del parque quiere estimar el nmero promedio de personas por automvil para un da
concreto en particular durante el verano. El funcionario sabe por experiencia que entrarn al
parque alrededor de 400 automviles y quiere muestrear 80 de ellos. Para obtener una
estimacin de la varianza, utiliza el muestreo sistemtico replicado con 10 muestras de 8
automviles cada una. En la tabla siguiente se presentan los datos del nmero de personas
por automvil (entre parntesis):

Punto de inicio Segundo Tercer Cuarto Quinto Sexto Sptimo Octavo yi


aleatorio elemento elemento elemento elemento elemento elemento elemento
2 (3) 52 (4) 102 (5) 152 (3) 202 (69 252 (1) 302 (4) 352 (4) 3,75
5 (5) 55 (3) 105 (4) 155 (2) 205 (4) 255 (2) 305 (3) 355 (4) 3,38
7 (2) 57 (4) 107 (6) 157 (2) 207 (3) 257 (2) 307 (1) 357 (3) 2,88
13 (6) 63 (4) 113 (6) 163 (7) 213 (2) 263 (3) 313 (2) 363 (7) 4,62
26 (4) 76 (5) 126 (7) 176 (4) 226 (2) 276 (6) 326 (2) 376 (6) 4,5
31 (7) 81 (6) 131 (4) 181 (4) 231 (3) 281 (6) 331 (7) 381 (5) 5,25
35 (3) 85 (3) 135 (2) 185 (3) 235 (6) 285 (5) 335 (6) 385 (8) 4,5
40 (2) 90 (6) 140 (2) 190 (5) 240 (5) 290 (4) 340 (4) 390 (5) 4,12
45 (2) 95 (6) 145 (3) 195 (6) 245 (4) 295 (4) 345 (5) 395 (4) 4,25
46(6) 96 (5) 146 (4) 196 (6) 246 (3) 296 (3) 346 (5) 396 (3) 4,38

Estimar el nmero promedio de personas por automvil y establezcer un lmite para el error
de estimacin.

Como tenemos varios arranques aleatorios, utilizaremos el mtodo de las muestras


interpenetrantes.
Muestreo sistemtico 223

Podemos formar un estimador combinado de la media poblacional basado en las


medias de las t muestras (cada media muestral es un estimador insesgado de la misma media
poblacional) promediando las medias de las 10 muestras sistemticas (filas de la tabla del
enunciado) de la siguiente forma:

1 t 1
xc =
t 1
x t = (3,75 + 3,38 + L + 4,38) = 4,16
10
El estimador insesgado de su varianza mediante la aplicacin del mtodo de las
muestras interpenetrantes es:
1 t 2 1 t 2 t 2 1 t 2
V (xc ) = (1
n / N ) i c
t(t
1) i
x
tx 2
= (1
n / N ) i i c
t(t
1) i
x
x = (1
n / N ) (xi
xc2 )
t(t
1) i

1
V (xc ) = (1
80 / 400) 177410
10* 4,162 = 0,0365
10(9
1)

El lmite para el error de estimacin al 95% es 2 V (x c ) = 2 0,0365 = 0,38 .

5.8. Una empresa publicitaria est iniciando una campaa de promocin para un nuevo producto.
La empresa quiere muestrear clientes potenciales en una pequea comunidad para
determinar la aceptacin del producto. Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra sistemtica de entre N
= 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por telfono. Determinar el tamao de muestra requerido para estimar la
proporcin de personas que consideran <<aceptable>> el producto, con un lmite para el
error de estimacin de magnitud 0,03 (esto es, 3%).

Como el lmite para el error de la estimacin es 0,003, tenemos:

() ()
2 V P = 0,03 V P = 0,000225

Entonces, el tamao de muestra requerido es:

NP Q 5000(0,5)(0.5)
n= = = 909,240  910
( N
1)V ( P ) + P Q 4999(0,000225) + (0,5)(0,5)

La empresa debe entrevistar a 910 personas para determinar la aceptacin del


producto, con un lmite para el error de estimacin del 3%.

Se ha supuesto que es correcta la aproximacin del error del muestreo sistemtico


por el error del muestreo aleatorio simple (poblacin grande de carcter tpicamente
aleatorio) y se ha tomado P = Q = 1 / 2 por desconocimiento de sus valores.
224 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS

5.1. Dada la poblacin siguiente:

ui u1 u2 u3 u4 u5 u6 u7 u8 u9
Xi 1 3 5 2 4 6 2 7 3

se desea obtener una muestra sistemtica de tamao 3 (1 en 3). Determinar el espacio


muestral y las probabilidades asociadas a las muestras posibles para este tipo de muestreo.
Calcular las varianzas de los estimadores insesgados del total y de la media. Estimar dichas
varianzas y comparar la precisin de este tipo de muestreo con la del muestreo aleatorio
simple. Seleccionar la muestra ms precisa.

5.2. En un directorio de 13 casas de una calle las personas estn distribuidas hogar a hogar como
sigue:
                     
1 2 3 4 5 6 7 8 9 10 11 12 13
                     
M M M M M M M M M M M M M
F F F F F F F F F F F F F
f f m m f f m m m f f
m m f m m f f f m
f f f m
                     
M=varn adulto, F=mujer adulta, m=hijo varn, f=hija

Se realiza muestreo sistemtico de una de cada 5 personas (muestreo 1 en 5), numerando los
elementos de la poblacin por columnas hacia abajo y luego yendo a la parte superior de la
siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente:
1) Calcular el valor del coeficiente de correlacin st y hallar la varianza del estimador de la
proporcin de varones adultos en la poblacin utilizando la relacin entre muestreo sistemtico
y muestreo estratificado.
2) Qu muestra sistemtica es la mejor? Cul es la proporcin estimada de varones
adultos en la poblacin?

5.3. La administracin de una empresa de servicio pblico est interesada en la cantidad


promedio de tiempo que llevan vencidas las cuentas atrasadas. Una muestra sistemtica ser
extrada de una lista en orden alfabtico con N = 2500 cuentas de clientes que estn
vencidas. En una encuesta similar realizada el ao anterior, la varianza muestral fue s2 = 100
das. Determinar el tamao de muestra requerido para estimar , la cantidad promedio de
tiempo que tienen de estar vencidas las cuentas de la empresa de servicio pblico, con un
lmite para el error de estimacin de 2 das.
CAPTULO

MUESTREO POR MTODOS INDIRECTOS.


RAZN, REGRESIN Y DIFERENCIA

OBJETIVOS
1. Presentar el concepto de estimacin no lineal.
2. Presentar el concepto de estimacin por mtodos indirectos.
3. Analizar el estimador de razn, su sesgo y su varianza.
4. Estimar el sesgo y la varianza del estimador por razn.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Comprender la formacin de estimadores de magnitudes poblacionales
basados en la razn.
7. Estudiar los errores y su estimacin para estimadores indirectos basados en
la razn.
8. Analizar el estimador de razn, su sesgo y su varianza.
9. Obtener la varianza mnima para el estimador de regresin y su estimacin.
10. Comparar la estimacin indirecta por regresin con otros tipos de muestreo.
11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones.
12. Comprender los mtodos indirectos en muestreo estratificado.
13. Analizar la estimacin por razn en muestreo estratificado.
14. Analizar la estimacin por regresin en muestreo estratificado.
15. Diferenciar entre estimadores separados y estimadores combinados.
16. Comparar las precisiones de los mtodos de estimacin indirecta con
estratificacin.
226 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Estimadores no lineales.
2. Muestreo por mtodos indirectos. El estimador de razn.
3. Estimaciones de los parmetros poblacionales basadas en la razn y errores.
4. Estimaciones por regresin y errores.
5. Estimaciones por diferencia y errores.
6. Estimadores de razn en el muestreo estratificado.
7. Estimadores de regresin en el muestreo estratificado.
8. Problemas resueltos.
9. Ejercicios propuestos.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 227

ESTIMADORES NO LINEALES

Al estimar un parmetro poblacional la dificultad principal suele estar en el clculo del error
de muestreo (raz cuadrada de la varianza del estimador). Por esta razn, son muchos los
procedimientos analizados para la estimacin de varianzas. Segn Wotter (1985), podemos
clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parmetro a
estimar (parmetros lineales o no lineales) y al diseo muestral utilizado (diseos simples o
complejos). Se pueden estimar parmetros lineales en diseos simples, parmetros no
lineales en diseos simples, parmetros lineales en diseos complejos o parmetros no
lineales en diseos complejos. Aunque la mayor parte de la teora bsica de muestreo se basa
en el clculo de estimadores de parmetros lineales en diseos simples, tambin se han
desarrollado procedimientos para aproximacin lineal de estimadores que estn basados en
un desarrollo en serie de Taylor para obtener una aproximacin lineal del estimador y as
poder aplicar posteriormente toda la teora desarrollada para estimadores lineales.

Otras tcnicas, como los mtodos de replicacin de muestras, se basan en la


generacin de diversas muestras, todas bajo el mismo diseo muestral, con el fin de obtener
informacin acerca de la distribucin del estimador.

Adems existen otras tcnicas, como los mtodos de exploracin intensiva de una
muestra, que consisten en la generacin de muestras a partir de la muestra inicial, obtenida
mediante un determinado diseo, usando tcnicas muy variadas.

Estimadores no lineales. Mtodo general de linealizacin para la estimacin de varianzas

Supongamos un parmetro poblacional  del cual hemos obtenido un estimador no lineal


 = f ( x1 ,..., x n ) basado en la muestra ( x1 ,..., x n ) . Se trata de expresar dicho estimador como
funcin de una serie de estimadores 1 ,...,k , es decir,  = f ( x1 ,..., x n ) =  1 ,...,k , de ( )
modo que si se calculan las varianzas de los nuevos estimadores habremos conseguido resolver
nuestro problema.

Supongamos que 1 ,...,k son estimadores insesgados de  1 ,..., k respectivamente


y que los valores tericos cumplen  =  ( 1 ,..., k ) . El desarrollo de Taylor de  1 ,...,k ( )
en un entorno del punto ( 1 ,..., k ) es el siguiente:

( ) (
 1 ,...,k =  ( 1 ,..., k ) + d 1 ,...,k )( 1 ,..., k )
+ Tn

donde Tn es el trmino complementario o resto, el cual puede ser despreciado o no


dependiendo de las condiciones del entorno. Para un entorno suficientemente pequeo
supongamos que Tn s es despreciable, resultando:

(

  d 1 ,...,k )( =
k
(
 1 ,...,k ) (
r )
1 ,..., k )
r =1 r r
(1 ,..., k )
228 Muestreo estadstico. Conceptos y problemas resueltos

Elevando ambos trminos de esta igualdad al cuadrado y tomando esperanzas


obtenemos una expresin aproximada para la varianza de  , es decir,

( )
2
k   ,...,
() (
V  = E 
 )2
 E

r =1
1

 r
k

(  r )


r

(1 ,..., k )

= E
(
k k   ,...,
1 k )  (
) (

   1 ,..., k
) l
 l (

)
r =1 l =1 r
r r
(1 ,..., k )   (1 ,..., k )
l

k
=
k
(
 1 ,...,k )
(
 1 ,...,k

) Cov r ,l ( )
r =1 l =1
r 
(1 ,..., k ) l (1 ,..., k )

Aplicacin al cociente de estimadores


Sea R = un parmetro poblacional y R = un estimador del mismo.
! !
Observamos que R =  ( , ! ) y R =  ( , ! ) , por lo que estamos en condiciones
de aplicar el mtodo general de linealizacin de varianzas previamente explicado. Haciendo
un desarrollo en serie de Taylor de la funcin  ( , ! ) en el punto ( , ! ) resulta:

 , !
R
R 
( ) (
) +  ( , ! )

(!
! )

 ( , ! ) ! ( , ! )

y elevando al cuadrado y tomando esperanzas tenemos:

( ) ( ) (!
! )
2
 , !  , !
() (
V R = E R
R )2
 E
 (
)+
!
( , ! ) ( , ! )
2 2
R R R
=


V ( )+
! V ! ()
+ 2 R


! Cov , ! ( )
( , ! ) ( , ! ) ( , ! ) ( , ! )
2

!
1 1
()
= 2 V ( ) +
2 V ! + 2
2 Cov , !
! !
( )
!
1
[ ()
= 2 V ( ) + R 2V !
2 RCov , !
!
( )]
Otra expresin alternativa para la varianza de R =  ( , ! ) es:

() V ( ) V !
V R  R 2 2 + 2
2
Cov , !

() ( )
! !
Muestreo por mtodos indirectos. Razn, regresin y diferencia 229

MUESTREO POR MTODOS INDIRECTOS. EL ESTIMADOR DE RAZN

Los mtodos indirectos utilizan la informacin conocida relativa a una variable auxiliar Y
(variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones
ms precisas para X que las calculadas nicamente a partir de la muestra de la variable que
se estudia.
Entre los mtodos clsicos de estimacin indirecta ms utilizados se encuentran el
mtodo de estimacin por razn (basado en la razn entre X e Y), el mtodo de estimacin
por regresin (basado en la regresin entre X e Y) y el mtodo de estimacin por diferencia
(basado en la diferencia entre X e Y). Estos tres mtodos sern desarrollados a lo largo de
este captulo.

La estimacin indirecta constituye el complemento de la estimacin directa. No se


trata por s solo de un mtodo eficiente de estimacin, pero junto con la estimacin directa
desarrolla casi totalmente la informacin muestral. Los mtodos de estimacin indirecta
aprovechan la informacin de variables auxiliares correlacionadas con la variable objeto de
estudio con el fin de conseguir una ganancia en precisin de los estimadores.
N
Sea X la variable objetivo y supongamos que se conoce Y = Y
i =1
i , donde

( X i , Yi ) se corresponden con los pares de valores de las variables X e Y respectivamente,


observados en la unidad i-sima de la poblacin o de la muestra. Nuestro objetivo es obtener
un estimador para X que sea ms preciso que el estimador directo basado nicamente en la
muestra. La expresin general de los estimadores indirectos es la siguiente:

( ) ( ) (
f X G = f X + b0 f (Y )
f Y ( ))
siendo f una funcin, X G el estimador indirecto de X , X e Y los estimadores directos
de X e Y , respectivamente, y b0 un coeficiente de correccin que, dependiendo de su
valor, nos dar los diferentes tipos de estimadores indirectos. Como caso particular
(
supongamos f ( x) = x . Entonces X G = X + b0 Y
Y . )
Los casos ms frecuentes de estimadores indirectos son los siguientes:
1. Si b0 = 0 , se tiene X G = X , es decir, el estimador obtenido es el directo.

( )
2. Si b0 = 1 , entonces X G = X + Y
Y , denominado estimador de la diferencia o
diferencial.
X
3. Si b0 = = R , se obtiene el estimador de razn.
Y
X X
X G = X +
Y
[ ]
Y
Y = Y = R Y = X R
Y
4. Si b0 = b , se obtiene el estimador de regresin.

( )
X G = X + b Y
Y = X rg
230 Muestreo estadstico. Conceptos y problemas resueltos

Supongamos una poblacin formada por N unidades, {U 1 , ..., U N } , y nos fijamos


en dos caractersticas ( X , Y ) para cada unidad, siendo X la variable objeto de estudio e Y
X
una variable auxiliar correlacionada con X . Llamaremos razn a R = y su estimador
Y
viene dado por la expresin:
n

x i
X x
R = i =1
= =
Y
n
y
y
i =1
i

A partir de la razn podemos tambin estimar totales y medias mediante:

X R = R Y
X R = R Y

Estos estimadores no son insesgados pero tienen varianza muy pequea y otras
propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder
calcularlos.

R es consistente, pero en general es sesgado. Para muestras grandes, R  N ( R, V ( R ))


y el sesgo es despreciable. No se conoce la expresin exacta de la varianza de R , aunque bajo
ciertas condiciones se puede obtener una expresin aproximada de la misma. Podemos
expresar el sesgo en funcin del coeficiente de correlacin entre R e y del siguiente modo:

Cov( R , y )  R y
B ( R ) =
=

Y Y
B ( R )
es una medida del sesgo por unidad de desviacin tpica, es decir, una medida
R
B ( R )
relativa del sesgo respecto del error de muestreo. Adems, si es del orden del 10%,
R
entonces el sesgo puede ser considerado despreciable en relacin al error estndar.

Se cumple que B( R$ )=0 R$ e y son variables incorreladas en el muestreo, con lo


que ya tenemos la primera de las condiciones para la insesgadez del estimador de la razn.
Adems se cumple que:

B( R$ )
B( R$ ) =
( R$ , y ) R$ Cv ( y ) = ( R$ , y ) Cv ( y )  Cv ( y )
R$
con lo que el sesgo relativo (mdulo del cociente entre el sesgo del estimador de la razn y
su desviacin tpica) est acotado por el coeficiente de variacin de y .
Muestreo por mtodos indirectos. Razn, regresin y diferencia 231

Entonces, para que el sesgo del estimador de la razn sea despreciable bastar con
que el coeficiente de variacin de la media muestral de la variable auxiliar sea menor que
1/10, ya que en este caso:

B( R$ ) 1
 Cv ( y ) <
R$ 10

Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Adems,
para intentar eliminar la influencia del sesgo se tomarn tamaos de muestra tales que el
sesgo sea despreciable, es decir, tamaos de muestra tales que Cv( y ) < 1/10. Para hallar este
tamao de muestra en el muestreo sin reposicin operamos como se indica a continuacin:

n S2 SY2
1
Y 100 N
( y) V ( y) N n 1 100 NSY2 y2
Cv ( y ) = = = < n> =
E( y) Y Y 10 Ny 2 + 100SY2 SY2
N + 100 2
y
Para hallar el tamao de muestra para el que el sesgo es despreciable en el muestreo
con reposicin operamos como se indica a continuacin:

Y2
( y) V ( y) n 1 100 Y2 Y2
Cv ( y ) = = = < n> = 100 2
E( y) Y Y 10 Y2 Y
La segunda condicin de insesgadez del estimador de la razn es que si la recta de
regresin de la variable auxiliar Y sobre la variable en estudio X (o la de X sobre Y) pasa
por el origen de coordenadas entonces el estimador de la razn R$ es insesgado para R.

Clculo aproximado del sesgo del estimador de razn y su estimacin

El sesgo del estimador de razn puede aproximarse como sigue:

Muestreo sin reposicin

(1
f )
B( R ) = (RS Y2
S XY )
nY 2

Muestreo con reposicin

1
B( R ) = 2
(R Y2
XY )
nY

Estimacin del sesgo del estimador de la razn

La expresin obtenida para el sesgo del estimador de la razn va a permitir se estimacin a


partir de los valores muestrales:
232 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin


Como en muestreo sin reposicin las cuasivarianzas poblacionales se estiman
insesgadamente por cuasivarianzas muestrales, tenemos:
(1
f ) $ $ 2 $
B$ ( R$ ) =
nY 2
( RSY
S XY )
Muestreo con reposicin
Como en muestreo con reposicin las varianzas poblacionales se estiman insesgadamente
por cuasivarianzas muestrales, tenemos:

B ( R ) =
nY 2
(
1 2
RS Y
S XY )
Varianza aproximada del estimador de la razn

Muestreo sin reposicin

() 1
f 1
f N
N N
V R = 2 (S x2 + R 2 S y2
2 RS xy ) = 2 X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(N
1) i i i
Muestreo con reposicin

() 1 1 N
N N
V R = 2 ( x2 + R 2 y2
2 R xy ) = 2 X i2 + R 2 Yi 2
2 R X i Yi
Y n Y nN i i i

Estimacin de la varianza del estimador de la razn


Muestreo sin reposicin
Utilizaremos que las cuasivarianzas muestrales estiman insesgadamente las cuasivarianzas
poblacionales ( S$ x2 estimador insesgado de S2x, S$Yx
2
estimador insesgado de S2y y S$ XY
estimador insesgado de Sxy). A su vez, utilizaremos el estimador reciente obtenido para la
razn R. Tenemos:

() 1
f
( ) 1
f n
n n
V R = 2 S x2 + R 2 S y2
2 R S xy = 2 X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i

Muestreo con reposicin


Utilizaremos el hecho de que las cuasivarianzas muestrales estiman insesgadamente las
varianzas poblacionales ( S$ x2 estimador insesgado de 2x, S$Yx
2
estimador insesgado de 2y y
S$ XY estimador insesgado de xy). A su vez utilizaremos el estimador reciente obtenido para
la razn R. Tenemos:

() 1
( ) 1 n
n n
V R = 2 S x2 + R 2 S y2
2 R S xy = 2 X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i
Muestreo por mtodos indirectos. Razn, regresin y diferencia 233

ESTIMACIONES DE LOS PARMETROS POBLACIONALES BASADAS EN


LA RAZN Y ERRORES

Podemos utilizar el estimador de la razn para realizar estimaciones de los parmetros


poblacionales tpicos como sigue:

x x x P A
X R = Y = Y = R Y , X R = x R = Y = R Y , PRX = X PY = R PY , A RX = X PY = R AY
y y y PY A Y

Las varianzas pueden calcularse como sigue:

Muestreo sin reposicin

V ( X R ) = V ( R Y ) = Y 2V ( R ) = N
2 1
f
(
S x2 + R 2 S y2
2RS xy
n
)

V ( X R ) = V ( R Y ) = Y 2V ( R ) =
1
f 2
n
(
S x + R 2 S y2
2 RS xy )
Muestreo con reposicin

N2
V(X R ) =V(RY) =Y 2V(R) = ( x2 + R2 y2
2R xy )
n


V(X R ) =V(RY ) = Y 2V(R) = ( x2 + R 2 y2
2R xy )
1
n

Las estimaciones de las varianzas pueden calcularse como sigue:

Muestreo sin reposicin

V ( X R ) = N
2

n
(
1
f 2 2 2
S x + R S y
2RS xy = N 2 )
1
f n
i
n ( n
1) i
X 2
+ 2
R
n

Y i
2

2
R
n



X i Yi
i i


V ( X R ) =
1
f 2 2 2
n
(
S x + R S y
2R S xy =
1
f n
i
n(n
1) i
X )
2
+ 2 Y 2
2 R X Y
R
n

i i
n

i i i

Muestreo con reposicin


2
N
( S$ ) N2
n n n
V$ ( X$ R ) = 2
x + R$ 2 S$ y2
2 RS
$$ =
xy X i2 + R 2 Y i 2
2 R X Y i i
n n ( n
1) i i i

1
(
V$ ( X$ R ) = S$ x2 + R$ 2 S$ y2
2 RS )
n n n
$$ = 1
n xy
n(n
1)
i
X i2 + R 2
i
Yi 2
2 R X Y
i
i i
234 Muestreo estadstico. Conceptos y problemas resueltos

ESTIMACIONES POR REGRESIN Y ERRORES

Supongamos ( xi , y i ) i = 1,..., N pares de valores situados sobre una recta que no pasa por el
origen, es decir, xi = a + by i con a  0 . Entonces, para los valores muestrales y poblacionales se
(
cumple, respectivamente x = a + by y X = a + bY por lo que x
X = b y
Y , o lo que es lo )
( )
mismo, X = x
b y
Y . Se tiene:

- Si y = Y , entonces X = x y V ( x ) = 0

- ( )
Si y  Y , entonces X  x , siendo b y
Y el ajuste.

Este razonamiento sugiere intentar una ganancia en precisin cuando la relacin


entre xi e y i sea lineal sin pasar por el origen, utilizando el estimador lineal de regresin
para la media:
X rg = x + b(Y
y )

Como casos particulares del estimador de regresin se tienen:

1. Si b = 0 , el estimador de regresin coincide con el estimador directo o de


(
expansin X rg = x )
2.
x
(
Si b = R = , se obtiene el estimador de razn X rg = R Y = X R
y
)
3. Si b = 1 se obtiene el estimador de la diferencia (X rg = x + (Y
y ) )
Tenemos:

bo = 0 x rg = x (estimador simple)

x rg = x + bo ( Y
y ) b = x x = x + x (Y
y ) = x + x Y
x y = x Y = X (razn )
o rg R
y y y y y
b = 1x = ( x
y ) + Y (estimador por diferencia )
o rg

Anlogamente, se puede definir el estimador de regresin para el total poblacional


como
(
X rg = X + b Y
Y )
siendo X , Y los estimadores directos de X , Y respectivamente.

Podemos resumir las estimaciones por regresin como sigue:

( )
x rg = x + bo (Y
y ) , X rg = Nx rg , Prg = PX + bo PY
PY y A rg = NPrg
Muestreo por mtodos indirectos. Razn, regresin y diferencia 235

Sesgo del estimador de regresin

El estimador de regresin es en general sesgado salvo que los puntos (Xi , Yi ) con i = 1,2, .... ,N,
donde Yi representa la variable auxiliar correlacionada con la variable en estudio Xi, estuviesen
situados sobre una lnea recta que no pasa por el origen de ecuacin Xi = a + b Yi .

Otro caso de insesgadez del estimador de regresin es cuando b = bo = constante.

Varianzas y estimacin de varianzas

Las varianzas y sus estimaciones toman los siguientes valores:

Muestreo sin reposicin

V (xrg ) =
1
f 2
n
(
(S x + bo2 S y2
2bo S xy ) , V (x rg ) = 1
f S x2 + bo2 S y2
2bo S xy
n
)
( ) ( ) ( )
2

V X rg = (Sx + bo S y
2bo Sxy ) , V X rg = N (1
f ) S x2 + bo2 S y2
2bo S xy
N 2 (1
f ) 2 2 2
n n
1
f 2
Vmin (x rg ) =
n
( )
S x (1
 2 ) , Vmin X rg =
N 2 (1
f ) 2
n
S x (1
 2 )

Muestreo con reposicin

V (xrg ) =
1 2
n n
( )
( x + bo2 y2
2bo xy ), V (x rg ) = 1 S x2 + bo2 S y2
2bo S xy , Vmin (x rg ) = 1 S x2 (1
 2 )
n

( ) N2 2
( ) ( )
2
( x + bo2 y2
2bo xy ) , V X rg = N S x2 + bo2 S y2
2bo S xy , Vmin X rg = N Sx2 (1
 2 )
( )
2
V X rg =
n n n

Hasta aqu hemos considerado el caso en que b0 es constante. Sin embargo, cuando
se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0
mediante la expresin:
n

S (X i
x )(Yi
y )
b0 = ! = XY2 = i

SY
n

(Y
y)
2
i
i

Este resutado obtenido es aplicable para muestras grandes.

Comparacin con otros tipos de muestreo

Muestreo sin reposicin


Para comparar la precisin de la estimacin por regresin con la de otros tipos de muestreo
utilizamos el estimador de la media y las expresiones de su varianza en los distintos tipos de
muestreo. Tenemos:
236 Muestreo estadstico. Conceptos y problemas resueltos

( )
V X$ = V ( x ) =
1
f 2
n
Sx

( )
V X$ R =
1
f 2
n
(
S x + R 2 S y2
2 RS x S y  xy )
( ) ( )
Vmin X$ rg = Vmin xrg =
1
f 2
n
(
S x 1
 xy2 )
( )
Es evidente que Vmin x rg  V ( x ) , ya que 1
 xy2  1, correspondiendo el signo
igual al caso  xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la
variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo
aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en
precisin a la estimacin aleatoria simple.
Por otra parte:

( ) ( )
Vmin xrg < V ( x R )  V ( x R )
Vmin xrg  0 

1
f 2 1
f 2
( S x + R 2 S y2
2 RS x S y  xy )
S x (1
 2 xy )  0 
n n
1
f 1
f
( ) ( )
2
R 2 S y2
2 RS x S y  xy + S x2  xy2  0  RS y
 xy S x 0
n n
La desigualdad es siempre cierta, y se produce la iguladad si:
Sx
RS y
 xy S x = 0  R =  =!
Sy

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el


caso en que la recta de regresin pase por el origen (si R = !, la ordenada en el origen de la
recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin
X=!Y+ X - !Y , valdr X - !Y = X - RY = X - X = 0). En cualquier otro caso, la estimacin
por regresin es ms precisa que la estimacin por razn.

Muestreo con reposicin

Para el caso de muestreo con reposicin tenemos:

( ) 1
V X$ = V ( x ) = x2
n

( ) ( 1
V X$ R = x2 + R 2 y2
2 R x y  xy
n
)
( ) ( ) 1
(
Vmin X$ rg = Vmin xrg = x2 1
 xy2
n
)
Muestreo por mtodos indirectos. Razn, regresin y diferencia 237

( )
Es evidente que Vmin x rg  V ( x ) , ya que 1
 xy2  1, correspondiendo el signo
igual al caso  xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando
la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el
muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin
supera en precisin a la estimacin aleatoria simple.

Por otra parte:

( ) ( )
Vmin xrg < V ( x R )  Vmin ( x R )
V xrg  0 

1 2 1
( x + R 2 y2
2 R x y  xy )
x2 (1
 2 xy )  0 
n n

1 2 2 1
( ) ( )
2
R y
2 R x y  xy + x2  xy2  0  R y
 xy x 0
n n

La desigualdad es siempre cierta, y se produce la igualdad si:

x S
R y
 xy x = 0  R =  = x =!
y Sy

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el


caso en que la recta de regresin pase por el origen (si R = !, la ordenada en el origen de la
recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin X = !Y
+ X
!Y , valdr X
!Y = X
RY = X
X =0). En cualquier otro caso la estimacin por
regresin es ms precisa que la estimacin por razn.

ESTIMACIONES POR DIFERENCIA Y ERRORES

Dentro de los denominados mtodos indirectos de estimacin suele considerarse la


estimacin por diferencia, que se utiliza en caso de que la recta de regresin que ajusta los
puntos (Xi, Yi) tiene como pendiente la unidad. Por otra parte, ya vimos al estudiar la
estimacin por regresin que el mtodo de estimacin por diferencia era un caso particular
suyo (caso en que b = 1). Los estimadores de la media y el total basados en el estimador por
diferencia D = x
y pueden expresarse como sigue:

X = x
y + Y = D + Y X = N ( x
y ) + Y = D T + Y = ND + Y

Las varianzas y sus estimaciones para los estimadores de la media y el total basados
en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores
diferencia. Para muestreo sin reposicin tenemos:

1
f 2
V ( X ) = V ( D + Y ) = V ( D ) =
n
(
S x + S y2
2S xy ) ( Y es una constante)
238 Muestreo estadstico. Conceptos y problemas resueltos

V ( X ) = V ( D T + Y ) = V ( D T ) = N 2
1
f 2
n
( )
S x + S y2
2 S xy (Y es una constante)

()
V ( X ) = V D =
n
(
1
f 2 2
)
S x + S y
2 S xy , V ( X ) = V ( D T ) = N 2 (
1
f 2 2
n
S x + S y
2 S xy )
Para muestreo con reposicin tenemos:

1 1
(
V ( X ) = x2 + y2
2 xy
n
) (
V ( X ) = N 2 x2 + y2
2 xy
n
)
( ) ( 1
V ( X ) = V D = S x2 + S y2
2 S xy
n
) 1
(
V ( X ) = V ( D T ) = N 2 S x2 + S y2
2 S xy
n
)
ESTIMADORES DE RAZN EN EL MUESTREO ESTRATIFICADO

Existen dos formas de plantear un estimador de razn para el total X , en el caso de muestreo
estratificado. En la primera de ellas se obtiene un estimador de razn para cada el total de cada
estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razn.
La principal ventaja de este estimador es que permite que la razn de X a Y vare de un estrato a
otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Yh , en cada estrato por
separado. En la segunda de ellas se obtiene una nica razn con los totales de X e Y estimados
X st
mediante muestreo estratificado, es decir, , y se multiplica este cociente por el total de la
Y st
variable auxiliar Y , que se supone conocido. El estimador obtenido se denomina estimador
combinado de razn. Para construir este estimador no es preciso conocer el total de la variable
auxiliar en cada estrato; basta conocer el total de la poblacin. sta es una ventaja con respecto al
estimador separado de razn. Sin embargo, el estimador combinado supone, implcitamente, que la
razn permanece constante de un estrato a otro.
4.2.1 Estimador separado de razn
Estimador de razn simple o separado (para el total poblacional)
Se define el estimador separado de razn para el total poblacional X en un
muestreo estratificado como:
L L
x L
X RS = X Rh = R hYh = h Yh
h =1 h =1 h =1 y h

Se observa que es la suma de los estimadores de razn para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo R h h = 1, ..., L .

Sesgo del estimador de razn simple o separado y su estimacin

Muestreo sin reposicin


L L L L
X
B ( X RS ) = E ( X RS )
X = E ( R hYh )
X h = E ( R h )Yh
h Yh =
h h h h Yh
L L L L

E ( R h )Yh
RhYh = (1
E ( R h )
Rh )Yh = B ( R h )Yh
4243
h h h B ( R ) h
h
Muestreo por mtodos indirectos. Razn, regresin y diferencia 239

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh. Para muestreo sin reposicin la expresin del sesgo ser:

L L
(1
f h ) L
N h2 (1
f h )
B( X RS ) = Yh B ( R h ) = Yh 2
R S 2
h Yh
S (
XYh = )
Rh S Yh2
S XYh ( )
h h n h Yh h n hYh
{
Yh2 N h2

N h2 (1
f h ) 2
( )
L
que puede estimarse como: B ( X RS ) = n Y Rh SYh
S XYh
h h h

Muestreo con reposicin

Para muestreo con reposicin la expresin del sesgo ser:


L L
1 L
N h2
B ( X RS ) = Yh B ( R h ) = Yh 2
(R 2
h Yh
XYh ) = (Rh Yh2
XYh )
h h n Y
h { h n Y
h h h
Yh2 N h2

N2
( )
L
que puede estimarse como: B ( X RS ) = h R h SYh2
S XYh
h nh Yh

Varianza del estimador de razn simple o separado y su estimacin

Muestreo sin reposicin

El valor de la varianza de este estimador para muestreo sin reposicin ser:

L L L
1
f
V ( X RS ) = V ( R h Yh ) = Y h2 V ( R h ) = Y h2 2 h (S xh2 + Rh2 S yh2
2 Rh S xyh ) =
h h h  Yh n h
N h2Yh2
2
L
N (1
f h ) 2 L
N h2 (1
f h ) N N N

( )
h h h

n h
S xh + R 2 2
h S yh
2 R S
h xyh = n ( N
1) i hi h i hi
X 2
+ R 2
Y 2

2 R h X hi Yhi

h h h h h i

La estimacin de la varianza para muestreo sin reposicin ser:

N 2 (1
f h ) 2
( )
L
V ( X RS ) = h S xh + R h2 S yh2
2 R h S xyh =
h n h
2
L
N (1
f h ) n
h n h n

h

= h X hi2 + R h2 Yhi2
2 R h X hi Yhi
h n h (nh
1) i i i

Muestreo con reposicin

El valor de la varianza del estimador separado del total para muestreo con reposicin ser:
240 Muestreo estadstico. Conceptos y problemas resueltos

L L
1 L
V ( X RS ) = V ( R h Yh ) = Y h2 V ( R h ) = Y h2 2 ( xh2 + Rh2 yh2
2 Rh xyh ) =
h h h  Yh n h
N h2Yh2
2 2
N
L L
N N N N

n ( + Rh2 yh2
2 Rh xyh ) =
h h h
h 2
xh X hi2 + Rh2 Yhi2
2 Rh X hi Yhi
h

h h h n h ( N h
1) i i i
La estimacin de la varianza para muestreo con reposicin ser:
L
N h2 $ 2 L
N h2 nh 2 nh nh

V ( X RS ) =
$ $ $ (
S xh + Rh S yh
2 Rh S xyh =
2 $2 $ $ ) X hi + R$ h2 Yhi2
2 R$ h X hi Yhi
h nh h nh (nh
1) i i i

Estimador de razn simple o separado (para la media poblacional)


Se consideran estimaciones para la media basadas en la razn en cada estrato definidas como
x
X$ Rh = h Yh = R$ h Yh . Como en muestreo estratificado la estimacin del total se forma
yh
sumando las estimaciones de las medias en cada estrato ponderadas por los W h =Nh/N
L
$
( Xst = W X$ h h ), podemos definir el estimador simple o separado de la media como:
h =1
L L
X$ RS = Wh X$ Rh = Wh R$ h Yh
h h
Este estimador para la media puede expresarse como:
L L L
N Y 1 L X$
X$ RS = Wh X$ Rh = Wh R$ h Yh = h R$ h h = R$ h Yh = RS
h h h N Nh N h N
Luego todas las frmulas para el estimador de la media pueden obtenerse a partir de
las frmulas correspondientes ya vistas para el estimador del total.
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
L
1 N h2 (1
f h ) 2
V ( X$ RS ) = 2 V ( X$ RS ) = 2
N N n
S xh + R h2 S yh
2
(

2 R h S xyh = )
h 123 h

Wh2
Wh2 (1
f h ) N h 2
L Nh Nh

n ( N
1) hi h hi
X + R 2
Y 2

2 R h X hi Yhi

h h h i i i

La estimacin de la varianza para muestreo sin reposicin ser:


W 2 (1
f h ) 2
( )
L
V ( X RS ) = h S xh + R h2 S yh2
2 R h S xyh =
h nh
2
L
W (1
f h ) n h n h n h

= h X hi2 + R h2 Y hi2
2 R h X hi Y hi
h n h ( n h
1) i i i
Muestreo por mtodos indirectos. Razn, regresin y diferencia 241

El valor del sesgo del estimador simple o separado es el siguiente:

X X 1 1 L
Y
B ( X RS ) = E ( X RS )
X = E ( RS )
= ( E ( X RS )
X ) = B ( X RS ) = B ( R h ) h
N N N N h N

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh/N. Para muestreo sin reposicin la expresin del sesgo ser:

N 2 (1
f h )
1
(Rh S Yh2
S XYh ) = Wh (1
f h ) (Rh SYh2
S XYh )
L L
B( X RS ) = B( X RS ) = h
N h Nn h Yh h n h Yh

(
Wh (1
f h ) 2
)
L
que puede estimarse como: B ( X RS ) = Rh S Yh
S XYh
h nhYh

Muestreo con reposicin

El valor de la varianza del estimador separado de la media para muestreo con reposicin
ser:

1 L
N2 1 2
V ( X RS ) = 2 V ( X RS ) = h2
n
(
xh + Rh2 yh2
2 Rh xyh = )
N h 1N23 h
Wh2
Wh2
L
Nh 2 Nh Nh

n N X hi + Rh2 Yhi2
2 Rh X hi Yhi
h h h i i i

La estimacin de la varianza para muestreo con reposicin ser:

W2
( ) Wh2 n
L L n n
V ( X RS ) = h S xh2 + R h2 S yh2
2R h S xyh =
h h h

X hi2 + R h2 Yhi2
2R h X hi Yhi
h nh h nh (nh
1) i i i

Para muestreo con reposicin la expresin del sesgo ser:

1 L
N h2 L
W

B ( X RS ) = B ( X RS ) =
N
R h Yh
2
( )

XYh = h R h Yh
2

XYh ( )
h Nn h Yh h n h Yh

Wh
(R S )
L
que puede estimarse como: B ( X RS ) = n Y h
2
Yh
S XYh
h h h

El mtodo de estimacin estratificada por razn simple o separada presenta como


principal ventaja la obtencin de estimaciones separadas por estratos, lo que permite ofrecer
informacin de la poblacin al subnivel de estratos. El principal inconveniente de este mtodo es
la acumulacin de los sesgos de las estimaciones en los estratos para el clculo del sesgo total. En
la prctica suele utilizarse este mtodo cuando los estratos son de tamao elevado (habr
pocos estratos en la poblacin, lo que implica pocos sumandos en la acumulacin de sesgos).
Tambin suele utilizarse cuando los Rh tienden a ser muy distintos.
242 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de razn combinado (para el total poblacional)

xst X st $
Se considera inicialmente la razn de los estimadores estratificados R$C = = $ , y se
y st Yst

forma el estimador del total X RC = RC Y (ya que el estimador del total basado en la razn
es X$ = R$ Y ).

Muestreo sin reposicin

El valor de la varianza de este estimador para muestreo sin reposicin ser:


1
V ( X RC ) = V ( R C Y ) =Y 2 V ( R C ) = Y 2 2 ( V ( x st ) + R 2 V ( y st )
2RCov( x st , y st ))
{ Y 123 123 142
4 43 4
2 2 L 2 L 2 L
N Y S S S
W (1
f ) n h
2
W (1
f ) n
h
Xh
W (1
f ) n
h
2
h
Yh
h
2
h
XYh

h h h h h h

2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = N 2 W (1
f h ) X hi2 + R 2 Yhi2
2R X hiYhi
L L Nh N Nh h

N2 h h

h nh h nh ( N h
1) i i i

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del


estimador de la razn ya estudiada anteriormente.

La estimacin de la varianza para muestreo sin reposicin ser:

L
Wh2 (1
fh ) $2 $ 2 $2 L
Wh2 (1
fh ) nh 2 2 nh 2 nh

V( XRC ) = N
$ $ 2
nh
(
Sxh + R Syh
2R Sxyh = N
$ $ 2
) Xhi + R Yhi
2RXhiYhi
h h nh (nh
1) i i i

El valor del sesgo del estimador combinado para el total es el siguiente:

X
B ( X$ RC ) = E ( X$ RC )
X = E ( R$ C Y )
Y = E ( R$ C )Y
RY = ( E ( R$ C )
R ) Y = B ( R$ C )Y
Y

Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L L
S2 S
Wh2 (1
f h ) nYhh Wh2 (1
f h ) nXYhh
h h
67
4 48 6 447 448 2
$ $ R V ( y st )
Cov ( x st , y st ) L W (1
f )
h h
B ( X RC ) = B ( RC )Y = Y = N 2
2
( RS Yh
S XYh )
Y{2 h nh Y
Y2 / N2

L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) = N
$ $ 2
n Y
( RSYh
S$ XYh )
h h

Muestreo con reposicin

El valor de la varianza del estimador combinado del total para muestreo con reposicin ser:
Muestreo por mtodos indirectos. Razn, regresin y diferencia 243

1
V ( X RC ) = V ( R C Y ) =Y 2 V ( R C ) = Y 2 2 (V ( x st ) + R 2 V ( y st )
2 R Cov ( x st , y st ) )
{ Y 123 123 142
4 43 4
2 2 L 2 L 2 L
N Y
W n W n h
2
W n
Xh
h
2 Yh
h
2 XYh

h h h h h h

2 2
W
( xh2 + R 2 yh2
2 R xyh ) = N 2 W X hi2 + R 2 Yhi2
2 R X hi Yhi
L L N N N h h h

N2 h h

h nh h nh N h i i i

La estimacin de la varianza para muestreo con reposicin ser:

L
Wh2 $ 2 $ 2 $ 2 L
Wh2 nh 2 $ 2 nh 2 nh

V ( X RC ) = N
$ $ 2
(
Sxh + R S yh
2 RS xyh = N
$ $ 2
) X hi + R Yhi
2 R$ X hiYhi
h nh h nh (nh
1) i i i

Para muestreo con reposicin la expresin del sesgo ser:


L 2 L
2 Yh 2 XYh
W n h W n h

6
h
78 647 h h
48 h

2
RV ( y )
Cov ( x st , y st )
L W
B( X RC ) = B( R C )Y = st
Y = N 2
h
( R Yh2
XYh )
Y{2 h n Y
h
Y2 / N2

2
Wh $ $ 2 $ L
que puede estimarse como: B$ ( X$ RC ) = N 2 ( RSYh
S XYh )
h nhY

Estimador de razn combinado (para la media poblacional)


$ xst X$ st
Se considera inicialmente la razn de los estimadores estratificados RC = = , y se
yst Y$st
forma el estimador de la media X RC = R C Y (ya que el estimador del total basado en la
$
razn es X = R$ Y ).

Muestreo sin reposicin


El valor de la varianza de este estimador para muestreo sin reposicin ser:
1
V ( X RC ) = V ( R C Y ) =Y 2 V ( R C ) = Y 2 2 ( V ( x st ) + R 2 V ( y st )
2 RCov( x st , y st ))
Y 123 123 142
4 43 4
L 2 L 2 L
S S S
W (1
f )
n W (1

h
2
f )
n W
h (1
Xh
f )
n
h
2
h
Yh
h
2
h
XYh

h h h h h h

2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = W (1
f h ) X hi2 + R 2 Yhi2
2R X hi Yhi
L L Nh Nh Nh

nh
h

h h n h ( N h
1) i i i

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del


estimador de la razn ya estudiada anteriormente.
La estimacin de la varianza para muestreo sin reposicin ser:

(
W 2 (1
fh ) 2 2 2
)
W 2 (1
fh ) n 2
L L n n
V ( X RC ) = h
h h h

Sxh + R S yh
2R Sxyh = h X hi + R2 Yhi2
2R X hiYhi
h nh h nh (nh
1) i i i
244 Muestreo estadstico. Conceptos y problemas resueltos

El valor del sesgo del estimador combinado para la media es el siguiente:


X
B( X$ RC ) = E ( X$ RC )
X = E ( R$ C Y )
Y = E ( R$ C )Y
RY = ( E ( R$ C )
R) Y = B( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L 2 L
SYh S XYh
W (1
f ) n
h
2
h W (1
f ) n h
2
h
h
678 6h 47
4 48 h
4 h

2
R V ( y )
Cov ( x , y st )
L W (1
f )
B ( X RC ) = B ( R C )Y = st
2
st
Y = h h
( RS Yh2
S XYh )
Y h nhY

$
L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) =
$
n Y
( RSYh
S$ XYh )
h h

Muestreo con reposicin


El valor de la varianza del estimador combinado de la media para muestreo con reposicin
ser:
1
V ( X RC ) = V ( R C Y ) =Y 2 V ( R C ) = Y 2 2 (V ( x st ) + R 2 V ( y st )
2 RCov ( x st , y st ))
Y 123 123
L
142
4 43
2
4
L 2 L

n
W n
W n
h
2
W Xh
h
2 Yh
h
2 XYh

h h h h h h

2 2
W
( xh2 + R 2 yh2
2 R xyh ) = W
L L Nh Nh Nh

h h
X hi2 + R 2 Yhi2
2 R X hi Yhi
h nh h nh N h i i i
La estimacin de la varianza para muestreo con reposicin ser:
W2
( )
Wh2 n
L L n n
V ( X RC ) = h S xh2 + R 2 S yh2
2 R S xyh =
h h h

X hi2 + R 2 Yhi2
2 R X hi Yhi
h nh h n h (n h
1) i i i
Para muestreo con reposicin la expresin del sesgo ser:
L 2 L
Yh XYh
W n hW n
2
h
2

6
h
78 647 4
h h
484 h

2
RV ( y )
Cov ( x , y st )
L W
B( X RC ) = B( R C )Y = st st
Y = h
( R Yh2
XYh )
Y2 h n Y
h
2
$ Wh $ $ 2 $ L
que puede estimarse como: B$ ( X RC ) = ( RSYh
S XYh )
h nhY
El mtodo de estimacin estratificada por razn combinada presenta como principal
ventaja la no acumulacin de los sesgos de las estimaciones en los estratos para el clculo
del sesgo total, lo que reduce el sesgo del estimador final respecto de la estimacin separada.
El principal inconveniente de este mtodo es la imposibilidad de obtencin de estimaciones
separadas por estratos, lo que no permite disponer de informacin de la poblacin al
subnivel de estratos. En la prctica suele utilizarse este mtodo cuando los estratos son de tamao
pequeo (habr muchos estratos en la poblacin, lo que implica demasiado sesgo por estimacin
separada). En general suele utilizarse siempre que la estimacin separada presenta demasiado
sesgo. Tambin suele utilizarse cuando los Rh tienden a ser constantes.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 245

ESTIMADORES DE REGRESIN EN EL MUESTREO ESTRATIFICADO

Tambin distinguiremos aqu entre el estimador simple o separado obtenido a partir de


L
estimaciones de regresin en cada estrato, cuya expresin ser x rgst = Wh x rgh , y el
h
estimador combinado, obtenido directamente a partir de las medias estratificadas, que vale
(
x rgc = x st + b Y
y st . )
Ambos estimadores son insesgados para un valor bo prefijado de b, ya que:
L L
E ( xrgst ) = Wh E ( xrgh ) = Wh X h = X
h h

E ( xrgc ) = E ( xst ) + b( Y
E ( yst )) = X + b(Y
Y ) = X

Como en el caso de los estimadores de la razn, el estimador combinado suele ser


ms apropiado que el simple cuando el sesgo de x rgh es aproximadamente constante en los
diversos estratos y esperamos regresiones lineales en ellos.

Estimador simple o separado

Muestreo sin reposicin

En el supuesto b = bo la varianza del estimador simple para la media es:


L L
1
fh 2
( ) h
( )
V xrgst = Wh2V xrgh = Wh2
h nh
2
( S Xh + bo S Xh
2bo S XYh )
S XYh
( )
que ser mnima cuando lo sean las V x rgh , es decir, cuando bo = ! h =
SYh2

La varianza mnima ser entonces:


L L
1
f h 2 L
1
f h 2
( ) h
( )
V xrgst = Wh2V xrgh = Wh2
h nh
( S Xh + ! h S Xh
2

2 ! h S XYh ) = Wh2
h nh
Sxh (1
 2 xyh )

que puede estimarse mediante:


L
1
fh $2 L
1
fh $2
( )
V$ xrgst = Wh2
h nh
( S Xh + !$h S$ Xh
2

2 !$h S$ XYh ) = Wh2
h nh
S xh (1
$ 2 xyh )

L
Para la estimacin separada del total X$ rgst = N h x rgh se tiene:
h

L L
1
f h 2 L
1
f h 2
( ) h
( )
V X$ rgst = N h2V xrgh = N h2
h nh
( S Xh + ! h S Xh
2

2 ! h S XYh ) = N h2
h nh xh
S (1
 2 xyh )
246 Muestreo estadstico. Conceptos y problemas resueltos

que puede estimarse mediante:


L
1
fh $2 L
1
fh $2
(
V$ X$ rgst = N h2
h
) nh
( S Xh + !$h S$ Xh
2

2 !$h S$ XYh ) = N h2
h nh
S xh (1
$ 2 xyh )

Muestreo con reposicin

En el supuesto b = bo la varianza del estimador simple es:


L L
1 2
( ) h
( )
V xrgst = Wh2V xrgh = Wh2
h
( + b 2
2bo XYh )
nh Xh o Xh
S XYh XYh
( )
que ser mnima cuando lo sean las V xrgh , es decir, cuando bo = ! h =
SYh2
= 2
Yh

La varianza mnima ser entonces:


L L
1 2 L
1
( )
Vmin xrgst = Wh2V xrgh = Wh2
h
( ) h nh
( Xh + ! h Xh
2

2 ! h XYh ) = Wh2 xh2 (1
 2 xyh )
h nh

que puede estimarse mediante:


L
1 2 L
1
( )
V$min xrgst = Wh2 ( S$ Xh
h nh
+ !$h S$ Xh
2

2 !$h S$ XYh ) = Wh2 S$xh2 (1
$ 2 xyh )
h nh

Para el estimador del total se tendra:


L L
1 2 L
1
( )
h h
( )
Vmin X$ rgst = N h2V xrgh = N h2 ( Xh
nh
+ ! h Xh
2

2 ! h XYh ) = N h2 xh2 (1
 2 xyh )
h nh
L
1 2 L
1
( h
)
V$min X$ rgst = N h2 ( S$ Xh
nh
+ !$h S$ Xh
2

2 !$h S$ XYh ) = N h2 S$xh2 (1
$ 2 xyh )
h nh

Estimador combinado

Muestreo sin reposicin


El estimador combinado para la media se forma como:
L L
xrgc = xst + bo ( Y
yst ) con x st = Wh xh y st = Wh yh
h h

Su varianza puede expresarse de la siguiente forma:

( )
V xrgc = V ( xst ) + bo2V ( Y
yst )
2bo cov( xst , Y
yst ) =
L
Wh2 ( 1
f h )
V ( xst ) + bo2V ( yst )
2bo cov( xst , yst ) =
h nh
(
S xh2 + bo2 S yh
2

2bo S xyh )
Muestreo por mtodos indirectos. Razn, regresin y diferencia 247

Para hallar el valor de bo que minimiza esta expresin, igualamos a cero su derivada
respecto de bo y tenemos:
Wh2 ( 1
f h )
L

L
Wh2 ( 1
f h ) 2 L
Wh2 ( 1
f h )
n S xyh
2b0 S yh
2
h h
S xyh = 0 bo =
nh nh Wh2 ( 1
f h ) 2
L

n S yh
h h

h h

Wh2 ( 1
f h ) 2
L

S xyh n S yh ! h
h h
Pero como ! h = S xyh = ! h S yh
2
, se tiene bo =
Wh2 ( 1
f h ) 2
2
S yh L

n S yh
h h

El valor bo que minimiza la varianza del estimador combinado es entonces una medida
ponderada de los coeficientes de regresin !h, siendo las ponderaciones dadas por
L

W (1
f h ) 2
h
2  ! h h
h
h = S yh , de tal forma que se puede escribir bo = L = ! c , pudiendo
nh
 h
h
expresarse la varianza mnima como:
l
1
fh
( )
Vmin xrgc = Wh2
h nh
(
S xh2 + ! c2 S yh
2

2 ! c S xyh )
que puede estimarse como:

1
fh $2
( )
l

( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$yh
2

2 !$c S$xyh
donde:
L

$ !$ h h Wh2 ( 1
f h ) 2 S$xyh
!$c = h
L , $h = S$ yh y !$h = $ 2 .
nh S yh
$ h
h

Para estimar el total, el estimador combinado se forma como:

( )
X rgc = X st + bo Y
Yst = Nx st + bo (NY
Ny st ) = Nx rgc

Su varianza puede entonces expresarse en funcin de la varianza para la estimacin


de la media de la siguiente forma:

L Wh2 ( 1
f h )
( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2 ( ) h nh
(
S xh2 + bo2 S yh
2

2bo S xyh )
248 Muestreo estadstico. Conceptos y problemas resueltos

pudiendo expresarse la varianza mnima como:

1
fh l

( )
Vmin X$ rgc = N 2 Wh2
h nh
S xh2 + ! c2 S yh
2

2 ! c S xyh ( )
que puede estimarse como:
1
fh $2
( )
l

( )
V$min X$ rgc = N 2 Wh2
h nh
S xh + !$c2 S$ yh
2

2 !$c S$ xyh

Muestreo con reposicin


El valor bo que minimiza la varianza del estimador combinado para la media es una media
ponderada de los coeficientes de regresin !h, siendo las ponderaciones dadas por
L

W2  ! h h
h = h yh2 , de tal forma que se puede escribir bo = h
L = ! c , pudiendo expresarse la
nh
 h
h
varianza mnima como:
l
1
( )
Vmin x rgc = Wh2
h nh
(
xh2 + ! c2 yh2
2 ! c xyh )
que puede estimarse como:

1 $2
( )
l

( )
V$min x rgc = Wh2
h nh
S xh + !$c2 S$ yh
2

2 !$c S$ xyh

donde:
L

$ !$ h h
Wh2 $ 2 S$xyh
!$c = h
L , $h = S yh y !$h = $ 2 .
nh S yh
$ h
h

Para estimar el total, la varianza puede entonces expresarse en funcin de la


varianza para la estimacin de la media de la siguiente forma:
2
Wh L

( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2
h nh
( )
xh2 + bo2 yh2
2bo xyh ( )
pudiendo expresarse la varianza mnima como:
l
1
( )
Vmin X$ rgc = N 2 Wh2
h nh
xh2 + ! c2 yh2
2 ! c xyh( )
que puede estimarse como:
1 $2
( )
l
$ $ ( 2
)
Vmin X rgc = N Wh2
h nh
S xh + !$c2 S$ yh
2

2 !$c S$ xyh
Muestreo por mtodos indirectos. Razn, regresin y diferencia 249

Comparacin de precisiones en los stimadores de regresin separado y combinado

Vamos a comparar las varianzas mnimas de los estimadores de regresin separado y


combinado. Tenemos:

(1
f h ) 2
[ ]
L
Vmin ( X rg ,c )
Vmin ( X rg , s ) = Wh2 S Xh + ! c2 S Yh2
2 ! c S XYh
h =1 nh
2 (1
f h )
[ ] [ ( ]
L L

Wh
nh
2 2 2
)
S Xh + ! h S Yh
2 ! h S XYh = u h ! c2
! h2
2u h (! c
! h )! h
h =1 h =1
L
= u h (! c
! h )  0
2

h =1

Luego el estimador separado de regresin es ms preciso que el combinado. Ambos


tendrn igual varianza cuando ! c = ! h h = 1, ..., L .
250 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

6.1. En un estudio para estimar el contenido total de azcar de una carga de naranjas, se pes una
muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azcar. Se obtuvieron los
siguientes resultados:

Naranja Contenido de azcar Peso de la naranja

1 0,021 0,40
2 0,030 0,48
3 0,025 0,43
4 0,022 0,42
5 0,033 0,50
6 0,027 0,46
7 0,019 0,39
8 0,021 0,41
9 0,023 0,42
10 0,025 0,44

1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azcar de las
naranjas y su error de muestreo.
2) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.

Como disponemos de informacin de una variable adicional muy correlacionada con


la variable en estudio ( = 0,99), podemos realizar la estimacin del contenido total de
azcar de las naranjas utilizando el estimador del total basado en la razn. Mediante el
procedimiento Estadstica descriptiva de la opcin Anlisis de datos del men Herramientas
(Figura 6-1), podemos calcular los estadsticos ms relevantes relativos a la variable en
estudio y a la variable adicional. La Figura 6-2 muestra los resultados.
Las frmulas para los clculos del estimador del total y de su error en la estimacin
por razn, V$( X$ R ) = N 2
n
(
1
f 2 2 2
)
Sx + R Sy
2RSxy , se muestran en la Figura 6-3, y los resultados
en la Figura 6-4.

Figura 6-1 Figura 6-2


Muestreo por mtodos indirectos. Razn, regresin y diferencia 251

Figura 6-3

Figura 6-4

6.2. Consideramos una poblacin de 500 individuos en la que est definida la caracterstica
bidimensional (Xi,Yi) que mide las ganancias mensuales en miles de euros de los varones (X)
y las mujeres (Y) con ttulo universitario superior. Una muestra aleatoria simple de tamao
80 proporciona los siguientes datos:

80 80 80 80 80

X i = 420
i =1
Yi = 190
i =1
X i2 = 2284
i =1
Yi 2 = 512
i =1
X Y
i =1
i i = 1045
, , , y

1) Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas, su


sesgo y su error de muestreo. Estudiar la posible influencia del sesgo.

2) Se trata de estimar con y sin reposicin la media y el total de las ganancias mensuales
femeninas en la poblacin utilizando la informacin adicional de la variable ganancia
mensual masculina mediante un mtodo de estimacin indirecta. Qu mtodo indirecto
sera el ms adecuado? Por qu? Realizar las estimaciones de las ganancias femeninas
media y total mensuales mediante los mtodos indirectos conocidos ordenndolos en
precisin y sabiendo que la ganancia total masculina es 10000.

c) Cuantificar la ganancia en precisin respecto del muestreo aleatorio simple.


Tenemos:

1 80 2 1 80 1 80 2 1 80
2 2

S x2 = i n
X
X i = 1 , S 2
= i n
Y
Yi = 0,768
n
1 i =1 n
1 i =1
y
i =1 i =1

1 80 1 80 80
S xy = X i Yi
X i Yi = 0,6012
n
1 i =1 n i =1 i =1

1 80 1 80
x= X i = 5,25
n i =1
y= Yi = 2,375
n i =1
252 Muestreo estadstico. Conceptos y problemas resueltos

Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas es


equivalente a estimar la razn de Y a X.
y y
La razn Y/X se estima mediante R = = = 0,452 .
x x
El sesgo del estimador de la razn anterior se estima mediante:

B ( R ) =
nx 2
(
(1
f ) 2
RS x
S XY = )
(1
80 / 500)
80 5,25 2
(0,452 1
0,6012) =
0,0000568

El error de muestreo del estimador de la razn se estima mediante:

(R ) =
nx 2
(
(1
f ) 2 2 2
)
S y + R Sx
2R SXY =
(1
80/ 500)
80 5,252
(0,768+ 0,4522 1
2 0,452 0,6012) = 0,0128

Para ver si el sesgo del estimador de la razn es influyente hallamos el valor del sesgo
B ( R ) 0,0000568
relativo = = 0,004 < 0,1 , por lo que el sesgo es despreciable.
( R ) 0,0128

Estimar la media y el total de las ganancias mensuales femeninas en la poblacin es


equivalente a estimar la media y el total de Y.

Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la


media y el total de Y utilizamos la recta de regresin de la variable en estudio Y sobre la
variable auxiliar X, cuya ecuacin es:

S xy
y
y = ( x
x ) y = 0,6012 x
0,78
S 2 x

Observamos que la recta de regresin de Y sobre X tiene una ordenada en el origen


cercana a cero (comparada con los valores medios de X e Y), lo que indica que puede ser
razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin
basada en la razn. Adems, el sesgo del estimador de la razn ser pequeo (como ya
hemos visto) porque la recta de regresin est prxima a pasar por el origen. Evidentemente,
la estimacin indirecta basada en regresin ser la ms apropiada, como ocurre siempre.
Puede suceder que la estimacin indirecta basada en la diferencia sea la menos apropiada ya
que la pendiente de la recta de regresin no est claro que se aproxime a la unidad.

La utilizacin de mtodos indirectos de estimacin en todo el problema es


S xy
apropiada, ya que el coeficiente de correlacin  =  0,7 es alto.
S S
x y

Muestreo sin reposicin

Comenzamos realizando estimaciones para la media y el total de la variable en estudio Y


basadas en la razn de Y a la variable auxiliar X y a su vez calculamos tambin las varianzas
de los estimadores.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 253

y 10000 y
Y = R X = X = 0,452 = 9,04 Y = R X = X = 0,452 10000 = 4520
x 500 x
80
(1
)
V (Y ) =
n
(
(1
f ) 2 2 2
S y + R S x
2R S XY = ) ( )
500 0,768 + 0,4522 1
2 0,452 0,6012 = 0,0073
80

V (Y ) = N 2
n
(
(1
f ) 2 2 2
)
S y + R S x
2 R S XY = 500 2 0,0073 = 1825

Ahora calculamos estimadores y varianzas basados en la regresin.

S xy 0,6012 1000
Yrg = y + b( X
x ) = y + 2 ( X
x ) = 2,375 +
5,25 = 11,2427

Sx 1 500
Y = NY = 500 11,2427 = 5621,35
rg rg

80
1

(1
f ) 2
Vmin (Yrg ) =
n
S y 1
 2 = ( ) 500 0,768(1
0,7 2 ) = 0,004
80
V (Y ) = N V (Y ) = 500 2 0,004 = 1000
min rg
2
min rg

Ahora calculamos estimadores y varianzas basados en la diferencia.

10000
Y = D + X = y
x + X = 2,375
5,25 + = 17,125
500
Y = D + X = N ( y
x ) + NX = NY = 500 17,125 = 8562,5
T

V (Y ) = V ( D + X ) = V ( D ) =
(1
f ) 2 2
n
(
S y + S x
S XY = 0,009 )
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 0,009 = 2250

Ahora calculamos estimadores y varianzas para muestreo aleatorio simple.

Yas = y = 2,375 Yas = NYas = 500 2,375 = 1187,5

80
1

(1
f ) 2
V (Yas ) = Sy = 500 0,768 = 0,008
n 80
V (Y ) = N 2V (Y ) = 500 2 0,008 = 2000
as as

Se observa que la menor varianza la presenta el estimador basado en la regresin,


seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresin.
254 Muestreo estadstico. Conceptos y problemas resueltos

1 C x
El estimador basado en la razn mejora al aleatorio simple si se cumple  >
2 C y
1 C x S x 1
0,7 =  > = R= 0,452 = 0,5157
2 C y S y 0,678

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple.
Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el
aleatorio simple.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(0,008/0,004
1)100 = 100%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(0,008/0,0073
1)100 = 9,5%.
La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =
(0,009/0,008
1)100 = 12,5%.
Muestreo con reposicin
Las estimaciones de la media y total valen lo mismo que en muestreo sin reposicin.
Calculamos las estimaciones de las varianzas de los estimadores para estimacin indirecta
por razn.
1
( )
V (Y ) = S y2 + R 2 Sx2
2 R S XY = 0,00869
n
1
( )
V (Y ) = N 2 S y2 + R 2 S x2
2 R S XY = 2172,5
n

Ahora estimamos varianzas basadas en la regresin.

1 1
( )
Vmin (Yrg ) = S y2 1
 2 = 0,768(1
0,7 2 ) = 0,00476
n 80

V (Y ) = N V (Y ) = 500 2 0,00476 = 11900
2
min rg min rg

Ahora estimamos varianzas basadas en la diferencia.

1
( )
V (Y ) = V ( D + X ) = V ( D ) = S y2 + S x2
S XY = 0,0107
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 0,0107 = 2675

Ahora estimamos varianzas para muestreo aleatorio simple.

1 1
V (Yas ) = S y2 = 0,768 = 0,0096
n 80

V (Y ) = N V (Y ) = 500 2 0,0096 = 2400
2
as as
Muestreo por mtodos indirectos. Razn, regresin y diferencia 255

Se observa que la menor varianza la presenta el estimador basado en la regresin,


seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados presentan varianzas mayores que en el caso de sin
reposicin para todos los estimadores, ya que el muestreo con reposicin es menos preciso
que el muestreo sin reposicin.

La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =


(0,0096/0,00476
1)100 = 101,6%.

La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =


(0,0096/0,00869
1)100 = 10,47%.

La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =


(0,0107/0,0096
1)100 = 11,45%.

Se observa que la utilizacin del mtodo indirecto de estimacin basado en la


regresin mejora fuertemente la estimacin aleatoria simple, y que la utilizacin del mtodo
indirecto de estimacin basado en la razn mejora levemente la estimacin aleatoria simple.
Las ganancias en precisin se han acentuado levemente respecto del muestreo sin reposicin.
El mtodo indirecto de la diferencia es ligeramente peor que el aleatorio simple; sin
embargo, la ganancia en precisin del aleatorio simple sobre la estimacin por diferencia
disminuye al considerar reposicin.

6.3. De los N = 750 trabajadores de una fbrica se conoce que el nmero medio de das anuales de
ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres
(variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500
y que la razn de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qu
tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin
y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre
muestras de esta poblacin?

Determinar a partir de qu tamao muestral el sesgo del estimador de la razn Y/X es


despreciable utilizando muestreo sin y con reposicin. Qu mtodo de estimacin indirecta
sera el ms adecuado a utilizar sobre muestras de esta poblacin?

El enunciado del problema nos da como datos:

xy
X = 10 , Y = 8 , x2 = 2500 y = 0,6
x2

B( R )
De la condicin de que el sesgo relativo sea menor que un dcimo se
( R )
750
750 100 2500
N 100 S x2 749
obtiene que n  = = 577 .
NX 2 + 100S x2 2 750
750 10 + 100 2500
749
256 Muestreo estadstico. Conceptos y problemas resueltos

En caso de muestreo con reposicin la misma condicin de sesgo relativo menor que un
2 2500
dcimo nos lleva a n  100 x2 = 100 = 2500 , que sobrepasa el tamao poblacional (con
X 100
los datos del problema nunca podra ser el sesgo despreciable).

S xy
La recta de regresin de Y sobre X tiene de ecuacin y
y = (x
x)
S 2
x
y
8 = 0,6( x
10) y = 0,6 x + 2 , lo que indica que la estimacin por razn podra
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimacin por
regresin siempre es el mtodo ms adecuado. La pendiente de la recta no es unitaria, con lo
que no es muy apropiada la estimacin por diferencia.

6.4. Para estudiar el grado medio de implantacin de un determinado cultivo en una regin se obtuvo
una muestra de 100 fincas para las que se midi la superficie dedicada al cultivo en estudio
(variable X) y su superficie total (variable Y), obtenindose los datos que se presentan en la tabla
adjunta. Se pide:

1) A la vista de la informacin, justificar si ser adecuado el uso de los mtodos indirectos de


muestreo respecto del muestreo aleatorio simple y estudiar qu mtodos sern los ms adecuados
expresndolos por orden de preferencia. Hallar los errores relativos de muestreo para los
diferentes mtodos cuantificando sesgos y ganancias en precisin y razonando adecuadamente
los resultados. Contrastar tambin los resultados obtenidos considerando muestreo con reposicin
y sin reposicin.

2) Dada la estructura de las fincas se consider conveniente realizar una estratificacin segn la
variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie
total superior a una hectrea y a fincas de superficie total menor o igual que una hectrea. Los
datos obtenidos tambin se presentan en la tabla adjunta. A la vista de esta informacin, justificar
si sern adecuados los mtodos de estimacin indirecta con estratificacin y cul de entre ellos
puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes mtodos de
estimacin con muestreo estratificado cuantificando sesgos y ganancias en precisin y razonando
adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando
muestreo con reposicin y sin reposicin.

Superficie
S yh S xh
2 2
Estratos Nh  xyh yh xh nh
de las fincas
1 0
1Ht 1580 2055 312 0.62 82.5 19.4 70
2 > 1Ht 430 7357 922 0.3 244.8 51.6 30
Poblacin 7619 620 0.67

Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin


adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo
indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total
mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total
de X es 10000.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 257

S xy
Tenemos como dato que  = = 0,67 , por lo que la utilizacin de mtodos
S S
x y

indirectos de estimacin en todo el problema es apropiada, ya que el coeficiente de


correlacin estimado es alto.
Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la
superficie dedicada al cultivo (variable X) en las fincas utilizamos la recta de regresin de la
variable en estudio X sobre la variable auxiliar Y superficie total de las fincas, cuya ecuacin
es:
S xy 1453
x
x = ( y
y ) x
26,3 = ( y
117,28) x = 0,19 y + 4

Sy 2
7619
2
N1 N 1580 430
x = Wh x h = x1 + 2 x 2 = 19,4 + 51,63 = 26,3
h =1 N N 2010 2010
2
N1 N 1580 430
y = Wh y h = y1 + 2 y 2 = 82,56 + 244,85 = 117,28
h =1 N N 2010 2010
x 26,30
S xy =  xy S x S y 0,67 620 7619 = 1453 R = = = 0,224
y 117,28
Observamos que la recta de regresin de X sobre Y tiene una ordenada en el origen que
no se anula, pero es pequea (comparada con los valores medios de X e Y), lo que indica que
puede ser razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin
basada en la razn. Adems el sesgo del estimador de la razn ser pequeo porque la recta de
regresin est prxima a pasar por el origen. Evidentemente, la estimacin indirecta basada en
regresin ser la ms apropiada, como ocurre siempre. La estimacin indirecta basada en la
diferencia ser la menos apropiada, ya que la pendiente de la recta de regresin no se aproxima a
la unidad.
1 C y
El estimador basado en la razn mejora al aleatorio simple si se cumple  >
2 C
x

1 C y S y 1 7619 26,30
0,67 =  > = R= = 0,393
2 C x S x 2 620 117,28

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin
embargo, ya hemos razonado que el muestreo por diferencia probablemente ser menos preciso
que el aleatorio simple, y, por tanto, tambin ser menos preciso que la estimacin por razn y
regresin. Vamos a realizar los clculos de varianzas.

Muestreo sin reposicin


Comenzamos hallando el error para la estimacin de la media (grado medio de implantacin
del cultivo medido a travs de la superficie dedicada al cultivo) de la variable en estudio X
basada en la razn de X a la variable auxiliar Y.
258 Muestreo estadstico. Conceptos y problemas resueltos

100
(1
)
V ( X ) =
n
(
(1
f ) 2 2 2
)
S x + R S y
2R S XY = ( )
2010 620 + 0,2242 7619
2 0,224 1453 = 3,335
100

Ahora estimamos el error del estimador de la media basado en la regresin.

100
1

(1
f ) 2
Vmin ( X rg ) = S x (1
 2 ) = 2010 620(1
0,67 2 ) = 3,24
n 100
Ahora estimamos el error del estimador de la media basado en la diferencia.
100
1

V ( X ) = V ( D + Y ) = V ( D ) =
n
(
(1
f ) 2 2
S x + S y
S XY = ) 2010 (620 + 7619
1453) = 64,4
100

Ahora estimamos el error del estimador de la media en el aleatorio simple.


100
1

2010
(1
f ) 2
V ( X as ) = Sx = 100 620 = 5,89
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresin.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(5,89/3,24
1)100 = 81,8%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(5,89/3,335
1)100 = 76,6%.
La ganancia en precisin del estimador de regresin sobre el de razn es G =
(3,335/3,24
1)100 = 2,9%.
En cuanto a la estimacin del sesgo de estimador de la razn tenemos:
100
1

B ( R ) =
ny 2
(
(1
f ) 2
RS y
S XY ) = 2010 (0,224 7619
1453) = 0,02
100 117,28

Este sesgo resulta despreciable porque 0,02/3,335 = 0,006 < 1/10.

Muestreo con reposicin


Comenzamos estimando el error del estimador de la media de la variable en estudio
X basado en la razn de X a la variable auxiliar Y.

1
(
V ( X ) = Sx2 + R 2 S y2
2 R S XY =
n
) 1
100
(
620 + 0,2242 7619
2 0,224 1453 = 3,51 )
Ahora estimamos el error del estimador de la media basado en regresin.
Muestreo por mtodos indirectos. Razn, regresin y diferencia 259

1 1
n
(
Vmin ( X rg ) = S x2 1
 2 =
100
)
620(1
0,67 2 ) = 3,41

Ahora estimamos el error del estimador de la media basado en diferencia.


1
(
V ( X ) = V ( D + Y ) = V ( D ) = S x2 + S y2
S XY =
n
1
)
100
(620 + 7619
1453) = 67,78

Ahora estimamos el error del estimador de la media en el aleatorio simple.

S 2 620
V ( X as ) = x = = 6,2
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo
sin reposicin debido a que el muestreo con reposicin es menos preciso.
El sesgo del estimador de la razn se estima mediante:

1
(
B ( R ) = 2 R S y2
S XY =
ny
)
(1
600 / 1500)
600 5,58 2
(2 7
3,75) = 0,0005

Consideramos ahora la estratificacin en dos estratos segn la superficie total de las


fincas, y vamos a considerar las estimaciones separada y combinada para la media en razn
y regresin para calcular sus errores de muestreo y sus sesgos.
Comenzaremos determinando valores necesarios en todos los clculos posteriores, como
son: W1 = 1580/2010 = 0,786, W2 = 430/2010 = 0,214, f1 = 70/100 = 0,7, f2 = 30/100 = 0,3, R1 =
19,40/82,56 = 0,235, R2 = 51,63/244,85 = 0,21, Sxy1 =  xy1Sx Sy = 496,4 y Sxy2 =  xy2Sx Sy = 781,3.

Estimador combinado de la razn


La estimacin combinada de la varianza del estimador de la media para muestreo sin
( )
2
reposicin ser V ( X RC ) = Wh (1
fh ) Sxh2 + R 2Syh2
2R Sxyh = 1,51593.
L

h nh

El sesgo del estimador combinado para la media puede estimarse como:

(
W 2 (1
f h ) 2
)
L
B ( X RC ) = h RS Yh
S XYh =0,83/ Y . Las operaciones a realizar son:
h nhY

Pero Y se estima por y = 117,2 B ( X RC ) = 0,83/117,2 = 0,007.

La estimacin de la varianza de la media para muestreo con reposicin ser:

( )
2
W L
V ( X RC ) = h S xh2 + R 2 S yh2
2 R S xyh = 3,1375 .
h nh
260 Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin el sesgo puede estimarse como:

( )
2
W L
B ( X RC ) = h R SYh2
S XYh =1.00456/ Y
h nhY

Pero Y se estima por y = 117,2 B ( X RC ) = 1,00456/117,2 = 0,0085.

Estimador separado de la razn


La estimacin de la varianza del estimador de la media para muestreo sin reposicin ser:
W 2 (1
f h ) 2
( )
L
V ( X RS ) = h S xh + R h2 S yh
2

2 R h S xyh = 1,49.
h n h

El valor del sesgo del estimador simple o separado sin reposicin puede estimarse
W (1
f h ) 2
( )
L
como: B ( X RS ) = h Rh S Yh
S XYh = 0,0029. Y 1 e Y 2 se estimarn mediante y 1
h nh Yh
e y 2 respectivamente. Los clculos a realizar seran:

La varianza del estimador separado de la media para muestreo con reposicin puede
( )
2
estimarse como V ( X RS ) = Wh Sxh2 + Rh2 S yh2
2Rh Sxyh = 3,09792.
L

h nh
Para muestreo con reposicin la expresin del sesgo puede estimarse como:
W
( )
L
B ( X RS ) = h R h SYh2
S XYh = 0,0033.
h n hYh

Estimador combinado en regresin


La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo
sin reposicin por la expresin:

1
fh $2
( )
l

( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$yh
2

2 !$c S$xyh

donde:
L

 ! h
h
Wh2 ( 1
f h ) 2 S$xyh
! c = h
0,16155 con $h = S$ yh y !$h = $ 2 .
L
nh S yh

h
h


Calculado ! c ya podemos hallar el valor de la varianza mnima mediante:

1
fh $2
( )
l

( )
V$min xrgc = Wh2
h nh
S xh + !$c2 S$ yh
2

2 !$c S$xyh =1,46407.

La estimacin de la varianza mnima del estimador de la media viene expresada en


muestreo con reposicin por la expresin:
Muestreo por mtodos indirectos. Razn, regresin y diferencia 261

1 $2
( )
l
$ ( )
Vmin x rgc = Wh2
h nh
S xh + !$c2 S$ yh
2

2 !$c S$ xyh
donde:
L

 ! h S$xyh
h
Wh2 $ 2
! c = h
= 0,18977 con $h = S yh y !$h = $ 2 .
L
nh S yh

h
h


Calculado ! c ya podemos hallar el valor de la varianza mnima mediante:

1 $2
( )
l

( )
V$min x rgc = Wh2
h n h
S xh + !$c2 S$ yh
2

2 !$c S$ xyh =3,10321.

Estimador separado en regresin


La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo
sin reposicin por la expresin:
L
1
fh 2 L
1
fh 2
Vmin (x rgst ) = Wh2 ( S Xh + ! h S Xh
2

2! h S XYh ) = Wh2 S xh (1
 2 xyh ) = 1,40509
h n h h n h

La estimacin de la varianza mnima del estimador de la media viene expresada en


muestreo con reposicin por la expresin:
L
1 2 L
1 2
Vmin (xrgst ) = Wh2 ( S Xh + ! h S Xh
2

2 ! h S XYh ) = Wh2 S xh (1
 2 xyh ) = 2,97591
h nh h nh

Resumiendo resultados tenemos:

SIN REPOSICIN  1,49


SEPARADA
CON REPOSICIN  3,09792
RAZN
SIN REPOSICIN  1,51593
COMBINADA
CON REPOSICIN  3,1375
ESTRATIFICADO
SIN REPOSICIN  1,40509
SEPARADA
CON REPOSICIN  2,97591
REGRESIN
SIN REPOSICIN  1,46407
COMBINADA
CON REPOSICIN  3,10321

SIN REPOSICIN  3,335
RAZN
SIN ESTRATIFICAR CON REPOSICIN  3,51

SIN REPOSICIN  3,24
REGRESIN
CON REPOSICIN  3,41
262 Muestreo estadstico. Conceptos y problemas resueltos

6.5. En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de
los bienes inmuebles en los dos ltimos aos. Se selecciona una muestra irrestricta aleatoria
de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se
obtiene el valor catastral para este ao (X) o valor actual y el valor correspondiente de hace
dos aos (Y) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se
desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la
comunidad, usando la informacin contenida en la muestra.

Casa Valor calculado Valor actual


yi xi yi2 xi2 xiyi
1 6,7 7,1 44,89 50,41 47,57
2 8,2 8,4 67,24 70,56 68,88
3 7,9 8,2 62,41 67,24 74,78
4 6,4 6,9 40,96 47,61 44,16
5 8,3 8,4 68,89 70,56 69,72
6 7,2 7,9 51,84 62,41 56,88
7 6 6,5 36 42,24 39
8 7,4 7,6 54,76 57,76 56,24
9 8,1 8,9 65,61 79,21 72,09
10 9,3 9,9 86,49 98,01 92,07
11 8,2 9,1 67,24 82,81 74,62
12 6,8 7,3 46,24 53,29 49,64
13 7,4 7,8 54,76 60,84 57,72
14 7,5 8,3 56,25 68,89 62,25
15 8,3 8,9 68,89 79,21 73,87
16 9,1 9,6 82,81 92,16 87,36
17 8,6 8,7 73,96 75,69 74,82
18 7,9 8,8 62,41 77,44 69,52
19 6,3 7 39,69 49 44,1
20 8,9 9,4 79,21 88,36 83,66
Total 154,5 164,7 1210,55 1373,71 1288,95

La estimacin del cambio relativo R en el valor catastral desde hace dos aos se
obtiene mediante el estimador de razn siguiente:
n

X x x i
164,7
R = = = i =1
= = 1,07
Y y
n
154,5
y
i =1
i

() 1
f
( ) 1
f n
n n
V R = 2 S x2 + R 2 S y2
2 R S xy = 2 X i2 + R 2 Yi 2
2 R X i Yi
Y n Y n(n
1) i i i

Como Y 2 no se conoce, se estima mediante y 2 . Tenemos:

()
V R =
1
20 / 100
(154,5 / 20) 2 ( 20)(19)
[ ]
1373,71 + 1,07 2 (1210,55)
2(1,07)1288,95 = 0,0001 .
Muestreo por mtodos indirectos. Razn, regresin y diferencia 263

() ()
Por tanto, el error de muestreo es R = V R = 0,0001 = 0,01 .

El error relativo de muestreo ser:

() ()
C v R =
R 0,01
= = 0,0093  1%
R 1,07

Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07,
la subida en los dos ltimos aos se estima que es del 7%, con un error del 1%.

6.6. Una compaa desea estimar la cantidad promedio de dinero x pagado a los empleados por
gastos mdicos durante los tres primeros meses del ao en curso. Los resultados del
promedio por trimestres y estn disponibles en los informes fiscales del ao anterior. Una
muestra aleatoria de 100 registros de empleados se seleccion de una poblacin de 1000
empleados. Los resultados de la muestra se resumen a continuacin:

n = 100, N = 1000

100
Total para el trimestre actual: x
i =1
i = 1750

100
Total para el trimestre correspondiente del ao anterior: y
i =1
i = 1200

1000
Total poblacional para el trimestre correspondiente del ao anterior y
i =1
i = 12500

100 100 100

xi2 = 31650
i =1
yi2 = 15620
i =1
y x
i =1
i i = 22059,35 .

Usar los datos para estimar y y establecer un lmite para el error de estimacin.

Como tenemos informacin de una variable auxiliar Y, la utilizaremos para realizar una
estimacin indirecta de X basada en la razn de X a Y. Tenemos:

100

x
x i
12500 1750 12500
X R = x R = Y = R Y = i =1
100
= = 18,23
y 1000 1200 1000
y
i =1
i

El error para la estimacin anterior se estima mediante:


V ( X R ) =
n
(
1
f 2 2 2
) n
n( n
1) i
n n

S x + R S y
2R S xy = 1
f X i2 + R 2 Yi 2
2 R X i Yi
i i
264 Muestreo estadstico. Conceptos y problemas resueltos

100
1

V ( x R )= 1000 31650 + 1750 15620


2 1750 22059,35 = 0,0441

100(100
1) 1200 1200

Un lmite para el error de estimacin al 95% ser 2 V ( x R ) = 0,42.

Hemos estimado que la cantidad promedio de dinero pagado a los empleados por
gastos mdicos es 18,23 unidades monetarias y tenemos una confianza alta de que el error
cometido no supera las 0,42 unidades monetarias.

6.7. Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca
analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos
zonas, una de secano y otra de regado. En cada zona se mide el nmero de granjas existente
(variable X) y el nmero de cerdos (variable Y) por municipios muestrales. Se obtienen los
siguientes datos:

Zona Secano Regado


Fraccin de muestreo 10% 20%
Nmero de granjas 71 182
Municipio muestral 1 2 3 4 1 2 3 4 5 6
X 1 3 2 1 5 8 6 7 6 5
Y 10 25 22 11 55 90 61 77 66 51

Se pide:

1) Estimar de la forma ms eficiente posible el nmero total de cerdos y el promedio de


cerdos por granja en el supuesto de que la seleccin de los municipios de la muestra haya
sido con reposicin. Razonar la eleccin de los estimadores.

2) Hallar el tamao muestral necesario para cometer un error del 10% al estimar el nmero
total de cerdos mediante muestreo estratificado con afijacin proporcional al nmero de
granjas existentes en cada municipio y realizar la afijacin.

Sean:

Xih= Nmero de granjas de cerdos existentes en el municipio muestral i-simo del estrato h-
simo.

Yih= Nmero de cerdos existentes en el conjunto de explotaciones ganaderas del municipio


muestral i-simo del estrato h-simo.

Tenemos:

n1 4 n2 6
f1 = 0,1 = N 1 = 40 f2 = 0,2 = N 2 = 30
N1 N1 N2 N2
Muestreo por mtodos indirectos. Razn, regresin y diferencia 265

Vamos a estimar el nmero total de cerdos en las granjas y sus errores absoluto y
relativo de muestreo mediante muestreo estratificado como sigue:

2
10 + 25 + 22 + 11 55 + 90 + 61 + 77 + 66 + 51
Y = N h yh =N 1y1 + N 2y2 = 40 + 30 = 2780
h =1 4 6

2 S yh
2
S y21 S y22 7.61 30,15
V (Y ) = N h2 = 40 2
+ 30 2
= 40 2 + 30 2 = 7566,5
h =1 nh 4 6 4 6

1 nh S y21 = 7,61
S yh
2
=
nh
1 i =1
(
Yhi
yh )2

2
(Y ) = V (Y ) = 7566,5 = 87
S y 2 = 30,15

(Y ) 87 6357,67
C v(Y ) = = = = 0,0312 (3,12%)
Y 2780 2780

Para estimar el promedio de cerdos por explotacin ganadera utilizamos el estimador de


razn de Y a X (tambin puede usarse razn separada o combinada).

Y
N h yh
2780 2780
R = = h =1
= = = 10,9
X 1+ 2 + 3 +1 5+8+6+7+6+5
2
255
N
h =1
h xh 40
4
+ 30
6

Tomaremos 11 cabezas de ganado en promedio por cada explotacin ganadera.

1 1
V (R ) = 2 (S y2 + R 2 S x2
2R S xy ) = (
795,51+ 112 6,26
2 11 70,2 = 0,004426 )
10(4,4)
2
nx

( R ) 0,004426
C v( R ) = = = 0,006 (0,6%)
R 11

El muestral para afijacin proporcional con reposicin para un error relativo del 5%
al estimar el total de cabezas de ganado se halla despejando n en la expresin:

N h2 S yh
2 2


h=1 n
N 2 253
N N h S yh
2
(71 7,61 + 182 30,15)

(Y ) N
h
n h=1 n
0,1 = Cv(Y ) = = = = n  20
Y 2780 2780 2780

La afijacin ser n1 = (20/253)71 = 6 y n2 = (20/253)182 = 14 (6 municipios del


estrato 1 y 14 municipios el estrato 2).
266 Muestreo estadstico. Conceptos y problemas resueltos

6.8. Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis
majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden
tres majadas y otra de regado a la que corresponden las otras tres majadas. En cada majada se
mide el nmero de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se
obtienen los siguientes datos:

Estrato 1 Estrato 2
X 1i Y1i X 2i Y2i
2 1 5 4
4 2 7 5
5 3 12 6

A la vista de la informacin, analizar la precisin de todos los mtodos indirectos de


estimacin que se utilizan en estratificacin cuando se trata de estimar el nmero medio de
ovejas por majada utilizando la informacin adicional de la variable auxiliar Y. Razonar
adecuadamente los resultados. Contrastar tambin estos resultados con las precisiones
obtenidas considerando mtodos de estimacin indirecta sin estratificacin. Emplear tambin
mtodos directos de estimacin para la variable en estudio sin utilizar la variable de apoyo.
Los mtodos de estimacin indirecta son perfectamente aplicables en este caso porque el
coeficiente de correlacin entre la variable en estudio X y la variable auxiliar Y es muy alto (0,9).
A partir de los datos del problema se puede construir la siguiente tabla:

Estrato N h Wh S xh2 S yh
2
X h Yh S xyh f h nh
1 3 1 / 2 7 / 3 1 11 / 3 2 3/ 2 2/3 2
2 3 1 / 2 13 1 8 5 7/2 2/3 2

A continuacin se calculan las varianzas del estimador de la media para los distintos
mtodos de estimacin directos e indirectos y estratificados y sin estratificar.

S x2
Aleatorio simple  V1 ( x ) = (1
f ) = 0,98
n
2
S2
Estratific ado  V2 ( x ) = Wh2 (1
f h ) xh = 0,63
h =1 nh
(1
f ) 2
Razn  V3 ( x ) = (S x + R 2 S y2
2 RS xy ) = 0,151296
n
2
(1
f h ) 2
Razn separada  V4 ( x ) = Wh2 (S xh + Rh2 S yh2
2 Rh S xyh ) = 0,189
h =1 n
(1
f h ) 2
(S xh + R 2 S yh2
2 RS xyh ) = 0,1759
2
Razn combinada  V5 ( x ) = Wh2
h =1 n
2
S
Regresin  V6 ( x ) = (1
f ) x (1
 2 ) = 0,15119
n
Muestreo por mtodos indirectos. Razn, regresin y diferencia 267

2
(1
f h ) 2
Regresin separada  V7 ( x ) = Wh2 (S xh + ! h2 S yh2
2! h S xyh ) = 0,0347
h =1 n
(1
f h ) 2
( )
2
Regresin combinada  V8 ( x ) = Wh2 S xh + ! c2 S yh2
2 ! c S xyh = 0,118
h =1 n
(1
f ) 2
Diferencia  V9 ( x ) = (S x + S y2
2S xy ) = 0,28833
n

En cuanto a los mtodos no estratificados, se observa que la estimacin ptima la


produce el mtodo indirecto basado en la regresin, resultado que siempre se cumple.

El siguiente mtodo en precisin es la estimacin indirecta por razn, que presenta


una precisin muy similar a la estimacin por regresin (apenas un 0,07% de ganancia en
precisin para regresin).

La estimacin indirecta por diferencia tambin es aceptable, aunque es el mtodo de


estimacin indirecta menos preciso en este caso. Por otra parte, el muestreo aleatorio simple
presenta una precisin muy inferior a cualquier mtodo indirecto.

Ello nos lleva a concluir que en este problema es importante la consideracin de los
mtodos indirectos de estimacin.

Si analizamos la recta de regresin de la variable en estudio X respecto de la variable


auxiliar Y, que tiene de ecuacin x = 1,6y
0,06, vemos que prcticamente pasa por el
origen, razn por la cual el estimador por razn es muy preciso.

Adems, la pendiente de la recta no est lejos de la unidad, con lo que la estimacin


indirecta por diferencia puede resultar tambin apropiada.

Por otra parte se cumple:

1 S
0,9 =  > R y = 0,45
2 Sx

lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el mtodo
de estimacin por razn.

Al introducir la estratificacin se obtiene buena mejora en la estimacin indirecta


por regresin separada y no tanto en la combinada (que ya sabemos que siempre es peor que
la separada).

En cuanto a la estratificacin por razn, se obtienen peores precisiones que cuando


se usa razn sin estratificar. Por lo tanto, la estimacin estratificada basada en la razn no es
conveniente. De todas formas, la estimacin por razn combinada resulta aqu ms precisa que
la estimacin por razn separada.
268 Muestreo estadstico. Conceptos y problemas resueltos

6.9. Antes del ingreso en un centro educativo se hizo un examen de conocimientos matemticos a
486 estudiantes. Se seleccion una muestra irrestricta aleatoria de n = 10 estudiantes y se
observaron sus progresos en clculo mediante una prueba de conocimientos cuyas
calificaciones constituyen la variable Y. Ms adelante se observaron sus calificaciones
finales en clculo mediante la variable X. Los datos se recogen en la tabla siguiente:

Estudiante x y
1 39 65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75

Se sabe que la calificacin media de la prueba de conocimientos para los 486 estudiantes que
presentaron el examen es 52. Estimar la calificacin final media en clculo para esta
poblacin, y establecer un lmite para el error de estimacin.

A fin de aprovechar la informacin adicional de la variable Y, para estimar la media de X


utilizaremos el mtodo de estimacin indirecta ms preciso, que es el estimador por
regresin. Podemos resumir las estimaciones por regresin como sigue:

x rg = x + bo (Y
y )

Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se
deduce que x = 76 e y = 46. Para calcular el estimador por regresin slo nos faltara
estimar bo . Tenemos:

n n

S ( X i
x )(Yi
y ) X iYi
nxy 36,854
10(46)(76)
b0 = ! = XY2 = i
= i
= = 0,766
SY
n n
23,634
10(46) 2
(Y
y) Y
2 2
i i
ny 2
i i

El estimador por regresin ser entonces:

x rg = x + bo (Y
y ) = 76 + 0,766(52
46) = 80

La varianzas mnima estimada ser Vmin ( x rg ) =


(1
f ) S 2 1
 2 = 7,4 y el( )
x
n
lmite para el error de estimacin al 95% es 2 Vmin ( x rg ) = 5,4 .
Muestreo por mtodos indirectos. Razn, regresin y diferencia 269

6.10. Los auditores frecuentemente estn interesados en comparar el valor intervenido de los
artculos con el valor asentado en los libros. Generalmente, los valores en los libros son
conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos con
una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse para obtener
una buena estimacin del valor intervenido total o promedio para la poblacin. Supngase
que una poblacin contiene 180 artculos inventariados con un valor establecido en el libro
de $13,320. Denotar por yi el valor en el libro y por xi el valor intervenido del i-simo
artculo. Una muestra irrestricta aleatoria de n = 10 artculos produce los resultados que se
muestran en la tabla adjunta. Estimar el valor intervenido medio por el mtodo de diferencia
as como el error cometido. Realizar las mismas estimaciones pero usando un estimador de
regresin y un estimador de razn.

Muestra Valor intervenido Valor en el libro di


xi yi
1 9 10 -1
2 14 12 2
3 7 8 -1
4 29 26 3
5 45 47 -2
6 109 112 -3
7 40 36 4
8 238 240 -2
9 60 59 1
10 170 167 3

La estimacin por diferencia se realiza de la siguiente forma:

X = x
y + Y = D + Y = (72,1-71,7) + 74 = 74,4

La estimacin de la varianza viene dada por:

V ( X ) =
1
f 2 2
n
(
S x + S y
2 S xy = 0,59 )
La estimacin por regresin se realiza de la siguiente forma:

x rg = x + bo (Y
y ) = 72,1 + 0,99(74
71,7) = 74,38

n n

(X i
x )(Yi
y ) X Y i i
nx y
105,881
10(71,7)(72,1)
b0 = i
n
= i
n
= = 0,99
106,003
10(71,7) 2
(Y
y) Y
2 2
i i
ny 2
i i
270 Muestreo estadstico. Conceptos y problemas resueltos

La varianzas mnima estimada ser Vmin ( x rg ) =


(1
f ) S 2 (1
 2 ) = 2,24 .
x
n

La estimacin por regresin se realiza de la siguiente forma:

x 721
X R = x R = Y = R Y = 74 = 74,41
y 717

La varianza puede estimarse como sigue:


V ( X R ) =
n
(
1
f 2 2 2
)
S x + R S y
2R S xy =
1
f n 2 2 n 2

n(n
1) i
X i + R Yi
2 X Y = 0,66
R
n

i i
i i
Muestreo por mtodos indirectos. Razn, regresin y diferencia 271

EJERCICIOS PROPUESTOS

6.1. Sobre una poblacin de 500 unidades est definida un caracterstica bidimensional (Xi,Yi).
Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:

80 80 80 80 80

X i = 420
i =1
Yi = 190
i =1
X i2 = 2284
i =1
Yi 2 = 512
i =1
X Y
i =1
i i = 1045
, , , y

a) Estimar el sesgo y el error de muestreo de la razn de la variable Y a la variable X. Se


trata de un sesgo influyente para estimaciones indirectas basadas en la razn?

b) Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin


adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo
indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total
mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total
de X es 10000.

c) Habr ganancia en precisin respecto del muestreo aleatorio simple? Cuantificarla.

6.2. Una empresa est interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un perodo de tres meses (variable Y). Se tienen cifras del total de ganancias
de todas las sucursales de la empresa para el perodo de tres meses correspondiente del ao
anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre
las 123 de la empresa. Usando un estimador de razn, estimar el total de ganancias por las
ventas de televisiones de color al final de un perodo de tres meses y establecer un lmite
para el error de estimacin. Usar los datos de la tabla adjunta, y considerar que la media
poblacional de la variable X vale 128,200.

Oficina Datos de tres meses Datos de tres meses


del ao anterior, Xi del ao actual, Yi
1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
6 980 1050
7 928 977
8 1200 1440
9 1350 1570
10 1750 2210
11 670 980
12 729 865
13 1530 1710

Estimar tambin las ganancias medias para las oficinas de la empresa y establecer un lmite
para el error de estimacin.
272 Muestreo estadstico. Conceptos y problemas resueltos

6.3. Una empresa industrial elabora un producto que es empaquetado, para propsitos de
mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el
volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de
clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de
ventas (en nmero de unidades) para el prximo trimestre. La cifra de las ventas verdaderas
del ao pasado, para el mismo trimestre, est disponible para cada uno de los clientes
muestreados y se denota por X. Los datos se presentan en la tabla anexa. La muestra para la
marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo
trimestre del ao pasado fue de 24500 unidades. La muestra de la marca II viene de 180
clientes, con un total trimestral de ventas para el ao pasado de 21000 unidades. Hallar una
estimacin de razn del total potencial de ventas para el prximo trimestre. Estime la
varianza de su estimador.

Marca I Marca II
Xi Yi Xi Yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280 63 60
275 300 103 110
198 190 107 100
159 180
63 75
87 90

6.4. Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.

Industria 1980 1981


Productos de fbricas textiles 13,6 14,5
Productos qumicos y relacionados 37,7 42,7
Madera aserrada y lea 15,2 15,1
Equipo elctrico y electrnico 48,4 53,6
Vehculos automotores y equipo 19,6 25,4
Transporte y almacenaje 33,5 35,9
Banca 44,4 48,5
Bienes races 198,3 221,2
Servicios de salud 99,2 114
Servicios de educacin 15,4 17

a) Hallar un estimador de razn del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
b) Hallar un estimador de regresin del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
d) Cul de los tres mtodos es el ms apropiado en este caso? Por qu?
CAPTULO

MUESTREO UNIETPICO
DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo unietpico de conglomerados.
2. Analizar los estimadores y sus errores en muestreo unietpico de
conglomerados del mismo tamao y con probabilidades iguales.
3. Analizar los errores y su estimacin en funcin del coeficiente de
correlacin intraconglomerados.
4. Analizar los estimadores y sus errores cuando se considera muestreo
unietpico de conglomerados con reposicin.
5. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades iguales con y sin reposicin.
6. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades desiguales con y sin reposicin.
7. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades proporcionales al tamao con y sin reposicin.
8. Estudiar el problema del tamao de la muestra.
274 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo unietpico de conglomerados. Estimadores para conglomerados
del mismo tamao y probabilidades iguales.
2. Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas.
3. Muestreo de conglomerados del mismo tamao con reposicin. Varianzas
de los estimadores y estimacin de las varianzas.
4. Muestreo unietpico de conglomerados de distinto tamao.
5. Muestreo unietpico de conglomerados de distinto tamao con probabilidades
desiguales.
6. Tamao de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.
Muestreo unietpico de conglomerados 275

MUESTREO UNIETPICO DE CONGLOMERADOS. ESTIMADORES PARA


CONGLOMERADOS DEL MISMO TAMAO Y PROBABILIDADES IGUALES

Tanto en el muestreo aleatorio simple con reposicin como sin reposicin, as como en el
muestreo estratificado, sistemtico y mtodos indirectos de estimacin, las unidades de
muestreo son las mismas que las unidades objeto de estudio (unidades simples o
elementales), pero en la prctica nos encontramos con situaciones ms generales en las que
las unidades de muestreo comprenden dos o ms unidades de estudio. En tal caso a las
unidades de muestreo se las denomina unidades primarias o compuestas.

En el muestreo por conglomerados no se necesita un marco muy especfico como en


el caso del muestreo aleatorio simple en el que era necesario disponer de un listado de
unidades de la poblacin, o como en el muestreo estratificado, donde era necesario disponer
de listados de unidades por estratos. Se divide previamente al muestreo la poblacin en
conglomerados o reas convenientes, de las cuales se selecciona un cierto nmero para la
muestra, con lo que slo es necesario un marco de conglomerados que ser ms fcil de
conseguir y ms barato. Se pueden utilizar como marco divisiones territoriales ya
establecidas por necesidades administrativas para las cuales existe ya informacin. Tambin
se pueden utilizar como marco reas geogrficas cuyas caractersticas estn ya muy
delimitadas. Est claro que se ahorra coste y tiempo al efectuar visitas a las unidades
seleccionadas. Adems, la concentracin de unidades disminuye la necesidad de
desplazamientos.

Por otro lado, en el muestreo por conglomerados solemos tener menor precisin en
las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre
va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que
disminuir la precisin. La eficiencia de este tipo de muestreo disminuye al aumentar el
tamao de los conglomerados, cuando en realidad este tipo de muestreo es ms til en caso
de poblaciones muy numerosas en las que se puedan construir conglomerados grandes.

Consideramos una poblacin finita con M unidades elementales o ltimas agrupadas en


N unidades mayores llamadas conglomerados o unidades primarias, de tal forma que no existan
solapamientos entre los conglomerados y que stos contengan en todo caso a la poblacin en
estudio. Consideramos como unidad de muestreo el conglomerado, y extraemos de la poblacin
una muestra de n conglomerados a partir de la cual estimaremos los parmetros poblacionales. El
nmero de unidades elementales de un conglomerado se denomina tamao del conglomerado.
Los conglomerados pueden ser de igual o de distinto tamao, y han de ser lo ms heterogneos
posible dentro de ellos y lo ms homogneos posible entre ellos, de tal forma que la situacin
ideal sera que un nico conglomerado pudiese representar fielmente a la poblacin (muestra de
tamao uno con mnimo coste). Se observa que la situacin ahora es la complementaria a la del
caso de los estratos estudiados anteriormente.

Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son
del mismo tamao M , en cuyo caso utilizaremos la siguiente notacin:

N: Nmero de conglomerados en la poblacin


N: Nmero de conglomerados en la muestra
M : Nmero de unidades elementales por conglomerado (tamao del conglomerado)
N M : Nmero total de unidades elementales en la poblacin
n M : Nmero total de unidades elementales en la muestra
276 Muestreo estadstico. Conceptos y problemas resueltos

N N M
Consideraremos la caracterstica poblacional general  = Yi = Yij que,
i i i

suponiendo muestreo sin reposicin y probabilidades iguales, puede ser estimada mediante
M

Y n n Y ij
N n M
el estimador lineal insesgado de Horwitz y Thompson HT = i = i
= Y ij .
i i i n/ N n i i

La aplicacin del estimador lineal insesgado de Horwitz y Thompson para


probabilidades iguales a las estimaciones del total, media, proporcin y total de clase
poblacionales, proporciona los siguientes estimadores:
N M
N n M NM n 1 M 1 n
 = X = X ij Yij = X ij X = ij n i M j ij
X = X = NM X i =NMx
i j n i j n i
1 N M X ij N n M X ij 1 n 1 M 1 n
=X =
NM i j
X ij Yij = NM X = n i j NM
= X ij = X i =x
n i M j n i
1 N M Aij N n M Aij 1 n 1 M 1 n
 =P= ij ij NM
A Y = P = = ij n i Pi
A =
NM i j n i j NM n i M j
N M
N n M NM n
1 M
1 n
 = A = Aij Yij = Aij A = Aij = i M Aij = NM Pi =NMP
i j n i j n j n i

VARIANZAS DE LOS ESTIMADORES. COEFICIENTE DE CORRELACIN


INTRACONGLOMERADOS. ESTIMACIN DE LAS VARIANZAS

Las expresiones iniciales para las varianzas de los estimadores sin reposicin y probabilidades
iguales para conglomerados del mismo tamao son:
N M

(X
X)
2

2 i
S
V (x ) = (1
f )
i j
b
con S b2 =
nM N
1

( ) S2
V X = V (NM x ) = N 2 M 2 V (x ) = N 2 M 2 (1
f ) b
nM

M N N


N
1 i
( Pi
P )
2
( Pi
P)
2

V ( P$ ) = ( 1
f ) = (1
f ) i
nM n( N
1)
N

( P
P)
2
i
V ( A$ ) = V ( NM P$ ) = N 2 M 2V ( P$ ) = N 2 M 2 (1
f ) i

n( N
1)
Las expresiones de las varianzas son similares a las obtenidas en el muestreo
aleatorio simple, sustituyendo S2 por S b2 y siendo nM el nmero total de unidades
elementales en la muestra.
Muestreo unietpico de conglomerados 277

Pero las varianzas anteriores pueden expresarse en funcin del coeficiente de correlacin
intraconglomerados, que se define como el coeficiente de correlacin lineal entre todos los pares
de valores de la variable en estudio medidos sobre las unidades de los conglomerados y
extendido a todos los conglomerados, de tal forma que dicho coeficiente ser una <<medida de la
homogeneidad>> en el interior de los conglomerados. Evidentemente interesar que el
coeficiente de homogeneidad intraconglomerados sea lo ms pequeo posible, ya que en
muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La
expresin del coeficiente de correlacin intraconglomerados ser:
1 N M

( X ij
X )( X iz
X )
M i =1 j < z
N
=
Cov( X ij , X iz )
=
[
E ( X ij
E ( X ij ))( X iz
E ( X iz )) ]= 2
( X ij ) ( X iz ) 2 2

2 2
1
(X ij
X ) y 2 = 1
N M N M
de donde al ser S =
2

NM
1 i j  l NM
(X
i j l
ij
X ) se puede expresar

N M
1 2
la varianza como 2 = S , expresin que puede sustituirse en el denominador del
N M
coeficiente de correlacin intraconglomerados:

1 N M

( X ij
X )( X iz
X ) N M
M i =1 j < z
N 2 ( X ij
X )( X iz
X )
2 i =1 j < z
= =
N M
1 2
S
(M
1)(NM
1)S 2
N M

S$b2
S$ 2
Este coeficiente se puede estimar mediante $ =
( M
1) S$ 0
2

2
1 n M

( 1
) 1 n M
n M
( ( Xi
x ) )
2
S$ 2 =
2
X ij
x , S$w2 = X
X , $
S 2
=
nM
1 i j  l nM
n i j ij i b
n
1 i j

N
1 2 N (M
1) 2 n
1 2 n(M
1) 2
S 0 = S 2 =
2
Sb + Sw Sb + Sw
NM
1 NM
1 nM
1 nM
1

Los errores de estos estimadores y sus estimaciones en funcin de  son:

S
[ ]
2
S2
V (x ) = (1
f )
nM
[ ]
1 + (M
1) V (x ) = (1
f ) 0 1 + (M
1)
nM
S 2
S 2

V (x ) = (1
f ) b V (x ) = (1
f ) b
nM nM
V ( X ) = V ( NMx ) = N M V ( x ) V ( X ) = N 2 M 2V ( x )
2 2
278 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de los trminos de las frmulas anteriores los facilitan los cuadros del
anlisis de la varianza para la poblacin y para la muestra siguientes:

Descomposicin de la varianza para la poblacin

Fuente de variacin Grados de libertad Sumas de cuadrados Cuadrados medios

(X )
N M
Entre conglomerados N
1 i
X
2
Sb2
i j

Dentro de conglomerados (
n M
1 ) (X
N M

ij
Xi ) 2
S w2
i j

(X )
N M
Total NM
1 ij
X
2

i j

Descomposicin de la varianza para la muestra

Fuente de variacin Grados de libertad Sumas de cuadrados Cuadrados medios Esperanzas

Sb2
n M
Entre conglomerados n
1 (X i
x )
2
Sb2
i j

Dentro de conglom. (
n M
1 ) n

(X
M

ij
Xi )
2
S w2 S w2
i j

n M
nM
1 (X ) S 2
2
Total ij
x
i j

Para el caso de proporciones y totales de clase las frmulas son las mismas, pero las
magnitudes se obtienen del cuadro del anlisis de la varianza siguiente:

Fuentede Gradosde Sumade Cuadrados Estimadores


Variacin Libertad Cuadrados Medios Insesgados
N
1 n
N
A M ( Pi
Pi ) 2
n i =1
Entre N
1 A = M ( Pi
P) 2 S b2 = S b2 = i =1
i =1 N
1 n
1
n

N
B MP (1
P ) i i

Dentro N ( M
1) B = MPi (1
Pi ) S = 2
w S w2 = i =1

i =1 N ( M
1) n( M
1)
C
Total NM
1 C = NMP (1
P) 2
S = S 2 0
NM
1

Comparacin con el muestreo aleatorio simple


S2
De la expresin V ( x ) = ( 1
f )
nM
[1 + ( M
1)  ] = V MAS ( x )[1 + ( M
1)  ] se deduce que
para valores positivos de  existe un aumento en la varianza del muestreo por conglomerados con
relacin al muestreo aleatorio simple y muestras de tamao igual a n M unidades
elementales.
Muestreo unietpico de conglomerados 279

El caso ms desfavorable (varianza mxima) correspondera a  = + 1 y el ms favorable


1
(varianza mnima) a  =
, en que la varianza sera igual a cero. Para  = 0 ambos
M
1
mtodos proporcionaran la misma precisin.

El trmino M
1 expresa el aumento de la varianza debido a la seleccin de n
conglomerados de tamao M en lugar de n M unidades elementales obtenidas por muestreo
aleatorio simple. Ahora bien, si el coeficiente de correlacin intraconglomerados fuese
negativo, ello supondra mayor precisin en el muestreo por conglomerados que en el
aleatorio simple.

Pero en la prctica suele ocurrir que los elementos de cada conglomerado tienen
cierto parecido entre s aunque se intente que sean lo ms heterogneos posible, con lo cual
la correlacin es positiva y menor la precisin en el muestreo por conglomerados que en el
aleatorio simple. Este problema ya se haba citado al principio del captulo como una de las
desventajas del muestreo por conglomerados.

Segn lo visto, la comparacin entre muestreo monoetpico de conglomerados y


muestreo aleatorio simple podra resumirse como sigue:

Si > 0 conglomera dos peor que aleatorio simple


[ ]
V MC (x ) = V MAS ( x ) 1 + (M
1)  Si = 0 conglomera dos igual que aleatorio simple
Si < 0 conglomera dos mejor que aleatorio simple

Evidentemente, cuando   (0,1] la precisin del muestreo por conglomerados es


inferior a la del muestreo aleatorio simple, y a medida que el  se aproxima a 1, se acenta la
prdida de precisin en el muestreo por conglomerados respecto del aleatorio simple.
1
Cuando  = 0, las precisiones de ambos mtodos coinciden, y cuando  
,0 , la
M
1
precisin del muestreo por conglomerados es superior a la del muestreo aleatorio simple y a
1
medida que el  se aproxima a
, se acenta la ganancia en precisin del muestreo
M
1
por conglomerados respecto del aleatorio simple.

Por otra parte, si llamamos na al tamao de muestra necesario en muestreo aleatorio


simple para obtener una precisin dada, y si llamamos nc al tamao de muestra en muestreo
por conglomerados, resulta que si los dos tipos de muestreo tienen la misma precisin,
S2 S2
(1
f ) = (1
f ) (1 + ( M
1) ) nc = na (1 + ( M
1) ) .
na nc

Precisamente la cantidad 1 + ( M
1)  por la que hay que multiplicar el tamao de
una muestra por conglomerados nc para que coincida con el tamao de muestra necesario en
muestreo aleatorio simple na para igual precisin en ambos tipos de muestreo, se denomina
efecto del diseo.
280 Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO DE CONGLOMERADOS DEL MISMO TAMAO CON REPOSICIN.


VARIANZAS DE LOS ESTIMADORES Y ESTIMACIN DE LAS VARIANZAS

En caso de muestro con reposicin, probabilidades iguales y conglomerados del mismo


tamao, los estimadores son los mismos, y las varianzas tienen las siguientes expresiones:

1 N
i M Xi
X ( )
2

b2
()
Vx = N
nM
=
nM

1 N
1 N M

M( X
X) ( X
X ) es la cuasivarianza entre conglomerados
2 2
=2
b i = i
N i N i j

b2
y la expresin de la varianza de la media V ( x ) = es similar a la obtenida en el muestreo
nM
aleatorio simple, sustituyendo 2 por b2 y siendo nM el nmero total de unidades
elementales en la muestra.

b2
V ( X$ ) = V ( NM x ) = N 2 M 2 V ( x ) = N 2 M 2
nM

M N N

( P
P) ( P
P)
2 2

2
N i i
V ( P$ ) =
b i i
= =
nM nM nN
N

( P
P)
2
i
V ( A$ ) = V ( NM P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
i

nN

La varianzas de los estimadores y sus estimaciones en funcin del coeficiente de


correlacin intraconglomerados tienen las siguientes expresiones:

S b2
V (x ) =
nM
2
[
1 + (M
1) V (x ) =
' 2
]
nM
[
1 + (M
1) , V (x ) =
b2
nM
V (x ) =

nM
]
2 2 2 2
V ( X ) = V ( NM x ) = N M V ( x ) V ( X ) = N M V ( x )

El coeficiente de correlacin intraconglomerados y su estimacin son:

2 S$b2
Sb
S$1w +
$ 2

b2
2 $ M S$b2
$ ' 2
=  = =
(M
1) 2 2 S$b2 ( M
1) $ ' 2
( M
1) S1w +
$
M
Sb2 2 1 N M 1 n M
1 n M
( ) (
( Xi
x ) )
2
' 2 = S12,w +
2
, S1,w = X ij
X i
2
, 2
= X
X , $
S 2
=
w ij i b
M nM i j NM i j n
1 i j
Muestreo unietpico de conglomerados 281

Si estimamos proporciones y totales de clase utilizaremos lo siguiente:

NM
1 2 NM
1 NMP (1
P ) NMP (1
P )
2 = S = = = P (1
P )
NM NM NM
1 NM

1 1 1
(X
Xi ) =
N M N N

M (P
P ) (P
P )
2 2 2
w2 = ij i = i
NM i j NM i N i

1 M
(X
X) = (X
X) .
N M N
2 2
b2 = i i
N i j N i

M n
b2 = S b2 = (Pi
P )2
n
1 i

1 1 1
(X
Xi ) =
n M n n
w2 = S12,w = MP (1
P ) = n P (1
P )
2
ij i i i i
nM i j nM i =1 i =1

S$b2 1 n M n
$ '2 = S$12,w + = Pi (1
Pi ) +
M n i =1 (Pi
P )
2

n
1 i

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO

Probabilidades iguales

a) Los conglomerados no varan mucho en tamao (Mi similares)


N
Mi
Consideraramos M = M como la media de los tamaos Mi de los conglomerados y
i =1
utilizamos todas las frmulas estudiadas hasta ahora, tanto para muestreo con reposicin
como para muestreo sin reposicin. No obstante, suelen considerarse las siguientes
expresiones alternativas para los estimadores:

Muestreo sin reposicin

Para la media se tiene

(X
n

(X
X)
x)
N 2
2

1 n
1 X 1 n n
1
f i
1
f i

x= Xi = i = X i , V (x ) = i =1
, V ( x ) = i =1

n i =1 n i =1 M nM i =1 nM 2 N
1 nM 2 n
1

1 n
N n
Para el total se tiene el estimador X$ = NMx = NM
nM
Xi = n X i , que no
i =1 i =1
depende de M .
282 Muestreo estadstico. Conceptos y problemas resueltos

Su varianza y estimacin de varianza tampoco dependen de M . Tenemos:

(X
n

(X
X )
x)
N 2
2
i
1
f i
1
f
V ( X ) = N 2 i =1
, V ( X ) = N 2 i =1

n N
1 n n
1
Muestreo con reposicin

Para muestreo con reposicin la varianza y estimacin de varianza para el estimador de la


media pueden calcularse como sigue:

(X
X)
N

(X
n

x)
2 2
i i
1 1
V (x ) = i =1
, V ( x ) = i =1

nM 2 N nM 2 n
1

La varianza y estimacin de varianza para el estimador del total no dependern de


M y pueden calcularse como sigue:

(X
n

(X )
x)
N 2
2
i
X 2 i
N 2
N
V ( X ) = i =1
, V ( X ) = i =1

n N n n
1
En caso de estimacin de totales y proporciones se utilizan las frmulas ya vistas
N
Mi
anteriormente para conglomerados del mismo tamao tomando M = , tanto para
i =1 M
muestreo sin reposicin como para muestreo con reposicin.
N
b) Los conglomerados varan mucho en tamao (Mi no similares y M = M i )
i =1

Si los tamaos de los conglomerados son significativamente distintos, un estimador sesgado


de la media es el estimador de razn:
n

X i
X = x = R = i
n

Mi
i

Muestreo sin reposicin


Por ser un estimador de la razn, su varianza aproximada es:

M (X
X) M (X
x)
N n
2 2 2

()
2 i i 2 i i
N N
V ( x ) = (1
f ) i
, V ( x ) = V R = (1
f ) i

nM 2 N
1 nM 2 n
1
Para el estimador del total tendremos:

M i2 (X i
X ) M (X
x)
N n

(1
f )
2 2 2

N (1
f )
( ) ( )
2 2 i i
N
V X = i
, V X = i

n N
1 n n
1
Para el estimador de la proporcin y el total de clase tenemos:
Muestreo unietpico de conglomerados 283

M (P
P )
N n

N2 Mi2 (Pi
P) N2 i
2
i
V ( P ) = (1
f ) i
, V ( P ) = (1
f ) i

nM 2 N
1 nM 2 n
1

M (P
P )
N n
M (P
P )
(1
f ) (1
f )
2 2 2 2

() ()
2 i i 2 i i
N N
V A = i
, V A = i

n N
1 n n
1
Muestreo con reposicin

Por ser un estimador de la razn, su varianza aproximada es:

M (X
X)
N

M (X )
n
2 2 2
2 i i 2
x
N N i i
V (x ) = i
, V ( x ) i

nM 2 N nM 2 n
1

Para el estimador del total tendremos:

M i2 (X i
X ) M (X
x)
N n
2 2 2

( ) ( )
2 2 i i
N N
V X = i
, V X = i

n N n n
1
Para el estimador de la proporcin y el total de clase tenemos:

M (P
P )
N n

N2 M i2 (Pi
P) N2 i
2
i

V ( P ) = i
V ( P ) = i
,
nM 2 N nM 2 n
1

M (P
P )
N n

M (P
P)
2 2 2 2

() ()
2 i i 2 i i
N N
V A = i
, V A = i

n N n n
1

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO


CON PROBABILIDADES DESIGUALES

En este caso se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurweitz.
Muestreo sin reposicin
N
Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M = M
i =1
i .

En este caso se utilizar el estimador general de Horwitz y Thompson, que proporciona el


estimador lineal insesgado para el total definido por:
n
X n
M X N
X2 N
X Xj
X HT = i = i i , V ( X HT ) = i (1
 i ) + i ( ij
 i  j )
i =1 i i =1 i i =1 i i j i  j

n
X2 n
X X j  ij
 i  j
V ( X HT ) = 2i (1
 i ) + i
i =1  i

i j  i  j  ij

284 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo con reposicin

Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M =


N

M
i =1
i . En este caso se utilizar el estimador general de Hansen y Hurwitz, que

proporciona el estimador lineal insesgado para el total definido por:


2 2
n
X n
MX 1 N X 1 n
Xi
X HH = i = i i , V ( X HH ) = i
X Pi , V ( X HH ) =
X HH
i =1 nPi i =1 nPi n i =1 Pi n(n
1) i =1 Pi

X X 1 1
X HH = HH V ( X HH ) = V ( HH ) = 2 V ( X HH ) V ( X HH ) = 2 V ( X HH )
M M M M

Probabilidades proporcionales a los tamaos

Muestreo sin reposicin


El estimador lineal insesgado de Horwitz y Thompson para el total ser:

n
X n
M X n
M X 1 n
X HT = i = i i = i i = M X i = Mx
i =1  i i M n i =1
i =1 i =1
n i
M

El estimador lineal insesgado de Horwitz y Thompson para la media ser:

X Mx
X = HT = =x
M M
Se observa que las expresiones de los estimadores lineales insesgados para la media
y el total en el caso de probabilidades desiguales proporcionales a los tamaos de los
conglomerados coinciden con sus expresiones para probabilidades iguales.

Muestreo con reposicin

Como siempre, los estimadores son los mismos que para el caso sin reposicin. Las
varianzas y su estimacin en el caso de probabilidades proporcionales a los tamaos con
reposicin valdrn:
2 n
V ( X HH ) =
M N
M i ( X i
X ) , V ( X ) = M
HH
n(n
1) i =1
(
Xi
x
2
)
n i =1

1 n
( )
N
1
( )
M i X i
X , V(X HH ) =
2
2
Xi
x
V ( X HH ) =
nM i =1 n(n
1) i=1

Las frmulas para proporciones y totales de clase se obtienen sustituyendo


X i = Pi , X = P, x = P . Esto es vlido tanto en general como en probabilidades
proporcionales a los tamaos, y tanto con reposicin como sin reposicin.
Muestreo unietpico de conglomerados 285

TAMAO DE LA MUESTRA

La peculiaridad en muestreo por conglomerados monoetpico es la forma de la funcin de


coste. Si consideramos la funcin de coste C = c o n + c1 n + c 2 n M , podemos
determinar los pares ( n, M ) que, para C prefijado, minimizan la varianza del estimador de la
media V ( x ) . Tambin podemos determinar los pares ( n, M ) que, para V ( x ) prefijada,
minimizan la funcin de coste C.

El primer trmino c o n de la funcin de coste representa el coste de viaje entre los


conglomerados, y se toma as porque se ha demostrado empricamente que el coste de viaje
entre n conglomerados vara aproximadamente proporcional a su raz cuadrada.

El segundo trmino c1 n de la funcin de coste representa el coste de seleccin de


los n conglomerados de la muestra, siendo c1 el coste unitario de seleccin de un
conglomerado muestral.

El tercer trmino c 2 n M representa el coste relativo a las n M unidades


elementales de la muestra, siendo c2 el coste unitario de seleccin de una unidad elemental que
suele estar formado principalmente por el coste de entrevista y el coste de desplazamiento
entre las unidades elementales dentro del mismo conglomerado.

El trmino C = c o n + c 2 n M suele denominarse coste de campo.

La determinacin de n y M ptimos lleva al planteamiento del problema de


Lagrange con una restriccin:

S2
MinV ( x ) = Min (1
f ) (1
( M
1) )
nM

C = co n + c1 n + c 2 n M

El problema alternativo es la determinacin de n y M ptimos mediante el


planteamiento del problema de Lagrange con una restriccin:

Min C = Min (co n + c1 n + c 2 n M )



S2
V ( x ) = (1
f ) (1
( M
1) )
nM
S b2
Tambin se utiliza para la varianza la expresin V ( x ) = (1
f ) .
nM
286 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

7.1. Se trata de estudiar una poblacin de 1000 cajas de tornillos todas ellas con 40 unidades cada
una. Para ello se extrae una muestra sin reposicin de 20 cajas, dentro de la cual nueve cajas
no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen
dos tornillos defectuosos. Se pide:

1) Estimar el nmero total de tornillos defectuosos en la poblacin y sus errores absoluto y


relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995)=2,57).
2) Resolver el problema con reposicin y comparar los resultados con los del punto (a).

Tenemos como datos N = 1000, M = 40 y n = 20. El total de piezas defectuosas


puede estimarse como sigue:
1 n 1 0 1 2
A = NMP = NM Pi = 40 000 9 + 8 + 3 = 700
n i =1 20 40
14 44
40 40
424444 3
P = 0 , 0175

Para calcular la estimacin de la varianza, se realiza el cuadro del anlisis de la


varianza muestral considerando 20 variables, desde L1 a L20, una para cada caja en la
muestra. Cada variable tiene tantos unos como tornillos defectuosos hay en la caja. Se elige
Anlisis de la varianza de un factor en Anlisis de datos del men Herramientas, y se
rellena su pantalla de entrada como se indica en la Figura 7-1. Los resultados se ven en la
Figura 7-2. La varianza es:

S 2 20 0,0134
( ) 2
( )
V ( A ) = NM V ( P ) = NM (1
f ) b = 400002 (1

nM
)
1000 800
= 26305,26

Figura 7-1
Muestreo unietpico de conglomerados 287

Figura 7-2

El error relativo de muestreo para el estimador del total ser:

V ( A ) 26305,26
C v( A ) = = = 0,2317 (23,17%)
A 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A ( A ) = 700 2,57 26305,26 = [283,2, 1116,8]

La estimacin por intervalos sin normalidad en la poblacin es:

( A ) 26305,26
A = 700 = [
921,9, 2321,9]
0,01

Si consideramos muestreo con reposicin, tenemos:

2
2 Sb 26305,26 26305,26
V ( A) = (NM ) V ( P) = (NM )

2
= = = 26842,1
nM 1
f 20
1

1000

V ( A ) 26842,1
C v( A ) = = = 0,234 (23,4%)
A 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A ( A ) = 700 2,57 26842,1 = [279, 1121]

La estimacin por intervalos sin normalidad en la poblacin es:


288 Muestreo estadstico. Conceptos y problemas resueltos

( A ) 26842,1
A = 700 = [
938,35, 2338,35]
0,01

Se observa que los errores de muestreo estimados son ligeramente superiores en


muestreo con reposicin. Adems, como es natural, los intervalos de confianza son ms
anchos (o sea, peores) en muestreo con reposicin. La ganancia en precisin es (26842,1 /
26305,26
1)100 = 2%, que es una cantidad pequea.

7.2. En una regin hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5
granjas sin reposicin y probabilidades iguales. Las proporciones de animales enfermos en cada
una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide:
Estimar la proporcin y el total de animales enfermos en la regin y sus errores absoluto y
relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposicin.
Comentar los resultados.

Podemos realizar el esquema siguiente para el problema.

M =50 P2=0,2
P5=0,16
SR P3=0,18
N=300
PI
M =50 M =50 P4=0,12 P1=0,14

n=5
SR significa sin reposicin y PI probabilidades iguales.
Estamos en un caso de muestreo monoetpico de conglomerados del mismo tamao.
Se tiene:

1 n 1
P = Pi = (0,14 + 0,20 + 0,18 + 0,12 + 0,16) = 0,16
n i =1 5

A = NMP = 300 50 0,16 = 2400


S 2 1
V ( A ) = (NM ) V ( P ) = (NM ) (1
f ) b = (NM ) (1
f )
n

( Pi
P ) 2 =
2 2 2

nM n(n
1) i =1

5 (0,14
0,16) 2 + (0,20
0,16) 2 + (0,18
0,16) 2 + (0,12
0,16) 2 + (0,16
0,16) 2
(300 50)2 1
= 45000
300 5(5
1)

1 45000
V ( P ) = V ( A ) = = 0,0002
2
N M 2
300 2 50 2

V ( A ) 45000
C v( P ) = C v( A ) = = = 0,088 (8,8%)
A 2400
Muestreo unietpico de conglomerados 289

Se estima que en la regin hay un 16% de animales enfermos y un total de 2400


animales enfermos, con un error de muestreo del 8,8%.

Ahora estimaremos los errores absoluto y relativo de muestreo del total de clase y de
la proporcin considerando muestreo con reposicin. Tenemos:

2 S
2 1
V ( A ) = (NM ) V ( P ) = (NM ) b = (NM )
n

( Pi
P ) 2 = 45762,7
2 2

nM n(n
1) i =1

1 45762,7
V ( P ) = V ( A ) = = 0,000203389
2
N M 2
300 2 50 2

V ( A ) 45762,7
C v( P ) = C v( A ) = = = 0,089 (8,9%)
A 2400

Se observa que los errores de muestreo son ligeramente mayores en el caso de


reposicin.

7.3. En un proceso electoral se toma una muestra aleatoria de 10 urnas, el nmero de votantes y sus
papeletas favorables a un determinado partido son:

Nmero de votantes 4 2 6 1 5 3 3 8 1 4
Papeletas favorables 2 1 4 1 2 1 2 5 0 3

Suponiendo muestreo con reposicin, estimar la proporcin de votos favorables a ese partido
en toda la poblacin y su error de muestreo.

Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las
papeletas introducidos en ellas. Por tanto, los nmeros de papeletas en las distintas urnas
sern los tamaos de los conglomerados Mi. Se considera la clase A de los votantes que
votan a favor del partido en cuestin. Por tanto, las papeletas favorables al partido en cada
urna sern los valores Ai.

Ya que los conglomerados son de distinto tamao, para estimar la proporcin del
total de votantes de la poblacin que votan al partido utilizaremos el estimador de la razn
de A a M siguiente:
10

A i
21
P = i =1
10
= = 0,57
37
M
i =1
i

Para estimar la varianza de la proporcin con reposicin utilizamos el estimador de


la varianza del estimador de la razn:
290 Muestreo estadstico. Conceptos y problemas resueltos

1 2 2 2 1 10 10 10
V (P ) = 2
(SA + R SM
2RSAM ) = 2
( Ai2 + R 2 Mi2
2R Ai Mi )
nM nM (n
1) i =1 i =1 i =1

1
= (65 + 0,572 181
2 0,57 106) = 0,00242
10 3,72 (10
1)

El error de muestreo estimado ser ( P ) = V ( P ) = 0,00242 = 0,049 .

7.4. Se trata de estudiar la superficie de una regin montaosa dedicada a la plantacin de pinos.
La regin, que tiene un total de 25000 km2, se divide en 100 zonas disjuntas lo ms similares
entre s de tal forma que cada zona contiene plantas de todas las clases que crecen en la regin.
Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales
a sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:

0,05, 0,25, 0,10, 0,30, 0,15, 0,25, 0,35, 0,25, 0,10 y 0,20
Se pide un estimador insesgado de la superficie total de la regin dedicada a la plantacin de
pinos, su error relativo y un intervalo de confianza al nivel = 0,05.

Sea Mi = Superficie de la zona i-sima


Sea Xi = Superficie dedicada a la plantacin de pinos

n
X n
Xi M n
Xi 2500
X HH = i = = M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i

M
2 2 2
n Xi n Xi n Xi

X HH


X HH M
M
X HH
i =1 Pi = i =1 M i M = i =1 =
V ( X HH ) = i

n(n
1) n(n
1) n(n
1)
(25000 0,05
5000)2 + (25000 0,25
5000)2 + L + (25000 0,20
5000)2
= 590278
10(10
1)

V ( X ) 590278
C v( X ) = = = 0,15 (15%)
X 5000

La estimacin por intervalos suponiendo normalidad en la poblacin es:

X ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:

( X ) 590278
X = 5000 = [1564, 8346]
0,05
Muestreo unietpico de conglomerados 291

7.5. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos.
Se selecciona una muestra de tres departamentos con reposicin y probabilidades
proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente
presenta el nmero de artculos de equipo NA en cada departamento D.

D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6

1) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad)
tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos
impropiamente identificados en la empresa y su error relativo de muestreo.

2) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que
los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente
identificados.

Como se selecciona la muestra de tres departamentos con probabilidades proporcionales al


nmero de artculos de equipo en cada departamento, los tres departamentos seleccionados
para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor probabilidad de
seleccin (por tener el mayor nmero de artculos).

Al ser la seleccin con probabilidades proporcionales a los tamaos se tiene que:

Mi 40 35 33
Pi = P1 = , P2 = y P3 =
M 315 315 315
Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.

1 n M P 1 n M P M n
315 2 2 2
A HH = MPHH = i i = i i = P = i + +  18
n i Pi n i Mi M n i 3 40 35 33

Pi = proporcin muestral en el conglomerado i-simo

Como estamos en muestreo monoetpico con reposicin y probabilidades desiguales


proporcionales a los tamaos, utilizamos para estimar la varianza el estimador:
2 2
n
A n
M P
( )
n
i Pi
A i Pi i
M P M 2 Pi
P
2

()
V A = i
n (n
1)
= i

n (n
1)
= i

n (n
1)
=

315 2 2 18
2
2 18
2
2 18
2


+
+
= 1,04209
3 2 40 315 35 315 33 315
292 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar la proporcin de artculos propiamente identificados observamos que


los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27
artculos propiamente identificados, respectivamente. El estimador ser el siguiente:

Mi Mi
Pi Pi
1 n
M 1 n
1 n 1 36 30 27
P = = M = Pi = + + = 0,858
n i Pi n i Mi M n i 3 40 35 33

(P
P )
n 2

1 36
2 2 2

() 1
() 30 27
i

V P = 2V A = i
=
0,858 +
0,858 +
0,858 = 0,000558
M n(n
1) 3 2 40 35 33

El intervalo de confianza al 95%, suponiendo normalidad, ser:

P V ( P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043]

7.6. Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparacin por sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero
de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria
simple sin reposicin de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto
total mensual en reparaciones por industria y el nmero de sierras por industria se presentan en
la tabla siguiente:
Costo total de Costo total de
N de N de
Indus. reparaciones Indus. reparaciones
sierras sierras
mensual mensual
1 3 50 11 8 140
2 7 110 12 6 130
3 11 230 13 3 70
4 9 140 14 2 50
5 2 60 15 1 10
6 12 280 16 4 60
7 14 240 17 12 280
8 3 45 18 6 150
9 5 60 19 5 110
10 9 230 20 8 120

1) Estimar el costo promedio de reparacin mensual por sierra y su error de muestreo.


2) Estimar la cantidad gastada por las 96 industrias en la reparacin de sierras y su error de
muestreo.
3) Despus de verificar sus registros de ventas, el fabricante se percata de que ha vendido un
total de 710 sierras a esas industrias. Usando esta informacin adicional, estimar la
cantidad total gastada en reparacin de sierras para estas industrias y su error de muestreo.
4) El mismo fabricante quiere estimar el coste de reparacin promedio por sierra para el mes
siguiente: cuntos conglomerados debe seleccionar en la muestra si quiere que su error de
muestreo sea inferior a una unidad?
Muestreo unietpico de conglomerados 293

Consideramos las industrias como conglomerados (N = 96). Se extrae una muestra de 20


conglomerados (n = 20) siendo las unidades elementales el nmero de sierras Mi de cada
industria. El coste promedio de reparacin de sierra se estimar como la razn entre el coste
total de reparacin por industria y el nmero de sierras por industria. Como los
conglomerados son de tamaos desiguales tenemos:
n

X
i =1
i
50 + 110 + L + 120 2565
x= n
= = = 19,73
3 + 7 +L+ 8 130
M
i =1
i

1
f 2 2 2 S ) = 1
f ( X 2 + R 2 M 2
2R X M ) =
10 10 10
V ( x ) = ( S x + R SM
2R xm i i i i
nM 2 nM 2 (n
1) i =1 i =1 i =1

20
1

96 (460225+ 19,732 1188


2 19,73 22285) = 0,7905 ( x ) = 0,89
2
130
20 (20
1)
20
Para estimar el coste total en reparacin de sierras en las industrias tomamos:

N n
96
X = X i = 2565 = 12312
n i =1 20

2
n
n
(X
x) X i
2

1
f i =1 i N 2 (1
f ) n i =1
V ( X ) = N 2 ( X i
2
=
)=
n n
1 n(n
1) i =1 n
20
96 2 (1
)
96 (460225
(2565) ) = 25200516 ( X ) = 1587,467
2

20(20
1) 20

Ahora conocemos M = 710 y queremos estimar la cantidad total gastada para


reparacin de sierras en las industrias. Utilizaremos el estimador del total basado en la razn
definido como:
n

X i
2565
X = i =1
n
M = 710 = 14008,846
130
M
i =1
i

1
f 2 2 2 N 2 (1
f ) 10 2 2 10 2 10
V ( X ) = N 2 (Sx + R SM
2RSxm ) = ( Xi + R Mi
2R Xi Mi )
n n(n
1) i =1 i =1 i =1

20
962 1

= 96 (460225+ 19,732 1188
2 19,73 22285) = 308467,24 ( X ) = 555,4
20 (20
1)

El nmero n de conglomerados a seleccionar en la muestra si se quiere un error de


muestreo inferior a una unidad al estimar el coste de reparacin promedio por sierra para el
mes siguiente se obtiene despejando n en la expresin:
294 Muestreo estadstico. Conceptos y problemas resueltos

n
1

V (x ) = 96 16066,002 < 1 n > 14


2
710 19
n
96

7.7. Un socilogo quiere estimar el ingreso promedio por persona en una ciudad pequea en la que
no est disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques
rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta
a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:

Conglomerado Nmero de Ingreso total por


residentes (Mi ) conglomerado (Xi )
1 8 96000
2 12 121000
3 4 42000
4 5 65000
5 6 52000
6 6 40000
7 7 75000
8 5 65000
9 8 45000
10 3 50000
11 2 85000
12 6 43000
13 5 54000
14 10 49000
15 9 53000
16 3 50000
17 6 32000
18 5 22000
19 5 45000
20 4 37000
21 6 51000
22 8 30000
23 7 39000
24 3 47000
25 8 41000
SUMA 151 1329000

1) Estimar el ingreso promedio por persona en la ciudad y establecer un lmite para el error de
estimacin.
2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin sabiendo que hay 2500 residentes en la ciudad.
3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin si se desconoce el nmero de residentes en la ciudad.

Consideramos los bloques rectangulares de residentes como conglomerados (N = 415). Se


extrae una muestra de 25 conglomerados (n = 25), siendo las unidades elementales el
nmero de residentes Mi de cada bloque.
Muestreo unietpico de conglomerados 295

El ingreso promedio por persona en la ciudad se estimar como la razn entre el


ingreso total de los bloques y el nmero de residentes en los bloques. Como los
conglomerados son de tamaos desiguales tenemos:
n

X i
1329000
x= i =1
n
= = 8801
151
M
i =1
i

1
f 2 2 2 1
f 10 10 10
V ( x ) = 2
( S x + R S M
2 R S xm ) = 2
( X i2 + R 2 M i2
2 R X i M i ) = 653785
nM nM (n
1) i =1 i =1 i =1

El lmite para el error de estimacin al 95% ser:

x 2 V ( x ) = 8801 2 653785 = 8801 1617

Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:

X = Mx = 2500(8801) = 22002500

El error de estimacin se estima mediante:

V ( X ) = M 2V ( x ) = 2500 2 (653785)

El lmite para el error de estimacin al 95% ser:

X 2 V ( X ) = 22002500 4042848

Si no se conocen los residentes en la ciudad M, para estimar el ingreso total de todos


los residentes de la ciudad utilizamos el estimador:

N n
415
X = X i = 1329000 = 22061400
n i =1 25

2
n
n
1
f
(X i
x ) N 2 (1
f ) n2
X i
V ( X ) = N 2 ( X i
)=
2 i =1
i =1
=
n n
1 n( n
1) i =1 n
25
415 2 (1
)
415 (82039000000
(1329000) ) ( X ) = 1752960
2

25(25
1) 25

El lmite para el error de estimacin al 95% ser:

X 2 V ( X ) = 22061400 3505920
296 Muestreo estadstico. Conceptos y problemas resueltos

7.8. Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el nmero promedio de das de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes nmeros de empleados
por divisin. Ya que el nmero de das de ausencia por enfermedad dentro de cada divisin
debe estar altamente correlacionado con el nmero de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al nmero de empleados. Mostrar cmo
seleccionar la muestra si los respectivos nmeros de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supngase que el nmero total de das de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 =
4160, X3 = 5790. Estimar el nmero promedio de das de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un lmite para el error de estimacin.
Comenzamos listando el nmero de empleados y el intervalo acumulado para cada divisin.

Divisin Nmero de Intervalo acumulado


empleados
1 1200 1-1200
2 450 1201-1650
3 2100 1651-3750
4 860 3751-4610
5 2840 4611-7450
6 1910 7451-9360
7 390 9361-9750
8 3200 9751-12950
12950

Como se van a muestrear n = 3 divisiones, debemos seleccionar tres nmeros


aleatorios entre 00001 y 12500. Los nmeros obtenidos mediante una funcin generadora de
nmeros aleatorios automatizada resultan ser 02011, 07972 y 10281. El primero pertenece al
intervalo acumulado de la divisin 3, el segundo al de la divisin 6 y el tercero al de la
divisin 8. Por lo tanto, la muestra estar formada por las divisiones 3, 6 y 8.
Xi
1 n
Xi n
M =1
n
X i 1 4220 4160 5790
X HH = = = + + = 2,02
M i =1 nPi i =1 M i n i =1 M i 3 3100 1910 3200
n
M
2

n
X
n Xi
2
n
X i
X HH

2

i =1
i

Mi

X HH


X
HH
i =1 MPi M

M
1 i =1 Pi M
V ( X HH ) = 2 = = =
M n(n
1) n(n
1) n(n
1)
2
n Xi 4220
2
4160
2
5790
2



i =1 M i

X HH


2,02 +
2 ,02 +
2,02
3100 1910 3200
= = 0,0119
n(n
1) 3(3
1)

El lmite para el error de estimacin ser 2 0,0119 = 0,22 .


Muestreo unietpico de conglomerados 297

EJERCICIOS PROPUESTOS

7.1. De una poblacin formada por N conglomerados se selecciona una muestra de tamao n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales Pi, y los n
1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizndose todas las extracciones sin reposicin. Se pide una
estimacin insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, Xi el total del conglomerado i-simo y conociendo los siguientes datos
de los conglomerados de la muestra:

Pi 0,026 0,017 0,022 0,013


Xi 100 80 120 60

7.2. En una poblacin compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetpica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b
=1173. Se pide:
Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8.
Formar la tabla poblacional del anlisis de la varianza y hallar el coeficiente de correlacin
intraconglomerados.

7.3. Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la
proporcin de empleados que apoyan la nueva poltica. La industria consiste de 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos
rpidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a travs de un
cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporcin de
empleados en la industria que apoyan la nueva poltica de jubilacin y establecer un lmite
para el error de estimacin.

Planta Nmero de Nmero de empleados


empleados que apoyan la nueva
poltica
1 51 42
2 62 53
3 49 40
4 73 45
5 101 63
6 48 31
7 65 38
8 49 30
9 73 57
10 61 45
11 58 51
12 52 29
13 65 46
14 49 37
15 55 42
298 Muestreo estadstico. Conceptos y problemas resueltos

7.4. El gerente de circulacin de un peridico desea estimar el nmero promedio de ejemplares


comprados por familia en determinada comunidad. Los costos de transporte de un hogar a
otro son sustanciales. Es por eso por lo que se listan los 4000 hogares de la comunidad en
400 conglomerados geogrficos de 10 hogares cada uno, y se selecciona una muestra
irrestricta aleatoria de 4 conglomerados. Se realizan las entrevistas con los resultados que se
muestran en la tabla anexa. Estimar el nmero promedio de peridicos por hogar en la
comunidad y establecer un lmite para el error de estimacin.

Conglomerado Nmero de peridicos Total


1 1 2 1 3 3 2 1 4 1 1 19
2 1 3 2 2 3 1 4 1 1 2 20
3 2 1 1 1 1 3 2 1 3 1 16
4 1 1 3 2 1 5 1 2 3 1 20

7.5. Se disea una encuesta econmica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un lmite para el error de
estimacin.

Barrio Nmero de Cantidad total


muestreado hogares gastada en servicios
1 55 2210
2 60 2390
3 63 2430
4 58 2380
5 71 2760
6 78 3110
7 69 2780
8 58 2370
9 52 1990
10 71 2810
11 73 2930
12 64 2470
13 69 2830
14 58 2370
15 63 2390
16 75 2870
17 78 3210
18 51 2430
19 67 2730
20 70 2880
CAPTULO

MUESTREO BIETPICO
DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas.
2. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales.
3. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales considerando todas las opciones
posibles de reposicin o no en ambas etapas.
4. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
de distinto tamao con probabilidades iguales.
5. Analizar los estimadores y sus errores en muestreo bietpico de
conglomerados de distinto tamao con probabilidades iguales considerando
todas las opciones posibles de reposicin o no en ambas etapas.
6. Estudiar el tamao de la muestra en muestreo bietpico.
7. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y con reposicin en primera etapa.
8. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y sin reposicin en primera etapa.
9. Presentar el concepto de muestreo polietpico.
10. Analizar los estimadores y sus errores en muestreo polietpico.
11. Estudiar diseos polietpicos complejos.
12. Estudiar el muestreo bietpico con estratificacin en primera etapa.
300 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo bietpico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamao.
2. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao.
3. Muestreo bietpico de conglomerados de distinto tamao y probabilidades
iguales.
4. Tamao de la muestra en muestreo bietpico.
5. Muestreo bietpico con probabilidades desiguales y con reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
6. Muestreo bietpico con probabilidades desiguales y sin reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
7. Muestreo polietpico.
8. Diseos complejos: Muestreo bietpico con estratificacin en primera
etapa.
9. Problemas resueltos.
10. Ejercicios propuestos.
Muestreo bietpico de conglomerados 301

MUESTREO BIETPICO DE CONGLOMERADOS. ESTIMADORES PARA


PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO

El muestreo bietpico de conglomerados es un tipo de muestreo en el que en una primera etapa se


selecciona una muestra de n conglomerados de tamaos Mi, i = 1, 2, ..., n y en una segunda etapa
se selecciona, independientemente en cada conglomerado de la primera etapa, una submuestra de
mi unidades elementales de entre las Mi del conglomerado. En ambas etapas la seleccin puede
ser con o sin reposicin, pero en la segunda etapa suele usarse muestreo sin reposicin. En la
segunda etapa se puede utilizar cualquier tipo de muestreo de los ya estudiados, pero
generalmente sin reposicin y probabilidades iguales.

En el muestreo bietpico no es necesario utilizar todas las unidades elementales de


los conglomerados seleccionados en primera etapa. Tampoco es necesario un marco de
unidades elementales completo; basta con un marco ms basto para conglomerados, y dentro
de cada conglomerado basta con un submarco para el submuestreo en segunda etapa. De esta
forma, a medida que se consideran etapas de submuestreo se utilizan submarcos ms bastos,
y por lo tanto ms fciles de conseguir y manejar, que los marcos completos de unidades
elementales. Cuando hay un cierto grado de homogeneidad dentro de los conglomerados
muestrales es absurdo seleccionar todas sus unidades elementales para la muestra. Bastar
con elegir slo algunas de ellas originndose el submuestreo. En el muestreo bietpico se
necesitan menos recursos y el coste es menor, ya que slo se visitan algunas de las unidades
elementales de los conglomerados elegidos en primera etapa para la muestra. No obstante, en
el muestreo bietpico la precisin es menor; los submarcos dentro de cada conglomerado
pueden originar complicaciones al aumentar el nmero de etapas de submuestreo y aparecen
fuentes de variacin que complican los clculos algebraicos (tantas fuentes como etapas
tenga el muestreo). La primera fuente es debida a la seleccin de las unidades primarias y la
fuente 2 es debida al submuestreo dentro de cada unidad primaria.

El muestreo bietpico tambin se denomina muestreo en dos etapas o muestreo con


submuestreo (el submuestreo es la segunda etapa).

Un estimador insesgado de la media ser, lgicamente, la media muestral de las


medias muestrales derivadas del submuestreo dentro de cada conglomerado:

n m
1 1 n
x=
nm
X ij =
i j
xi
n i

Para el total poblacional, proporcin y total de clase, los estimadores insesgados son
los siguientes:

NM n
1 n NM n
X = N M x = xi , P = Pi , A = NMP = P i
n i n i n i

VARIANZAS Y SU ESTIMACIN EN MUESTREO BIETPICO CON


PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO

Las expresiones para la varianzas de los estimadores en el muestreo bietpico dependern de


las fracciones de muestreo en ambas etapas y de la reposicin. Tenemos:
302 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin en las dos etapas

S b2 S2
V (x ) = (1
f 1 ) + (1
f 2 ) w
nM nm
N

( X ) (X
Xi )
M
2

X
n m i
i ij

, S b2 = M
j
f1 = , f 2 = , S w2 =
N M N
1 (M
1) N
N 2 MS b2 N 2 M 2 S w2
V ( X ) = N 2V (x ) = (1
f 1 ) + (1
f 2 )
n nm

1 N 1 N

M ( Pi
P ) MPi ( 1
Pi )
2

N
1 i N ( M
1) i =1
V ( P$ ) = ( 1
f 1 ) + (1
f 2 ) =
nM nm
N N

( P
P) MP (1
P )
2
i i i
(1
f )1
i

n( N
1)
+ (1
f 2 )
i =1

nm N ( M
1)

N N

( P
P) P (1
P )
2 2 2 3
N M i NM i i
V ( A$ ) = N 2 M 2V ( P$ ) = ( 1
f 1 ) i
+ (1
f 2 ) i =1

n( N
1) nm ( M
1)

A partir de la tabla de descomposicin del anlisis de la varianza muestral, pueden


realizarse las estimaciones de las varianzas. La citada tabla es la siguiente:

Fuente Grados libertad Sumas de cuadrados Cuadrados medios Valores esperados


n
m 2
(x ) Sb2 S b + (1
f 2 )S w2
2
Entre n
1 m i
x
i M
n m

( X )
2
Dentro n(m
1) ij
xi S w2 S w2
i j
n m

(X )
2
Total nm
1 ij
x S 2 S2
i j

Las estimaciones de las varianzas para las dos etapas sin reposicin son las siguientes:

S 2 S 2
V (x ) = (1
f 1 ) b + f 1 (1
f 2 ) w , y V ( X ) = N 2 M 2V ( x )
nm nm
n n

(P
P ) PQ
2

()
i i i
V P = (1
f1 ) i
+ f1 (1
f 2 ) i

n(n
1) n (m
1)
2
Muestreo bietpico de conglomerados 303

V$ ( X$ ) = N 2 M 2V$ ( x ) y V$ ( A$ ) = N 2 M 2V$ ( P$ )

S$b2
Si f1 es muy pequea, se toma V ( x ) = ( 1
f 1 )
$ .
nm

Muestreo con reposicin en las dos etapas

b2 w2
V (x ) = +
nM nm

N 2 M b2 N 2 M 2 w2
$ ( )
V ( X ) = V NMx = +
n nm

1 N
1 N N N
M ( P
P) MP (1
P ) ( P
P) P (1
P )
2 2
i i i i i i
N NM
V ( P$ ) =
i i =1 i i =1
+ = +
nM nm nN nm N

N N
NM 2 ( Pi
P ) NM 2 Pi ( 1
Pi )
2

V ( A$ ) = N 2 M 2V ( P$ ) =
i i =1
+
n nm
Las estimaciones de varianzas son:

S 2
V (x ) = b , y V ( X ) = N 2 M 2V ( x )
nm
m n
i (Pi
P ) (P
P ) (P
P )
n n
2 2 2

() ()
i i
n
1
V P = = i
y V A = N 2 M 2 i

nm n(n
1) n(n
1)

Primera etapa con reposicin y segunda sin reposicin

b2 S w2
V (x ) = + (1
f 2 )
nM nm

N 2 M b2 N 2 M 2 S w2
$ ( )
V ( X ) = V NMx = + (1
f 2 )
n nm

1 N 1 N N N

M( Pi
P) MPi ( 1
Pi ) ( Pi
P) MPi ( 1
Pi )
2 2

N i N ( M
1) i =1
V ( P$) = + (1
f2 ) = i + (1
f2 ) i =1
nM nm nN nmN ( M
1)

N N
NM 2 ( Pi
P) NM 3 Pi ( 1
Pi )
2

V ( A$ ) = N 2 M 2V ( P$ ) = i
+ (1
f 2 ) i =1

n nm ( M
1)
304 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de varianzas son iguales que para reposicin en las dos etapas:

S 2
V (x ) = b , y V ( X ) = N 2 M 2V ( x )
nm
m n
(Pi
P )2 (P
P ) (P
P )
n n


2 2

() ()
i i
n
1 i
V P = = i
y V A = N 2 M 2 i

nm n(n
1) n(n
1)

Primera etapa sin reposicin y segunda con reposicin

S b2 w2
V (x ) = (1
f1 ) +
nM nm

N 2 MSb2 N 2 M 2 w2
V ( X ) = V ( NMx ) = (1
f 1 )
$ +
n nm
1 N 1 N N N

M (Pi
P) MPi (1
Pi ) (Pi
P)2 Pi (1
Pi )
2

()
V P = (1
f1) N
1 i
nM
+ NM i =1
nm
= (1
f1) i
n(N
1)
+ i =1
nmN
N N
N 2 M 2 ( Pi
P) NM 2 Pi ( 1
Pi )
2

V ( A$ ) = N 2 M 2V ( P$ ) = (1
f 1 ) i
+ i =1
n( N
1) nm

Cuando la primera etapa es sin reposicin y la segunda con reposicin, las


estimaciones de varianzas son:

S 2 S 2
V (x ) = (1
f 1 ) b + f 1 w , y V ( X ) = N 2 M 2V ( x )
nm nm
N N

(P
P) P(1
P)
2

()
i i i
V P = (1
f1) i
+ i =1
y V ( A ) = N 2 M 2V ( P )
n(N
1) nmN
n

m n m P (1
P )
i i
Para proporciones y totales de clase: S b2 = (Pi
P )2 y S w2 = i =1
.
n
1 i n(m
1)

MUESTREO BIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO


Y PROBABILIDADES IGUALES

1 n N n
Para probabilidades iguales se tiene: X = N M i x i = M i xi .
n i n i

Las dos etapas sin reposicin

Las varianzas y sus estimaciones para las dos etapas sin reposicin son las siguientes:
Muestreo bietpico de conglomerados 305

Mi

(X
Xi )
N

(X
X)
2 2

( )
ij
i
N N
V X = N 2 (1
f 1 ) M (1
f ) (M
2 j
i
+
n(N
1)
1)mi
i 2i
n i i

mi
(X
xi )
n 2
X
X
)
2

( ) M (1
f 2i
( )
2 2 ij
N 1
f i i
N n
V X =
j
1
i + i

n n
1 n i mi mi
1
1 n
X i = X i , X i = M i x
n i i

Primera etapa sin reposicin y segunda etapa con reposicin

En este caso, las varianzas y sus estimaciones son las siguientes:


N

(X
X)
2

( ) N M
i N Mi
V X = N 2 (1
f 1 ) i mi (X
Xi )
2
i
+
n(N
1)
ij
n i j

mi

(X
xi )
n 2
X
X

2

( ) N 2
(1
f ) i i
N n
M 2 ij

V X =
j
1
i + i

n n
1 n i mi mi
1
1 n

X i = X i , X i = M i x i
n i

Las dos etapas con reposicin

En este caso, las varianzas y sus estimaciones son las siguientes:

( ) N N N M N Mi
V X = (X i
X ) + (X
Xi )
i

i mi
2 2
ij
n i n i j
n 2

i X i
X i
( )
2
N 1 n
V X = X i = X i y X i = M i x i
n n
1 n i

Primera etapa con reposicin y segunda sin reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
Mi

(X
Xi )
2

( )
ij
N N
N N
V X = (X
X) + M (1
f ) (M
2 2 j


1)mi
i i 2i
n i n i i
n 2

i X i
X i
( )
2
N 1 n
V X = X i = X i y X i = M i xi
n n
1 n i
306 Muestreo estadstico. Conceptos y problemas resueltos

1 n
Para proporciones y totales de clase: X i = M i Pi y X i = M i Pi
n i

Los estimadores para medias, proporciones y totales de clase en el muestreo


bietpico con probabilidades iguales y conglomerados de distinto tamao son inmediatos:

X N n M i 1 1
X = = xi , V ( X ) = 2 V ( X ) , V ( X ) = 2 V ( X )
M n i M M M

N n
Mi N n
P = M Pi , A = MP = Mi Pi
n i n i

Pi = proporcin muestral en el conglomerado i-simo

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo sin reposicin en ambas etapas son las siguientes:

() N 3 PQ N PQ
N
V A = (1
f 1 ) + M (1
f ) (M
1)m
3 i i

n(N
1) n
i 2i
i i i

2
n
1 n
M i Pi
M i Pi
N (1
f 1 ) i
()
2
n i =1 +N
n
PQ
V A =
n

n
1 n
M (1
f ) m
1
i
i
2
2i
i i

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo sin reposicin en primera etapa y con reposicin en segunda son las siguientes:

() N 3 PQ N M i2
N
V A = (1
f 1 ) + i m Pi Qi
n(N
1) n i

2
n
1 n
M P
M i Pi
N (1
f 1 ) i Pi Q i
()
2 i i
n i =1 +N
n
V A = M i2
n n
1 n i mi
1

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo con reposicin en ambas etapas son las siguientes:

()N2 N M i2
N
V A = PQ + Pi Qi
n n i mi

2

1 M P
n n

M P
()
i i i i
N2 i n i =1
V A =
n n
1
Muestreo bietpico de conglomerados 307

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo con reposicin en primera etapa y sin reposicin en segunda son las siguientes:

() N2 N PQ
N
V A =
n
PQ +
n
M (1
f ) (M
1)m
i
i
3
2i
i i

i i

2

1 M P
n n

M P
()
i i i i
N2 i n i =1
V A =
n n
1

1 1
Para proporciones aplicamos V ( P ) = 2 V ( A ) y V ( P ) = 2 V ( A ) .
M M

TAMAO DE LA MUESTRA EN MUESTREO BIETPICO

Suele expresarse el coste total C mediante la funcin general de costes f ( n, M , m ) definida


como:
C = co + c1n a1 + c2 ( nM ) + c3 ( nM )
a2 a3

en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparacin tcnica, gastos administrativos previos, cartografa, etc. Puede empezarse
por suponer deducido el coste co del total C, para no preocuparse ms que de la distribucin
de los costes variables.

Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Como casos particulares tpicos de nuestra funcin de costes tenemos:

1) a1 = a2 = a3 = 1, C = c1n + c2 nM + c3 nm

2) Adems de verificarse la condicin anterior, suponemos c2 = 0, con lo cual no se


cuenta el coste del listado de unidades de segunda etapa. Ahora tenemos: C = c1n + c3 nm ,
que suele denominarse funcin de coste de campo, y que es la ms utilizada habitualmente.

3) Adems de las dos condiciones anteriores suponemos que c 1 = 0, lo que equivale


a considerar el coste total directamente proporcional al tamao de la muestra. Tendremos
C = cnm = cm .

Una expresin matemtica de la funcin de coste no deducible de la funcin general


anterior es la funcin de coste de Hansen, Hurwitz y Madow, cuya expresin es
C = co n + c1n + c2 nm , donde el primer trmino expresa los gastos de viaje entre las
unidades primarias. Hansen, Hurwitz y Madow obtienen el par ( n, m ) que minimiza la
varianza para una funcin de coste dada.
308 Muestreo estadstico. Conceptos y problemas resueltos

Nosotros vamos a suponer en los clculos una funcin de coste de campo definida
como C = n c1 + n m c2 , y evaluaremos la varianza de la media a optimizar mediante la
S2
expresin aproximada V (x ) = (1 + (m
1)  ) . Para obtener los valores de n y m que
nm
hagan mnima V ( x ) con la restriccin dada por la funcin de coste de campo construiremos
la funcin de Lagrange:
S2
"= ( 1 + ( m
1)  ) + ( C
n c1
n m c2 )
nm

Igualaremos a cero sus derivadas parciales respecto de n, m y y eliminando


parmetros adecuadamente se tiene:
c 1

mop = 1
c2 

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y CON


REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN

Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin,


siendo X$ i una estimacin de su total al considerar el submuestreo, y representamos por xi
un estimador insesgado de su media, podemos aplicar la expresin del estimador general de
Hansen y Hurwitz X$ HH (estudiado en el Captulo 2) al muestreo bietpico, siendo la primera
etapa con reposicin (la segunda etapa puede ser con o sin reposicin). As, un estimador
insesgado del total ser:

n
X 1 n X 1 n M x
Un estimador insesgado del total ser: X HH = i = i = i i .
i nPi n i Pi n i Pi

Mi N
Para probabilidades proporcionales al tamao  Pi = con M = M i , luego:
M i =1

1 n M x 1 n M i xi M n
X HH = i i = = x i
n i Pi n i Mi M n i

Los estimadores para medias, proporciones y totales de clase en el muestreo


bietpico con probabilidades desiguales son inmediatos:

Mi Mi
x Pi
1 1 n
X i 1 n M i 1 n
1 n M P
X = X HH = i nP n i P
= , A = M P = M M = i i
M M i i n i Pi n i Pi
Mi
P
1 n M i
P=
n i Pi
Pi = proporcin muestral en el conglomerado i-simo.
Muestreo bietpico de conglomerados 309

Varianzas

Como la primera etapa es siempre con reposicin, distinguiremos entre si la segunda etapa
es con reposicin o sin reposicin.

Sin reposicin en segunda etapa

2
1 N X N
M 2 (1
f 2i ) 2 1
V ( X HH ) = i
X Pi + i S i , V ( X HH ) = 2 V ( X HH )
n i =1 Pi i nPi mi M

1 N A N M2 (1
f2i ) Mi PiQi
V( AHH) = i
A2 + i
n i=1 Pri i nPrimi Mi
1

1
V ( PHH ) = 2 V ( A )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaos Pi =
M
N
con M = M , se tiene:
i
i =1

Mi N Mi2 (1
f2i ) 2 M N Xi2 X 2 N Mi
2 2
1 N Xi
V ( XHH) =
X + Si =
+ (1
f2i ) Si2
n i =1 Mi / M M i nmi Mi / M n i =1 Mi M i mi

Con reposicin en segunda etapa

2
1 N X N
M i2 1
V ( X HH ) = i
X Pi + i2 , V ( X HH ) = 2 V ( X HH )
n i =1 Pi i nPi mi M

2
1 N A N
M i2
V ( A HH ) = i
A Pri + Pi Qi
n i =1 Pri i nPri mi

1
V ( PHH ) = 2 V ( A )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaos Pi =
M
N
con M = M , se tiene:
i
i =1

M N Xi
2 2
1 N Xi Mi N M i2 X2
2
N
M
V ( X HH ) =
X + 2
i =
+ i i2
n i =1 M i / M M i nmi M i / M n i =1 M i M i mi

310 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas por el mtodo de los conglomerados ltimos)

Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con
reposicin, no dependen de si la segunda etapa es o no con reposicin.

Independientemente de que la segunda etapa sea o no con reposicin, si la primera


etapa es con reposicin, los estimadores insesgados para las varianzas de los estimadores son
los siguientes:
2
n
X

i P
X HH
i


1
V X =
, V ( X ) = 2 V ( X HH )
i

n(n
1) M

2 2
n A i n M i Pi
i P
A i P
MP

V A = = i
i

n(n
1) n(n
1)

1
V ( P ) = 2 V ( A )
M

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y SIN


REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN

Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin,


siendo X$ i una estimacin de su total al considerar el submuestreo, y representamos por xi
un estimador insesgado de su media, podemos aplicar la expresin del estimador general de
Hoewitz y Thompson X HT al muestreo bietpico, siendo la primera etapa sin reposicin (la
segunda etapa puede ser con o sin reposicin). As, un estimador insesgado del total ser:

n
X n
M x
X HT = i = i i
i i i i
Como casos particulares de este estimador tenemos:

Conglomerados del mismo tamao M

n
Mxi n
x
X HT = = M i
i i i i
N
nM i
Probabilidades proporcionales al tamao   i = con M = M i
M i =1

n
M x n
M i xi M n
X HT = i i = = x i
i i i nM i M n i
Muestreo bietpico de conglomerados 311

n
Probabilidades iguales   i =
N

n
M x n
M x N n
X HT = i i = i i = M x i i
i i i n N n i

Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposicin.

Los estimadores para medias, proporciones y totales de clase en el muestreo


bietpico con probabilidades desiguales son inmediatos:

Mi
xi
1 1 n
X i n
X = X HT =  = M
M M i i i i

Mi
n Pi
M
P = Pi = proporcin muestral en el conglomerado i-simo
i i

Mi
Pi
n
M
n
M P
A = MP = M = i i
i i i i
Varianzas

Como la primera etapa es siempre sin reposicin, distinguiremos entre si la segunda etapa es
con reposicin o sin reposicin.

Sin reposicin en segunda etapa

N
X2 N
X Xj N
(1
f 2i ) M i2 S i2
V ( X HT ) = i (1
 i ) + i ( ij
 i  j ) + ,
i =1  i i j  i  j i mi  i
1
V ( X HH ) = 2 V ( X HH )
M
Con reposicin en segunda etapa

N
X2 N
X Xj N
M 2 2 1
V ( X HT ) = i (1
 i ) + i ( ij
 i  j ) + i i , V ( X HH ) = 2 V ( X HH )
i =1  i i j  i  j i mi  i M

Para el caso particular de totales de clase y proporciones se hacen las siguintes


sustituciones en las frmulas anteriores:

Mi
S i2 = Pi Qi , i2 = Pi Qi
Mi
1
312 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas mediante los teoremas I y II de Durbin)

Sin reposicin en segunda etapa

n
X i2 n
X i X j n
(1
f 2i ) M i2 S i2
V ( X HT ) = (1
 i ) + ( ij
 i j ) +
i =1  i i j  i  j i mi  i

Con reposicin en segunda etapa

N
X 2 N
X X j N
M 2 S 2
V ( X HT ) = i (1
 i ) + i ( ij
 i  j ) + i i
i =1  i i j  i  j i mi  i

1
Para las medias se hace V ( X HH ) = 2 V ( X HH ) .
M
mi
Para el caso particular de totales de clase y proporciones se hace S i2 = Pi Qi .
mi
1

MUESTREO POLIETPICO

En el muestreo polietpico se realizan submuestreos consecutivos hasta un nmero de etapas


determinado. Por ejemplo, en el muestreo trietpico se selecciona en una primera etapa una
muestra de unidades primarias, en una segunda etapa se realiza submuestreo en cada una de
las unidades de la muestra de primera etapa y en una tercera etapa se realiza submuestreo en
cada una de las unidades de la muestra de segunda etapa. De forma similar se generalizara
para un nmero elevado de etapas, dando lugar al muestreo polietpico.

Muestreo con reposicin de unidades primarias y sin reposicin en las restantes etapas

Considerando la unidad muestral i-sima como una poblacin y representando por x i un


estimador insesgado de X i , podemos extender el estimador insesgado de Hansen y Hurwitz
a cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:

n
X 1 n X 1 n M x
X HH = i = i = i i
i nPi n i Pi n i Pi

La varianza de este estimador y su estimacin son las siguientes:


2
n X
2 i Pi
X HH
1 N X N

V ( X HH ) = i
X Pi + nPi i2 V X =
i

n i =1 Pi i n(n
1)

Muestreo sin reposicin en todas las etapas

Considerando la unidad muestral i-sima como una poblacin y representando por X i un


estimador insesgado de X i , podemos extender el estimador insesgado de Horvitz y Thompson a
cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:
Muestreo bietpico de conglomerados 313

n
X n
M x n
M x N n
X HT = i = i i = i i = M i xi
i i i i i n N n i

La varianza de este estimador es:

N
X2 N
X Xj N
V ( X HT ) = 2i  i + 2 i  ij
X 2 + i2  i
i =1 i i< j i  j i

Un estimador insesgado para la varianza es:

n
X i2 n
X i X j n
(1
f 2i ) M i2 S i2
V ( X HT ) = (1
 i ) + ( ij
 i j ) +
i =1  i i j  i  j i mi  i

DISEOS COMPLEJOS: MUESTREO BIETPICO CON ESTRATIFICACIN


EN PRIMERA ETAPA

En la prctica es habitual utilizar diseos polietpicos con distintos tipos de muestreo en


cada etapa. Es muy comn utilizar estratificacin de unidades primarias para seleccionar las
unidades primarias de la muestra de primera etapa mediante muestreo estratificado. Despus
se realiza la seleccin de las unidades de segunda etapa dentro de cada unidad de primera
etapa. Para este tipo de muestreo bietpico con estratificacin en primera etapa las frmulas de
los estimadores, varianzas y estimaciones de varianzas se presentarn a continuacin.
Sean los pesos de los estratos y las fracciones de muestreo.

NhM h n m
Wh = f h = h h = f 1h f 2 h
NM NhM h
L L
1 nh
Un estimador insesgado de la media es x st = Wh x h = Wh x ih pues
h h nh i

L L
1 n L L
E (x st ) = Wh E1 E 2 x h = Wh E1 E 2 xih = Wh E1 x h = Wh X h =X
h h nh i h h

La varianza del estimador de la media viene dada por:


L L
S2 S2
V (x st ) = Wh2 V (x h ) = Wh2 (1
f 1h ) bh + (1
f 2 h ) wh
h i nh M h nh mh

La muestra es autoponderada si f h = f 1h f 2 h = f y la estimacin de la varianza


vendr dada por la siguiente expresin:

L L S 2 S2
V (x st ) = Wh2 V (x h ) = Wh2 (1
f 1h ) bh + f 1h (1
f 2 h ) wh
h i
nh mh nh mh

De forma similar se realizan otros diseos complejos de encuestas. En cada etapa se


aplicarn los clculos relativos al tipo de muestreo definido en ella.
314 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

8.1. En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con
probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin
reposicin con fraccin de muestreo igual a 1/6, y se obtienen los siguientes valores para el
nmero de casas en las que viven jubilados:

Manzana 1 2 3 4 5 6
N de casas con jubilados 4 3 5 2 1 5
Se pide:

1) Suponiendo muestreo con reposicin de unidades primarias, estimar la proporcin P de


casas del barrio en las que viven jubilados y su error relativo de muestreo. Estimar por
intervalos al 95% el total A de casas del barrio en las que viven jubilados.
2) Suponiendo muestreo sin reposicin de unidades primarias y fraccin de muestreo en
primera etapa igual a 1/2, estimar la proporcin de casas del barrio en las que viven
jubilados y su error relativo de muestreo. Construir la tabla del anlisis de la varianza para la
muestra y estimar el valor del coeficiente de correlacin intraconglomerados. Estimar por
intervalos al 95% el total de casas del barrio en las que viven jubilados.

Consideramos las manzanas como conglomerados de igual tamao (30 casas cada manzana).

mi 1
Tenemos como datos n = 6, M = 30, f 2i = mi = f 2i M = 30 = 5 = m .
M 6

Estamos entonces en muestreo bietpico de conglomerados del mismo tamao con


submuestreo tambin del mismo tamao y con reposicin en primera etapa sin existir
reposicin en segunda etapa. El estimador de la proporcin es:

1 n 1 4 3 5 2 1 5 2
P = Pi = + + + + + =
n i =1 6 5 5 5 5 5 5 3

Para calcular la varianza del estimador realizamos la tabla muestral del anlisis de la
varianza. Para ello utilizamos seis variables de clasificacin de, C1 a C6, una por cada
conglomerado muestral, de modo que cada variable tiene un nmero de unos igual al total de
clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del
conglomerado muestral. Se elige Anlisis de la varianza de un factor en Anlisis de datos
del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1.
Los resultados se ven en la Figura 8-2.

S 2 0,53333
La varianza es V ( P ) = b = = 0,018 . El error relativo de muestreo es:
nm 6,5

V$ ( P$ ) 0,018 0,134164
Cv ( P$ ) = = = = 0,2 (20%)
P$ 2/3 2/3
Muestreo bietpico de conglomerados 315

Figura 8-1

Figura 8-2

Al ser la fraccin de muestreo en primera etapa 1/2, tenemos 1/2 = 6/N, de donde el
nmero de conglomerados en la poblacin es N = 13. Para hacer una estimacin por
intervalos del total de la caracterstica A en la poblacin, necesitamos la varianza del
estimador del total. Pero:

V ( A ) = N 2 M 2V ( P ) = 12 2  30 2  0,018 = 2332,8 ( A ) = 48,3

El intervalo de confianza para el total al 95% suponiendo normalidad ser:

(A
( A ), A
( A )) = [240
1,96  48,3,
240 + 1,96  48,3] = [145,33, 334,66 ]

2
A = NMP = 12  30  = 240
3

En el caso de que ambas etapas sean sin reposicin, los estimadores de la proporcin
y el total de clase no varan, pero s cambian los errores de muestreo. La varianza del
estimador de la proporcin ser ahora:

S2 S2 1 0,5333 1 1 0,1666
()
V P = (1
f1) b + f1(1
f2 ) w = 1

nm
+ 1

nm 2 6,5 2 6 6,5
= 0,0112

V$ ( P$ ) 0,0112 0,10583
El error relativo es Cv ( P$ ) = = = = 0,1587 (15,87%) y se
P$ 2/3 2/3
observa que en muestreo sin reposicin el error resulta ser menor.
316 Muestreo estadstico. Conceptos y problemas resueltos

8.2. Una regin tiene 1000 hogares agrupados en 50 pequeos municipios de tamaos desiguales
Mi (i = 1, 2, ..., 50). Se trata de estimar la proporcin de hogares que estn al corriente de
sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con
probabilidades iguales y sin reposicin en las dos etapas. En la primera etapa se obtienen 5
municipios muestrales de tamaos 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada
con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de
primera etapa los valores 1, 3, 2, 2 y 3 para el nmero de hogares que estn al corriente de
sus obligaciones fiscales. Se pide:

1) Hallar el estimador insesgado de la proporcin de hogares que estn al corriente de sus


obligaciones fiscales y su error absoluto y relativo de muestreo.

2) Construir la tabla del anlisis de la varianza para la muestra y comprobar la igualdad


fundamental.

Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales
son los hogares de los municipios. Tenemos:

mi 4
f 2i = = mi = 4 i
Mi Mi

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados de


distinto tamao es:

N n
M i 50 1 5 1 1 3 2 2 3
P = i M Pi = 5 1000 i M i Pi = 100 6 4 + 10 4 + 8 4 + 20 4 + 60 4 = 0,68
n

Para estimar la varianza de la proporcin utilizamos la frmula adecuada al


muestreo bietpico sin reposicin en las dos etapas con probabilidades iguales para
conglomerados de distinto tamao. Tenemos:

n
1 n
2

2
Mi Pi
Mi Pi
1 N (1
f1 ) i
() n i =1 + N M 2 (1
f ) PiQi = 0,1458
n
V P = 2 i 2i m
1
M n n
1 n i i

El error relativo de muestreo viene dado por el coeficiente de variacin del


estimador. Tenemos:

V ( P ) 0,1458 0,38
Cv( P ) = = = = 0,5588 (55,88%)
P 0,68 0,68

Como mi = 4 = m i , la tabla del anlisis de la varianza para la muestra en este


caso del muestreo bietpico es la siguiente:
Muestreo bietpico de conglomerados 317

Fuente Grados libertad Sumas de cuadrados Cuadrados medios


( )
n
2
entre n
1 m Pi
P Sb2
i

P (1
P )
n
dentro n(m
1) m i i S w2
i =1

Total nm
1 nm P Q S 2

La relacin fundamental del anlisis de la varianza ser: (nm


1)S 2 = (nm
n)S w2 + (n
1)Sb2 .
Todos los elementos del cuadro son calculables con nuestros datos, con lo que ya pueden
realizarse las operaciones para obtener los siguientes resultados:

Fuente Grados libertad Sumas de cuadrados Cuadrados medios


entre 5
1 = 4 0,7 0,175
dentro 5( 4
1) = 15 4,25 0,2833
Total 5 4
1 = 19 4,95 0,26

8.3. Consideremos una provincia con 400 municipios. Para estimar el total de hogares con
automvil en la provincia se selecciona una muestra de 10 municipios con igual
probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente
hogares utilizando una fraccin de muestreo f = 1/5. Se obtienen los siguientes datos:

Distritos Total de hogares en N de hogares en Hogares con


muestrales los distritos ( M i ) la muestra ( m i ) coche ( Ai )
1 200 40 6
2 180 35 7
3 35 7 1
4 220 44 7
5 80 16 1
6 140 28 3
7 125 25 2
8 65 13 2
9 140 28 2
10 55 11 1

Se pide:

1) Estimar el total de hogares con automvil en la provincia y sus errores absoluto y relativo
de muestreo.

2) Realizar la estimacin anterior por intervalos al 95% de confianza.

Consideramos los municipios como conglomerados de distinto tamao. Las unidades


elementales son los hogares dentro de los municipios.
318 Muestreo estadstico. Conceptos y problemas resueltos

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados


de distinto tamao con probabilidades iguales es:
N n
400 6 7 1
A = M P
i i = 200 + 180 + L + 53 = 6440
n i 10 40 35 11
Para estimar la varianza del total de clase utilizamos la frmula adecuada al
muestreo bietpico sin reposicin en las dos etapas (no se especifica otra cosa) con
probabilidades iguales para conglomerados de distinto tamao. Tenemos:
2
n
1 n
Mi Pi
Mi Pi
N (1
f1 ) i
()
2
n i =1 + N M 2 (1
f ) PiQi = 628237
n
V A = i 2i
n n
1 n i mi
1

El error relativo de muestreo viene dado por el coeficiente de variacin del estimador.
Tenemos:
V ( A ) 628237 792,614
Cv ( P ) = = = =0,123 (12,3%)
A 6440 6440
Para hacer una estimacin por intervalos del total de la caracterstica suponiendo
normalidad tendremos:

(A
( A ), A
( A )) = [6440
1.96 792,61, 6440 + 1.96 792,61] = [4886.4, 7993.5]

8.4. De una via formada por 1000 lneos de 50 cepas cada uno, se extrae una muestra de 30
lneos. Dentro de cada lneo de la muestra se analizan cinco cepas, utilizando muestreo con
probabilidades iguales y con reemplazamiento en primera etapa. El anlisis de la varianza de
la muestra para una variable medida sobre las cepas presenta los siguientes resultados:

Fuente de variacin Grados de libertad Cuadrados medios

Entre lneos 29 600


Dentro de lneos 120 400

1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las
cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza.

2) Realizar los mismos clculos para muestreo sin reposicin en ambas etapas, comparando
los resultados con los del apartado anterior.

Consideramos cada lneo como conglomerado de 50 cepas (tamaos iguales). Cuando existe
reposicin en primera etapa, la frmula de la estimacin de la varianza de la media,
independientemente de que haya o no reposicin en segunda etapa, es la siguiente:

S 2
V (x ) = b
nm

La tabla del anlisis de la varianza para la muestra en el caso del muestreo bietpico
es la siguiente:
Muestreo bietpico de conglomerados 319

Fuente Grados libertad Sumas de cuadrados Cuadrados medios


n
m ( xi
x )
2
entre n
1 S$b2
i
n m

( X )
2
dentro n( m
1) ij
xi S w2
i j
n m

( X )
2
Total nm
1 ij
x S$ 2
i j

Si consideramos los datos de nuestro problema tenemos S$b2 = 600 y S w2 = 400. Por tanto:
S 2 600
V (x ) = b = =4
nm 29 5

La amplitud del intervalo de confianza al 95% es 2 V (x ) , que puede considerarse


como un lmite para el error de muestreo, y que en nuestro caso vale 4.
Si las dos etapas son sin reposicin se tiene:

S 2 S 2 30 600 30 5 400
()
V x = (1
f1 ) b + f1 (1
f2 ) w = 1

nm
+ 1

nm 1000 30 5 1000 50 30 5
= 3,95

La amplitud del intervalo de confianza al 95% es 2 V (x ) , que en este caso vale 7,9.
Como es natural, tiene menos varianza el muestreo sin reposicin, ya que siempre es ms
preciso. Este hecho tambin se refleja en la anchura de los intervalos de confianza.

8.5. Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y
quiere estimar el nmero promedio de horas que las mquinas de coser estuvieron sin
funcionar por reparacin en los meses pasados. Debido a que las plantas estn muy
dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada
planta como un conglomerado de mquinas. Cada planta contiene muchas mquinas, y el
verificar los registros de reparacin de cada mquina implicara consumir tiempo. Por tanto
el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para
muestrear 10 plantas y aproximadamente un 20% de las mquinas de cada planta. Dados los
siguientes datos sobre el tiempo sin funcionar para las mquinas de coser por plantas
Planta Mi mi Tiempo sin funcionar (en horas) xi S2i
1 so 10 5, 7, 9, 0, 11, 2, 8, 4, 3, 5 5,40 11,38
2 65 13 4, 3, 7, 2, 11, 0, 1, 9, 4, 3, 2, 1, 5 4,00 10,67
3 45 9 5, 6, 4, 11, 12, 0, 1, 8, 4 5,67 16,75
4 48 10 6, 4, 0, 1, 0, 9, 8, 4, 6, 10 4,80 13,29
5 52 10 11, 4, 3, 1, 0, 2, 8, 6, 5, 3 4,30 11,12
6 58 12 12, 11, 3, 4, 2, 0, 0, 1, 4, 3, 2, 4 3,83 14,88
7 42 8 3, 7, 6, 7, 8, 4, 3, 2 5,00 5,14
8 66 13 3, 6, 4, 3, 2, 2, 8, 4, 0, 4, 5, 6, 3 3,85 4,31
9 40 8 6, 4, 7, 3, 9, 1, 4, 5 4,88 6,13
10 56 11 6, 7, 5, 10, 11, 2, 1, 4, 0, 5, 4 5,00 11,80
Estimar el tiempo sin funcionar promedio por mquina y establecer un lmite para el error de
estimacin. El fabricante sabe que tiene un total de 4.500 mquinas en todas las plantas.
Estimar tambin la cantidad total de tiempo sin funcionar durante el mes pasado para todas
las mquinas. Estimar el tiempo sin funcionar promedio por mquina en caso de que no se
conozca el nmero total de mquinas.
320 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el tiempo promedio sin funcionar por mquina tenemos:


n
N Mi 90
x=
n
Mx
i =1
i =
4500 10
(50 5,4 + 65 4 + L + 56 5) = 4,8
mi
(X )
n 2
X
X
)
2

xi
N 2 (1
f 1 ) M i2 (1
f 2i
ij
i i
N n
()
V x = i
+
j
=
nM 2 n
1 nM 2 i mi mi
1
10
90 2 1

90 768,38 + 90
2
21990,96 = 0,037094
10 4500 10 4500 2

Un lmite para el error de estimacin puede calcularse a travs del intervalo de


confianza para el estimador x 2 0,037094 = 4,8 0,38 .

Para la estimacin de la cantidad total de tiempo sin funcionar para todas las mquinas
tenemos el estimador X = Mx = 4500 4,8 = 21600 , siendo la estimacin de su varianza
V ( X ) = M 2V ( x ) = 4500 2 0,037094 = 751153,5 .

Si no se conoce M se estima la media mediante el estimador de razn:


n

M x
i =1
i i
(50 5,4 + 65 4 + L + 56 5)
x= n
= = 4,6
50 + 65 + L56
M
i =1
i

10 10 10
1
f 2 2 2 S ) = 1
f
V ( x ) = ( S x + R S M
2R xm ( (M i xi ) 2
+ x 2
M i
2

2x
M i xi M i ) = 0,049
nM 2 nM 2 (n
1) i =1 i =1 i =1

Se observa que la estimacin por razn, provocada por el desconocimiento de M,


origina un error superior, pero no en demasiada cuanta.

8.6. Para estimar el total de una magnitud en una poblacin de 100 conglomerados se estratifica la misma
en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se
selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamao Mi y
con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemtica de
cuatro conglomerados con coeficiente de correlacin intramuestral igual a una milsima. Se tiene:
ZONA RURAL ZONA URBANA
                    
Unidad Unidad
muestral Mi Total muestral Total
                   
1 7 13 1 21
2 6 11 2 15
3 8 18 3 24
4 4 10 4 20
5 5 11

1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de
muestreo. Hallar tambin un intervalo de confianza del 95% para la media por conglomerado
en cada zona.
2) Estimar el total en la poblacin y sus errores absoluto y relativo de muestreo.
Muestreo bietpico de conglomerados 321

Comenzaremos por la zona rural, en la cual tenemos definido muestreo unietpico de


conglomerados con probabilidades proporcionales a los tamaos y muestreo con reposicin, lo
que nos lleva a utilizar el estimador de Hansen y Hurwitz. Tenemos:

1 n Xi 1 1 n Xi 1 n Xi 1 13 11 18 10 11
X HHR = = = = + + + + = 2,128
MR i nPi MR n i MiR MR n i MiR 5 7 6 8 4 5

Para estimar la varianza del estimador de la media utilizamos:


2 2
n Xi n Xi
1 1

X HHR

i =1 Pi


i =1 MiR M R

M R X HHR

V ( X HHR) = 2 V ( X HHR) = 2 = 1 =
MR MR n(n
1) M R2 n(n
1)

2
n Xi 13
2
11
2
18
2
10
2
11
2



i =1 MiR

X HHR
2,128 +
2,128 +
2,128 +
2,128 +
2,128
=7 6 8 4 5 = 0,016
n(n
1) 20

El error relativo de muestreo en la zona rural ser:

V ( X HHR ) 0,016
Cv( X HHR ) = = = 0,059  6%
X HHR 2,128

Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:

X HHR V ( X HHR ) = 2,128 1,96 0,016 = [1,880, 2,376]

Nos ocupamos ahora de la zona urbana, en la cual tenemos definido muestreo


sistemtico con un coeficiente de correlacin intramuestral muy pequeo, lo que nos va a
permitir estimar la varianza mediante la frmula del muestreo aleatorio simple. Tenemos
entonces los siguientes estimadores:

21 + 15 + 24 + 20
X U = = 20
4
1
2
S 4 3
[
(21
20)2 + (15
20)2 + (24
20)2 + (20
20)2 ]
V ( XU ) = (1
f ) = 1
= 3,15
n 40 4

El error relativo de muestreo en la zona urbana ser:

V ( X U ) 3,15
Cv ( X U ) = = = 0,0887  8,87%
X U 20

Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:
322 Muestreo estadstico. Conceptos y problemas resueltos

X U V ( X U ) = 20 1,96 3,15 = [16,5214, 23,4786]

Para estimar el total de la poblacin utilizamos el muestreo estratificado, que es el


definido en primera etapa, teniendo en cuenta que en segunda etapa estn definidos muestreo
unietpico de conglomerados en la zona rural, y muestreo sistemtico en la zona urbana.
Tenemos:
n
X st = N h x h = 60 X HHR + 40 X U = 60 2,128 + 40 20 = 927,68
h =1

n
V ( X st ) = Nh2V ( xh ) = 602V ( X HHR) + 402V ( X U ) = 602 0,016+ 402 3,15 = 5097,6
h =1

V ( X st ) 5097,6
C v( X st ) = = = 0,077  7,7%
X st 927,68

8.7. En las 10 regiones de un pas se efecta muestreo en dos etapas (1 etapa con reposicin). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada regin de la primera etapa en los que se mide el nmero
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:

Unidades primarias Tamaos Valores observados X ij


de la muestra (n = 3) (M i ) mi = m = 5
REGIN 1 50 8, 6, 12, 14, 10
REGIN 2 60 8, 10, 14, 14, 16
REGIN 3 80 8, 10, 10, 16, 12

Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamao en primera etapa.
3) Estimar el error de muestreo en ambos casos.

Para probabilidades iguales en ambas etapas el estimador del total es:

N n
10
X = M i xi = (50 10 + 60 12,4 + 80 11,2) = 7133,33  7134 condenados
n i 3

La estimacin de la varianza es:


2
n X 2 2

i 1 / Ni
X NX i
N 1 M i xi 1 n
n n n n 2

i M i xi
n i M i xi N 2 X
X i
( )
i
i n i N2
V X = = = = i

n(n
1) n(n
1) n n
1 n n
1

100 (50 10
713,33) 2 + (60 12,4
713,33) 2 + (80 11,2
713,33) 2
= 2.19385 107
3 2
Muestreo bietpico de conglomerados 323

Para probabilidades proporcionales a los tamaos en primera etapa se tiene:

1 n M x 1 n M i xi M n
600
X HH = i i = = x i = (10 + 12,4 + 11,2) = 6720 condenados
n i Pi n i Mi M n i 3

La estimacin de la varianza es:

2
X
2
n n M M n 2

i xi M 2 xi
1n xi
n n
i M /iM
X i M M i xi
n
( )
V X =
i

n(n
1)
= i
n(n
1)
= i

n(n
1)
i =

(
6002 (10
11,2) + (12,4
11,2) + (11,2
11,2)
2 2

= 172800
2
)
6

Se observa que el error de muestreo es mucho menor en el caso de utilizar


probabilidades proporcionales a los tamaos.

8.8. Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extradas del primer estrato son los siguientes:
2
x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S1w =1,5. El segundo estrato (granjas en permetro
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extradas del
2
segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2w = 1,33. A partir
de esta informacin, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposicin y
probabilidades iguales en todas las etapas. Hallar tambin un intervalo de confianza para el
peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%.

Estamos ante el tpico diseo complejo de muestreo bietpico de conglomerados (granjas de


cerdos) con estratificacin de las unidades de primera etapa (las granjas) en dos estratos. Las
unidades elementales de segunda etapa son los cerdos con 4 meses de las granjas.

Inicialmente estimamos la media y su varianza en el primer estrato. Tenemos:


5
m1 (xi1
x1 )
2

1 20
x1 = x i1 = =4 S b2 = i
= 15
n1 i 5 n1
1

S 2 S 2 5 15 5 6 1,5
V (x1 ) = (1
f11 ) 1b + f11(1
f12 ) 1w = 1
+ 1
= 0,5
n1m1 n1m1 1000 30 1000 50 30
324 Muestreo estadstico. Conceptos y problemas resueltos

Ahora estimamos la media y su varianza en el segundo estrato. Tenemos:


6
m 2 (xi 2
x 2 )
2

1 21
x2 = i xi 2 = 6 = 3,5 S 22b = i
= 2,8
n2 n2
1

S 2 S 2 6 2,8 6 4 1,33
( ) n2m2

V x2 = (1
f21) 2b + f21(1
f22 ) 2w = 1
+ 1

n2m2 100 24 100 40 24
= 0,113

El estimador de la media estratificado ser:

2
1000 100
x st = W h x h = W1 x1 + W 2 x 2 = 4+ 3,5 = 3,685 arrobas
h =1 1100 1100

La estimacin de la varianza del estimador de la media valdr:


2 2
2
1000 100
V (xst ) = Wh V (xh ) = W1 V (x )1 + W2 V (x2 ) =
2 2 2
0,5 + 0,113 = 0,415
h =1 1100 1100

El error relativo de muestreo se estimar mediante:

V ( x st ) 0,415
C v( x st ) = = = 0,1748 (17,48%)
x st 3,685

El intervalo de confianza al 95%, suponiendo normalidad, ser:

x st V ( x st ) = 3,685 1,96 0,415 = [2,42, 4,95]

8.9. Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una seccin censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.

Si existe un presupuesto de 3000000 de euros para realizar la encuesta siendo la


caracterstica a estimar la proporcin de poblacin activa respecto del total, y por encuestas
anteriores se tiene una estimacin de dicha proporcin del 38% y una estimacin del
coeficiente de correlacin intraconglomerados de 0,05, se pide:

1) Considerando muestreo con reposicin, plantear el problema de Lagrange que permite


calcular el nmero ptimo de secciones censales y el de familias a entrevistar dentro de cada
una.

2) Hallar el valor de los nmeros ptimos citados para el coste total dado.
Muestreo bietpico de conglomerados 325

Para plantear el problema de Lagrange adecuado, consideramos la funcin de coste de


campo C = c1n + c2 nm donde c1 = 500 es el coste de enviar un agente a una seccin censal
y c2 = 50 es el coste de realizar una entrevista a una familia en segunda etapa. Como el
presupuesto total para realizar la encuesta es de 3000000 de euros, la funcin de coste ser:

3000000 = 500n + 50nm


Como la caracterstica a estimar es el porcentaje de poblacin activa respecto del
total, utilizaremos la varianza de la proporcin para denotar el error, es decir:
$$
PQ
V ( P$ ) = (1
f ) (1 + (m
1) )
nm
El problema se resuelve minimizando la varianza para el coste dada a travs del
problema de optimizacin de Lagrange:

0,38(1.0,38)
MinV ( P ) = (1
f ) (1 + (m
1)0,05) c1 1
 500 1
0,05
nm m = =  14 familias
c2  50 0,05
3000000 = 500n + 50nm
3000000 3000000
3000000 = 500n + 50nm n = = = 2500 secciones censales
500 + 50m 500 + 50 14

8.10. Una empresa quiere estimar la proporcin de mquinas que han sido retiradas del proceso de
produccin debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las mquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaos de las plantas Mi, las mquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de mquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:

Porcentaje de mquinas
Planta Mi mi con reparacion es mayores ( Pi )
1 50 10 0, 40
2 65 13 0,38
3 45 9 0, 22
4 48 10 0,30
5 52 10 0,50
6 58 12 0, 25
7 42 8 0,38
8 66 13 0,31
9 40 8 0, 25
10 56 11 0,36

Estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido
a reparaciones mayores para todas las plantas y establecer un lmite para el error de
estimacin al 95%.
326 Muestreo estadstico. Conceptos y problemas resueltos

Al no conocerse el valor M se utilizar el estimador de la proporcin por razn al tamao


siguiente:

M i Pi
P = i =1
n
= 0,34
M
i =1
i

cuyo error de muestreo puede estimarse mediante:

(P
P )
n 2

) M
2

(1
f 1
() PQ
i i
1 n
V P =
nM
2

i

n
1
+
nNM 2
M (1
f ) m
1 = 0,0081
i
i
2
2i
i i

Un lmite para el error de estimacin al 95% ser:

()
P 2 V P = 0,34 0,056

Se estima entonces que la proporcin de mquinas involucradas en reparaciones


mayores es de 0,34, con un lmite para el error de estimacin de 0,056.
Muestreo bietpico de conglomerados 327

EJERCICIOS PROPUESTOS

8.1. Se desea estimar el consumo de los hogares espaoles a travs de una muestra bietpica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la seccin
censal. El coeficiente de correlacin intraconglomerados es 0,1. El coste de preparacin de
listados y planimetra de cada seccin censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerndose ms componentes en la funcin de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:

1) Especificar la funcin de coste total y plantear el problema de optimizacin con


restricciones asociado.

2) Cules seran los tamaos de muestra en cada etapa que optimizasen el diseo? Se
entiende por diseo ptimo aquel que logra la mxima precisin dentro del presupuesto
fijado.

3) Si se estratifican las secciones censales en dos estratos del mismo tamao correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
travs de la varianza es tres veces superior en la zona urbana que en la rural, cmo se distribuira
la muestra en cada estrato y en cada etapa para optimizar el diseo?

8.2. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. En los tres
hospitales muestreados se examinar un 10% de los registros de los pacientes actuales para
determinar cuntos pacientes permanecern por ms de dos das en el hospital. Con la
informacin sobre los tamaos de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamao.

Hosp. Pacien. Interv. Hosp. Pacien. Interv. Hosp. Pacien. Interv


1 328 1-328 2 109 329-437 3 432 438-869
4 220 870-1089 5 280 1090-1369 6 190 1370-1559

Puesto que sern seleccionados tres hospitales, tres nmeros aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de nmeros aleatorios. Nuestros nmeros elegidos
son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los
hospitales muestreados dieron los siguientes datos sobre el nmero de pacientes con
permanencia de ms de dos das:

Hospital N de pacientes muestreados N con ms de dos das de permanencia


a 43 25
b 28 15
c 19 8

Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales y establecer un lmite para el error de estimacin.
328 Muestreo estadstico. Conceptos y problemas resueltos

8.3. Supongamos que cinco investigadores toman muestras independientes de igual tamao
constituidas por pequeas parcelas de un campo de cultivo y obtienen estimaciones del
rendimiento del campo . Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como
estimador de  la media de las cinco estimaciones, calcular el error de muestreo relativo.
Realizar el mismo clculo suponiendo que las muestras son de distintos tamaos, de 3, 1,
10, 10 y 1, respectivamente

8.4. Realizamos muestreo bietpico en una poblacin de 10 conglomerados de tamaos


desiguales. En la primera etapa se toman tres unidades primarias y en la segunda etapa se
toman cinco unidades dentro de cada unidad primaria. Hallar el estimador lineal insesgado
del total poblacional en el caso de muestreo sin reposicin con probabilidades iguales en las
dos etapas. Probar que si se aplica el teorema de Durbin para la estimacin de la varianza del
estimador del total se tiene:

14 3 2 3 2 7
V ( X ) = M 2 2
x
i i
s i M i ( M i
5)
M i M j xi x j
45 i =1 3 i =1 45 i  j
siendo xi el total muestral y si2 = Si2 la cuasivarianza dentro de la unidad primaria i-sima de
la muestra. Si consideramos muestreo con reposicin en la segunda etapa, cul es el
estimador del total? Qu expresin toma el estimador de su varianza?

8.5. Una cadena de supermercados tiene tiendas en 32 ciudades. Un director de la compaa


quiere estimar la proporcin de tiendas en la cadena que no satisfacen un criterio de limpieza
especfico. Las tiendas dentro de cada ciudad poseen caractersticas similares, por lo que el
director selecciona una muestra por conglomerados en dos etapas que conmtiene la mitad de
las tiendas dentro de cada una de las cuatro ciudades. La tabla siguiente muestra los datos
recogidos.

N de tiendas N de tiendas N de tiendas que no


Ciudad en la ciudad muestreada s satisfacen el criterio de limp ieza
1 25 13 3
2 10 5 1
3 18 9 4
4 16 8 2

Estimar la proporcin de tiendas que no satisfacen el criterio de limpieza y establecer un


lmite para el error de estimacin al 95% de confianza.
CAPTULO

MUESTREO BIFSICO Y
MUESTREO EN OCASIONES SUCESIVAS

OBJETIVOS

1. Presentar el concepto de muestreo bifsico.

2. Analizar los estimadores y sus errores en muestreo bifsico con estra-


tificacin.

3. Analizar los estimadores y sus errores en muestreo bifsico para estima-


ciones de razn.

4. Analizar los estimadores y sus errores en muestreo bifsico para estima-


ciones de regresin.

5. Analizar los estimadores y sus errores en muestreo bifsico para estima-


ciones de diferencia.

6. Estudiar los estimadores de mnima varianza en el muestreo en ocasiones


sucesivas.
330 Muestreo estadstico. Conceptos y problemas resueltos

NDICE

1. Muestreo bifsico.

2. Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin


de varianzas.

3. Muestreo bifsico para estimadores de razn.

4. Muestreo bifsico para estimadores de regresin.

5. Muestreo bifsico para estimadores de diferencia.

6. Mestreo en ocasiones sucesivas.

7. Estimadores de mnima varianza en el muestreo en ocasiones sucesivas.

8. Problemas resueltos.

9. Ejercicios propuestos.
Muestreo bifsico y muestreo en ocasiones sucesivas 331

MUESTREO BIFSICO

El muestreo doble o bifsico se utiliza cuando queremos obtener estimadores de alguna variable
X y disponemos de informacin adicional de otra variable de modo similar a lo que ocurra en los
mtodos de estimacin indirecta. En la prctica, el muestreo doble se lleva a cabo seleccionando
en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse
una o varias caractersticas generales de las unidades que nos proporcionan la informacin que
necesitamos para el estudio de nuestra caracterstica objetivo. En una segunda fase seleccionamos
una submuestra de la primera en la que observamos ya la caracterstica objeto de estimacin. Esta
tcnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifsico.
Para fijar notacin consideramos:
1 fase. Se toma una muestra grande de tamao n relativa a la variable auxiliar Yi
para estimar por ejemplo Y u otras caractersticas relativas a la variable Yi con bajo coste.
2 fase. Se toma una muestra relativa a la variable en estudio Xi de tamao n
(generalmente submuestra de la muestra preliminar n< n) con coste mucho ms alto.
El uso de esta tcnica de muestreo depende de los costes. Si la observacin de la
caracterstica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaramos
una muestra del tamao no necesario para la precisin deseada y con ella haramos las
estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el
coste por unidad de la primera muestra, de tamao n, es c y que el coste por unidad de la
segunda muestra, de tamao n < n, es c. Frecuentemente c es mucho ms pequeo que c,
bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las
unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la
observacin de la caracterstica objetivo implica un proceso de observacin ms costoso. En
estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo
en dos fases C = cn + cn. Supongamos que los costes totales por el procedimiento bifsico
y por el normal (aleatorio) son los mismos, esto es, cno = cn + cn. Igualando los dos costes
c'
totales, se obtiene: no = n + n' , lo que nos dice que con la tcnica de dos fases la
c
observacin efectiva (la referida a la variable Xi) se hace en una muestra de tamao n, menor
que el tamao no de la muestra aleatoria simple correspondiente en una sola fase con el
mismo coste total. Luego al introducir las dos fases el tamao de muestra necesario es ms
pequeo que si hubiese una sola fase (muestreo aleatorio normal) y hay una prdida en la
precisin de los estimadores (al disminuir el tamao de la muestra).
Se trata de decidir si compensa la disminucin del tamao efectivo de la muestra, con
el incremento de informacin adquirido en la primera fase (lo que provocar prdida de
precisin en las estimaciones relativas a Xi). Para ello debe calcularse la varianza
2
correspondiente a muestreo doble y compararla con la del muestreo en una sola fase en
no
caso de estimacin de la media. Es obvio que cuanto menor sea la relacin c/c ms favorable
es el muestreo doble. Ello es debido a que no
n = (c / c ) n mientras menor sea c / c ms
cerca estar n de no y menos disminucin habr del tamao de muestra comparado el bifsico y
el aleatorio simple, siendo la prdida en precisin de los estimadores menor al introducir el
bifsico.
332 Muestreo estadstico. Conceptos y problemas resueltos

La adecuacin del muestreo bifsico depende de si lo que se gana en precisin de los


estimadores al introducir la ayuda de la muestra grande compensa la prdida en precisin
debida a la reduccin del tamao de la muestra para estimar Xi, esto es, la ayuda de la
variable auxiliar Yi. La primera muestra de tamao n proporciona ciertos datos buenos
basados en la variable auxiliar Yi para que las estimaciones finales (las estimaciones de Xi )
sean precisas. Si no hubiese variable auxiliar Yi el tamao de la muestra para estimar Xi ser no, y
al introducir la variable auxiliar el tamao de la muestra sera n < no .

MUESTREO BIFSICO PARA ESTRATIFICACIN. ESTIMADORES,


VARIANZAS Y ESTIMACIN DE VARIANZAS

Partimos de una poblacin estratificacada en L clases (estratos). La primera muestra


(primera fase) es aleatoria de tamao n seleccionada de entre las n unidades de la
poblacin. Sea Wh = Proporcin de elementos de la poblacin que caen en el estrato h, que
es desconocida inicialmente.

N h Nmero de elementos poblacionales en el estrato h


Wh = =
N Nmero total de elementos de la poblacin

Consideremos ahora la proporcin de elementos de la primera muestra que cae en el


estrato h:

n' Nmero de elementos de la primera muestra que caen en el estrato h


W h = h =
n' Nmero total de elementos de la primera muestra

Hay que tener presente que si consideramos selecciones diferentes de la primera


muestra (con n prefijado) obtenemos diferentes valores de nh y W$h resulta ser un estimador
insesgado de Wh (porque la proporcin muestral en muestreo aleatorio simple es un
estimador insesgado de la proporcin poblacional, lo mismo que la media muestral es un
( )
estimador insesgado de la media poblacional). Tenemos entonces que E W$h = Wh estando
la esperanza referida a las muestras posibles de n unidades de entre las N de la poblacin. A
efectos de clarificar la notacin especificamos lo siguiente:

nh = n de unidades de entre las n de la muestra de primera fase que caen en el estrato h


para h = 1, 2, ..., L
L L
n' = n' h y n = nh
h =1 h =1

La segunda muestra (segunda fase) es una muestra aleatoria estratificada de tamao


n. Consiste en tomar una submuestra aleatoria de tamao nh  n' h en cada estrato
independientemente (o sea, las nh las elegimos de entre las nh para valores de h = 1, ..., L).
L
Tendremos n = nh . Ahora n es dado y n1 ....nh ....nL son fijos y W$1 LW$h LW$ L
h =1
tambin sern fijos (por serlo nh y n) y lo que se hace es considerar todas las submuestras
aleatorias de nh unidades que pueden extraerse de entre las nh unidades dadas.
Muestreo bifsico y muestreo en ocasiones sucesivas 333

Estimadores y varianzas
Nh
El estimador usual de la media en muestreo estratificado es X = W x
h
h h con Wh =
N
.

En muestreo doble los Wh se estiman por los W$h obtenidos de la primera muestra, y con la
xh
segunda muestra estimamos las medias x h = ; de esta forma resulta el estimador para la
nh
media:
n' h
X$ = W$h x h ; W$h =
h n'
Utilizaremos la notacin EW ' (T ) para expresar la esperanza matemtica de un estadstico
T, condicionada al conjunto de muestras de primera fase en las cuales n1, ....,nh , ..., n son fijos, o
lo que es lo mismo, para un n dado, W$1 , L , W$h , L , W$ L son fijos. Anlogamente VW ' ( T )
expresar la varianza condicionada.

La varianza del estimador de la media sin reposicin en las dos fases es:

S2 g 'Wh (1
Wh ) g '
V X = (1
f h ) h Wh2 + + Wh ( X h
X )
2

h nh n' n' h

donde g es el factor de finitud g = (N


n)/(N
1). Por otro lado, Rao expres esta varianza
de la media de la siguiente forma:

N
n' S 2 1 S2 nh
V X = +
1 Wh h ; #h =
N n' h # h n' n h'

Para muestreo es con reposicin en primera fase tendremos:

S2 W (1
Wh ) 1
V X = (1
f h ) h Wh2 + h + Wh ( X h
X )
2

h nh n' n' h

frmula aproximada para n pequeo respecto de N en caso sin reposicin en segunda fase.

Para muestreo con reposicin en las dos fases tendremos:

h2 2 Wh (1
Wh ) 1
+ Wh ( X h
X )

V X = Wh +
2

h nh n' n' h

frmula aproximada para nh pequeo respecto de Nh, en todo h, y n pequeo respecto de N.

$
Para el total X = NX , el estimador insesgado es X$ = NX y su varianza es
( )
V ( X$ ) = N 2V X$ .
334 Muestreo estadstico. Conceptos y problemas resueltos

Si la muestra de primera fase es de tamao n=N, esto es, se observan todas las
unidades de la poblacin para efectuar la estratificacin, la frmula general de la varianza
del estimador en muestreo doble se convierte en:

S h2
( )
$
V X = ( 1
f h )Wh
h
2
nh
; g' = 0

que coincide con la del muestreo estratificado habitual (una sola fase). Adems se observa
que n aparece dividiendo, y en consecuencia, cuanto mayor es n (n < N ) la prdida de
precisin por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razn por
la cual conviene estudiar los tamaos y la afijacin ptimos en funcin del coste.

Para proporciones y totales de clase tenemos:

Si se desea estimar una porporcin P en la poblacin, siendo Ph la correspondiente


al h-simo estrato, el estimador insesgado en muestreo doble es:

P$ = W$h ph ; ph = proporcin muestral en segunda fase.


h

La varianza (sin reposicin en las dos fases), aplicando el resultado anterior, ser:

PQ g ' Wh ( 1
Wh ) g '
V ( P$ ) = ( 1
f h ) h h Wh2 + + Wh ( Ph
P)
2

h nh n' n' h

Nh
con la aproximacin S h2 = Ph Qh  Ph Qh .
Nh
1

En muestreo con reposicin en las dos fases, o sin reposicin y tamaos muestrales
pequeos respecto de los correspondientes poblacionales ( f h  1; g '  1) , se tiene:
PQ Wh ( 1
Wh ) 1
V ( P$ ) = h h Wh2 + + Wh ( Ph
P )
2

h nh n' n' h

Para el total de clase, A = NP , el estimador es A$ = NP$ y su varianza


( ) ( )
V A$ = N 2V P$ .

Para afijacin proporcional, si en la muestra de segunda fase asignamos a cada


estrato un tamao muestral nh proporcional al tamao del estrato, se tiene nh = Wh n ,
resultando para la varianza del estimador la frmula:

g ' ( 1
Wh ) g '
( ) 1
V X$ = ( 1
f h ) S h2 Wh +
n h n'
+ Wh ( X h
X )
n' h
2

En la prctica, para efectuar la afijacin a los estratos utilizaremos nh = W$h n .


Muestreo bifsico y muestreo en ocasiones sucesivas 335

En muestreo con reposicin se tiene:

( ) 1
V X$ = h2Wh +
n h
1

nn' h
1
h2 ( 1
Wh ) + Wh ( X h
X )
n' h
2

que puede aproximarse por:

( ) 1 1
V X$ = Wh h2 + Wh ( X h
X )
n h n' h
2

Para afijacin ptima tenemos:

2
1 1
V X = Wh h + Wh (X h
X )
2

n h n' h

Adems, para determinar los tamaos ptimos n y n correspondientes a un coste


( $)
total dado tales que V X sea mnima, escribimos la funcin de Lagrange:
2
1 1
" = A + B + ( c' n'+cn
C ) con A = Wh h y B = Wh ( X h
X )
2

n n' h h

Derivando respecto de n y n y se tiene:


C A
" A A
=
2 + c = 0 = 2 n = c ( Ac + Bc' )
n n cn

" B B C B
=
2 + c' = 0 = n ' =
n ' n' c ' n' 2 c' ( Ac + Bc' )
"

= c' n'+ cn
C = 0

V
pt . ()
X =
( Ac + Bc' )
2

Estimacin de varianzas

Tenemos:
n' sh2 2 W h 1
V X = W h
+ W h (xn
X )2
n'
1

h nh n' n' h

n'
El factor prcticamente es prximo a la unidad si n no es pequeo. Tambin
( n'
1)
el trmino que aparece en segundo lugar en la frmula de la estimacin de la varianza puede
ser despreciable respecto de los otros dos, ya que aparece el producto nh n' en el
denominador. Entonces resulta la aproximacin:
336 Muestreo estadstico. Conceptos y problemas resueltos

() s2 1
V X  W h2 h + W h x h
X
h n h n'
( )
2

Y, por ltimo, tambin en esta expresin el segundo sumando ser pequeo


respecto del primero para valores grandes de n, resultando como frmula aproximada ms
sencilla:

()
2
2 sh
V X  Wh
h nh

que es la correspondiente a muestreo estratificado en una sola fase, sustituyendo W h por su


estimacin W h .

En caso de estimar la varianza de la proporcin P$ o del total de clase A ,


sustituimos en la frmula para la varianza, o en sus aproximaciones, cuando sean vlidas, los
siguientes valores:

sh2 ph q h
(x )
2

X$ = ( ph
P$ )
2
= ; h
nh nh
1

MUESTREO BIFSICO PARA ESTIMADORES DE RAZN

El estimador usual de razn para la media X utiliza como informacin conocida previamente
la media Y (o el total) de una caracterstica Y, definida en todas las unidades de la
poblacin, elegida convenientemente de modo que su relacin con X sea lineal al menos
aproximadamente. El muestreo doble utiliza la primera muestra de tamao n para obtener una
buena estimacin de Y , o de Y, y la segunda muestra de tamao n para estimar x e y . De esta
forma , el estimador de razn para la media en muestreo doble es:

x
X$ R = y ' ; y ' = Media de la primera muestra.
y

En el caso de que las muestras de las dos fases sean independientes, se tiene:

1 1
V X R = { x2 + R2 y2
2R xy }+ R2 y2
n n'
frmula vlida para muestreo con reposicin. En el caso sin reposicin sustituimos varianzas
y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el
factor de finitud en segunda fase y el segundo sumando por el de primera fase.

Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de


la primera (n  n), resulta:

1 1
V X R = { x2 + R 2 y2
2 R xy }+ {2 R xy
R 2 y2 }
n n'
Muestreo bifsico y muestreo en ocasiones sucesivas 337

Para estimar el total en muestreo doble, tendremos:

X$ R = NX$ R ( )
; V ( X$ R ) = N 2V X$ R

Para estimar la varianza, dado que en la segunda muestra de tamao n obtenemos


observaciones de la variable conjunta (X,Y), podemos calcular estimaciones de y2 y Cov(X,Y)
1 n
( X i
x )2 y s xy = 1 ( X i
x )(Yi
y ) , y puesto que la primera
n
como s x2 =
n
1 1 n
1 1
muestra es de tamao n > n, nos permite una buena estimacin de y2 mediante
1 n'
(Yi
y ') . Para la razn R, tomaremos la estimacin R$ .
2
s y2 =
n'
1 1

MUESTREO BIFSICO PARA ESTIMADORES DE REGRESIN

El estimador usual para la media en muestreo indirecto (en una fase) por regresin lineal es
X$ = x + K ( Y
y ) , donde K es una constante prefijada e Y es la media poblacional de la
variable auxiliar. Los estimadores x , y se obtienen de las observaciones de una muestra
( X i , Yi ) de tamao n. En muestreo doble, al suponer desconocida Y , utilizamos la primera
muestra de tamao n para estimar Y , estimacin dada por y' . Con la muestra de tamao n
en segunda fase estimamos x , y , formando entonces el estimador en muestreo doble por
regresin para la media poblacional:

X rg = x + K ( y '
y )

En esta situacin, la segunda muestra puede ser independiente de la primera o la


segunda muestra puede ser una submuestra aleatoria n < n de la primera.

Si las muestras de las dos fases son independientes, se tiene:

1 2 K 2 y2
V X rg = ( x + K y
2 K xy ) +
2 2

n n'

Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de


la primera (n  n), resulta:

1 1
V X rg = ( x2 + K 2 y2
2 K xy ) + (2 K xy
K 2 y2 )
n n'
n

xy (X i
x )(Yi
y )
Sea el valor ptimo de K = b = 2 estimado por b = 1
.
y n

(X
x ) (Yi
y )
2 2
i
1
338 Muestreo estadstico. Conceptos y problemas resueltos

Se obtiene en ambos casos (muestras independientes y segunda muestra submuestra


de la primera) la expresin para la varianza ptima del estimador bifsico por regresin:

V X rl =
(1
 2 ) x2 +  2 x2
x2
n n' N
Una estimacin para la varianza ptima es la siguiente:

S x2, y S x2
S x2, y S x2
V X rl = +

n n' N
1 n n
1 n
S x2, y = ( X i
x ) 2

b 2
(Yi
y ) 2 S x2 = ( X i
x)2
n
2 i =1 i =1 n
1 i =1

MUESTREO BIFSICO PARA ESTIMADORES DE DIFERENCIA

El estimador por diferencia en muestreo doble resulta del estimador de regresin haciendo K = 1,
por lo que toda la teora anterior es vlida haciendo K=1, resultando el estimador
X$ d = x + ( y '
y ) . Anlogamente, las frmulas de las varianzas se obtienen aplicando a K el
valor 1 en las varianzas del estimador por regresin.

MUESTREO EN OCASIONES SUCESIVAS

El muestreo en ocasiones sucesivas es adecuado cuando estamos interesados en estudiar la


evolucin de una determinada caracterstica de la poblacin a lo largo del tiempo (como, por
ejemplo, la produccin industrial, los salarios, la poblacin activa, etc.), para lo que se toman
peridicamente muestras del mismo colectivo. En esta situacin es habitual que un objetivo
sea estimar el cambio producido en la variable estudiada desde la ocasin anterior, otro
objetivo puede ser estimar el valor promedio de la media sobre las dos ocasiones, e incluso
otro objetivo puede ser estimar la media para la ocasin ms reciente.
Inicialmente puede disearse una muestra que permanece fija de una ocasin a otra,
pero, aunque metodolgicamente sta es la situacin ms ventajosa, tiene el inconveniente de
que las personas o entidades encuestadas son reacias a permanecer por un tiempo indefinido en
dicha muestra. Para tratar de resolver este problema se utiliza un procedimiento que consiste en
sustituir, en cada perodo de encuesta, una parte de la muestra, lo que da lugar a la denominada
rotacin de la muestra. Conviene observar de pasada que esto no siempre puede practicarse, ya
que, cuando se trata de unidades muy grandes (grandes almacenes, siderrgicas, astilleros, etc.), a
veces una o unas pocas contribuyen al total estimado en una cantidad superior a todas las dems
juntas. En este caso prescindiramos del muestreo incluyendo estas unidades crticas en un estrato
de unidades autorrepresentadas (de probabilidad 1). Adicionalmente surge la pregunta: Con qu
frecuencia y de qu manera debera cambiarse la muestra conforme progresa el tiempo?
Otro problema que puede plantearse es el de la estimacin ptima de la segunda
ocasin, utilizando las informaciones disponibles, tanto de la ocasin presente como de la
anterior. En cualquier caso el valor X, que toma la variable en la unidad A, puede cambiar de
una ocasin a la siguiente, desempeando un papel importante en esta teora el coeficiente
de correlacin lineal entre los valores de la variable en una y otra ocasin. De todas formas,
las unidades de la muestra en una ocasin pueden ser las mismas que en la ocasin anterior,
algunas nuevas y otras permanecientes y seleccionadas independientemente de nuevo todas.
Muestreo bifsico y muestreo en ocasiones sucesivas 339

Estimacin del cambio entre ocasiones sucesivas


Supongamos que se pretende estimar el cambio de la media entre dos ocasiones, que
designaremos por t1 y por t2, con una muestra de n unidades. Si utilizamos el estimador
simple del cambio:
1 n
$ = x 2
x1 = ( x
x1i )
n i 2i
podemos optar entre las siguientes alternativas:

a) Utilizar la misma muestra, denominada panel, en ambas ocasiones.


b) Mantener en la segunda ocasin c unidades de la primera muestra, eliminar n
c y
aadir n
c nuevas unidades.
c) Utilizar en la segunda ocasin una muestra independiente de la primera.

La posibilidad a) nos permitira conocer los cambios individuales entre las dos
ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carcter en
ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sera muy
difcil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no
sera deseable por los sesgos que una exposicin continuada a los mtodos de encuesta pueden
originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se
contamina con el tiempo.

Para la posibilidad b), si representamos por c el nmero de unidades comunes, por


n
c = c el nmero de las no comunes, y con los subndices 1 y 2 las correspondientes
ocasiones, se puede hacer la representacin grfica siguiente sobre los solapamientos en los
totales muestrales en ambas ocasiones.

Ocasin t1 $ x1c  $ x1c 


Ocasin t 2 $ x2c  $ x2c 

Las medias en ambas ocasiones son:

x1c + x1c x1c x1c n


c c
x1 = = + = x1c + x1c
n n n n n
x2c + x2c x2c x2c n
c c
x2 = = + = x2c + x2c
n n n n n
y prescindiendo del factor de correccin para poblaciones finitas 1
f y suponiendo por
comodidad que la cuasivarianza poblacional en las dos ocasiones es la misma, tendremos
para las varianzas y covarianzas las expresiones:

S2 S2
V ( x1 ) = , V (x2 ) =
n n
2
c S S c2 S2 c S2
cov( x1 , x 2 ) = 2 cov( x1c , x 2 c ) = 12 2 = 12 = 12  c
n c c n n n n
340 Muestreo estadstico. Conceptos y problemas resueltos

Sustituyendo estos valores en la varianza de $ tenemos:

()
V  = V ( x1 ) + V ( x 2 )
2 cov( x1 x 2 ) =
S2 S2
n
+
n

2
S2
n
S2
12 c = 2 [1
12 c ]
n

siendo 12 el coeficiente de correlacin entre los valores comunes a ambas ocasiones y
 c la proporcin de unidades comunes. De esta expresin deducimos que para 12 > 0 la
ganancia en precisin es proporcional a  c 12 correspondiendo la mxima ganancia a los
valores 12 = +1 y  c = 1 . Por lo tanto, la situacin ideal es aquella en la que la
proporcin de unidades comunes en la muestra en las dos ocasiones es del 100% (  c = 1 ),
lo que significa que la muestra es comn en su totalidad en las dos ocasiones. La situacin
tambin es ideal cuando el coeficiente de correlacin entre los valores comunes en ambas
ocasiones es mximo ( 12 = +1 ), que en trminos prcticos significa que las unidades
muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma
positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).

Estimacin de la media extendida a dos ocasiones

Uno de los objetivos clsicos en el muestreo en ocasiones sucesivas es estimar el valor


promedio de la media sobre las dos ocasiones. Para ello, consideremos el estimador
siguiente:
1
x= ( x + x2 )
2 1
definido como la media de las medias en ambas ocasiones. Su varianza es:
1
V ( x) =
4
[
V ( x1 ) + V ( x 2 ) + 2 cov( x1 , x 2 ) ]
S2
y sustituyendo en la frmula los valores obtenidos en la seccin anterior ( V ( x1 ) = ,
n
S2 S2
V (x2 ) = y cov( x1 , x 2 ) = 12 c ), tenemos:
n n

1 2S 2 2S 2 S2
V (x ) = +  
12 c = [1 + 12 c ]
4 n n 2n

Como este valor es mnimo cuando  c = 0 , vemos que, en el caso 12 < 0 , para
estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.
Muestreo bifsico y muestreo en ocasiones sucesivas 341

ESTIMADORES DE MNIMA VARIANZA EN EL MUESTREO EN OCASIONES


SUCESIVAS

Estimador del cambio entre dos ocasiones

Consideraremos el estimador lineal de mnima varianza del cambio combinado:

%$ = W ( x 2 c
x1c ) + ( 1
W ) ( x 2 c
x1c )

y determinamos el valor de W que haga efectivamente mnima la varianza de %$ .

()
= W 2V ( x
x ) + (1
W )2 V ( x
x ) .
Tenemos V % 2c 1c 2c 1c

Obteniendo la primera derivada respecto de W e igualando a cero se tiene:

V ( x2c
x1c )
2W V ( x2c
x1c )
2 (1
W ) V ( x2c
x1c ) = 0 W =
V ( x2c
x1c ) + V ( x2c
x1c )
2S 2 2S 2
y sustituyendo las varianzas V ( x2c
x1c ) = y V ( x2c
x1c ) = (1
12 )
n
c c
1
n
c c c (1
12 )(1
 c )
W= = = 1
W =
1 1
12 c + (n
c)(1
12 ) 1
12 (1
 c ) 1
12 (1
 c )
+
n
c c
Sustituyendo estos valores en la expresin de la varianza del estimador lineal de
mnima varianza se obtiene:

 c 2S 2 (1
12 ) (1
 c ) (1
12 ) 2S 2 2

()
V % = W V (x2c
x1c ) + (1
W ) V (x2c
x1c )
2 2
=
[1
12 (1
 c )]2 n [1
12 (1
 c )]2 n
2S 2 (1
12 ) 2S 2 (1
12 )
= [ c + (1
 c ) (1
12 )] = (1
12 +  c 12 )
[1
 (1
 )] n
12 c
2
[1
 (1
 )] 12 c
2
n
2S (1
 )
2
2S (1
 ) 2

= 12
(1
 (1
 )) = 12

[1
 (1
 )] n
12 c
2 12
[1
 (1
 )] n
c
12 c

Hemos obtenido una expresin para la varianza mnima del estimador lineal:

2 S 2 (1
12 )
()
V % =
[1
12 (1
 c )] n
Vemos que, en este caso, el estimador lineal de mnima varianza combinado %$
proporciona igual precisin que el estimador simple $ cuando  c = 1, es decir, cuando se
mantiene la misma muestra para la segunda ocasin.
342 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de la media en la segunda ocasin


Vamos a trabajar en la suposicin de que en la primera ocasin el tamao de la muestra es lo
suficientemente grande para poder considerar la estimacin x1 como aproximacin al valor
X 1 en el estimador de regresin x 2' c = x 2 c + b( x1
x1c ) cuya varianza viene dada por la
varianza de sus componentes x 2 c
bx1c y bx1 :

V ( x 2 c
bx1c ) = V ( x 2 c ) + b 2V ( x1c )
2 cov( x 2 c ; x1c ) =
S2 S2 S S S2
c
+ 122
c

2 12 12 =
c
1
122 ( )
c c
S2 2 S
2
S
V (bx1 ) = b V ( x1 ) = b
2
= 12
2
, (S1 = S 2 b = 1 12 = 12 )
n n S2

1
122 122
Sumando ambas componentes se obtiene: V x ( )'
2c =S 2
+
c n
Utilizaremos el estimador lineal de mnima varianza de la media para la segunda
ocasin combinado definido por:
x 2 = Wx 2' c + ( 1
W ) x 2 c

( ) ( )
cuya varianza V x 2 = W 2V x 2' c + ( 1
W ) V x 2 c es mnima para:
2
( )
V(x ) 2c V ( x 2' c )
W= 1
W =
V( x ) +V( x )
'
2c 2c V ( x 2' c ) + V ( x 2 c )
de donde se deduce que el estimador combinado de varianza mnima para estimar la media
en la segunda ocasin toma la forma:
1 1
V ( x 2' c ) V ( x2c )
x2 = x 2' c + x 2' c
1 1 1 1
+ +
V ( x2c ) V ( x 2' c ) V ( x2c ) V ( x 2' c )

es una media ponderada con los coeficientes de ponderacin basados en los valores
recprocos de las varianzas. Sustituyendo los valores de W y 1
W en V x 2 , calculamos el ( )
valor de la varianza mnima para el estimador de la media en segunda ocasin. Tenemos

V (x2 ) =
V 2 ( x2c )
( )
V 2 x 2' c +
( )
V 2 x 2' c
V 2 (x2c ) =
( )
V ( x 2 c )V x 2' c
(V (x ) + V (x ))
'
2c 2c
2
(V (x ) + V (x ))
'
2c 2c
2
( )
V ( x 2 c )V x 2' c

1
122 122 S2 S2
( )
y como V x 2' c = S 2 + y V ( x 2 c ) = = tenemos:
c n n
c c
Muestreo bifsico y muestreo en ocasiones sucesivas 343

S 2
( )
1
122 n + c122 S 2

V (x2 ) = cn c = ( )
1
122 n + c122

S2
( )
1
122 n + c122 S 2
S 2 + ( )
1
122 n + c122 +
cn c
cn c
c

=
S2

n
122 (n
c )
=
( ) (
S 2 n
122 (n
c ) S 2 n
122 (n
1)
=
)
c cn c n
 2 2
c + cn n 2
122 c 2
n
12 (n
c ) +
2 12
c

Por lo tanto, ya tenemos el valor de la varianza mnima para el estimador lineal de


mnima varianza de la media en segunda ocasin:

n
122 c 2
V (x2 ) = S 2
n 2
122 c 2

S2 S 2 n (1
122 ) S 2
En particular , c = 0 V (x 2 ) = y c = n V (x 2 ) = =
n n 2 (1
122 ) n

Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma
precisin manteniendo la muestra que cambindola por completo en cada ocasin.
344 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS

9.1. Se trata de estudiar las casas en alquiler en una poblacin. Para ello se extrae una muestra
aleatoria simple extensa y barata de tamao 374 de las casas de un distrito y se halla que 272
casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una
segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes
resultados respecto de la proporcin de casas en alquiler:

En alquiler Total

Blancos 31 74
Otras razas 4 18

Estimar la proporcin de casas en alquiler en la poblacin y su error de muestreo.

Se trata de un problema de muestreo bifsico en el que la muestra de primera fase tiene de


tamao n = 374 distribuyndose entre los dos estratos con n1 = 272 y n2 = 82.

En segunda fase tenemos los siguientes datos por estratos:

Estrato I  Raza blanca n1 = 74 W$ 1 = 272/374 P$ 1 =31/74


Estrato II  Otras razas n2 = 18 W$ 2 = 82/374 P$ 2 = 4/18

n=92
2
272 31 82 4
Tenemos entonces P = W$h P$h =
$ + = 0,376 .
h =1 374 74 374 18

Para hallar el error de muestreo calculamos la estimacin de la varianza de la


proporcin a partir de la frmula aproximada:

n' Ph Q h 2 W h 1 2
()
V P =
n'
1 h nh
1
Wh
( )
+ W h Pn
P =
n' n' h
31 43 272 4 14 82
2 2
374 74 74 272 374 18 18 82 374 +

+

373 73 374 374 17 374 374




1 272 31
2 2
82 4

0,376 +
0,376  0,0025
374 374 74 374 18

0,0025
El error relativo de muestreo ser = 0,133 (13,3%) .
0,375
Muestreo bifsico y muestreo en ocasiones sucesivas 345

9.2. Se trata de estimar una proporcin a travs de una encuesta para la que se dispone de un
presupuesto de 300000 unidades monetarias utilizando muestreo bifsico con estratificacin.
La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone
de informacin adicional en registros a un coste de 25 unidades monetarias por unidad de
muestreo que permite clasificar las unidades en dos estratos de tamaos casi iguales.
Sabiendo que la proporcin verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se
quiere estimar los tamaos de las muestras en ambas fases n y n ptimos y el
correspondiente valor de la varianza del estimador de la proporcin. Cuantificar la ganancia
en precisin respecto del muestreo aleatorio simple.

Hallaremos los tamaos ptimos n y n correspondientes a un coste total dado tales que
()
V P sea mnima, escribiendo la funcin de Lagrange:

1 1
2

" = A + B + c' n'+cn


C con A = Wh Ph Qh y B = Wh (Ph
P)2
( )
n n' h h

Derivando respecto de n y n y se tiene:

C A
" A A n =
n
=
2 + c = 0 = 2
n cn c ( Ac + Bc ' )

" B B C B
=
2 + c' = 0 = n ' =
n ' n' c' n' 2 c' ( Ac + Bc ' )
"

= c ' n '+ cn
C = 0




V ()
X =
( Ac + Bc ' )
2

pt . C

Tenemos como datos que C = 300000, c = 1000, c = 25, P1 = Q2 = 0,2, Q1 = P2 = 0,8,


2
W1 = W2 = 0,5 y P = W P
h =1
h h = 0,5(0,2 + 0,8) = 0,5 . Ya podemos calcular:

2

(
A = Wh Ph Qh = 0,5 0,2 0,8 + 0,5 0,8 0,2 )
2
= 0,16
h

B = Wh (Ph
P ) = 0,5 (0,2
0,5) 2 + 0,5 (0,8
0,5) 2 = 0,09
2

y tenemos:
C A 300000 0,16
n= =
c ( Ac + Bc ' ) 1000 ( 0,16 1000 + 0,09 25 ) = 268
C B 300000 0,09
n' = =
c' ( Ac + Bc ' ) 25 ( 0,16 1000 + 0,09 25 ) = 1272
V pt . ()
X =
( Ac + Bc ' ) =(
2
0,16 1000 + 0,09 25 ) 2

= 0,0006673
C 300000
346 Muestreo estadstico. Conceptos y problemas resueltos

En muestreo aleatorio simple la varianza de la proporcin, considerando reposicin (no


olvidemos que para poblaciones grandes en muestreo bifsico pueden aproximarse todas las
frmulas por su expresin para reposicin en las dos fases) ser la siguiente:
PQ 0,5(1
0,5)
V ( P ) = = = 0,0008333
n 300000 / 1000
Se observa que hay ganancia en precisin al utilizar muestreo bifsico cuantificada por
(0,0008333/0,0006673-1) = 0,248, esto es, el 24,8%.

9.3. Consideremos un proceso de muestreo bifsico con estratificacin. Supongamos que en la


primera fase se extrae una muestra de tamao n = 400, y que en la segunda fase se ha
tomado, una vez formados tres estratos, n1 = 20, n2 = 10 y n3 = 10. Se conocen los siguientes
resultados:
W h x h S h2
0,55 2,8 15
0,32 8,2 200
0,13 26 1000

Obtener una estimacin del error relativo de muestreo del estimador de la media as como
una estimacin de la media por intervalos al 95% de confianza.
Se considera que para poblaciones grandes, en muestreo bifsico pueden aproximarse todas las
frmulas por su expresin para reposicin en las dos fases. Para estimar la varianza del
estimador de la media tenemos:

()
V X =
n' s h2 2 W h 1
Wh

n'
1 h nh
n' n' h
2
+ W h (xn
X ) =
400 15

400
1 20
2
0,55

0,55
400

200 0,32 1000 0,13 1


+
10
2
0,32
+
400 10
2
0,13
+
400 400
(
0,55(2,8
7,54) 2 + 0,32(8,2
7,54) 2

)]
+ 0,13(26
7,54) 2 = 3,96
3
X = W h x h = 0,55 2,8 + 0,32 8,2 + 0,13 26 = 7,544
h =1

V ( X ) 3,96
El error relativo ser C v( X ) = = = 0,264 (26,4%)
X 7 ,544
Un lmite para el error de estimacin al 95% vendr dado por la anchura del intervalo de
confianza, que vale 1,96 3,96 = 3,9.
Hemos visto en este captulo que para valores grandes de n (caso habitual) el
estimador de la varianza del estimador de la media puede aproximarse por la frmula
correspondiente al estimador de la varianza del estimador de la media en muestreo
estratificado en una sola fase (seguimos suponiendo reposicin) sustituyendo Wh por su
estimacin. En nuestro caso tendramos:

() h
S 2
V X = W h2 h = 0,552
nh
15
20
+ 0,322
200
10
+ 0,132
1000
10
= 4,12
Muestreo bifsico y muestreo en ocasiones sucesivas 347

V ( X ) 4,12
El error relativo ser C v( X ) = = = 0,269 (26,9%)
X 7 ,544
Observamos que la prdida en precisin es mnima por haber utilizado la aproximacin
citada.

9.4. Consideremos dos caractersticas X e Y medidas sobre los elementos de una poblacin para
las que conocemos los datos x = 2 y = 4 xy = 10 y X = 10. Se lleva a cabo un muestreo
bifsico obteniendo en primera fase una muestra de tamao n = 100 con y ' = 40,6. En la
segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando
muestreo bifsico por regresin ptimo calculando el error relativo de muestreo y el coste
total para c = 0 y c = 600

xy 6 6 xy 6 6
Se tiene  = = = = 0,75 y b = 2 = 2 =
x y 2 4 8 y 4 16

El estimador por regresin para la media en el muestreo doble se halla mediante:

6
X rg = x + b( y '
y ) = 9,8 + (40,6
40,1) = 9,998
16
La varianza del estimador ptimo de la media se calcula mediante la expresin:

( )
V X rg =
( +
)
1
 2 x2  2 x2
=
( )
1
0,75 2 2 2 0,75 2 2 2
+ = 0,0955
n n' 25 100

V ( X rg ) 0,0955
El error relativo ser C v( X rg ) = = = 0,0309 (3,09%)

X rg 9,998

El coste total ser C = cn + cn = 600(25)+10(100) = 16000.

9.5. Se utiliza una muestra aleatoria simple de tamao 60 extrada de una poblacin sin
reposicin y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos
ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos
son los que representa la tabla adjunta. Adems, se sabe que 2 = 20,  = 0,7 y  = 0,6.

Primera ocasin Segunda ocasin


x' ' = 150 y' ' = 160
x' = 152 y' = 158

1) Hallar la estimacin de cambio y


x y su error de muestreo.
2) Hallar la estimacin del cambio de mnima varianza y su error de muestreo.
3) Hallar la estimacin de la media en segunda ocasin y y su error de muestreo.
4) Hallar la estimacin de la media en segunda ocasin de mnima varianza y su error.
348 Muestreo estadstico. Conceptos y problemas resueltos

El nmero c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la
proporcin de unidades muestrales comunes c y del tamao muestral total n.
c
c = c =  c n = 0,6 60 = 36
n
n
c c 60
36 36
x= x ' '+ x ' = 150 + 152 = 0,4 150 + 0,6 152 = 151,2
n n 60 60
n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4 160 + 0,6 158 = 158,8
n n 60 60
Para la estimacin del cambio y su error tenemos entonces:

 = y
x = 158,8
151,2 = 7,6

() S2 20
V  = 2 [1
12 c ]  2 [1
0,7 0,6] = 0,38666
n 60
El estimador del cambio de mnima varianza y su error vienen dados por:

c 0,6
% = W ( y '
x ') + (1
W ) ( y ' '
x ' ') con W = = = 0,8333
1
12 (1
 c ) 1
0,7 0,4

= 0,8333(158
152 ) + (1
0,8333) (160
150 ) = 6,66666
luego ya tenemos %

2 S 2 (1
12 ) 2 20(1
0,7 )
()
V % = 
[1
12 (1
 c )] n [1
0,7(1
0,6)] 60
= 0,277

El estimador de la media en segunda ocasin y su error se calculan como:

n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4 160 + 0,6 158 = 158,8
n n 60 60

S 2 20
V (y) =  = 0,333
n 60
Utilizaremos el estimador estimador lineal de mnima varianza de la media para la
segunda ocasin combinado definido por:

y = W [ y'+  ( x
x ')] + (1
W ) y' ' = 0,65[158 + 0,7(151,2
152)] + (1
0,65)160 = 159

Los clculos necesarios son los siguientes:


V (x2c ) 0,833
W = = = 0,65
( )
V x + V ( x 2 c ) 0,446 + 0,833
'
2c

1
122 122 1
0,72 0,72 S2 20
( )
V x2' c = S 2 + = 20 + = 0,446 V ( x2c ) = =
n
c 60
36
= 0,833
c n 32 60
Muestreo bifsico y muestreo en ocasiones sucesivas 349

El error de muestreo del estimador de varianza mnima viene dado por:

V (y) =
( ) (
S 2 n
122 (n
1) 20 60
0,7 2 (60
1)
= = 0,29
)
n 2
122 c 2 60 2
0,7 2 (60
36) 2

9.6. Se utiliza una muestra aleatoria simple de tamao 100 de una poblacin de 1000 personas
sin reposicin y probabilidades iguales para repetir una encuesta sobre sus elementos en dos
ocasiones sucesivas preguntando sobre un carcter dicotmico. Se obtienen los resultados de
la tabla adjunta.

O1 
O2 S No Total

S 80 5 85
No 10 5 15
Total 90 10 100

Hallar  y calcular el error de muestreo del estimador diferencia de proporciones con


contestacin afirmativa entre la segunda y la primera ocasin.

P (1
P2 )
D = P2
P1 V ( D ) = V ( P2 ) + V ( P1 )
2Cov( P1 , P2 ) = (1
f ) 2 +
n
1
n
85 85
X 1i X 2i
nP1 P2 (1
)
P1 (1
P1 ) 10 100 100
(1
f )
2(1
f ) i =1
= 1
+
n
1 n(n
1) 100 100
1
90 90 90 85
(1
) 80
100
10 100 100 + 21
10 100 100 = 0,00134
1

100 100
1 100 n(n
1)
n
Con los datos de la tabla se comprueba fcilmente que X
i =1
1i X 2i = 80 .

El coeficiente de correlacin se calcular de la siguiente forma:

Cov( P1 , P2 ) 0,00032
= = = 0,3
V ( P1 ) V ( P2 ) 0,00082 0,00116
350 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS

9.1. Se destinan 3000 unidades monetarias a una encuesta para estimar una proporcin. La
encuesta principal costar 10 unidades monetarias por unidad de muestreo. Se dispone de
informacin en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo,
que permite la clasificacin de las unidades en dos estratos de tamaos casi iguales. Si la
proporcin verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n ptimas y el
valor resultante de V(pst). Produce el muestreo bifsico alguna ganancia en precisin sobre
el muestreo aleatorio simple?

9.2. Si  = 0,8 en muestreo doble para regresin, cmo debe ser n con relacin a n, si la prdida
en precisin debida a errores de muestreo en la media de la muestra grande se desea que sea
menor del 10%?

9.3. En una aplicacin de muestreo bifsico por regresin la muestra pequea es de tamao 87 y
la grande de tamao 300. Para la muestra pequea conocemos los siguientes datos:

(X
x ) = 17283 (X
x )(Yi
y ) = 5114 (Y
y ) = 3248
2 2
i i i
i i i

Calcular el error estndar de la estimacin de la regresin de X .

9.4. En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de
modo que los coeficientes de regresin de X2i respecto de X1i y de X1i respecto de X2i en la
parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a .
Demostrar que si las estimaciones x1 y x2 se construyen usando la regresin de X1i respecto
de X2i se tiene:

2S 2 (1
 ) 2 S 2 (1 +  )
v( x 2
x1 ) = v( x2 + x1 ) =
(n
u ) (n + u )
CAPTULO

MUESTREO ESTADSTICO
MEDIANTE SPSS

OBJETIVOS

1. Presentar mtodos automatizados de tratamiento del muestreo estadstico.

2. Analizar las posibilidades en muestreo del software SPSS a partir de la


versin 12.

3. Utilizar el asistente de muestreo de SPSS para la creacin de planes de


muestreo en diseos complejos.

4. Utilizar el asistente de muestreo de SPSS para la modificacin y ejecucin


de planes de muestreo en diseos complejos.

5. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS


para la creacin de un plan de anlisis en una muestra compleja.

6. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS


para la modificacin de un plan de anlisis en una muestra compleja.

7. Realizar clculos en muestra complejas con SPSS.

8. Obtener frecuencias, descriptivos, tablas de contingencia, razones y otros


estimadores y sus errores en muestras complejas con SPSS.
352 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. SPSS y el muestreo estadstico.

2. Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan


de muestreo.

3. Asistente de muestreo: Modificar un plan existente.

4. Asistente de muestreo: ejecutar un plan de muestreo dado.

5. Preparacin de una muestra compleja para su anlisis: Creacin de un


nuevo plan de anlisis.

6. Preparacin de una muestra compleja para su anlisis: Modificar un plan de


anlisis existente.

7. Clculos en muestras complejas: frecuencias, descriptivos, tablas de


contingencia y razones.
Muestreo estadstico mediante SPSS 353

SPSS Y EL MUESTREO ESTADSTICO

Un supuesto inherente a los procedimientos de anlisis en los paquetes de software


tradicionales es que las observaciones del archivo de datos de trabajo representan una
muestra aleatoria simple de la poblacin de inters. Este supuesto es insostenible para un
nmero cada vez mayor de empresas e investigadores que consideran ms econmico y
cmodo obtener las muestras de una forma ms estructurada. La opcin Muestras complejas
de SPSS (opcin presente en el programa a partir de la versin 12) permite seleccionar una
muestra de acuerdo con un diseo complejo e incorporar las especificaciones del diseo al
anlisis de los datos para asegurar la validez de los resultados.

En SPSS, una muestra compleja puede ser distinta de una muestra aleatoria simple en
muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se
seleccionan aleatoriamente con la misma probabilidad y sin reposicin (SR) directamente a
partir de la totalidad de la poblacin. Por el contrario, una muestra compleja determinada
puede tener en SPSS alguna o todas las caractersticas siguientes:

Estratificacin: El muestreo estratificado implica seleccionar muestras independientemente


dentro de los subgrupos de la poblacin que no se solapen o estratos. Por ejemplo, los
estratos pueden ser grupos socioeconmicos, categoras laborales, grupos de edad o grupos
tnicos. Con la estratificacin, puede asegurar que los tamaos muestrales de los subgrupos
de inters son adecuados, mejorar la precisin de las estimaciones globales y utilizar
distintos mtodos de muestreo entre los diferentes estratos.

Conglomerados: El muestreo por conglomerados implica la seleccin de grupos de unidades


muestrales o conglomerados. Por ejemplo, los conglomerados pueden ser escuelas, hospitales
o zonas geogrficas y las unidades muestrales pueden ser alumnos, pacientes o ciudadanos. El
conglomerado es comn en los diseos polietpicos y en las muestras de zona (geogrfica).

Mltiples etapas: En el muestreo polietpico, se selecciona una muestra de primera etapa


basada en conglomerados. A continuacin, se crea una muestra de segunda etapa extrayendo
submuestras a partir de los conglomerados seleccionados. Si la muestra de segunda etapa
est basada en subconglomerados, entonces puede aadir una tercera etapa a la muestra. Por
ejemplo, en la primera etapa de una encuesta, se podra extraer una muestra de ciudades. A
continuacin, y a partir de las ciudades seleccionadas, se podran muestrear unidades
familiares. Finalmente, a partir de las unidades familiares seleccionadas, se podra encuestar
a individuos. Los Asistentes de muestreo y preparacin del anlisis permiten especificar tres
etapas en un diseo.

Muestreo no aleatorio: Cuando es difcil obtener la muestra aleatoriamente, las unidades se


pueden muestrear sistemticamente (con un intervalo fijo) o secuencialmente.

Probabilidades de seleccin desiguales: Cuando se muestrean conglomerados que contienen


nmeros de unidades desiguales, puede utilizar el muestreo probabilstico proporcional al tamao
(PPS) para que la probabilidad de seleccin del conglomerado sea igual a la proporcin de unidades
que contiene. El muestreo PPS tambin puede utilizar esquemas de ponderacin ms generales para
seleccionar unidades.

Muestreo no restringido: El muestreo no restringido selecciona las unidades con reposicin


(CR), por lo que se puede seleccionar ms de una vez una unidad individual para la muestra.
354 Muestreo estadstico. Conceptos y problemas resueltos

Ponderaciones muestrales: Las ponderaciones muestrales se calculan automti-camente al extraer


una muestra compleja y de forma ideal se corresponden con la <<frecuencia>> que cada unidad
muestral representa en la poblacin objetivo. Por lo tanto, la suma de las ponderaciones muestrales
debe estimar el tamao de la poblacin. Los procedimientos de anlisis de muestras complejas
requieren las ponderaciones muestrales para poder analizar correctamente una muestra compleja.

DISEOS COMPLEJOS Y EL ASISTENTE DE MUESTREO. CREACIN DE


UN NUEVO PLAN DE MUESTREO
El Asistente de muestreo le gua a travs de los pasos para crear, modificar o ejecutar un
archivo de plan de muestreo. Antes de utilizar el Asistente, debe tener en mente una poblacin
objetivo bien definida, una lista de las unidades muestrales y un diseo muestral adecuado.
Para crear un nuevo plan de muestreo (por ejemplo, muestreo estratificado del 10% por
barrios en el fichero Venta de casas [por barrios].sav), elija en los mens Analizar Muestras
complejas  Seleccionar una muestra...(Figura 10-1). En el Asistente de muestreo seleccione
Disear una muestra y elija un nombre de archivo de plan (PLAN1.CSPLAN) para guardar el plan
de muestreo (Figura 10-2). Pulse Siguiente para ir al paso Variables en el diseo (Figura 10-3),
donde puede definir estratos, conglomerados e introducir ponderaciones muestrales.

Figura 10-1

Figura 10-2
Muestreo estadstico mediante SPSS 355

Figura 10-3

Este paso permite seleccionar las variables de estratificacin y conglomeracin en el


campo Variables arrastrndolas a los campos Estratificar por y Conglomerados respectivamente,
y definir ponderaciones muestrales de entrada en el campo Introducir ponderacin muestral (si
el diseo muestral actual forma parte de un diseo muestral mayor, puede disponer de
ponderaciones muestrales de una etapa anterior del diseo mayor, en cuyo caso puede
especificar una variable numrica que contenga estas ponderaciones en la primera etapa del
diseo actual calculndose las ponderaciones muestrales automticamente para las etapas
posteriores del diseo actual). Tambin puede especificar una etiqueta para la etapa en el
campo Etiqueta de etapa (se utiliza en los resultados para facilitar la identificacin de la
informacin por etapas).

En la parte izquierda de cada paso del Asistente de muestreo se muestra un esquema


de los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno
de los pasos activados en el esquema. Los pasos estn activados cuando todos los pasos
anteriores sean vlidos, es decir, si cada uno de los pasos anteriores dispone de las
especificaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos
individuales para obtener ms informacin sobre los motivos por los que un paso
determinado puede no ser vlido.

A continuacin, para ir al paso Mtodo, pulsamos en Mtodo en la parte izquierda de la


pantalla del Asistente para obtener la Figura 10-4, en cuyo campo Mtodo elegimos el tipo de
muestreo (aleatorio, sistemtico, con o sin reposicin, etc.).

Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR)
o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos.
Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn
disponibles slo cuando se han definido conglomerados y todos los tipos de PPS estn
disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles
slo en la ltima etapa de un diseo.
356 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-4

En el Muestreo aleatorio simple las unidades se seleccionan con probabilidad igual. Se


pueden seleccionar con o sin reposicin. En el Muestreo sistemtico simple las unidades se
seleccionan con un intervalo fijo en todo el marco muestral (o en los estratos, si se han especificado)
y se extraen sin reposicin. Se selecciona una unidad aleatoriamente dentro del primer intervalo
como el punto inicial. En el Muestreo secuencial simple las unidades se seleccionan de forma
secuencial con probabilidad igual y sin reposicin. El Muestreo con probabilidad proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma aleatoria con probabilidad
proporcional al tamao. Se puede seleccionar cualquier unidad con reposicin; slo se puede realizar
muestreo sin reposicin de los conglomerados. El Muestreo sistemtico proporcional al tamao es
un mtodo de primera etapa que selecciona unidades de forma sistemtica con probabilidad
proporcional al tamao. Se seleccionan sin reposicin. El Muestreo secuencial proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma secuencial con
probabilidad proporcional al tamao del conglomerado y sin reposicin.

El Muestreo de Brewer proporcional al tamao es un mtodo de primera etapa que


selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Murthy proporcional al tamao es un mtodo de primera etapa
que selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Sampford proporcional al tamao es un mtodo de primera etapa
que selecciona ms de dos conglomerados de cada estrato con probabilidad proporcional al
tamao del conglomerado y sin reposicin. Es una extensin del mtodo de Brewer. Se debe
especificar una variable de conglomeracin para utilizar este mtodo. Por defecto, el mtodo de
estimacin se especifica en el archivo de plan de manera coherente con el mtodo de muestreo
seleccionado, pero la opcin Usar estimacin CR para el anlisis permite utilizar la estimacin
con reposicin incluso si el mtodo de muestreo implica la estimacin SR. Esta opcin solamente
est disponible en la etapa 1. Si se selecciona un mtodo PPS, se deber especificar una medida
del tamao que defina el tamao de cada unidad en el campo Medida del tamao (MDT).
Muestreo estadstico mediante SPSS 357

Estos tamaos pueden definirse explcitamente en una variable o se pueden calcular a


partir de los datos. Opcionalmente, se pueden establecer los lmites inferior y superior de la
MDT, anulando cualquier valor encontrado en la variable MDT o calculado a partir de los datos.
Estas opciones solamente estn disponibles en la etapa 1.
A continuacin, para ir al paso Tamao muestral, pulsamos en Tamao muestral en la parte
izquierda de la pantalla del Asistente para obtener la Figura 10-5 .

Figura 10-5

Este paso permite especificar el nmero o la proporcin de unidades que se van a


muestrear dentro de la etapa actual. El tamao muestral puede ser fijo o variar entre estratos.
Para el propsito de especificar el tamao muestral, se pueden utilizar los conglomerados
elegidos en etapas anteriores para definir estratos. En el campo Unidades puede especificar un
tamao muestral exacto o una proporcin de unidades a muestrear. En el campo Valor se
aplica un valor particular a todos los estratos. Si se selecciona Recuentos como la unidad
mtrica, se deber introducir un entero positivo. Si se selecciona Proporciones, se deber
introducir un valor no negativo (a no ser que se realice una muestra con reposicin, los valores
de proporcin no debern ser mayores que 1). El campo Valores desiguales para estratos
permite introducir distintos valores de tamao para cada estrato a travs del cuadro de dilogo
Definir tamaos desiguales. El campo Leer valores de la variable permite seleccionar una
variable numrica que contenga los valores de tamao para los estratos. Si se selecciona
Proporciones, se tiene la opcin de establecer los lmites inferior y superior para el nmero de
unidades muestreadas.

A continuacin, para ir al paso Variables de resultado, pulsamos en Variables de resultado en


la parte izquierda de la pantalla del Asistente. Se obtiene la Figura 10-6.
358 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-6

Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamao poblacional recoge el nmero estimado de unidades en la poblacin de una etapa dada.
El nombre raz de la variable guardada es TamaoPoblacin_. Proporcin muestral recoge la
tasa de la muestra en una etapa dada. El nombre raz de la variable guardada es TasaMuestreo_.
Tamao muestral recoge el nmero de unidades extradas en una etapa dada. El nombre raz de la
variable guardada es TamaoMuestra_. Ponderacin muestral recoge la inversa de las
probabilidades de inclusin.

El nombre raz de la variable guardada es PonderacinMuestra_. Algunas variables por


etapa se generan automticamente. Entre stas se incluyen Probabilidades de inclusin
(proporcin de unidades extradas en una etapa dada con nombre raz de la variable guardada
ProbabilidadInclusin_), Ponderacin acumulada (ponderacin de la muestra acumulada a lo
largo de las etapas anteriores a la actual e incluyendo esta ltima con nombre raz de la variable
guardada), PonderacinMuestraAcumulada_, ndice (identifica las unidades seleccionadas varias
veces dentro de una etapa dada con nombre raz de la variable guardada ndice_), etc.. Los
nombres raz de la variable guardada incluyen un sufijo entero que refleja el nmero de la etapa,
por ejemplo, TamaoPoblacin_1_ para el tamao de la poblacin guardada de la etapa 1.
A continuacin, para ir al paso Resumen, pulsamos en Resumen en la parte izquierda
de la pantalla del Asistente. Se obtiene la Figura 10-7. Se trata del ltimo paso de cada etapa
que proporciona un resumen de las especificaciones del diseo muestral hasta la etapa
actual. A partir de aqu, puede pasar a la siguiente etapa (crendola si es necesario en Aadir
etapa 2) o definir las opciones para extraer la muestra.
Muestreo estadstico mediante SPSS 359

Figura 10-7
Ya estamos en condiciones de extraer la muestra segn el diseo definido en los pasos
anteriores. Para ello elegimos Extraer muestra  Opciones de seleccin en la parte izquierda de
la pantalla del Asistente de muestreo. Tambin puede controlar otras opciones del muestreo,
como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra,
adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar parte del diseo
muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos
que ya se haya extrado la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear
etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generacin de
nmeros aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si
los valores perdidos definidos por el usuario son tratados como vlidos. Si es as, los valores
perdidos definidos por el usuario se tratan como una categora diferente. El campo Los datos ya
estn ordenados permite acelerar el proceso de seleccin si el marco muestral est clasificado
previamente por los valores de las variables de estratificacin.

Figura 10-8
360 Muestreo estadstico. Conceptos y problemas resueltos

Realizado el diseo y extrada la muestra, slo resta guardar los resultados


adecuadamente. Para ello se selecciona Extraer muestra  Archivos de resultados en la parte
izquierda de la pantalla del Asistente de muestreo (Figura 10-9). Este paso permite elegir dnde
dirigir los casos muestreados, las variables de ponderacin, las probabilidades conjuntas y las
reglas de seleccin de casos.

Las opciones de Dnde desea almacenar los datos de la muestra? permiten determinar
dnde se escribe el resultado de la muestra. Se puede aadir al archivo de datos de trabajo o
guardar en un archivo externo. Si se especifica un archivo externo, se guardan en el archivo las
variables de los resultados del muestreo y las variables del archivo de datos de trabajo para los
casos seleccionados. Las opciones de Dnde desea guardar las probabilidades conjuntas?
permiten determinar dnde se escriben las probabilidades conjuntas. Las probabilidades
conjuntas se producen si se seleccionan la probabilidad proporcional al tamao sin reposicin,
el muestreo de Brewer proporcional al tamao, el muestreo de Sampford proporcional al
tamao o el mtodo de Murthy proporcional al tamao y la estimacin con reposicin no se
especifica. En cuanto al campo Guardar reglas de seleccin de casos, si est construyendo la
muestra por etapas, es posible que quiera guardar las reglas de seleccin de casos en un
archivo de texto. Son tiles para construir el submarco de las etapas posteriores.

Figura 10-9

Ya slo resta finalizar el proceso adecuadamente. Para ello se selecciona Extraer


muestra  Finalizacin en la parte izquierda de la pantalla del Asistente de muestreo (Figura 10-10).
Puede guardar el archivo de plan y extraer la muestra ahora o pegar las selecciones en una
ventana de sintaxis. Al editar un plan, puede guardar el plan editado en un archivo nuevo o
sobrescribir el archivo de plan existente.
Muestreo estadstico mediante SPSS 361

Figura 10-10
Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la
sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).

Figura 10-11 Figura 10-12


Tambin se obtiene un resumen sobre las distintas etapas de seleccin de la muestra,
que se presenta a continuacin.
Resumen
Etapa 1
Variables Estratificacin 1 Barrio
Informacin de Mtodo de seleccin Muestreo aleatorio simple sin
la muestra reposicin
Proporcin de unidades muestreadas ,1
Variables creadas Probabilidad de inclusin ProbabilidadInclusin_1_
o modificadas (seleccin) segn etapa
Ponderacin de muestreo PonderacinMuestralAcumulada_1
acumulada segn etapa _
Tamao de la poblacin segn etapa TamaoPoblacin_1_
Tamao de la muestra segn etapa TamaoMuestral_1_
Tasa de muestreo segn etapa TasaMuestreo_1_
Ponderacin de muestreo segn etapa PonderacinMuestral1_
Informacin Supuestos del estimador Muestreo de probabilidad igual
sobre el anlisis sin reposicin
Probabilidad de inclusin A partir de la variable
ProbabilidadInclusin_1_
Archivo del plan: C:\Archivos de programa\SPSS12\PLAN1Variable de ponderacin: PonderacinMuestral_Final_
362 Muestreo estadstico. Conceptos y problemas resueltos

ASISTENTE DE MUESTREO: MODIFICAR UN PLAN EXISTENTE

Para modificar un plan de muestreo existente, por ejemplo para guardar la muestra estratificada
anterior en una archivo nuevo de nombre PLAN2.SAV, elija en los mens: Analizar  Muestras
complejas  Seleccionar una muestra..., seleccione Editar un diseo muestral y elija el archivo de
plan anterior PLAN1.CSPLAN para editar (Figura 10-13). Pulse Siguiente para continuar usando el
Asistente. Revise el plan de muestreo del paso Resumen del plan (Figura 10-14), y a continuacin
pulse Siguiente. En Extraer muestra  Archivos de resultados especifique el archivo para guardar la
muestra (Figura 10-15). Vaya al paso final y especifique un nombre nuevo para el archivo de plan
editado (Figura 10-16). Si lo desea, tiene la posibilidad de Especificar las etapas que ya se han
muestreado y Eliminar etapas del plan.

Figura 10-13

Figura 10-14
Muestreo estadstico mediante SPSS 363

Figura 10-15

Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar
coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en
Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo
PLAN2.SAV que contiene la muestra aleatoria.

Figura 10-16
364 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-17 Figura 10-18

ASISTENTE DE MUESTREO: EJECUTAR UN PLAN DE MUESTREO DADO

Elija en los mens Analizar  Muestras complejas  Seleccionar una muestra...(Figura 10-1).
En el Asistente de muestreo seleccione Extraer una muestra (Figura 10-13) y elija un
archivo de plan para ejecutar. Pulse Siguiente para continuar usando el Asistente. Revise el
plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente. Cuando se
ejecuta un plan de muestreo se omiten los pasos individuales que contienen informacin de
la etapa. Ya puede pasar al paso de finalizacin. Si lo desea, tiene la posibilidad de
especificar las etapas que ya se han muestreado.

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS:


CREACIN DE UN NUEVO PLAN DE ANLISIS

El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modificar un
plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de muestras complejas.
Antes de utilizar el Asistente, debe haber extrado la muestra para el anlisis de acuerdo con un
diseo complejo. Es ms til crear un plan nuevo cuando no se tiene acceso al archivo del plan
de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un
plan de anlisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para
extraer la muestra, puede utilizar el plan de anlisis contenido por defecto en el archivo del
plan de muestreo u omitir las especificaciones del anlisis por defecto y guardar los cambios
en un archivo nuevo.

Para crear un nuevo plan de anlisis, elija en los mens Analizar muestras complejas 
Preparar para el anlisis... (Figura 10-19), seleccione Crear un archivo de plan en la Figura
10-20 y elija un nombre de archivo de plan para guardar el plan del anlisis. Crearemos un
plan de anlisis de nombre PLANA.CSAPLAN para la muestra obtenida anteriormente y guardada
en el fichero PLAN2.SAV. Pulse Siguiente para continuar usando el Asistente. Especifique la
variable que contiene las ponderaciones muestrales en el paso Variables del diseo y, si lo desea,
puede definir estratos y conglomerados (Figura 10-21). Es posible seleccionar el mtodo de
estimacin de los errores tpicos en el paso Mtodo de estimacin (Figura 10-22). Tambin
puede especificar el nmero de unidades muestrales o la probabilidad de inclusin por unidad
en el paso Tamao (Figuras 10-23 y 10-24).
Muestreo estadstico mediante SPSS 365

El paso Resumen (Figura 10-25) recoge las especificaciones de nuestro anlisis.


Tambin es posible aadir una segunda o tercera etapa al diseo en el paso Aadir etapa. El
paso Finalizacin permite guardar el archivo del plan ahora o pegar las selecciones en una
ventana de sintaxis (Figura 10-26). Ahora puede pulsar Finalizar para guardar el plan. Se
obtiene la salida del procedimiento (Figura 10-27).

Figura 10-19

Figura 10-20

Figura 10-21
366 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-22

Figura 10-23

Figura 10-24
Muestreo estadstico mediante SPSS 367

Figura 10-25

Figura 10-26

Figura 10-27 Figura 10-28


368 Muestreo estadstico. Conceptos y problemas resueltos

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS:


MODIFICAR UN PLAN DE ANLISIS EXISTENTE

Para modificar un plan de anlisis existente elija en los mens Analizar  Muestras
complejas  Preparar para el anlisis... (Figura 10-19), seleccione Editar un archivo de plan y
elija un nombre de archivo de plan en el que se guardar el plan del anlisis (Figura 10-28). Pulse
Siguiente para continuar usando el Asistente. Revise el plan de anlisis en el paso Resumen del
plan y, a continuacin, pulse Siguiente. Los pasos posteriores son prcticamente iguales que los
de un diseo nuevo. Desplcese al paso de finalizacin y especifique un nombre nuevo para el
archivo de plan editado o sobrescriba el archivo de plan existente. Si lo desea, tiene la posibilidad
de eliminar etapas del plan.

CLCULOS EN MUESTRAS COMPLEJAS: FRECUENCIAS, DESCRIPTIVOS,


TABLAS DE CONTINGENCIA Y RAZONES

Una vez seleccionada una muestra mediante el Asistente de muestreo que se activa con
Analizar Muestras complejas  Seleccionar una muestra... (Figura 10-1), y preparada la
muestra para su anlisis mediante el Asistente de preparacin del anlisis que se activa con
Analizar Muestras complejas  Preparar para el anlisis... (Figura 10-19), ya estamos
en disposicin de calcular frecuencias, estadsticos, tablas de contingencia y razones a partir
de los datos de nuestra muestra.

Frecuencias de Muestras complejas

El procedimiento Frecuencias de Muestras complejas genera tablas de frecuencias para las


variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN) y muestra
estadsticos univariantes. Si lo desea, puede solicitar estadsticos por subgrupos definidos por una
o ms variables categricas.

El procedimiento genera estimaciones de los tamaos poblacionales de las casillas,


adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo,
raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada
estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes
para el contraste de proporciones de casilla iguales.

Para la obtencin de Descriptivos de Muestras complejas elija en los mens Analizar 


Muestras complejas  Descriptivos... (Figura 10-29), seleccione un archivo de plan, que puede
ser el asociado por defecto a la muestra en memoria PLAN2.SAV u otro a especificar en Archivo
personalizado (Figura 10-30) y, si lo desea, seleccione un archivo de probabilidades conjuntas
personalizado.
Pulse en Continuar y seleccione al menos una variable de medida y, si lo desea, tiene la
posibilidad de especificar variables para definir subpoblaciones (Figura 10-31), en cuyo caso los
estadsticos se calculan por separado para cada subpoblacin. Al pulsar Aceptar se obtiene la
salida (Figuras 10-32 y 10-33).
Muestreo estadstico mediante SPSS 369

Figura 10-29 Figura 10-30

Figura 10-31 Figura 10-32

Figura 10-33 Figura 10-34

Descriptivos de Muestras complejas


El procedimiento Descriptivos de Muestras complejas genera estadsticos descriptivos para
las variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN). Si lo
desea, puede solicitar estadsticos por subgrupos definidos por una o ms variables
categricas.
370 Muestreo estadstico. Conceptos y problemas resueltos

El procedimiento genera estimaciones de los tamaos poblacionales de las casillas,


adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo,
raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada
estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes
para el contraste de proporciones de casilla iguales. Para la obtencin de Descriptivos de
Muestras complejas elija en los mens Analizar  Muestras complejas  Descriptivos...
(Figura 10-34), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra
actual (PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-35) y, si lo
desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y
seleccione al menos una variable de medida (Figura 10-36). Si lo desea, tiene la posibilidad de
especificar variables para definir subpoblaciones, en cuyo caso los estadsticos se calculan por
separado para cada subpoblacin. El botn Estadsticos permite elegir los estadsticos a obtener
(Figura 10-37). Al pulsar Aceptar se obtiene la salida (figuras 10-38 a 10-40).

Figura 10-35 Figura 10-36

Figura 10-37 Figura 10-38

Figura 10-39
Muestreo estadstico mediante SPSS 371

Figura 10-40
372 Muestreo estadstico. Conceptos y problemas resueltos

Tablas de contingencia de Muestras complejas


El procedimiento Tablas de contingencia de Muestras complejas genera tablas de contingencia
para los pares de variables seleccionadas y muestra estadsticos sobre la clasificacin
bivariante. Si lo desea, puede solicitar estadsticos por subgrupos, definidos por una o ms
variables categricas. Para la obtencin de Tablas de contingencia de Muestras complejas elija
en los mens Analizar  Muestras complejas  Tablas de contingencia... (Figura 10-41),
seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual
(PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-42) y, si lo desea,
seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al
menos una variable de medida para el campo Filas y otra para el campo Columnas que formarn la
tabla de contingencia (Figura 10-43). Si lo desea, tiene la posibilidad de especificar variables para
definir subpoblaciones, en cuyo caso las tablas se calculan por separado para cada subpoblacin. El
botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-44). Al pulsar Aceptar se
obtiene la salida.

Figura 10-41 Figura 10-42

Figura 10-43 Figura 10-44


Muestreo estadstico mediante SPSS 373

Razones de Muestras complejas

El procedimiento Razones de Muestras complejas muestra estadsticos de resumen


univariantes para razones de variables. Si lo desea, puede solicitar estadsticos por subgrupos,
definidos por una o ms variables categricas. Para la obtencin de Razones de Muestras
complejas elija en los mens Analizar  Muestras complejas  Razones... (Figura 10-45),
seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual
(PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-46) y, si lo
desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y
seleccione al menos una variable de medida para el campo Numerador y otra para el campo
Denominador que formarn la razn a estimar (Figura 10-47). Los numeradores y los
denominadores deben ser variables de escala con valores positivos. Si lo desea, tiene la
posibilidad de especificar variables para definir subpoblaciones, en cuyo caso, las razones se
calculan por separado para cada subpoblacin.

El botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-48). Al


pulsar Aceptar se obtiene la salida (Figuras 10-49 y 10-50).

Figura 10-45 Figura 10-46

Figura 10-47 Figura 10-48


374 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-49

Figura 10-50

Vous aimerez peut-être aussi