Vous êtes sur la page 1sur 78

MAGISTER EN INVESTIGACIN SOCIAL Y DESARROLLO

DEPARTAMENTO DE SOCIOLOGA Y ANTROPOLOGA


FACULTAD DE CIENCIAS SOCIALES
UNIVERSIDAD DE CONCEPCION





TCNICAS
DE
MUESTREO













PROFESORA: MARA PAZ CASANOVA LAUDIEN
APUNTES DE CLASE AO 2008 02
Programacin de Tcnicas de Muestreo:


Se proyectan las siguientes sesiones de clase, basadas en material de clase,
apunte de la profesora y texto gua. La asistencia mnima exigida es de un
75%.

Sesin 1: Captulos 1, 2.
Sesin 2: Captulo 3.
Sesin 3: Captulo 4 (4.1-4.5).
Sesin 4: Captulo 4 (4.6-4.7, Ej.).
Sesin 5: Captulo 5 (5.1-5.5).
Sesin 6: Captulo 5 (5.6-5.11, Ej.).
Sesin 7: Captulo 6 (6.1-6.4).
Sesin 8: Captulo 6 (6.5-6.9, Ej.).
Sesin 9: Captulo 7.
Sesin 10: Captulo 8 (8.1-8.5).
Sesin 11: Captulo 8 (8.6-8.9, Ej.).
Sesin 12: Captulo 9.
Sesin 13: Captulo 10.
Sesin 14: Captulo 11, 12.
Sesin 15: Evaluacin.

Texto gua:

Scheaffer Richard L., Lyman Ott R. , Mendenhall William (1987). Elementos de
Muestreo. Grupo Editorial Iberoamrica, Mxico.


Evaluacin del curso:

El curso se evaluar mediante un nico trabajo final el cual se describe a
continuacin.

Trabajo Final del Curso:

Descripcin del trabajo:

En base a un problema real del rea de su inters, realice las siguientes
actividades:

1) Narre brevemente la situacin que motiva o justifica la investigacin;
delimite la poblacin a estudiar, defina variables y parmetros de inters.
2) Plantee el problema, pregunta de investigacin o hiptesis.
3) Disee un plan de muestreo, justifique el que se utiliz o bien critique el
que se utiliz y propongas uno mejor.
4) Calcule tamaos de muestra, especifique las restricciones o condiciones
impuestas.
5) Estime parmetros puntualmente y por intervalos.
6) D repuesta a la pregunta que motiva la investigacin.

Informes y fechas:

Se solicitan dos informes.

- El primero debe contener los puntos 1 y 2, y una propuesta del punto 3.
- El segundo debe estar completo (puntos 1 a 6).

Evaluacin del trabajo:

La nota final depender de las evaluaciones parciales de ambos informes,
donde el segundo contiene al primero con las correcciones solicitadas.

- Primer informe: 27 de octubre, 30%.
- Segundo informe: 01 de diciembre, 70%.


Tcnicas de Muestreo
Clase 1: Introduccin (primera parte)

Incerteza y azar:

En lenguaje coloquial hablamos de estadsticas de ftbol, por ejemplo,
refirindonos a promedios y frecuencia de ciertos eventos, sin embargo este
concepto no es adecuado tcnicamente. La estadstica es la ciencia que
estudia la incerteza, de modo que si un problema tiene una solucin fija
exacta, no es materia de la estadstica sino de las matemticas.

La incerteza se relaciona con el concepto de evento o fenmeno aleatorio,
entendemos por fenmeno aleatorio un evento o situacin cuyo resultado no se
conoce, y para el cual existe ms de un resultado posible. Por ejemplo,
resultado del lanzamiento de un dado, postura expresada por un encuestado
elegido al azar respecto de un planteamiento, ingreso per cpita de una familia
elegida al azar en cierto sector. En rigor, cuando hablamos de una seleccin al
azar nos referimos a que los individuos o elementos han sido numerados, estos
nmeros (como esferas numeradas, papeles numerados, etc) han sido
depositados en un recipiente y mezclados, para luego seleccionar uno de ellos
(y por tanto un individuo) sin mirar los nmeros. Por supuesto, es poco prctico
en la mayora de los casos, llevar una tmbola para realizar la seleccin de
elementos.

Existen mtodos alternativos, como el uso de la tabla de nmeros aleatorios,
nmeros aleatorios de una calculadora (funcin RAN), nmeros
aleatorios de excell (funcin =aleatorio()).

1) Tabla de nmeros aleatorios:
Determinar el nmero de dgitos del tamao de la Poblacin N:
El tamao de la Poblacin N tiene una cierta cantidad de dgitos (por
ejemplo N=6.114 tiene cuatro dgitos).
Seleccin del punto de partida: Se escoge un punto inicial de la tabla sin
mirarla, por ejemplo, fila 5 (horizontal) y columna 12 (vertical).
Seleccin del camino a realizar: Se decide, antes de mirar la tabla, el
camino a seguir con los nmeros dentro de la tabla, por ejemplo, se
seguir hacia la derecha (o se seguir hacia abajo, o en diagonal, etc).
Se eligen los nmeros: Se sigue la pauta decidida en los dos puntos
anteriores, escogiendo nmeros de la cantidad de dgitos deseados,
hasta completar el tamao de muestra deseado n y eliminando aquellos
que sean mayores a N o que estn repetidos. Por ej., considere n=10.
Ejemplo: Co l u mn a 12





19947 73392 89710 00758 96958 99928 65432 96152 13565

64136 92337 05985 34293 20053 90874 30380 79485 69481

90965 67897 16705 60046 69702 85894 08235 23753 21522
Fila 4
85071 05345 85722 69533 40638 51244 27112 55986 39335
21852 50617 10713 4063 13487 03842 47792 02194 26467

Nmeros elegidos: 5.722, 6.953*, 3.406, 3.851, 2.442, 7.112*, 5.598, 5.393,
3.521, 8.525*, 617, 1.071, 3.406**, 3.134. La muestra son los nmeros en
negrita (* se eliminan por ser mayor que N y ** se elimina por estar repetido).
2) Nmeros aleatorios de la calculadora: La calculadora, al presionar la
tecla RAN entrega un nmero entre cero y uno, con una cierta cantidad de
decimales. Se leen slo la cantidad de dgitos deseados, eliminando valores
superiores a N o repetidos.

3) Nmeros aleatorios de excell: Excell se puede usar igual que la
calculadora, pero tambin hay otras formas, por ejemplo, para seleccionar
10 nmeros entre 1 y 6.114, la siguiente frmula slo requerir eliminar
repetidos:
=redondear.mas(aleatorio()*6114;0).
Esta frmula no entregar ceros ni nmeros superiores a 6.114, elegidos al
azar, y sin decimales (por eso la instruccin redondear y el cero al final que
indica el nmero de decimales).

Conceptos de Muestreo:

Muestra m
Poblacin P












Se define como Poblacin al conjunto de todos los individuos o elementos
respecto de los cuales se desea inferir o de inters para el estudio. La
poblacin debe ser bien definida al iniciar el estudio. Como muestra la Figura,
una muestra es un subconjunto de la Poblacin. Este subconjunto ser
utilizado para, en base a los hallazgos en este conjunto, proyectar las
conclusiones a la Poblacin completa.

Para que tenga sentido realizar esta proyeccin, la muestra debe cumplir con
ciertas propiedades. En particular, debe ser representativa de la Poblacin, es
decir, una Poblacin en tamao pequeo. Para que con una alta probabilidad
se den en la muestra caractersticas semejantes a las de la poblacin, esta
muestra debe satisfacer que, todos los individuos o elementos de la Poblacin
deben tener la misma probabilidad de pertenecer a ella. Para lograr esto, en
un nivel muy bsico, es necesario escoger la muestra al azar. Es por esto que
se habla de muestra aleatoria.

El objetivo del estudio siempre se refiere a ciertas caractersticas de la
poblacin, las cuales son medidas a los individuos de la muestra. Los
individuos o elementos de la poblacin son las unidades a ser medidas. En
ocasiones, la seleccin de elementos requiere acceder primero a unidades ms
grandes que incluyen varios elementos, en este caso se habla de unidades de
muestreo.
El conjunto del cual se extrae la muestra se denomina marco muestral, y
consiste de algn tipo de lista de los elementos de la poblacin. En muchas
ocasiones el marco muestral no es igual a la poblacin, y se puede requerir
ms de un marco muestral para acceder a la poblacin completa. Cuando no
existe un marco muestral completo para una poblacin, ser necesario
redefinir la poblacin a la cual se proyectarn las conclusiones.

Las caractersticas que se miden a los individuos, se denominan variables.
Por ejemplo:
- sueldo (variable) de los obreros de la ciudad (elemento de la poblacin),
- nmero de integrantes (variable) de la familia (elemento de la poblacin),
- postura poltica (variable) de un residente (elemento de la poblacin).

Respecto de las variables, el inters no est centrado en valores particulares
medidos en ciertos individuos, sino en ciertos parmetros o medidas
poblacionales de ellas. Por ejemplo:
- sueldo de los obreros Parmetro: sueldo promedio de todos los
obreros de la ciudad.
- nmero de integrantes de la familia Parmetro: nmero total de
habitantes de la villa.
- postura poltica de los residentes Parmetro: porcentaje de los
residentes que son de derecha.

Los parmetros son caractersticas poblacionales de la variable de inters.
Por lo general son desconocidos (se requerira un censo para conocer su
valor) pero su valor es fijo o constante.

Se define como estadstico a una funcin matemtica de los valores de la
muestra, por ejemplo la suma de ellos, el valor mayor, la multiplicacin de
ellos, etc. Como la muestra es aleatoria, es decir, no es fija, puede constar de
diferentes elementos, entonces el estadstico, como depende de ella o se
calcula en base a ella, tambin es aleatorio, es decir, puede tomar diferentes
valores.

Existen infinitos estadsticos, tantos como funciones matemticas uno pueda
crear; sin embargo algunos de ellos son de inters, en particular aquellos que
de algn modo son anlogos a los parmetros. A estos estadsticos se les
conoce como estimadores. Cada parmetro tiene asociado un estimador.
Los estimadores son estadsticos que sirven para estimar un parmetro.

Por ejemplo:
- Parmetro: sueldo promedio de todos los obreros de la ciudad
Estimador: sueldo promedio de los obreros en la muestra.
- Parmetro: nmero total de habitantes de la villa
Estimador: promedio de habitantes por casa en la muestra
multiplicado por el nmero de casas de la villa.
- Parmetro: porcentaje de los residentes que son de derecha
Estimador: porcentaje de individuos de derecha en la muestra.

Naturalmente, al ser estadsticos, los estimadores tambin son aleatorios.
Tipos de Muestreo:

No en todos los casos el diseo del muestreo es el mismo, en efecto hay varios
tipos de muestreo. La seleccin del diseo a utilizar se basa en la estructura
de la poblacin (si est constituida o no de subgrupos, el grado de
heterogeneidad de stos y la accesibilidad de los elementos).

1) Muestreo Aleatorio Simple M.A.S.:
La poblacin no presenta subgrupos o estos son desconocidos para el
investigador y la variable a ser medida en ella tiene un comportamiento
relativamente homogneo. Por ejemplo, interesa estudiar la postura
poltica de los N mineros de Lota, los cuales son todos varones. Se
realiza un empadronamiento y se selecciona una muestra al azar de n
mineros de dicha lista.

2) Muestro Aleatorio Estratificado M.A.E.:
La poblacin presenta subgrupos llamados estratos que, respecto de
la variable medida, tienen la caracterstica de ser heterogneos entre
ellos (diferentes) y homogneos dentro de ellos (la estratificacin
agrupa a los individuos con aquellos similares a ellos). Por ejemplo,
interesa estudiar los sueldos de la totalidad de los N trabajadores de un
hospital. Estos individuos se pueden estratificar por estamento. Para ello
se establecen los tamaos de cada estamento (N
1
mdicos,
N
2
enfermeros, N
3
auxiliares de enfermera, N
4
otros profesionales de la
salud, N
5
administrativos, N
6
auxiliares de limpieza, N
7
guardias, y se
seleccionan muestras en cada uno, de tamaos proporcionales, n
1
,..., n
7
,
tales que n = n
1
+...+n
7
y
n
n
i
=
N
N
i
para todo i = 1,...,7.

3) Muestreo Sistemtico M.S.:
La poblacin no presenta subgrupos o estos son desconocidos para el
investigador y la variable a ser medida en ella tiene un comportamiento
relativamente homogneo. Adems se cuenta con un marco muestral
completo ordenado en el cual los individuos estn numerados o pueden
numerarse fcilmente. Finalmente, el ordenamiento en el marco
muestral no guarda relacin con la variable de inters, en el sentido de
que no se observa algn tipo de patrn, por ejemplo cclico, en ellos.
Por ejemplo, se desea estudiar el comportamiento sexual de los
N = 4.900 estudiantes de primer ao de la Universidad de Concepcin,
los cuales estn ordenados en un listado en orden alfabtico. La muestra
corresponder a un 5% de la poblacin (n = 245). Esto significa que se
seleccionar en forma sistemtica uno de cada k = 20 individuos
(k =
n
N
=
245
4.900
= 20). Para definir el nmero inicial, se selecciona un
nmero al azar entre 1 y k = 20, sale elegido el nmero 16. El primer
individuo en la muestra es el que corresponde en la lista al 16. A partir
de este nmero se salta cada vez 20 para elegir el que sigue, es decir,
se escoge a los individuos nmero 16, 36, 56, 76, 96, 116, ... , 4.896.


4) Muestreo por Conglomerados M.C.:
La poblacin presenta subgrupos llamados conglomerados que,
respecto de la variable medida, tienen la caracterstica de ser
heterogneos dentro de ellos (variados representando cada
conglomerado a una poblacin en miniatura) y homogneos entre ellos
(los conglomerados son semejantes entre ellos de modo que da lo
mismo seleccionar uno u otro). Adems, existen problemas de acceso a
los elementos, y la seleccin de conglomerados los soluciona, en
muchas ocasiones los conglomerados son unidades de muestreo. Por
ejemplo, se conduce un estudio de la necesidad de un centro abierto
para nios en una poblacin que est compuesta de 50 edificios de
departamentos. Interesa obtener una muestra del 10% de las familias,
para lo cual se seleccionan al azar 5 de los 50 edificios y luego se realiza
la consulta en todos los departamentos de los edificios en la muestra.

5) Muestreo Multietpico M.M.:
Para acceder a las unidades muestrales, es preciso realizar una
sucesin de aproximamientos, desde entidades ms grandes a
entidades ms pequeas. Cada aproximacin o etapa involucra un
proceso aleatorio. Por ejemplo, interesa estudiar el fenmeno Bullying
en cursos (unidad muestral) de primer ciclo de educacin bsica para las
comunas principales de la zona urbana de la provincia. Para ello se
definen las comunas involucradas (Poblacin: cursos de primer ciclo
bsico en colegios de Concepcin, Talcahuano, Chiguayante, San Pedro
de la Paz, Hualpn y Penco) y se definen sectores fsicos (por estrato
socioeconmico) dentro de las comunas. Se indaga sobre el nmero de
colegios fiscales, particulares y subvencionados (clasificacin por
dependencia) en cada sector y la cantidad de cursos de educacin
bsica existentes. De esta forma se establece la cantidad de cursos a
escoger por dependencia y por comuna (M.A.E. doble, por comuna y
dependencia, 18 estratos) y cada tamao muestral se subdivide
proporcionalmente para los sectores (M.A.E.). En cada sector se han
empadronado los cursos existentes en listas por dependencia (3 listas
por sector). Se eligen al azar (M.A.S.) los cursos de las listas. Se
concurre para entrevistar a los profesores, apoderados y alumnos de los
cursos seleccionados.

Los tamaos de muestra, la forma de seleccin de ellas muestra y el clculo de
estimadores se abordarn para cada tipo de muestreo en los captulos
siguientes.
Tcnicas de Muestreo
Clase 2: Introduccin (segunda parte)

Tipos de Variables Aleatorias:

En general la informacin total obtenida de la muestra debe resumirse
mediante:
- Tablas,
- Grficos,
- Medidas (estimadores, estadsticos).
Tanto los estimadores como los estadsticos son variables aleatorias, por lo
cual tienen una distribucin (llamada distribucin muestral, ya que su
variabilidad se debe a que la muestra es aleatoria).

Las variables aleatorias corresponden a caractersticas numricas de los
individuos.
Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto
de valores posibles, valores que puede asumir esta caracterstica.
Cada uno de los valores que pueden asumir estas variables aleatorias, es
decir, cada elemento del recorrido, tiene asociada una funcin de probabilidad,
es decir una funcin matemtica que indica cun posible es que se obtenga tal
valor. Esta funcin matemtica se conoce como Distribucin de Probabilidad.

Las variables aleatorias (v.a.) y pueden ser de dos tipos:
- Discretas,
- Continuas.
Un conjunto es contable si es finito, es decir, se puede contar sus elementos.
Un conjunto es numerable si se puede numerar sus elementos en algn orden,
es decir, asignarle un nmero a cada elemento. Un conjunto numerable no
necesariamente es finito, hipotticamente uno podra numerar infinitamente sus
elementos, ya que tienen un orden especfico.
Las v.a. discretas son aquellas cuyo recorrido es numerable o contable.
Ejemplos: Nmero de hijos de una mujer, Nmero de aos de servicio de un
empleado, Edad (aos cumplidos), Aos de estudio, etc.
Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable,
sino que entre cada par de valores posibles existen infinitos valores ms.
Ejemplos: Estatura, peso de una persona.

En ocasiones una variable continua puede medirse mediante una escala de
medicin discreta.
Ejemplos:
Edad real (25 aos, dos meses, 13 das, 5 horas, 3 minutos, 5 segundos, etc.)
Edad en aos cumplidos (25 aos)
Sueldo lquido real ($354.211,6666) Sueldo lquido en pesos ($354.212).

En otras ocasiones una variable continua o discreta se puede medir en
intervalos.
Ejemplos:
Marque a qu categora de sueldo pertenece usted:
a. Menos de $300.000
b. $300.001 a $800.000
c. Ms de $800.000.
En qu grupo etreo se ubica el jefe de hogar:
a. Menos de 30 aos
b. Entre 30 y 45 aos
c. Entre 46 y 60 aos
d. Ms de 60 aos

Finalmente hay variables que se categorizan, es decir, los nmeros se
transforman en una clasificacin no numrica. Si se trata slo de dos
categoras, se dice que la variable se ha dicotomizado.
Grupo etreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto
mayor (ms de 60).
Grupo de nivel socioeconmico: A, B, C. D. E.
Viven menores de edad en el domicilio? S (1 ms menores de edad),
No (0 menores de edad).
El sueldo per cpita es superior a $200.000? Si ($200.000 ms), No
(menos de $200.000).

Distribuciones de Probabilidad importantes:

Variable Aleatoria Discreta Importante:
Binomial:
Un experimento es cualquier situacin que genera diversos resultados.
Un experimento Bernoulli es un experimento dicotmico a cuyos resultados se
denomina xito y fracaso, para el cual las realizaciones son independientes (si
la muestra es aleatoria se asegura la independencia) y la probabilidad de xito
es constante (si la muestra es extraa de una poblacin o subpoblacin
homognea se asegura que la probabilidad de xito es igual para todos los
individuos). La probabilidad de xito se denota por p.
Una v.a. Binomial se puede definir como: nmero de xitos en n realizaciones
de un experimento Bernoulli. Se denota por X ~ b(n, p). El n de realizaciones
n es fijo.
Ejemplo:
Se encuesta a 100 personas extradas al azar (independientes) de la fuerza de
trabajo femenina de la ciudad de Concepcin (ser homogneo este grupo?),
para consultarles respecto una modificacin en la ley laboral (experimento),
que les afecta.
Poblacin: fuerza laboral femenina de la ciudad.
X: N de personas (de un total de 100 encuestadas) que estn a favor (xito)
de la modificacin. X ~ b(n=100, p), donde p es la proporcin real en la
poblacin de personas a favor de la modificacin.

Histograma: Grfico de barras verticales, que ubica en el eje horizontal los
valores de la variable en intervalos de tamao constante, y en el eje vertical la
frecuencia o el nmero de ocurrencias en cada intervalo (se puede reemplazar
la frecuencia por el porcentaje).
Ejemplo:
%

d
e

i
n
d
i
v
i
d
u
o
s

Edad








Variables aleatorias Continuas Importantes:
Uniforme:
Todos los valores son igualmente probables. Si se construye un histograma la
figura es semejante a la siguiente:








P
r
o
b
a
b
i
l
i
d
a
d

X
Exponencial:
Los valores bajos son altamente probables y las probabilidades decrecen
rpidamente para valores altos. Si se construye un histograma la figura es
semejante a la siguiente:










Normal:
El histograma resulta simtrico (un lado corresponde al reflejo del otro, como
visto en un espejo) y unimodal (un solo valor mximo). Los valores centrales
son ms probables y las probabilidades decrecen rpidamente para valores
alejados del centro. Si se construye un histograma la figura es semejante a la
siguiente:








P
r
o
b
a
b
i
l
i
d
a
d

X
P
r
o
b
a
b
i
l
i
d
a
d

X
Verificacin de Modelos:
Para verificar si un modelo es binomial, se debe realizar un anlisis intelectual
del problema. Para verificar los modelos continuos en cambio, es conveniente
realizar la grfica del histograma.

Parmetros y Estimadores
Binomial:
El parmetro de inters es la proporcin poblacional p y el estimador es la
proporcin muestral . El clculo de p requiere un clculo sobre toda la
poblacin, cuyo tamao es N: p =
p

N
poblacin la en xitos N
. En poblaciones
homogneas, p=

nes realizacio N
muestra la en xitos N
n
X
= .
Normal:
El parmetro de inters es la media poblacional o esperanza y el estimador
es la media muestral o promedio .
El clculo de se realiza sobre toda la poblacin, de tamao N: =
N
X
N
1 i
i
=
.
En poblaciones homogneas, para una muestra de tamao n,
X =
=
n
X
n
1 i
i
=
.
La distribucin normal adems tiene otro parmetro, es la varianza poblacional

2
. Su estimador es la varianza muestral = S
2

2
. La raz cuadrada de la
varianza poblacional es la desviacin estndar , medida de la variabilidad o
dispersin de los valores poblacionales.
La raz cuadrada de la varianza muestral es la desviacin estndar S, medida
de la variabilidad o dispersin de los valores muestrales.
El clculo de
2
se realiza sobre toda la poblacin, cuyo tamao es N:

2
=
N
) X (X
N
1 i
2
i
=

. En poblaciones homogneas, si el tamao de muestra es n, se


tiene que = S
2

2
=
1 - n
) X (X
n
1 i
2
i
=

.
Medidas:
Proporcin, media y varianza no son las nicas medidas que existen. Las
medidas, en general, se dividen en medidas de localizacin y variabilidad, y se
pueden clasificar del modo siguiente:







Caractersticas de las Distribuciones:

Muestra Aleatoria: Conjunto de variables aleatorias (valores medidos en los
individuos) independientes (los individuos fueron extrados al azar) y con igual
distribucin (provienen de la misma Poblacin homognea). Esto se denota
como m.a. i.i.d.
Notacin: Parmetro; Estimador.

Distribucin normal: Parmetro Estimador =X.


Parmetro
2
Estimador = S
2

2
.
Distribucin binomial: Parmetro p Estimador p=

n
X
.

Media Poblacional o Esperanza:
E(X) =
N
X
N
1 i
i
=
es el promedio de la variable en la Poblacin.
El estadstico anlogo es la media muestral X.
Propiedades:
Sea a, b constantes y X, X
1
, , X
n
variables.
E(a) = a,
E(a X) = a E(X),
E(a X + b) = a E(X) + b,
E(

) = = n E(X).
=
n
1 i
i
X

=
n
1 i
i
) E(X
Igual Distribucin
Varianza Poblacional:
V(X) =
N
) X (X
N
1 i
2
i
=

es el promedio de las desviaciones cuadradas respecto de la


media en la Poblacin.
El estadstico anlogo es la varianza muestral S
2
.
Propiedades:
Sea a, b constantes y X, X
1
, , X
n
variables.
V(a) = 0,
V(a X) = a
2
V(X),
V(a X + b) = a
2
V(X),
V(

) =

= n V(X).
=
n
1 i
i
X
=
n
1 i
i
) V(X
Independencia Igual Distribucin

Propiedades de Bondad de los Estimadores:
Insesgamiento: E( ) = La distribucin muestral de se ubica

alrededor de centrada en .
Varianza pequea: V( ) La distribucin muestral de es

poco
dispersa, est concentrada alrededor de .

Resultados Importantes:
Normal:
X N(,
2
) E(X) = ; V(X) =
2
.
E(X ) = ) E(
n
X
n
1 i
i
=
= ) E(

=
n
1 i
i
X
n
1
=

=
n
1 i
i
) E(X
n
1
= ) E(X n
n
1
i
= E(X) = .
X es estimador insesgado de E(X) = .
V(X ) = ) (
n
X
n
1 i
i
V

=
= ) (

=
n
1 i
i
2
X V
n
1
=

=
n
1 i
i
2
) V(X
n
1
= ) V(X n
n
1
i
2
=
n
V(X)
=
n

2
.
la varianza deX decrece a medida que el tamao de muestra crece.
E(S
2
) = V(X) =
2
S
2
es estimador insesgado de V(X) =
2
.
Binomial:
X b(n, p) E(X) = n p; V(X) = n p (1- p).
E(p) =

) E(
n
X
= ) E(X
n
1
= p n
n
1
= p.
p es estimador insesgado de p.

V(p) =

) (
n
X
V = ) (X V
n
1
2
= p) (1 p n
n
1
2
=
n
p) (1 p
.
la varianza de p decrece a medida que el tamao de muestra crece.


Caractersticas de la Distribucin Normal:












Teorema del Lmite Central TLC:

Para muestras grandes (n 30 n 50), se tiene que, independiente de la
distribucin original de las observaciones: X N(E(X),
n
V(X)
).
Algunas consecuencias y observaciones importantes son las siguientes:
Si la distribucin de origen es normal: X N(,
n

2
).
Si la distribucin de origen es continua no normal: X N(E(X),
n
V(X)
).
Si la distribucin de origen es binomial: p N(p,

n
p) - (1 p
).
Teorema de Chebyshev:

Para muestras de cualquier tamao (en particular pequeas), se tiene que,
independiente de la distribucin original: P(| - | B) 1

2
B
) V(

.
Algunas consecuencias y observaciones importantes son las siguientes:
n Distrib. normal u otra continua: P(|X | 2
) X V(
2
) 1
) X V( 4
) X V(
= .

2
) p V(

Distrib. binomial: P(| p p| 2

n p) (1 p ) 1
) p V( 4
) p V(

= .

Error de Estimacin e Intervalo de Confianza:

El error de estimacin es la diferencia absoluta entre el valor real y el valor
estimado de un parmetro E = | - |.

En el caso normal, corresponde a E = | - |.


En el caso binomial, corresponde a E = |p - p|.


Se denota por B al error mximo permitido y por (1 ) al nivel de confianza en
la estimacin. Esto se resume en la siguiente expresin:
P(| - | B) = 1 .

Esta expresin tambin es anloga a decir que, con un nivel de confianza (1- )
se tiene que el verdadero valor pertenece al Intervalo de Confianza
[ - B, + B].

El nivel de confianza quiere decir que, si se construyeran un gran nmero de
intervalos, cada uno basado en una muestra extrada al azar, el verdadero
valor del parmetro estara contenido en el porcentaje dado por 1 de ellos.

Intervalos de Confianza y TLC

Para tamaos de muestra grande, podemos decir que:
Con 95% de confianza, est en el intervalo [X - 2 n ;X + 2 n ]
Con 95% de confianza, p est en el intervalo [ p-2

n
p) (1 p
; p+2

n
p) (1 p
]
Como es un valor desconocido, se puede aproximar por S, especialmente si
la muestra es grande. De igual forma, p se puede aproximar por p.


Intervalos de Confianza y Teorema de Tchebyshev

Para tamaos de muestra cualquiera (pequeo), podemos decir que:
Con 75% de confianza, est en el intervalo [X - 2 n ;X + 2 n ]
Con 75% de confianza, p est en el intervalo [ p-2

n
p) (1 p
; p+2

n
p) (1 p
]
Tambin en este caso se pueden aproximar y p. Si la muestra es pequea,
existen alternativas para S (se vern ms adelante)y p se puede aproximar por
el valor medio 0,5.
Ejercicios:

1) Considere el conjunto dado a continuacin y correspondiente a los sueldos
de los 50 empleados de una reparticin.
a. Calcule los valores poblacionales = E(X) y = V(X) .
b. Realice el histograma de los datos.
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.

2) Considere el conjunto dado a continuacin y correspondiente a la postura
de los 50 empleados de una reparticin respecto de las nuevas polticas de
la empresa.
a. Calcule el valor poblacional p.
b. Realice el histograma de los datos (codifique como 1: a favor y
0: en contra).
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule p y el intervalo de confianza para p.

ii. Vea a cuntos intervalos pertenece el valor real de p.


iii. Realice el histograma de valores de p .

iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule p y el intervalo de confianza para p.

ii. Vea a cuntos intervalos pertenece el valor real de p.


iii. Realice el histograma de valores de p .

iv. Comente.



Ayuda para trabajo en Excell

Datos Problema 1 (sueldos de los 50 empleados de una reparticin, ordenados):

156.000 279.000 340.000 414.000 546.000
173.000 279.000 343.000 423.000 557.000
178.000 287.000 346.000 430.000 570.000
215.000 290.000 352.000 440.000 580.000
218.000 297.000 353.000 451.000 605.000
235.000 298.000 356.000 459.000 649.000
240.000 319.000 367.000 477.000 684.000
250.000 320.000 386.000 490.000 699.000
269.000 323.000 391.000 510.000 716.000
278.000 332.000 412.000 530.000 740.000

a) Ubique los datos en una columna de Excell, con el ttulo Sueldos
(columna A).
A
Sueldos
156.000
173.000
178.000
Etc.
b) Utilice los siguientes intervalos para los datos: 151.000-200.000,
201.000-250.000, 251.000, 300.000, etc. Escrbalos en una columna de
Excell con el ttulo Intervalos (columna B).
B
Intervalos
151-200
201-250
251-300
Etc.
Para utilizar estos intervalos, se debe ubicar en una columna de Excell los
lmites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a
esa columna Clases (columna C).
C
Clases
200.000
250.000
300.000
Etc.
c) Debajo de la Columna Sueldos calcule promedio y desviacin estndar
(poblacional), con las frmulas en el ejemplo:
50 716.000
51 740.000
52 Promedio
53 =promedio(A2:A51)
54 Varianza Poblacional
55 =varp(A2:A51)
56 Desv. Est. Poblacional
57 =raiz(A55)
d) Para el histograma de los datos, se utiliza la columna Clases. Presione
los Men Herramientas Complementos marque Herramientas para
Anlisis Aceptar (esto se hace una sola vez, despus quedan
activadas las opciones estadsticas). Luego para acceder a las
herramientas estadsticas, presione los Men Herramientas Anlisis
de Datos Histograma. Se abre un cuadro de dilogo donde se debe
completar la informacin como en el siguiente ejemplo:























e) La imagen obtenida ser la que se muestra en el siguiente ejemplo:


















Haciendo clic sobre las barras se marcarn las columnas fuente del grfico,
la idea es ubicarse con el Mouse sobre la columna destacada en morado,
presionar botn izquierdo del Mouse, y mover el cuadr morado a la columna
de los Intervalos:















f) Obtenga las frecuencias relativas o porcentajes, calculando, al lado de
las Frecuencias, con la frmula en el ejemplo:
D E F
Clases Frecuencia Porcentaje
200000 3 =E2/50
250000 5
Arrastre la frmula de la celda F2 hacia abajo, desde la esquina inferior
derecha hasta F13 y presione el Men de porcentaje:


















g) Ahora presione otra vez las barras del grfico y mueva la columna azul a
la de porcentajes. Finalmente reduzca con el Mouse el largo de las
columnas de fuente de los datos:



















h) Finalmente el grfico se puede mejorar eliminando la Leyenda (el cuadro
que dice Frecuencia), ensanchando las columnas (botn derecho sobre
las barras, Formato de Serie de Datos Opciones Ancho del Rango: 0
Aceptar), cambiando direccin o tamao de las letras (botn derecho
sobre eje horizontal, Formato de Ejes Fuente Tamao 7
Alineacin: 0 grados Aceptar) y cambiando los ttulos.
Distribucin de Sueldos de Empleados de una Reparticin
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
151-200 201-250 251-300 301-350 351-400 401-450 451-500 501-550 551-600 601-650 651-700 701-750
Interval os de Suel dos
P
o
r
c
e
n
t
a
j
e


i) Para generar las muestras, en la Hoja 2 copie la columna A de la Hoja 1.
Luego cree una columna de Probabilidades (columna C). Como todos
los datos deben tener la misma probabilidad de salir elegidos y son 50,
la probabilidad es 1/50=0,02:
A B
1 Sueldos Probabilidades
2 156.000 0,02
3 173.000 0,02
4 178.000 0,02
Luego presione los Men: Herramientas Anlisis de Datos Generacin
de Nmeros Aleatorios y rellene los datos del cuadro de dilogo como en la
figura:



















j) Luego ponga ttulo a cada columna en que se presenta una muestra
extrada del conjunto:

A B C D
1
Sueldos Probabilidades Muestra 1 Muestra 2
2
156.000 0,02 477000 352000
3
173.000 0,02 414000 279000
4
178.000 0,02 716000 451000
5
215.000 0,02 386000 319000
6
218.000 0,02 546000 740000
k) En las filas inferiores calcule los estimadores para cada muestra:
promedio (=promedio()), desviacin estndar muestral (=desvest()),
y construya las frmulas del lmite inferior y superior de cada intervalo,
recordando que n=5.

Datos Problema 2 (postura de los 50 empleados de una reparticin, respecto de una
nueva poltica de la empresa):

En contra En contra En contra En contra A favor
En contra A favor En contra En contra En contra
En contra En contra En contra En contra A favor
En contra A favor A favor A favor En contra
En contra A favor A favor En contra En contra
A favor En contra En contra En contra En contra
En contra En contra A favor En contra En contra
En contra A favor A favor En contra A favor
En contra En contra En contra En contra En contra
En contra En contra En contra En contra En contra

Los desarrollos en este caso son muy semejantes a los del problema 1, pero
presentan algunas diferencias, en primer lugar, que es factible definir la
distribucin de probabilidad poblacional a ojo o con la funcin Contar.si (vea el
ejemplo) y luego dividiendo por 50 para calcular la probabilidad:
A B
C
1 Postura Resultados
Frecuencia
2 En contra A favor
=CONTAR.SI(A2:A51;"A Favor")
3 En contra En contra

4 En contra
Codificacin Probabilidad
5 En contra
1 =C1/50
6 En contra
0
7 A favor

Entonces, en la generacin de muestras (nmeros aleatorios) slo se usarn
como fuente de los datos Codificacin y Probabilidad:

.

Tcnicas de Muestreo
Clase 3: Elementos del Problema de Muestreo

Tamao de la Muestra:

Cada elemento de la poblacin contiene una cierta cantidad de informacin
relativa a ella, a las variables en juego, a sus distribuciones y a sus parmetros;
sin embargo cada unidad muestreada implica un costo, lo que motiva la
determinacin del mnimo tamao muestral que permita el logro de los
objetivos de la estimacin (precisin y confianza deseadas), dada la
variabilidad (desviacin estndar del estimador) existente y el tamao de la
Poblacin.
De estos cuatro factores, dos son propios del problema y no se pueden alterar
(variabilidad, tamao de la poblacin), mientras que los otros dos son definidos
por el investigador (precisin y confianza).
El ideal es que se pueda contar con que las mediciones hayan sido realizadas
en forma exacta. En caso contrario, se habla de error de medicin. Este tipo
de error debe minimizarse.

Definiciones importantes:

Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las
mediciones.
Poblacin: Coleccin de elementos acerca de los cuales se desea realizar
inferencias.
Unidades de muestreo: Colecciones no traslapadas de elementos que cubren
la poblacin completa.
Marco muestral: Lista de unidades de muestreo.
Muestra: Una coleccin de unidades seleccionadas de uno o de varios marcos
muestrales.

Diseo del Muestreo:

El objetivo del muestreo es la estimacin de parmetros de la poblacin.
La estimacin se basa en la informacin muestral. La precisin de esta
estimacin es determinada por el investigador como el error mximo de
estimacin B.
E = | | B.


La probabilidad 1 de que la estimacin tenga un error que no supere a esta
cota se denomina nivel de confianza.
P( E B) = P(| | B) = 1 .


Como se vio anteriormente, si consideramos B = 2( ) y:

el tamao de muestra n es grande, o la distribucin es normal, se tiene


que la probabilidad es 1 = 0,95 (95%);
el tamao de muestra n es pequeo, se tiene que la probabilidad es
1 = 0,75 (75%).
Note que la cantidad 2( ) corresponde al error de muestreo, lo cual es muy
diferente del error de medicin.


Intervalos de Confianza:

Una forma general de escribir un Intervalo de Confianza de probabilidad o
nivel 1 para (las cotas que probablemente contengan al parmetro), es la
siguiente:
[

2( ); + 2( ) ] = [ B; + B ].


Fuentes de Error en Encuestas y Posibles Soluciones:

Como se mencion antes, existe el error de muestreo, que se debe nicamente
a que no es posible medir la poblacin completa, y el error de medicin, que se
refiere a errores provenientes no de la seleccin de individuos sino de la
medicin misma. Respecto de estos ltimos podemos mencionar algunos
subtipos:

1) Omisin: Si se desea realizar inferencias sobre una poblacin, es
importante considerar que aquellas personas que acceden a responder a la
encuesta no necesariamente constituyen una muestra representativa de
ella. Muchas veces las personas que no responden a una encuesta
corresponden a un grupo con caractersticas diferentes, las cuales motivan
que no respondan. Por ejemplo, si a un individuo un tema le es indiferente,
es muy posible que no responda, slo para no darse el trabajo de hacerlo;
mientras que si el individuo est desconforme con la situacin de la que se
trata, se ver muy motivado a expresar su opinin. Incluso, si el individuo
piensa que la consulta no tiene como fin producir algn tipo de cambio,
independiente de que el tema le interese o preocupe, probablemente no
responder. Basar las inferencias en una muestra con alto porcentaje de
omisin llevar a conclusiones sesgadas (inclinadas en algn sentido, a
cierto grupo).

Soluciones:
Los incentivos son una forma de evitar omisiones, sin embargo, estos
deben ser ofrecidos a la muestra seleccionada al azar, ya que una muestra
basada en aquellas personas que, al saber que haban incentivos,
decidieron responder, sera sesgada.
Estos incentivos pueden ser econmicos (dinero, artculos), pero tambin
puede ser la seguridad de que las respuestas permitirn mejorar la
situacin se la que se trata o de los entrevistados.

2) Respuestas inexactas: En este caso nos referimos tanto a las respuestas
inexactas que son entregadas con la intencin de mentir u ocultar la verdad,
como a aquellas que se responden en forma equivocada porque la
pregunta no es clara para quien la responde. En el primer caso, se debe
presentar las preguntas de tal forma que la persona no se sienta
amenazada ni cohibida, o de forma que se amortige al mximo su efecto;
mientras que en el segundo caso, previo a editar la versin final del
cuestionario, es un buen ejercicio presentar el cuestionario a amigos que
nos ayuden a determinar si se las preguntas se entienden.
Soluciones:
Un adecuado adiestramiento de los encuestadores permitir obtener
respuestas difciles o sobre temas incmodos.
Por otra parte, la revisin pronta de la planilla de datos permitir verificacin
de informacin extraa (valores imposibles por ejemplo), y recuperacin de
datos mientras los encuestados an estn disponibles.

3) Sesgo de seleccin: Es una prctica comn y muy inconveniente,
reemplazar en forma ms o menos arbitraria a los individuos muestreados
ausentes por sus vecinos. En este caso, as como en el caso de no
respuesta, la ausencia de los individuos podra guardar relacin con su
postura frente a las interrogantes que se les plantearn, por ejemplo, puede
que sea ms comn (probable) encontrar en el domicilio a una familia con
nios que a una conformada por adultos solamente, lo cual puede sesgar
las respuestas de los individuos. La nica forma de obtener una muestra
representativa y que satisfaga las propiedades de stas, es medir a los
individuos debidamente seleccionados en forma aleatoria.

Soluciones:
Las reentrevistas programadas en diferentes horarios y das de la semana
son una forma de minimizar las omisiones en una encuesta que se realiza
en terreno.

Mtodos de recoleccin de datos:

Algunos mtodos de recoleccin de datos son:
1) Entrevista Personal: Se tiende a tener menos omisin cuando el individuo
es confrontado en forma personal. Las ventajas de una entrevista son: el
lenguaje no verbal es considerado, se puede explicar las preguntas
evitando omisiones; desventajas son: se puede provocar sesgo por las
actitudes o gestos del entrevistador, si el entrevistador no es experimentado
puede cohibir al encuestado o perder informacin. En general, se puede
usar una pauta rgida o un punteo. Si se trata de una entrevista tcnica, se
requiere del individuo su opinin experta, por lo cual es conveniente llevar
debidamente escritas las preguntas e interiorizarse del tema previamente.
Si se trata de una entrevista testimonial, en cambio, se da libertad al
encuestado para que se exprese libremente.
2) Entrevista Telefnica: Las entrevistas telefnicas resultan ms
econmicas que las personales, sin embargo deben ser ms cortas, ya que
el encuestado tiende a impacientarse. Por otra parte, generalmente utilizar
la gua telefnica como marco muestral produce sesgo, ya que no todas las
casas tienen telfono, de las que tienen no todas estn en la gua y muchos
telfonos de la gua no corresponden a casas.
3) Cuestionarios Autoaplicados: Las encuestas en que no se cuenta con un
entrevistador, sino que el individuos las responde por s mismo, son ms
econmicas. En ocasiones se hacen en un lugar especfico al cual
concurren los encuestados; pero la mayora de las veces se hacen llegar
por correo, postal o electrnico, este tipo de encuestas tiene muy bajo
porcentaje de respuesta. En cualquiera de los casos, la encuesta debe
redactarse de forma muy cuidadosa, para evitar errores u omisiones.
4) Observacin Directa: Un muestreo en el cual no se realiza mediciones a
las personas puede ser obtenido de primera fuente (nmero de vehculos
que pasan por cierta interseccin, por ejemplo). Tambin, en ocasiones, se
requiere informacin objetiva, presente en archivos, la cual es ms exacta
que aquella que pudieran proveer los mismos individuos muestreados
(fichas de hospital, por ejemplo). En general este tipo de muestreo es
demoroso pero econmico.

Diseo de un Cuestionario:

El diseo cuidadoso del instrumento (cuestionario) permitir disminuir las
potenciales fuentes de error de medicin. Algunos factores a considerar son:
1) Orden de las Preguntas: Si las preguntas estn relacionadas entre s, y
estn presentadas en un orden especfico, ste puede incidir en las
respuestas de los individuos, ya que a medida que se responde puede ir
generando en ellos un estado anmico (inducido por las preguntas) que
produzca percepciones distintas a las que se hubieran manifestado al
enfrentarse a ellas en forma individual. Por ejemplo, 1)Ha presenciado
usted alguna vez un acto delincuencial? 2)Algn conocido suyo ha sufrido
a causa de la delincuencia? 3)Se siente ud. atemorizado por la
delincuencia?
Por otra parte, es conveniente ubicar las preguntas menos complicadas al
principio, por un efecto de rompe-hielo (por ejemplo, sexo), las medianas
al final (por ejemplo, ubquese en un rango de ingreso familiar) y las ms
difciles en la parte central, ya sea porque el rompe-hielo permite hacer la
pregunta (por ejemplo, ha experimentado usted en su familia alguna
situacin de violencia intrafamiliar), o porque la pregunta requiere
concentracin por parte del encuestado, el cual estar cansado al final de la
encuesta (por ejemplo, ubquese en un rango de gastos mensuales en
alimentacin).
Finalmente, ciertas preguntas tienen un orden lgico, debido a la
informacin que proveen, y existen preguntas de filtro que permiten indicar a
un individuo que no se requiere que responda a algn grupo de ellas.
2) Preguntas cerradas y abiertas: En general las preguntas abiertas se usan
en estudios exploratorios, cuando an no se han detectado las posibles
respuestas que darn los encuestados. Las ventajas de las preguntas
cerradas se relacionan con un menor tiempo de codificacin de la
informacin, y con una lectura ms objetiva de las respuestas. Hay que
tener cuidado con que las preguntas cerradas cumplan con dos
condiciones: ser exhaustivas (cada individuos debe poder responder a la
pregunta, nadie puede quedar excluido) y excluyentes (cada individuo debe
poder marcar una sola alternativa). Por ejemplo, Cul es su Hobby? no
es exhaustiva porque hay individuos que no tienen hobby, mientras que,
Marque el tipo de msica que escucha: a) Folclrica b) Metal c) Clsica
d) Pop ... no es excluyente, porque el individuo puede escuchar msica de
varios tipos.
Aunque se debe evitar opciones neutras, a las que el encuestado se puede
inclinar para salir del paso, en ocasiones el individuo realmente no sabe o
no tiene posicin respecto de cierto planteamiento; para preservar la
exhaustividad, se debe incluir la opcin neutra (no s, no se pronuncia).

3) Redaccin ambigua: Es importante que las preguntas sean claras para
todos los encuestados. Por ejemplo: aos de educacin puede llevar a
algunos encuestados a responder sobre los aos de estudios superiores y a
otros sobre la escolaridad completa. Si la encuesta ser respondida por
personas de cierto grupo, el lenguaje debe ser el adecuado a ellos (nios,
personas sin educacin, etc).
Por otra parte, las preguntas deben redactarse de forma que no induzcan a
una respuesta particular ni den indicios de que quien disea e instrumento
tiene tal o cual posicin. Por ejemplo, qu opinin le merece el mal
manejo del problema del transantiago?. Finalmente, la forma en que se
plantea la pregunta debe hacer sentir al encuestado que toda respuesta es
admisible. Por ejemplo, con qu frecuencia se emborracha usted? a) ms
de dos veces a la semana b) mximo dos veces a la semana c) muy rara
vez e) nunca, hace sentir que emborracharse es normal, no as se
emborracha usted frecuentemente? a) si b) no.

Planificacin de una Encuesta:

Los principales aspectos a considerar a la hora de planificar una encuesta son:
1) Objetivos: Es importante tener claros los objetivos de la investigacin a la
hora de confeccionar el cuestionario, para cumplirlos todos y para no
realizar preguntas innecesarias.
2) Poblacin Objetivo: Es importante definir la Poblacin de forma que sea
posible extraer la muestra a partir de ella, que se cuente con un marco
muestral.
3) Marco Muestral: Se construye un marco muestral que sea lo ms parecido
posible a la poblacin.
4) Diseo del Muestreo: Se decide el tipo de muestreo ptimo y se obtiene el
tamao de muestra requerido.
5) Mtodos de Medicin: Se escoge el tipo de encuesta o entrevista a
realizar, de acuerdo al tipo de individuos y a los objetivos.
6) Instrumentos de Medicin: Se construye con mucho cuidado el
instrumento (encuesta, entrevista).
7) Seleccin y adiestramiento de investigadores de campo: Se debe
instruir a los encuestadores sobre qu informacin recopilar y cmo hacerlo.
8) Prueba Piloto: La utilizacin de una muestra piloto permite revisar el
proceso de muestreo diseado, las habilidades de los encuestadores, las
preguntas del instrumento, etc. Todo esto permite modificaciones antes de
aplicar la encuesta final. Por otra parte, esta Prueba Piloto tambin permite
estimar la variabilidad existente, con el fin de definir ms claramente el
tamao muestral.
9) Organizacin del Trabajo de Campo: Se debe confeccionar un protocolo
que incluya todos los pasos que se deben dar para recolectar, almacenar,
controlar, codificar, procesar y analizar la informacin.
10) Anlisis de Datos: Se debe listar, en el protocolo, el detalle de todos los
anlisis estadsticos a realizar, y los aspectos que sern incluidos en el
reporte final. Esto se debe planificar antes de recolectar la informacin, ya
que el tipo de datos recolectados, las tcnicas estadsticas a utilizar y los
objetivos de la investigacin estn ntimamente vinculados.
Por ejemplo, si el objetivo es verificar que cierta intervencin ha disminuido
el riesgo social en la mayora de los individuos, es necesaria una medicin
antes y una medicin despus de la intervencin, y es necesario que estas
mediciones se realicen ambas veces en los mismo individuos para realizar
la prueba de muestras pareadas.

Ejercicios:

Para los siguientes problemas, considere la informacin disponible y
determine el tamao de muestra a considerar, siendo que el tipo de
muestreo ptimo es aleatorio simple:

1) Se desea conocer la proporcin de individuos que estn a favor de una
propuesta en una poblacin de 50 empleados de una reparticin. Se
quiere, con una confianza alta, estimar la proporcin real con un error
mximo del 10%.
a) Calcule el tamao de muestra si no se puede obtener una muestra
piloto.
b) Calcule el tamao de muestra si una muestra piloto de tamao n = 5
arroj una persona a favor.
c) Calcule el tamao de muestra si se sabe que es proporcin est
entre el 20 y 40%.
d) Calcule el tamao de muestra si se sabe que esa proporcin est
entre 40 y 60%.
e) Comente diferencias y similitudes entre los resultados obtenidos para
los casos (a) a (d).
f) En base a (a) obtenga la muestra respectiva del conjunto de datos de
la clase anterior, estime la proporcin y construya un intervalo de
confianza para ella.
g) En base a la idea planteada en (b), obtenga una muestra piloto de
tamao 5, y en base a su resultado, obtenga el tamao muestral
definitivo, la muestra, el estimador y el intervalo de confianza.
h) Comente las semejanzas y diferencias entre los resultados obtenidos
para los casos (g) y (h).
2) Se desea conocer el sueldo promedio de los individuos en una poblacin
de 50 empleados de una reparticin. Se quiere, con una confianza alta,
estimar la media real con un error mximo del $15.000.
a) Calcule el tamao de muestra si se cree que la desviacin estndar
de los sueldos es a lo ms de $50.000.
b) Calcule el tamao de muestra si una muestra piloto de tamao n = 5
arroj una desviacin estndar de $70.000.
c) Comente diferencias y similitudes entre los resultados obtenidos para
los casos (a) y (b).
d) En base a (a) obtenga la muestra respectiva del conjunto de datos de
la clase anterior, estime la media y construya un intervalo de
confianza para ella.
e) En base a la idea planteada en (b), obtenga una muestra piloto de
tamao 5, y en base a su resultado, obtenga el tamao muestral
definitivo, la muestra, el estimador y el intervalo de confianza.
f) Comente las semejanzas y diferencias entre los resultados obtenidos
para los casos (d) y (e).
Ayuda:
Para muestreo aleatorio simple:


n
X
X
n
i
i
=
= =
1


1 1
2
1
2
1
2

= =

=
=
n
X n X
n
) X X (
S
n
i
i
n
i
i


n
S
) ( =

n
X
p

=

n
) p ( p
) p

(

=
1

El error mximo de estimacin es B = 2 ( ).

Si el tamao de la Poblacin N es finito, n =


N
n
n
0
0
1+
. En caso contrario, n = n
0
.
Para una muestra grande o normal y un nivel de confianza 95%, el tamao de
muestra se calcula despejando n
0
desde B = B
0
, donde B
0
es el error mximo
permitido.




Tcnicas de Muestreo
Clase 4: Muestreo Aleatorio Simple

Introduccin:

Si el diseo del proceso de muestreo asegura que cada posible muestra tiene
la misma probabilidad de resultar elegida, se habla de Muestreo Aleatorio
Simple. Esta condicin no es equivalente a aquella que hemos establecido
anteriormente: todos los individuos tienen la misma probabilidad de ser
elegidos; sin embargo, el hecho de que todas las posibles muestras sean
equiprobables implica que todos los individuos lo son. Para asegurar la
condicin de muestras equiprobables, se deben escoger todos los individuos
en la muestra en forma aleatoria desde la poblacin sin reemplazo (sin
reemplazo significa que no se puede seleccionar a un mismo individuo ms de
una vez y con reemplazo significa que cada vez que se selecciona un
elemento, todos pueden ser elegidos, incluso los que fueron seleccionados
antes). Esto se hace mediante un sorteo en el cual se seleccionan n individuos
de los N existentes en la poblacin. En primer lugar los N individuos de la
poblacin son numerados (en muchos casos ya lo estn) y posteriormente se
eligen n individuos utilizando una tmbola, una tabla de nmeros aleatorios,
nmeros aleatorios de la calculadora o del computador, o cualquier otro mtodo
que preserve el azar.

Una muestra escogida de esta forma se denomina Muestra Aleatoria Simple y
el diseo se conoce como Muestreo Aleatorio Simple (MAS).

Este diseo es adecuado cuando la poblacin es homognea respecto de la
caracterstica de inters, o bien no se puede a priori obtener informacin sobre
eventuales grupos en ella.

Clculos:

El clculo de la combinatoria permite determinar cuntas posibles muestras
existen:
n)! (N n!
N!
n
N
N
n
C

=

= ,
donde es una notacin para la expresin que se lee Combinatoria
de N sobre n y se interpreta como de cuntas formas se pueden seleccionar n
elementos de un grupo de N elementos, y donde N! es una notacin para la
expresin que se lee Factorial de N, se interpreta como todas las formas en
que se pueden ordenar N elementos y se calcula como el producto de los
nmeros desde 1 hasta N, es decir:
N
n
C

n
N
N! = N (N 1) (N 2) 3 2 1.

Parmetros de inters:

En general, los parmetros de inters o a estimar en estos casos, son:

1) Si la variable de inters X es continua:
Media (promedio de la variable en la poblacin), por ejemplo,
X: ingreso familiar mensual de los residentes de Hualpn, = ingreso
familiar promedio de los residentes de Hualpn.
Total (suma de los valores X de los individuos en la poblacin), por
ejemplo, X: N de infracciones cursadas a conductores de taxi-colectivo
de la ciudad de Concepcin (2007), = nmero total de infracciones
cursadas en 2007 a conductores de taxi-colectivo de Concepcin.

2) Si la variable X es dicotmica:
Proporcin p (proporcin o porcentaje de individuos en la poblacin con
la caracterstica de inters), por ejemplo, X: nmero de cesantes en una
muestra extrada de los titulados en el ao 2006 en la UdeC",
p = proporcin de los titulados en la UdeC el ao 2006 que se
encuentran cesantes.

Estimadores e intervalos:

El objetivo de este diseo de muestreo, como en cualquier otro, es la
estimacin de parmetros de la poblacin. Los estimadores son insesgados y
de varianza mnima y dependiendo de si el tamao muestral final es grande o
pequeo, se generan intervalos con nivel de confianza 95% 75%,
respectivamente.

Dado un tamao poblacional N, para cada parmetro nos interesa su
estimador , pero para establecer la precisin de la estimacin, tambin nos
interesa el error estndar (desviacin estndar del estimador) ( ) y en
particular el error estndar estimado .

) ( ) s(

=

Para establecer lmites entre los cuales se encuentra el parmetro se utiliza su
error de estimacin B, de donde se obtiene el intervalo de confianza.
Finalmente se requiere el tamao muestral n.

Todos estos clculos se obtienen para
tamao de poblacin pequeo respecto del tamao muestral (
n
N
< 20), en
cuyo caso las cantidades consideran un factor de correccin
1 - N
n - N
.
tamao de poblacin grande respecto del tamao muestral (
n
N
20), en
cuyo caso el factor de correccin se elimina por ser superior a 0,95, es decir
cercano a 1. En este caso se habla de poblacin infinita.

1) Parmetro Media :

El estimador es =X
El error estndar es
1 - N
n - N
n

) ( = ; con N grande
n

) ( .
El error est. estimado es
1 - N
n - N
n
S
) (

) s( = = ; con N grande
n
S
) s( .
El error de estimacin es ) s( 2 B = .
El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n grande y 75%
en caso contrario.
El tamao de muestra es
2 2
2
4 B 1) - (N
N 4
n
+

= ; con N grande
2
2
B
4
n

= .
Si se cuenta con una muestra piloto, se reemplaza por su desviacin
estndar S
p
, es decir,
2
p
2
2
p
S 4 B 1) - (N
S N 4
n
+

= y con N grande
2
2
p
B
S 4
n

= .

2) Parmetro Total = N :

El estimador es = N = N X

El error estndar es
1) - (N n
n) - (N
N ) (

= ; con N grande
n
N
) (

.
El error estndar estimado es
1) - (N n
n) - (N
N S ) (

) s(

= = ; con N grande
n
N S
) s(

= .
El error de estimacin es ) s( 2 B = .
El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n grande y 75%
en caso contrario.
El tamao de muestra es
2 2
N
B
2
4 1) - (N
N 4
n
) ( +

= ; con N grande
2
2 2
B
N 4
n

= =
2
N
B
2
) (
4
. Si se cuenta con una muestra piloto, se reemplaza
por su desviacin estndar S
p
, es decir,
2
p
2
N
B
2
p
S 4 1) - (N
S N 4
n
) ( +

= y con N
grande
2
2
p
2
B
S N 4
n

= =
2
N
B
2
p
) (
S 4
.

3) Parmetro Proporcin p:

El estimador es
n
X
p

= .
El error estndar es
1 - N
n - N
n
) p (1 p
) p

(

= ; si N grande
n
) p (1 p
) p

(

.
El error estndar estimado es
1 - N
n - N
1 - n
) p

(1 p

) p

s(

= ; si N grande
1 n
) p

(1 p

) p

s(


.
El error de estimacin es ) p

s( 2 B = .
El intervalo de confianza es [ ] B p

B; - p

+ , de nivel 95% si n grande y 75%


en caso contrario.
El tamao de muestra es
) p (1 p 4 B 1) - (N
) p (1 p N 4
n
0 0
2
0 0
+

= , donde p
0
es la
proporcin en una muestra piloto; con N grande
2
0 0
B
) p (1 p 4
n

= .
Si no se cuenta con una muestra piloto, pero se sabe que la proporcin est
entre ciertos lmites, se escoge el valor p
0
ms cercano a 0,5 en el intervalo.
Finalmente, si no se tiene ningn indicio del valor de p, se utiliza el valor
p
0
= 0,5, de donde
1 B 1) - (N
N
n
2
+
= y si N es grande
2
B
1
n = .

Muestreo con probabilidades proporcionales al tamao:

Todo el desarrollo anterior se basa en el concepto de que todos los elementos
de la poblacin son igualmente importantes para el estudio, respecto de la
informacin que entregan; sin embargo, en algunos casos, los elementos de la
poblacin no entregan informacin equivalente, ya que sus tamaos difieren, y
estos tamaos se vinculan a la cantidad de informacin que contienen.

Cuando hablamos de tamao no necesariamente se trata de cantidad de
individuos, sino de alguna caracterstica del elemento que se vincula a la
variable de inters en forma significativa. En estos casos es conveniente
asignarle pesos o ponderaciones
i
diferentes a los elementos seleccionados
que permitan una representacin diferenciada en la muestra, en la cual
aquellas unidades con mayor informacin de inters tengan mayor probabilidad
de ser seleccionadas. La asignacin de ponderaciones es previa a la
recoleccin de la informacin, pero el conocimiento previo de la variable de
inters no es posible, si as lo fuera la muestra no sera necesaria. En lugar de
la informacin de inters X, para designar las ponderaciones se puede buscar
una variable que est relacionada con ella (digamos Y), en funcin de las
cuales se puedan construir las ponderaciones. Este procedimiento provoca que
las unidades en la poblacin tengan diferentes probabilidades de ser elegidas,
en efecto, que la probabilidad de ser elegida sea aproximadamente
proporcional a la informacin que entregan.

Por ejemplo, si interesa la productividad cientfica de las universidades chilenas
(X: nmero de artculos en revistas de corriente principal publicados en el
ltimo ao), una variable relacionada con ella es el nmero de doctores en la
planta de la universidad (Y). Esta variable permitir estimar la ponderacin .

Para designar las ponderaciones se realiza, para cada elemento de la
poblacin, el siguiente clculo:

i
=
T
i
Y
Y
,
donde Y
T
es la suma de todos los valores Y
i
en la poblacin, es decir:
Y
T
= .

=
N
1 j
j
Y
Naturalmente, las estimaciones no pueden ser las mismas que en los
desarrollos anteriores, debido a que ciertas unidades han sido ponderadas ms
que otras, por lo cual se debe reducir su influencia en el momento de la
estimacin; esto se logra dividiendo por la ponderacin. Es as como se
obtienen estimadores insesgados y de varianza mnima.

La seleccin de la muestra se hace de la siguiente manera:
Se construye una tabla en que la primera columna contiene a los elementos
de la poblacin, la segunda las ponderaciones y la tercera los valores
acumulados de (cada valor acumulado es el acumulado anterior ms el
valor actual).
Se escogen n nmeros aleatorios entre 0 y 1.
Para cada nmero aleatorio escogido se escoge el elemento con valor
acumulado superior a l y para el cual el valor acumulado anterior es inferior
a l.
Por ejemplo:
Elemento acumulado
1 0,2 0,2 0 + 0,2
2 0,25 0,45 0,2 + 0,25
3 0,15 0,6 0,45 + 0,15
4 0,1 0,7 0,6 + 0,1
5 0,2 0,9 0,7 + 0,2
6 0,1 1 0,9 + 0,1

Si los n = 3 nmeros aleatorios son 0,375 0,499 0,070, estos se relacionan
con los elementos Elemento 2: 0,2<0,375<0,45; Elemento 3: 0,2<0,499<0,6;
Elemento 1: 0<0,07<0,2. As la muestra incluye a los tres primeros elementos.

Estimadores e intervalos en muestreo con probabilidades proporcionales
al tamao:

Es conveniente construir la variable Z, como

X
, es decir, Z
i
=
i

i
X
, para realizar
ms fcilmente las operaciones, por otra parte, en este caso deja de tener
importancia el tamao poblacional, de modo que no se usa factor de
correccin.
1) Parmetro Media :

El estimador es =

n
1 i
i
Z
n N
1
=
N
Z
.
El error estndar es () =
n N

.
El error estndar estimado es = ) s(
n N
S
Z

.
El error de estimacin es ) s( 2 B = .
El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n grande y 75%
en caso contrario.
El tamao de muestra es
2 2
2
Z
B N
4
n

= . Si se cuenta con una muestra piloto,

Z
se reemplaza por su desviacin estndar S
Zp
, es decir,
2 2
2
Zp
B N
S 4
n

= .

2) Parmetro Total = N :

El estimador es = Z
El error estndar es = ) (
n

Z
.
El error estndar estimado es ) s( =
n
Z
S
.
El error de estimacin es ) s( 2 B = .
El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n grande y 75%
en caso contrario.
El tamao de muestra es
2
2
Z
B
4
n

= . Si se cuenta con una muestra piloto,

Z
se reemplaza por su desviacin estndar S
Zp
, es decir,
2
2
Z
B
S 4
n

= .

Ejercicios:

1) La empresa distribuidora de agua potable y el municipio ha financiado un
estudio basado en una muestra aleatoria simple de 100 medidores de agua
controlados dentro de una comunidad para estimar el promedio de consumo
diario por casa, durante un perodo de sequa. La media y desviacin
estndar muestrales fueron, respectivamente, x = 12,5 y s = 11,2. El
nmero total de casas en la comunidad es N = 10.000.
a) Estime el consumo diario promedio de agua por familia, puntualmente y
por intervalo. Interprete.
b) Estime el consumo diario total de agua en la comunidad, puntualmente y
por intervalo. Interprete.
c) Imagine que una muestra piloto arroj los valores de promedio y
desviacin estndar dados y obtenga el tamao muestral necesario para
estimar el consumo total con un error mximo de 10.000.
d) Si se deseara utilizar un muestreo proporcional al tamao, de qu
forma lo diseara?

2) En una encuesta de opinin se entrevist a 1684 adultos de todo Estados
Unidos (Gainesville Sun, julio 4, 1983). En la encuesta se report tener un
6% de margen de error para los resultados referentes a las proporciones de
entrevistados que estaban a favor ciertas decisiones.
a) Qu puede decir respecto del error reportado?
b) Estime la proporcin de estadounidenses a favor de cierta decisin,
puntualmente y por intervalo, si en la muestra 950 personas se
pronunciaron a favor. Interprete.
c) Qu tamao muestral hubiese obtenido usted si considerara aceptable
un error de estimacin del 2% (considere que son varias decisiones las
que estn en juego)?
d) Qu tamao muestral hubiese obtenido usted si considerara aceptable
un error de estimacin del 2% y si respecto de las decisiones se sabe
que a lo ms un 35% est a favor de cualquiera de las decisiones?
3) La Tabla adjunta muestra gastos de consumo personal en Estados Unidos
para una seleccin de bienes y servicios (en millones de dlares).

Categora 1981 1982
Vehculos automotores 101,6 109,9
Muebles y enseres domsticos 93,3 93,5
Alimentos 375,9 396,9
Ropa 115,3 119,0
Gasolina y aceite 94,6 91,5
Combustible y carbn 20,7 20,0
Vivienda 302,0 334,1
Funcionamiento de la vivienda 128,4 144,3
Transporte 65,5 68,4
Fuente: The World Almanac Book of Facts, 1984 edition.
a) Seleccione una muestra de tres categoras con probabilidades
proporcionales a los gastos de 1981. En base a ella estime
puntualmente y por intervalo el gasto total personal de 1982, en millones
de dlares. Interprete.
b) Qu tamao muestral hubiese obtenido usted si considerara aceptable
un error de estimacin del 100? Utilice valores obtenidos en (a) como si
fuesen una muestra piloto.

4) Se est formulando un caso legal para el sindicato de secretarias de cierta
empresa, quienes alegan que les estn pagando un sueldo injustamente
bajo. Las 64 secretarias de la empresa tienen un sueldo mensual promedio
de $350.000, con una desviacin estndar de $25.000; mientras que el
sueldo promedio de las secretarias en la ciudad en que se localiza la
empresa es de $390.000. Es posible sustentar el alegato de las
secretarias mediante argumentos estadsticos? De ser as, plantee los
argumentos y las premisas que los fundamentan.

5) La comisin para la igualdad de oportunidades de empleo acusa a una
empresa de la novena regin de transgredir las normas en contra de la
discriminacin racial, puesto que de sus 100 empleados solamente 30 son
de origen indgena. Se sabe que en el rea de mercado laboral para esa
empresa el 36% de los empleados disponibles son de origen indgena. Se
puede sostener la acusacin con argumentos estadsticos? De ser as,
plantee los argumentos y las premisas que los fundamentan.

Tcnicas de Muestreo
Clase 5: Muestreo Aleatorio Estratificado

Introduccin:

Como se vio en el captulo introductorio, la eleccin del diseo de muestreo
depende de factores relativos a la estructura de la poblacin. En este captulo
abordaremos el caso en el cual la poblacin est compuesta de grupos que son
heterogneos entre ellos respecto de la variable de inters, pero que presentan
un comportamiento homogneo de la variable dentro de ellos. Estos grupos se
conocen como Estratos.

En estos casos se suele utilizar el mtodo conocido como Muestreo Aleatorio
Estratificado, el cual consiste en la seleccin de muestras aleatorias simples
independientes dentro de los subgrupos o Estratos.

La utilizacin del Muestreo Aleatorio Estratificado (MAE) permite reducir la
variabilidad total del estimador utilizado, ya que sta depende de la variabilidad
de la variable de inters, la cual es baja dentro de los grupos. Como sabemos,
la variabilidad del estimador incide en el error de estimacin, de modo que se
obtendr una estimacin mucho ms precisa.

Ventajas de la Estratificacin:

Por supuesto, la estratificacin se realiza debido a sus ventajas y cuando stas
lo ameritan. Algunos de estos beneficios son:

1) Mayor precisin: Para un mismo tamao muestral, la estratificacin
produce un lmite ms pequeo para el error de estimacin que el que se
generara a partir de un MAS. Este resultado es ms efectivo mientras ms
homogneos sean internamente los estratos, es decir, mientras ms
adecuada y necesaria sea la estratificacin.
Por ejemplo, estratificar por sexo en un estudio relacionado con el peso
reducir notablemente la variabilidad; en un estudio relacionado con
sueldos, si se cree que existe discriminacin al respecto.
2) Reduccin de costos: La estratificacin en grupos convenientes permite
reducir los costos monetarios y temporales de la recoleccin de datos.
Por ejemplo si se trata de individuos que viven en diferentes sectores,
organizar el proceso de recoleccin en cada sector por separado resulta
ms econmico.
3) Estimaciones para los estratos: La estratificacin permite, a la vez que
estimar respecto del grupo total, obtener estimaciones de los estratos
mismos. Cuando stos son grupos de inters, estos resultados resultan muy
tiles. Si la estratificacin es por grupos socioeconmicos, ser mucho ms
til contar con las mediciones para cada grupo particular que para el grupo
total.

Proceso de Estratificacin:

El proceso de estratificacin es un diseo de muestreo en etapas. Una vez que
se ha determinado que el MAE es el diseo ms adecuado, las etapas son las
siguientes:

1) Definicin de Estratos: Definir claramente los L estratos existentes en la
poblacin, de modo que cada elemento de la poblacin pertenezca a un
estrato y slo a un estrato.
2) Tamao de los Estratos: Determinar o estimar el tamao de cada estrato
N
1
, , N
L
, donde naturalmente el tamao de la poblacin es la suma de los
tamaos de los estratos: N = .

=
L
1 i
i
N
3) Tamao muestral: Determinar el tamao muestral total y por estrato es un
proceso que se realiza de diferentes formas, las cuales sern mencionadas
ms adelante.
4) Seleccin de la muestra: Seleccionar la muestra dentro de cada uno de
los estratos en forma independiente mediante un diseo de MAS.

Estimadores e intervalos:

El objetivo de este diseo de muestreo es la estimacin de parmetros de la
poblacin y de los estratos. Los estimadores son insesgados y, dependiendo
de las prioridades establecidas, de varianza mnima o con costo mnimo.
Dependiendo de si el tamao muestral por estrato es grande o pequeo, se
generan intervalos con nivel de confianza 95% 75%, respectivamente.

Para las estimaciones, es necesario precisar la notacin por estratos. Las
medias, desviaciones estndar y proporciones para las muestras del i-simo
estrato se denotan, respectivamente, por X
i
, S
i
y ; mientras que los
respectivos parmetros se denotan por
i
p

i
,
i
y p
i
.

En ocasiones se cuenta con poca informacin previa, lo cual dificulta la
estimacin de las desviaciones estndar. En estos casos se puede usar la
siguiente regla:

i

4
Mnimo - Mximo
.

Tambin se contar con estimaciones para el caso en que los tamaos de los
estratos son muy grandes respecto de las muestras (
i
i
n
N
20 para todos los
estratos) y para el caso en que no es as (
i
i
n
N
20 para algn estrato).


a) Parmetro Media :

a) Global:
El estimador es =
E

i
L
1 i
i
X N
N
1

=

El error estndar es ( ) =
E

=

L
1 i i
2
i
i i i
n

) n - (N N
N
1
; con N
1
, , N
L
grandes
()


n
N
N
1
L
1 i i
2
i i

2
.
El error estndar estimado es s( )= =
E

) (
E

=

L
1 i i
2
i
i i i
n
S
) n - (N N
N
1
; con
N
1
, , N
L
grandes grandes s( )
E


n
S N
N
1
L
1 i i
2
i i

2
.
El error de estimacin es B = 2 s( ).
E

El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n


1
, , n
L

grandes y 75% en caso contrario.
El tamao de muestra es

=
=
+

=
L
1 i
2
i i
2 2
L
1 i i
2
i
2
i
N 4 B N
w
N
4
n , con w
i
tal que n
i
= w
i
n.
Si se cuenta con una muestra piloto,
i
se reemplaza por su desviacin
estndar S
i
, es decir,

=
=
+

=
L
1 i
2
i i
2 2
L
1 i i
2
i
2
i
S N 4 B N
w
S N
4
n .
b) Por estrato:

El estimador es = X
i

i
.
El error estndar es ( ) =
i

i i
2
i i i
n N
n - (N

)
; si N
i
grande ( )
i

i
i
n

.
El error estndar estim. es s( ) =
i

i i
2
i i i
n N
S n - (N

)
; si N
i
grande s( )
i

i
i
n
S
.
El error de estimacin es B
i
= 2 s( ).
i

El intervalo de confianza es [ ]
i i i i
B X ; B - X + , de nivel 95% si n
i
grande y
75% en caso contrario.

b) Parmetro Total = N :

a) Global:
El estimador es
E
= N =
E

i
L
1 i
i
X N

=
.
El error estndar es (
E
) =

=

L
1 i i
2
i
i i i
n

) n - (N N ; con N
1
, , N
L
grandes
(
E
)
n
N
L
1 i i
2
i i

2
.
El error estndar estimado es s(
E
)= = ) (
E

=

L
1 i i
2
i
i i i
n
S
) n - (N N ; con
N
1
, , N
L
grandes grandes s(
E
)
n
S N
L
1 i i
2
i i

2
.
El error de estimacin es B = 2 s(
E
).
El intervalo de confianza es [
E
B;
E
+`B], de nivel 95% si n
1
, , n
L

grandes y 75% en caso contrario.
El tamao de muestra es

=
=
+

=
L
1 i
2
i i
2
L
1 i i
2
i
2
i
N 4 B
w
N
4
n , con w
i
tal que n
i
= w
i
n.
Si se cuenta con una muestra piloto,
i
se reemplaza por su desviacin
estndar S
i
, es decir,

=
=
+

=
L
1 i
2
i i
2
L
1 i i
2
i
2
i
S N 4 B
w
S N
4
n .
b) Por estrato:

El estimador es
i
= N
i
X
i
.
El error estndar es (
i
) =
i
2
i i i i
n
n - (N N )
; si N
i
grande (
i
)
i
i i
n
N
.
El error estndar estimado es s(
i
) =
i
2
i i i i
n
S n - (N N )
; si N
i
grande
s(
i
)
i
i i
n
S N
.
El error de estimacin es B
i
= 2 s(
i
).
El intervalo de confianza es [ ]
i i i i
B ; B - + , de nivel 95% si n
i
grande y
75% en caso contrario.

c) Parmetro Proporcin p:

a) Global:

El estimador es

=
=
L
1 i
i i E
p N
N
1
p

.
El error estndar es

=

=
L
1 i i
i i i i i
E
n
) p (1 p ) n - (N N
N
1
) p (

; con N
1
, , N
L

grandes

L
1 i i
i i
2
i
E
n
) p (1 p N
N
1
) p (

.
El error estndar estimado es


=
L
1 i i
i i i i i
E
n
) p (1 p ) n - (N N
N
1
) p s(
1

; con
N
1
, , N
L
grandes

L
1 i i
i i
2
i
E
n
) p (1 p N
N
1
) p s(
1

.
El error de estimacin es . ) p s( 2 B
E

=
El intervalo de confianza es [ ] B p B; - p
E E
+

, de nivel 95% si n
1
, , n
L

grandes y 75% en caso contrario.
El tamao de muestra es

=
=
+

=
L
1 i
i i i
2 2
L
1 i i
i i
2
i
) p (1 p N 4 B N
w
) p (1 p N
4
n , donde p
i
son las
proporciones en una muestra piloto.
Si no se cuenta con una muestra piloto, pero se sabe que las proporciones
estn entre ciertos lmites, se escogen los valores p
i
ms cercanos a 0,5 en
el intervalo.
Finalmente, si no se tiene ningn indicio de los valores p
i
, se utiliza el valor
p
i
= 0,5, de donde
N B N
w
N
n
2 2
L
1 i i
2
i
+
=

=
y si N es grande

=
L
1 i i
2
i
2 2
w
N
B N
n
1
.

b) Por estrato:

El estimador es
i
i
i
n
X
p =

, con X
i
nmero de ocurrencias del evento de
inters en la psima muestra.
El error estndar es
1 - N
n - N
n
p (1 p
) p (
i
i i
i
i i
i


=
)

; si N
i
grande
i
i i
i
n
p (1 p
) p (
)


.
El error estndar estimado es
1 - N
n - N
1 - n
p (1 p
) p s(
i
i i
i
i i
i


=
)

; si N grande
1
)

i
i i
i
n
p (1 p
) p s( .
El error de estimacin es . ) p s( 2 B
i i

=
El intervalo de confianza es [ ]
i i i i
B p ; B - p +

, de nivel 95% si n grande y
75% en caso contrario.

Tamaos Muestrales por Estrato:

Anteriormente hemos designado simplemente como w
i
a las ponderaciones
que permiten determinar que proporcin de la muestra total es extrada de cada
estrato. En esta seccin veremos cmo escoger estas ponderaciones.
El criterio general para designar los tamaos muestrales consiste en obtener
una cantidad de informacin suficiente, logrando error de estimacin bajo y al
menor costo posible. Esto implica que los mtodos de asignacin estn
influenciados por tres factores:

El costo de obtener informacin en cada estrato har que se limite la
cantidad de informacin originaria de estratos donde el costo para
obtenerla es muy alto.
La variabilidad de las observaciones dentro de los estratos hace que
en algunos estratos sea necesaria una mayor cantidad de informacin
para lograr una estimacin precisa, debido a su mayor variabilidad,
mientras en otros estratos una cantidad pequea de informacin es
suficiente por su homogeneidad.
Los tamaos relativos de los estratos motivan que se utilice ms
informacin de los estratos grandes que de los pequeos.

Estos factores nos llevan a tres mtodos, segn cul de ellos es el que prima:

1) Asignacin ptima ajustada por costos:

i) ERROR FIJO: Este caso considera tanto los costos en cada estrato, las
diferentes variabilidades en ellos, y sus tamaos relativos, ajustando
tamao muestral total y en los estratos para un error de estimacin
mximo fijo B.

a) Media :
w
i
=

L
1 j
j
j j
i
i i
c
N
c
N
; n =


=
= =
+

L
1 i
2
i i
2 2
L
1 i
i i i
L
1 i
i
i i
N 4 B N
c N
c
N
4

b) Total :
w
i
=

L
1 j
j
j j
i
i i
c
N
c
N
; n =


=
= =
+

L
1 i
2
i i
2
L
1 i
i i i
L
1 i
i
i i
N 4 B
c N
c
N
4

c) Proporcin p:
w
i
=

L
1 j j
j j
j
i
i i
i
c
p p
N
c
p p
N
) 1 (
) 1 (
; n =


=
= =
+



L
1 i
i i i
2 2
L
1 i
i i i i
L
1 i i
i i
i
p p N 4 B N
c p p N
c
p p
N 4
) 1 (
) 1 (
) 1 (
;

y w
i
=

=
L
1 j
j
j
i
i
c
N
c
N
; n =
N B N
c N
c
N
2 2
L
1 i
i i
L
1 i
i
i
+


= =
, si no se conocen los p
i
(p
i
= 0,5).

ii) COSTO FIJO: Este caso considera tanto los costos en cada estrato, las
diferentes variabilidades en ellos, y sus tamaos relativos, ajustando
tamao muestral total y en los estratos para un costo mximo fijo C.

a) Media y total :
w
i
=

L
1 j
j
j j
i
i i
c
N
c
N
; n =

L
1 i
i i
C w
C
.
b) Proporcin p:
w
i
=

L
1 j j
j j
j
i
i i
i
c
p p
N
c
p p
N
) 1 (
) 1 (
; n =

L
1 i
i i
C w
C
.
y w
i
=

=
L
1 j
j
j
i
i
c
N
c
N
; n =

L
1 i
i i
C w
C
, si no se conocen los p
i
(p
i
= 0,5).

2) Asignacin ptima ajustada por variabilidad:

Este caso no considera los costos (asume que son todos iguales), pero si
considera las diferentes variabilidades en los estratos y sus tamaos
relativos, ajustando tamao muestral total y en los estratos para un error
de estimacin mximo fijo B.

a) Media :
w
i
=

L
1 j
j j
i i
N
N
; n =

=
=
+


L
1 i
2
i i
2 2
L
1 i
i i
N 4 B N
N 4
2

b) Total :
w
i
=

L
1 j
j j
i i
N
N
; n =

=
=
+


L
1 i
2
i i
2
L
1 i
i i
N 4 B
N 4
2

c) Proporcin p:
w
i
=

=


L
1 j
i i j
i i i
p p N
p p N
) 1 (
) 1 (
; n =

=
=
+


L
1 i
i i i
2 2
L
1 i
i i i
p p N 4 B N
p p N 4
) 1 (
) 1 (
2

y w
i
=

=
L
1 j
j
i
N
N
; n =
N B N
N
2 2
2
+
, si no se conocen los p
i
(p
i
= 0,5).

3) Asignacin proporcional:

Este caso no considera los costos (asume que son todos iguales), ni
tampoco considera las diferentes variabilidades en los estratos, es decir,
asume que no difieren demasiado; pero s considera los tamaos relativos
de ellos. El tamao muestral total y en los estratos se ajusta para un error
de estimacin mximo fijo B.

a) Media :
w
i
=

=
L
1 j
j
i
N
N
; n =

=
=
+


L
1 i
2
i i
2 2
L
1 i
2
i i
N 4 B N
N N 4

b) Total :
w
i
=

=
L
1 j
j
i
N
N
; n =

=
=
+


L
1 i
2
i i
2
L
1 i
2
i i
N 4 B
N N 4

c) Proporcin p:
w
i
=

=
L
1 j
j
i
N
N
; n =

=
=
+


L
1 i
i i i
2 2
L
1 i
i i i
) p (1 p N 4 B N
) p (1 p N N 4

y w
i
=

=
L
1 j
j
i
N
N
; n =
N B N
N
2 2
2
+
, si no se conocen los p
i
(p
i
= 0,5).

Regla para formar los estratos:

En la mayora de los casos es posible relacionar la variable de inters con otras
variables que permiten una estratificacin en grupos que estn predefinidos o
que tienen sentido por s mismos (grupos socioeconmicos, residentes de una
localidad, sexo, grupos etreos, estatus laboral, etc.), sin embargo, en
ocasiones slo se cuenta con un conocimiento mnimo de la variable de inters,
dado por frecuencias aproximadas (por ejemplo sueldos promedio por grupos
socioeconmicos obtenidos de un estudio anterior) o la distribucin de una
variable muy relacionada (por ejemplo nivel educacional mediano de los
individuos puede estar relacionado con el sueldo). En estos casos, para la
estratificacin se recurre al histograma (grfico de barras verticales), y se
observa en l cuantas cimas hay, estas indican en muchos casos que existe la
superposicin de distribuciones de diferentes grupos, y permite determinar el
nmero de estratos.

Por ejemplo, el histograma siguiente:


se puede entender como la superposicin de los siguientes histogramas:



Uno puede detectar en forma aproximada en qu lugar se ubican los cortes
observando las cimas (*) y valles. Veamos la distribucin de frecuencias de
sueldos en cierta empresa (miles de pesos):

Sueldo N individuos
100-200 4
200-300 9
300-400 49*
400-500 36
500-600 49*
600-700 16
700-800 36*
800-900 25
900-1000 4

De aqu se puede estimar que los intervalos que permiten la estratificacin son
aproximadamente 100 - 450, 450 - 650, 650 - 1000.

Existe otro mtodo, y es el siguiente:
Se construye la distribucin de frecuencias.
Se agrega una columna con raz de la frecuencia.
Se agrega una columna acumulando la raz de la frecuencia.
El valor final de la ltima columna se divide por el nmero de estratos.
Se busca los valores aproximados que acumulan el valor obtenido en el
punto anterior y sus mltiplos.

En el ejemplo:

Intervalo Frecuencia
Raiz de
Frecuencia
Raz Frec
Acumulada
100-200 4 2 2
200-300 9 3 5
300-400 49 7 12*
400-500 36 6 18*
500-600 49 7 25
600-700 16 4 29*
700-800 36 6 35
800-900 25 5 40
900-1000 4 2 42*

El valor final 42 se divide por 3, esto da: 14. Los mltiplos son 14, 28, 42. Estos
valores (*) se buscan en la ltima columna.

As se llega aproximadamente a los siguientes intervalos para los estratos:
100 - 430, 430 - 680, 680 - 1000; los cuales son bastante semejantes a los
intervalos encontrados antes.

Estratificacin despus de seleccionar la muestra:

Existen casos en los cuales claramente es adecuado usar un diseo de
muestreo estratificado, sin embargo no es posible determinar el estrato al cual
pertenecen los individuos antes de recolectar la muestra, por ejemplo, una
encuesta telefnica impide determinar previamente el sexo de la persona que
responder la llamada, en un sistema de archivo hospitalario no computacional,
no se puede saber la razn por la cual concurre el paciente a emergencia antes
de observar la ficha.

Para estratificar la informacin en forma posterior a la recoleccin de datos es
necesario conocer aproximadamente los tamaos relativos de los estratos.
Por ejemplo si los tamaos de dos estratos son iguales (50%), w
1
= w
2
= 0,5.
En otro caso, si tres estratos corresponden aproximadamente a un 40%, 30% y
30% de la poblacin, w
1
= 0,4; w
2
= w
3
= 0,3.

Con esta informacin, ya es posible realizar la recoleccin. En estos casos, lo
que se debe hacer es tomar una muestra de la poblacin, como se hara con
una muestra aleatoria simple, del tamao deseado, cada observacin es
estratificada a posteriori y luego se obtienen los estimadores. El ltimo paso
consiste en balancear la informacin, es decir, cada estimador debe
ponderarse por la proporcin que corresponde a ese estrato en la poblacin:

1) Media :

a) Global:
El estimador es

= =
= =
L
1 i
i i
L
1 i
i i E
X w w


El error estndar es ( ) =
E

L
1 i i
2
i 2
i
n

w .
El error estndar estimado es s( )=
E

L
1 i i
2
i 2
i
n
S
w .
El error de estimacin es B = 2 s( ).
E

El intervalo de confianza es [ ] B X B; - X + , de nivel 95% si n


1
, , n
L

grandes y 75% en caso contrario.

b) Por estrato:

El estimador es = X
i

i
.
El error estndar es ( )
i

i
i
n

.
El error estndar estim. es s( )
i

i
i
n
S
.
El error de estimacin es B
i
= 2 s( ).
i

El intervalo de confianza es [ ]
i i i i
B X ; B - X + , de nivel 95% si n
i
grande y
75% en caso contrario.

2) Parmetro Total = N :

a) Global:

El estimador es
E E
N

=
El error estndar es (
E
) =

=

L
1 i i
2
i 2
i
n

w N .
El error estndar estimado es s(
E
)=

=

L
1 i i
2
i 2
i
n
S
w N .
El error de estimacin es B = 2 s(
E
).
El intervalo de confianza es [ ] B B; - + , de nivel 95% si n
1
, , n
L
grandes
y 75% en caso contrario.

b) Por estrato:

El estimador es
i
= N
i
X
i
.
El error estndar es (
i
)
i
i i
n
N
.
El error estndar estimado es s(
i
)
i
i i
n
S N
.
El error de estimacin es B
i
= 2 s(
i
).
El intervalo de confianza es [ ]
i i i i
B ; B - + , de nivel 95% si n
i
grande y
75% en caso contrario.

3) Parmetro Proporcin p:

a) Global:

El estimador es .

=
=
L
1 i
i i E
p w p

El error estndar es

L
1 i i
i i
2
i
E
n
) p (1 p w
) p (

.
El error estndar estimado es

L
1 i i
i i
2
i
E
n
) p (1 p w
) p s(
1

.
El error de estimacin es . ) p s( 2 B
E

=
El intervalo de confianza es [ ] B p B; - p
E E
+

, de nivel 95% si n
1
, , n
L

grandes y 75% en caso contrario.

b) Por estrato:

El estimador es
i
i
i
n
X
p =

, con X
i
nmero de ocurrencias del evento de
inters en la psima muestra.
El error estndar es
i
i i
i
n
p (1 p
) p (
)


.
El error estndar estimado es
1
)

i
i i
i
n
p (1 p
) p s( .
El error de estimacin es . ) p s( 2 B
i i

=
El intervalo de confianza es [ ]
i i i i
B p ; B - p +

, de nivel 95% si n grande y
75% en caso contrario.

Ejercicios:

1) Bajo qu condiciones ocurre que la estratificacin produce grandes
ganancias en precisin respecto del muestreo aleatorio simple? Suponga
costos constantes.









2) Una corporacin desea estimar el nmero total de horas-hombre perdidas
debido a accidentes de los empleados en un mes determinado. Ya que los
obreros, los tcnicos y los administrativos tienen tasas de accidentes
diferentes, el investigador decide usar muestreo aleatorio estratificado, con
cada grupo formando un estrato.
Datos de aos previos presentan las varianzas mostradas en la tabla anexa,
para el nmero de horas-hombre perdidas por empleado en los tres grupos,
y de datos actuales se obtuvieron los tamaos de los estratos.

I II III
Obreros Tcnicos Administrativos

1
= 6
2
= 5
3
= 3
N
1
= 152 N
2
= 92 N
3
= 27

a) Determine la asignacin de Neyman para una muestra de n = 30
empleados.
b) Estime el nmero total de horas-hombre perdidas durante el mes
indicado y establezca un lmite para el error de estimacin. Use los datos
de la tabla anexa, obtenida de una muestra de 18 obreros, 10 tcnicos y
2 administrativos.

I II III
Obreros Tcnicos Administrativos
8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8
18 2 0


c) Calcule e interprete el Intervalo de Confianza para el total de
horas-hombre perdidas.
d) Si el costo por hora perdida para individuos en los estratos es,
respectivamente, $5.000, $8.000 y $12.000. Cul sera el mximo
costo posible estimado?
3) Se forma una comisin de zonificacin para estimar el valor promedio de
avalo en un suburbio residencial de una ciudad. El uso de ambos distritos
de votantes en el suburbio como estratos es conveniente porque se tienen
disponibles listas separadas de las viviendas de cada distrito.

a) De los datos en la tabla anexa estime el valor promedio del avalo para
todas las casas del suburbio.

I II
N
1
= 110 N
2
= 168
n
1
= 20 n
2
= 30

=
1
n
1 i
i
x = 240.000

=
2
n
1 i
i
x = 420.000

=
1
n
1 i
2
i
x = 2.980.000.000

=
2
n
1 i
2
i
x = 6.010.000.000

b) Establezca un lmite para el error de estimacin (ntese que se utiliza
asignacin proporcional).
c) Construya e interprete el intervalo de confianza.

4) Una psicloga que est trabajando con un grupo de adultos con retraso
mental desea estimar su tiempo de reaccin promedio a cierto estmulo. Ella
considera que varones y mujeres probablemente presentarn una diferencia
en tiempos de reaccin, por lo que desea estratificar en base a los sexos. El
grupo de 96 personas tiene 45 varones.
Estudios previos de este tipo han revelado que los tiempos presentan una
amplitud aproximada de 5 a 20 segundos para los varones y de 3 a 14
segundos para las mujeres. Los costos del muestreo son los mismos para
ambos estratos.

a) Usando la asignacin ptima, encuentre el tamao de muestra
aproximado necesario para estimar el tiempo dev reaccin promedio
para el grupo con un lmite aproximado de un segundo.
b) Asigne tamaos muestrales a los estratos.

5) Un ayuntamiento municipal est interesado en ampliar las instalaciones de
un centro de atencin diurna para nios con retraso mental. La ampliacin
va a incrementar los costos de asistencia a los nios del centro. Se va a
realizar una encuesta por muestreo para estimar la proporcin de familias
con nios afectados que utilizarn las instalaciones ampliadas. Las familias
estn divididas en aquellas que usan las instalaciones y aquellas que no lo
hacen. Algunas familias viven en la ciudad donde se encuentra localizado el
centro, y otras viven en las reas rurales o suburbanas de los alrededores.
Entonces se usa muestreo aleatorio estratificado con personas en la ciudad
que usan las instalaciones, personas de los alrededores que las usan,
personas en la ciudad que no las usan y personas en los alrededores que
no las usan, formando respectivamente los estratos 1, 2, 3 y 4.
Aproximadamente 90% de los que usan las instalaciones y 50% de los que
no las usan van a utilizar las nuevas instalaciones.
Los costos para efectuar la observacin de un cliente actual es 4 y, debido a
la dificultad para localizar a quienes no usan las instalaciones, los costos de
observacin para quienes no usan las instalaciones es 8.
Registros existentes arrojan los siguientes tamaos para los estratos: N
1
=
97, N
2
= 43, N
3
= 145, N
4
= 68.

a) Encuentre el tamao de muestra aproximado y la asignacin necesaria
para estimar la proporcin poblacional con un lmite de 0,05 para el error
de estimacin.
b) Llevada a cabo la encuesta, se obtienen las siguientes proporciones de
familias que usarn las nuevas instalaciones:
1
p

= 0,87; = 0,93; = 0,60; = 0,53.


2
p

3
p

4
p

c) De acuerdo al desarrollo en (b) vea si se logr el lmite de error de


estimacin deseado.
d) Considere que el costo total del muestreo se fija en C = 400. Elija el
tamao de muestra y la asignacin que minimiza la varianza del
estimador para este costo fijado.
E
p


6) Si no se tiene informacin disponible sobre la variable de inters primordial,
digamos X, entonces la estratificacin ptima puede ser aproximada
mediante el uso de otra variable, digamos Y, la cual est altamente
correlacionada con X.
Suponga que un investigador desea estimar el nmero promedio de das de
ausencia por enfermedad, otorgados por cierto grupo de empresas en un
ao determinado. No se tiene disponible informacin referente a das de
ausencia por enfermedad, pero se puede contar con informacin sobre el
nmero de empleados por empresa. Suponga que para estas empresas se
tiene que el nmero total de das de ausencia por enfermedad est
altamente correlacionado con el nmero de empleados.

N de empleados Frecuencia
0 10 2
11 20 44
21 30 6
31 40 6
41 50 5
51 60 7
61 70 10
71 80 14
81 90 19
91 100 13
101 110 3
111 120 7
Total 96

Use los datos de frecuencia de la tabla anexa para dividir ptimamente las
96 empresas en L = 4 estratos,
a) para los cuales sea posible usar tamaos de muestra iguales.
b) con ayuda del histograma.
c) con ayuda de alguna regla estudiada.

7) Un analista de investigacin de mercados quiere estimar la proporcin de
personas que favorece el producto de su compaa respecto a un producto
similar de una compaa rival. El rea de prueba para esta investigacin es
el estado de Nueva Cork. l tambin est interesado en obtener
estimaciones separadas para la proporcin de personas con edades de 18
a 25 aos y para mayores de 25 aos. Analice posibles diseos para la
encuesta.

a) Qu diseo usar?
b) Cmo estimar el tamao muestral n?
c) Qu estimaciones realizara?
d) En base a qu herramienta se concluye respecto de la preferencia del
pblico?
e) Suponga que se sabe que para la empresa rival el 60% de los
consumidores del producto tienen entre 18 a 25 aos y el 40% tiene ms
de 25 aos. Adems se sabe que el consumo de ese producto es
masivo.
Estime el tamao muestral total y la asignacin muestral por estratos, si
se desea un error mximo de estimacin de 5%.
f) Suponga que se encuentra que las proporciones estimadas de acuerdo
a la muestra configurada en (g) son = 0,65; = 0,48. Construya
intervalos de confianza y concluya respecto del xito delproyecto en la
poblacin total y en los estratos.
1
p

2
p




Tcnicas de Muestreo
Clase 6: Estimacin de Razn, Regresin y Diferencia

Introduccin:

Existen casos en los cuales la variable a estimar Y est relacionada con otra
variable X, la cual es ms fcil de medir. En estos casos, mediante las
relaciones entre ambas variables, es posible realizar las estimaciones
deseadas. Existen tres mtodos para realizar este tipo de estimacin indirecta,
los cuales son Estimacin de Razn, Estimacin de Regresin y
Estimacin de Diferencia.

Estimacin de Razn:

Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada en forma directa con cierta
variable X. Esto se debe verificar de dos formas:
o grficamente se aprecia una relacin como la de la Figura 6.1,
que es lineal (lnea recta) y pasa por el origen (el cero)


Figura 6.1: Diagrama dispersin variables directamente relacionadas

o el coeficiente de correlacin muestral r es superior a , donde r
se calcula en Excell ubicando los vectores de datos en columnas
adyacentes, por ejemplo en las celdas a1 a10 y b1 b10,
mediante la expresin =coef.de.correl(a1:a10;b1:b10) o bien
manualmente mediante la siguiente expresin:

r = .

El inters est centrado (generalmente) en estimar el Total .
El nmero de unidades N puede ser desconocido.
La variable X es fcil de medir, mientras que la medicin de Y es difcil,
costosa o destruye las unidades al medirse.


1) Parmetro Total
Y
:

En estos casos se puede expresar el total de Y como el total de X
multiplicado por el cuociente entre la media de Y y la de X:

Y
=
X
,
y por lo tanto su estimador se puede expresar en funcin de sus
estimadores.

Muestreo Aleatorio Simple:
a) Estimador:
Y
=
X
.
b) Error est.: (
Y
) =
.

c) Error est. estimado: s(
Y
) =
d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .
Ejemplo:
Se desea estimar el total de individuos que viven en una poblacin. La
unidad de muestreo es la manzana, se puede contar el nmero de casas
(X) pero es difcil contar el nmero de individuos (Y) en una manzana, sin
embargo se puede escoger algunas casas al azar para estimar el promedio
de individuos por manzana Y y tambin se puede estimar el promedio de
casas por manzana X .
El cuociente indica el promedio de individuos por casa, de modo que si
estimamos el total de casas, se contar con una estimacin para el total de
individuos. En efecto,
X
=M Y , donde M es el total de manzanas.
Finalmente, note que
Y
= Y.
Suponga que se sabe que hay 87 manzanas, se eligi una muestra de 10
manzanas y se cont el nmero de individuos que vivan en esas 10
manzanas, resultando ser 356 personas; entoncesY = 35.6, M = 87 y
Y
=87 35.6 =3.097,2.
Se estima que aproximadamente 3.097 personas viven en esa poblacin.

2) Parmetro Razn R = :

En algunos casos, a diferencia de lo expuesto antes, el parmetro de
inters es efectivamente la razn entre ambos totales R = , en cuyo
caso se puede utilizar como estimador el cuociente de totales o de
promedios, segn sea el objetivo del estudio.


Muestreo Aleatorio Simple:
a) Estimador: = = .
b) Error est.: ( ) =
.

c) Error est. estimado: s( ) =
d) Error de estimacin: B =2 s( ).
e) Tamao muestral: n = .

Ejemplo:
Se desea estimar el cuociente entre el endeudamiento personal en crditos
de cierto banco, actual y del ao anterior. El endeudamiento promedio
actual, por cliente, es deY = $431.000 y el del ao anterior es
X =$489.000. El inters se relaciona con endeudamiento personal, de
modo que se estima en base al cuociente de promedios: =88,1%. El
endeudamiento disminuy en un 11,9%.
Ahora bien, si interesa el cuociente entre crditos totales otorgados este
ao y el ao anterior, se requiere estimar los totales, para lo cual se
requiere el nmero de clientes actual, N
Y
= 3.694, y del ao anterior,
N
X
=3.145. Luego = = 1,035 =103,5%. El total de
crditos otorgados aument en un 3,5%.


3) Parmetro media
Y
:

Finalmente, si por algn motivo no se cuenta con la media de la variable de
inters, desde la primera y ltima expresiones es factible derivarla:

Y
= R
X
,
y estimarla en funcin de sus trminos.

Muestreo Aleatorio Simple:

a) Estimador:
Y
=
X
.
b) Error est.: (
Y
) =
.

c) Error est. estimado: s(
Y
) =


d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .

Ejemplo:
Se desea estimar la inversin promedio mensual de los 40 asociados (en
forma conjunta) de cierta compaa para el ao prximo.
Se toma una muestra aleatoria de 10 personas del grupo y se realiza la
consulta relativa a su inversin del prximo ao. El total resulta ser
Y
=$23.400.000, mientras que la inversin total del ao pasado fue de

X
=$146.025.000.
El ao pasado haban 45 asociados y se estima que el ao prximo habrn
43 asociados.
Es as como el promedio del ao pasado de inversin mensual por socio
corresponde a
X(45)
/ 45 =$146.025.000 / (45 12) =$270.417, y para el
ao prximo corresponde a
Y(10)
/10 =$23.400.000/ (1012) =$195.000.
Entonces el cuociente se estima como =$195.000 / $270.417 =0,72.
Note que si el ao pasado hubiera habido 43 asociados (como habr el
prximo ao), la inversin promedio mensual habra alcanzado la suma de
X(43)
=$270.417 43 =$11.627.917.
Finalmente,
Y(43)
=
X(43)
=0,72 $11.627.917 =$8.385.000.

MUESTREO ALEATORIO ESTRATIFICADO:

Para el muestreo aleatorio estratificado se realizan las estimaciones ya sea
de razn R, total
Y
media
Y
dentro de los estratos y luego se utilizan las
frmulas ya conocidas.


Estimacin de Regresin:

Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada linealmente con cierta variable
X, pero la lnea no pasa por el origen. Esto se debe verificar de dos
formas:
o grficamente se aprecia una relacin como la de la Figura 6.2
(lnea recta pero no pasa por el origen)


Figura 6.2: Diagrama dispersin variables linealmente relacionadas

o el coeficiente de correlacin muestral r es superior a , como en
el caso del Estimador de Razn (la correlacin tambin se puede
calcular como la raz cuadrada de R
2
o R Cuadrado, Figura 6.3).
El inters est centrado en estimar la Media
Y
el Total
Y
.
El nmero de unidades N puede ser desconocido si el inters se centra
en la estimacin de la Media
Y
. Para estimar el Total
Y
se requiere
especficamente conocer el valor de N.
La variable X es fcil de medir, en general se asume conocida; mientras
que la medicin de Y es difcil, costosa o destruye las unidades al
medirse.

Para empezar el anlisis es necesario tomar una muestra de individuos a
los cuales se les mide la variable Y y la variable X. Estos pares de datos
servirn para la realizacin del Diagrama de Dispersin. Por otra parte, es
importante tener valores estimados o exactos de la variable X (si no son
exactos se deber contar con otra muestra ms grande, ya que se basarn
las estimaciones ms en X que en Y).
Al establecer la relacin entre X e Y (con los pares de datos), si
efectivamente esta es lineal, quiere decir que Y se puede expresar
aproximadamente en funcin de X de la siguiente manera:

Y =a +b X.

El valor b en la expresin anterior es especialmente necesario para las
estimaciones al usar este mtodo, y se obtiene de dos formas:


o a partir de Excell (botn derecho sobre un punto, Agregar Linea de
Tendencia, Lineal, Presentar ecuacin en el grfico, presentar el valor
R cuadrado en el grfico, cerrar o aceptar).
El resultado se aprecia en la Figura 6.3, donde el valor b es el que
acompaa a X (en la figura b =0,5401), y es conveniente tomar este
camino debido a que permite, a la vez, verificar la relacin lineal que
no pasa por el origen (pasa por a, que corresponde al valor que se
suma en la expresin, es decir, en el ejemplo a =1,76).

Figura 6.3: Ecuacin de la recta y R
2
.

o Los valores de a y b se pueden calcular a partir de la correlacin r,
desviaciones estndar S
X
, S
Y
y y promedios, del modo siguiente:
b =r ; a =Y b X,

o El valor de b se puede obtener mediante una frmula de Excell, y el
valor de a en funcin de l y de los promedios se X e Y, como:

b ==ESTIMACION.LINEAL(a1:a10;b1:b10)
a =Y b X

o El valor de b se puede obtener en forma manual, y el valor de a en
funcin de l y los promedios:

b = ; a =Y b X.

1) Parmetro media
Y
:

Contando con stos valores, r, a, b, ya se conoce la relacin entre X e Y y
podemos realizar la estimacin.

Muestreo Aleatorio Simple:

a) Estimador:
Y
= Y + b (
X
X) .
b) Error est.: (
Y
) = , b real.
.


c) Error est. estimado:
s(
Y
) = , b estimado.
d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .


2) Parmetro Total
Y
:

En estos casos se puede expresar el total de Y como N veces el promedio:

Y
= N
Y
,
y por lo tanto su estimador se puede expresar en funcin del estimador de
la media.

Muestreo Aleatorio Simple:

a) Estimador:
Y
= N
Y
= N [Y + b (
X
X)].
b) Error est.: (
Y
) = , b real.
.

c) Error est. estimado:
s(
Y
) = , b estimado.
d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .


Estimacin de Diferencia:

Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada linealmente con cierta variable
X, la lnea no pasa por el origen, pero la pendiente es uno (b =1, la
recta es diagonal en 45). Esto se debe verificar de dos formas:
o grficamente se aprecia una relacin como la de la Figura 6.4
(lnea recta que no pasa por el origen, con b 1)


Figura 6.4: Variables linealmente relacionadas con pendiente 1

o el coeficiente de correlacin muestral r es superior a , como en
los otros casos.

El inters est centrado en estimar la Media
Y
el Total
Y
.
El nmero de unidades N puede ser desconocido si el inters se centra
en la estimacin de la Media
Y
. Para estimar el Total
Y
se requiere
especficamente conocer el valor de N.
La variable X es fcil de medir, en general se asume conocida; mientras
que la medicin de Y es difcil, costosa o destruye las unidades al
medirse.

Al igual que en el caso de estimacin de Regresin, en este caso se
requiere un conjunto de individuos en los cuales se hayan medido ambas
variables, X e Y, para establecer si la relacin existe, pero las estimaciones
de X se deben obtener de una forma ms exacta (muestra mayor o la
poblacin).
Al establecer la relacin entre X e Y, si efectivamente esta es lineal con
pendiente 1, quiere decir que Y se puede expresar aproximadamente en
funcin de X de la siguiente manera:

Y =a +X.

El valor b se omite por ser igual a uno. Se debe construir la variable
D =Y X, para cada dato, y se calcula en base a ella su media D y su
desviacin estndar S
D
.




1) Parmetro media
Y
:

Muestreo Aleatorio Simple:

a) Estimador:
Y
=
X
+D.
b) Error est.: (
Y
) =S
D
, si b =1.
c) Error est. estimado: s(
Y
) =S
D
, se estima que b =1.
d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .

2) Parmetro Total
Y
:

Tambin aqu se puede expresar el total de Y como N veces el promedio:

Y
= N
Y
,
y por lo tanto su estimador se puede expresar en funcin del estimador de
la media.

Muestreo Aleatorio Simple:

a) Estimador:
Y
= N
Y
= N [
X
+D].
b) Error est.: (
Y
) =S
D
, si b =1.
c) Error est. estimado: s(
Y
) =S
D
, se estima b =1.
d) Error de estimacin: B =2 s(
Y
).
e) Tamao muestral: n = .

Ejercicios:

1) Se realiz una encuesta de consumo familiar con el fin de determinar qu
porcentaje de los ingresos anuales son gastados en alimentacin en una
pequea comunidad formada por 150 familias. Se cuenta con una muestra
aleatoria simple de 14 familias, cuya informacin se presenta en la tabla
adjunta.
a. Realice la estimacin de Razn y encuentre un lmite para el error de
estimacin.
b. Si se conoce el Ingreso anual total de las familias en la comunidad, el
cual es 4.800.000, estime el gasto total en alimentacin de la
comunidad.

Familia Ingreso anual Gasto en alimentacin
1 25.100 3.800
2 32.200 5.100
3 29.600 4.200
4 35.000 6.200
5 43.400 5.800
6 26.500 4.100
7 28.700 3.900
8 28.200 3.600
9 34.600 3.800
10 32.700 4.100
11 31.500 4.500
12 30.600 5.100
13 27.700 4.200
14 28.500 4.000


2) Un trabajador social quiere estimar la relacin entre nmero de dormitorios
por departamento y el nmero de personas que los habitan, en un
determinado barrio de zona urbana que cuenta con 275 departamentos. La
muestra arroj un promedio de 9,2 habitantes por departamento, con
desviacin estndar 2,273 y un promedio 2,6 dormitorios por departamento,
con desviacin estndar de 1,061. La correlacin entre ambas variables
(nmero de habitantes y nmero de dormitorios por departamento) es de
0,933 y la desviacin estndar de la cantidad de habitaciones faltantes para
que cada persona tenga su propio dormitorio es de 1,339.
a. Utilice estimacin de la razn y calcule el lmite para el error de
estimacin.
b. Estime de la mejor forma posible el total de habitantes en la zona
urbana estudiada, si se sabe que hay 100 departamentos de 2
dormitorios, 150 de tres dormitorios y 25 de cuatro dormitorios.


3) Interesa estimar la relacin entre el nmero de personas por en situacin de
pobreza extrema para todas las razas y para las personas de origen
indgena en cierta regin. Se seleccionaron algunas comunas de la regin
en forma aleatoria del total de 32 comunas, obtenindose la informacin en
la tabla adjunta.
a. Estime la proporcin de indgenas en el grupo de personas en
situacin de pobreza extrema y el lmite para el error de estimacin.
b. Si se sabe que el total de individuos que se clasifican en situacin de
pobreza extrema en la regin es de 25.232 personas, estime el total
de indgenas en esta situacin en la regin.

Comuna Total de todas las razas Total de indgenas
1 417 157
2 869 652
3 1.284 1.135
4 547 497
5 699 669
6 391 241



Tcnicas de Muestreo
Clase 7: Muestreo Sistemtico

Introduccin:

Existen ocasiones en las cuales la muestra a seleccionar y la poblacin son
muy grandes, por lo cual seleccionar una muestra aleatoria simple resulta
largo. Tambin en muchas ocasiones se cuenta con un marco muestral
ordenado. En estos casos resulta mucho ms sencillo considerar un mtodo
que en muchos casos es equivalente al muestreo aleatorio simple en cuanto a
precisin, pero que en trminos de facilidad para obtener la muestra resulta
muchsimos ms sencillo, y se trata del muestreo aleatorio sistemtico

Obtencin de la muestra:

Para seleccionar una muestra aleatoria sistemtica de tamao n desde una
poblacin de tamao N, la cual se encuentra ordenada y numerada en un
marco muestral:
Se obtiene la frecuencia k N/n.
Se elige un nmero al azar entre 1 y k, digamos c.
La muestra consiste de los valores: c, c + k, c + 2 k, c + 3 k
En este caso se habla de una muestra sistemtica de 1 en k.
Por ejemplo, si N=124 y n=13, entonces k 124/13 = 9,5, k = 9. Supongamos
que al elegir un nmero al azar entre 1 y 9, se obtiene el valor c = 6; entonces
el primer valor de la muestra es 6 y los dems valores se obtienen sumando
sucesivamente 9 hasta completar los n = 13 valores, correspondientes a los
individuos numerados como: 6, 15, 24, 33, 42, 51, 60, 69, 78, 87, 96, 105, 114.
Esta es una muestra sistemtica de 1 en 9.

Utilizacin del muestreo sistemtico:

El muestreo sistemtico lleva a resultados absolutamente equivalentes a los del
muestreo aleatorio simple si la poblacin se encuentra ordenada y numerada
en un marco muestral en el cual el orden no guarda relacin con la variable de
inters.
En este caso, tanto el tamao muestras, como las estimaciones, sus errores
estndar y los errores de estimacin coinciden con el muestreo aleatorio
simple.

Tipos de poblacin:
Para clasificar las poblaciones, nos referiremos al marco muestral. Este puede
ser de tres tipos, respecto del orden de las unidades y el valor medido:
a) Aleatorio: las unidades no siguen ningn patrn en el marco muestral.
En este caso no existe ninguna diferencia terica entre muestreo
aleatorio simple y sistemtico, aunque la seleccin es ms sencilla.
b) Ordenado: las unidades en el marco muestral se encuentran ordenadas
en forma creciente respecto de la variable de inters (Figura 1): en este
caso, dada la uniformidad con que es seleccionada la muestra, se ven
representados en forma casi equitativa todos los posibles valores de la
variable de inters, por lo cual la precisin de la estimacin es mayor a
la del muestreo aleatorio simple, es decir,
El tamao muestral requerido es menor.
El error estndar es menor.
El error de estimacin es menor.

Figura1: Muestreo sistemtico en marco muestral creciente

c) Peridico: las unidades en el marco muestral se encuentran ordenadas
de tal manera que los valores de la variable varan en forma cclica con
respecto de la variable de inters: en este caso, dependiendo del punto
inicial y de la frecuencia, diferentes muestras arrojan estimaciones muy
diferentes y por lo tanto la variabilidad es muy grande, mayor a la del
muestreo aleatorio simple y por lo tanto la precisin de la estimacin es
inferior, es decir,
El tamao muestral requerido es mayor.
El error estndar es mayor.
El error de estimacin es mayor.

Figura2: Muestreo sistemtico en marco muestral cclico
Entonces es claro que, cuando existe algn comportamiento de tipo cclico en
la variable, el muestreo sistemtico debe evitarse, a menos que se utilicen
tcnicas correctivas:
Cada cierta cantidad de unidades se elige un nuevo valor inicial.
Ejemplo: N = 100, n = 11, k 9.1, k = 9. El primer valor elegido al azar
entre 1 y 9 es c = 6, se elige entonces 6, 15, 24, luego entre los valores
25 a 33 se elige un valor al azar, supongamos que es c = 26, entonces
se agrega a la muestra 26, 35, 44; en este punto se elige otro valor incial
entre 44 y 52, supongamos que sale escogido el valor 50, entonces se
agrega el 59 y 68. Ahora se elige un valor al azar entre 69 y 77,
supongamos que sale el 73, se agrega entonces el 82 y 91. Se elige un
ltimo valor inicial entre 92 y 100 y supongamos que sale el 94. Al
sumarle 9 se obtiene 103, es decir nos pasamos en 3. Empezando de
nuevo se debe agregar el valor 3. La muestra final seleccionada son los
individuos numerados: 3, 6, 15, 24, 26, 35, 44, 50, 59, 68, 73, 82, 91.
Se toman muestras sistemticas con rplicas, es decir en lugar de una
muestra sistemtica se toman varias con diferentes puntos iniciales.
Ejemplo: N = 100, n = 12, se toman 4 rplicas, es decir, cada una tiene
n
0
= 3 datos. K
0
N/n = 100/3 = 33,3, k
0
=33. Los cuatro valores iniciales
se eligen al azar entre 1 y 33. Supongamos que sale el 2, el 31, el 14 y
el 22. Entonces las rplicas de las muestras contienen a los individuos
mumerados con los valores: 2, 35, 68; 31, 65, 98; 14, 47, 80; 22, 55, 88.

Correcciones en el tamao muestral:

Dependiendo de la relacin que guarden los valores en la muestra sistemtica,
se obtienen valores alternativos del tamao muestral, en base a la expresin
siguiente:
( )
2 2
2
S 8 B
2 1 S 4
n
m
m


=

Una forma para estimar el valor de es la siguiente:
( )
2
2 2
1 n 2
S

=
m
,
donde
2
es la varianza de la poblacin, la cual se puede estimar mediante una
muestra piloto aleatoria simple o bien obtener de estudios anteriores, y donde
es la varianza obtenida a partir de la muestra aleatoria sistemtica.
Claramente la estimacin de se obtiene en forma posterior a la toma de la
muestra sistematica, por lo cual ser til para un estudio posterior. Algunas
ayudas, si an no se cuenta con un valor de , son las siguientes:
2
S
m

Si los valores obtenidos en la muestra son muy parecidos, sin embargo
la variabilidad de la poblacin es mucho mayor que la de la muestra, se
evidencia que existe un comportamiento cclico o peridico. En este
caso la correlacin de la muestra es grande, y por lo tanto n crece.
Si los valores obtenidos en la muestra estn ordenados de menor a
mayor o al revs, ocurre que los valores son cada vez ms diferentes y
la variabilidad de la poblacin es igual a la de la muestra. En este caso
se evidencia un comportamiento ordenado y en este caso la correlacin
de la muestra es negativa aunque cercana a 0, y por lo tanto n decrece.
Si los valores obtenidos en la muestra varan sin un patrn y la
variabilidad de la poblacin es igual a la de la muestra, se trata de un
comportamiento aleatorio, y en este caso la correlacin de la muestra
es 0 y el tamao de la muestra es el mismo que en el caso del
muestreo aleatorio simple.

Ejercicios:

1) En la tabla anexa se presentan los datos de tasas de divorcio por cada
1000 personas en Estados Unidos para una muestra sistemtica del
siglo pasado.

Ao
Tasa de
divorcio Ao
Tasa de
divorcio
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0

a. Estime la tasa promedio de divorcio anual para el perodo 1900
1980 y establezca un lmite para el error de estimacin.
b. En este caso, es mejor el muestreo sistemtico o el muestreo
aleatorio simple?

2) Los funcionarios de cierta sociedad profesional desean determinar la
proporcin de miembros que apoyarn varias enmiendas propuestas en
las prcticas de arbitraje. Se selecciona una muestra sistemtica de 1 en
10 desde la lista en orden alfabtico de los 650 socios activos.
a. Si 48 socios en la muestra estn a favor de los cambios
propuestos, estime la proporcin de votos favorables que recibir
el proyecto, en forma puntual y por intervalo. Concluya.
b. Indique las razones por las cuales el muestreo sistemtico es o no
adecuado en este caso.

3) La tabla anexa muestra la cantidad real de faltas por turno en un mes en
cierta empresa. Suponga que no se cuenta con dicha informacin pero
se desea disear un mtodo de muestreo adecuado para recolectarla,
en el marco del cual un inspector estar presente en algunos de los
turnos tomando nota de las faltas. Se ha optado por un muestreo
sistemtico.

a. Determine el tamao de muestra adecuado para estimar el
promedio de fallas con un error mximo de 0,5 y confianza de
95% si se cree que el nmero de faltas se mueve entre 2 y 10.
b. Indique las ventajas o desventajas de este tipo de muestreo
respecto del muestreo aleatorio simple.
c. Obtenga una muestra sistemtica utilizando los hallazgos en (a).
d. Proponga dos mtodos de mejoramiento de la estimacin en (c).
e. Compare los resultados en (c) y (d) con los valores reales.

Turno Faltas Turno Faltas Turno Faltas
1 11 31 11 61 11
2 3 32 4 62 4
3 6 33 8 63 8
4 11 34 10 64 11
5 4 35 3 65 3
6 8 36 8 66 7
7 11 37 10 67 10
8 4 38 4 68 4
9 7 39 8 69 7
10 11 40 11 70 11
11 3 41 3 71 3
12 7 42 6 72 7
13 11 43 11 73 10
14 3 44 3 74 4
15 6 45 7 75 6
16 11 46 11 76 10
17 3 47 3 77 4
18 7 48 8 78 8
19 11 49 11 79 11
20 3 50 3 80 4
21 7 51 8 81 7
22 10 52 10 82 10
23 4 53 3 83 3
24 7 54 7 84 6
25 11 55 10 85 11
26 3 56 3 86 4
27 6 57 8 87 8
28 11 58 11 88 11
29 3 59 3 89 4
30 8 60 7 90 6
91 10

Tcnicas de Muestreo
Clase 8: Muestreo por Conglomerados

Introduccin:

Existen ocasiones en las cuales la poblacin a estudiar es de difcil acceso e
incluso no se conoce su tamao ni se dispone de un marco muestral; sin
embargo, existen muchos pequeos grupos dentro de ella que no deberan
diferir mayormente entre ellos (respecto de la variable de inters) y que, por
otra parte, si se encuentran al menos listados en alguna parte, por lo cual si se
considerara como unidad de muestreo a estos grupos sera ms sencillo
realizar el muestreo. En estos casos es conveniente realizar un muestreo por
conglomerados.

Definicin de Conglomerado:

Es importante diferenciar con claridad un conglomerado de un estrato. Como
vimos anteriormente, los estratos son subconjuntos de la poblacin que son
(dentro de ellos) relativamente homogneos respecto de la variable de inters,
pero diferentes unos de otros (heterogneos entre ellos). En esos casos, cada
estrato es abordado como una poblacin distinta al momento de disear el
muestreo y es muy importante que todos ellos sean representados en la
muestra, precisamente debido a sus diferencias.

Por el contrario, cuando hablamos de conglomerados, estamos frente a
subconjuntos de la poblacin con caractersticas tales que entre ellos son muy
similares (homogneos), pero donde la diversidad se presenta dentro de ellos
(heterogneos). En estos casos cada uno de los conglomerados es una
pequea copia de miniatura de la poblacin. De este hecho se deriva que:
Debido a su heterogeneidad interna, la totalidad del conglomerado
aporta informacin sobre la poblacin completa, de modo que es
conveniente incluirlos ntegramente en la muestra. En esto difiere
notablemente del muestreo estratificado, donde la similitud interna no
hace necesario incluir los estratos completos, bastan algunas unidades
para representarlos.
Debido a su tamao, el cual generalmente es reducido, pocos
conglomerados no son, en general, suficientes para realizar las
estimaciones. Los estratos tienden a ser de mayor tamao.
Debido a su similaridad, la inclusin de uno u otro en la muestra es
equivalente, por lo cual se puede seleccionar al azar a algunos de ellos.
En el caso del muestreo estratificado, por el contrario, todos los estratos
deben estar representados, pues corresponden a diferentes realidades.

Utilizacin del muestreo por Conglomerados:
El muestreo por conglomerados se utiliza cuando:
No existen estratos claramente definidos, o bien se est muestreando
dentro de ellos (en cuyo caso los estratos se estn tratando como si
fueran poblaciones).
La poblacin es grande y est conformada por pequeos subconjuntos
con las caractersticas de conglomerados.
Puede que no se cuente con un marco muestral.
Se cuenta con una lista o marco de los conglomerados.
Las distancias entre las unidades hacen que se pueda reducir
notablemente los costos si, en lugar de acceder a unidades escogidas
aleatoriamente en la poblacin se accede a todas las unidades de un
grupo de conglomerados elegidos al azar.

Notacin:

Al seleccionar una muestra por conglomerados, la unidad de muestreo es el
conglomerado, por lo que se elige al azar un nmero de n conglomerados
desde una poblacin de N conglomerados, la cual se encuentra ordenada y
numerada en un marco muestral, el cual en muchos casos es un mapa
(manzanas por ejemplo).
Es as como en este caso el nmero de individuos en la muestra corresponde
a la suma de todos los individuos en los conglomerados seleccionados.
Se denota por m
i
al nmero de elementos o individuos en el i-simo
conglomerado de la poblacin, se denota por M al nmero total de individuos
en la poblacin (valor desconocido) y por M al tamao promedio de los
conglomerados en la poblacin (tambin desconocido):
y .
Por otra parte, se denota por m al tamao promedio de los conglomerados en
la muestra (valor que se puede observar):
.
Ahora bien, el total de la variable medida en los individuos del conglomerado
i-simo se denota por y
i
, y corresponde a la suma de las mediciones en el
conglomerado, de donde el promedio de la variable y estimador de la media
corresponde a la suma de totales dividida por la suma de los tamaos. El total
de la poblacin, por su parte, sale de multiplicar el promedio por el nmero de
individuos en la poblacin.
Media :

Estimador:
,

Error estndar estimado de la media:
,

Lmite para el error de estimacin de la media:


El estimador del error estndar es insesgado si los conglomerados son de igual
tamao m y en nmero de conglomerados n es grande (n20).


Total :

Estimador:
Si se conoce el tamao de la poblacin M:
,
Si no se conoce el tamao de la poblacin M, se requiere conocer el nmero
total de conglomerados N:
,

Error estndar estimado del total:
,

Lmite para el error de estimacin del total:


Las estimaciones del total y de la media son insesgadas solamente cuando los
tamaos de los conglomerados son iguales.

Proporcin p:

Estimador:
,

donde a
i
es el nmero de individuos en el i-simo conglomerado que posee la
caracterstica de inters.

Error estndar estimado de la proporcin:
,

Lmite para el error de estimacin de la media:


El estimador de la proporcin es insesgado solamente si los conglomerados
son de igual tamao.

Clculo del tamao muestral:

El estimador de la varianza de la variable de inters
2
se denota por y se
calcula como:
= .

Media :
Si la varianza se conoce de estudios anteriores, el tamao de muestra
corresponde a:
= ,
y en caso contrario, se calcula de una muestra piloto y el tamao de muestra
corresponde a:
= .
Total :
Si la varianza se conoce el tamao de muestra corresponde a:
= ,
y en caso contrario, se calcula :
= ,
Proporcin p:
En este caso se requiere la estimacin de la varianza de la incidencia de la
caracterstica de inters por conglomerado que se denota por y el
tamao de muestra corresponde a:
= .

Muestreo por Conglomerados con probabilidades proporcionales al
tamao del conglomerado:

Es lgico que el total y
i
de un estrato guarde relacin con el tamao del mismo,
de donde, se puede asignar pesos a los estratos:
i
= que establezcan la
probabilidad de que un estrato aparezca en la muestra. Naturalmente, como se
vio en el captulo 4 (muestreo aleatorio simple), es necesario luego quitar el
peso en la estimacin dividiendo por
i
y este mtodo conduce a estimaciones
con menor error de estimacin:

Media :

Estimador:
,
con el promedio de la variable de inters en el conglomerado i-simo.

Error estndar estimado de la media:
,

Lmite para el error de estimacin de la media:




Total :

Estimador:
,

Error estndar estimado del total:
,

Lmite para el error de estimacin de la media:


Ejercicios:

1) Un politlogo desarrolla una prueba para medir el grado de conocimientos
sobre acontecimientos actuales, dado como un porcentaje. l desea estimar
el grado promedio de conocimientos en cierto colegio, pero la direccin no
permite sacar a los estudiantes seleccionados en la muestra de las clases,
aunque s permite interrumpir algunas clases realizando la prueba a cursos
completos. El nmero de cursos en el colegio es 108, el investigador
seleccion al azar a 25 de ellos y aplic la prueba a los cursos completos.
Los resultados se encuentran en la tabla anexa.


Curso
N estudiantes
en el curso
Total de las
calificaciones

Curso
N estudiantes
en el curso
Total de las
calificaciones
1

1.590 14 40 1.980
2 29 1.510 15 38 1.990
3 25 1.490 16 28 1.420
4 35 1.610 17 17 900
5 15 800 18 22 1.080
6 31 1.720 19 41 2.010
7 22 1.310 20 32 1.740
8 27 1.427 21 35 1.750
9 25 1.290 22 19 890
10 19 860 23 29 1.470
11 30 1.620 24 18 910
12 18 710 25 31 1.740
13 21 1.140

a) Estime el grado de conocimientos y el error de estimacin para los
estudiantes de la escuela analizada.
b) El politlogo desea escoger una muestra en un colegio semejante que
tiene 100 cursos. Cul debera ser el tamao muestral si se admite
error de estimacin mximo de 2 puntos y nivel de confianza del 95%?

2) Una investigacin sobre nmero de casas, nmero de residentes y nmero
de habitaciones de las casas, se basa en el estudio de 8 manzanas
escogidas al azar en una ciudad.

Manzana N de casas N de residentes N de habitaciones

1 12 40 58
2 14 39 72
3 3 12 26
4 20 52 98
5 12 37 74
6 8 33 57
7 10 41 76
8 6 14 48
a) Estime el nmero promedio de residentes por casa y el lmite para el
error de estimacin.
b) Estime el nmero promedio de habitaciones por residente y establezca
un lmite para el error de estimacin.

3) Imagine que los datos en el problema 1 corresponden a los 25 cursos de un
pequeo colegio en el cual se pretende tomar una muestra por
conglomerados para estimar el grado de conocimientos de acontecimientos
actuales en dicho colegio.

a) Calcule el tamao muestral adecuado para realizar la estimacin con un
error de estimacin mximo de 10 puntos y un 95% de confianza, si se
tiene informacin relativa a que los puntajes en general estn entre 35 y
95.
b) Realice el ejercicio utilizando la tcnica de seleccin con probabilidades
proporcionales al tamao del conglomerado, considerando el tamao
muestral en (a) y estime el grado de conocimientos en forma puntual y
por intervalos.

Vous aimerez peut-être aussi