Vous êtes sur la page 1sur 4

Clase 7 Muestreo Estratificado.

Motivación:
Situación 1
Supongamos que se desea determinar el ingreso promedio de la población de
ingenieros/profesores de Lenguaje graduados de una universidad particular y se desea
comparar dichos ingresos promedios para hombres y mujeres. Se dispone de recursos
para encuestar a 100 individuos egresados de cada carrera.
Si se toma una muestra aleatoria simple de tamaño 100 de los graduados ingenieros es
bastante probable que en dicha muestra aparezcan pocas mujeres y lo contrario suceda
en la muestra de profesores. En este caso en la población objetivo existen dos grupos
claramente distinguibles donde la variable de interés (ingreso) puede estar relacionada
con la pertenencia a cada grupo. Para determinar con precisión el ingreso medio de cada
profesión por género se hace recomendable muestrear dentro de cada grupo. Esa
intuición se plasma en el muestreo estratificado

Generalizando se considera que la población objetivo esta particionada1 en grupos o


estratos de manera que cada unidad de la población pertenece a un y solo un
grupo/estrato. Así denotaremos yij al valor de la variable de interés medida en la unidad
i que pertenece al grupo/estrato j. Si consideramos que existen L grupos/estratos, ya que
cada unidad pertenece a un y sólo un grupo/estrato se puede escribir:
L Mj L Mj Mj

    yij   j ; j   yij ;  j  y
j
Mj  1
Mj ij
j 1 i 1 j 1 i 1 i 1

Donde se observa que cada grupo/estrato contiene a Mj unidades de la población.


Se deduce que se cumple
L L

 j M j j L

M j j
 
N
 j 1
N
 j 1
N N
j 1

Se observa que el total poblacional  es la suma de los totales de los distintos


grupos/estratos j, pero que la media poblacional  es un promedio ponderado2 de los
distintos promedios grupales o de estratos j.

También la existencia de los grupos/estratos se puede plasmar en la variabilidad


poblacional 2
N L M L Mj

( N  1) 2   ( y k   ) 2    ( y ij   ) 2   ( yij   j   j   ) 2
k 1 j 1 i 1 j 1 i 1

Si llamamos a j a la variabilidad del grupo/estrato j y la definimos como


Mj
 2j  1
M j 1 (y
i 1
ij   j )2

1
Consideraremos el sentido matemático de partición: colección de conjuntos cuya unión forma a toda la
población pero la intersección de cada par de dichos conjuntos es vacia.
2
Cuyo ponderador es la proporción del tamaño total que representa el grupo.
Se puede probar que
L L
2  1
N 1 [ ( M j  1) 2j   M j (  j   ) 2 ]
j 1 j 1

Caso 1
Muestreo Aleatorio Simple en cada grupo/estrato: Muestreo Estratificado
Aleatorio Simple

Si se considera que dentro de cada grupo se extraen un número nj de unidades bajo


m.a.s. y de manera independiente un estimador insesgado para la media poblacional y
el total poblacional son

L L
ˆest  ˆ j ;ˆ j  M j  yij ;ˆ est  ˆest  
M
1
nj
1
N N
j
yj
j 1 imuestra j 1

Usando la independencia y las fórmulas para m.a.s. se obtienen las varianzas siguientes:
L L
Var (ˆest )   N j (
N j n j Mj M j  n j  2j
nj  2j Var ( ˆ est )  N )2 Mj nj
j 1 j 1

Claramente esto valores poblacionales se estiman reemplazando la variabilidad del


nj

grupo/estrato j:  por la variabilidad muestral s 


2
j
2
j
1
n j 1 (y
iMuestra j
ij  y j )2

Caso 2
Muestreo con distinta probabilidad en cada grupo.

Dentro de cada grupo las unidades se pueden escoger con distinta probabilidad.
Esto impacta en la forma del estimador y su varianza.

Si se utiliza un diseño de Hansen Hurwitz para la selección de unidades dentro de cada


grupo con nj extracciones se recuerda que el estimador apropiado del total es:

nj L

 ;ˆestP  ˆ jP
yij
ˆ jP  1
nj pij
i 1 j 1

Ejercicio
 Determine su varianza y el estimador de la varianza insesgado
 Determinar el estimador de la media poblacional correspondiente a este diseño
 Determine la varianza del estimador de la media poblacional bajo este diseño y
el estimador de la varianza insesgado para este diseño.

¿Cómo se determina cuantas unidades se muestrean dentro de cada grupo?


Problema de alocación/asignación/afijación
Si se tienen “suficientes recursos” bajo m.a.s dentro de cada grupo se puede utilizar la
determinación del tamaño de muestra ya calculada. En ese caso basta con determinar el
error permitido y la confianza que se desea alcanzar para cada grupo/estrato

Cuando los recursos son escasos en general se debe cumplir una restricción que indica
que solamente se puede medir un total de n unidades de la población. Se plantean varias
situaciones de acuerdo a la información disponible:

 Cada estrato tiene mismo tamaño3 y se desconoce otra información disponible


sobre la población. En este caso se sugiere
n j  Ln
 Se conoce el tamaño de los estratos Mj solamente. En este caso se sugiere
asignar tamaños de muestras proporcionales al tamaño de la población. Esta
asignación se conoce como asignación/afijación proporcional
nM j
nj  N
 Se conocen el tamaño y la variabilidad 4 de los grupos/estratos. En este caso se
puede establecer un problema de optimización: Encontrar los nj tales que la
varianza del estimador final sea mínima sujeto a que el número total de
unidades sea n. Esta afijación recibe el nombre de Afijación óptima o de
Neymann.
nM j 
nj  L
j

 M k k
k 1

 Bajo las misma condiciones anteriores pero cuando el costo de medir las
unidades varía según grupo/estrato la fórmula anterior se modifica introduciendo
el costo unitario de medir una unidad en el grupo/estrato j es Cj y considerando
un costo total C que satisface
L
C  c0   c j n j
j 1

( C cO ) M j j / c j
nj  L
 M k k ck
k 1

Intervalos de Confianza:

Como sabemos para construir un IC para un parámetro poblacional (µ o ) se debe


conocer la distribución estadística del estimador que se está utilizando. Recordando los

3
En la práctica se puede desconocer el tamaño de los grupos/estratos
4
O se puede estimar
resultados para m.a.s. se sabe que cada ˆ j se distribuye aproximadamente normal esto
( M , n j )
es ˆ j  N ( j ; M j nj  2j )
Luego la suma de estos estimadores también tendrá distribución normal con la
esperanza y varianza que correspondan si cada tamaño muestral nj es superior a 30
unidades. Un intervalo de confianza para  basándose en ˆest queda como
ˆest  z1  Var (ˆest )
2

Si las variabilidades  s desconocen y se estiman usando s j el cuantíl de la normal


2 2
j

debe reemplazarse por el cuantil de una distribución t-Student de n-d grados de libertad
donde
L
(  a j 2j ) 2 L
;n  nj
M j n j
:d  ;aj  M j
j 1
L ( a  2 )2 nj

j j
n j 1 j 1
j 1

Claramente es muy probable que d no sea un entero. Este cálculo proviene de una
aproximación llamada de Sattertwhaite. Notemos que si los tamaños muestrales por
estratos nj y los tamaños de estrato Mj son todos iguales no es necesario efectuar la
aproximación y se obtiene que d = n – L, con n el tamaño total de muestra n = njL.