Académique Documents
Professionnel Documents
Culture Documents
MUESTREO NO PROBABILSTICO
Sin embargo, no es sencillo cumplir con los requisitos impuestos por el muestreo
probabilstico:
(1) Disponer de un marco muestral es algo relativamente poco habitual en
estudios
de
mercado.
(2) Lograr que todos los individuos de la poblacin tengan una probabilidad no
nula de ser seleccionados es un requisito igualmente exigente, ms an conocer
la probabilidad de inclusin exacta de cada unidad muestral. Todos los individuos
que no pueden ser seleccionados en una muestra se suelen referir como unidades
fuera de cobertura.
Por todas estas razones, as como por razones de coste, los investigadores
recurren con frecuencia a otras tcnicas de muestreo, agrupadas dentro de lo que
Error de muestreo
Tal y como hemos indicado, no es posible conocer qu margen de error vamos a
tener en un estudio (por ejemplo, los resultados de una encuesta)
cuando empleamos muestreo no probabilstico. Esto incluye encuestas hechas
seleccionando a personas por la calle y entrevistndolas cara a cara, o haciendo
llamadas telefnicas al azar o a travs de una muestra obtenida en un panel
online. En ninguno de estos casos se cumplen los criterios exigidos por el
muestreo probabilstico: tener un marco muestral con unidades para las que puedo
calcular la probabilidad de que sean seleccionadas en mi muestra. En encuestas
cara a cara por la calle no tengo el listado de individuos que componen el
universo. En la encuesta telefnica, aunque disponga de un listado telefnico, no
todos los individuos tienen un telfono fijo o aparecen en las guas pblicas. En el
caso de un panel online, las personas que no acceden a internet no pueden se
seleccionadas y tienen probabilidad de inclusin nula.
Sin embargo, es habitual encontrar estudios hechos con estas tcnicas que
indican margen de error y nivel de confianza. Es una prctica formalmente
incorrecta, pero que suelen usar los investigadores con el objetivo de dar una
indicacin de la influencia que tiene el tamao muestral empleado en la precisin
de los resultados. Debera leerse como si esta muestra fuese probabilstica,
ofrecera un margen de error X.
elementos que forman el universo y que, por lo tanto, estn descritos en el marco
muestral, tienen idntica probabilidad de ser seleccionados para la muestra. Sera
algo as como hacer un sorteo justo entre los individuos del universo: asignamos a
cada persona un boleto con un nmero correlativo, introducimos los nmeros en
una urna y empezamos a extraer al azar boletos. Todos los individuos que tengan
un nmero extrado de la urna formaran la muestra. Obviamente, en la prctica
estos mtodos pueden automatizarse mediante el uso de ordenadores.
Los estratos suelen ser grupos homogneos de individuos, que a su vez son
heterogneos entre diferentes grupos. Por ejemplo, si en un estudio esperamos
encontrar un comportamiento muy diferente entre hombres y mujeres, puede ser
conveniente definir dos estratos, uno por cada sexo. Si la seleccin de estos
estratos es correcta (1) los hombres deberan comportarse de forma parecida
entre ellos, (2) las mujeres deberan comportarse de forma muy similar entre ellas
y (3) hombres y mujeres deberan mostrar comportamientos dispares entre s.
Si la anterior condicin se cumple (estratos homogneos internamente,
heterogneos entre s) el uso del muestreo aleatorio estratificado reduce el error
muestral, mejorando la precisin de nuestros resultados al realizar un estudio
sobre la muestra.
Es relativamente habitual definir estratos de acuerdo a algunas variables
caractersticas de la poblacin como son la edad, sexo, clase social o regin
geogrfica. Estas variables permiten dividir fcilmente la muestra en grupos
mutuamente excluyentes y con bastante frecuencia, permiten discriminar
comportamientos diferentes dentro de la poblacin.
Poblacin
Proporcin
Muestra
1
2
3
42,4M
37,6M
23,5M
41,0%
36,3%
22,7%
410
363
227
Poblacin
42,4M
37,6M
23,5M
Proporcin
41,0%
36,3%
22,7%
Muestra
334
333
333
Esta tcnica favorece los estratos que tienen menos peso en la poblacin,
equiparndolos en importancia a los estratos ms relevantes. Globalmente, reduce
la eficiencia de nuestra muestra (menor precisin en los resultados), pero como
contrapartida permite estudiar caractersticas particulares de cada estrato con
mayor precisin. En nuestro ejemplo, si queremos emitir alguna afirmacin
especfica sobre la poblacin del estrato 3 (mayores de 44 aos), podremos
hacerlo con menor nivel de error muestral si empleamos una muestra de 333
unidades que si lo hacemos con una muestra de 227 (como ocurra en el muestreo
estratificado proporcional).
(3) Muestreo estratificado ptimo (respecto a la desviacin estndar)
En este caso, el tamao de los estratos en la muestra no guardar
proporcionalidad con la poblacin. Por el contrario, se define el tamao de los
estratos proporcionalmente a la desviacin estndar de las variables objeto de
estudio. Es decir, se toman estratos de mayor tamao en los estratos con mayor
variabilidad interna para representar mejor en el total de la muestra los grupos
poblacionales ms difciles de estudiar.
y consideramos que todas las varianzas de los estratos son iguales ( h=) y que el
tamao de los estratos es idntico (W h=1/L), el resultado que obtenemos es
Siguiendo con nuestra serie de posts dedicados a las tcnicas de muestreo y tras
examinar el muestreo estratificado, hoy echaremos un vistazo al muestreo
sistemtico.
El primer paso para aplicar esta tcnica es definir los conglomerados. Se trata de
identificar una caracterstica que permita dividir la poblacin en grupos disjuntos
(sin solapamiento) y exhaustiva (todos los individuos deben estar en un grupo), de
tal manera que los grupos no difieran entre s en relacin a aquello que queremos
medir. Una vez hemos definido estos conglomerados, seleccionaremos al azar
algunos de ellos para estudiarlos.
Un criterio habitual para definir conglomerados es el geogrfico. Por ejemplo, si
queremos estudiar que proporcin de la poblacin argentina fuma, podemos dividir
el total de la poblacin en provincias y seleccionar algunas de ellas para ser
estudiadas. Si no tenemos razones para pensar que el % de fumadores va a
cambiar de una provincia a otra, esta solucin nos permitir concentrar el esfuerzo
de muestreo en un nico entorno geogrfico. Si el estudio se va a hacer mediante
entrevistas personales, esto representa un importante ahorro de costes de
desplazamientos.
Una vez definimos los conglomerados, el siguiente paso es seleccionar los
conglomerados a estudiar, ya sea mediante un muestreo aleatorio simple o
sistemtico.
Por ltimo, una vez hemos seleccionado los conglomerados a estudiar, podemos
investigar a todos los sujetos que forman parte de los mismos, o bien aplicar un
nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo una
muestra mediante muestreo aleatorio simple o sistemtico. Si optamos por esta
posibilidad, estaremos hablando de un muestreo en dos etapas o bietpico: la
primera etapa es la seleccin del conglomerado, la segunda la de individuos
dentro del conglomerado. Si por el contrario estudiamos todos los individuos del
conglomerado, hablaremos de muestreo por conglomerados unietpico.
Iniciamos con este post la segunda parte de nuestra serie dedicada a tcnicas de
muestreo. Esta segunda parte describir las tcnicas de muestreo no
probabilstico.
Recordemos: hablamos de muestreo no probabilstico cuando no tenemos
acceso a una lista completa de los individuos que forman la poblacin (marco
muestral) y, por lo tanto, no conocemos la probabilidad de que cada individuo sea
seleccionado para la muestra.
La principal consecuencia de esta falta de informacin es que no podremos
generalizar resultados con precisin estadstica.
El muestreo por conveniencia
Es una tcnica comnmente usada. Consiste en seleccionar una muestra de la
poblacin por el hecho de que sea accesible. Es decir, los individuos
empleados en la investigacin se seleccionan porque estn fcilmente disponibles,
no porque hayan sido seleccionados mediante un criterio estadstico. Esta
conveniencia, que se suele traducir en una gran facilidad operativa y en bajos
resultados. Los lectores del estudio tendrn que confiar en los criterios de la
seleccin hecha por el investigador.
Los estudios clnicos
No debemos ver el muestreo por conveniencia como un mtodo intil. De hecho,
es habitual su uso exitoso en muchos mbitos. Por ejemplo, los estudios clnicos
con voluntarios. En dichos estudios, se solicita a personas con ciertas
caractersticas fsicas que acudan voluntariamente para formar parte de algn tipo
de investigacin o incluso algn tratamiento. El investigador clnico que usa esta
tcnica est considerando que cualquier individuo que cumpla con una cierta
caractersticas (por ejemplo, ser diabtico) va a ser representativo del universo. O
dicho de otra manera, el hecho de que un individuo vea o no vea la solicitud de
voluntarios, acceda o no a participar, sea de una regin o de otra, etc. no va a
afectar a sus resultados en el estudio.
A diferencia del ejemplo anterior sobre estudiantes chilenos, en el caso del estudio
clnico el uso de un muestreo por conveniencia parece apropiado y no hace
pensar que se vayan a producir sesgos en los resultados. La clave est
en considerar si la conveniencia en la seleccin realmente va a representar
un sesgo.
Estudios piloto
Otro uso frecuente de este tipo de muestreo es la realizacin de un estudio piloto.
Una muestra por conveniencia en una fase inicial de un proyecto nos puede dar
informacin sobre tendencias y resultados que vamos a encontrar al usar una
muestra probabilstica. Esta informacin podemos usarla para modificar el
planteamiento del estudio antes de incurrir en una tcnica de muestreo ms
costosa.
Ventajas e inconvenientes
Dadas las caractersticas de este tipo de muestreo, sus pros y sus contras son
evidentes.
La principal virtud del muestreo por conveniencia es su conveniencia! Simple,
econmico, rpido Nos puede dar informacin valiosa en muchas
circunstancias, especialmente cuando no existen razones fundamentales que
diferencien a los individuos que tengo accesibles de los que forman el total de la
poblacin.
El principal defecto, la falta de representatividad, la imposibilidad de hacer
aseveraciones estadsticas sobre los resultados y el riesgo de incurrir en sesgos
debido al criterio de muestreo empleado. En el peor de los casos, mi muestra
conveniente puede presentar un sesgo sistemtico respecto al total de la
poblacin, lo que producira resultados distorsionados.
Margen de error y nivel de confianza
Es un tema que tratamos en un post anterior. No es correcto usar muestreo por
conveniencia y expresar los resultados del estudio indicando un margen de error y
un nivel de confianza. Sin embargo, es algo que se suele hacer.
Si optas por calcular ese margen de error, deberas indicar que no corresponde a
la muestra empleada, sino a una muestra del tamao aleatoria simple de ese
tamao. Y, en cualquier caso, siempre que usemos una muestra por conveniencia,
deberamos acompaar los resultados con una descripcin de cmo se ha
obtenido dicha muestra para que el lector valore qu credibilidad puede dar a los
resultados.
1. Segmentacin
En primer lugar, dividimos la poblacin objeto de estudio en grupos de forma
exahustiva (todos los individuos estn en un grupo) y mutuamente exclusiva (un
individuo slo puede estar en un grupo), de forma similar a la divisin en estratos
empleada en el muestreo estratificado. Normalmente esta segmentacin se hace
empleando alguna variable sociodemogrfica como sexo, edad, regin o clase
social.
2. Fijamos el tamao de las cuotas
A continuacin, fijamos el objetivo de individuos a encuestar para cada uno de
estos grupos. Normalmente definiremos estos objetivos de forma proporcional al
tamao del grupo en la poblacin. Por ejemplo, si hemos definido unos segmentos
por sexo en una poblacin en la que hay un 60% de mujeres y un 40% de
hombres, y queremos obtener una muestra de 1.000 personas, definiremos un
objetivo de 600 mujeres y 400 hombres. Estos objetivos se conocen como cuotas.
En este ejemplo, tendramos una cuota por sexo de 600 mujeres y 400 hombres.
En ocasiones se definen cuotas no proporcionales a la poblacin, por ejemplo
para poder profundizar en el anlisis de un grupo especfico.
3. Seleccin de participantes y comprobacin de cuotas
Por ltimo, se buscan participantes para cubrir cada una de las cuotas definidas.
En este punto es donde nos alejamos de un muestreo probabilstico: en el
muestreo por cuotas aceptamos que la seleccin de individuos no sea
aleatoria, puede ser una seleccin mediante muestreo por conveniencia. Por
ejemplo, en un estudio en el que hayamos definido una cuota de 100 personas
La eleccin de variables
La pregunta que nos podemos plantear es: qu variables debo escoger en un
muestreo por cuotas? cmo segmento la poblacin? Esta cuestin es un factor
clave en este tcnica.
Pensemos cual es la finalidad de usar cuotas: es lograr que la muestra sea lo
ms representativa posible del universo estudiado. Cuando definimos cuotas por
sexo y edad en una muestra, lo que garantizamos es que, independientemente de
que el mtodo de seleccin de individuos no sea puramente aleatorio, al menos la
muestra va a guardar unas proporciones idnticas al universo en cuanto a sexo y
edad.
Visto desde este punto de vista, debemos elegir para definir cuotas aquellas
variables que cumplan doscondiciones: (1) que ms puedan verse alteradas
respecto a la poblacin por el proceso de seleccin no aleatorio que empleamos, y
(2) que ms puedan incidir en el dato que queremos medir.
Veamos los dos criterios anteriores en un ejemplo concreto: una muestra obtenida
de un panel online. Supongamos que queremos medir a travs de una muestra
extrada de un panel online el % de personas que fuman en una poblacin . Qu
variables deberamos seleccionar para definir cuotas?
De
entrada,
aquellas
variables
que
pensemos
que
pueden
aparecer distorsionadas por el hecho de seleccionar la muestra en un panel
online respecto a la poblacin: por ejemplo la edad (en los paneles online suele
haber mayor proporcin de jvenes que en la poblacin) y clase social (los
paneles tienen dificultades para captar personas de clases bajas, especialmente
en Amrica Latina).
Podramos prescindir de cuotas de regin. Los paneles online no suelen captar
en una regin concreta, sino que captan a travs de medios online que son
accesibles desde cualquier regin. Salvo que estemos en un pas con grandes
diferencias entre regiones a nivel socioeconmico, no sera necesario. Si, adems,
no esperamos que haya diferencias en el hbito de fumar por regiones, no tendra
ningn beneficio forzar una cuota de este tipo.
Si atendemos al segundo criterio (cuotas que puedan afectar al resultado medido),
podramos optar por aadir una cuota de sexo: el hbito de fumar suele variar
entre hombres y mujeres y, salvo que trabajemos con un panel en el que nos
garanticen que la composicin por sexo es perfecta, es recomendable controlar
esta cuota tambin.
Ventajas e inconvenientes
La principal ventaja del muestreo por cuotas es que ofrece resultados tiles a un
coste efectivo y, si se han elegido correctamente las variables sobre las que
segmentar, dichos resultados suelen ser fiables.
Los principales inconvenientes son dos: (1) la imposibilidad de acotar el error que
estamos cometiendo al usar este tipo de muestreo y (2) el riesgo de obviar una
cuota relevante en un estudio. Por ejemplo, si en un estudio electoral no fijamos
una cuota por regiones y resulta que la tendencia de voto es muy diferente en
unas regiones respecto a otras, los resultados globales estarn fuertemente
distorsionados.
Errores frecuentes al usar cuotas en Internet
El muesteo por cuotas es muy popular. La mayor parte de estudios telefnicos y
personales, ante la falta de un marco muestral preciso (como podra ser un censo
de poblacin) emplean cuotas para asegurar un nivel de representatividad
aceptable. Esta tcnica tambin predomina en estudios online a travs de paneles.
Sin embargo, el medio online tiene sus particularidades y es frecuente que
algunos investigadores no las tengan en cuenta, limitndose a reproducir tcnicas
empleadas en medios offline. Esta prctica puede producir resultados de menor
calidad y en algunos casos mayores costes.
Algunos ejemplos:
Cuotas geogrficas
mejores datos y a menor coste, ya que podemos usar todo el panel para obtener
resultados.
Cuotas por clase social
* En offlinela clase social no suele considerarse una cuota clave en los pases
europeos y en Norteamrica, al menos no en todos los estudios. Las diferencias
entre clases sociales existen pero no son tan profundas como en otras regiones
como Latinoamrica. Justamente en esta ltima zona, al recolectar los datos
mediante entrevista personal, las clases sociales altas son de difcil acceso
mientras que las clases sociales bajas son ms simples de obtener.
* En online la clase social es ms relevante que en offline, especialmente en
pases con una adopcin de Internet media o baja. Curiosamente, en estos pases
la situacin en Internet es inversa a la situacin offline: es ms fcil acceder a
clases altas en Latinoamrica a travs de Internet y es muy difcil acceder a clases
bajas.
Proceso
El proceso de creacin de una muestra mediante bola de nieve se fundamenta en
usar la red social de unos individuos iniciales para acceder a un colectivo.
Podramos dividir este proceso en los siguientes pasos:
Otras consideraciones
Sin duda, el principal problema de la bola de nieve es el riesgo de sesgos de
comunidad: accedemos a un subgrupo de individuos dentro de nuestro target y
el reclutamiento de nuevos miembros no logra salir de ese subgrupo. El nico
remedio contra este mal es hacer una buena seleccin inicial de individuos, que
nos garantice que cualquier subgrupo existente sea accesible en la red de
contactos de los individuos iniciales.
Cabe destacar que esta tcnica muchas veces es la nica posible cuando nos
dirigimos a colectivos reducidos en los que no es posible tener un marco muestral.
Es por ellos que muchos investigadores trabajan en perfeccionar la tcnica para
corregir sus sesgos. En concreto, una de las tcnicas ms prometedores en las
que se trabaja se conoce como Respondent Driven Sampling, un sistema que trata
de corregir mediante un modelo matemtico los posibles sesgos introducidos en la
seleccin de individuos.