Vous êtes sur la page 1sur 3

Titre : Construction d’un échantillon

Intervenant : Marthe-Aline Jutand

Bonjour,

L’objectif de cette séance est de vous présenter les différents processus de sélection des
échantillons.

La définition proposée par le Larousse du terme échantillon est « ensemble représentatif d’une
« population-mère » possédant les mêmes caractéristiques ». Nous pouvons pour cela penser
aux échantillons géologiques, aux coupons de tissus, aux échantillons biologiques mais aussi
aux échantillons d’individus. Cependant, cette définition peut être comprise de manières bien
différentes, car que signifie finalement « posséder les mêmes caractéristiques » ? Ce qui est
important c’est d’obtenir un sous-ensemble permettant de prévoir les informations inconnues
de la population-source.

Un échantillon correspond au résultat obtenu suite à la réalisation d’un échantillonnage,


l’échantillonnage étant la procédure de sélection faite à partir de la population-source. Cette
procédure peut être soit aléatoire c’est-à-dire que chaque unité statistique de la population est
incluse dans l’échantillon suite à un tirage au sort que l’on peut imaginer comme étant le
résultat d’un lancer de dé, ou non aléatoire, appelé aussi empirique c’est-à-dire que
l’échantillon se construit par inclusion choisie par l’enquêté ou l’enquêteur. Il n’y a alors pas
de hasard.

Lors d’un échantillonnage aléatoire, toute personne de la population source a une chance
d’être incluse dans l’échantillon. Par contre dans le cas d’un échantillonnage non aléatoire,
certaines personnes n’ont aucune chance d’être sélectionnées.

Parmi les sélections non aléatoires, nous pouvons tout d’abord parler de la sélection par
volontariat, cela signifie que les unités se sélectionnent elles-mêmes.
L’étude i-Share correspond tout à fait à une situation d’inclusion par volontariat. En effet,
une communication est réalisée pour indiquer qu’une grande étude sur la santé des
étudiants est lancée, et ce sont les étudiants qui doivent eux–mêmes prendre contact pour y
participer.
Ce type de sélection est éthique, puisqu’elle laisse la possibilité aux personnes le souhaitant
de participer ou non. Cependant, le problème est qu’il est difficile de mesurer la différence
pouvant exister entre les personnes volontaires et l’ensemble de la population source initiale :
est-ce que les personnes volontaires pour participer à une enquête auront le même type de
réponse que le reste de la population ? Il est impossible de répondre à cette question de
manière générale, car la réponse dépendra certainement du sujet de l’enquête et aussi de la
manière de solliciter les personnes pour y participer.

Une autre méthode non aléatoire est la méthode des quotas, qui consiste à construire un
échantillon comme un modèle réduit de la population selon certaines caractéristiques. Elle est
très utilisée car elle est plus rapide et moins couteuse que les méthodes aléatoires présentées
dans la suite. Malheureusement, elle est souvent moins fiable. Mais de quoi s’agit-il

MOOC PoP-HealtH 1
exactement ? Supposons que notre population soit composée de trois profils, il y a 30% des
personnes avec des loupes bleues, 20% avec des loupes vertes et 50% avec des loupes jaunes.
Le constructeur de l’échantillon choisit de manière arbitraire 10 personnes en conservant la
même répartition. Il prend donc 3 personnes ayant une loupe bleue, car cela correspond à 30%
de 10, puis 2 personnes ayant une loupe verte et enfin 5 personnes ayant une loupe jaune. Le
choix peut donc être laissé au bon vouloir de l’enquêteur dès lors qu’il respecte dans son
échantillon la répartition connue de la population.
Nous vous proposons comme exemple « le Baromètre de l’équité en santé 2016 », enquête
réalisée par l’Institut BVA, institut d’études de marché et d’opinion. Cette enquête avait
pour objectif la connaissance des français quant à la problématique de la sédentarité et du
manque d’activité physique. Pour cette enquête, 1 007 personnes ont été enquêtées, selon
la méthode des quotas, selon le sexe, l’âge, la profession de l’interviewé, la région de
résidence et la catégorie d’agglomération. Cela signifie donc que, pour chacune de ces
informations, l’échantillon avait la même répartition que la population française des plus
de 18 ans.

Nous allons maintenant nous attarder sur les procédures de sélection aléatoire qui sont, si
possible, à privilégier dans les enquêtes pour ne pas induire des biais de sélection et laisser le
hasard faire les choses.

Nous débuterons par la méthode de sélection aléatoire simple.


Considérons une enquête ayant pour objectif de décrire l’état de santé bucco-dentaire chez
les élèves en primaire en Eure-et-Loir. S’il est possible d’obtenir la liste des 30 000 élèves
inscrits, c’est-à-dire la liste de la population source appelée base de sondage, nous
pouvons alors imaginer sélectionner 1 000 noms d’élèves dans cette liste par sélection
aléatoire simple.
Il s’agit de sélectionner un échantillon directement au sein de la population source et de
donner une chance identique d’être sélectionnée à toutes les unités statistiques.
Considérons une population dont l’effectif est noté N. On parle aussi de taille de la
population. Ici, N est égal à 50. Si la taille n souhaitée pour l’échantillon est 6, il faudra
réaliser n tirages successifs, donc ici 6, d’une unité dans la population source pour obtenir
l’échantillon. Nous pouvons prendre comme image le fait de pêcher dans la population six
fois sans voir le contenu de la population, c’est-à-dire en aveugle.
Cette méthode de sélection peut malheureusement conduire à la sélection d’un échantillon au
sein duquel toutes les variétés ne seraient pas représentées. Ici par exemple, les Mister Gilles
avec une loupe bleue ne sont pas représentés. Nous appelons taux de sondage ou fraction de
sondage le rapport entre l’effectif de l’échantillon et l’effectif de la population.

Afin de s’assurer qu’au sein de l’échantillon on retrouve la diversité de la population selon


certaines caractéristiques, on peut décider de forcer la présence d’unités statistiques des
différents profils souhaités : il s’agira alors de réaliser une sélection aléatoire stratifiée.
Dans le cas de l’enquête sur la santé bucco-dentaire, il semble important de pouvoir
s’assurer que l’échantillon sera composé d’enfants des différents âges de 6 ans à 12 ans. Il
peut donc être décidé de stratifier sur l’âge ou sur le niveau scolaire.
Une strate est donc un ensemble d’unités possédant au moins une caractéristique commune
qui pourrait avoir une influence sur les résultats de l’enquête. La procédure pour réaliser une
sélection aléatoire stratifiée se déroule donc de la manière suivante. Il s’agit tout d’abord de
classer les unités de la population selon une catégorisation choisie. Ici nous choisirons de
classer nos Mister Gilles selon la couleur de leur loupe, donc en 4 sous-populations. Chaque
sous-population correspond à une strate. Puis, dans chaque strate, un échantillonnage aléatoire

MOOC PoP-HealtH 2
sera réalisé. La réunion des 4 échantillons constituera ainsi l’échantillon final. La procédure
d’échantillonnage stratifiée permet d’assurer la présence des différents profils selon la
caractéristique choisie, et ainsi d’assurer une meilleure représentativité de la population
source sur cette caractéristique.
Comme nous venons de le voir, la stratification lors de l’échantillonnage a beaucoup d’attraits
pour améliorer le sondage. Cependant sa mise en œuvre peut compliquer la sélection, voire la
rendre impossible.

La sélection aléatoire en grappes est, quant à elle, souvent utilisée pour simplifier la mise en
œuvre de l’enquête. Dans certaines situations, il est en effet impossible de sélectionner
directement les unités statistiques, et il est nécessaire de sélectionner des groupes d’unités
statistiques, qui sont appelés grappes.
Reprenons l’exemple de la santé bucco-dentaire chez les élèves d’écoles primaires du
département d’Eure-et-Loir, les deux méthodes précédentes peuvent nécessiter de
nombreux déplacements au sein du département en raison de la dispersion géographique
des écoles dans ce département. Pour éviter cela, on souhaite concentrer l’enquête sur
certaines écoles. Chaque élève appartient à une et une seule école primaire. Faire un
sondage en grappes pour cette enquête consiste à tirer au sort un échantillon d’école dans
la liste des écoles d’Eure-et-Loir, puis à enquêter auprès de tous les élèves des écoles
sélectionnées. On dira alors qu’une école est une grappe d’élèves.

On appelle donc grappe un sous-ensemble de la population source.

On réalise donc un échantillon de grappes, et de fait un échantillon d’unités statistiques. Par


cette méthode, il est beaucoup plus rapide de sélectionner un nombre important d’unités
statistiques, car une grappe sélectionnée permet d’inclure non pas une unité statistique mais
un ensemble d’unités statistiques. Il s’agit donc d’une méthode pouvant être beaucoup plus
rapide lors de la mise en œuvre. Cependant la population source est construite en groupes
d’unités qui existent en amont de l’enquête, et il est donc difficile d’évaluer le niveau de
ressemblance au sein des grappes, car comme le dit le dicton « qui se ressemblent
s’assemblent ». Ainsi dans notre exemple, les grappes étaient les écoles et les élèves d’une
école ont souvent des points de ressemblances en termes socio-démographiques et
économiques. Ce dernier point est un élément qui explique le fait de devoir sélectionner un
nombre important de grappes pour conserver l’hétérogénéité de la population.

En résumé, il y a deux grandes familles de sélection : non aléatoire et aléatoire. Parmi les
sélections non aléatoires, nous pouvons retenir l’échantillon de volontaires et la méthode des
quotas. Parmi les sélections aléatoires, nous pouvons retenir la sélection aléatoire simple, la
sélection stratifiée et la sélection en grappes.

Nous terminons donc cette présentation succincte des différents modes de sélection.

Et nous vous disons à bientôt sur le MOOC PoP-HealtH.

MOOC PoP-HealtH 3

Vous aimerez peut-être aussi