Vous êtes sur la page 1sur 9

Chapitre 4 : ECHANTILLONNAGE ET

CONCEPTION DU QUESTIONNAIRE
Partie 1 / Echantillonnage
BENSGHIR AFAF

Lors de la phase de planification d’une étude statistique, il nous faut décider si


on veut établir un recensement ou une enquête par échantillon et cela dépendra
essentiellement du budget, du délai, et de l’objectif de l’enquête lui-même.

Si la décision est une enquête par échantillon, on doit donc prévoir comment on
va sélectionner notre échantillon, c’est ce qu’on appelle : échantillonnage.

L’échantillonnage est un moyen de sélectionner un sous-ensemble d’unités


dans une population aux fins de la collecte de l’information sur ces unités
pour formuler des inférences sur l’ensemble de la population.

1. L’échantillonnage.

Il existe deux types de méthode d’échantillonnage : les méthodes probabilistes,


et les méthodes non probabilistes (ou empiriques).

Dans l’échantillonnage non probabiliste, une méthode subjective de sélection


des unités est appliquée à la population. C’est un moyen rapide, facile.
Cependant, si on veut formuler des inférences au sujet de la population à partir
de l’échantillon, l’analyste des données doit supposer que l’échantillon est
représentatif de la population globale. Cette supposition est souvent risquée si
l’échantillon est non probabiliste.

L’échantillonnage probabiliste, comprend la sélection d’unités dans la


population étudiée selon le principe du choix aléatoire ou au hasard.
L’échantillonnage probabiliste exige l’existence d’une base de données avec
liste exhaustive de toutes les unités statistiques, on peut prélever au hasard parmi
elle des unités de sondage et constituer ainsi l’échantillon souhaité. Chaque unité
de cette base dans ce cas a une probabilité connue non nulle d’être sélectionné.

L’échantillonnage probabiliste est plus complexe, demande davantage de temps


et coûte habituellement plus cher que l’échantillonnage non probabiliste. Étant
donné que les unités de la population sont sélectionnées au hasard, et que la
probabilité d’inclusion de chaque unité peut être calculée, il est cependant
possible de faire des estimations fiables, ainsi que des estimations de l’erreur
d’échantillonnage, et de formuler des inférences au sujet de la population.
1.1. L’échantillonnage probabiliste.

L’échantillonnage probabiliste est une méthode qui permet de formuler des


inférences sur la population, compte tenu des observations tirées de
l’échantillon. Celui-ci devrait être libre de tout biais de sélection pour formuler
les inférences. L’échantillonnage probabiliste évite ce biais par la sélection
aléatoire d’unités de la population (à l’aide d’un ordinateur ou d’un tableau de
nombres aléatoires). Il ne faut pas oublier que le terme aléatoire ne signifie pas
arbitraire. En particulier, les intervieweurs ne choisissent pas arbitrairement les
répondants parce que leur biais personnel aurait des répercussions sur
l’échantillonnage. Le terme aléatoire signifie que la sélection n’est pas biaisée,
c’est un tirage au sort. L’échantillonnage probabiliste ne permet pas à
l’intervieweur de décider subjectivement qui doit être choisi.

Voici les deux principaux critères de l’échantillonnage probabiliste : la sélection


des unités est aléatoire, toutes les unités de la population de l’enquête ont une
probabilité d’inclusion différente de zéro dans l’échantillon et il est possible de
calculer ces probabilités. Il n’est pas nécessaire que toutes les unités aient la
même probabilité d’inclusion et, en fait, dans les enquêtes les plus complexes, la
probabilité d’inclusion varie d’une unité à l’autre.

Il y a de nombreux types différents de plans d’échantillonnage probabiliste. Le


plus élémentaire est l’échantillonnage aléatoire simple et la complexité des plans
s’accentue ensuite pour englober l’échantillonnage systématique,
l’échantillonnage avec probabilité proportionnelle à la taille, l’échantillonnage
par grappes, l’échantillonnage stratifié, l’échantillonnage à plusieurs degrés,
l’échantillonnage à plusieurs phases et l’échantillonnage par répliques. Chacune
de ces techniques d’échantillonnage est utile dans différentes situations. Si
l’objectif de l’enquête est simplement d’obtenir des estimations de la population
en général, et si la stratification serait inappropriée ou impossible,
l’échantillonnage aléatoire simple pourrait alors être le meilleur choix. Si le coût
de la collecte des données de l’enquête est élevé et si les ressources sont
disponibles, l’échantillonnage par grappes est souvent le choix. Si des
estimations de sous-populations sont aussi demandées (p. ex., des estimations
par province, groupe d’âge ou taille d’entreprise), l’échantillonnage stratifié est
habituellement appliqué.

1.1.1. Echantillonnage aléatoire simple. (EAS)


L’échantillonnage aléatoire simple (EAS) est le point de départ de tout plan
d’échantillonnage Probabiliste, A partir de la base de sondage retenu, on
organise un tirage au sort. Et cela de deux manières :

A/ Soit par tirage systématique : cette méthode très simple ne peut être utilisée
que si les unités de la liste sont classées de manière aléatoire. C’est une méthode
de sélection en une étape qui garantit que chaque échantillon possible de taille n
a une chance égale d’être sélectionné. Chaque unité de l’échantillon a donc la
même probabilité d’inclusion. Cette probabilité, π, est égale à n/N, où N est le
nombre d’unités dans la population étudiée.
• Exemple : si N taille de la population est égale à 1000, si n taille de
l’échantillon souhaitée, le taux de sondage n/N est égale à 100/1000 soit
1/10, on procède de la façon suivante : on tire d’abord au hasard la
première unité comprise entre la première et la deuxième place (hypothèse
3) on sélectionne ensuite les unités à interroger qui sont dans ce cas les 3e,
13e,23e,… jusqu’à arriver à 100unités.

B/Soit au moyen d’une table de nombre au hasard :


Extrait de la table de nombre au hasard, exemple d’utilisation :

13100, 63933, 07302, 89521, 07910, 03230, 17163, 13913, 83881,


42522, 98505, 42693, 34714, 41842, 12051, 05483, 11279, 45705,
10644, 17043, 04274, 62158, 63966, 36968, 05792, 14755, 91042,
78940, 55215, 92301, 68619, 63767, 65875, 39595, 78211, 45903,
52216, 29857, 14521, 79177, 95177, 95445, 76259, 32635, 45960,
62614, 40656, 62956, 93663, 40034, 49455
Pour extraire 200 noms d’un fichier de 9000 entreprises, il convient :
• Numéroter chaque entreprise de 000 à 8999 ;
• Choisir au hasard dans la table une ligne et une colonne par exemple 3e
ligne première colonne ;
• De lire par groupe de 4 chiffre les nombres sélectionnés de gauche à
droite.
Dans tel exemple, on retient donc les entreprises ayant les numéros :
1064, 4170, 4304, 2746, 2158, 6993, 3962, 6805, 7921, 4755,…..
Les numéros qui pourraient se répéter sont simplement éliminés.

1.1.2. Echantillonnage stratifié .

Ce type de sondage est souvent utilisé lorsque la population mère est divisible
en groupe homogène (appelé strate), dans chaque strate définie préalablement
on réalise un sondage aléatoire. L’addition de ses sous échantillons va constituer
l’échantillon total.
Trois principales raisons justifient la stratification. Premièrement, elle permet
d’obtenir une stratégie d’échantillonnage plus efficiente que celle de l’EAS ou
du SYS. Deuxièmement, elle donne des tailles d’échantillon suffisantes pour des
domaines d’intérêt en particulier qui motivent l’analyse à effectuer.
Troisièmement, elle aide à éviter de tirer un « mauvais » échantillon.

Il faut observer une forte homogénéité dans une strate (c.-à-d. que les unités
d’une strate devraient être semblables quant à la variable d’intérêt) pour
améliorer l’efficience statistique d’une stratégie d’échantillonnage de l’EAS et
les strates elles-mêmes doivent être différentes le plus possible (quant à la même
variable d’intérêt). On peut généralement obtenir ce résultat si les variables de la
stratification sont corrélées avec la variable d’intérêt de l’enquête.

Exemple : dans un fichier de 1000 entreprises clientes par exemple que


l’on veut sonder, on définit d’abord 3 strates distinctes : les petits clients,
les moyens clients et les gros clients, puis dans chacune des strates on
pratique un tirage au hasard.
Il existe deux types de sondage stratifié :
• Le sondage stratifié proportionnel : où le taux de sondage par strate est
identique, exemple : on veut constituer un échantillon de 100 entreprise
parmi une liste de 1000, taux de sondage 1/10 et la répartition est la
suivante :
600 entreprises petits clients
300 entreprises moyens clients
100 entreprises gros clients.
On prélève au hasard 60 petits clients, 30 moyens clients et 10 gros clients.
• Le sondage stratifié non proportionnel : (appelé aussi sondage à
fraction sondée variable), cette méthode consiste à appliquer un taux de
sondage différent pour chacune des strates définis préalablement, elle est
utilisée lorsque la population mère est hétérogène (c’est le cas pour les
enquêtes au milieu industriel, ou des différences de taille d’activité de
chiffres d’affaires parmi les entreprises à interroger, on peut appliquer aux
grandes entreprises un taux de sondage supérieur à celui appliquer aux
petite entreprises.

1.1.3. Le sondage en grappes

Cette méthode consiste à choisir aléatoirement des sous groupes (appelés


grappes) parmi la population mère est à interroger toutes les unités de chaque
grappe : le nombre de grappe doit être au minimum 30, lorsque les grappes
soient constituées de zones géographiques, le sondage est dit aréolaire, il
consiste à découper le territoire ou l’enquête est menée en quartier ou zone de
taille équivalente, puis à procéder au tirage au hasard de ses quartiers, il suffit
ensuite d’établir la liste des unités statistiques y résidants et de les interroger
tous.

L’échantillonnage par grappes est habituellement une stratégie


d’échantillonnage statistiquement moins efficiente que l’EAS et elle est
appliquée pour plusieurs raisons. Premièrement, l’échantillonnage par grappes
peut réduire énormément le coût de la collecte, surtout si la population est
largement dispersée et si on a recours à des interviews sur place. Deuxièmement,
il n’est pas toujours pratique d’échantillonner des unités distinctes de la
population. Il est parfois plus facile de faire l’échantillonnage de groupes
d’unités de la population (p. ex., ménages complets).

Donc L’échantillonnage par grappes est un processus en deux étapes.


Premièrement, la population est regroupée en grappes (il peut s’agir de grappes
naturelles, p. ex., ménages, écoles). La deuxième étape est la sélection d’un
échantillon de grappes et l’interview de toutes les unités des grappes
sélectionnées.

1.1.4. Le sondage à plusieurs degrés (ou par étape)

Nos considérations ont été axées jusqu’à maintenant sur les plans
d’échantillonnage à un degré. L’échantillonnage à plusieurs degrés est le
processus de sélection d’un échantillon à deux degrés successifs ou plus. Les
unités sélectionnées au premier degré sont intitulées unités primaires
d’échantillonnage (UPÉ), les unités sélectionnées au deuxième degré sont
intitulées unités secondaires d’échantillonnage (USÉ), etc. Les unités à chaque
degré ont une structure différente et sont hiérarchiques.
Les échantillons à plusieurs degrés peuvent avoir n’importe quel nombre de
degrés, mais, étant donné que la complexité du plan (et de l’estimation)
augmente avec le nombre de degrés, les plans d’échantillonnage sont souvent
restreints à deux ou trois degrés.

Pour cette méthode, au lieu de tirer au sort par exemple 500 entreprises dans une
population de 25000, on regroupera ces entreprises par départements, et on tirera
au sort un certain nombre de départements, puis dans chacun des départements,
on effectuera un nouveau tirage au sort dans la liste des entreprises de ces
départements.

1.1.5. Échantillonnage à plusieurs phases ;

Les appellations se ressemblent, mais l’échantillonnage à plusieurs phases est


très différent de l’échantillonnage à plusieurs degrés. L’échantillonnage à
plusieurs phases comprend aussi la sélection de deux échantillons ou plus, mais
les échantillons sont tirés de la même base et les unités ont la même structure à
chaque phase. La collecte pour l’échantillon à plusieurs phases cible surtout
l’information d’un large échantillon d’unités et ensuite, l’information plus
détaillée pour un sous-échantillon de ces unités.
L’échantillonnage à plusieurs phases le plus commun est l’échantillonnage à
deux phases (ou échantillonnage double), mais trois phases ou plus sont aussi
possibles. Plus il y a de phases, cependant, plus les estimations et le plan
d’échantillonnage sont complexes, tout comme dans l’échantillonnage à
plusieurs degrés.

L’échantillonnage à plusieurs phases est utile lorsque la base de sondage


manque d’information auxiliaire qui pourrait servir à stratifier la population ou à
en retrancher une partie. Supposons, par exemple, que l’on ait besoin
d’information sur les éleveurs de bovins, mais la base de sondage comprend
seulement une liste d’exploitations agricoles, sans information auxiliaire. On
pourrait procéder à une enquête simple en posant seulement une question : «
Votre exploitation agricole est-elle axée, en tout ou en partie, sur l’élevage de
bovins? » Cette enquête à une seule question devrait coûter très peu par
interview (surtout si elle est faite au téléphone) et l’organisme devrait donc
pouvoir obtenir un important échantillon. Lorsque le premier échantillon est tiré,
un deuxième échantillon plus petit peut être sélectionné dans la population des
éleveurs de bovins et vous pouvez leur poser des questions plus détaillées.

L’échantillonnage à plusieurs phases peut aussi servir à la collecte de


l’information plus détaillée à partir d’un sous-échantillon lorsque le budget n’est
pas suffisant pour obtenir de l’information de tout l’échantillon ou lorsque le
fardeau de réponse serait excessif.

L’échantillonnage à plusieurs phases peut aussi servir lorsque les frais de


collecte des données sont très différents pour diverses questions d’une enquête.
Considérons une enquête sur la santé qui pose des questions élémentaires sur le
régime alimentaire, le tabagisme, l’exercice et la consommation d’alcool.
Supposons de plus que les enquêteurs demandent aux répondants de se prêter à
certaines mesures directes, notamment, faire prendre une mesure de leur tension
artérielle et de leur taux de cholestérol. Poser quelques questions coûte
relativement peu, mais les examens médicaux demandent le temps d’un
praticien formé en soins de santé et l’utilisation d’un laboratoire équipé qui
coûtent relativement cher. L’enquête peut être faite à l’aide d’un échantillon à
deux phases, les questions élémentaires sont posées à la première phase et les
mesures directes sont prises seulement auprès de l’échantillon plus petit de la
deuxième phase.
1.2. Échantillonnage non probabiliste

L’échantillonnage non probabiliste est un moyen de sélectionner des unités


d’une population à l’aide d’une méthode subjective (c.-à-d. non aléatoire). Il
n’est pas nécessaire d’avoir une base de sondage complète pour
l’échantillonnage non probabiliste qui est donc un moyen rapide, facile et bon
marché d’obtenir des données. L’échantillonnage non probabiliste pose un
problème : il n’est pas évident qu’il est possible de généraliser et d’appliquer les
résultats de l’échantillon à toute la population. La raison de cette constatation est
que la sélection d’unités dans une population pour un échantillon non
probabiliste peut donner des biais d’importance.

Donc, contrairement aux méthodes probabilistes qui utilisent des listes dans
lesquelles on prélève aléatoirement des unités d’échantillon, les méthodes non
probabilistes sont empiriques ou raisonnées.

Par exemple, il est courant que l’intervieweur décide subjectivement qui doit
être échantillonné. Étant donné que l’intervieweur sélectionnera probablement
les membres de la population les plus amicaux ou faciles d’accès, une partie
importante de la population n’aura aucune chance d’être sélectionnée et celle-ci
sera peut-être systématiquement différente des membres sélectionnés. Non
seulement la situation peut biaiser les résultats de l’enquête, mais elle peut aussi
diminuer erronément la variabilité apparente de la population à cause d’une
tendance à sélectionner des unités « typiques » et d’éliminer les valeurs
extrêmes. L’échantillonnage probabiliste évite justement ce genre de biais à
cause de la sélection aléatoire des unités.

1.2.1. Échantillonnage à l’aveuglette.

Les unités sont sélectionnées de façon arbitraire, sans idée préconçue, et la


planification est minime, sinon nulle. Celui qui fait l’échantillonnage à
l’aveuglette présume que la population est homogène : si les unités de la
population sont toutes semblables, n’importe quelle unité peut être choisie pour
l’échantillon.
L’interview de « l’homme de la rue » est un exemple d’échantillonnage à
l’aveuglette parce que l’intervieweur choisit n’importe quel passant. Sauf si la
population est vraiment homogène, les biais de l’intervieweur et du passant au
moment de l’échantillonnage peuvent malheureusement avoir des répercussions
sur la sélection.
1.2.2. Échantillonnage à participation volontaire

Cette méthode fait appel à des répondants volontaires. Les volontaires doivent
généralement faire l’objet d’un examen pour obtenir un ensemble de
caractéristiques qui convient aux objectifs de l’enquête ; Cette méthode peut être
marquée d’un important biais de sélection, mais elle est parfois nécessaire. Pour
des raisons de déontologie, on peut faire appel, par exemple, à des volontaires
ayant des conditions médicales particulières pour procéder à certaines
expériences médicales.

1.2.3. Échantillonnage par itinéraires (ou la méthode de potiz)

Dans ce cas les enquêteurs se voient imposés un itinéraire très précis sur lequel
ils vont constituer leurs échantillons. Cette méthode permet d’éviter qu’ils
choisissent les unités assemblées d’une façon subjective et élimine en principe
ce risque de biais (ce risque d’erreur), exemple d’itinéraire, pour la rue x,
interroger tous les quatre numéros d’habitation (1, 4, 8, 12,…), les personnes
habitants le 2ème étage si absente ou inexistante passé au numéro suivant. Pour le
super marché ACIMA, interroger une personne tout les quatre à la caisse 5 de
10h à midi, une personne toute les quatre à 14h à la caisse 8.

1.2.4. Échantillonnage par quotas

Voilà l’un des échantillonnages non probabilistes les plus communs.


L’échantillonnage est fait jusqu’à ce qu’un nombre déterminé d’unités (quotas)
soient sélectionnées dans diverses sous-populations.
L’échantillonnage par quotas est un moyen d’atteindre les objectifs de taille
d’échantillon pour les sous populations.

L’échantillonnage par quotas ressemble à l’échantillonnage stratifié parce que


des unités semblables sont regroupées. La méthode de sélection des unités est
cependant différente. Les unités sont sélectionnées aléatoirement dans
l’échantillonnage probabiliste, mais dans l’échantillonnage par quotas, une
méthode non aléatoire est appliquée, c’est-à-dire que l’intervieweur décide
habituellement qui est ajouté à l’échantillon. Les unités sollicitées qui ne sont
pas disposées à participer sont simplement remplacées par d’autres qui le sont,
et l’on ignore en fait le biais de non-réponse.

La méthode des quotas suppose que l’échantillon doit avoir la même structure,
soit les mêmes caractéristiques que la population mère.
La méthode des quotas consiste donc à :
Tout d’abord, à définir une stratification dans la population de base au
moyen de critères près déterminés qui constituent à priori des facteurs
explicatifs de son comportement (âge, sexe, type d’habitat…) ;
Ensuite, à appliquer cette stratification à l’échantillon que devront sonder
les enquêteurs ;
Enfin, à procéder à un prélèvement non aléatoire des unités de
l’échantillon.

Exemple : dans le cas d’une population de base que l’on veut sonder, on
considère que le sexe, l’âge et la catégorie socioprofessionnelle sont les
critères déterminants, d’après les statistiques fiable cette population de base à
la structure suivante :
Sexe : 40 % hommes, 60 % femmes ;
Tranches d’âge :
A : 18 – 34 30 %
B : 35 – 44 30 %
C : 45 – 65 26 %
D : 65 et plus 14 %
Catégorie socioprofessionnelle :
Agriculteur : 4 %
Artisan, commerçant, chef d’entreprise : 6 %
Cadre et profession intellectuelle supérieur : 8 %
Profession intermédiaire : 18 %
Employé : 24 %
Ouvrier : 30 %
Retraité : 6 %
Autre actif : 4 %
Si la taille de l’échantillon est fixée à 1000 personnes, le plan de sondage
sera le suivant :

Vous aimerez peut-être aussi