Vous êtes sur la page 1sur 14

2.3.2.

La notion dchantillonnage
1.

La vrification ou l'infirmation des hypothses, associe au mode de contrle des variables qui
a t prvu, suppose bien entendu des observations ou donnes qui sont souvent rcoltes
par chantillonnage.

2.

La ncessit de tels chantillons tient au fait que la taille de l'"univers" dcrire est souvent
trop grande pour tre intgralement observe. Il faut alors en capturer des fractions, mais avec
pour but de rendre compte de la totalit. Ce passage du segment la totalit est nomm
problme d'infrence: quelles sont les conditions qui permettent de dire que ce qui est
observ dans l'chantillon est valable pour l'univers concern tout entier?

3.

Cette question de l'infrence amne une distinction importante entre les chantillons
probabilistes et les chantillons nonprobabilistes. Ces derniers sont souvent raliss sous
la forme d'chantillons par quota.

4.

Deux autres questions, lies d'ailleurs la premire, sont centrales dans les questions
d'chantillonnage:
- quelle taille donner l'chantillon, ou plutt, quels critres prendre en compte pour fixer la
taille d'un chantillon?
- comment concilier approche individuelle et contextuelle dans un chantillon: cest la
question des chantillons plusieurs niveaux

1. Echantillon par quota


Il sagit dassurer une comparabilit entre univers et chantillon en
construisant une sorte de maquette, de modle rduit, de lunivers.
Pour ce faire, la constitution dun chantillon par quota suit les
procdures gnrales suivantes:
a) Dfinition de l'aire go-dmographique pertinente (ou population
concerne; p.ex. Citoyennes et citoyens du Canton de ..)
b) Dfinition de la composition relative de la population concerne
(p.ex. fictif 55% de femmes, 45% dhommes; 45% <40 ans, 55%
>40 ans; 5% secteur primaire, 35% secondaire, 60 % tertiaire, etc) ,
pour les lments jugs pertinents (ges, statut social, zone urbaine
ou rurale, travail professionnelle, tat civil, revenu,etc)
c) Choix de la taille de l'chantillon
d) Distribution de cet chantillon global en des sous-ensembles de
tailles proportionnes la composition de la population
e) Instructions de rcolte donnes aux enquteurs: faire x interviews
auprs de femmes, y auprs dhommes; tant dans le primaire, etc

Les variables retenues pour dfinir les quotas sont celles qui sont juges
essentielles pour le comportement observ : assez classiquement. lge, le
sexe, lemploi, ltat-civil, la nationalit, etc. Mais on peut penser tout
autre chose ( usage dune voiture, dune tl, prsence dadolescents dans
le mnage,etc)

La simplicit apparente de ce genre dchantillonnage le rend surtout utile


quand il nexiste pas de listes fiables et dtailles de personnes en principe
concernes.

Pourtant, un dilemme existe :


- considrer les proportions variable par variable (50% de femmes, 35%
demploys subalternes,etc), avec le risque que les femmes employes
subalternes soient proportionnellement beaucoup plus nombreuses,
- ou prendre des proportions de femmes employes subalternes , avec
le risque de compliquer beaucoup la rcolte des donnes et de perdre ainsi
les avantages de ce genre dchantillonnage.

Exemple
Taille chantillon.xls

Limites
Un chantillon par quota ne donne pas chaque
lment de l'univers la mme probabilit d'tre
reprsent dans l'chantillon. Par exemple, on remplace
sans autre les non rpondants, ou bien on ne va pas
chercher de cas dans des lieux trop loigns, ou des
heures malcommodes, etc.
C'est le ct arbitraire de ces choix et remplacements
qui fait parler d'chantillon non-probabiliste.
En principe, de tels chantillons ne permettent donc pas
de calculer des marges derreur.

2. Echantillonnage probabiliste
2.1. Echantillon probabiliste simple
1.

Le souci de calculer des marges derreur et de faire des tests de signification


conduit souvent prfrer les chantillons probabilistes aux chantillons par
quota.

2.

Lchantillonnage probabiliste simple est bas sur lide de donner chaque


lment de lunivers une chance gale de figurer dans lchantillon. Cette galit,
lorsque la taille de lchantillon est suffissamment grande, permet daffirmer, avec
un risque derreur connu, que les compositions de lunivers et de lchantillon
seront comparables (taille mise part, bien sr pour toutes les variables, et non
seulement poiur les variables juges pertinentes.
Il convient de se baser sur les sur les procdures suivantes :
a) Chaque lment de lunivers concern reoit un numro didentification de 1
n. (Il faut donc disposer en principe dune liste exhaustive et nominale des
personnes concernes)
b) A laide de tables de nombres au hasard ou de procdures quivalentes, on
tire au sort le nombre de cas dsir.

3.

4.

La taille de lchantillon dpend de la marge derreur ou intervalle de confiance


que lon veut tolrer. Dans le cas de proportions, la formule P = p +/k*racine(p*q/n) permet de calculer cette taille.

Brve explicitation
Les diffrentes moyennes p1, p2, p3, pn dune multitude
dchantillons de taille n possibles constitus de manire
probabiliste se distribueront de faon normale autour
de la vraie moyenne P (recherche)
Cest dire que les 66% de ces moyennes potentielles
ne scarteront pas de P de plus de 1 sigma ( =racine de
P*Q/n), que 95 % seront comprises dans un intervalle de
2 sigmas, 99% dans un intervalle de 3 sigmas,etc.

En consquence, on peut dire, par exemple, avec 95%


de certitude , que la vraie valeur P recherche ne
diffre pas de la valeur trouve p dun cart suprieur
+/- 2*racine(p*q/n)

Estimation grossire de la taille


dun chantillon
Taille chantillon.xls

La consigne est alors dobserver/interviewer les personnes qui ont t tires au


sort, et pas dautres. Lquiprobabilit dtre tir permet, par le biais de la loi des
grands nombres, daffirmer dans certaines limites (intervalles de confiance) que
lchantillon a une composition semblable celle de lunivers et que ce qui est
observ dans lchantillon vaut pour tout cet univers.

On remarquera que la taille de lchantillon choisir ne dpend pas directement


de la taille de lunivers, mais du degr de prcision demand. Attention, pour les
univers de petite taille, la correction (1-f), o f reprsente la fraction sonde.
Ngligeable videmment si, par exemple, f = 0.003, utile si f = par exemple 0.4

Cette manire de faire permet de calculer des indices dassociation et des tests de
signification.

En principe, les non-rponses ne doivent pas tre remplaces . En pratique, on


calcule souvent des tailles thoriques dchantillons plus grandes, pour tenir
compte de cette probabilit de non-rponse.

Addendum: le sondage systmatique


1. Le sondage systmatique rejoint les mmes
objectifs que le sondage probabiliste simple. Il
remplace simplement le tirage alatoire par le
tirage dans une liste dj constitue (p.ex.
liste demploys, ou dlecteurs, ou bottin
tlphonique) dun individu tous les nimes
cas. Cette simplification peut avoir des risques
quand la liste en question est organise selon
un rythme (p.ex. sections militaires listes
selon limportance dcroissante du grade).

2.2. Echantillons stratifis


1.

Il arrive que lon prfre un chantillonnage probabiliste stratifi un


chantillonnage probabiliste simple.

2.

La procdure de stratification consiste subdiviser lunivers en des sousensembles (strates) dfinis par des variables juges importantes pour le
comportement observ (comme dans les quotas) et de procder au tirage
alatoire dun nombre (Ns/N)*E de cas dans la strate considre.

3.

Dans ce cas, il sagit dun chantillon stratifi proportionnel: il sagit, par le biais
de la stratification, de rduire la variance et par l le nombre de cas ncessaires.

4.

Mais on peut prfrer construire un chantillon stratifi non proportionnel. Dans ce


deuxime cas, il sagit de gonfler les strates dmographiquement peu
importants, de manire pouvoir les observer plus en dtail. Les tendances
gnrales se calculent alors en utilisant les proportions de lunivers comme
pondration des tendances observes dans chaque sous- ensemble de
lchantillon.

Echantillons en grappe
Aux possibilits dj voques sajoute celle de lchantillonnage en
grappes, qui consiste faire un tirage en plusieurs niveaux. P.ex:
a) subdiviser l univers Suisse en un nombre r de rgions;
b) tirer au sort un certain nombre de ces rgions ;

c) puis, dans chaque rgion slectionne, tirer un nombre ni de cas.


Autre exemple : dans une grande administration, tirer dabord des sections ou
bureaux ou divisions, puis des employs
Le but de lopration est de pouvoir mettre en rapport des donnes
individuelles avec des donnes contextuelles, ce qui serait difficile avec
des donnes trop disperses.
Le calcul de la variance amne des rsultats analogues ceux du sondage
probabiliste simple.

Questions-cl pour le choix dun chantillon


Voici quelques questions essentielles que lon peut ou doit se poser
pour slectionner une procdure et une taille dchantillon :
1. Veut-on privilgier la description gnrale dune population ou
analyser dans le dtail un systme de relations ?
2. Est-on intress runir une perspective individuelle et une
perspective contextuelle ?
3. Veut-on analyser en tant que tels des agrgats numriquement
faibles ?

4. Rciproquement, a-t-on besoin dun trs grand nombre de sujets


provenant dagrgats proportionnellement trs importants ?

5. Existe-t-il un risque important dune grande proportion de nonrponses ? Ces non-rponses sont-elles en rapport avec les
attitudes ou comportements investigus ?
6. Est-on intress dfinir des intervalles de confiance ? Plus
spcifiquement, est-on attach la possibilit de dfinir une
marge derreur ?
7. Dispose-t-on dune liste exhaustive et nominale de lunivers ?
8. Quelles variables veut-on contrler ? Par exclusion ou par
inclusion ? Selon quelles procdures?