Vous êtes sur la page 1sur 8

FICHE CONSEIL numro 5

Techniques dchantillonnage

L'chantillonnage permet aux statisticiens puis aux marketeurs de tirer des conclusions au sujet d'un tout, en nen examinant quune partie. Les chercheurs ne s'intressent pas l'chantillon lui-mme, mais ce qu'il est possible d'apprendre partir de l'enqute et la faon dont on peut appliquer cette information l'ensemble de la population. A la diffrence dun recensement o tous les sujets de la population sont examins , dans lchantillonnage, une partie des sujets de la population est tudie. Plusieurs chantillons peuvent tre constitus Lchantillon en lui-mme nest pas intressant, ce sont les conclusions sur la population que lon peut tirer de son observation qui en font lintrt : cest linfrence. Slection dun chantillon

tapes pour slectionner un chantillon


1. tablir les objectifs de lenqute Dfinir la population cible Cest la population totale pour laquelle on a besoin de linformation. Il faut dfinir les units qui composent la population sous forme de caractristiques lidentifiant (nature des donnes, emplacement gographique, dates ou encore critres sociodmographiques) Dterminer les donnes recueillir (dfinition des termes, libell des questions, dfinitions des mthodes de mesures, sassurer que les exigences de lenqute seront respectes sur le plan oprationnel) 4. Fixer le degr de prcision Il y a un degr dincertitude associ aux estimations tablies partir dun chantillon qui dpend notamment de la mthode dchantillonnage et de la taille de lchantillon. Quel degr peut-on accepter ? Il faut tablir un compromis entre le degr dincertitude et le budget disponible pour lenqute

La taille de lchantillon Est souvent un compromis entre le degr de prcision atteindre et le budget de lenqute mais aussi dautre contraintes oprationnelles comme le temps disponible Repose notamment sur : La variabilit des caractristiques que lon mesure La taille de la population (attention, ce nest pas proportionnel) La mthode dchantillonnage Attention : La population observe est diffrente de la population cible (la population cible est la population que nous voulons observer, tandis que la population observe est la population que nous pouvons observer) et les conclusions ne sappliqueront qu la population rellement observe. Lutilisateur des rsultats doit en tre inform.

Fiche conseil : techniques dchantillonnage 1 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Vocabulaire : La base de sondage est l'outil qu'on utilise pour avoir accs la population. Le choix de la base de sondage aura des rpercussions sur la slection de la population observe. Par exemple, si on utilise une liste de numros de tlphone pour slectionner un chantillon de mnages, tous les mnages n'ayant pas le tlphone seront alors exclus de la population observe. Lunit dchantillonnage : fait partie de la base de sondage, peut tre ou non slectionne Lunit dclarante : fournit linformation quexige lenqute. Lunit danalyse ou de rfrence : cest lunit au sujet de laquelle linformation est fournie Exemple :enqute sur les nouveau-ns Unit dchantillonnage : Mnage Unit dclarante : Lun des deux parents ou le tuteur Unit danalyse : Le nouveau-n Il existe deux types de mthodes d'chantillonnage : L'chantillonnage probabiliste et l'chantillonnage non probabiliste. La diffrence entre les deux tient au fait que dans le cas de l'chantillonnage probabiliste chaque unit a une chance d'tre slectionne et que cette chance peut tre quantifie, ce qui n'est pas vrai pour l'chantillonnage non probabiliste; dans ce cas, chaque unit incluse l'intrieur d'une population n'a pas une chance gale d'tre slectionne. Les mthodes alatoires (probabilistes) L'chantillonnage probabiliste entrane la slection d'un chantillon partir d'une population, slection qui repose sur le principe de la randomisation (la slection au hasard ou alatoire) ou la chance. Il est plus complexe, prend plus de temps et est habituellement plus coteux que l'chantillonnage non probabiliste.

Lchantillonnage alatoire simple


Principe Il consiste choisir des individus de telle sorte que chaque membre de la population a une chance gale de figurer dans lchantillon. Ce choix peut se faire avec remise ou sans remise : avec remise, un individu peut tre choisi plusieurs fois ; sans remise, un individu dj choisi ne peut ltre de nouveau. Cest le cas habituel. Mthode Numroter tous les individus de la liste correspondant aux individus de la population avec des nombres comportant un mme nombre de chiffres. Puis utiliser une table de nombres alatoires, une calculatrice ou un programme informatique, pour obtenir des nombres alatoires comportant le nombre de chiffres dsir. Enfin, slectionner les nombres qui concident avec la liste. On rejette les nombres qui ne concident pas avec la liste ou qui se rptent, on sarrte aprs avoir slectionn n individus (n reprsentant le nombre dindividus souhaits dans lchantillon). Avec Excel o Premire colonne : identifie avec un nombre chaque individu de la liste de rfrence. o Deuxime colonne : =alea() o Recopier les deux colonnes en valeur la mme place. o Trier les deux colonnes en fonction de lordre croissant (ou dcroissant) de la deuxime colonne. o Retenir les n premiers individus dans la colonne 1

Fiche conseil : techniques dchantillonnage 2 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Combien peut-on raliser dchantillons ? Si lon note n la taille de lchantillon et N la taille de la population. Avec remise : Sans remise

Nn
n CN =

N! n!( N n)!

Avantage de cette mthode : On peut esprer un chantillon reprsentatif puisque la mthode donne chaque individu de la population une chance gale. Inconvnients: la mthode nest applicable que lorsquil existe une liste exhaustive de toute la population.

Lchantillonnage systmatique
Principe Lchantillonnage systmatique est une mthode qui exige aussi lexistence dune liste de la population o chaque individu est numrot de 1 jusqu N. Notons n, le nombre dindividus que doit comporter lchantillon (la taille de lchantillon). Lentier voisin de N/n sera not r et appel raison de sondage ou pas de sondage. Mthode Choisir au hasard un entier naturel d entre 1 et r (cet entier sera le point de dpart). Lindividu dont le numro correspond d est le premier individu, Pour slectionner les autres, il suffit dajouter d la raison de sondage : les individus choisis seront alors ceux dont les numros correspondent d+r d + 2r d + 3r etc. Avantages : facile slectionner parce quun seul individu est choisi au hasard. On peut obtenir une bonne prcision parce que la mthode permet de rpartir lchantillon dans lensemble de la liste. Inconvnients : Les donnes peuvent tre biaises cause de la priodicit. Exemple tude des dplacements en autobus sur 365 jours en prenant un chantillon de taille 60. (N=365 jours et n=60). Remarques On a une population de 400 individus, on veut un chantillon de 100 individus R=4 On a donc que 4 chantillons possibles 1, 5, 9, . 397 2, 6, 10, 398 3, 7, 11, .399 4, 8, 12, 400
Fiche conseil : techniques dchantillonnage 3 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Si la population est distribue au hasard dans la base de sondage, un chantillonnage systmatique donnera des rsultats similaires ceux dun chantillonnage alatoire simple Cette mthode est trs utilise dans les contrles de qualit Lchantillonnage avec une probabilit proportionnelle la taille Si la base de sondage renferme de linformation sur la taille de chaque unit (comme le nombre de mdecins dun hpital) et si la taille des ces units varie, on peut utiliser cette information pour accrotre lefficacit de lchantillonnage. Plus la taille de lunit est grande, plus sa chance dtre incluse dans lchantillon est leve

Lchantillonnage stratifi
Principe 1. On subdivise la population en strates (groupes relativement homognes) qui sont mutuellement exclusives 2. Proportionnellement son importance dans la population, on calcule combien il faut dindividus au sein de lchantillon pour reprsenter chaque strate. 3. Dans chacune des strates, on choisit au hasard le nombre ncessaire dindividus Les variables de stratification doivent tre simples utiliser, facile observer et troitement relies au thme de lenqute. Avantages Il est peu probable de choisir un chantillon absurde puisquon sassure de la prsence proportionnelle de tous les divers sous-groupes composant la population. Inconvnients La mthode suppose lexistence dune liste de la population. Il faut aussi connatre comment cette population se rpartit selon certaines strates. Exemple Choisir par chantillonnage stratifi 10 lves dans un groupe de 60, en tenant compte du fait que 50% dentre eux sont en CP, 30% en CE1 et 20% en CE2. La variance totale est la somme de la variance intrastrate et de la variance interstrate. On cherche avoir la plus petite variance intrastrate et une grande variance interstrate Estimation Echantillonnage alatoire simple intrastrate Moyenne gnrale : Prcision
2 ^ H S2 Nh V (YST ) = * (1 f h ) * h nh h =1 N

^ H N Y ST = h * Y h h =1 N
H = Nombre de strates

fh = taux de sondage dans la strate h nh = taille de lchantillon de la strate h S2h = dispersion vraie au sein de la strate h

Fiche conseil : techniques dchantillonnage 4 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Application numrique
On dispose de 1060 hpitaux. On sintresse au Sh2 nh Tranche de taille Nh Yh (moyenne) nombre moyen Y de mdecins par 0-9 500 5 1,5 130 hpital. La population est 10-19 300 12 4,0 80 dfinie par 5 strates par tranches de taille 20-49 150 30 8,0 60 en fonction du nombre de 50-499 100 150 100,0 25 mdecins. Cette information est 500 et plus 10 600 2 500,0 5 obtenue partir de documents de lAPHP ne donnant pas le nombre exact de mdecins mais seulement la tranche de taille. Ralisant un sondage alatoire simple dans chaque strate h selon un budget permettant denquter globalement 300 hpitaux, on mesure yh et la dispersion Sh2 de la variable nombre de mdecins dans lchantillon des hpitaux tirs. Les allocations par strates sont donnes dans la dernire colonne du tableau. Quel est lestimateur de Y, et quelle est sa prcision ?
Tranche de taille 0-9 10-19 20-49 50-499 500 et plus Total Nh 500 300 150 100 10 1 060 Yh (moyenne) 5 12 30 150 600 Sh2 1,5 4,0 8,0 100,0 2 500,0 nh 130 80 60 25 5 300 Y= Var Y = ET Y BS IC 95% BI IC 95% Yh*nh 2 500 3 600 4 500 15 000 6 000 31 600 29,8 0,055 0,235 30,3 29,4 Terme de la variance de la moyenne 0,002 0,003 0,002 0,027 0,022 0,055

Quelle serait lallocation proportionnelle ? Alloca tion Tra nche de Nh nh proportionn taille elle 0-9 500 130 142 10-19 300 80 85 20-49 150 60 42 50-499 100 25 28 500 et plus 10 5 3
Terme de la variance de la moyenne 0,002 0,003 0,003 0,023 0,056 0,086

Tranche de taille 0-9 10-19 20-49 50-499 500 et plus Total

Nh 500 300 150 100 10 1 060

Yh (moyenne) 5 12 30 150 600

Sh2 1,5 4,0 8,0 100,0 2 500,0

nh 142 85 42 28 3 300 Y= Var Y = ET Y BS IC 95% BI IC 95%

Yh*nh 2 500 3 600 4 500 15 000 6 000 31 600 29,8 0,086 0,293 30,4 29,2

Fiche conseil : techniques dchantillonnage 5 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Lchantillonnage par grappes


Principe Dans les mthodes prcdentes, lunit statistique tait choisie individuellement. La technique de lchantillonnage en grappes entrane la division de la population en groupes ou grappes. On slectionne au hasard un certain nombre de grappes (units primaires) pour reprsenter la population. Puis on slectionne tous les individus des grappes choisies Avantages La mthode ne ncessite pas une liste globale de la population puisque seules les individus inclus dans les grappes comptent. Elle permet de limiter lchantillon des groupes compacts ce qui permet de rduire les cots de dplacement, de suivi et de supervision. Inconvnients La mthode peut entraner des rsultats imprcis (moins prcis que les mthodes prcdentes) puisque les units voisines ont tendance se ressembler. Elle ne permet pas de contrler la taille finale de lchantillon.

Lchantillonnage plusieurs degrs


Principe Ressemble lchantillonnage en grappes, sauf que dans ce cas on prlve un chantillon lintrieur de chaque grappe. Ce qui implique au moins deux degrs (mais cela peut tre plus) dchantillonnage : on identifie au premier degr les grandes grappes (units primaires), puis au second degr, lintrieur de chaque grappe, on slectionne les units (units secondaires) qui vont faire partie de lchantillon. Avantage Lchantillon est plus concentr ce qui rduit les cots, pas besoin de disposer de la liste de toutes les units. La mthode permet de contrler la taille de lchantillon notamment par stratification. Inconvnient : prcision des rsultats, taille plus grande que dans le cas dun chantillonnage alatoire simple.

Lchantillonnage plusieurs phases


Principe Les donnes de base sont collectes auprs dun chantillon dunit de grande taille, ensuite pour un sous-chantillon de ces units, la collecte des donnes est plus dtaille. Le plus couramment on utilise deux phases ou chantillonnage double. A premire phase consiste donc filtrer le premier chantillon par le biais dun questionnaire par exemple. L'chantillonnage plusieurs phases est assez diffrent de l'chantillonnage plusieurs degrs, malgr les similarits entre eux sur le plan de leur appellation. L'chantillonnage plusieurs phases est utile lorsqu'il manque l'intrieur de la base de sondage des donnes auxiliaires qui pourraient servir stratifier la population ou rejeter la slection une partie de la population et lorsqu'on dispose d'un budget insuffisant pour recueillir des donnes auprs de l'chantillon entier (ou lorsque recueillir des donnes auprs de l'chantillon entier imposerait un fardeau excessif aux rpondants).

Fiche conseil : techniques dchantillonnage 6 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Mthodes non alatoires On oppose aux mthodes alatoires les mthodes non alatoires ou empiriques. Dans le cas de l'chantillonnage probabiliste, chaque unit a une chance d'tre slectionne. Dans celui de l'chantillonnage non probabiliste, on suppose que la distribution des caractristiques l'intrieur de la population est gale. C'est ce qui fait que le chercheur croit que n'importe quel chantillon serait reprsentatif et que les rsultats, par consquent, seront exacts. Pour l'chantillonnage probabiliste, la randomisation est une caractristique du processus de slection, plutt qu'une hypothse au sujet de la structure de la population. Dans le cas de l'chantillonnage non probabiliste, puisqu'on choisit arbitrairement des units, il n'existe aucune faon d'estimer la probabilit pour une unit quelconque d'tre incluse dans l'chantillon. galement, comme la mthode en question ne fournit aucunement l'assurance que chaque unit aura une chance d'tre incluse dans l'chantillon, on ne peut estimer la variabilit de l'chantillonnage ni identifier le biais possible. On ne peut mesurer la fiabilit d'un chantillonnage non probabiliste; la seule faon de mesurer la qualit des donnes en rsultant consiste comparer certains des rsultats de l'enqute l'information dont on dispose au sujet de la population. Encore une fois, rien ne fournit l'assurance que les estimations ne dpasseront pas un niveau acceptable d'erreur. Les statisticiens hsitent utiliser les mthodes d'chantillonnage non probabiliste, parce qu'il n'existe aucun moyen de mesurer la prcision des chantillons en dcoulant. Elles sont souvent utilises o pour des tudes exploratoires; o pour rduire les cots; o quand il est impossible ou non envisageable dutiliser la mthode alatoire.

On distingue :
- lchantillonnage laveuglette ou de commodit : Ex.: .dguster un chantillon de vin. - lchantillonnage de volontaires : Ex : expriences mdicales ou psychologiques. - lchantillonnage au jug : cette mthode implique la slection dindividus en fonction de lide quon se fait de la composition de la population. On le fait pour des essais auprs des groupes cibles. - lchantillonnage par quotas : il est largement utilis dans les enqutes dopinion et les tudes de march notamment parce quil ne suppose pas de liste des individus de la population. On parle aussi dchantillonnage dirig ou par choix raisonn. On demande aux enquteurs de faire un nombre dentrevues dans divers groupes tablis en fonction du secteur gographique, de lge, du sexe ou dautres caractristiques Lenquteur doit respecter son quota. Avantages : Moins coteuse et plus facile raliser. Inconvnients: Beaucoup de non-rponses; difficult de trancher lorsquil sagit de slectionner des individus dun groupe dge ouvert (Ex : 65 ans et plus : faut-il prendre 66 ans, 70 ans ).

Fiche conseil : techniques dchantillonnage 7 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com

Les erreurs Les mthodes dchantillonnage peuvent tre sources derreurs. Un certain nombre derreurs pourront tre limines, certaines pourront tre rduites, mais dautres persisteront.

Les erreurs dues aux instruments de mesure Un instrument est fidle sil rpond exactement de la mme faon quand il est plac dans deux situations identiques. Exemple le thermomtre. Une question claire est dite fidle quand tout le monde la comprend de la mme faon. Un instrument est valide lorsquil mesure vraiment ce quil est cens mesurer. Les erreurs dues lorganisation Ce sont les erreurs qui se glissent lors de la collecte des donnes. Est-ce que les consignes ont t respectes? Les enquteurs ont-ils agi de la mme faon? Pour viter ces erreurs il faut utiliser les mmes instruments, les mmes conditions. Les erreurs dues la mthode dchantillonnage Il faut toujours vrifier, la lumire des objectifs de ltude statistique, que la mthode dchantillonnage est adapte, en particulier, viter la sur-reprsentation de certaines parties de la population. Les erreurs dues au phnomne de non-rponse Mme avec la meilleure mthode dchantillonnage, il se prsente toujours un certain nombre de non-rpondants, ce qui peut entacher la reprsentativit de lchantillon et amener des conclusions errones. Lerreur dchantillonnage Le fait dtudier un chantillon plutt quun autre engendre forcment une erreur. Cette erreur appele erreur dchantillonnage est invitable.

Fiche conseil : techniques dchantillonnage 8 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com