Académique Documents
Professionnel Documents
Culture Documents
Techniques dchantillonnage
L'chantillonnage permet aux statisticiens puis aux marketeurs de tirer des conclusions au sujet d'un tout, en nen examinant quune partie. Les chercheurs ne s'intressent pas l'chantillon lui-mme, mais ce qu'il est possible d'apprendre partir de l'enqute et la faon dont on peut appliquer cette information l'ensemble de la population. A la diffrence dun recensement o tous les sujets de la population sont examins , dans lchantillonnage, une partie des sujets de la population est tudie. Plusieurs chantillons peuvent tre constitus Lchantillon en lui-mme nest pas intressant, ce sont les conclusions sur la population que lon peut tirer de son observation qui en font lintrt : cest linfrence. Slection dun chantillon
La taille de lchantillon Est souvent un compromis entre le degr de prcision atteindre et le budget de lenqute mais aussi dautre contraintes oprationnelles comme le temps disponible Repose notamment sur : La variabilit des caractristiques que lon mesure La taille de la population (attention, ce nest pas proportionnel) La mthode dchantillonnage Attention : La population observe est diffrente de la population cible (la population cible est la population que nous voulons observer, tandis que la population observe est la population que nous pouvons observer) et les conclusions ne sappliqueront qu la population rellement observe. Lutilisateur des rsultats doit en tre inform.
Fiche conseil : techniques dchantillonnage 1 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Vocabulaire : La base de sondage est l'outil qu'on utilise pour avoir accs la population. Le choix de la base de sondage aura des rpercussions sur la slection de la population observe. Par exemple, si on utilise une liste de numros de tlphone pour slectionner un chantillon de mnages, tous les mnages n'ayant pas le tlphone seront alors exclus de la population observe. Lunit dchantillonnage : fait partie de la base de sondage, peut tre ou non slectionne Lunit dclarante : fournit linformation quexige lenqute. Lunit danalyse ou de rfrence : cest lunit au sujet de laquelle linformation est fournie Exemple :enqute sur les nouveau-ns Unit dchantillonnage : Mnage Unit dclarante : Lun des deux parents ou le tuteur Unit danalyse : Le nouveau-n Il existe deux types de mthodes d'chantillonnage : L'chantillonnage probabiliste et l'chantillonnage non probabiliste. La diffrence entre les deux tient au fait que dans le cas de l'chantillonnage probabiliste chaque unit a une chance d'tre slectionne et que cette chance peut tre quantifie, ce qui n'est pas vrai pour l'chantillonnage non probabiliste; dans ce cas, chaque unit incluse l'intrieur d'une population n'a pas une chance gale d'tre slectionne. Les mthodes alatoires (probabilistes) L'chantillonnage probabiliste entrane la slection d'un chantillon partir d'une population, slection qui repose sur le principe de la randomisation (la slection au hasard ou alatoire) ou la chance. Il est plus complexe, prend plus de temps et est habituellement plus coteux que l'chantillonnage non probabiliste.
Fiche conseil : techniques dchantillonnage 2 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Combien peut-on raliser dchantillons ? Si lon note n la taille de lchantillon et N la taille de la population. Avec remise : Sans remise
Nn
n CN =
N! n!( N n)!
Avantage de cette mthode : On peut esprer un chantillon reprsentatif puisque la mthode donne chaque individu de la population une chance gale. Inconvnients: la mthode nest applicable que lorsquil existe une liste exhaustive de toute la population.
Lchantillonnage systmatique
Principe Lchantillonnage systmatique est une mthode qui exige aussi lexistence dune liste de la population o chaque individu est numrot de 1 jusqu N. Notons n, le nombre dindividus que doit comporter lchantillon (la taille de lchantillon). Lentier voisin de N/n sera not r et appel raison de sondage ou pas de sondage. Mthode Choisir au hasard un entier naturel d entre 1 et r (cet entier sera le point de dpart). Lindividu dont le numro correspond d est le premier individu, Pour slectionner les autres, il suffit dajouter d la raison de sondage : les individus choisis seront alors ceux dont les numros correspondent d+r d + 2r d + 3r etc. Avantages : facile slectionner parce quun seul individu est choisi au hasard. On peut obtenir une bonne prcision parce que la mthode permet de rpartir lchantillon dans lensemble de la liste. Inconvnients : Les donnes peuvent tre biaises cause de la priodicit. Exemple tude des dplacements en autobus sur 365 jours en prenant un chantillon de taille 60. (N=365 jours et n=60). Remarques On a une population de 400 individus, on veut un chantillon de 100 individus R=4 On a donc que 4 chantillons possibles 1, 5, 9, . 397 2, 6, 10, 398 3, 7, 11, .399 4, 8, 12, 400
Fiche conseil : techniques dchantillonnage 3 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Si la population est distribue au hasard dans la base de sondage, un chantillonnage systmatique donnera des rsultats similaires ceux dun chantillonnage alatoire simple Cette mthode est trs utilise dans les contrles de qualit Lchantillonnage avec une probabilit proportionnelle la taille Si la base de sondage renferme de linformation sur la taille de chaque unit (comme le nombre de mdecins dun hpital) et si la taille des ces units varie, on peut utiliser cette information pour accrotre lefficacit de lchantillonnage. Plus la taille de lunit est grande, plus sa chance dtre incluse dans lchantillon est leve
Lchantillonnage stratifi
Principe 1. On subdivise la population en strates (groupes relativement homognes) qui sont mutuellement exclusives 2. Proportionnellement son importance dans la population, on calcule combien il faut dindividus au sein de lchantillon pour reprsenter chaque strate. 3. Dans chacune des strates, on choisit au hasard le nombre ncessaire dindividus Les variables de stratification doivent tre simples utiliser, facile observer et troitement relies au thme de lenqute. Avantages Il est peu probable de choisir un chantillon absurde puisquon sassure de la prsence proportionnelle de tous les divers sous-groupes composant la population. Inconvnients La mthode suppose lexistence dune liste de la population. Il faut aussi connatre comment cette population se rpartit selon certaines strates. Exemple Choisir par chantillonnage stratifi 10 lves dans un groupe de 60, en tenant compte du fait que 50% dentre eux sont en CP, 30% en CE1 et 20% en CE2. La variance totale est la somme de la variance intrastrate et de la variance interstrate. On cherche avoir la plus petite variance intrastrate et une grande variance interstrate Estimation Echantillonnage alatoire simple intrastrate Moyenne gnrale : Prcision
2 ^ H S2 Nh V (YST ) = * (1 f h ) * h nh h =1 N
^ H N Y ST = h * Y h h =1 N
H = Nombre de strates
fh = taux de sondage dans la strate h nh = taille de lchantillon de la strate h S2h = dispersion vraie au sein de la strate h
Fiche conseil : techniques dchantillonnage 4 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Application numrique
On dispose de 1060 hpitaux. On sintresse au Sh2 nh Tranche de taille Nh Yh (moyenne) nombre moyen Y de mdecins par 0-9 500 5 1,5 130 hpital. La population est 10-19 300 12 4,0 80 dfinie par 5 strates par tranches de taille 20-49 150 30 8,0 60 en fonction du nombre de 50-499 100 150 100,0 25 mdecins. Cette information est 500 et plus 10 600 2 500,0 5 obtenue partir de documents de lAPHP ne donnant pas le nombre exact de mdecins mais seulement la tranche de taille. Ralisant un sondage alatoire simple dans chaque strate h selon un budget permettant denquter globalement 300 hpitaux, on mesure yh et la dispersion Sh2 de la variable nombre de mdecins dans lchantillon des hpitaux tirs. Les allocations par strates sont donnes dans la dernire colonne du tableau. Quel est lestimateur de Y, et quelle est sa prcision ?
Tranche de taille 0-9 10-19 20-49 50-499 500 et plus Total Nh 500 300 150 100 10 1 060 Yh (moyenne) 5 12 30 150 600 Sh2 1,5 4,0 8,0 100,0 2 500,0 nh 130 80 60 25 5 300 Y= Var Y = ET Y BS IC 95% BI IC 95% Yh*nh 2 500 3 600 4 500 15 000 6 000 31 600 29,8 0,055 0,235 30,3 29,4 Terme de la variance de la moyenne 0,002 0,003 0,002 0,027 0,022 0,055
Quelle serait lallocation proportionnelle ? Alloca tion Tra nche de Nh nh proportionn taille elle 0-9 500 130 142 10-19 300 80 85 20-49 150 60 42 50-499 100 25 28 500 et plus 10 5 3
Terme de la variance de la moyenne 0,002 0,003 0,003 0,023 0,056 0,086
Yh*nh 2 500 3 600 4 500 15 000 6 000 31 600 29,8 0,086 0,293 30,4 29,2
Fiche conseil : techniques dchantillonnage 5 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Fiche conseil : techniques dchantillonnage 6 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Mthodes non alatoires On oppose aux mthodes alatoires les mthodes non alatoires ou empiriques. Dans le cas de l'chantillonnage probabiliste, chaque unit a une chance d'tre slectionne. Dans celui de l'chantillonnage non probabiliste, on suppose que la distribution des caractristiques l'intrieur de la population est gale. C'est ce qui fait que le chercheur croit que n'importe quel chantillon serait reprsentatif et que les rsultats, par consquent, seront exacts. Pour l'chantillonnage probabiliste, la randomisation est une caractristique du processus de slection, plutt qu'une hypothse au sujet de la structure de la population. Dans le cas de l'chantillonnage non probabiliste, puisqu'on choisit arbitrairement des units, il n'existe aucune faon d'estimer la probabilit pour une unit quelconque d'tre incluse dans l'chantillon. galement, comme la mthode en question ne fournit aucunement l'assurance que chaque unit aura une chance d'tre incluse dans l'chantillon, on ne peut estimer la variabilit de l'chantillonnage ni identifier le biais possible. On ne peut mesurer la fiabilit d'un chantillonnage non probabiliste; la seule faon de mesurer la qualit des donnes en rsultant consiste comparer certains des rsultats de l'enqute l'information dont on dispose au sujet de la population. Encore une fois, rien ne fournit l'assurance que les estimations ne dpasseront pas un niveau acceptable d'erreur. Les statisticiens hsitent utiliser les mthodes d'chantillonnage non probabiliste, parce qu'il n'existe aucun moyen de mesurer la prcision des chantillons en dcoulant. Elles sont souvent utilises o pour des tudes exploratoires; o pour rduire les cots; o quand il est impossible ou non envisageable dutiliser la mthode alatoire.
On distingue :
- lchantillonnage laveuglette ou de commodit : Ex.: .dguster un chantillon de vin. - lchantillonnage de volontaires : Ex : expriences mdicales ou psychologiques. - lchantillonnage au jug : cette mthode implique la slection dindividus en fonction de lide quon se fait de la composition de la population. On le fait pour des essais auprs des groupes cibles. - lchantillonnage par quotas : il est largement utilis dans les enqutes dopinion et les tudes de march notamment parce quil ne suppose pas de liste des individus de la population. On parle aussi dchantillonnage dirig ou par choix raisonn. On demande aux enquteurs de faire un nombre dentrevues dans divers groupes tablis en fonction du secteur gographique, de lge, du sexe ou dautres caractristiques Lenquteur doit respecter son quota. Avantages : Moins coteuse et plus facile raliser. Inconvnients: Beaucoup de non-rponses; difficult de trancher lorsquil sagit de slectionner des individus dun groupe dge ouvert (Ex : 65 ans et plus : faut-il prendre 66 ans, 70 ans ).
Fiche conseil : techniques dchantillonnage 7 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com
Les erreurs Les mthodes dchantillonnage peuvent tre sources derreurs. Un certain nombre derreurs pourront tre limines, certaines pourront tre rduites, mais dautres persisteront.
Les erreurs dues aux instruments de mesure Un instrument est fidle sil rpond exactement de la mme faon quand il est plac dans deux situations identiques. Exemple le thermomtre. Une question claire est dite fidle quand tout le monde la comprend de la mme faon. Un instrument est valide lorsquil mesure vraiment ce quil est cens mesurer. Les erreurs dues lorganisation Ce sont les erreurs qui se glissent lors de la collecte des donnes. Est-ce que les consignes ont t respectes? Les enquteurs ont-ils agi de la mme faon? Pour viter ces erreurs il faut utiliser les mmes instruments, les mmes conditions. Les erreurs dues la mthode dchantillonnage Il faut toujours vrifier, la lumire des objectifs de ltude statistique, que la mthode dchantillonnage est adapte, en particulier, viter la sur-reprsentation de certaines parties de la population. Les erreurs dues au phnomne de non-rponse Mme avec la meilleure mthode dchantillonnage, il se prsente toujours un certain nombre de non-rpondants, ce qui peut entacher la reprsentativit de lchantillon et amener des conclusions errones. Lerreur dchantillonnage Le fait dtudier un chantillon plutt quun autre engendre forcment une erreur. Cette erreur appele erreur dchantillonnage est invitable.
Fiche conseil : techniques dchantillonnage 8 / 8 Toute reproduction totale ou partielle est strictement interdite sans laccord de Affinity Data 255 rue Saint Honor 75 001 Paris. Tl : 01 55 04 78 07 www.affinity-data.com