Académique Documents
Professionnel Documents
Culture Documents
Ch 2 L'chantillonnage*
Ch 2 L'chantillonnage
A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire
!
A. La base de sondage
La population totale laquelle on s'intresse, la population source (NB : diffrente de la population cible)
!
Les nomenclatures
A. Les nomenclatures
Liste de noms et dadresses qui donnent directement accs des units Exemples : Fichier clients Fichier adhrents Registres municipaux
Liste de lieux (gographiques ou non) qui donnent accs indirectement des units
Exemples : Service d'une entreprise Quartier d'une ville Sortie de bureau de vote
Exhaustivit : Aucun membre de la population observe ne doit en tre exclu Unicit : Aucun individu ne doit y tre reprsent plusieurs fois Actualit : Elle doit tre jour NB : C'est le socle de l'enqute. Un biais ce niveau se rpercute sur la totalit du travail
Lunit dchantillonnage
!
Lunit dclarante
!
Les rsultats obtenus sur un chantillon ne sont que des estimateurs des valeurs recherches
!
!
Unit dclarante
Le membre de la famille qui rpond l'enqute (lun des deux parents, la grand-mre, la nounou, etc.) Le nouveau-n
!
!
Unit danalyse
A. La taille de lchantillon
!
Une procdure d'chantillonnage est toujours un compromis entre : le degr de prcision le budget le temps disponible les contraintes logistiques Mthodes alatoires (probabiliste) Chaque unit a une probabilit non nulle dtre slectionne
(non probabiliste)
Ch 2 L'chantillonnage
A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire
B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
Chaque individu de la base d'chantillonnage a la mme probabilit d'tre slectionn pour figurer dans lchantillon Ce choix peut se faire avec remise ou sans remise :
!
Avec remise : un individu peut tre slectionn plusieurs fois Sans remise (cas le plus courant) : un individu ne peut tre slectionn plus d'une fois
Avantages :
Reprsentativit statistique (par le tirage alatoire) assure lorsque la taille de l'chantillon est grande Simplicit
Inconvnients :
Ncessite un accs exhaustif la base d'chantillonnage La reprsentativit n'est pas assure si la taille de l'chantillon est faible
1. On aloue alatoirement un rel random (compris entre 0 et 1) chaque individu 2. On trie les individus par la variable random et on slectionne les n premiers individus de la liste trie
Donnes individuelles en lignes : 1. insrer d'une nouvelle colonne 2. dans cette colonne, tirer alatoirement un nombre compris entre 0 et 1 pour chaque ligne par la fonction =ALEA() 3. trier la base selon les valeurs de la nouvelle colonne 4. slectionner les n premiers individus
La moyenne empirique d'une variable X sur l'chantillon n ' Xi % & X! 1 n est un estimateur sans biais de la moyenne de X, de variance :
!
n 2
& ' " X i# X $ % Var " X $ n 1 % % & Var " X $!"1# $ 1 !"1# f $ N n n#1 n
avec la taille de l'chantillon, avec la fraction de sondage Si l'on a une estimation de Var(X), on peut dterminer n de sorte atteindre un niveau dsir de prcision pour X
p "1% p # ! ! ! ! Var " p #$"1% f # n%1 La prcision de l'estimateur d'une proportion augmente avec : La taille de l'chantillon La fraction de sondage La prcision en points de % (Variance et Ecart type) est plus faible pour des proportions proches de 50%
Pour un ordre de grandeur de la proportion attendue, on peut dterminer n de sorte atteindre le niveau dsir de prcision pour p
Exercice : Pour p ! 50% et f ! 0, quel n faut il si on veut avoir un intervalle de confiance d'une amplitude de 2 points de pourcentage ?
!
0,5!1,96 . ! 1,96 . ! n! 0,5
!
!n
!0,01
!
"
2
0,52!1,96 .
!
!
Lentier voisin de N/n est not r et appel raison de sondage ou pas de sondage
On slectionne l'chantillon des individus de rang d + i.r (d+r , d+2r, d+3r, d+4r...)
Avantages : Facile mettre en oeuvre (un seul individu est choisi au hasard) Bonne rpartition de lchantillon dans lensemble de la liste Si l'ordre des individus dans la base de sondage est distribue alatoirement, mmes rsultats que l'EASSR Trs utilis en contrle de qualit
Dsavantages : Les donnes peuvent tre biaises cause de la priodicit (pas de 12 pour des donnes annuelles, de 7, pour des donnes quotidiennes...) Pas un chantillonnage alatoire si les individus ne sont pas rangs alatoirement dans la base de sondage
Dmarche de slection :
1. On subdivise la population en strates (groupes relativement homognes) qui sont mutuellement exclusives 2. On choisit un mode de rpartition de l'chantillon total entre les strates 3.Dans chacune des strates, on tire au hasard (SI) le nombre choisi dindividus
Avantages : Assure une certaine reprsentativit Limite le risque d'chantillons extrmes Peut augmenter la prcision
Estimateur d'une proportion partir de S chantillons de taille ns tirs alatoirement dans S strates de taille Ns :
p!str #$ "
s#1 S
Ns ! p " N s
! "
ns Ns
Ns p s !1" p s # $ $ !1" f s# N ns
! "
ns Ns
Lchantillonnage stratifi permet de rduire la variance des estimateurs grce l'information qui dfinit les strates Il existe diverses procdures d'allocation des n units de l'chantillon dans les diffrentes strates
Allocation gale ( n s !Cte ) Allocation proportionnelle ( f Allocation puissance Allocation optimale
s
!n s " N s !Cte )
S ! ! ! " ! " N Var s ! X ! S n Var s ! X ! ! ! Var ! X"str !!" s !" s ns ns s!1 N s!1 n ! Echantillonnage alatoire (dcomposition de la variance) : S S ! ' " n $n %1& n s Var s ! X ! 2 # ! y " ! ys# " ! !" s Var ! X!SI !!" s " ! s!1 n #n$1% s#1 n$n%1& n s
! "
! "
! ! " " ! Var ! X"str !!Var ! X!SI ! si les valeurs moyennes sont diffrentes entre les strates
On slectionne au hasard un certain nombre d'units primaires (grappes) pour reprsenter la population.
Exemple : Slection au hasard de 20 coles primaires sur le dpartement du Rhne (grappes) Enqutes auprs de tous les enseignants de ces coles
Avantages : Ne ncessite pas une liste globale de la population mais seulement des grappes. Cots logistiques rduits (dplacement, logement des enquteurs, etc.) Cots de suivi et de supervision rduits Dsavantage : Moindre prcision Moindre variabilit (autocorrlation) Perte de contrle sur la taille finale de lchantillon.
B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
Premire tape : Echantillonnage par grappes ! Nouvelle base de sondage Deuxime tape : Echantillonnage alatoire simple (SI) sur chaque grappe ! Echantillon
NB : Les grappes peuvent elles-mmes tre dfinies en plusieurs tapes (vrai galement pour B5)
Avantages :
Mmes avantages que l'chantillonnage par grappes (cots, etc.) Possibilit de contrler la taille de lchantillon final
Exemple :
- Echantillon alatoire de villes franaises - Au sein des villes, chantillon alatoire de quartiers - Dans chaque quartier de chaque ville on fait un chantillonnage SI de mnages
Dsavantage :
Souvent utilis pour les enqutes face face Arbitrage cot qualit Impos par la logistique (choix de quartiers dans une ville, de villages dans un dpartement, etc.) Parfois implicitement utilis : Observations individuelles partir d'enqutes mnages (grappe = mnage) Observation salariales ou produit partir d'enqutes entreprises (grappe = entreprise)
Question de comprhension : Explicitez clairement la diffrence entre l'chantillonnage par grappes plusieurs degrs et l'chantillonnage par strates
Phase 1 : Les donnes de base sont collectes auprs dun chantillon de grande taille Phase 2 :
Les informations collectes en premire phase sont utilises pour dfinir la procdure d'chantillonnage d'un souschantillon Des donnes dtailles sont collectes sur le sous-chantillon
Exemple : Analyse des pratiques sportives Phase 1 : Echantillon alatoire de grande taille comprenant trs peu de questions dont : Pratiquez-vous un sport ? Si oui, lequel Phase 2 : Echantillonnage SI ou par strates (en utilisant les informations collectes en phase 1) Questionnaire complet (uniquement auprs de sportifs)
Pour chaque mode d'chantillonnage il existe des mesures de la prcision des estimateurs : ! Permet de dfinir la taille minimale de l'chantillon pour une prcision donne ! Permet anticiper le degr de prcision pour une taille d'chantillon donne
Ch 2 L'chantillonnage
!
Les mthodes non alatoires sont des mthodes o : La probabilit d'tre enqut n'est pas contrle L'chantillon final ne peut tre considr comme un chantillon alatoire
ATTENTION : Beaucoup de ces mthodes sont bases sur le hasard !!! Au hasard
Elles sont souvent utilises ! Pour des tudes exploratoires ! Lorsque le budget est trs limit ! Quand il est impossible ou non envisageable dutiliser la mthode alatoire.
lchantillonnage laveuglette ou de commodit : comme a vient Ex : les interviews dans la rue (hasard " alatoire !)
!
Lchantillonnage au jug : en fonction de lide quon se fait de la composition de la population Ex : Clients types en marketing
La mthode des itinraires : On impose l'enquteur un certain itinraire en indiquant les points o il doit faire remplir un questionnaire Lchantillonnage par quotas (aka chantillonnage dirig ou par choix raisonn ) : On demande aux enquteurs de faire un nombre dentrevues dans divers groupes tablis en fonction du secteur gographique, de lge, du sexe ou dautres caractristiques Lenquteur doit respecter son quota.
Largement utilise dans les enqutes dopinion et les tudes de march : Ne suppose pas de liste des individus de la population Quotas dfinis partir d'informations publiques (rpartition de la population par sexe, age, zones gographiques, CSP, etc.) Permet d'obtenir un chantillon reprsentatif de la population Peut permettre une bonne prcision des mesures
MAIS : La reprsentativit porte uniquement sur la structure selon les variables qui dfinissent les quotas : les autres dimensions sont ignores et la structure de corrlation n'est pas assure... La qualit dpend trs fortement du contrle des enquteurs : RDC et 1er tages sur-reprsents Enqutes concentres sur des lots etc.
Avantages :
Dsavantages:
Faible qualit Biais d'enquteurs sur des quotas par groupes ( 60 ans et plus : plus facile de trouver un 60 qu'un 105..., Surreprsentation des RDC et 1er tages) Pas d'expression thorique de la prcision des mesures