Vous êtes sur la page 1sur 15

Mthodologie et traitement d'une enqute

L3 Economtrie 2011-12 M. Fournier

Ch 2 L'chantillonnage*

A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire

* Remerciements : F. Kohler, Universit Paris V.

Ch 2 L'chantillonnage
A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire
!

A. La base de sondage

La population totale laquelle on s'intresse, la population source (NB : diffrente de la population cible)
!

Deux types de bases de sondage :

Les nomenclatures

Les bases alatoires

A. Les nomenclatures
Liste de noms et dadresses qui donnent directement accs des units Exemples : Fichier clients Fichier adhrents Registres municipaux

A. Les bases alatoires

Liste de lieux (gographiques ou non) qui donnent accs indirectement des units

Exemples : Service d'une entreprise Quartier d'une ville Sortie de bureau de vote

A. Qualit de la base de sondage


!

A. Dfinition des units de l'enqute


!
!

Exhaustivit : Aucun membre de la population observe ne doit en tre exclu Unicit : Aucun individu ne doit y tre reprsent plusieurs fois Actualit : Elle doit tre jour NB : C'est le socle de l'enqute. Un biais ce niveau se rpercute sur la totalit du travail

Lunit dchantillonnage
!

Unit de la base de sondage

Lunit dclarante
!

Unit qui fournit linformation quexige lenqute


!
!

Lunit danalyse ou de rfrence

Cest lunit au sujet de laquelle linformation est fournie

A. Exemples d'units de l'enqute


!
!
!

A. Taille de l'chantillon et degr de prcision


!

Enqute mene sur les nouveau-ns


Unit dchantillonnage :
Le mnage
!

Les rsultats obtenus sur un chantillon ne sont que des estimateurs des valeurs recherches

!
!

Unit dclarante
Le membre de la famille qui rpond l'enqute (lun des deux parents, la grand-mre, la nounou, etc.) Le nouveau-n

!
!

Unit danalyse

Le degr de prcision de ces estimateurs dpend : De la taille de l'chantillon Du mode d'chantillonnage

A. La taille de lchantillon
!

Deux approches pour construire un chantillon

Une procdure d'chantillonnage est toujours un compromis entre : le degr de prcision le budget le temps disponible les contraintes logistiques Mthodes alatoires (probabiliste) Chaque unit a une probabilit non nulle dtre slectionne

Mthodes non alatoires

(non probabiliste)

La nature de ce compromis dpend

de la taille et de la dispersion de la population du mode d'enqute et de la procdure d'chantillonnage

Ch 2 L'chantillonnage
A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire

B. Les mthodes d'chantillonnage alatoire

B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases

B. Les mthodes d'chantillonnage alatoire


B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
!

B1. Lchantillonnage alatoire simple

Chaque individu de la base d'chantillonnage a la mme probabilit d'tre slectionn pour figurer dans lchantillon Ce choix peut se faire avec remise ou sans remise :
!

Avec remise : un individu peut tre slectionn plusieurs fois Sans remise (cas le plus courant) : un individu ne peut tre slectionn plus d'une fois

B1. Lchantillonnage alatoire simple


!

B1. Procdure SI : chantillonnage sans remise


!

Avantages :
Reprsentativit statistique (par le tirage alatoire) assure lorsque la taille de l'chantillon est grande Simplicit

Une procdure simple pour obtenir un chantillon de taille n :

Inconvnients :
Ncessite un accs exhaustif la base d'chantillonnage La reprsentativit n'est pas assure si la taille de l'chantillon est faible

1. On aloue alatoirement un rel random (compris entre 0 et 1) chaque individu 2. On trie les individus par la variable random et on slectionne les n premiers individus de la liste trie

B1. SI sous Excel


!

B1. Nombre dchantillon diffrents possibles


!

Donnes individuelles en lignes : 1. insrer d'une nouvelle colonne 2. dans cette colonne, tirer alatoirement un nombre compris entre 0 et 1 pour chaque ligne par la fonction =ALEA() 3. trier la base selon les valeurs de la nouvelle colonne 4. slectionner les n premiers individus

Si lon note n la taille de lchantillon et N la taille de la population. ! Tirage avec remise : n N

! Tirage sans remise : N! n C N! n ! " N #n$! n la fraction de sondage N On appelle f !

B1. Moyenne empirique et chantillonnage SI


!

B1. Moyenne empirique pour un SI

La moyenne empirique d'une variable X sur l'chantillon n ' Xi % & X! 1 n est un estimateur sans biais de la moyenne de X, de variance :
!
n 2

% Var " X $ % % & Var " X $!"1# f $ n

La prcision de l'estimateur augmente :

& ' " X i# X $ % Var " X $ n 1 % % & Var " X $!"1# $ 1 !"1# f $ N n n#1 n

avec la taille de l'chantillon, avec la fraction de sondage Si l'on a une estimation de Var(X), on peut dterminer n de sorte atteindre un niveau dsir de prcision pour X

B1. Proportions empiriques pour un SI


!
n

B1. Proportions empiriques pour un SI


!

Les proportions empiriques pour une variable muette I sur l'chantillon

' Xi p %! 1 n sont des estimateurs sans biais des proportions de variance :


p "1# p $ % % % % Var " p $!"1# f $ n#1

p "1% p # ! ! ! ! Var " p #$"1% f # n%1 La prcision de l'estimateur d'une proportion augmente avec : La taille de l'chantillon La fraction de sondage La prcision en points de % (Variance et Ecart type) est plus faible pour des proportions proches de 50%

NB : x (1-x) a son max en x = 1/2

B1. Proportions empiriques pour un SI


p "1% p # ! ! ! ! Var " p #$"1% f # n%1
! !

B1. Proportions empiriques pour un SI

On a le plus souvent : f petit N grand !

Pour un ordre de grandeur de la proportion attendue, on peut dterminer n de sorte atteindre le niveau dsir de prcision pour p

p "1% ! # ! p ! Var " p #& ! n


!

Exercice : Pour p ! 50% et f ! 0, quel n faut il si on veut avoir un intervalle de confiance d'une amplitude de 2 points de pourcentage ?

B1. Proportions empiriques pour un SI


!

B1. Proportions empiriques pour un SI


!

Intervalle de confiance d'amplitude 0,002% 95% (sous hypothse de normalit) :

Intervalle de confiance pour un chantillon de 1000 individus et une proportion = 52 % :

!
0,5!1,96 . ! 1,96 . ! n! 0,5

!
!n
!0,01

0,5!1"0,5# 0,5!1"0,5# ; 0,5$1,96. n n

!
"
2

0,52!1,96 .

!0,52".!0,48" !0,52".!0,48" ; 0,52#1,96 . 1000 1000

!
!

p! ! 0,49 ; 0,55 "

1,96 . 0,5 !1"9606 0,01

B. Les mthodes d'chantillonnage alatoire


B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
! ! ! !

B2. Lchantillonnage systmatique

Chaque individu de la base de sondage est numrot de 1 jusqu N (son rang)

Lentier voisin de N/n est not r et appel raison de sondage ou pas de sondage

On choisit au hasard un entier naturel d entre 1 et r (point de dpart)

On slectionne l'chantillon des individus de rang d + i.r (d+r , d+2r, d+3r, d+4r...)

B2. Lchantillonnage systmatique


!

B2. Lchantillonnage systmatique


!

Avantages : Facile mettre en oeuvre (un seul individu est choisi au hasard) Bonne rpartition de lchantillon dans lensemble de la liste Si l'ordre des individus dans la base de sondage est distribue alatoirement, mmes rsultats que l'EASSR Trs utilis en contrle de qualit

Dsavantages : Les donnes peuvent tre biaises cause de la priodicit (pas de 12 pour des donnes annuelles, de 7, pour des donnes quotidiennes...) Pas un chantillonnage alatoire si les individus ne sont pas rangs alatoirement dans la base de sondage

B. Les mthodes d'chantillonnage alatoire


B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
!

B3. Lchantillonnage stratifi (STSI)

Dmarche de slection :

1. On subdivise la population en strates (groupes relativement homognes) qui sont mutuellement exclusives 2. On choisit un mode de rpartition de l'chantillon total entre les strates 3.Dans chacune des strates, on tire au hasard (SI) le nombre choisi dindividus

B3. Lchantillonnage stratifi


! !

B3. Lchantillonnage stratifi

Les variables de stratification doivent tre :


- Simples utiliser - Faciles observer - troitement relies au thme de lenqute
!

Avantages : Assure une certaine reprsentativit Limite le risque d'chantillons extrmes Peut augmenter la prcision

Dsavantages : Ncessite des informations sur et dans la base de sondage


!

Exemple : Rpartition gographique

B3. Estimateurs en chantillonnage stratifi


!

B3. Estimateurs en chantillonnage stratifi


!

Estimateur d'une proportion partir de S chantillons de taille ns tirs alatoirement dans S strates de taille Ns :

Estimateur de la moyenne de X partir de S chantillons de taille ns tirs alatoirement

p!str #$ "
s#1 S

Ns ! p " N s

dans S strates de taille Ns :

N $ $ & X&str %' s X s s%1 N

! Variance de cet estimateur :

! Var ! p!str !!"


s!1

NB : fraction de sondage pour la strate s : f s %

! "
ns Ns

! Variance de cet estimateur :

Ns p s !1" p s # $ $ !1" f s# N ns

! $ Var ! X" !!"


str s!1

NB : fraction de sondage pour la strate s : f s !

! "

! $ " Ns Var s ! X ! !1" f s# N ns

ns Ns

B3. Echantillonnage stratifi Dveloppements


!

B3. Variance d'une moyenne (allocation proportionnelle)


!

Lchantillonnage stratifi permet de rduire la variance des estimateurs grce l'information qui dfinit les strates Il existe diverses procdures d'allocation des n units de l'chantillon dans les diffrentes strates
Allocation gale ( n s !Cte ) Allocation proportionnelle ( f Allocation puissance Allocation optimale
s

!n s " N s !Cte )

S ! ! ! " ! " N Var s ! X ! S n Var s ! X ! ! ! Var ! X"str !!" s !" s ns ns s!1 N s!1 n ! Echantillonnage alatoire (dcomposition de la variance) : S S ! ' " n $n %1& n s Var s ! X ! 2 # ! y " ! ys# " ! !" s Var ! X!SI !!" s " ! s!1 n #n$1% s#1 n$n%1& n s

Echantillonnage stratifi (fs ! 0) :

! "

! "

! ! " " ! Var ! X"str !!Var ! X!SI ! si les valeurs moyennes sont diffrentes entre les strates

B. Les mthodes d'chantillonnage alatoire


B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
! !

B4. Lchantillonnage par grappes

On slectionne au hasard un certain nombre d'units primaires (grappes) pour reprsenter la population.

On slectionne tous les individus des grappes choisies

Exemple : Slection au hasard de 20 coles primaires sur le dpartement du Rhne (grappes) Enqutes auprs de tous les enseignants de ces coles

B4. Lchantillonnage par grappes


!

B. Les mthodes d'chantillonnage alatoire

Avantages : Ne ncessite pas une liste globale de la population mais seulement des grappes. Cots logistiques rduits (dplacement, logement des enquteurs, etc.) Cots de suivi et de supervision rduits Dsavantage : Moindre prcision Moindre variabilit (autocorrlation) Perte de contrle sur la taille finale de lchantillon.

B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases

B5. Lchantillonnage plusieurs degrs


!

B5. Lchantillonnage plusieurs degrs


!

Premire tape : Echantillonnage par grappes ! Nouvelle base de sondage Deuxime tape : Echantillonnage alatoire simple (SI) sur chaque grappe ! Echantillon
NB : Les grappes peuvent elles-mmes tre dfinies en plusieurs tapes (vrai galement pour B5)

Avantages :

Mmes avantages que l'chantillonnage par grappes (cots, etc.) Possibilit de contrler la taille de lchantillon final

Exemple :
- Echantillon alatoire de villes franaises - Au sein des villes, chantillon alatoire de quartiers - Dans chaque quartier de chaque ville on fait un chantillonnage SI de mnages

Dsavantage :

Prcision des rsultats

B5. Lchantillonnage par grappes plusieurs degrs


!

B5. Lchantillonnage par grappes plusieurs degrs


!

Souvent utilis pour les enqutes face face Arbitrage cot qualit Impos par la logistique (choix de quartiers dans une ville, de villages dans un dpartement, etc.) Parfois implicitement utilis : Observations individuelles partir d'enqutes mnages (grappe = mnage) Observation salariales ou produit partir d'enqutes entreprises (grappe = entreprise)

Question de comprhension : Explicitez clairement la diffrence entre l'chantillonnage par grappes plusieurs degrs et l'chantillonnage par strates

B. Les mthodes d'chantillonnage alatoire


B1. Lchantillonnage alatoire simple B2. Lchantillonnage systmatique B3. Lchantillonnage stratifi B4. Lchantillonnage en grappes B5. Lchantillonnage plusieurs degrs B6. Lchantillonnage en plusieurs phases
! !

B6. Lchantillonnage plusieurs phases

Phase 1 : Les donnes de base sont collectes auprs dun chantillon de grande taille Phase 2 :

Les informations collectes en premire phase sont utilises pour dfinir la procdure d'chantillonnage d'un souschantillon Des donnes dtailles sont collectes sur le sous-chantillon

B6. Lchantillonnage plusieurs phases


! !

B. Lchantillonnage alatoire - Conclusions


!

Exemple : Analyse des pratiques sportives Phase 1 : Echantillon alatoire de grande taille comprenant trs peu de questions dont : Pratiquez-vous un sport ? Si oui, lequel Phase 2 : Echantillonnage SI ou par strates (en utilisant les informations collectes en phase 1) Questionnaire complet (uniquement auprs de sportifs)

Le mode d'chantillonnage doit tre choisi en fonction : De la question Du budget


!

Pour chaque mode d'chantillonnage il existe des mesures de la prcision des estimateurs : ! Permet de dfinir la taille minimale de l'chantillon pour une prcision donne ! Permet anticiper le degr de prcision pour une taille d'chantillon donne

Ch 2 L'chantillonnage
!

C. Mthodes empirique ou non alatoires

A. Dfinition de l'chantillon B. L'chantillonnage alatoire C. L'chantillonnage non alatoire D. Les erreurs


!

Les mthodes non alatoires sont des mthodes o : La probabilit d'tre enqut n'est pas contrle L'chantillon final ne peut tre considr comme un chantillon alatoire

ATTENTION : Beaucoup de ces mthodes sont bases sur le hasard !!! Au hasard

" Alatoire !!!!

! Ce sont des mthodes gnralement peu fiables

C. Mthodes empirique ou non alatoires


!

C. Mthodes non alatoires


!

Elles sont souvent utilises ! Pour des tudes exploratoires ! Lorsque le budget est trs limit ! Quand il est impossible ou non envisageable dutiliser la mthode alatoire.

lchantillonnage laveuglette ou de commodit : comme a vient Ex : les interviews dans la rue (hasard " alatoire !)
!

Lchantillonnage de volontaires : Ex : Expriences mdicales ou psychologiques


!

Lchantillonnage au jug : en fonction de lide quon se fait de la composition de la population Ex : Clients types en marketing

C. Mthodes non alatoires


!

C. La mthode des quotas


!

La mthode des itinraires : On impose l'enquteur un certain itinraire en indiquant les points o il doit faire remplir un questionnaire Lchantillonnage par quotas (aka chantillonnage dirig ou par choix raisonn ) : On demande aux enquteurs de faire un nombre dentrevues dans divers groupes tablis en fonction du secteur gographique, de lge, du sexe ou dautres caractristiques Lenquteur doit respecter son quota.

Largement utilise dans les enqutes dopinion et les tudes de march : Ne suppose pas de liste des individus de la population Quotas dfinis partir d'informations publiques (rpartition de la population par sexe, age, zones gographiques, CSP, etc.) Permet d'obtenir un chantillon reprsentatif de la population Peut permettre une bonne prcision des mesures

C. La mthode des quotas


!

Mthodes non alatoires


!

MAIS : La reprsentativit porte uniquement sur la structure selon les variables qui dfinissent les quotas : les autres dimensions sont ignores et la structure de corrlation n'est pas assure... La qualit dpend trs fortement du contrle des enquteurs : RDC et 1er tages sur-reprsents Enqutes concentres sur des lots etc.

Avantages :

Moins coteuses Plus faciles raliser


!

Dsavantages:

Faible qualit Biais d'enquteurs sur des quotas par groupes ( 60 ans et plus : plus facile de trouver un 60 qu'un 105..., Surreprsentation des RDC et 1er tages) Pas d'expression thorique de la prcision des mesures

Vous aimerez peut-être aussi