Vous êtes sur la page 1sur 34

chantillonnage

Dr Christophe Hebeisen christophe.hebeisen@a3.ep.ch


HEG - conomie dEntreprise cours 4 et 5 11 et 18 mars 2009

stat enqute 1 / 34

h e g

Objectifs
s

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance EQM

Connatre la dirence entre sondage probabiliste et sondage empirique Estimation dune quantit dintrt :
x Connaissance du biais x Connaissance de la variance dchantillonnage x Convergence et erreur quadratique moyenne

stat enqute 2 / 34

Objectifs Introduction chantillonnage et taux de sondage Classes de sondage Estimation dune quantit dintrt Biais Variance EQM

h e g

Introduction

stat enqute 3 / 34

h e g
Objectifs Introduction chantillonnage et taux de sondage Classes de sondage Estimation dune quantit dintrt Biais Variance EQM

chantillonnage et taux de sondage


Lchantillonnage consiste dterminer comment slectionner les personnes qui seront incluses dans lenqute. De faon gnrale, on considre une population de taille N nie dans laquelle on veut tirer un chantillon de taille n nie. Le rapport n f= N est appel taux de sondage. Lchantillonnage (le tirage) peut tre eectu avec ou sans remise.

stat enqute 4 / 34

Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

h e g

Classes de sondage

stat enqute 5 / 34

h e g

Deux classes de sondage


1. Sondages probabilistes (ou alatoires ) : Chaque individu de la population a une probabilit connue priori dappartenir lchantillon. Cette probabilit est appele probabilit dinclusion. 2. Sondages empiriques (ou non alatoires ) : La probabilit dinclusion des individus dans lchantillon est inconnue.

Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

stat enqute 6 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

Sondages empiriques
Malgr leurs dfauts, les mthodes non alatoires sont trs utilises dans les sondages dopinion et les tudes de march, essentiellement pour deux raisons : 1. La raret ou la non-disponibilit des bases de sondage 2. Le cot et les dlais de ralisation

stat enqute 7 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

Principales mthodes empiriques


Les principales mthodes empiriques sont :
s s s s s

les quotas les itinraires lemplacement le volontariat la mthode boule de neige

stat enqute 8 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

La mthode des quotas


Dnition Les dirents caractres que lon peut observer dans une population ntant pas indpendants entre eux, un chantillon identique la population dans laquelle il est prlev en ce qui concerne la distribution statistique de certains caractres importants sera galement peu dirent de la population en ce qui concerne la distribution statistique des caractres qui ne sont pas contrls. J. Desabie (1966) Mthode des quotas = construire un chantillon qui soit un modle rduit de la population tudie.

stat enqute 9 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

La mthode des quotas


Le principe de la mthode est le suivant :
s

choisir quelques caractristiques (= quotas) dont on connat la distribution dans la population tudie donner aux enquteurs un plan de travail (souvent accompagn de consignes de recherche) qui lui impose le respect de certaines proportions au sein de ses interviews

Lchantillon obtenu est reprsentatif de la population par rapport aux variables choisies (il respecte les proportions constates dans la population). Dicult : raliser ses ns de quotas pour viter de se retrouver dans une situation dlicate pour ses derniers interviews. Important : contrler a posteriori le travail des enquteurs par contre-enqute.
stat enqute 10 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

La mthode des quotas


La feuille de quotas aura p.ex. lallure suivante : Rgion Habitat 100 interviews raliser Sexe de linterview homme femme ge de linterview < 18 ans 18 60 ans > 60 ans Secteur dactivit banque autre Lausanne plus de 130000 habitants

40 ** ** ** ** 60 ** ** ** ** ** ** 20 ** ** 60 ** ** ** ** ** ** 20 ** ** 50 ** ** ** ** ** 50 ** ** ** ** **

stat enqute 11 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

La mthode des quotas


Les inconvnients de la mthode sont ceux des mthodes non alatoires en gnral :
s

existence de biais (mme avec les consignes) ; la qualit des enqutes repose sur celle du travail de lenquteur impossibilit de calculer des marges derreur

Les avantages sont essentiellement :


s

des cots et des dlais de ralisations plus faibles que ceux dune enqute alatoire des rsultats que lon peut qualier de dles

stat enqute 12 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

Sondages probabilistes
Chaque membre de la population possde une probabilit connue a priori dtre inclus dans lchantillon (= probabilit dinclusion). Contrairement la mthode des quotas (mimer la population tudie), les mthodes probabilistes permettent de sur- ou sous-chantillonner certaines catgories de la population. Par exemple, des personnes possdant une caractristique rare importante pour ltude devront tre sur-reprsentes dans lchantillon. Les estimations seront ensuite corriges par pondration. But : sassurer que toutes les tendances ou caractristiques importantes de la population soient prises en compte dans lchantillon, an que ce dernier soit reprsentatif.

stat enqute 13 / 34

h e g
Objectifs Introduction Classes de sondage Sondages empiriques La mthode des quotas Sondages probabilistes Estimation dune quantit dintrt Biais Variance EQM

Sondages probabilistes
Les mthodes dchantillonnage probabilistes peuvent tre un ou plusieurs niveaux (ou degrs).
s

Un niveau : lchantillonnage se fait par rapport lensemble de la population considre


x sondage alatoire simple (SAS)

Deux niveaux ou plus : la population est tout dabord dcoupe en plusieurs groupes mutuellement exclusifs, puis lchantillonnage seectue indpendamment au sein de ces groupes.
x sondage strati x sondage par grappes

stat enqute 14 / 34

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

h e g

Estimation dune quantit dintrt

stat enqute 15 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Objectif
But : estimation dun paramtre (inconnu) au sein dune . population de taille N (nie et connue). Cet estimateur est not est considr comme une Rappel (statistiques III) : un estimateur variable alatoire dont
s s

) le comportement en moyenne est lesprance, E ( ), est une mesure de dispersion des estimations la variance, Var(

stat enqute 16 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Rappels sur lesprance et la variance


Si X est une variable alatoire discrte pouvant prendre les valeurs xi , avec des probabilits respectives p(xi ), alors pour toute fonction g on aura E g (X ) = g (xi )p(xi )
i

Il en dcoule les formules suivantes pour lesprance :


s s s s

E (X ) =
i

xi p(xi ) xn i p(xi )
i

E (X n ) =

E (aX + b) = aE (X ) + b, o a et b sont des constantes E (X + Y ) = E (X ) + E (Y )

stat enqute 17 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Rappels sur lesprance et la variance


La variance de X est la quantit Var(X ) = E (X E (X ))2 = . . . = E (X 2 ) E (X ) Proprit de la variance : Var(aX + b) = a2 Var(X ) La racine carre de la variance de X est appele lcart-type de X , qui se note : = Var(X ) Exercice : calculer lesprance et la variance de la variable X , rsultat dun lancer de d non truqu
2

stat enqute 18 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Solution
Solution : X peut prendre les valeurs 1, 2, 3, 4, 5 et 6 avec probabilit respective p = 1 6 . On aura donc E (X ) E (X 2 ) = 1
1 6

+2
1 6

1 6

+3
1 6

1 6

+4
1 6

1 6

+5

1 6

+6
1 6

1 6 91 6

7 2

= 12
91 6

+ 22
7 2 2

+ 32

+ . . . + 62

Var(X ) =

35 12

stat enqute 19 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Paramtre dintrt
Exemples de paramtres dintrt dune population de taille N nie.
s

une moyenne =

Yi
i=1

=Y

Exemple : Yi = note dun test, taille dun individu, etc.


s

une proportion =

Yi
i=1

o Yi = 0 ou 1 =Y

Exemple : Yi = 0 (homme), Yi = 1 (femme)


s

un total =

Yi = T
i=1

Exemple : Yi = prix dun article dans un magasin

stat enqute 20 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Objectif Rappels sur lesprance et la variance Paramtre dintrt Principe Biais Variance EQM

Principe de base
Lestimateur est construit sur le mme modle que le paramtre estimer. Par exemple, si s est lchantillon de taille n, alors
N

=
i=1

i Yi

=
is

wi (s)Yi

wi (s) = poids attach lindividu i de lchantillon s (= nombre dindividus de la population quil reprsente) De la mme manire, si le paramtre dintrt est une variance, alors lestimateur est une expression quadratique. Dnition Un plan de sondage est constitu dune mthode dchantillonnage et de lexpression dun estimateur.

stat enqute 21 / 34

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

h e g

Biais

stat enqute 22 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

Le biais
Si nous associons une probabilit p(si ) tout chantillon si de taille du paramtre n xe, nous avons vu que lesprance de lestimateur est la valeur ) = (si ) E ( p(si )
i

Dnition Le biais de lestimateur est la quantit ) = E ( ) = E ( ) Biais( Un estimateur est dit sans biais (ou non biais) si le biais est nul, ) = cest--dire si E ( ) le plus proche possible de But : diminuer le biais en ayant E (

stat enqute 23 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

Exemple
Prenons une population de 4 individus {1, 2, 3, 4}. Le revenu mensuel de ces individus est donn par le tableau suivant : R1 R2 R3 R4 = 6 000 = 12 000 = 8 000 = 6 000

Le salaire moyen de cette population est donc = R1 + R2 + R3 + R4 = 8 000 =R 4 Un sondage doit tre conduit an destimer le revenu moyen de cette population (le tableau ci-dessus nest pas connu). Si un sondage ne peut se faire que sur 2 individus, pour des questions budgtaires, quels sont les chantillons possibles?
stat enqute 24 / 34

h e g

Exemple (suite)
s1 = {1, 2} s2 = {1, 3} s3 = {1, 4} s4 = {2, 3} s5 = {2, 4} s6 = {3, 4}

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

Estimons le revenu moyen par la moyenne simple : (s1 ) = (s2 ) = (s3 ) =


R1 +R2 2 R1 +R3 2 R1 +R4 2

= 9 000 = 7 000 = 6 000

(s4 ) = (s5 ) = (s6 ) =

R2 +R3 2 R2 +R4 2 R3 +R4 2

= 10 000 = 9 000 = 7 000

Si tous les chantillons ont la mme probabilit dtre pris, cest--dire p(si ) = 1 6 , lesprance de la moyenne simple sur tous les chantillons possibles vaut
6

) = E (
i=1

(si ) = 8 000 = (biais nul) p(si )

stat enqute 25 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

Exemple (suite)
Mais si lon dcide de favoriser lindividu 1 (il est p.ex. plus coopratif que les autres), on pourrait associer aux ensembles les probabilits suivantes : p(s1 ) = p(s2 ) = 0.25, p(s3 ) = 0.2, p(s4 ) = p(s5 ) = p(s6 ) = 0.1 Rappelons que la somme des probabilits doit faire 1, ce qui est bien le cas ici : 2 0.25 + 1 0.2 + 3 0.1 = 1 Lesprance de la moyenne simple vaut alors
6

) = E (
i=1

(si ) = 7 800 = p(si )

stat enqute 26 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Biais Variance EQM

Exemple (suite)
Le biais vaut donc ici 7 800 8 000 = 200, et lerreur relative commise vaut biais paramtre =
200 8 000

= 2, 5%

Remarquons encore quen ne tirant quun chantillon (cas le plus courant), la plus petite valeur possible du biais est 1 000 (cas s1 , s2 , s5 et s6 ) ; lerreur commise est alors de 12, 5%. Au pire, il est de 2 000 (cas s3 et s4 ), ce qui arrive avec une 1 1 probabilit de 6 +1 = 6 3 dans le cas quiprobable, et de 0.2 + 0.1 = 0.3 dans le cas avec poids de prfrence. Lerreur commise est de 25%.

stat enqute 27 / 34

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance variance EQM

h e g

Variance de lchantillon

stat enqute 28 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance variance EQM

Variance de lestimateur
: On rappelle la variance de lestimateur ) = E E ( ) Var(
2

=
i

(si ) E ( ) p(si )

La variance et lcart-type sont des mesures de prcision de lestimateur. Plus elles sont petites, plus lestimation sera prcise en moyenne. Amlioration de la prcision:
s s

chercher une meilleure formule pour modier la mthode dchantillonnage

But : chercher rduire la variance (le plus souvent en premier).

stat enqute 29 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance variance EQM

Exemple
Exemple prcdent, avec poids de prfrence. Nous avions : (s1 ) = 9 000 (s2 ) = 7 000 (s3 ) = 6 000 ) = 7 800 et E ( Nous calculons (s1 ) E ( ) = 1 200 (s2 ) E ( ) = 800 (s3 ) E ( ) = 1 800 (s4 ) E ( ) = 2 200 (s5 ) E ( ) = 1 200 (s6 ) E ( ) = 800 (s4 ) = 10 000 (s5 ) = 9 000 (s6 ) = 7 000

p(s1 ) = p(s2 ) = 0.25, p(s3 ) = 0.2, p(s4 ) = p(s5 ) = p(s6 ) = 0.1

) = 0.25 (1200)2 + 0.25 (800)2 + . . . + 0.1 (800)2 Var( = 1 860 000


stat enqute 30 / 34

Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance EQM EQM

h e g

Erreur quadratique moyenne

stat enqute 31 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance EQM EQM

Erreur quadratique moyenne


Dnition Lerreur quadratique moyenne (EQM ; angl. MSE : Mean Square ) = E ( )2 . Error) est la quantit EQM( On peut montrer que ) = Var( ) + Biais( ) EQM(
2

Parmi plusieurs estimateurs dun mme paramtre, certains peuvent tre biaiss, dautres non, certains ont mme variance, dautres non. LEQM est un indicateur de la qualit dun estimateur prenant en compte les deux notions. But : choisir celui qui a lEQM la plus petite.

stat enqute 32 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance EQM EQM

Exemple 1
Reprenons lexemple prcdent. ) = Var( ) + Biais( ) 2 EQM( = 1 860 000 + (200)2 = 1 900 000 ) = E ( )2 Calcul avec EQM( ) = (9 000 8 000)2 0.25 + EQM( (7 000 8 000)2 0.25 + (6 000 8 000)2 0.2 + (10 000 8 000)2 0.1 + (9 000 8 000)2 0.1 + (7 000 8 000)2 0.1 = 1 900 000

stat enqute 33 / 34

h e g
Objectifs Introduction Classes de sondage Estimation dune quantit dintrt Biais Variance EQM EQM

Exemple 2
Regardons lexemple du support de cours : on a un paramtre et 1 et 2 de ce paramtre. On connat deux estimateurs 1 ) = 100 Var( 2 ) = 50 Var( On aura donc 1 ) = 100 + 02 = 100 EQM( 2 ) = 50 + 52 = 75 EQM( 2 Choix de lestimateur dans ce cas : 1 ) = 0 Biais( 2 ) = 5 Biais(

stat enqute 34 / 34