Vous êtes sur la page 1sur 73

Sondages et Enquêtes

LPID 2020-2021

(M. Badaoui) Techniques de Sondages ESTO 1 / 64


Plan

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 2 / 64


Plan

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 2 / 64


Plan

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 2 / 64


Plan

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 2 / 64


Plan

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 2 / 64


1. Introduction

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 3 / 64


1. Introduction

Objectif

Exemple introductif
On désire connaı̂tre l’âge moyen de TOUS les étudiants d’Oujda.
Recensement : je demande l’âge à tous les étudiants et je calcule la
moyenne . . . ça risque d’être long!
Sondage : je choisis une partie des étudiants (échantillon), je calcule
la moyenne des âges sur cette partie en espérant que cette moyenne
soit ”proche” de l’âge moyen de tous les étudiants.

(M. Badaoui) Techniques de Sondages ESTO 4 / 64


1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction

Objectif

Objectif
L’objectif de ce cours consiste à étudier des procédures de sondage pour
lesquelles nous pourrons répondre à ces questions, afin d’atteindre un
objectif précis : Comment, à partir d’une information partielle,
pouvons-nous obtenir certaines conclusions au niveau de la population
toute entière ?

(M. Badaoui) Techniques de Sondages ESTO 6 / 64


Recensement et sondage

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 7 / 64


Recensement et sondage

Recensement et sondage

Il existe deux approches pour connaı̂tre les caractéristiques statistiques


d’un caractère sur une population.
Définition
Recensement : Observation exhaustive de tous les éléments d’une
population.

Lorsque le recensement n’est pas possible pour des raisons de coût, de


temps ou à cause de certaines contraintes (test destructif par exemple), on
a recours à un sondage.
Définition
Sondage : Méthode qui permet de construire un échantillon et qui prélève
qu’une partie des informations existantes.

(M. Badaoui) Techniques de Sondages ESTO 8 / 64


Recensement et sondage

Recensement et sondage

Remarque
Si l’échantillon est constitué de manière correcte, les caractéristiques
statistiques de l’échantillon seront proches de celles de la population totale.

Remarque
Si le recensement se révèle théoriquement meilleur qu’un sondage
parcequ’il est exhaustif, il n’en est pas moins vrai que le sondage se voit
souvent préféré.

(M. Badaoui) Techniques de Sondages ESTO 9 / 64


Recensement et sondage

Recensement et sondage
Pourquoi le sondage se voit souvent préféré à un recensement ?
Parce qu’il est : plus facile à obtenir, d’un coût moins élevé.

Exemple
Pour fixer quelques ordres de grandeur, une opération telle que le
Recensement Général de la Population et de l’Habitat menée en Maroc à
peu près tous les 10 ans (1960, 1971, 1982, 1994, 2004 et 2014)
occasionne un cout global de 900 Millions DH pour 2014 (417 Millions DH
pour l’année 2004), il a duré 20 jours, et il a mobilisé 53.000 agents
recenseurs supervisés par environ 20.000 contrôleurs, selon le
Haut-Commissariat au Plan.

Remarque
Les 900 millions de DH couvrent les travaux cartographiques, l’exécution
et l’exploitation des données.
(M. Badaoui) Techniques de Sondages ESTO 10 / 64
Recensement et sondage

Recensement et sondage

Autres avantages
Parallèlement à la question des couts, l’enquête par sondage présente
l’avantage, par rapport au recensement, de fournir des résultats
beaucoup plus rapidement disponibles, puisqu’elle limite de façon
évidente l’ampleur des tâches de saisie des données sur ordinateur, de
contrôle de leur qualité, de leur codification (attribution d’un code
numérique par modalité de réponse), et le volume de calculs.
Le sondage est souvent confié à une équipe réduite et spécialisée.
Ainsi nous évitons des erreurs dues : au caractère inexpérimenté des
personnes chargées de l’enquête aux difficultés d’être exhaustif.

(M. Badaoui) Techniques de Sondages ESTO 11 / 64


Recensement et sondage

Recensement et sondage
Remarque
il ne faut cependant pas opposer systématiquement les recensements et les
sondages, car les deux modes de collecte d’information présentent des
aspects complémentaires on traite une partie de l’information collectée lors
des recensements par sondages (), on mesure à tous niveaux la qualité
d’un recensement par sondage (pour mesurer la qualité de la couverture du
Recensement Général de la Population, on échantillonne des aires
géographiques et on y réalise une seconde opération de recensement, dont
on compare les résultats à la première), on teste les formulaires de
recensement par sondage (pour mesurer les taux d’erreurs de saisie, on
échantillonne des formulaires de recensement, on les fait ressaisir par un
opérateur qui n’est pas l’opérateur titulaire, et on compare avec la saisie
d’origine). A l’inverse, les recensements fournissent des bases de sondage,
de l’information auxiliaire fort utile lors du tirage d’échantillon ou pour les
redressements.
(M. Badaoui) Techniques de Sondages ESTO 12 / 64
Terminologie

1 Introduction

2 Recensement et sondage

3 Terminologie
Définitions
Sources d’erreurs dans une enquête
Objectif d’un sondage

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 13 / 64


Terminologie Définitions

Définitions

Population : ensemble des unités sur lesquelles porte l’étude (notons


N la taille de la population).

U = {u1 ; u2 ; . . . ; uN } = {1; 2; . . . ; N}

Exemples de population:
L’ensemble des touristes d’un pays, l’ensemble des étudiant d’une ville,
l’ensemble des ménages d’un pays, la production de pièces mécaniques
d’une usine . . .
individu: élément uk ∈ U, il est trés important que l’individu uk ∈ U
doit être repérer précisément et sans aucune ambiguité : identifiant k.

(M. Badaoui) Techniques de Sondages ESTO 14 / 64


Terminologie Définitions

Définitions

Échantillon : sous-ensemble d’unités de population (notons n la taille


de l’échantillon).
S = {uk1 ; uk2 ; . . . ; ukn } ,
avec
{k1 ; k2 ; . . . ; kn } ⊂ {1; 2; . . . ; N}

(M. Badaoui) Techniques de Sondages ESTO 15 / 64


Terminologie Définitions

Définitions

Sondage : toute forme d’échantillonnage qui permet de constituer un


échantillon S à partir de la population U.
L’ensemble des techniques de prélèvement de l’échantillon se compose
essentiellement de deux approches:
1 Méthodes aléatoires (sondage probabiliste): les individus sont
échantillonnées (sélectionnés) selon un procédé probabiliste p(s) ou
chaque individu a une probabilité donnée connue d’avance πk
d’appartenir à l’échantillon;
2 Méthodes non aléatoires (sondage non probabiliste): sont des
méthodes où le concept de ”chance égale” est absent, en générale ces
méthodes sont peu fiables. Elles ne nécessite pas de base de sondage et
elles sont souvent utilisées pour des études exploratoires, pour réduire
les coûts ou lorsqu’il est impossible ou non envisageable d’utiliser les
méthodes aléatoires.

(M. Badaoui) Techniques de Sondages ESTO 16 / 64


Terminologie Définitions

Définitions

Base de sondage : liste des unités de la population. Il existe de


types de bases:
Les nomenclatures: Liste de noms et d’adresses qui donnent
directement accès à des unités (exemple: liste des élèves inscrit à
l’ESTO)
Les bases aréolaire: Liste de ”régions” qui donnent accès indirectement
à des unités (exemple: Départements de l’ESTO)
Taux de sondage : rapport entre la taille de l’échantillon n et la
taille de la population N.
Estimateur : résultat estimé à partir des données observées dans
l’échantillon qui représente la valeur vraie du phénomène dans la
population, avec un certain degré d’incertitude.

(M. Badaoui) Techniques de Sondages ESTO 17 / 64


Terminologie Définitions

Sources d’erreurs dans une enquête

Les méthodes de sondage peuvent être sources d’erreurs. Un certain


nombre d’erreurs pourront être éliminées, certaines pourront être réduites,
mais d’autres persisteront. On distingue:
Erreur d’échantillonnage: Le fait d’étudier un échantillon plutôt qu’un
autre engendre forcément une erreur. Cette erreur est inévitable.
Erreur de mesure: erreur due à l’appareil de mesure. Un instrument
est fidèle s’il répond exactement de la même façon quand il est placé
dans deux situations identiques. Une question claire est dite fidèle
quand tout le monde la comprend de la même façon. Il est valide
lorsqu’il mesure vraiment ce qu’il est censé mesurer.
Erreur de couverture: erreur liée au fait que la population
échantillonnée n’est pas celle que l’on voulait étudier.
Non-réponses : absence de mesure pour certaines unités de
l’échantillon.
(M. Badaoui) Techniques de Sondages ESTO 18 / 64
Terminologie Définitions

Objectif d’un sondage

Objectif
Relever auprès de chaque individu uk de la population U, à l’aide d’un
questionnaire ou d’un autre moyen de collecte, la valeur d’une ou de
plusieurs variables d’intérêt.

Définition
Soit une variable Y , appelée variable d’intérêt, dont les valeurs associées
à chaque unité de sondage sont notées y1 ; . . . ; yN (elle prend la valeur yk
pour l’individu k).

(M. Badaoui) Techniques de Sondages ESTO 19 / 64


Terminologie Définitions

Objectif d’un sondage

Retour aux exemples


U = touristes ⇒ Y = budget dépensé
U = étudiants d’Oujda ⇒ Y = âge de l’étudiant
U = pièces produites ⇒ Y = pièce défectueuse ou non

Remarque
Les deux premières variables sont quantitatives et la dernière est
qualitative.

(M. Badaoui) Techniques de Sondages ESTO 20 / 64


Terminologie Définitions

Objectif d’un sondage

Remarque
La dernière variable est dichotomique. Pour représenter cette variable,
nous la quantifions au moyen d’une fonction indicatrice selon laquelle la
valeur Y prise par la pièce est égale à 1 si la pièce est défectueuse, 0 sinon.

Remarque
Ce processus se généralise dès que nous avons à faire à une variable
dichotomique.

(M. Badaoui) Techniques de Sondages ESTO 21 / 64


Terminologie Définitions

Objectif d’un sondage

L’objectif d’un sondage :


obtenir l’information sur un paramètre θ qui est une fonction de yk ,
θ = θ (y1 ; . . . ; yN ).
Le paramètre θ est inconnu.
Si Y est quantitative, alors θ peut être
P
1 ty = k∈U yk le total de Y dans la population U
µy = N1 k∈U yk la moyenne de Y
P
2
3 le quantile (médiane) de Y
4 la variance et l’écart-type
Si Y est qualitative, alors θ peut être essentiellement des
pourcentages d’individus de la population dont la variable prend telle
ou telle modalité.

(M. Badaoui) Techniques de Sondages ESTO 22 / 64


Terminologie Définitions

Objectif d’un sondage

Chaque individu k de l’échantillon S est interrogé et on note yk .


On obtient
{(k; yk ); k ∈ S}
Les valeurs yk ; avec k ∈ S sont utilisées pour construire un
estimateur θbn (yk ; k ∈ S) de θ (yk ; k ∈ U).
On veut inférer les résultats de l’échantillon S à la population U.
On regarde la précision de θbn ;
faire presque aussi bien qu’un recensement mais avec un coût beaucoup
plus faible.

(M. Badaoui) Techniques de Sondages ESTO 23 / 64


Terminologie Définitions

Objectif d’un sondage

La précision dépend de 3 éléments :


la taille n de l’échantillon : plus l’échantillon est grand, plus
l’éstimation est précise.
La variance de la variable d’interet : plus une population est
homogène (variance faible), plus le sondage est éfficace. Si tous les
individus sont caracterisés par des valeurs yi identiques, un seul suffit
a les représenter. A l’inverse, sonder dans une population très
hétérogene nécessite des échantillons de taille importante, ou un
découpage préalable en sous populations homogènes (principe de
stratification).
Le taux de sondage f = Nn : si le taux de sondage est egal a 1,


l’échantillon est la population entière et il n’y a plus d’erreur. Mais,


dans la trés grande majorité des sondages, les taux de sondage sont
trés faibles.

(M. Badaoui) Techniques de Sondages ESTO 24 / 64


Plan de sondage

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 25 / 64


Plan de sondage

Plan de sondage

La notion du plan de sondage est spécifique à la théorie des sondages.

La sélection de l’échantillon aléatoire S se fait à l’aide d’un plan de


sondage p sur U, c’est à dire à l’aide d’une loi de probabilité sur les parties
de U : X
∀s ⊂ U p(s) ≥ 0 et p(s) = 1
s⊂U

On note S l’échantillon aléatoire, et on distinguera


l’estimateur θbn (yk ; k ∈ S) ≡ θbn (S),
l’estimation θbn (yk ; k ∈ s) ≡ θbn (s).
On appelle algorithme d’échantillonnage une méthode pratique permettant
de sélectionner un échantillon selon le plan de sondage choisi.

(M. Badaoui) Techniques de Sondages ESTO 26 / 64


Plan de sondage

Plan de sondage

Définition
Un plan de sondage p(.) est dit de taille fixe, égale à n, si seuls les
échantillons de taille n ont une probabilité non nulle d’être tirés :

Card(s) 6= n =⇒ p(s) = 0

Définition
Un plan de sondage p(.) est dit simple si deux échantillons de même taille
ont la même probabilité d’être sélectionnés :

Card(s1 ) = Card(s2 ) =⇒ p(s1 ) = p(s2 )

(M. Badaoui) Techniques de Sondages ESTO 27 / 64


Plan de sondage

Plan de sondage

Remarque
Clairement, on a CNn échantillons (non ordonnés) de taille n dans U. Ainsi
si le plan est simple et de taille fixe on a pour tout s ∈ S
(
1
CNn Card(s) = n;
p(s) =
0 Card(s) 6= n.

(M. Badaoui) Techniques de Sondages ESTO 28 / 64


Plan de sondage

Plan de sondage

Exemple
Soit une population U = {1; 2; 3; 4} et R =le revenu moyen de cette
population.
On a R1 = 6000; R2 = 12000; R3 = 8000; R4 = 6000.
On veut interroger que deux personnes, alors on a six échantillons de
tailles 2 sans remise:
s1 = {1; 2}; s2 = {1; 3}; s3 = {1; 4} s4 = {2; 3};s5 = {2; 4}; s6 = {3; 4}
On prend
p(s1 ) = 0, 25; p(s2 ) = 0, 25; p(s3 ) = 0, 2; p(s4 ) = 0; 1; p(s5 ) = 0, 1;
p(s6 ) = 0, 1;

(M. Badaoui) Techniques de Sondages ESTO 29 / 64


Plan de sondage

Plan de sondage

Remarque
La variable aléatoire S prend ses valeurs dans

{{1; 2} ; {1; 3} ; {1; 4} ; {2; 3} {2; 4} ; {3; 4}}

On a par exemple

P (S = {1; 2}) = p ({1; 2}) = 0, 2

(M. Badaoui) Techniques de Sondages ESTO 30 / 64


Plan de sondage

Variable indicatrice

Définition
On appelle variable indicatrice la variable aléatoire Ik = Ik (S) définie de la
façon suivante : 
1, k ∈ S;
Ik =
0, k 6∈ S.

L’utilisation de la variable Ik , indiquant l’appartenance à l’échantillon de


l’unité k, permet souvent de simplifier les calculs.

(M. Badaoui) Techniques de Sondages ESTO 31 / 64


Plan de sondage

Probabilités d’inclusion d’ordre 1 (premier degré)

On note πk la probabilité d’inclusion de l’unité k, c’est à dire la probabilité


que l’unité k soit retenue dans l’échantillon :
X
πk = P(k ∈ S) = P (Ik = 1) = p(s)
s
k∈s

Notons également que par définition, πk = Ep [Ik ].


En pratique, les probabilités d’inclusion πk sont fixées avant le tirage à
l’aide d’une information auxiliaire. On utilise ensuite un plan de sondage
qui respecte ces probabilités d’inclusion.

(M. Badaoui) Techniques de Sondages ESTO 32 / 64


Plan de sondage

Probabilités d’inclusion d’ordre 2 (deuxième degré)

On note πkl la probabilité que deux unités distinctes k et l soient


sélectionnées conjointement dans l’échantillon :
X
πkl = P(k; l ∈ S) = P (Ik Il = 1) = p(s)
s
k,l∈s

Notons que comme précédemment, πkl = Ep [Ik Il ].


Ces probabilités doubles interviennent notamment dans la variance des
estimateurs. Il est souvent difficile de les calculer exactement, sauf pour
des plans de sondage particuliers.

(M. Badaoui) Techniques de Sondages ESTO 33 / 64


Plan de sondage

Plan de sondage

Les plans de taille fixe ont des probabilités d’inclusion bien spécifiques.
Théorème
Si un plan est de taille fixe n, alors
P
πk = n
Pk∈U
k∈U πkl = (n − 1)πl , l ∈U
P k6=l
k∈U ∆kl = 0, l ∈U

avec 
Cov (Ik ; Il ) = πk,l − πk πl , l 6= k;
∆kl =
V (Ik ) = πk (1 − πk ) , l = k.

(M. Badaoui) Techniques de Sondages ESTO 34 / 64


Plan de sondage

Application

Calcul de πk :

π1 = P(1 ∈ S) = p(s1 ) + p(s2 ) + p(s3 ) = 0, 7


π2 = P(2 ∈ S) = p(s1 ) + p(s4 ) + p(s5 ) = 0, 45
π3 = P(3 ∈ S) = p(s2 ) + p(s4 ) + p(s6 ) = 0, 45
π4 = P(4 ∈ S) = p(s3 ) + p(s5 ) + p(s6 ) = 0, 4

Calcul deπkl :

π12 = P(1; 2 ∈ S) = p(s1 ) = 0, 25


π13 = P(1; 3 ∈ S) = p(s2 ) = 0, 25
π14 = P(1; 4 ∈ S) = p(s3 ) = 0, 2
π23 = π24 = π34 = 0, 1

(M. Badaoui) Techniques de Sondages ESTO 35 / 64


Plan de sondage

Mesures de précision
L’espérance d’un estimateur θbn (S) se définit par :
  X
E θbn (S) = θbn (s)P(S = s)
s⊂U
X
= θbn (s)p(s)
s⊂U

La variance d’un estimateur θbn (S) se définit par :


  X  2
Var θbn (S) = θbn (S) − E θbn (S) P(S = s)
s⊂U

La covariance de deux estimateurs θbn1 (S) et θbn2 (S) se définit par :


  X  
Cov θbn1 (S); θbn2 (S) = θbn1 (S) − E θbn1 (S)
s⊂U
  
× θbn2 (S) − E θbn2 (S) P(S = s)

(M. Badaoui) Techniques de Sondages ESTO 36 / 64


Plan de sondage

Mesures de précision
Le biais d’un estimateur θbn (S) correspond à son erreur moyenne :
   
B θbn (S) = E θbn (S) − θ
Xh i
= θbn (s) − θ p(s)
s⊂U

Remarque
On préfère θbn (S) sans biais ou peu biaisé

L’erreur quadratique moyenne d’un estimateur θbn (S)


  h i2
EQM θbn (S) = E θbn (S) − θ
   
= Var θbn (S) + B2 θbn (S)

(M. Badaoui) Techniques de Sondages ESTO 37 / 64


Plan de sondage

Application: Mesures de précision

Le vrai revenu moyen est θ = R1 +R2 +R 4


3 +R4
= 8000: On considère les
échantillons de taille 2 et comme estimateur de θ la moyenne dans chaque
échantillon :
R1 + R2
θbn (s1 ) = = 9000 . . .
2
échantillon;s p(s) θb2 p(s).θb2
{1; 2} 0,25 9000 2250
{1; 3} 0,25 7000 1750
{1; 4} 0,2 6000 1200
{2; 3} 0,1 10000 1000
{2; 4} 0,1 9000 900
{3; 4} 0,1 7000 700

(M. Badaoui) Techniques de Sondages ESTO 38 / 64


Plan de sondage

Application : Mesures de précision

L’espérance de l’estimateur θb2 (S) :


  X
E θb2 (S) = θbn (s)p(s)
s⊂U
= 0, 25 × 9000 + 0, 25 × 7000 + . . . + 0, 1 × 7000
= 7800

Le biais de l’estimateur θb2 (S) :


   
B θb2 (S) = E θbn (S) − θ
= 7800 − 8000
= −200

(M. Badaoui) Techniques de Sondages ESTO 39 / 64


Plan de sondage

Application : Mesures de précision

La variance de l’estimateur θb2 (S) est :


  X  2
Var θb2 (S) = θbn (S) − E θbn (S) P(S = s)
s⊂U
= 0, 25 × (9000 − 7800)2 + 0, 25 × (7000 − 7800)2 +
. . . + 0, 1 × (7000 − 7800)2 = 1860000

L’erreur quadratique moyenne d’un estimateur θb2 (S)


     
EQM θb2 (S) = Var θbn (S) + B2 θbn (S)
= 1860000 + (−200)2 = 1900000

(M. Badaoui) Techniques de Sondages ESTO 40 / 64


Plan de sondage

”sans biais” signifie que le résultat est bon en moyenne mais pas que le
résultat obtenu à partir d’un échantillon est exact.

Figure: Biais et précision

cas 1= estimateur sans biais (la moyenne des toutes les positions est
le centre) ;
cas 2= estimateur précis mais biaisé (les positions sont très proches
les unes des autres mais éloignées du centre) ;
cas 3= estimateur ”parfait” (les positions sont très proches du
centre).
(M. Badaoui) Techniques de Sondages ESTO 41 / 64
Plan de sondage

Intervalles de confiance

Un estimateur peut être sans biais pour un paramètre (par exemple la


moyenne de ses valeurs sur tous les échantillons possibles) mais nous
disposons d’un seul échantillon seulement qui nous fournie une seule
estimation pour notre paramètre qui peut être assez éloignée de la vraie
valeur (comme vu dans l’exemple précédent). On préfère donner une
estimation de θ par intervalles de confiance.
Hypothèse indispensable : θbn suit une loi normale.
Un intervalle de confiance pour θ de niveau approximatif 1 − α est donné
par : " #
r  
IC(1−α) (θ) = θbn ± t1− α2 Var θbn

α
avec t1− α2 le quantile d’ordre 1 − 2 d’une loi normale centrée réduite
N (0; 1).

(M. Badaoui) Techniques de Sondages ESTO 42 / 64


Plan de sondage

Intervalles de confiance

Rappel :
α = 0, 05 =⇒ t0,975 = 1, 96
α = 0, 10 =⇒ t0,95 = 1, 64
Interprétation (pour α = 0, 05) : la vrai valeur θ est contenu dans
l’intervalle de confiance pour (approximativement) 95% des échantillons.

(M. Badaoui) Techniques de Sondages ESTO 43 / 64


Plan de sondage

Intervalles de confiance

 
Comme la vraie variance Var θbn est généralement inconnue, on la
 
d θbn . On obtient l’intervalle de
remplace par un estimateur noté Var
confiance estimé :
" r #
 
c(1−α) (θ) = θbn ± t1− α Var
IC d θbn
2

L’intervalle de confiance est (approximativement) valide :


  
si l’estimateur θbn suit approximativement une loi N θ; Var θbn ,
 
si l’estimateur de variance Var
d θbn est faiblement consistant.

(M. Badaoui) Techniques de Sondages ESTO 44 / 64


Le π-estimateur

1 Introduction

2 Recensement et sondage

3 Terminologie

4 Plan de sondage

5 Le π-estimateur

(M. Badaoui) Techniques de Sondages ESTO 45 / 64


Le π-estimateur

Estimation d’un total et d’une moyenne

C’est sans aucun doute l’estimateur qu’il faut à tout prix connaı̂tre lorsque
l’on s’intéresse aux sondages.

Horvitz et Thompson (1952) ont introduit un estimateur linéaire sans biais


d’un total ty pour tout plan de sondage
X yk
tby ,π = .
πk
k∈S

Cet estimateur est appelé le π-estimateur, l’estimateur


d’Horvitz-Thompson ou encore l’estimateur des valeurs dilatées.

(M. Badaoui) Techniques de Sondages ESTO 46 / 64


Le π-estimateur

Remarque
L’esimateur peut être écrit aussi
X yk
tby ,π = Ik .
πk
k∈U

(M. Badaoui) Techniques de Sondages ESTO 47 / 64


Le π-estimateur

Estimation d’un total et d’une moyenne

Théorème
Si πk > 0 pour tout k ∈ U, alors tby ,π estime ty sans biais.

En effet,
! !
 X yk X yk
E tby ,π = E =E Ik
πk πk
k∈S k∈U
X E (Ik ) yk X
= = yk = ty
πk
k∈U k∈U

(M. Badaoui) Techniques de Sondages ESTO 48 / 64


Le π-estimateur

Estimation d’un total et d’une moyenne


Remarque
Si certaines probabilités d’inclusion sont nulles alors le π-estimateur est
biaisé puisque

 
!
 X yk  X yk 
E tby ,π = E = E Ik 
πk πk
k∈S k∈U
πk >0
X X
= yk = ty − yk
k∈U k∈U
πk >0 πk =0

Notons que, lors de la deuxième égalité, la restriction aux unités telles que
πk > 0 sous le signe de sommation est justifiée par le fait qu’une unité
dont la probabilité d’inclusion d’ordre un est nulle n’appartiendra jamais à
l’échantillon aléatoire S.
(M. Badaoui) Techniques de Sondages ESTO 49 / 64
Le π-estimateur

Estimation d’un total et d’une moyenne

Remarque
Dans ce cas le bias ne dépend que des unités ayant une probabilité nulle
d’être sélectionnées. Il est imposssible d’estimer ce biais. On dit alors que
le plan de sondage a un problème de couverture. Ce problème peut
notamment se poser :
liste des individus pas à jour, ou individus impossibles à joindre;
quand on choisit de laisser de côté une partie de la population (cut-off
sampling, parfois utilisé dans les enquêtes-entreprise).

(M. Badaoui) Techniques de Sondages ESTO 50 / 64


Le π-estimateur

Estimation d’un total et d’une moyenne

Nous avons introduit le π-estimateur pour estimer le total ty mais nous


pouvons également l’utiliser pour estimer la moyenne µy par

1 X yk
µ
by ,π =
N πk
k∈S

(M. Badaoui) Techniques de Sondages ESTO 51 / 64


Le π-estimateur

Estimation d’un total et d’une moyenne

Notons toutefois que pour utiliser cet estimateur il faut que la taille de la
population N soit connue, ce n’est malheureusement pas toujours le cas.
En effet, des sondages sont souvent utilisés pour estimer N. DansPce cas N
est une variable d’intérêt qui peut s’écrire comme un total N = k∈U 1.
On peut estimer N par Le π-estimateur, i.e.,
X 1
Nbπ =
πk
k∈S
.

(M. Badaoui) Techniques de Sondages ESTO 52 / 64


Le π-estimateur

Variance du π-estimateur

La variance du π-estimateur est donnée par le théorème suivant:


Théorème
Soit tby ,π le π-estimateur d’un total ty . Si πk > 0 pour tout k ∈ U, alors

 X yk yl
Var tby ,π = ∆kl (6.1)
πk πl
k,l∈U

(M. Badaoui) Techniques de Sondages ESTO 53 / 64


Le π-estimateur

Variance du π-estimateur

!
 X yk
Var tby ,π = Var Ik
πk
k∈U
X y2 X X yk yl
k
= 2
Var (Ik ) + Cov (Ik , Il )
πk πk πl
k∈U l∈U k∈U
l6=k

X y2 X X yk yl
k
= πk (1 − πk ) + (πkl − πk πl )
πk2 πk πl
k∈U l∈U k∈U
l6=k
X yk yl
= ∆kl
πk πl
k,l∈U

(M. Badaoui) Techniques de Sondages ESTO 54 / 64


Le π-estimateur

Variance pour les plans de taille fixe

Si un plan est de taille fixe, Yates-Grundy (1953) et Sen (1953) ils ont
montré qu’il est possible de réécrire la variance du π-estimateur sous une
forme différente.
Théorème
Soit tby ,π le π-estimateur d’un total ty . Si πk > 0 pour tout k ∈ U, alors

yl 2
 
 1 X X yk
Var tby ,π = − − ∆kl (6.2)
2 πk πl
l∈U k∈U
l6=k

(M. Badaoui) Techniques de Sondages ESTO 55 / 64


Le π-estimateur

Estimation de la variance du π-estimateur


L’idée qui permet de construire un π-estimateur d’un total peut être
étendue pour une double somme d’une fonction de deux variables.
Théorème
Pour toute fonction g (x; y ), l’estimateur
 
X X g (yl ; yk )  X X g (yl ; yk )
=

Ik Il 
πkl πkl
l∈S
k∈S l∈U k∈U
k6=l k6=l

estime sans biais XX


g (yl ; yk )
k∈U l∈U
k6=l

Si et seulement si toutes les probabilités d’inclusion d’ordre deux sont


strictement positives (i.e. πkl > 0 pour tout k, l ∈ U k 6= l ).
(M. Badaoui) Techniques de Sondages ESTO 56 / 64
Le π-estimateur

Estimation de la variance du π-estimateur

En effet,
 
 X X g (yl ; yk ) X X g (yl ; yk )
Ik Il  = E (Ik Il )

E
πkl πkl
l∈Uk∈U l∈U k∈U
k6=l k6=l
XX
= g (yl ; yk )
k∈U l∈U
k6=l

(M. Badaoui) Techniques de Sondages ESTO 57 / 64


Le π-estimateur

Estimation de la variance du π-estimateur

On peut donc se servir du théorème


 précédent afin de construire un
estimateur sans biais de Var tby ,π . On a donc à partir de l’expression
(6.1) l’estimateur
X y 2 (1 − πk ) X yk yl
k

Var
d tby ,π = 2
Ik + ∆kl Ik Il
πk πk πl πkl
k∈U l,k∈U
k6=l

Remarque
Cet estimaeur a cependant un défaut important, il peut prendre des
valeurs négatives.

(M. Badaoui) Techniques de Sondages ESTO 58 / 64


Le π-estimateur

Estimation de la variance du π-estimateur


En effet,

 X yk yl
Var tby ,π = ∆kl
πk πl
k,l∈U
X y2 X yk yl
k
= 2
∆kk + ∆kl
πk πk πl
k∈U l,k∈U
k6=l

d’après ce qui precède


X y2 X yk yl
k

Var
d tby ,π = 2
∆kk Ik + ∆kl Ik Il
πk πk πk πl πkl
k∈U l,k∈U
k6=l

avec 
πkl − πk πl , l 6= k;
∆kl =
πk (1 − πk ) , l = k.
(M. Badaoui) Techniques de Sondages ESTO 59 / 64
Le π-estimateur

Estimation de la variance du π-estimateur

Si le plan est à taille fixe alors nous pouvons utiliser l’expression (6.2) ce
qui nous conduit à l’estimateur

yl 2 ∆kl
 
 1 X X yk
Var
d tby ,π = − − Ik Il
2 πk πl πkl
l∈U
k∈U
l6=k

Ce dernier estimateur est appelé l’estimateur de Sen-Yates-Grundy, noms


des personnes l’ayant trouvé.
Remarque
Cet estimateur est sans biais uniquement lorsque le plan est de taille fixe
et il n’est pas difficile de voir que l’estimateur sera toujours positif dès lors
que ∆kl ≤ 0 pour tout k, l ∈ U, l 6= k. C’est la condition de
Sen-Yates-Grundy.

(M. Badaoui) Techniques de Sondages ESTO 60 / 64


Le π-estimateur

L’estimateur de Hájek

Bien que le π-estimateur soit très largement utilisé, dans certaines


circonstances, il possède une mauvaise propriété. Afin d’illustrer nos
propos, supposons que
!
X 1
Var Ik 6= 0
πk
k∈U

Remarque
Ceci est par exemple le cas lorsque la taille de l’échantillon est aléatoire.

(M. Badaoui) Techniques de Sondages ESTO 61 / 64


Le π-estimateur

L’estimateur de Hájek

Dans ce cas, si le caractère dont on veut estimer la moyenne est constant


sur toutes les unités de la population (i.e. yk = c pour tout k ∈ U). Alors
le π-estimateur de la moyenne µy est alors

c X 1
µ
by ,π = Ik
N πk
k∈U

Le π-estimateur n’est pas égale à c mais est une variable aléatoire


d’espérance c.

(M. Badaoui) Techniques de Sondages ESTO 62 / 64


Le π-estimateur

L’estimateur de Hájek

L’estimateur de Hájek a été introduit afin de remédier à ce problème et est


donné par
!−1
X 1 X yk
µ
by ,π = Ik Ik
πk πk
k∈U k∈U

Remarque
L’estimateur de Hájek correspond à un ratio de deux variables aléatoires.
Le calcul de ses moments est alors compliqué voire impossible.

(M. Badaoui) Techniques de Sondages ESTO 63 / 64


Le π-estimateur

L’estimateur de Hájek

L’estimateur de Hájek peut être utilisé pour estimer le total ty en posant


!−1
X 1 X yk
tby ,π = N Ik Ik
πk πk
k∈U k∈U

dès lors que N est connu bien évidemment.


Remarque
On dit alors que la taille de population est une information auxilaire car
c’est une information connue sur la population.
L’utilisation de l’estimateur de Hájek préfigure une des spécifités de la
théorie de sondage: l’utilisation d’informations auxliaires, c’est-à-dire
d’informations externes aux données observées pour améliorer l’estimation.

(M. Badaoui) Techniques de Sondages ESTO 64 / 64

Vous aimerez peut-être aussi