Académique Documents
Professionnel Documents
Culture Documents
LPID 2020-2021
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
Objectif
Exemple introductif
On désire connaı̂tre l’âge moyen de TOUS les étudiants d’Oujda.
Recensement : je demande l’âge à tous les étudiants et je calcule la
moyenne . . . ça risque d’être long!
Sondage : je choisis une partie des étudiants (échantillon), je calcule
la moyenne des âges sur cette partie en espérant que cette moyenne
soit ”proche” de l’âge moyen de tous les étudiants.
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Exemple introductif
Nous voyons sur cet exemple que la mise au point d’un sondage nécessite
plusieurs choix pour le statisticien :
comment choisir les étudiants ?
combien d’étudiants doit-on choisir ?
comment doit-on formuler la réponse:
sous la forme d’une valeur, c’est à dire que l’on donne une estimation
de l’âge moyen sous la forme d’un réel (24.8 ans par exemple) ;
sous la forme d’un ensemble de valeurs. On pourra par exemple donner
une fourchette ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que l’estimation est satisfaisante ? Dit autrement suis-je
capable de donner une estimation de l’erreur commise par la
prédiction. On pourra par exemple dire ”l’âge moyen des étudiants
d’Oujda se trouve dans l’intervalle [23.4 ;26.3] avec un niveau de
confiance de 95%.”.
(M. Badaoui) Techniques de Sondages ESTO 5 / 64
1. Introduction
Objectif
Objectif
L’objectif de ce cours consiste à étudier des procédures de sondage pour
lesquelles nous pourrons répondre à ces questions, afin d’atteindre un
objectif précis : Comment, à partir d’une information partielle,
pouvons-nous obtenir certaines conclusions au niveau de la population
toute entière ?
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
Recensement et sondage
Recensement et sondage
Remarque
Si l’échantillon est constitué de manière correcte, les caractéristiques
statistiques de l’échantillon seront proches de celles de la population totale.
Remarque
Si le recensement se révèle théoriquement meilleur qu’un sondage
parcequ’il est exhaustif, il n’en est pas moins vrai que le sondage se voit
souvent préféré.
Recensement et sondage
Pourquoi le sondage se voit souvent préféré à un recensement ?
Parce qu’il est : plus facile à obtenir, d’un coût moins élevé.
Exemple
Pour fixer quelques ordres de grandeur, une opération telle que le
Recensement Général de la Population et de l’Habitat menée en Maroc à
peu près tous les 10 ans (1960, 1971, 1982, 1994, 2004 et 2014)
occasionne un cout global de 900 Millions DH pour 2014 (417 Millions DH
pour l’année 2004), il a duré 20 jours, et il a mobilisé 53.000 agents
recenseurs supervisés par environ 20.000 contrôleurs, selon le
Haut-Commissariat au Plan.
Remarque
Les 900 millions de DH couvrent les travaux cartographiques, l’exécution
et l’exploitation des données.
(M. Badaoui) Techniques de Sondages ESTO 10 / 64
Recensement et sondage
Recensement et sondage
Autres avantages
Parallèlement à la question des couts, l’enquête par sondage présente
l’avantage, par rapport au recensement, de fournir des résultats
beaucoup plus rapidement disponibles, puisqu’elle limite de façon
évidente l’ampleur des tâches de saisie des données sur ordinateur, de
contrôle de leur qualité, de leur codification (attribution d’un code
numérique par modalité de réponse), et le volume de calculs.
Le sondage est souvent confié à une équipe réduite et spécialisée.
Ainsi nous évitons des erreurs dues : au caractère inexpérimenté des
personnes chargées de l’enquête aux difficultés d’être exhaustif.
Recensement et sondage
Remarque
il ne faut cependant pas opposer systématiquement les recensements et les
sondages, car les deux modes de collecte d’information présentent des
aspects complémentaires on traite une partie de l’information collectée lors
des recensements par sondages (), on mesure à tous niveaux la qualité
d’un recensement par sondage (pour mesurer la qualité de la couverture du
Recensement Général de la Population, on échantillonne des aires
géographiques et on y réalise une seconde opération de recensement, dont
on compare les résultats à la première), on teste les formulaires de
recensement par sondage (pour mesurer les taux d’erreurs de saisie, on
échantillonne des formulaires de recensement, on les fait ressaisir par un
opérateur qui n’est pas l’opérateur titulaire, et on compare avec la saisie
d’origine). A l’inverse, les recensements fournissent des bases de sondage,
de l’information auxiliaire fort utile lors du tirage d’échantillon ou pour les
redressements.
(M. Badaoui) Techniques de Sondages ESTO 12 / 64
Terminologie
1 Introduction
2 Recensement et sondage
3 Terminologie
Définitions
Sources d’erreurs dans une enquête
Objectif d’un sondage
4 Plan de sondage
5 Le π-estimateur
Définitions
U = {u1 ; u2 ; . . . ; uN } = {1; 2; . . . ; N}
Exemples de population:
L’ensemble des touristes d’un pays, l’ensemble des étudiant d’une ville,
l’ensemble des ménages d’un pays, la production de pièces mécaniques
d’une usine . . .
individu: élément uk ∈ U, il est trés important que l’individu uk ∈ U
doit être repérer précisément et sans aucune ambiguité : identifiant k.
Définitions
Définitions
Définitions
Objectif
Relever auprès de chaque individu uk de la population U, à l’aide d’un
questionnaire ou d’un autre moyen de collecte, la valeur d’une ou de
plusieurs variables d’intérêt.
Définition
Soit une variable Y , appelée variable d’intérêt, dont les valeurs associées
à chaque unité de sondage sont notées y1 ; . . . ; yN (elle prend la valeur yk
pour l’individu k).
Remarque
Les deux premières variables sont quantitatives et la dernière est
qualitative.
Remarque
La dernière variable est dichotomique. Pour représenter cette variable,
nous la quantifions au moyen d’une fonction indicatrice selon laquelle la
valeur Y prise par la pièce est égale à 1 si la pièce est défectueuse, 0 sinon.
Remarque
Ce processus se généralise dès que nous avons à faire à une variable
dichotomique.
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
Plan de sondage
Plan de sondage
Définition
Un plan de sondage p(.) est dit de taille fixe, égale à n, si seuls les
échantillons de taille n ont une probabilité non nulle d’être tirés :
Card(s) 6= n =⇒ p(s) = 0
Définition
Un plan de sondage p(.) est dit simple si deux échantillons de même taille
ont la même probabilité d’être sélectionnés :
Plan de sondage
Remarque
Clairement, on a CNn échantillons (non ordonnés) de taille n dans U. Ainsi
si le plan est simple et de taille fixe on a pour tout s ∈ S
(
1
CNn Card(s) = n;
p(s) =
0 Card(s) 6= n.
Plan de sondage
Exemple
Soit une population U = {1; 2; 3; 4} et R =le revenu moyen de cette
population.
On a R1 = 6000; R2 = 12000; R3 = 8000; R4 = 6000.
On veut interroger que deux personnes, alors on a six échantillons de
tailles 2 sans remise:
s1 = {1; 2}; s2 = {1; 3}; s3 = {1; 4} s4 = {2; 3};s5 = {2; 4}; s6 = {3; 4}
On prend
p(s1 ) = 0, 25; p(s2 ) = 0, 25; p(s3 ) = 0, 2; p(s4 ) = 0; 1; p(s5 ) = 0, 1;
p(s6 ) = 0, 1;
Plan de sondage
Remarque
La variable aléatoire S prend ses valeurs dans
On a par exemple
Variable indicatrice
Définition
On appelle variable indicatrice la variable aléatoire Ik = Ik (S) définie de la
façon suivante :
1, k ∈ S;
Ik =
0, k 6∈ S.
Plan de sondage
Les plans de taille fixe ont des probabilités d’inclusion bien spécifiques.
Théorème
Si un plan est de taille fixe n, alors
P
πk = n
Pk∈U
k∈U πkl = (n − 1)πl , l ∈U
P k6=l
k∈U ∆kl = 0, l ∈U
avec
Cov (Ik ; Il ) = πk,l − πk πl , l 6= k;
∆kl =
V (Ik ) = πk (1 − πk ) , l = k.
Application
Calcul de πk :
Calcul deπkl :
Mesures de précision
L’espérance d’un estimateur θbn (S) se définit par :
X
E θbn (S) = θbn (s)P(S = s)
s⊂U
X
= θbn (s)p(s)
s⊂U
Mesures de précision
Le biais d’un estimateur θbn (S) correspond à son erreur moyenne :
B θbn (S) = E θbn (S) − θ
Xh i
= θbn (s) − θ p(s)
s⊂U
Remarque
On préfère θbn (S) sans biais ou peu biaisé
”sans biais” signifie que le résultat est bon en moyenne mais pas que le
résultat obtenu à partir d’un échantillon est exact.
cas 1= estimateur sans biais (la moyenne des toutes les positions est
le centre) ;
cas 2= estimateur précis mais biaisé (les positions sont très proches
les unes des autres mais éloignées du centre) ;
cas 3= estimateur ”parfait” (les positions sont très proches du
centre).
(M. Badaoui) Techniques de Sondages ESTO 41 / 64
Plan de sondage
Intervalles de confiance
α
avec t1− α2 le quantile d’ordre 1 − 2 d’une loi normale centrée réduite
N (0; 1).
Intervalles de confiance
Rappel :
α = 0, 05 =⇒ t0,975 = 1, 96
α = 0, 10 =⇒ t0,95 = 1, 64
Interprétation (pour α = 0, 05) : la vrai valeur θ est contenu dans
l’intervalle de confiance pour (approximativement) 95% des échantillons.
Intervalles de confiance
Comme la vraie variance Var θbn est généralement inconnue, on la
d θbn . On obtient l’intervalle de
remplace par un estimateur noté Var
confiance estimé :
" r #
c(1−α) (θ) = θbn ± t1− α Var
IC d θbn
2
1 Introduction
2 Recensement et sondage
3 Terminologie
4 Plan de sondage
5 Le π-estimateur
C’est sans aucun doute l’estimateur qu’il faut à tout prix connaı̂tre lorsque
l’on s’intéresse aux sondages.
Remarque
L’esimateur peut être écrit aussi
X yk
tby ,π = Ik .
πk
k∈U
Théorème
Si πk > 0 pour tout k ∈ U, alors tby ,π estime ty sans biais.
En effet,
! !
X yk X yk
E tby ,π = E =E Ik
πk πk
k∈S k∈U
X E (Ik ) yk X
= = yk = ty
πk
k∈U k∈U
!
X yk X yk
E tby ,π = E = E Ik
πk πk
k∈S k∈U
πk >0
X X
= yk = ty − yk
k∈U k∈U
πk >0 πk =0
Notons que, lors de la deuxième égalité, la restriction aux unités telles que
πk > 0 sous le signe de sommation est justifiée par le fait qu’une unité
dont la probabilité d’inclusion d’ordre un est nulle n’appartiendra jamais à
l’échantillon aléatoire S.
(M. Badaoui) Techniques de Sondages ESTO 49 / 64
Le π-estimateur
Remarque
Dans ce cas le bias ne dépend que des unités ayant une probabilité nulle
d’être sélectionnées. Il est imposssible d’estimer ce biais. On dit alors que
le plan de sondage a un problème de couverture. Ce problème peut
notamment se poser :
liste des individus pas à jour, ou individus impossibles à joindre;
quand on choisit de laisser de côté une partie de la population (cut-off
sampling, parfois utilisé dans les enquêtes-entreprise).
1 X yk
µ
by ,π =
N πk
k∈S
Notons toutefois que pour utiliser cet estimateur il faut que la taille de la
population N soit connue, ce n’est malheureusement pas toujours le cas.
En effet, des sondages sont souvent utilisés pour estimer N. DansPce cas N
est une variable d’intérêt qui peut s’écrire comme un total N = k∈U 1.
On peut estimer N par Le π-estimateur, i.e.,
X 1
Nbπ =
πk
k∈S
.
Variance du π-estimateur
X yk yl
Var tby ,π = ∆kl (6.1)
πk πl
k,l∈U
Variance du π-estimateur
!
X yk
Var tby ,π = Var Ik
πk
k∈U
X y2 X X yk yl
k
= 2
Var (Ik ) + Cov (Ik , Il )
πk πk πl
k∈U l∈U k∈U
l6=k
X y2 X X yk yl
k
= πk (1 − πk ) + (πkl − πk πl )
πk2 πk πl
k∈U l∈U k∈U
l6=k
X yk yl
= ∆kl
πk πl
k,l∈U
Si un plan est de taille fixe, Yates-Grundy (1953) et Sen (1953) ils ont
montré qu’il est possible de réécrire la variance du π-estimateur sous une
forme différente.
Théorème
Soit tby ,π le π-estimateur d’un total ty . Si πk > 0 pour tout k ∈ U, alors
yl 2
1 X X yk
Var tby ,π = − − ∆kl (6.2)
2 πk πl
l∈U k∈U
l6=k
En effet,
X X g (yl ; yk ) X X g (yl ; yk )
Ik Il = E (Ik Il )
E
πkl πkl
l∈Uk∈U l∈U k∈U
k6=l k6=l
XX
= g (yl ; yk )
k∈U l∈U
k6=l
Remarque
Cet estimaeur a cependant un défaut important, il peut prendre des
valeurs négatives.
X yk yl
Var tby ,π = ∆kl
πk πl
k,l∈U
X y2 X yk yl
k
= 2
∆kk + ∆kl
πk πk πl
k∈U l,k∈U
k6=l
avec
πkl − πk πl , l 6= k;
∆kl =
πk (1 − πk ) , l = k.
(M. Badaoui) Techniques de Sondages ESTO 59 / 64
Le π-estimateur
Si le plan est à taille fixe alors nous pouvons utiliser l’expression (6.2) ce
qui nous conduit à l’estimateur
yl 2 ∆kl
1 X X yk
Var
d tby ,π = − − Ik Il
2 πk πl πkl
l∈U
k∈U
l6=k
L’estimateur de Hájek
Remarque
Ceci est par exemple le cas lorsque la taille de l’échantillon est aléatoire.
L’estimateur de Hájek
c X 1
µ
by ,π = Ik
N πk
k∈U
L’estimateur de Hájek
Remarque
L’estimateur de Hájek correspond à un ratio de deux variables aléatoires.
Le calcul de ses moments est alors compliqué voire impossible.
L’estimateur de Hájek