Vous êtes sur la page 1sur 24

Nouvelles techniques d'échantillonnage et

de redressement
Chapitre 1

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

2020-2021

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Etapes de la mise en place d'une enquête par sondage

Planication : objectifs, dénitions, population cible, . . .


Base de sondage
Construction du plan de sondage et sélection de l'échantillon
Collecte des données
Traitements des données : vérication, traitement de la non-réponse,
...
Estimation ponctuelle et estimation de variance
Analyse des données
Diusion des données et publication des résultats de l'analyse

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Rappel des notions de bases


de la théorie des sondages

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

On dispose d'une population U = {1, . . . , k, . . . , N } de taille N .


Une variable d'intérêt Y : U → R dont les valeurs sont notées par
y1 , . . . , yk , . . . , yN .
On s'intéresse à l'estimation d'une fonction des valeurs de la variable
d'intérêt : total, moyenne, variance, fractile, . . .
Un échantillon s de n unités est sélectionné à partir de U .
La méthode de tirage mise en oeuvre pour sélectionner les unités de
l'échantillon s est appelé "Plan de sondage".

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Échantillons
Population
U s1

sJ

Pour chaque échantillon s possible, on peut


associer une probabilité de sélection p(s)

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

L'échantillon s sélectionné peut être vu comme la réalisation d'une


variable aléatoire S dont l'ensemble des valeurs possibles est
Ω = {s1 , . . . , sJ }

En général, on utilise la notation S pour l'échantillon aléatoire et s


pour un échantillon particulier.
Le plan de sondage est déni par la loi de probabilité de l'échantillon
aléatoire S .

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Dénition
Une fonction p(s) dénit un plan de sondage si et seulement si

p(s) ≥ 0 pour s ∈ Ω

et X
p(s) = 1
s∈Ω

L'ensemble des échantillons s possibles (tels que p(s) > 0) s'appelle le


support du plan de sondage.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Pour un plan de sondage, on peut dénir ce que nous appelons les


probabilités d'inclusion :
La probabilité qu'une unité k soit sélectionnée dans l'échantillon
(probabilité d'inclusion d'ordre un)
X
πk = P (k ∈ S) = p(s)
s∈Ω|k∈s

La probabilité que deux unités k et l soient sélectionnées dans


l'échantillon (probabilité d'inclusion d'ordre deux)
X
πkl = P (k, l ∈ S) = p(s)
s∈Ω|k,l∈s

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Exemple
Plan de sondage simple (sans remise)
n n(n − 1)
πk = et πkl =
N N (N − 1)

Plan de sondage stratié


nh
πk = pour k ∈ Uh
Nh
et
nh (nh −1)
pour

 Nh (Nh −1) k, l ∈ Uh
πkl =
 nh ng
Nh Ng pour k ∈ Uh l ∈ Ug

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Biais et précision d'un estimateur

Soit θ une fonction des valeurs de la variable d'intérêt Y et θbS un


estimateur de θ se basant sur l'échantillon sélectionné.
La distribution de probabilités de l'estimateur θbS est donnée par
celle de l'échantillon aléatoire S (plan de sondage).
L'estimateur θbS est sans biais si on a
X
Ep (θbS ) = θbs p(s) = θ
s∈Ω

et ceci pour toute variable d'intérêt Y .


Le biais de θbS est donné par
Biais(θbS ) = Ep (θbS ) − θ

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Biais et précision d'un estimateur

Si θ est une fonction qui dépend de tous les yk pour k ∈ U alors une
condition nécessaire pour l'existance d'un estimateur sans biais de θ
est, pour tout k ∈ U
il existe au moins un échantillon s ∈ Ω tel que k ∈ s

La Précision de θbS est dénie par l'Ecart Quadratique Moyen


(EQM) :
  Xh i2
EQM θbS = θbs − θ p(s)
s∈Ω
  h i2
= V ar θbS + Biais(θbS )

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Estimateur linéaire d'un total

Dans ce qui suit, on va se limiter au cas particulier où la fonction θ est le


total de la variable d'interêt Y :
X
θ = ty = yk
k∈U

Dénition
Un estimateur b
tyw du total ty est dit linéaire si
X
tyw =
b wkS yk
k∈U

avec wkS = 0 pour k 6∈ S .

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Estimateur linéaire d'un total

Remarque
1 tyw est un estimateur sans biais de ty si
b
Ep (wkS ) = 1 pour tout k ∈ U
2 Si on ne dispose pas d'information auxiliaire, on prend wk de la
forme ak Ik .
La seule possibilité d'avoir un estimateur sans biais est de prendre
ak = π1k appelé "poids de sondage".
L'estimateur obtenu est :
X Ik X yk
tyπ =
b yk =
πk πk
k∈U k∈S

appelé l'estimateur d'Horvitz-Thompson.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Précision de tyπ
b

La variance de l'estimateur d'Horvitz-Thompson est donnée par


 XX yk yl
V ar b
tyπ = (πkl − πk πl )
πk πl
k∈U l∈U

Quand le plan est de taille xe, cette variance peut s'écrire


(Yates-Grundy) :
 2
 1 XX yk yl
V ar tyπ = −
b (πkl − πk πl ) −
2 πk πl
k∈U l∈U

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Précision de tyπ
b

On peut donc dénir deux estimateurs sans biais de la variance de btyπ :


 X X πkl − πk πl yk yl
Vd
ar1 b
tyπ =
πkl πk πl
k∈S l∈S

et si le plan est de taille xe


 2
 1 X X πkl − πk πl yk yl
V ar2 tyπ = −
d b −
2 πkl πk πl
k∈S l∈S

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Exemples

Plan simple
Estimateur du total
N X
tyπ =
b yk = N y
n
k∈S

Précision de b
tyπ

Sy2
tyπ = N 2 (1 − f )

V ar b
n
et
s2y
tyπ = N 2 (1 − f )

Vd
ar b
n

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Exemples

Plan stratié
Estimateur du total
PH
tyπ =
b h=1 Nh y h
Précision de b
tyπ
H 2
 X Syh
V ar b
tyπ = Nh2 (1 − fh )
nh
h=1

H
 X s2yh
Vd
ar b
tyπ = Nh2 (1 − fh )
nh
h=1

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Information auxiliaire

On qualie d'information auxiliaire toutes données supplémentaires


disponibles sur les unités de la population.
Dans une enquête, souvent des variables auxiliaires sont disponibles
pour toutes les unités de la population ou uniquement pour les
unités de l'échantillon.
Nous utiliserons la lettre X pour les variables auxiliaires et la lettre
Y pour les variables d'intérêt que l'on tente de mesurer à l'aide de
l'enquête.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

En se basant sur l'information observée sur un échantillon, l'objectif


nal d'un sondage est de fournir une estimation des paramètres
(total, moyenne, variance, . . .) de la variable d'intérêt.
Plusieurs estimateurs de ces paramètres ont été proposés sans
qu'aucun d'entre eux ne soit le meilleur.
Le choix de l'estimateur à utiliser dépend principalement du
- plan de sondage mis en oeuvre
- la présence ou pas d'information auxiliaire
- type de l'information auxiliaire disponible

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Dans une enquête par sondage, la qualité de l'estimation obtenue


dépend principalement de l'estimateur utilisé et du plan de sondage
mis oeuvre.
Si une information auxiliaire est disponible, la précision des
estimations obtenues peut être améliorée en la mettant à prot à
travers l'utilisation des estimateurs qui tiennent compte de cette
information auxiliaire.
L'information auxiliaire peut être la connaissance des valeurs d'une
ou de plusieurs variables, appelées variables auxiliaires, ayant une
relation avec la variable d'intérêt.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

L'information auxiliaire peut être utilisée à


1 l'étape de tirage de l'échantillon : elle permet de construire des plans

de sondage plus performants (sous certaines contraintes) que les


plans simples : sondage stratié, sondage par grappes, sondage à
probabilités inégales, . . .
2 l'étape d'estimation : elle permet d'améliorer la qualité des

estimations et de construire des estimateurs plus précis.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

En présence d'information auxiliaire, le redressement est parmi les


méthodes d'estimation les plus utilisées en pratique.
L'objectif du redressement est de mettre à prot, à l'étape de
l'estimation, cette information auxiliaire dans le but d'obtenir des
estimateurs des paramètres de la population qui sont plus précis que
les estimateurs simples.
En partant d'un estimateur classique qui n'utilise aucune information
auxiliaire, le redressement consiste à modier, dans l'expression de
cet estimateur, les poids des unités de l'échantillon de telle sorte à
obtenir une propriété voulue qu'on impose sur les variables
auxiliaires.

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Plusieurs méthodes de redressement peuvent être envisagées qui


reposent sur les relations possibles entre la variable d'intérêt et les
variables auxiliaires.
Les méthodes de redressement les plus utilisées sont :
- l'estimateur par le ratio
- l'estimateur post-stratié
- l'estimateur par la régression généralisée
- l'estimateur par calage

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1


Population nie et échantillonnage
Plan de sondage
Rappel des notions de bases de la théorie des sondages Estimation d'un paramètre
Estimation en présence d'information auxiliaire
Rappel sur les techniques d'échantillonnage

Plan de sondage simple


Plan de sondage stratié
Plan de sondage à probabilités inégales
Plan de sondage en grappes
Plan de sondage à deux degrés

,→ Voir le cours "Techniques de sondage" (2A)

Mohammed El Haj Tirari Nouvelles techniques d'échantillonnage et de redressement Chapitre 1