Académique Documents
Professionnel Documents
Culture Documents
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
Présenter par :
Fatou DIOP
Isabelle MOSSE
Crépin MEDEHOUIN
Jean Pierre NDIAYE
Ingénieurs Statisticiens Economistes (ISE)
1 / 31 Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
PLAN
1 INTRODUCTION
2 POST-STRATIFICATION SIMPLE
5 CAS PRATIQUE
INTRODUCTION
INTRODUCTION
Il est rare que l’on n’ait pas connaissance d’une variable quantitative ou qualitative Xi ,
sur chacun des individus de la population.
INTRODUCTION
Lorsqu’on manipule de l’information pour obtenir un gain dès le stade du tirage de
l’échantillon, on fait appel à des techniques de stratification, de tirage proportionnel à
un critère de taille ou à des tirages équilibrés.
INTRODUCTION
Objectif
Les méthodes de calage consistent à repondérer les unités de l’échantillon, i.e. à modifier
les poids d’échantillonnage, de telle façon que les estimations :
♠ de totaux de variables numériques coïncident avec les vrais totaux connus, par une
information externe, sur la population
♠ d’effectifs des modalités de variables catégorielles coïncident avec les vrais effectifs
connus, par une information externe, sur U.
POST-STRATIFICATION SIMPLE
POST-STRATIFICATION SIMPLE
Principe, Estimation
La méthode de redressement probablement la plus connue et la plus utilisée s’appelle la
post-stratification. On tire, par exemple par sondage aléatoire simple, un échantillon de
taille n. Au sein de l’échantillon, on détermine H catégories (appelées post-strates) en
fonction des valeurs d’une variable ou d’un croisement de variables connues sur chaque
individu de l’échantillon (et non de la population...). Les variables auxiliaires sont
qualitatives (sexe, profession, activité) ou quantitatives rendues qualitatives (tranches
d’âge, tranches de revenu), et les post-strates correspondent aux modalités ou à des
groupements de modalités de ces variables.
On suppose, par ailleurs, que l’effectif global de chaque catégorie h dans la population
est connu : notons Nn cet effectif. On considère que les catégories sont toutes
suffisamment importantes en effectif pour que, compte tenu de la valeur de n, il y ait au
moins un individu tiré dans chaque catégorie. Si on note ȳn la moyenne de la variable Y
obtenue dans la post-strate h à partir de l’échantillon, alors on montre que si le tirage
est aléatoire simple, l’estimateur :
H
X
T̂POST = Nh .ȳh
h=1
8 / 31 Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
POST-STRATIFICATION SIMPLE
Principe, Estimation
L’expression de T̂POST n’est pas différente, formellement, de celle de l’estimateur du
total formé dans le cas du sondage stratifié (voirIL2.2). La différence fondamentale
réside dans la méthode de tirage de l’échantillon puisque, si dans le cas du tirage stratifié
la taille de l’échantillon nn dans la strate h est par définition choisie par le sondeur, dans
le cas de la post-stratification après un sondage aléatoire simple, au contraire, la taille
nn est aléatoire (cela est encore vrai quelle que soit la méthode de tirage) : c’est le
hasard qui détermine l’allocation entre les H post-strates, sous la seule contrainte que :
H
X
nh = n
h=1
POST-STRATIFICATION SIMPLE
Principe, Estimation
On vérifie facilement que T̂POST estime parfaitement bien les effectifs réels par catégorie
h : la post-stratification est donc une méthode de redressement selon les effectifs par
catégorie Nn . C’est pour cette raison que la post-stratification reçoit aussi le nom de
méthode de calage sur les effectifs Nn . En effet, lorsqu’on cherche à estimer les tailles de
population par catégorie, notre variable est une variable indicatrice qui repère, pour
chaque individu de la population, la catégorie h à laquelle il appartient. Si on note Xu la
variable repérant la catégorie u, on a :
(
1, si i appartient à la catégorie u
Xui =
0, sinon
PN PH
Par conséquent : Xu = i=1 Xui = Nu . Mais X̂u,POST = h=1 Nh .x̄u,h
Avec P
i∈Sh Xui
x̄u,h = nh = 0, si u ̸= h
nh = 1, u = h
nh
POST-STRATIFICATION SIMPLE
Principe, Estimation
Où Sn désigne les identifiants des individus de l’échantillon appartenant à la catégorie h.
Donc :
X̂u,POST = Nu .1 = Xu
et cela quel que soit l’échantillon.
X̂u,POST , estimant l’effectif de la catégorie u, est donc un estimateur de variance nulle.
La propriété fondamentale du redressement est vérifiée.
POST-STRATIFICATION SIMPLE
Application numérique
Soit une enquête semestrielle sur le revenu, où on décide de post-stratifier sur une
variable "tranche d’âge". Le choix d’une telle variable auxiliaire est lié à la forte
corrélation qui existe de manière évidente entre l’âge et le revenu. On tire l’échantillon
par sondage aléatoire simple et on va consulter le Recensement pour obtenir la
répartition Nh , /N suivante (chiffres fictifs)
Dans l’échantillon, on constate que les effectifs sont tels que la répartition nh
n est la
suivante :
POST-STRATIFICATION SIMPLE
Application numérique
La dernière ligne fournit le revenu semestriel moyen en euros estimé dans la tranche
d’âge (d’après l’échantillon). Si on ne redresse pas sur l’âge, alors on estime le revenu
moyen dans la population par la très classique moyenne simple ȳ dans l’échantillon
selon :
4
1X X nh
ȳ = Yi = .ȳh
n n
i∈S h=1
ȳ = 0,15 . 6 000 + 0,30 . 9 000 + 0,30 . 15 000 + 0,25 . 12 000 = 11 100 euros.
Si on redresse selon la tranche d’âge, alors on estime le revenu semestriel moyen dans la
population par :
4 4 X
Nh 1
ȲˆPOST =
X Nh X
ȳh = .Yi
N N nh
h=1 h=1 i∈S
ȲˆPOST = 0,20.6 000 + 0,35 .9 000 + 0,30. 15 000 + 0,15 . 12 000 = l0 650 euros
POST-STRATIFICATION SIMPLE
Application numérique
En l’absence de post-stratification, le revenu moyen aurait donc été estimé à un montant
plus élevé. En effet, on constate que, sous l’effet du "hasard", l’échantillon comprend
"trop" de personnes de plus de 50 ans. Or, celles-ci ont un revenu moyen relativement
fort, et leur présence, en nombre supérieur à ce qu’il devrait être, "tire" la moyenne
générale estimée vers des valeurs trop élevées. Les deux estimateurs sont sans biais, mais
le second est plus précis.
CADRE THÉORIQUE
Exemple
Prenons un exemple : ayant tiré, par sondage aléatoire simple, un échantillon de 1 000
individus, on compte 500 hommes et 500 femmes exactement dans une tranche d’âge.
On peut alors estimer la vraie proportion d’hommes dans la population pour cette classe
d’âge par l’estimateur classique P̂ biais : P̂ = p = 1000
500
= 50%
Autrement dit, notre objectif ici est de trouver une formalisation de l’estimateur Ȳˆ que
l’on puisse programmer sur un ordinateur et qui, lorsqu’on lui donne en entrée la variable
qui vaut 1 si f individu est un homme et 0 sinon, fournisse en sortie la valeur exacte de
48%.
Exemple
♠ X = catégorie socioprofessionnelle
♠ Y = âge
On note les effectifs estimés sur l’échantillon et les effectifs connus sur la population
dans un tableau.
Exemple
On cale l’échantillon sur les distributions marginales des variables dans la population ; on
utilise comme information auxiliaire les valeurs Ni+ , ..., N+j i.e. les marges du tableau de
contingence croisant les deux variables. D’où le nom de calage sur marges.
Par extension, on parle de calage sur marges dans le cas où l’on cale sur les totaux / les
effectifs dans la population d’un nombre quelconque de variables quantitatives /
catégorielles.
PRINCIPE DE LA MÉTHODE
FORMALISATION MATHÉMATIQUE
L’estimateur de Y à partir des données de l’enquête est dans la quasi-totalité des cas de
la forme : X
Ŷ = dk yk
k∈S
FORMALISATION MATHÉMATIQUE
La fonction de distance G, d’argument r = wdkk , utilisée pour mesurer les distances entre
les wk et les dk , est positive et convexe, et vérifie G(1) = 0. Les poids cherchés wk
minimisent la quantité : X wk
D= dk G( )
dk
k∈S
SOLUTION THÉORIQUE
On choisit une fonction de distance G telle que G( wdkk ) mesure la distance entre le poids
initial dk et le poids final wk . Nous supposons que :
♠ G(1) = 0,
♠ G est positive et convexe (i.e, plus wkdk s’éloigne de 1, plus G( dk ) est grand)
wk
Le Lagrangien s’écrit :
X wk X
L= dk G( ) − λ′ ( wk xk − Xj )
dk
k∈S k∈S
SOLUTION THÉORIQUE
wki+1 wi
max | − k | < ϵ2
k∈S dk dk
Une fois les poids de calage wk calculés, l’estimateur du total de toute variable d’intérêt
Y sera alors l’estimateur dit « calé », de la forme :
X
Ŷw = w k yk
k∈S
−4 par exemple)
2. ϵ est un seuil chois par l’utilisateur (10Calage
24 / 31 sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
a) Méthode linéaire
1
G(r ) = (r − 1)2 , r ∈ R et F (u) = 1 + u(∈ R)
2
D est alors une distance de type khi-deux entre les poids dk et wk . La forme linéaire de
F donne son nom à cette méthode, et l’estimateur calé est alors l’estimateur par
régression généralisée :
X X
Yreg = YHT + (X − X̂HT )B̂s où B̂s = ( dk xk xk′ )−1 ( ds xk yk )
k∈S k∈S
Cette méthode est la plus rapide car l’algorithme de Newton converge toujours après
deux itérations. Elle peut conduire à des poids wk négatifs, et les poids ne sont pas
bornés supérieurement.
La forme logistique de la fonction F donne son nom à cette méthode, qui assure que les
rapports de poids wk /dk sont compris dans l’intervalle ]L, U[. Toutefois, on ne peut pas
choisir a priori n’importe quelles valeurs pour L et U : il existe en général pour L une
valeur maximale Lmax (inférieure à 1), et pour U une valeur minimale Umin (supérieure à
1).
Ces valeurs dépendent des données et des marges du calage : plus la structure de
l’échantillon est différente de celle de la population concernant les variables de calage,
28 / 31
plus ces valeurs sont éloignées de 1. Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
F (u) = 1 + u ∈ [L, U]
Cette méthode assure que les rapports wk /dk sont compris dans l’intervalle [L, U], et
comme pour la méthode « logit » il existe en général des valeurs Lmax et Umin .
C’est la méthode logit - ou linéaire tronquée - qui est la plus souvent utilisée, car elle
permet d’éviter les poids trop élevés, qui entraînent des risques de manque de robustesse
des estimations, et les poids trop faibles, inférieurs à 1 voire négatifs, auxquels peut
conduire la méthode linéaire.
CAS PRATIQUE