Calage Sur Marges

INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE
Agence Nationale de la Statistique et de la Démographie

(ANSD)
Ecole Nationale de la Statistique et de l’Analyse Economique

(ENSAE)
Calage sur marges, aspects théoriques et

partiques
Présenter par :
Fatou DIOP
Isabelle MOSSE
Crépin MEDEHOUIN
Jean Pierre NDIAYE
Ingénieurs Statisticiens Economistes (ISE)
1 / 31 Calage sur marges
INTRODUCTION
CAS PRATIQUE
PLAN
1 INTRODUCTION
2 POST-STRATIFICATION SIMPLE
3 CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
4 LES FONCTIONS DE CALAGES
5 CAS PRATIQUE

INTRODUCTION
CAS PRATIQUE
INTRODUCTION

INTRODUCTION
CAS PRATIQUE
INTRODUCTION
Il est rare que l’on n’ait pas connaissance d’une variable quantitative ou qualitative Xi ,
sur chacun des individus de la population.
Si on sonde des entreprises dans le fichier SIRENE (Système Informatisé du Répertoire

des Entreprises et des Établissements), on connaît leur activité principale.
Le principe fondamental à retenir est le suivant : lorsqu’on dispose d’une information

auxiliaire, il faut chercher à l’utiliser dans le but d’obtenir des estimateurs plus précis
que les estimateurs simples de la moyenne ou du total.
Cette information peut être utilisée au niveau du tirage de l’échantillon ou au niveau de

l’expression de l’estimateur. Si plusieurs variables auxiliaires sont utilisées, on peut
recourir à une technique mixte dans laquelle certaines variables serviraient à améliorer le
tirage, et les autres à améliorer l’estimateur.

INTRODUCTION
CAS PRATIQUE
INTRODUCTION
Lorsqu’on manipule de l’information pour obtenir un gain dès le stade du tirage de
l’échantillon, on fait appel à des techniques de stratification, de tirage proportionnel à
un critère de taille ou à des tirages équilibrés.
Bien entendu, la "marque" de l’information auxiliaire se retrouve dans l’expression de

l’estimateur, de façon à ce que l’on çonserve l’avantage déjà acquis lors du tirage
proprement dit.
Cette présentation, au contraire traite de l’utilisation d’une ou de plusieurs variables

auxiliaires au niveau seulement de l’estimateur, sans que ces variables n’aient été d’une
manière quelconque partie prenante dans la phase de tirage : Il s’agit des méthodes de
redressement.
On distingue trois grandes méthodes de redressement couramment utilisées :
1 ) L’ estimateur post-stratifié.
2) L’estimateur par le ratio.
3) L’estimateur par la régression.
Ces méthodes sont des cas particuliers d’une optique généralisée du redressement (dite
de "calage généralisé").
Nous présenterons ici les méthodes de redressement par l’ estimateur post-stratifié qui
est une méthode de calage sur les effectifs marginaux et afin le calage généralisé.
INTRODUCTION
CAS PRATIQUE
INTRODUCTION
Objectif
Pour pouvoir améliorer la précision des estimations des paramètres de la population, le

calage est parmi les méthodes les plus utilisées en pratique. En partant d’un estimateur
classique ne tenant pas compte d’une information auxiliaire, le calage consiste à modifier
les poids de cet estimateur de telle sorte à respecter une propriété voulue mettant à
profit l’information auxiliaire disponible.
Les méthodes de calage consistent à repondérer les unités de l’échantillon, i.e. à modifier
les poids d’échantillonnage, de telle façon que les estimations :
♠ de totaux de variables numériques coïncident avec les vrais totaux connus, par une
information externe, sur la population
♠ d’effectifs des modalités de variables catégorielles coïncident avec les vrais effectifs
connus, par une information externe, sur U.
Ceci permet d’améliorer la précision des estimations

INTRODUCTION
CAS PRATIQUE

INTRODUCTION
CAS PRATIQUE
Principe, Estimation
La méthode de redressement probablement la plus connue et la plus utilisée s’appelle la
post-stratification. On tire, par exemple par sondage aléatoire simple, un échantillon de
taille n. Au sein de l’échantillon, on détermine H catégories (appelées post-strates) en
fonction des valeurs d’une variable ou d’un croisement de variables connues sur chaque
individu de l’échantillon (et non de la population...). Les variables auxiliaires sont
qualitatives (sexe, profession, activité) ou quantitatives rendues qualitatives (tranches
d’âge, tranches de revenu), et les post-strates correspondent aux modalités ou à des
groupements de modalités de ces variables.
On suppose, par ailleurs, que l’effectif global de chaque catégorie h dans la population
est connu : notons Nn cet effectif. On considère que les catégories sont toutes
suffisamment importantes en effectif pour que, compte tenu de la valeur de n, il y ait au
moins un individu tiré dans chaque catégorie. Si on note ȳn la moyenne de la variable Y
obtenue dans la post-strate h à partir de l’échantillon, alors on montre que si le tirage
est aléatoire simple, l’estimateur :
H
X
T̂POST = Nh .ȳh
h=1
INTRODUCTION
CAS PRATIQUE
L’expression de T̂POST n’est pas différente, formellement, de celle de l’estimateur du
total formé dans le cas du sondage stratifié (voirIL2.2). La différence fondamentale
réside dans la méthode de tirage de l’échantillon puisque, si dans le cas du tirage stratifié
la taille de l’échantillon nn dans la strate h est par définition choisie par le sondeur, dans
le cas de la post-stratification après un sondage aléatoire simple, au contraire, la taille
nn est aléatoire (cela est encore vrai quelle que soit la méthode de tirage) : c’est le
hasard qui détermine l’allocation entre les H post-strates, sous la seule contrainte que :
H
X
nh = n
h=1

INTRODUCTION
CAS PRATIQUE
On vérifie facilement que T̂POST estime parfaitement bien les effectifs réels par catégorie
h : la post-stratification est donc une méthode de redressement selon les effectifs par
catégorie Nn . C’est pour cette raison que la post-stratification reçoit aussi le nom de
méthode de calage sur les effectifs Nn . En effet, lorsqu’on cherche à estimer les tailles de
population par catégorie, notre variable est une variable indicatrice qui repère, pour
chaque individu de la population, la catégorie h à laquelle il appartient. Si on note Xu la
variable repérant la catégorie u, on a :
(
1, si i appartient à la catégorie u
Xui =
0, sinon
PN PH
Par conséquent : Xu = i=1 Xui = Nu . Mais X̂u,POST = h=1 Nh .x̄u,h
Avec P
 i∈Sh Xui
x̄u,h = nh = 0, si u ̸= h
 nh = 1, u = h
nh

INTRODUCTION
CAS PRATIQUE
Où Sn désigne les identifiants des individus de l’échantillon appartenant à la catégorie h.
Donc :
X̂u,POST = Nu .1 = Xu
et cela quel que soit l’échantillon.
X̂u,POST , estimant l’effectif de la catégorie u, est donc un estimateur de variance nulle.
La propriété fondamentale du redressement est vérifiée.

INTRODUCTION
CAS PRATIQUE
Application numérique
Soit une enquête semestrielle sur le revenu, où on décide de post-stratifier sur une
variable "tranche d’âge". Le choix d’une telle variable auxiliaire est lié à la forte
corrélation qui existe de manière évidente entre l’âge et le revenu. On tire l’échantillon
par sondage aléatoire simple et on va consulter le Recensement pour obtenir la
répartition Nh , /N suivante (chiffres fictifs)
< 20 ans 21-35 ans 36-50 ans > 50 ans

20% 35% 30% 15%
Dans l’échantillon, on constate que les effectifs sont tels que la répartition nh
n est la
suivante :
< 20 ans 21-35 ans 36-50 ans > 50 ans

15% 30% 30% 25%
6 000 € 9 000 € 15 000 € 12 000 €

INTRODUCTION
CAS PRATIQUE
La dernière ligne fournit le revenu semestriel moyen en euros estimé dans la tranche
d’âge (d’après l’échantillon). Si on ne redresse pas sur l’âge, alors on estime le revenu
moyen dans la population par la très classique moyenne simple ȳ dans l’échantillon
selon :
4
1X X nh
ȳ = Yi = .ȳh
n n
i∈S h=1
ȳ = 0,15 . 6 000 + 0,30 . 9 000 + 0,30 . 15 000 + 0,25 . 12 000 = 11 100 euros.
Si on redresse selon la tranche d’âge, alors on estime le revenu semestriel moyen dans la
population par :
4 4 X
Nh 1
ȲˆPOST =
X Nh X
ȳh = .Yi
N N nh
h=1 h=1 i∈S
ȲˆPOST = 0,20.6 000 + 0,35 .9 000 + 0,30. 15 000 + 0,15 . 12 000 = l0 650 euros

INTRODUCTION
CAS PRATIQUE
En l’absence de post-stratification, le revenu moyen aurait donc été estimé à un montant
plus élevé. En effet, on constate que, sous l’effet du "hasard", l’échantillon comprend
"trop" de personnes de plus de 50 ans. Or, celles-ci ont un revenu moyen relativement
fort, et leur présence, en nombre supérieur à ce qu’il devrait être, "tire" la moyenne
générale estimée vers des valeurs trop élevées. Les deux estimateurs sont sans biais, mais
le second est plus précis.

INTRODUCTION
CAS PRATIQUE
CADRE THÉORIQUE DU CALAGE

GÉNÉRALISÉ

INTRODUCTION
CAS PRATIQUE
CADRE THÉORIQUE
Exemple
Prenons un exemple : ayant tiré, par sondage aléatoire simple, un échantillon de 1 000
individus, on compte 500 hommes et 500 femmes exactement dans une tranche d’âge.
On peut alors estimer la vraie proportion d’hommes dans la population pour cette classe
d’âge par l’estimateur classique P̂ biais : P̂ = p = 1000
500
= 50%
Supposons que, par ailleurs, le Recensement généra1 de la population fournisse la

proportion réelle de 48% d’hommes et de 52% de femmes dans cette classe d’âge. On
voit bien, dans ces conditions, que la valeur de P̂ est erronée.
Le but du redressement est de construire un estimateur Ȳˆ de n’importe quelle moyenne
Ȳ qui, au moins, donne la vraie valeur de 48% quand on l’applique innocemment à
l’estimation de la proportion d’hommes dans la tranche d’âge concernée.
Autrement dit, notre objectif ici est de trouver une formalisation de l’estimateur Ȳˆ que
l’on puisse programmer sur un ordinateur et qui, lorsqu’on lui donne en entrée la variable
qui vaut 1 si f individu est un homme et 0 sinon, fournisse en sortie la valeur exacte de
48%.

INTRODUCTION
CAS PRATIQUE
Exemple - calage sur les marges de variables catégorielles
Exemple
♠ X = catégorie socioprofessionnelle
♠ Y = âge
On note les effectifs estimés sur l’échantillon et les effectifs connus sur la population
dans un tableau.
15-24 ans ... 35-44 ans ... Plus de 75 ans Marges

Agriculteurs N̂1+
N1+
...
N̂ij
Cadres supérieurs Nij
N̂i+
Ni+
...
N̂I+
Indépendants NI+
N̂+1 N̂+j N̂+J N̂
Marges N+1 N+j N+J N

INTRODUCTION
CAS PRATIQUE
Exemple
On cale l’échantillon sur les distributions marginales des variables dans la population ; on
utilise comme information auxiliaire les valeurs Ni+ , ..., N+j i.e. les marges du tableau de
contingence croisant les deux variables. D’où le nom de calage sur marges.
Par extension, on parle de calage sur marges dans le cas où l’on cale sur les totaux / les
effectifs dans la population d’un nombre quelconque de variables quantitatives /
catégorielles.

INTRODUCTION
CAS PRATIQUE

Exemple : Redressement d’échantillon avec deux variables
Réalité Étudiant Salarié Théorique Étudiant Salarié

Homme 10 10 Homme 12 38
Femme 40 40 Femme 8 42
Coefficient Étudiant Salarié

Homme 1,2 3,8
Femme 0,2 1,05
Et si nous avons moins d’information
Étudiant Salarié Réalité Théorique

Homme 10 10 20 50
Femme 40 40 80 50
Réalité 50 50
Théorique 20 80

INTRODUCTION
CAS PRATIQUE
PRINCIPE DE LA MÉTHODE
Re-pondérer les individus échantillonnés en utilisant une information auxiliaire disponible

sur un certain nombre de variables, appelées variables de calage.

INTRODUCTION
CAS PRATIQUE
FORMALISATION MATHÉMATIQUE
On considère une population U d’individus, dans laquelle on a sélectionné un échantillon

probabiliste S. Pour tout individu k de U, on note πk sa probabilité d’inclusion dans S.
Soit Y une variable d’intérêt, dont on désire estimer le total sur la population :
X
Y = yk
k∈U
L’estimateur de Y à partir des données de l’enquête est dans la quasi-totalité des cas de
la forme : X
Ŷ = dk yk
k∈S
où les dk sont des poids d’estimation associés aux observations de l’échantillon.

Ces poids sont souvent les « poids de sondage », égaux aux inverses des probabilités
d’inclusion πk : l’estimateur obtenu est alors l’estimateur d’Horvitz-Thompson :
X 1
ŶHT = yk
πk
k∈S

INTRODUCTION
CAS PRATIQUE
FORMALISATION MATHÉMATIQUE
On suppose que l’on connaît les totaux sur la population de J variables

auxiliaires 1
X1 . . .Xj . . .XJ , disponibles pour toutes les observations de l’échantillon :
Xj = k∈U xjk .
P
On va chercher de nouvelles pondérations, les « poids de calage » wk , qui soient aussi

proches que possible, au sens d’une certaine « fonction de distance » G, des
pondérations initiales dk , et qui assurent le calage sur les totaux des variables Xj , i.e.
qui vérifient les équations de calage :
X
∀j = 1, ...J wk xjk = Xj (1)
k∈S
La fonction de distance G, d’argument r = wdkk , utilisée pour mesurer les distances entre
les wk et les dk , est positive et convexe, et vérifie G(1) = 0. Les poids cherchés wk
minimisent la quantité : X wk
D= dk G( )
dk
k∈S
sous les contraintes de calage (1)

22 / 31 1. Il s’agit de variables quantitatives ou d’indicatrices associées aux modalités de variables catégorielles.
Calage sur marges
INTRODUCTION
CAS PRATIQUE
SOLUTION THÉORIQUE
On choisit une fonction de distance G telle que G( wdkk ) mesure la distance entre le poids
initial dk et le poids final wk . Nous supposons que :
♠ G(1) = 0,
♠ G est positive et convexe (i.e, plus wkdk s’éloigne de 1, plus G( dk ) est grand)
wk
Le Lagrangien s’écrit :
X wk X
L= dk G( ) − λ′ ( wk xk − Xj )
dk
k∈S k∈S
où λ′ = (λ1 , ...λJ ) est un vecteur de multiplicateurs de Lagrange

INTRODUCTION
CAS PRATIQUE
SOLUTION THÉORIQUE
La résolution du problème d’optimisation conduit à : wk = dk F (xk′ λ) où

xk′ = (xk1 , ..., xkj ) F, appelée fonction de calage, est la fonction réciproque de la dérivée
de la fonction G.
On peut résoudre numériquement ce système par la méthode itérative de Newton ; on
calcule une suite de vecteurs λ(i) définis par une relation de récurrence, en initialisant
l’algorithme avec le vecteur λ(0) = 0.
La convergence est obtenue lorsque les rapports de poids wk /dk obtenus lors de deux
itérations successives « ne bougent presque plus » :
wki+1 wi
max | − k | < ϵ2
k∈S dk dk
Une fois les poids de calage wk calculés, l’estimateur du total de toute variable d’intérêt
Y sera alors l’estimateur dit « calé », de la forme :
X
Ŷw = w k yk
k∈S
−4 par exemple)
2. ϵ est un seuil chois par l’utilisateur (10Calage
24 / 31 sur marges
INTRODUCTION
CAS PRATIQUE

INTRODUCTION
CAS PRATIQUE

Quatre (04) méthodes de calage, correspondant à 04 fonctions de distance, sont
proposées dans la macro SAS Calmar et dans le package R Icarus. Elles sont définies par
la forme de la fonction F. On indique ci-dessous pour chacune des méthodes la fonction
G(r) (où r = wk /dk désigne le « rapport de poids »), et la fonction F(u) (où u = xk′ λ).
a) Méthode linéaire
1
G(r ) = (r − 1)2 , r ∈ R et F (u) = 1 + u(∈ R)
2
D est alors une distance de type khi-deux entre les poids dk et wk . La forme linéaire de
F donne son nom à cette méthode, et l’estimateur calé est alors l’estimateur par
régression généralisée :
X X
Yreg = YHT + (X − X̂HT )B̂s où B̂s = ( dk xk xk′ )−1 ( ds xk yk )
k∈S k∈S
Cette méthode est la plus rapide car l’algorithme de Newton converge toujours après
deux itérations. Elle peut conduire à des poids wk négatifs, et les poids ne sont pas
bornés supérieurement.

INTRODUCTION
CAS PRATIQUE
b) méthode « exponentielle », ou « raking ratio »
G(r ) = r log r − r , r > 0 F (u) = exp u, (> 0)

D est alors une distance de type « entropie » entre les poids dk et wk . Lorsque les
variables auxiliaires sont des variables catégorielles pour lesquelles on connaît les effectifs
des modalités dans la population, le choix de cette fonction G conduit à une méthode
classique de redressement, proposée par Deming et Stephan [2], sous le nom de raking
ratio ; elle est aussi connue (dans SAS en particulier) sous le nom I.P.F. ("Iterative
Proportional Fitting").
Cette méthode conduit à des poids toujours positifs, mais non bornés supérieurement,
d’ailleurs en général supérieurs (pour les poids les plus élevés) à ceux de la méthode
linéaire.

INTRODUCTION
CAS PRATIQUE

c) méthode « logit »
On choisit deux réels L et U tels que L < 1 < U.
(
[(r − L) log 1−L
r −L
log U−1 ] A , si r ∈]L, U[
U−r 1
G(r ) =
+∞, sinon
U −L
Où A =
(1 − L)(U − 1)
L(U − 1) + U(1 − L) exp Au

F (u) = , on a F (u) ∈]L, U[
(U − 1) + (1 − L) exp Au
La forme logistique de la fonction F donne son nom à cette méthode, qui assure que les
rapports de poids wk /dk sont compris dans l’intervalle ]L, U[. Toutefois, on ne peut pas
choisir a priori n’importe quelles valeurs pour L et U : il existe en général pour L une
valeur maximale Lmax (inférieure à 1), et pour U une valeur minimale Umin (supérieure à
1).
Ces valeurs dépendent des données et des marges du calage : plus la structure de
l’échantillon est différente de celle de la population concernant les variables de calage,
28 / 31
plus ces valeurs sont éloignées de 1. Calage sur marges
INTRODUCTION
CAS PRATIQUE
d) méthode « linéaire tronquée »

On choisit deux réels L et U tels que L < 1 < U.
(
1
(r − 1)2 , si L ≤ r ≤ U
G(r ) = 2
+∞, sinon
F (u) = 1 + u ∈ [L, U]
Cette méthode assure que les rapports wk /dk sont compris dans l’intervalle [L, U], et
comme pour la méthode « logit » il existe en général des valeurs Lmax et Umin .
C’est la méthode logit - ou linéaire tronquée - qui est la plus souvent utilisée, car elle
permet d’éviter les poids trop élevés, qui entraînent des risques de manque de robustesse
des estimations, et les poids trop faibles, inférieurs à 1 voire négatifs, auxquels peut
conduire la méthode linéaire.

INTRODUCTION
CAS PRATIQUE
CAS PRATIQUE

INTRODUCTION
CAS PRATIQUE
MERCI POUR VOTRE ATTENTION

Calage Sur Marges

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Calage Sur Marges

Transféré par

Droits d'auteur :

Formats disponibles

INTRODUCTION

Agence Nationale de la Statistique et de la Démographie

Ecole Nationale de la Statistique et de l’Analyse Economique

Calage sur marges, aspects théoriques et

3 CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ

4 LES FONCTIONS DE CALAGES

2 / 31 Calage sur marges

3 / 31 Calage sur marges

Si on sonde des entreprises dans le fichier SIRENE (Système Informatisé du Répertoire

Le principe fondamental à retenir est le suivant : lorsqu’on dispose d’une information

Cette information peut être utilisée au niveau du tirage de l’échantillon ou au niveau de

4 / 31 Calage sur marges

Bien entendu, la "marque" de l’information auxiliaire se retrouve dans l’expression de

Cette présentation, au contraire traite de l’utilisation d’une ou de plusieurs variables

Pour pouvoir améliorer la précision des estimations des paramètres de la population, le

Ceci permet d’améliorer la précision des estimations

6 / 31 Calage sur marges

7 / 31 Calage sur marges

9 / 31 Calage sur marges

10 / 31 Calage sur marges

11 / 31 Calage sur marges

< 20 ans 21-35 ans 36-50 ans > 50 ans

< 20 ans 21-35 ans 36-50 ans > 50 ans

12 / 31 Calage sur marges

13 / 31 Calage sur marges

14 / 31 Calage sur marges

CADRE THÉORIQUE DU CALAGE

15 / 31 Calage sur marges

Supposons que, par ailleurs, le Recensement généra1 de la population fournisse la

16 / 31 Calage sur marges

Exemple - calage sur les marges de variables catégorielles

15-24 ans ... 35-44 ans ... Plus de 75 ans Marges

17 / 31 Calage sur marges

Exemple - calage sur les marges de variables catégorielles

18 / 31 Calage sur marges

Exemple - calage sur les marges de variables catégorielles

Réalité Étudiant Salarié Théorique Étudiant Salarié

Coefficient Étudiant Salarié

Et si nous avons moins d’information

Étudiant Salarié Réalité Théorique

19 / 31 Calage sur marges

Re-pondérer les individus échantillonnés en utilisant une information auxiliaire disponible

20 / 31 Calage sur marges

On considère une population U d’individus, dans laquelle on a sélectionné un échantillon

où les dk sont des poids d’estimation associés aux observations de l’échantillon.

21 / 31 Calage sur marges

On suppose que l’on connaît les totaux sur la population de J variables

On va chercher de nouvelles pondérations, les « poids de calage » wk , qui soient aussi

sous les contraintes de calage (1)

où λ′ = (λ1 , ...λJ ) est un vecteur de multiplicateurs de Lagrange

23 / 31 Calage sur marges

La résolution du problème d’optimisation conduit à : wk = dk F (xk′ λ) où

LES FONCTIONS DE CALAGES

25 / 31 Calage sur marges

LES FONCTIONS DE CALAGES

26 / 31 Calage sur marges

LES FONCTIONS DE CALAGES

b) méthode « exponentielle », ou « raking ratio »

G(r ) = r log r − r , r > 0 F (u) = exp u, (> 0)

27 / 31 Calage sur marges

LES FONCTIONS DE CALAGES

L(U − 1) + U(1 − L) exp Au

LES FONCTIONS DE CALAGES