Vous êtes sur la page 1sur 31

INTRODUCTION

POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

Agence Nationale de la Statistique et de la Démographie


(ANSD)

Ecole Nationale de la Statistique et de l’Analyse Economique


(ENSAE)

Calage sur marges, aspects théoriques et


partiques

Présenter par :
Fatou DIOP
Isabelle MOSSE
Crépin MEDEHOUIN
Jean Pierre NDIAYE
Ingénieurs Statisticiens Economistes (ISE)
1 / 31 Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

PLAN

1 INTRODUCTION

2 POST-STRATIFICATION SIMPLE

3 CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ

4 LES FONCTIONS DE CALAGES

5 CAS PRATIQUE

2 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

INTRODUCTION

3 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

INTRODUCTION

Il est rare que l’on n’ait pas connaissance d’une variable quantitative ou qualitative Xi ,
sur chacun des individus de la population.

Si on sonde des entreprises dans le fichier SIRENE (Système Informatisé du Répertoire


des Entreprises et des Établissements), on connaît leur activité principale.

Le principe fondamental à retenir est le suivant : lorsqu’on dispose d’une information


auxiliaire, il faut chercher à l’utiliser dans le but d’obtenir des estimateurs plus précis
que les estimateurs simples de la moyenne ou du total.

Cette information peut être utilisée au niveau du tirage de l’échantillon ou au niveau de


l’expression de l’estimateur. Si plusieurs variables auxiliaires sont utilisées, on peut
recourir à une technique mixte dans laquelle certaines variables serviraient à améliorer le
tirage, et les autres à améliorer l’estimateur.

4 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

INTRODUCTION
Lorsqu’on manipule de l’information pour obtenir un gain dès le stade du tirage de
l’échantillon, on fait appel à des techniques de stratification, de tirage proportionnel à
un critère de taille ou à des tirages équilibrés.

Bien entendu, la "marque" de l’information auxiliaire se retrouve dans l’expression de


l’estimateur, de façon à ce que l’on çonserve l’avantage déjà acquis lors du tirage
proprement dit.

Cette présentation, au contraire traite de l’utilisation d’une ou de plusieurs variables


auxiliaires au niveau seulement de l’estimateur, sans que ces variables n’aient été d’une
manière quelconque partie prenante dans la phase de tirage : Il s’agit des méthodes de
redressement.
On distingue trois grandes méthodes de redressement couramment utilisées :
1 ) L’ estimateur post-stratifié.
2) L’estimateur par le ratio.
3) L’estimateur par la régression.
Ces méthodes sont des cas particuliers d’une optique généralisée du redressement (dite
de "calage généralisé").
Nous présenterons ici les méthodes de redressement par l’ estimateur post-stratifié qui
est une méthode de calage sur les effectifs marginaux et afin le calage généralisé.
5 / 31 Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

INTRODUCTION

Objectif

Pour pouvoir améliorer la précision des estimations des paramètres de la population, le


calage est parmi les méthodes les plus utilisées en pratique. En partant d’un estimateur
classique ne tenant pas compte d’une information auxiliaire, le calage consiste à modifier
les poids de cet estimateur de telle sorte à respecter une propriété voulue mettant à
profit l’information auxiliaire disponible.

Les méthodes de calage consistent à repondérer les unités de l’échantillon, i.e. à modifier
les poids d’échantillonnage, de telle façon que les estimations :

♠ de totaux de variables numériques coïncident avec les vrais totaux connus, par une
information externe, sur la population

♠ d’effectifs des modalités de variables catégorielles coïncident avec les vrais effectifs
connus, par une information externe, sur U.

Ceci permet d’améliorer la précision des estimations

6 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

7 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE
Principe, Estimation
La méthode de redressement probablement la plus connue et la plus utilisée s’appelle la
post-stratification. On tire, par exemple par sondage aléatoire simple, un échantillon de
taille n. Au sein de l’échantillon, on détermine H catégories (appelées post-strates) en
fonction des valeurs d’une variable ou d’un croisement de variables connues sur chaque
individu de l’échantillon (et non de la population...). Les variables auxiliaires sont
qualitatives (sexe, profession, activité) ou quantitatives rendues qualitatives (tranches
d’âge, tranches de revenu), et les post-strates correspondent aux modalités ou à des
groupements de modalités de ces variables.

On suppose, par ailleurs, que l’effectif global de chaque catégorie h dans la population
est connu : notons Nn cet effectif. On considère que les catégories sont toutes
suffisamment importantes en effectif pour que, compte tenu de la valeur de n, il y ait au
moins un individu tiré dans chaque catégorie. Si on note ȳn la moyenne de la variable Y
obtenue dans la post-strate h à partir de l’échantillon, alors on montre que si le tirage
est aléatoire simple, l’estimateur :
H
X
T̂POST = Nh .ȳh
h=1
8 / 31 Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Principe, Estimation
L’expression de T̂POST n’est pas différente, formellement, de celle de l’estimateur du
total formé dans le cas du sondage stratifié (voirIL2.2). La différence fondamentale
réside dans la méthode de tirage de l’échantillon puisque, si dans le cas du tirage stratifié
la taille de l’échantillon nn dans la strate h est par définition choisie par le sondeur, dans
le cas de la post-stratification après un sondage aléatoire simple, au contraire, la taille
nn est aléatoire (cela est encore vrai quelle que soit la méthode de tirage) : c’est le
hasard qui détermine l’allocation entre les H post-strates, sous la seule contrainte que :
H
X
nh = n
h=1

9 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Principe, Estimation
On vérifie facilement que T̂POST estime parfaitement bien les effectifs réels par catégorie
h : la post-stratification est donc une méthode de redressement selon les effectifs par
catégorie Nn . C’est pour cette raison que la post-stratification reçoit aussi le nom de
méthode de calage sur les effectifs Nn . En effet, lorsqu’on cherche à estimer les tailles de
population par catégorie, notre variable est une variable indicatrice qui repère, pour
chaque individu de la population, la catégorie h à laquelle il appartient. Si on note Xu la
variable repérant la catégorie u, on a :
(
1, si i appartient à la catégorie u
Xui =
0, sinon
PN PH
Par conséquent : Xu = i=1 Xui = Nu . Mais X̂u,POST = h=1 Nh .x̄u,h
Avec P
 i∈Sh Xui
x̄u,h = nh = 0, si u ̸= h
 nh = 1, u = h
nh

10 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Principe, Estimation
Où Sn désigne les identifiants des individus de l’échantillon appartenant à la catégorie h.
Donc :
X̂u,POST = Nu .1 = Xu
et cela quel que soit l’échantillon.
X̂u,POST , estimant l’effectif de la catégorie u, est donc un estimateur de variance nulle.
La propriété fondamentale du redressement est vérifiée.

11 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Application numérique
Soit une enquête semestrielle sur le revenu, où on décide de post-stratifier sur une
variable "tranche d’âge". Le choix d’une telle variable auxiliaire est lié à la forte
corrélation qui existe de manière évidente entre l’âge et le revenu. On tire l’échantillon
par sondage aléatoire simple et on va consulter le Recensement pour obtenir la
répartition Nh , /N suivante (chiffres fictifs)

< 20 ans 21-35 ans 36-50 ans > 50 ans


20% 35% 30% 15%

Dans l’échantillon, on constate que les effectifs sont tels que la répartition nh
n est la
suivante :

< 20 ans 21-35 ans 36-50 ans > 50 ans


15% 30% 30% 25%
6 000 € 9 000 € 15 000 € 12 000 €

12 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Application numérique
La dernière ligne fournit le revenu semestriel moyen en euros estimé dans la tranche
d’âge (d’après l’échantillon). Si on ne redresse pas sur l’âge, alors on estime le revenu
moyen dans la population par la très classique moyenne simple ȳ dans l’échantillon
selon :
4
1X X nh
ȳ = Yi = .ȳh
n n
i∈S h=1

ȳ = 0,15 . 6 000 + 0,30 . 9 000 + 0,30 . 15 000 + 0,25 . 12 000 = 11 100 euros.
Si on redresse selon la tranche d’âge, alors on estime le revenu semestriel moyen dans la
population par :
4 4 X
Nh 1
ȲˆPOST =
X Nh X
ȳh = .Yi
N N nh
h=1 h=1 i∈S

ȲˆPOST = 0,20.6 000 + 0,35 .9 000 + 0,30. 15 000 + 0,15 . 12 000 = l0 650 euros

13 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

POST-STRATIFICATION SIMPLE

Application numérique
En l’absence de post-stratification, le revenu moyen aurait donc été estimé à un montant
plus élevé. En effet, on constate que, sous l’effet du "hasard", l’échantillon comprend
"trop" de personnes de plus de 50 ans. Or, celles-ci ont un revenu moyen relativement
fort, et leur présence, en nombre supérieur à ce qu’il devrait être, "tire" la moyenne
générale estimée vers des valeurs trop élevées. Les deux estimateurs sont sans biais, mais
le second est plus précis.

14 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

CADRE THÉORIQUE DU CALAGE


GÉNÉRALISÉ

15 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

CADRE THÉORIQUE

Exemple
Prenons un exemple : ayant tiré, par sondage aléatoire simple, un échantillon de 1 000
individus, on compte 500 hommes et 500 femmes exactement dans une tranche d’âge.
On peut alors estimer la vraie proportion d’hommes dans la population pour cette classe
d’âge par l’estimateur classique P̂ biais : P̂ = p = 1000
500
= 50%

Supposons que, par ailleurs, le Recensement généra1 de la population fournisse la


proportion réelle de 48% d’hommes et de 52% de femmes dans cette classe d’âge. On
voit bien, dans ces conditions, que la valeur de P̂ est erronée.
Le but du redressement est de construire un estimateur Ȳˆ de n’importe quelle moyenne
Ȳ qui, au moins, donne la vraie valeur de 48% quand on l’applique innocemment à
l’estimation de la proportion d’hommes dans la tranche d’âge concernée.

Autrement dit, notre objectif ici est de trouver une formalisation de l’estimateur Ȳˆ que
l’on puisse programmer sur un ordinateur et qui, lorsqu’on lui donne en entrée la variable
qui vaut 1 si f individu est un homme et 0 sinon, fournisse en sortie la valeur exacte de
48%.

16 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

Exemple - calage sur les marges de variables catégorielles

Exemple

♠ X = catégorie socioprofessionnelle
♠ Y = âge

On note les effectifs estimés sur l’échantillon et les effectifs connus sur la population
dans un tableau.

15-24 ans ... 35-44 ans ... Plus de 75 ans Marges


Agriculteurs N̂1+
N1+
...
N̂ij
Cadres supérieurs Nij
N̂i+
Ni+
...
N̂I+
Indépendants NI+
N̂+1 N̂+j N̂+J N̂
Marges N+1 N+j N+J N

17 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

Exemple - calage sur les marges de variables catégorielles

Exemple

On cale l’échantillon sur les distributions marginales des variables dans la population ; on
utilise comme information auxiliaire les valeurs Ni+ , ..., N+j i.e. les marges du tableau de
contingence croisant les deux variables. D’où le nom de calage sur marges.
Par extension, on parle de calage sur marges dans le cas où l’on cale sur les totaux / les
effectifs dans la population d’un nombre quelconque de variables quantitatives /
catégorielles.

18 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

Exemple - calage sur les marges de variables catégorielles


Exemple : Redressement d’échantillon avec deux variables

Réalité Étudiant Salarié Théorique Étudiant Salarié


Homme 10 10 Homme 12 38
Femme 40 40 Femme 8 42

Coefficient Étudiant Salarié


Homme 1,2 3,8
Femme 0,2 1,05

Et si nous avons moins d’information

Étudiant Salarié Réalité Théorique


Homme 10 10 20 50
Femme 40 40 80 50
Réalité 50 50
Théorique 20 80

19 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

PRINCIPE DE LA MÉTHODE

Re-pondérer les individus échantillonnés en utilisant une information auxiliaire disponible


sur un certain nombre de variables, appelées variables de calage.

20 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

FORMALISATION MATHÉMATIQUE

On considère une population U d’individus, dans laquelle on a sélectionné un échantillon


probabiliste S. Pour tout individu k de U, on note πk sa probabilité d’inclusion dans S.
Soit Y une variable d’intérêt, dont on désire estimer le total sur la population :
X
Y = yk
k∈U

L’estimateur de Y à partir des données de l’enquête est dans la quasi-totalité des cas de
la forme : X
Ŷ = dk yk
k∈S

où les dk sont des poids d’estimation associés aux observations de l’échantillon.


Ces poids sont souvent les « poids de sondage », égaux aux inverses des probabilités
d’inclusion πk : l’estimateur obtenu est alors l’estimateur d’Horvitz-Thompson :
X 1
ŶHT = yk
πk
k∈S

21 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

FORMALISATION MATHÉMATIQUE

On suppose que l’on connaît les totaux sur la population de J variables


auxiliaires 1
X1 . . .Xj . . .XJ , disponibles pour toutes les observations de l’échantillon :
Xj = k∈U xjk .
P

On va chercher de nouvelles pondérations, les « poids de calage » wk , qui soient aussi


proches que possible, au sens d’une certaine « fonction de distance » G, des
pondérations initiales dk , et qui assurent le calage sur les totaux des variables Xj , i.e.
qui vérifient les équations de calage :
X
∀j = 1, ...J wk xjk = Xj (1)
k∈S

La fonction de distance G, d’argument r = wdkk , utilisée pour mesurer les distances entre
les wk et les dk , est positive et convexe, et vérifie G(1) = 0. Les poids cherchés wk
minimisent la quantité : X wk
D= dk G( )
dk
k∈S

sous les contraintes de calage (1)


22 / 31 1. Il s’agit de variables quantitatives ou d’indicatrices associées aux modalités de variables catégorielles.
Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

SOLUTION THÉORIQUE

On choisit une fonction de distance G telle que G( wdkk ) mesure la distance entre le poids
initial dk et le poids final wk . Nous supposons que :
♠ G(1) = 0,
♠ G est positive et convexe (i.e, plus wkdk s’éloigne de 1, plus G( dk ) est grand)
wk

Le Lagrangien s’écrit :
X wk X
L= dk G( ) − λ′ ( wk xk − Xj )
dk
k∈S k∈S

où λ′ = (λ1 , ...λJ ) est un vecteur de multiplicateurs de Lagrange

23 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

SOLUTION THÉORIQUE

La résolution du problème d’optimisation conduit à : wk = dk F (xk′ λ) où


xk′ = (xk1 , ..., xkj ) F, appelée fonction de calage, est la fonction réciproque de la dérivée
de la fonction G.
On peut résoudre numériquement ce système par la méthode itérative de Newton ; on
calcule une suite de vecteurs λ(i) définis par une relation de récurrence, en initialisant
l’algorithme avec le vecteur λ(0) = 0.
La convergence est obtenue lorsque les rapports de poids wk /dk obtenus lors de deux
itérations successives « ne bougent presque plus » :

wki+1 wi
max | − k | < ϵ2
k∈S dk dk
Une fois les poids de calage wk calculés, l’estimateur du total de toute variable d’intérêt
Y sera alors l’estimateur dit « calé », de la forme :
X
Ŷw = w k yk
k∈S

−4 par exemple)
2. ϵ est un seuil chois par l’utilisateur (10Calage
24 / 31 sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

LES FONCTIONS DE CALAGES

25 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

LES FONCTIONS DE CALAGES


Quatre (04) méthodes de calage, correspondant à 04 fonctions de distance, sont
proposées dans la macro SAS Calmar et dans le package R Icarus. Elles sont définies par
la forme de la fonction F. On indique ci-dessous pour chacune des méthodes la fonction
G(r) (où r = wk /dk désigne le « rapport de poids »), et la fonction F(u) (où u = xk′ λ).

a) Méthode linéaire

1
G(r ) = (r − 1)2 , r ∈ R et F (u) = 1 + u(∈ R)
2
D est alors une distance de type khi-deux entre les poids dk et wk . La forme linéaire de
F donne son nom à cette méthode, et l’estimateur calé est alors l’estimateur par
régression généralisée :
X X
Yreg = YHT + (X − X̂HT )B̂s où B̂s = ( dk xk xk′ )−1 ( ds xk yk )
k∈S k∈S

Cette méthode est la plus rapide car l’algorithme de Newton converge toujours après
deux itérations. Elle peut conduire à des poids wk négatifs, et les poids ne sont pas
bornés supérieurement.

26 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

LES FONCTIONS DE CALAGES

b) méthode « exponentielle », ou « raking ratio »

G(r ) = r log r − r , r > 0 F (u) = exp u, (> 0)


D est alors une distance de type « entropie » entre les poids dk et wk . Lorsque les
variables auxiliaires sont des variables catégorielles pour lesquelles on connaît les effectifs
des modalités dans la population, le choix de cette fonction G conduit à une méthode
classique de redressement, proposée par Deming et Stephan [2], sous le nom de raking
ratio ; elle est aussi connue (dans SAS en particulier) sous le nom I.P.F. ("Iterative
Proportional Fitting").
Cette méthode conduit à des poids toujours positifs, mais non bornés supérieurement,
d’ailleurs en général supérieurs (pour les poids les plus élevés) à ceux de la méthode
linéaire.

27 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

LES FONCTIONS DE CALAGES


c) méthode « logit »
On choisit deux réels L et U tels que L < 1 < U.
(
[(r − L) log 1−L
r −L
log U−1 ] A , si r ∈]L, U[
U−r 1
G(r ) =
+∞, sinon
U −L
Où A =
(1 − L)(U − 1)

L(U − 1) + U(1 − L) exp Au


F (u) = , on a F (u) ∈]L, U[
(U − 1) + (1 − L) exp Au

La forme logistique de la fonction F donne son nom à cette méthode, qui assure que les
rapports de poids wk /dk sont compris dans l’intervalle ]L, U[. Toutefois, on ne peut pas
choisir a priori n’importe quelles valeurs pour L et U : il existe en général pour L une
valeur maximale Lmax (inférieure à 1), et pour U une valeur minimale Umin (supérieure à
1).
Ces valeurs dépendent des données et des marges du calage : plus la structure de
l’échantillon est différente de celle de la population concernant les variables de calage,
28 / 31
plus ces valeurs sont éloignées de 1. Calage sur marges
INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

LES FONCTIONS DE CALAGES

d) méthode « linéaire tronquée »


On choisit deux réels L et U tels que L < 1 < U.
(
1
(r − 1)2 , si L ≤ r ≤ U
G(r ) = 2
+∞, sinon

F (u) = 1 + u ∈ [L, U]
Cette méthode assure que les rapports wk /dk sont compris dans l’intervalle [L, U], et
comme pour la méthode « logit » il existe en général des valeurs Lmax et Umin .
C’est la méthode logit - ou linéaire tronquée - qui est la plus souvent utilisée, car elle
permet d’éviter les poids trop élevés, qui entraînent des risques de manque de robustesse
des estimations, et les poids trop faibles, inférieurs à 1 voire négatifs, auxquels peut
conduire la méthode linéaire.

29 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

CAS PRATIQUE

30 / 31 Calage sur marges


INTRODUCTION
POST-STRATIFICATION SIMPLE
CADRE THÉORIQUE DU CALAGE GÉNÉRALISÉ
LES FONCTIONS DE CALAGES
CAS PRATIQUE

MERCI POUR VOTRE ATTENTION

31 / 31 Calage sur marges

Vous aimerez peut-être aussi