Cours de Sondages Master Is 2011-2012 (PDFDrive)

Cours de sondages
Master IS 2011-2012
Gilbert Saporta
Chaire de Statistique Appliquée & CEDRIC
CNAM
292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta 1
Ouvrages recommandés:
 J.ANTOINE Histoire des sondages (Odile Jacob, 2005)

 P.ARDILLY Les techniques de sondage, 2ème édition (Technip, 2006)
 P.ARDILLY, Y.TILLE Exercices corrigés de méthodes de sondage (Ellipses,
2003)
 A.M. DUSSAIX, J.M. GROSBRAS Exercices de sondages (Economica, 1992)
 SYNTEC Etudes Marketing et Opinion - Fiabilité des méthodes et bonnes
pratiques (Dunod, 2007)
 Y.TILLÉ Théorie des sondages (Dunod, 2001)
Sites internet:
 Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/
 Autorité de la statistique publique http://www.autorite-statistique-
publique.fr
 CNIS http://www.cnis.fr/
 INSEE : http://www.insee.fr
 IPSOS: http://www.ipsos.fr/
 Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm
 SYNTEC Etudes http://www.syntec-etudes.com/
2
Introduction: aperçu du secteur
 La statistique publique: 8000 employés dont 5800 à l’INSEE
 Une organisation ternaire:
 Le Conseil national de l'information statistique (Cnis) assure en

amont la concertation entre ses producteurs et ses utilisateurs.
 Le service statistique public (Insee et services statistiques

ministériels ) est le moteur dans sa conception, sa production et sa
diffusion.
 L'Autorité de la statistique publique veille au respect des

principes d'indépendance professionnelle, d'impartialité, d'objectivité,
de pertinence et de qualité dans son élaboration et sa diffusion.
3
un secteur privé qui ne connait pas
la crise
 Près de 400 instituts d’étude de marché et

d’opinion identifiés en France
 Marché estimé de 2 milliards d'euros en
2010
 Environ 12 000 personnes, hors enquêteurs
4
5
 L’opinion: une faible part de l’activité des
instituts
Source: rapport Portelli-Sueur, Sénat
6
7
Une histoire récente
1895 – Kiaer, dénombrements représentatifs

1925 – Jensen,
1934 – Neyman: la théorie
1936 – Election de Roosevelt
1938 – Fondation de l’IFOP
1952 – Horvitz et Thompson, Sondages à
probabilités inégales
1965 – Ballottage De Gaulle
8
LES TECHNIQUES DE SONDAGE
 Problèmes essentiels:
 Sélection de l’échantillon;
 Agrégation des réponses
estimateur;
précision;
9
Les principales étapes
source: P.Ardilly
10
 Méthodes aléatoires:
Plans de sondage
 Simples: - à probabilités égales

- à probabilités inégales
 Complexes: - stratifié
- en grappe
- plusieurs degrés
11
 Méthodes par choix raisonné ou judicieux:
 Quotas;
 Itinéraires;
 Unités – types;
 Volontariat;
 Échantillonnage sur place;
12
13
Représentativité
14
Représentativité
 Notion peu scientifique

 Souvent confondue avec le respect de certaines
proportions (modèle réduit)
 Un sondage à probabilités inégales , un sondage
stratifié ou à plusieurs degrés peuvent être
représentatifs en un autre sens:
 Sondage extrapolable : probabilités d’inclusion
connues et non nulles
15
Fluctuations et biais
 Fluctuations d’échantillonnage : avec les mêmes
probabilités d’inclusion, répéter q fois un sondage
donnera q résultats différents
Y y1 , y2 ,..., yq
 Sans biais: si la moyenne des moyennes de tous les

échantillons possibles est égale à la moyenne de la
population (pas d’écart systématique)
16
SONDAGE ALEATOIRE SIMPLE
 Notations:
 Population ou base de sondage: N
 Identifiant: i
 Variable d’intérêt: Y (Y1, Y2……YN)
N
T   Yi
N
1
Y=
N
i=1
Yi ;
i 1
N
1 N 2

N
1
  (Yi Y) ;
2 2
S
2
(Yi Y) 
2

N i1 N1 i1 N1
17
SONDAGE ALÉATOIRE SIMPLE
 Définition: tirage équiprobable sans remise de n

unités;
n
 Taux de sondage: 
N
 C échantillons possibles;
n
N
N
  i probabilité d’inclusion (plan de taille fixe): 
i 1
i n
n
 Équiprobabilité: i  
N
 Remarque:  i
  p( s)
s (is )
18
 Estimation du total et de la moyenne:

y - estimateur de Y
N y - estimateur de T
E( y)  Y ; E ( N y )  T
 Démonstration avec les variables de Cornfield
1 si i  s E ( i )   i
i  
 0 si i  s V ( i )   i (1   i ) cov( i ;  j )   ij   i j
N y N
Yi yi=variable aléatoire;

n is
yi T    i
 i
is i i1 i Yi= variable non aléatoire

N N
Yi
E(T )   E(i )  Yi  T
i 1 i i 1 19
SONDAGE ALEATOIRE SIMPLE
 Covariance entre variables de Cornfield

cov( i ;  j )   ij   i j   ij   2
CNn 22 n(n  1) n 1
 ij   p( s)  n  
si , js CN N ( N  1) N 1
 (1   )
cov( i ;  j )  
N 1
 Variance de la moyenne
1 N  1 N 2 
V ( y )  V   Yi i   2   Yi V ( i )   YY i j cov(  i ;  j 
)
 n i 1  n  i 1 i j 
 (1   )  N 2 YYi j   (1   ) 2 S2
   Yi    NS  (1   )
n 2
 i 1 i j N  1 n 2
n
20
 Variances:
S2
V ( y )  (1   )
n
2
S
V (Tˆ )  N (1   )
2
n
Estimation de S2:
1
s2  
n  1 is
( yi  y)2
E(s2 )  S 2
 s2
V ( y )  (1   ) n



2
s
V (T )  N (1   ) n
ˆ 2
21
 Intervalles de confiance pour un paramètre

d’intérêt (« fourchette »)
 Intervalle ayant une probabilité 1- (niveau de
confiance) de contenir la vraie valeur du paramètre. 
risque d’erreur, généralement partagé de façon
symétrique /2 et /2
 Nécessite de connaitre au moins approximativement la
distribution de probabilité de l’estimateur
 La longueur de l’intervalle diminue avec n et augmente
avec le niveau de confiance et avec la variance de
l’estimateur (elle-même fonction de la variance de la
population)
22
Le théorème « central limite »
 La moyenne d’un échantillon de n observations

indépendantes issues d’une population de
moyenne  et d’écart-type  converge si n
augmente vers une loi normale:

N (; )
n
 Illustration animée:
 http://www.vias.org/simulations/simusoft_cenliit.html
Cenlimit.exe
 n>30 est souvent suffisant
23
Intervalle de confiance
théorique pour une moyenne
 Tirages indépendants (avec remise) et n>30

 
y  u /2  Y  y  u /2
n n
pour   5% u /2  2
 Tirages sans remise

 On pourra admettre que:
S S
y  u / 2 1    Y  y  u / 2 1
n n
 Si le taux de sondage est faible la précision ne dépend pas

de N
24
Intervalles de confiance estimés à
95%
 Pour une moyenne:

1 1
y2s Y  y2s
n n
 Pour un pourcentage:
1
y  pˆ fréquence observée Yi   Yp
0
p(1 p) N pˆ(1 pˆ ) pˆ(1 pˆ)
V( pˆ)  (1 ) V ( pˆ)  (1 )  si  faible
n N 1 n 1 n
pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  2  p  pˆ  2
n n 25
Calculs de taille d’échantillon
 Pour une précision fixée

1 1
  2S d'où n  N
n N 2
1
4S 2
 Nécessite de connaitre S !
26
Pour une proportion
 Si n grand et  faible
p(1  p) 4 p(1  p)
2 d'où n =
n 2
 Utile si on connait approximativement p a priori
Ardilly, 2006
Ardilly, 2006
27
 Solution prudente (ou pessimiste)
Se placer dans le cas p=0.50
avec =0.05 1
n
2
28
 Pour  fort , dans le cas p=0.50 avec un
niveau de confiance de 95%:
N
n
1 N 2
29
 Précision absolue ou précision relative?
 Pour une population rare, on aboutit à une taille
d’échantillon souvent excessive
 Viser un /p change tout
 Compromis à faire quand il y a plusieurs
variables d’intérêt
 Attention aux non-réponses: la précision
dépend du nombre de répondants
30
SONDAGE A PROBABILITÉS INÉGALES
 Les plans simples équiprobables ne sont utilisés qu’en

l’absence de toute autre information
 Tirage à probabilités inégales: une manière d’utiliser de
l’information auxiliaire
 Infinité de plans à probabilités inégales et sans remise
31
 Estimateur de Horvitz-Thompson ou des valeurs
dilatées pour un total:
N
T  ai yi aY
i ii
is i 1
N N
E(T )  aY
i i E(i )  aiiY i
i1 i1
N
Pour que T soit sans biais: E(T )  Y i
i 1
aii 1 32
Théorème:
yi
T 
 est le seul estimateur linéaire sans biais
is  i
de T
 1 yi
Pour une moyenne Y Y 
N

i s i
33
Exemple (Ardilly) : nombre d’habitants Y inconnu, nombre de logements X connu.
Estimation du nombre moyen d’habitants par tirage à probabilités
proportionnelles au nombre de logements
34
Echantillons de deux communes:
35
 Si N est inconnu:
N
N  1
i 1
 L’estimateur de N est donc:
1
N 
ˆ
is i
 D’où:
1
E ( )N
is i
36
 Estimateur de Hajek:
1
 1  yi
ˆ
Y    
 i 
 
 i s i s i
 Poids aléatoires de somme 1.

 Estimateur légèrement biaisé
37
 Un cas gênant:
Yi  C
y  1 Yi C 1
  
N is  i N is  i
1 y  C
Comme 
is
N alors
i
 Mais: E(y)  C
38
 Variance:
Yi2
Yi Yj
i j 
N N
V(T )   1i    
i1 i i j  i j
ij
si n fixe formule de Yates-Grundy :

2
1  Yi Yj 
V(T)      i j ij 
N

 
2 i j  i  j 
39
 Estimation de la variance (par Horvitz-Thomson):
Première formule:
ˆ 2 1i
i j 
V(T)  yi 2  yi yj i j
peut être < 0
is i i j s 
i jij
Deuxième formule:
2
ˆ 1  yi yj  i j ij
V(T)    
2 i, js  i  j  ij
40
 La formule de Yates Grundy montre que

l’on a intérêt à tirer proportionnellement
aux valeurs d’une variable auxiliaire X
corrélée (positivement!) à Y.
 Intéressant en cas d’effet taille (CA, nb
d’employés, bénéfice…)
41
 Calcul des probabilités d’inclusion

 nxi
i  N
x
i 1
i
 Exemple: tirage de 3 individus parmi 6

proportionnellement à
x1=300 x2=90 x3=70 x4=50 x5=20 x6=20
42
 Unités sélectionnées d’office et unités

tirées au hasard.
 Infinité de plans de sondage pour des  i
fixés.
43
Sondage systématique à probabilités
inégales
 On cumule pour tous les individus les probabilités

d'inclusion:
 Vk = 1+ 2 + ...+ k
 On génére une seule réalisation u de la loi U[0,1[
 On sélectionne k tel que Vk-1  u < V k
 puis i tel queVi-1  u + 1 < Vi
 puis j tel que Vj-1  u + 2 < Vj
 etc ... on obtient in fine n individus
44
 Simplicité
 Inconvénients:
 certaines probabilités d’inclusion d’ordre 2
peuvent être nulles
 Dépend de l’ordre du fichier
 Tri aléatoire avant tirage?
45
NOMBRES ALEATOIRES et
PSEUDO-ALEATOIRES
G.Saporta, P.Périé et S.Rousseau, octobre 2011
 Utiles pour réaliser des tirages et simuler des

phénomènes aléatoires
 Nombres aléatoires: suite de réalisations
indépendantes d’une variable uniforme sur [0;1]
 Peuvent être obtenus par des procédés physiques:
 roues de loterie,
 éclairage à intervalles irréguliers d'un disque divisé en 10
secteurs isométriques et numérotés de 0 à 9 : table de
Kendall et Babington Smith
46
Nombres pseudo aléatoires
 Procédés déterministes mais fournissant
une suite de nombres en apparence iid sur
[0; 1]
 Suites mathématiques
 décimales de , des tables de logarithmes
 Procédés arithmétiques
 Milieu du carré de Von Neumann (1946)
47
 On part d'un nombre entier
 On l’élève au carré
 On extrait les chiffres du centre comme nombres aléatoires.
 Exemple : x0 = 7534
(7534)2 = 56 7611 56
(7611)2 = 57 9273 21
(9273)2 = 85 9885 29
(9885)2 = 97 7132 25
....
 d'où la suite 7611 9273 9885 7132
 Inconvénients majeurs : dépendance au nombre de départ et
régularités nombreuses (permanence de 0 ou de séries
particulières).
48
 Méthodes de congruence
Elles reposent sur des suites récurrentes :
 choix arbitraire d’un entier x 0 appelé germe (ou seed ou graine)

 génération d’une séquence (x1 ,..., xn ) d’entiers :
Xi+1 =a xi +b (modulo m) pour i = 1, ..., n ,
où a, b et m sont des entiers appelés respectivement multiplicateur,
incrément et modulo.
On vérifie : 0< xi < m pour i 1, ..., n .

xi
 Intérêt : les nombres u1 ...,un où u
m
forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si
les entiers a, b et m sont « bien » choisis.
Intuition de l’horloge : les heures

9h et 21 sont Congrues modulo 12
49
 Le procédé étant déterministe, ces nombres sont
dits pseudo-aléatoires.
 Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25
x0 = 1 x1 = 6 [25] = 6 x2 = 36[25] =11
x3 = 66[25] = 16 x4 = 21 x5 = 1 = x0
Ce cycle a pour longueur 5.
 Remarque :
 La séquence xi i=1,...,n contient au plus m
termes distincts.
 Cette suite est donc périodique de période p
avec p m Si p = m, la période est dite pleine.
50
 Choix des entiers a, b et m :
Ils sont déterminés de telle sorte que la séquence ait les
meilleures propriétés possibles.
En particulier, m est pris aussi grand que possible pour
assurer une grande variété de valeurs dans la suite xi
 Hull et Dobell (1962) ont montré que les séquences de
période pleine sont obtenues si et seulement si :
 b et m sont premiers entre eux,
 (a-1) est un multiple de chaque nombre premier qui divise m
 si m est un multiple de 4 alors (a-1) aussi
Un algorithme très usité est la méthode congruentielle de

Lehmer (1948) qui pose b = 0.
51
 Méthode de Lehmer :
xi+1=axi (m)
(Sur machines 32 bits m aussi grand que possible  m=231-1)
choix classiques:
 a=75 =16807 m=231-1
 a= 216+3=65539 m=231-1
 a=279470273 m=4294967291
Remarque : a= 216+3=65539 m=231-1 : RANDU

(introduit dans les années 1960, sur des machines IBM. Il est très
impopulaire car il possède de nombreux biais auxquels ont dû faire face les
personnes qui l'ont utilisé).
52
 RANDU
 a= 216+3=65539 m=231-1
 m = 216 + 3  m²=6m-9 mod 231
 Pb : trois nombres successifs Xn Xn + 1 et Xn + 2 vérifient toujours la
relation Xn + 2= 6Xn + 1 -9 Xn
 Cette relation donne un caractère ‘prédictif’ à la série pseaudo aléatoire: par

exemple, une modification des valeurs de Xn et Xn + 1 de l'ordre de 0,01,
change la valeur de Xn + 2 d'au plus 0,15.
 Pour avoir un "bon" générateur, on souhaite une relation avec des

coefficients beaucoup plus grands, de telle manière qu'une petite
modification de Xn et Xn + 1 change complètement Xn + 2
53
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
54
 Solutions variées: congruences avec retard
xi = a xi -r +b [m]
 Exemple: ri+1 =(1664525ri+1013904223) m = 232
(Numerical Recipes in C )
 Nombreux tests pour valider le caractère

uniforme et l’indépendance des
réalisations
 Chi-deux, Kolmogorov, tests de séquences, de non
corrélation
55
estimation de 
 http://www-
sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION00033120000000
000000
56
Calcul d’intégrales: méthode de Monte Carlo
 Première méthode : 1
on simule n valeurs de U I 
0
g (t )dt  E ( g (U ))
n
1
Iˆ   g (ui )
n i 1
 Deuxième méthode: fonction d’importance
T variable sur [0 ;1] de densité p(t)
n
1 g (t )  g (T )  Î   g (ti )
1
I  p (t )dt  E   n i 1 p (ti )
0 p (t )  p (T ) 
57
Générateurs pseudo-aléatoires
cryptographiques
 Doivent être capable de produire des séries dont le

caractère pseudo aléatoire est moins discernable pour
mériter ce titre
 … Mais plus lents
 Un générateur congruenciel rapide et possédant de

bonnes propriétés : Mersenne Twister (1997)
 Mais n’est pas considéré comme générateur
cryptographique
 Utilisé dans SPSS à partir de la version 12
58
ALGORITHMES DE TIRAGE
 Qualités souhaitées:
 Sans remise
 Séquentiel
 Rapide
 Respecte les probabilités d’inclusion
 De taille fixe
 Utilisable si N est inconnu
 Etc.
59
Une méthode inefficace : énumération puis
sélection
(Yves Tillé, ‘Sampling Algorithms’ p 31)
Si le plan de sondage est connu, et que la population n’est par trop
large, une méthode pour sélectionner un échantillon est l’approche
énumérative : énumérer tous les échantillons possibles, puis en
sélectionner 1 au hasard.
… méthode pure et simple conceptuellement mais impossible dès que
la population dépasse quelques dizaines
 L’objectif des algorithmes de tirage est de tirer un échantillon en

respectant le plan de sondage et en évitant une énumération complète
au préalable
60
Classes de méthodes (Yves Tillé pp 32 – 39)
 Martingales
 Algorithmes séquentiels
 Sélection pas à pas
 Par élimination
 Sondages réjectifs
61
Notion d’entropie
On montre aisément que I(p) est toujours positif.
Plus l’entropie est élevée, plus le plan de sondage est en un certain

cas aléatoire
A défaut d’information auxiliaire, on peut chercher le plan le plus

aléatoire (au sens de l’entropie) qui vérifie les probabilités d’inclusion
fixées
62
Plans à probabilités égales sans remise
63
Plans à probabilités égales sans remise
 Tirage de Bernoulli:
on tire N nombres aléatoires. L’unité i est retenue si Ui< .
64
 Tirage de Bernoulli
65
 Tri aléatoire
66
 Sélection-rejet
si U1<n/N on prend l’unité 1. Puis n=n-1 et N=N-1. On sélectionne
l’unité 2 si U2<n-1/N-1
Si U1>n/N, on passe à l’unité 2 avec N=N-1. On sélectionne l’unité
2 si U2<n/N-1 etc.
j= nb d’unités
déjà sélectionnées
67
 Méthode de mise à jour de l’échantillon
68
69
 Pas aléatoires
Tirer U et trouver s tel que
CNn  s 1
U  1
CNn
sélectionner l’unité s+1, faire N=N-s-1 et n=n-1 etc.
 et aussi le tirage systématique…
70
 Tirage systématique
 Définir un pas de tirage = N/n (entier par arrondi)
 Tirer une unité au hasard au début du fichier entre 1
et pas
 Sélectionner une unité tous les pas
 Avantages: simplicité, N pas nécessairement connu a

priori, peut être plus efficace que le tirage aléatoire si
le fichier est trié selon une variable bien corrélée à la
variable d’intérêt (cf cours sur le sondage en grappes)
71
 Inconvénients
 Si périodicité dans le fichier (Ardilly)
72
Probabilités inégales sans remise
 Infinité de plans de sondage pour des  i fixés
 Plus de 50 méthodes de tirage! Aucune ne satisfait tous les
critères.
 Quelques techniques simples:
 Tirage avec remise et conservation des unités distinctes mais
taille non fixe
 Rejet de l’échantillon si il y a des doublons mais proba
d’inclusion non proportionnelles aux xi
73
 Tirage successif sans remise:
 Onrecalcule les probas d’inclusion après tirage de
i
chaque individu. Si j est tiré:  '

1
i
j
 Ne respecte pas les probas d’inclusion d’ordre 1

 Tirage poissonnien: sélectionner i si Ui<i
 ij=i j variance simple
 Mais taille non fixe
74
Tirage poissonnien (S.Rousseau, 2004)
75
 Méthode de Sunter (généralisation de la méthode de
sélection-rejet)
76
77
 Méthode RHC (Rao, Hartley,Cochran)
 Pour un tirage à probabilités proportionnelles à la

taille X
 Trier les unités dans un ordre alétaoire
 Tronçonner le fichier en n groupes successifs de N/n
unités
 Tirer dans chaque groupe une unité
proportionnellement à la taille
 Simple et performant
 Remarque: procédé « inexactement proportionnel à la
taille » car les groupes ne sont pas de même taille
78
SONDAGES STRATIFIES
Gilbert Saporta, Philippe Périé (IPSOS)
79
Information auxiliaire
80
STRATIFICATION
 Idée :
 S’il existe dans la base de sondage un critère permettant de
distinguer a priori entre eux les individus, on aura tout à gagner
à utiliser cette information pour répartir l’échantillon dans
chaque sous-population.
 C’est le principe de la stratification: découper la population en

sous ensembles homogènes appelés strates et réaliser un
sondage dans chacune d’elles.
 La stratification a pour objectifs de pour objectif de

diminuer la variance, augmenter la précision
81
Intuition
Dans un sondage aléatoire simple, toutes les combinaisons de n
éléments parmi N sont possibles avec la même probabilité.
Or, il arrive que certaines d’entre elles puissent s’avérer a priori
indésirables
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Recensement des résultats possibles n=2
Par exemple, parmi ces échantillons de 2 unités, on trouve les cas

extrêmes (13, 15) et (25, 30) qui sont particulièrement « mauvais ».
S’il existe dans la base de sondage un critère permettant de distinguer a
priori les catégories des petits et gros clients, on aura tout à gagner à
utiliser cette information pour répartir l’échantillon dans chaque sous- 82
population.
Intuition
Le principe de la stratification :
Découper la population en sous-ensembles appelés strates et réaliser
un sondage dans chacune d’elles : on espère ainsi exclure les
échantillons extrêmes, et - plus généralement – améliorer la précision
des estimateurs
(On a vu qu’à taille égale un échantillon est plus efficace dans une population
homogène que dans une population hétérogène. Plus précisément, l’erreur
type d’estimation est lié à la variance du caractère étudié dans la population.)
Chaque sondage partiel s’effectuera ainsi de façon plus efficace et
l’assemblage de sondages partiels plus précis donnera des résultats
plus fiables qu’un sondage de même taille effectué « en vrac »
La plupart des fois la stratification correspond par ailleurs à un objectif
de réduction des coûts d’enquête ou d’optimisation de sa gestion
C’est en particulier le cas lorsque l’on utilise un critère de découpage
géographique comme la région, ou, dans les échantillon d’entreprise, un critère
sectoriel permettant de spécialiser les enquêteurs 83
Intuition
N=5
Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)
L’unité échantillonnée dans la première strate est désignée pour en représenter trois,
celle de la deuxième strate vaut pour deux. Il convient donc de pondérer chaque
valeur par le poids de la strate dont elle est issue
3 2
ymoy  y1  y2
5 5
On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 20.
Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance mathématique et 84
qu’elle est donc un estimateur sans biais pour ce paramètre.
Intuition
N=5
Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)
On remarque également que la plage des estimations est beaucoup plus

resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont
moins éloignées, l’erreur type (c’est-à-dire la racine carrée de la variance des six
valeurs) vaut 1,40 au lieu de 3,95.
85
STRATIFICATION
Déterminer des strates les plus homogènes possibles, par rapport au
sujet étudié.
2 types de considérations vont conduire au choix des critères de

stratification :
1. disponibilité des critères dans la base de sondage ;
2. pertinence des différents critères pour créer des strates
homogènes.
Ceci nécessite une connaissance

• soit intuitive,
• soit venant d’études réalisées antérieurement.
86
STRATIFICATION PH
 Utilisation d’une P2
S2
kj
S1
information auxiliaire P1
qualitative
 Toujours efficace
87
STRATIFICATION, notations PH
 Strates: P2 kj
N 1 , N 2 ......N h .......N H NNh P1
S1 S2
Nh
Y1 , Y 2 .......Y h .......Y H Y   N
Yh
   h  Yh Y 
Nh 2 Nh 2
 , .... .....H
1
2
2
2
h
2 2 2
N N
 Échantillon:
n1,n2,.........nh,...........nH n nh
nh
y1,y2,........yh,...........yH y   yh
n
ˆ12,ˆ22,.....ˆh2............ˆH2 88
STRATIFICATION
   h   Yh Y  2W 2B

2 Nh 2 Nh 2
N N
Variance totale=
moyenne des variances (variance intra)
+variance des moyennes (variance inter)
89
STRATIFICATION
 Pour la suite, on se placera dans le cas d’un
tirage aléatoire simple sans remise, à
l’intérieur de chaque strate.
90
STRATIFICATION
 Estimateur sans biais de Y (Horvitz Thomson)

Nh
Ystr  
ˆ yh
N
 Variance:
2 2
 N  H
 N   2
h Nh  nh
V (Ystr )    V ( yh )   
ˆ h h
N h1  N  nh Nh 1
1 H Sh2
 2 Nh (Nh  nh )
N h1 nh
91
STRATIFICATION, répartition
proportionnelle
 Échantillon dit « représentatif »:

nh Nh nh n
  h   
n N Nh N
 Taux de sondage constant dans chaque

strate
H H
N nh
Ystr   yh   yh  y  Yˆprop
ˆ h
h 1 N h 1 n
92
proportionnelle
 variance :
2
1 H
S 1 H
Nh  nh
V (Yprop )  2  Nh ( Nh  nh )
ˆ h
 2 Nh Sh2
N h1 nh N h1 nh
1 H Nh 1 H
N N  n H
Nh 2
 2 (  1)Nh Sh  2 (  1)Nh Sh 
2 2
 Sh
N h1 nh N h1 n nN h1 N
 Si Nh est grand:
N  n H
N N  n H
N N  n  2
V (Yˆprop )   h nN 
nN h1 N
h
S 2

h1 N
h
 h
2

N n
w
93
proportionnelle
 Variance de l’estimateur du SAS sans remise:

n S2 N  n S2 N n2
V ( y )  (1  )  
N n N n N n
 Avec les mêmes probabilités d’inclusion d’ordre 1,

l’échantillon stratifié représentatif est plus efficace
qu’un échantillon simple de même taille dès que
les Y h sont différents.
94
STRATIFICATION optimale
 Répartition optimale:
 1 N h  N h  nh  2
V (Ystr )  2
N
 nh
Sh
Nh
avec Sh 2
  h2
Nh 1
ch – coût unitaire d’une observation

 N h N h  nh S
 m in 
2
h
 nh

  nhch  c0
Nh 2 2
n h 
S 


N

S

h h
2
95
h
fixe
 Solution:
N h2 S h2 proportionnel à ch
n h2
nh Sh

Nh ch
Si ch constant:
N h Sh
nh  n - Répartition de Neyman
 N h Sh 96
 Cette répartition utilise un taux de sondage f
proportionnel à la dispersion Sh de X étudiée
dans chaque strate.
 Plus une strate est hétérogène vis-à-vis de la
variable étudiée, plus on utilise un taux de
sondage important.
 La théorie montre que cette répartition est celle
qui fournit la variance la plus faible une fois les
strates déterminées.
97
 Remarquons que l’échantillon de Neyman
dépend du caractère que l’on veut estimer en
priorité. C’est pour ce caractère que l’on prendra
la variance en considération.
 En général, celle-ci ne sera pas connue a priori.
Elle pourra être estimée à partir d’une enquête
antérieure ou d’études limitées.
98
STRATIFICATION
 Exemple n° 1: présondage de 155 unités

Strates 1 2 3 4
Nh 3750 3272 1387 2475 10 884
nh 50 45 30 30 155
yh 12.6 14.5 18.6 13.8
ˆ h 2 2.8 2.9 4.8 3.2
99
STRATIFICATION
 Exemple n° 1:
  Nh  3750x12.6  .....  2475x13.8
Y    yh   14.21
 N  10884
 
 Nh   h
2 2
Vˆ ( Y )    
 N  nh
 0 .0 2 0 5 9  (0 .1 4 ) 2
Intervalle de confiance à 95% pour Y :
14.21 2x0.14 soit: 13.93  Y 

Pour T: 154662  3047 100
STRATIFICATION
 Exemple n° 1:
2
Nh 2 Nh
    h   Yh Y 
2
N N
Yˆ 2
n
On estime: 2h par h  h
str
n h 1
Y h par y h
Y par Yˆstr
  6.06   2.46 
 2 2
101
STRATIFICATION
 Suite: Répartition de Neyman pour n=1000:
N1S1 = 6275 n1 = 1000 x 6275/19 312 = 325
N2S2 = 5572 n2 = 288
N3S3 = 3038 n3 = 157
N4S4 = 4427 n4 = 229
19 312
1 Nh  Nh nh  2
Variance: 2  Sh  0.0029   0.0542
2
N nh
Y connu à + 2 x 0.0542 soit + 0.108
T connu à + 1179 102
STRATIFICATION
 Échantillon simple à 1000:

2 N n
  0.0055   0.0742
2
n N 1
Y connu à + 0.15; T connu à + 1615
 Échantillon stratifié représentatif:
n1 = 345
n2 = 301
n3 = 127
n4 = 227
103
STRATIFICATION
 Estimation d’une proportion p

 Même démarche: une proportion est une
moyenne particulière
H
Nh
pˆ str   fh
h 1 N
 N h  ph (1  ph ) N h  nh
H 2
V ( pstr )   
ˆ 
h 1  N  nh Nh  1
N h  f h (1  f h )  nh 
2
H

V ( pˆ str )   
ˆ
 1  
h 1  N  nh  N h 
104
STRATIFICATION
 Comment stratifier?
 Remarque préalable: dans un sondage à probabilité
inégale i proportionnel à Yi annule la variance.
Nombre de strates: le maximum mais…
Limitesde strates optimales:

méthode de Dalenius et Hodges. Regrouper des
classes selon le cumul de la racine des effectifs
105
STRATIFICATION
Répartition dans les strates:

Si Sh inconnu : répartition proportionnelle
Si Sh connu: Neyman
Sh
 Sinon, hypothèse fréquente  c d’où nh
Y h
proportionnel à la somme de la variable étudiée ou
d’une variable corrélée.
Exemple: échantillon d’entreprises proportionnel au CA
ou à l’effectif de la strate.
106
STRATIFICATION
 Variable de stratification: en théorie Y;
sinon, variable bien corrélée avec Y.
 En pratique quand il y a plusieurs

variables d’intérêt et une variable de
stratification, on utilise la répartition
proportionnelle
107
Exemples
Enquêtes INSEE auprès des entreprises, sondages B2B en
institut.
« Le plan de sondage des enquêtes de l'INSEE auprès des

entreprises est en général un plan de sondage stratifié
avec un sondage aléatoire simple sans remise dans chaque
strate. »
108
Exemples
Indice des prix
http://www.insee.fr/fr/methodes/default.asp?page=sources/ope-ipc.htm
« Le plan de sondage est stratifié selon trois types de critères :
- critère géographique : les relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants
dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ;
- type de produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est
défini pour tenir compte de l'hétérogénéité des produits au sein des postes. La variété est le niveau
de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et
l'IPC n'est pas diffusé à ce niveau ;
- type de point de vente : un échantillon de 27 000 points de vente, stratifié par forme de vente, a été
constitué pour représenter la diversité des produits et modes d'achat des consommateurs et prendre
en compte des variations de prix différenciées selon les formes de vente.
Le croisement de ces différents critères aboutit à suivre un peu plus de 140 000 séries (produits précis
dans un point de vente donné) donnant lieu à près de 160 000 relevés mensuels. »
109
Taille des strates
Autres considérations
 Dans la pratique, d’autres considérations que la précision
optimale peuvent guider l’allocation dans les strates,
comme la nécessité d’avoir des bases de lectures
suffisantes sur chaque strate
 L’étude d’audience de la presse ‘Audipresse ONE’ part d’une

répartition géographique proportionnelle, à partir de laquelle on
impose des seuils minimaux dans chaque département.
 Citons aussi le type d’abonnement pour le secteur des télécoms, les

classes d’ancienneté, les canaux de recrutement des client pour les
études de satisfaction, ….
110
SONDAGE A DEUX DEGRÉS
Population découpée en sous-populations dites
unités primaires
Définition: tirage de m unités primaires puis de ni
unités secondaires
Avantages:
 frais de déplacement réduits
 absence de liste autorisée
Mais:
 précision moindre: effet de grappe.
 Taille d’échantillon en général aléatoire
111
 M unités primaires de taille Ni
Ni
Ti   Y i j - total de l’UP n°i
M
N   N i
i 1 j 1
Tirage aléatoire simple à chaque degré.

M  Ni 
T 
m
 
is  ni
 yij 
jSi 
Remarque: inutile de connaître N pour estimer T.
2  n i  S 2 ,i
 
2
2  m  S 12 M
V 
T  M 1 



  N i 1  
M
     m m
      i  n
N
i
V a r ia n c e V a r ia n c e
in t e r in t r a
UP UP
2 2
S1 
2 1 M

M 1 i1
Ti T   S2,i 
2 1 Ni

Ni 1 i1
Yij  Y i  112
2
S12 estimé par 1   T 
m
si m>1
 s1 
2
 Ti  
m1 i1  M
 idem pour S22,i
 Si ni proportionnel à Ni: taille d’échantillon aléatoire
Ni Ni N i m n0m
ni  n0 E ( ns )  E (  n0 )   n0 
N iSi N kU i N M M
113
 Sondage autopondéré:
- m unités primaires tirées à probabilités proportionnelles à
leur taille
- tirage d’échantillons de taille fixe n0
 probabilités d’inclusion constantes
Nj n0 mn0
i  m 
N Nj N
 Estimateur de la moyenne: N peut être inconnu
Yˆ  y
114
SONDAGES A DEUX DEGRÉS
Comment améliorer la précision ?
 Avant tout, construire des UP le plus

ressemblantes possible entre elles pour limiter
les effets de grappes.
 Exemple : l’unité ménage est intéressante pour
estimer des variables comme le sexe, l’activité, l’âge,
etc, mais elle est moins efficace pour étudier le
niveau d'instruction, la CS , etc.
 Privilégier le nombre d'UP enquêtées plutôt que
le nombre d'US
 Tirer les UP à probabilités inégales
 Stratifier au niveau des UP
115
CAS PARTICULIER: SONDAGE EN
GRAPPES
Définition: toutes les US sont observées dans les
UP tirées.
« Recensement » au deuxième degré

Le tirage systématique est un tirage d’une grappe.
116
SONDAGE EN GRAPPES
 Cas général :tirage de grappes à probabilités
inégales
m
Ti
 Estimation du total: T 
ˆ
i 1 i
 1 m NiYi
 Estimation d’une moyenne Y 
N i 1  i
pb si N inconnu: utiliser l’estimateur de Hajek
m
NiYi


i 1 i
YHajek  m
Ni

i 1
117
i
SONDAGE EN GRAPPES
 Tirage de grappes à probabilités égales
m
i 
M
 taille d’échantillon aléatoire
m Nm
E (ns )  E ( N i )   Ni 
iSi kU i M M
Estimation
 M 1 m
 2 m S Y 
2
M 

T 
m
T
i s
i
V T M 1 
 M m
1
m N i1
NY
i i
118
SONDAGE EN GRAPPES
 Tirage de grappes à probabilités
proportionnelles à la taille
 1 m
Y  Y i
N
i  m i
N
m i 1
 1 m
Ni  2
V (Y ) 
ˆ 
m(m 1) i 1
(1  m
N
)(Yi  Y )
Ni m m M 2
E (ns )  E ( N i )   N i   Ni
iSi iU i N N i 1
119
SONDAGE EN GRAPPES
conseils pratiques
 Faire des grappes homogènes en inter et

hétérogènes en intra (contraire de la stratification).
 Faire beaucoup de grappes de tailles voisines et
petites
 En tirer un maximum
120
Le tirage systématique
 Très utilisé à la place d’un tirage aléatoire à probabilités

égales
 Soit N multiple de n. Par exemple on veut tirer 10
individus parmi 1000 : on commence par tirer au hasard
un nombre entier entre 1 et 100, si ce nombre est 27, le
premier individu sera le n°27, le deuxième le n°127 etc.
jusqu’au n°927.
 De façon générale si on a tiré un entier h , les individus
sélectionnés ont les numéros : h , h+M, h+2M, …,
h+(n-1)M.
 Tirage d’une seule grappe parmi M=N/n grappes.
121
Le tirage systématique
 L’estimateur de la moyenne est simplement la moyenne de la
grappe sélectionnée et sa variance est

2
M
Y N Y 
V Yˆ  M   i i  
i 1  N M
 Lorsque le fichier se trouve être trié selon un ordre proche de Y, la
variance peut être notablement plus faible que pour le tirage aléatoire
simple. Exemple Yi = i
 Mais la variance n’est pas estimable .
2
1 m   T 
 Voir formule s1 
2
 Ti  
m1 i1  M
 Il est incorrect d’utiliser la variance de l’estimateur du tirage aléatoire
simple sauf si la base de sondage a été triée préalablement au hasard.
122
Tirage systématique: un exemple théorique
Yi=i Population triée par ordre croissant N=Kn
N 1 ( N  1) 2
Y  S2 
2 12
•Tirage équiprobable sans remise :
 n  ( N  1) 2
 1  ( Kn  1) 2
V ( ysr )  1    1  
 N  12n  K  12n
123
• Tirage systématique :
une grappe : h, h+K, h+2K,.., h+(n-1)K
n 1
Yh  h  K
2
•Moyenne
n 1 K 1 n 1 nK  1 N  1
E (Yh )  E (h)  K  K 
2 2 2 2 2
•Variance
ˆ n  1 K 2
1
V (Ysyst )  V (h  K )  V ( h)  V ( h) 
2 12
ˆ
V (Ysyst )  V ( ysr )
Exemple N=20 n=4 V (Yˆsyst )  1.33 V ( ysr )  7.35

124
STA108 Enquêtes et sondages
STA108 Enquêtes et sondages
Redressements
Sylvie Rousseau, Gilbert Saporta, novembre 2011

125
SOMMAIRE
1. Estimateur par le quotient (ou ratio)

2. Estimateur par la régression
3. Estimateur post-stratifié
4. Estimateur du raking-ratio
5. Calage sur marges
126
MÉTHODES DE REDRESSEMENT
OU DE REPONDÉRATION
Principe :
Utiliser a posteriori une information supplémentaire
corrélée avec la variable à étudier
 De sorte à :
oaccroître la précision de l’estimation
oassurer la cohérence des résultats par rapport à
l’information supplémentaire
 Information auxiliaire :
Variables de contrôle dont on connaît :
odes caractéristiques globales,
oou des caractéristiques par classes,
oou les valeurs pour chaque unité de la population 127
ESTIMATEUR PAR LE QUOTIENT
EXEMPLE
• Cadre :
• La variable auxiliaire est quantitative
• On connaît le total (ou la moyenne) de cette variable sur
l’échantillon et sur la population
• On va ajuster l’estimation sur cette grandeur connue
• Exemple :
o On veut estimer le CA moyen d’hypermarchés ( Y )
o On a enquêté 80 hypermarchés
o On sait que le nombre moyen de caisses dans la
population des hypermarchés est X  28
o On relève sur l’échantillon
ˆ ˆ
Y 110,2 k € X  28,8
o L’estimateur par le quotient vaut :
ˆ 28
YQ 110,2 107,1 k€ 128
28,8
FORMULE GÉNÉRALE
• Principe : règle de 3
ˆ ˆ X
• Formule générale : YQ  Y  ˆ
X
• Hypothèse de proportionnalité
• Biaisé mais négligeable si n>1000
• Gain de précision par rapport à un PESR de même
taille pourvu que l’hypothèse de proportionnalité
soit valide
129
INTERPRÉTATION GRAPHIQUE
130
POIDS APRÈS REDRESSEMENT
 Yk  X Y
• On a : Ty    
ˆ et Tˆy   k
Q
ks k  Xˆ kS  k
1 X 1 TX
• Le poids après redressement de k vaut 
k Xˆ k TˆX
1
• Le poids de sondage valait
k
131
ESPÉRANCE
• Cas général
 Var Xˆ  Cov Xˆ ,Yˆ 
   
 ˆ      
EYQ   Y 1  
   X² X Y 
 
Biais   S2 Sx, y 
  
ˆ  1 1  x 
o Dans le cas d’un PESR de n parmi N : EYQ   Y 1   
    n N  X ² X Y 
  
• Biais en 1/n
• Biais nul si Y et X sont proportionnelles (droite de
régression passant par l’origine)
Cov X,Y 
ˆ ˆ
   Y R i.e.Yk  RXk  uk
Var X  X
ˆ
  Sx, y Y
o Dans le cas d’un PESR :  R 132
Sx2 X
ESPÉRANCE
ˆ
X X
Développement limité en 0 avec soit X  X1 
 ˆ
•
X
ˆ Y ˆ
ˆ ˆ ˆ ˆ Y X ˆ ˆ  Y
ˆ ˆX Y.X Y.X Y.X Y.X X Y  RX où R  
YQ Y  Y Y    
X
ˆ
X
ˆ X (1  ) 1  1  X
 ˆ 
 ˆ  ˆ  X  X 
 Y  RX 1   Y  RX  1
ˆ ˆ
    X 
 
  Xˆ  X    Xˆ  X 
 ˆ   ˆ ˆ 
EYQ Y   EY  RX  1  
  EY  RX 
ˆ ˆ  
    X    X 
     
  E(Y.X) Y.X  R.E(X ²) R.X ²

1 ˆ ˆ ˆ
X  
ˆ ˆ
R.Var(X) Cov(X,Y )
 133
X
ERREUR QUADRATIQUE MOYENNE
2
Cas général : EQMYQ   EYQ Y   VarY  RX 
• ˆ ˆ ˆ ˆ
     
 VarY   2RCov X,Y   R2Var X 
ˆ ˆ ˆ ˆ
     
o Cas d’un PESR de taille n parmi N :
 ˆ   n  S 2
y  2 RS xy  R 2 2
Sx
EQM  YQ   1  
   N n
ˆ
Y
• Estimée par : EˆQMYˆQ   VârYˆ   2RˆCôv Xˆ ,Yˆ   Rˆ 2Vâr Xˆ  avec Rˆ 
ˆ
        X
ˆ 2  2 Rˆ Sˆ  Rˆ 2 Sˆ 2
  S
Eˆ QM  YQ   1  
ˆ n y xy x
   N n
134
COMPARAISON AVEC UN PESR
• Cas général :
EQM  YQ   Var  Y   2 RCov X , Y   R ²Var  X   0
ˆ ˆ ˆ ˆ ˆ
       
EQM  YQ   Var  Y   2 RS xy  R 2 S x2  0
ˆ ˆ
   
S xy R
  ( X et Y positives)
S x2 2
S xy
1Y (b 
b S x2
2 X
pente de la droite de régression de Y sur X )
 L'estimation par la méthode du ratio est efficace si les

variables Y et X sont « à peu près » proportionnelles 135
COMPLÉMENT : ESTIMATION D’UN RATIO
 Exemple : sélection de n fermes d’élevage par PESR et

observation de Xi nombre de vaches et de Yi production
Y
 Rendement par vache : R 
ˆ X
 Estimé par : Rˆ  Y
ˆ
X
 Biaisé
o Rapport de deux variables aléatoires
o Développement limité
 S 2 S x, y 
  
E Rˆ  R  R   x 
1 1 
 n N  X ² X .Y 

136
ESTIMATEUR PAR LA RÉGRESSION
PRINCIPE
• Cadre :
o La variable auxiliaire est quantitative
o On l’observe pour chaque individu de l’échantillon et on en
connaît la vraie moyenne sur la population
o On va ajuster l’estimation sur cette grandeur connue
• Hypothèse : relation affine entre Y et X y  a  bx

• Formule générale :
Yreg  Y  bˆ X  X 
ˆ ˆ ˆ
 
Sˆ xy
avec bˆ  pente estimée de la droite de régression de Y sur X
2
Sˆ
x
137
INTERPRÉTATION GRAPHIQUE
138
PROPRIÉTÉS
• Biaisé mais biais négligeable pour n assez grand
• Erreur quadratique moyenne dans le cas d’un PESR
2
 n yS
EQMYreg   1   1   ² 
ˆ S xy
avec  
   N n Sx S y
• Estimée par :

ˆ2
 y
S Sˆ xy
EˆQM Yreg   1  
ˆ n
1  ˆ ² avec ˆ 
Sˆ Sˆ
   N n x y
139
COMPARAISON
• Meilleur que l’estimateur d’Horvitz-Thompson
EQMYreg   VarYQ   1   ²  0
ˆ ˆ (toujours vrai)
   
• Meilleur que l’estimateur par le quotient

EQMYreg   EQMYQ   S y2 1   ²   S y2  2RSxy  R 2 S x2
ˆ ˆ
    2
S xy
 R 2 S x2   2 RS xy  0
2
Sx
 R 2 S x4  2 RS x2 S xy  S xy
2
0
 
RS x2  S xy 
2
 0 (toujours vrai)
o Si la relation entre X et Y est linéaire et non affine (ordonnée à
l’origine nulle), alors l’estimateur par la régression est égal à 140
l’estimateur par le quotient
ESTIMATEUR POST-STRATIFIÉ
• Cadre :
o La variable auxiliaire est qualitative
o On définit après l'enquête des groupes d'individus, appelés
post-strates.
o On observe les effectifs des post-strates sur l’échantillon
o On connaît la répartition de la population selon ces post-strates
o On va ajuster l’estimation sur cette répartition
• Remarques :
o Les effectifs des post-strates dans l'échantillon ne sont connus
qu'après enquête
o Ils dépendent de l'échantillon choisi : ce sont des variables
aléatoires
141
1ER EXEMPLE
• On veut estimer le taux de fréquentation des salles de cinéma
• On sait que cette activité est liée à la possession de TV
• On connait le taux d’équipement en TV : ptélé = 80%
• On observe sur un échantillon de taille 1000 choisi par PESR :
Cinéma
Oui Non Total
Télé
Oui 20 680 700 70 % et non 80 % ×8/7
Non 80 220 300 ×2/3
Total 100 900 1000
• Résultats après redressement

Cinéma
Oui Non Total
Télé
Oui 23 777 800
Non 53 147 200 142
Total 76 924 1000
2ND EXEMPLE
• Enquête concernant les revenus : on observe X=classe d’âge et
Y=revenu
• Résultats observés :
Tranche d’âge ≤ 20 21 - 35 36 - 50 ≥ 50
Proportion
15 % 30 % 30 % 25 %
observée
Vraie proportion 20 % 35 % 30 % 15 %
Revenu moyen
6 000 9 000 15 000 12 000
observé
• Estimateur d’Horvitz-Thompson :
ˆ
Y  6000 0,15  9000 0,3  15000 0,3  12000 0,25  11100
• Estimateur post-stratifié
ˆ
Y post  6000 0,2  9000 0,35  15000 0,3  12000 0,15  10650 143
PRINCIPE
• Total et moyenne sur la population :
 Nh  H
H H Ty HNh
Ty   yk     yk    Tyh   N hYh Y    Yh
kU h1 k 1  h1 h1 N h1 N
• Estimateurs d’Horvitz-Thompson :
N H H n ˆ
Tˆy  
yk

N
 yk    y k N  h yˆ h ˆ Ty 1
Y    yk
kS k n kS n h 1 kS h h 1 n N n kS
• Estimateurs post-stratifié
H H  1 
Tˆy   N h yh   N h
ˆ   yk 
post
h1 h1
 nh kS 
 h 
H N H N  1 
h
yk 
ˆ
Y post   yh  
h ˆ

h1 N

h1 N  nh kSh 
 144
POIDS APRÈS REDRESSEMENT
H  1  N
• On a : Ty post   N h   yk  et T̂y   yk
ˆ
h1  nh kSh  n kS
Nh
• Le poids après redressement de k vaut
nh
N
• Le poids de sondage valait
n
145
ESPÉRANCE
ETˆy   E ETˆ 
 post    y post / nh ,h1,...,H 
  H
 ˆ  H H
ˆ
E T y

   N h EYh / nh , h  1,..., H    N hYh  Ty   Tyh
 post / nh , h 1 ,...,H  h1   h1 h1
nh 0 nh 0
car si nh est fixé, le plan est un PESR
H
 ˆ
E T y 
  Ty   Tyh Pnh  0
 post  h1
• Les effectifs nh peuvent être nuls, d’où le léger biais de

l’estimateur post-stratifié
• Pour l’éviter, définir les post-strates de sorte à vérifier :
Nh
n  30 h  1,..., H
N 146
VARIANCE
VarTˆy   E VarTˆ   VarETˆ 
 post    y post / nh ,h1,...,H    y post / nh ,h1,...,H 
 
 H 
VarTy   Tyh   0
 h1 
VarTˆy   E VarTˆ   nh 0 
 post    post / nh ,h1,...,H 
y
2
  S
Var  Tˆy    N 2 1  h 
H n yh

 post / nh ,h 1,..., H  h 1 h  N h  nh
 
   H 2 1 1  2  H   1   2
ˆ
Var  T y   E  N     S yh    N h  N h E    1 S yh
 post   
h 1  nh N h   h 1   nh  
h
  147
VARIANCE
• Calcul de E 1 / nh  par développement limité en 0 avec
nh  1   E nh  
nh 1 1 1
  1 soit 
E nh  nh 1   E nh 
 1 
  E   1
 
1 1
D’où :  n
E   E 1     ²
  E nh  E nh 
•
 h  1 
 Nh
• Or : nh  H ( n, N , N h ) i.e.  E (nh )  n N

Var (nh )  n N h 1  N h  N  n
 N  N  N 1
• On en déduit :
 1    Nn   Nn 
2
 
E  
N
E 1  1  h  
 1  h    N 1  0  N ²Var (nh ) 
 nN  nN   nN 
h  h    nN h  n ² N h2 
 nh    h

N N ( N  N h ) ( N  n)
 
nN h N h2 n ²( N  1) 148
VARIANCE
  H   1   2
• On a : ˆ
Var  T y    N h  N h E    1 S yh

 post  h 1   nh  
 1  N N ( N  N h ) ( N  n)
avec E  
 nN 
 nh  h N h2 n ²( N  1)
D’où la variance d’échantillonnage :

   n  1 H Nh 2 N  n 1 H  Nh  2
ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n² h 1  N 
Qu’on estime par :

   n  1 H Nh ˆ 2 N  n 1 H  Nh  ˆ 2
ˆ ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n ² h 1  N 
149
COMPARAISON
Avec un plan stratifié et des allocations proportionnelles
   n  1 H Nh 2
Var T y prop  N ²1   
ˆ
 N  n h 1 N
S yh
   n  1 H Nh 2 N  n 1 H  Nh  2
ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n² h 1  N 
Var  Tˆy 
 post   1  O 1 

ˆ
Var T y prop   
n
Il vaut toujours mieux stratifier a priori que post-stratifier

Lorsque que stratifier a priori n’est pas possible, la post-
stratification peut être intéressante
Pourvu que le critère de post-stratification soit bien lié avec
la variable d’intérêt
150
CONCLUSION
• Pour avoir une bonne post-stratification :
o Variable auxiliaire bien corrélée avec Y
o n grand
o Grandes post-strates i.e. (N-Nh)/N petit
o Effectifs Nh ou poids des post-strates connus
• Mais :
o Ne pas utiliser que des variables socio-démographiques
o Ne pas multiplier les critères de redressement
151
ESTIMATEUR DU RAKING-RATIO
EXEMPLE
1000 individus ont été interrogés. La répartition par sexe et profession est la suivante
P1 P2 P3 Total
H 300 100 200 600
F 100 150 150 400
Total 400 250 150 1000
Vraies marges 500 et 500 pour le sexe et 350,300, 350 pour la profession.
Une première règle de 3 permet d’obtenir les marges souhaitées pour le sexe : on
multiplie la première ligne par 500/600 et la deuxième ligne par 500/400
P1 P2 P3 Total
H 250 83 167 500
F 125 187.5 187.5 500
Total 375 270.5 354.5 1000
152
ESTIMATEUR DU RAKING-RATIO
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession,
ce qui change les marges en ligne :
P1 P2 P3 Total
H 233 92 165 490
F 117 208 185 510
Total 350 300 350 1000
Puis en ligne :
P1 P2 P3 Total
H 238 94 168 500
F 115 204 181 500
Total 353 298 349 1000
En l’absence de cases vides, l’algorithme converge rapidement et donne les poids de

redressement à appliquer à chaque case. Ainsi à la quatrième itération (très proche du résultat
souhaité) , les 300 individus H et P1 ont chacun un poids de 0.236. La somme des poids de
redressement des 1000 individus vaut 1000.
P1 P2 P3 Total
H 236 95 168 499
F 114 205 182 501 153
Total 350 300 350 1000
GÉNÉRALISATION : CALAGE SUR MARGES
OBJECTIFS
• Améliorer la précision des estimateurs des
paramètres d’intérêt d’une enquête
o Pourvu que les critères de calage soient liés aux
variables d’intérêt
• Assurer la cohérence des résultats avec des
informations synthétiques connues par ailleurs.
Ainsi, après calage, l’échantillon restitue :
o les totaux de variables quantitatives connus sur la
population
o les effectifs de modalités de variables catégorielles
connus sur la population 154
GÉNÉRALISATION : CALAGE SUR MARGES
PRINCIPE
 Re-pondérer les individus échantillonnés en

utilisant une information auxiliaire disponible sur
un certain nombre de variables, appelées
variables de calage
 Cas particuliers : les estimateurs par le ratio, par
la régression, par le raking-ratio
155
CALAGE SUR MARGES
MÉTHODE
Supposons connus les totaux sur la population de J variables
 
•
auxiliaires TX  Tx1 ,...,Tx j ,...,TxJ
• Pour les caractères catégoriels, les totaux sont les effectifs de chaque
modalité (= totaux des variables indicatrices associées à ces modalités)
• On va tenir compte de cette information pour améliorer

l’estimateur d’Horvitz-Thompson
y 1
Tˆy   k   d k yk (d k   poids de sondage)
kS  k kS k
• En formant un nouvel estimateur

où les nouveaux poids à rechercher : Tˆy,calé   wk yk
o sont « proches » des poids initiaux kS
o vérifient les équations de calage : Tˆx j ,calé   wk x j,k  Tx j j
kS
156
CALAGE SUR MARGES
MÉTHODE
• On choisit une fonction de distance entre le poids initial et le
poids final : G(wk, dk )
• Les poids cherchés sont solutions du problème d'optimisation :
w 
min  wk G k  avec  wk x j,k  Tx j j
wk kS  dk  kS
• Résolution du système non linéaire  d k F x'k    TX

kS
o où F est la fonction réciproque de la dérivée de la fonction G
o et λ un vecteur de multiplicateurs de Lagrange
• Ce système d'équations peut être résolu par la méthode itérative

de Newton
• En pratique, macro SAS CALMAR de l’Insee 157
CALAGE SUR MARGES
FONCTIONS DE DISTANCE
G F  G'1 Type de distance
Khi-deux
1
x 12 1 u
2 Méthode linéaire (1) i.e. estimateur par
la régression
Entropie
x log x  x 1 expu
Méthode du raking -ratio (2)

 x  L log x  L   L(U 1) U(1 L)expu
1  1 L   Logistique
A  (U 1)  (1 L)expu
 U  x logU  x   Méthode du raking ratio tronquée (3)
  U 1    L, U 
U L
 ; x  L,U  , ( sin on)
(1  L)(U  1)
1
x 12 si x  L,U 
1  qi u Khi-deux tronquée
2
 L,U  Méthode linéaire tronquée (3)
 sinon
158
CALAGE SUR MARGES
FONCTIONS DE DISTANCE
 Méthode linéaire
o converge toujours en 2 étapes
o redonne l’estimateur par régression
o peut donner des poids négatifs
o rapports de poids non bornés supérieurement
 Méthode exponentielle
o poids positifs
o redonne l’estimateur du raking-ratio
o rapports de poids non bornés supérieurement, en général supérieurs à
la méthode linéaire
 Méthodes logit, linéaire tronquée
o poids positifs
o contrôle des rapports de poids
159 159
CALAGE SUR MARGES
PROPRIÉTÉS
 Espérance
Quelle que soit la méthode utilisée, l'estimateur calé est
approximativement sans biais
 Variance
Quelle que soit la méthode utilisée, la variance de
l'estimateur calé est approximativement égale à celle de
l'estimateur par régression : toutes les méthodes sont
asymptotiquement équivalentes
160
CALAGE SUR MARGES
MACRO CALMAR
 Insee, 1993
 Macro SAS
 Disponible sur www.insee.fr
 Syntaxe (paramètres obligatoires)
%CALMAR (data =,
poids =,
ident =,
datamar =,
M =, LO=, UP=,
datapoi =,
poidsfin=);
161 161
CALAGE SUR MARGES
EXEMPLE
 1. les données individuelles  2. la table des marges
DATA echant; DATA marges;
INPUT nom $ x $ y $ z pond; INPUT var $ n mar1 mar2;
CARDS; CARDS;
A 1 f 1 10 X 2 20 60
B 1 h 2 0 Y 2 30 50
C 1 h 3 . Z 0 140 .
D 5 f 1 11 ;
E 5 f 3 13 RUN ;
F 5 h 2 7
H 1 h 2 8  3. lancement de Calmar
G 5 h 2 8 %CALMAR(DATA = echant,POIDS = pond,
I 5 f 2 9 IDENT = nom,
J . h 2 10 DATAMAR = marges,
K 5 h 2 14 M = 2, OBSELI = oui,
; DATAPOI = sortie,
RUN; 162 POIDSFIN = pondfin, 162
LABELPOI = poids raking ratio);

CALAGE SUR MARGES
EXEMPLE
 Avant calage
 Après calage
163 163
CALAGE SUR MARGES
EXEMPLE
164
CALAGE SUR MARGES
EXEMPLE
165 165
CALAGE SUR MARGES
EXEMPLE
166 166
CALAGE SUR MARGES
EXEMPLE
167
BIBLIOGRAPHIE
 Sautory O. (1993). « Redressement d’un échantillon par calage sur
marges », Document de travail de la DSDS n°F9310,, www.insee.fr .
 Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). « Generalized raking
procedures in survey sampling », Journal of the American Statistical
Association, vol 88, n°423, pp. 1013-1020.
 Deville, J.-C. (1998). « La correction de la non-réponse par calage ou par
échantillonnage équilibré ». Papier présenté au colloque de la Société
Statistique du Canada, Sherbrooke.
 Dupont, F. (1996). « Calage et redressement de la non-réponse totale ».
Actes des journées de méthodologie statistique, 15 et 16 décembre 1993,
INSEE-Méthodes n°56-57-58.
 Roy, G., et Vanheuverzwyn, A. (2001). « Redressement par la macro
CALMAR : applications et pistes d'amélioration », Traitements des fichiers
d'enquête, pp. 31-46. Presses Universitaires de Grenoble.
168 168
Sources d’erreur et biais
Oliviero Marchese, décembre 2010 16

9
Utilisations des données d’enquête :

« Describers » & « Modelers »
Sources d’erreur
« Nonsampling errors »
Populations d’intérêt
Défaut ou excès de couverture
Non-réponse
Erreur de mesure
Sources d’erreur et phases d’enquête
La pointe de l’iceberg … et le reste
Sources d’erreur, contraintes, mode de réalisation
L’ «art» du sondeur
17
0
Utilisations des données d’enquête :
« Describers » & « Modelers »
Différents langages, différentes préoccupations

« Describers » « Modelers »
Accent sur l’estimation des caractéris- Accent sur la validation d’hypothèses
tiques d’une population théoriques
Accent sur l’estimation de moyennes et Accent sur l’exploration de structures

proportions de covariance
Forte attention aux erreurs de non- Forte attention aux erreurs d’obser-
observation (défauts de couverture, vation (questionnaire)
non-réponse)
17
1
Sources d’erreur {1/3}
Erreur d’échantillonnage
Hétérogénéité des mesures parmi les individus de la population
Défaut ou excès de couverture
Probabilité de sélection nulle ou non connue pour les individus de la
population
Non-réponse
Défaut de collecte de toute ou partie de l’information pour certains
individus de l’échantillon
Erreur de mesure
Influence de l’enquêteur sur les réponses des personnes interrogées
Incapacité (ou manque de volonté) des personnes interrogées à répondre
aux questions : mémoire, impréparation, facteurs psychologiques, …
Défauts de l’instrument de mesure (questionnaire ou autre)
Effets du mode de recueil (face à face, téléphone, auto-administré papier
ou Internet)
17
2
Ces erreurs peuvent être liées les unes aux autres

Eg : Faire du « forcing » pour réduire la non-réponse peut amener à
amplifier les erreurs de mesure
En général, les efforts de modélisation et de mesure sont portés sur

l’erreur d’échantillonnage et la non-réponse
Souvent on ne sait que très peu – et parfois rien du tout - sur les
erreurs d’observation et les défauts de couverture
Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la
nature de biais – ne diminuent pas lorsque la taille d’échantillon
augmente
17
3
Moralité
Les efforts visant à affiner une méthode de tirage ou l’expression d’un

estimateur pour obtenir un gain de précision peuvent s’avérer bien
illusoires si, par ailleurs, les erreurs d’observation, les défauts de
couverture ou la non-réponse sont importants
Dans une telle situation, une taille d’échantillon très importante ne sera
pas non plus de nature à éviter la déroute
Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé
par le Literary Digest - portant sur près de deux millions de lecteurs -
donnait une confortable avance à Alfred Landon (54%) … alors que
Franklin Roosevelt allait recueillir 61% des suffrages !
17
4
« Nonsampling errors » :
Populations d’intérêt
Population objet de l’inférence (population of inference)

Ensemble des unités à étudier
Population cible du sondage (target population)
Ensemble des unités étudiées
Base de sondage (frame population)
Liste des unités utilisée pour la sélection de l’échantillon: l’« univers »
auquel font référence la plupart des livres de statistique
Population enquêtable (survey population)
Liste des unités accessibles, physiquement et mentalement prêtes à
répondre, souhaitant répondre aux questions
Il s’agit bien évidemment d’une abstraction, puisque elle ne peut être
observée indépendamment des opérations d’échantillonnage elles-mêmes
Non-réponse
divergences entre « frame » et « survey population »
Erreurs de couverture
divergences entre « frame » et « target population»
Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15 17
5
Défaut ou excès de couverture {1/2}
Ambiguïté du repérage des unités de la population

Une base de sondage se doit pour le moins d’être une liste d’identifiants
de bonne qualité
Manque d’exhaustivité
Chaque unité faisant partie du champ de l’enquête doit être présente dans
la liste des identifiants
Doubles comptes
Aucune unité doit être présente plusieurs fois dans la base (surtout si le
nombre de fois n’est pas connu)
Absence d’informations auxiliaires
Leur disponibilité peut être mise à profit pour améliorer soit la méthode de
tirage, soit l’estimateur, soit les deux
Vieillissement de la base elle-même
Absence ou inaccessibilité de la base de sondage
(situation finalement pas si rare!)
17
6
Défaut ou excès de couverture {2/2}
L’erreur de couverture est une fonction

de la proportion de population non couverte par la base de sondage
de la différence dans la valeur de la variable d’intérêt entre « frame » et
« target population»
Y c = Y + (Nnc / N) * (YC – Ync)

où Y représente la valeur auprès des N unités de la target population
Yc représente la valeur auprès des Nc unités couvertes par la
« frame population »
Ync représente la valeur auprès des Nnc unités non couvertes par la
« frame population »
L’erreur de couverture
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon
17
7
Non-réponse {1/3}
Comme pour le défaut de couverture dû au manque d’exhaustivité de

la base de sondage, la non-réponse
nous met dans l’impossibilité d’observer la valeur de la variable d’intérêt
engendre un biais non mesurable, puisque l’on ne sait pas si les unités
observées sont comparables aux unités non observées
A différence du défaut de couverture, la non réponse

est d’ampleur mesurable, à partir de l’échantillon tiré (taux de non-réponse
calculable)
peut être complète ou partielle (l’individu sélectionné répond à certaines
questions et pas à d’autres)
En diminuant la taille de l’échantillon, la non-réponse occasionne une

perte de précision (quelles que soient les hypothèses formulées sur le
profile des non-répondants)
17
8
Non-réponse {2/3}
Le taux de non-réponse est souvent interprété comme LA

mesure de qualité de l’estimation de la variable d’intérêt
or, il ne s’agit que d’une composante de l’erreur et ne peut pas en
donner seul la mesure
L’erreur dû à la non-réponse est une fonction

du taux de non-réponse
de la différence dans la valeur de la variable d’intérêt entre
répondants et non-répondants
y r = yn + (nr / n) * (yr – ynr)

L’erreur de non-réponse
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon
17
9
Non-réponse {3/3}
Une expression plus complète de la variable d’intérêt

estimée devrait être
y r = yn + (nc / n) * (yr – ync) +

+ (ni / n) * (yr – yni) +
+ (rf / n) * (yr – yrf)
où ync représente la valeur auprès des nc unités non contacté
yni représente la valeur auprès des ni unités incapables de fournir
une réponse
yrf représente la valeur auprès des rf unités refusant l’interview
avec nc + ni + rf = nr
18
0
Erreur de mesure
Il y a erreur de mesure lorsque la valeur de la variable d’intérêt

collectée pour un individu est différente de la vraie valeur attachée à ce
même individu. Quelques cas (liste non ordonnée et non exhaustive !) :
Questions faisant appel à la mémoire des personnes interrogées
Questions portants sur des sujets sensibles (revenus, comportements
sexuels, consommation de drogues, …)
Mécanismes psychologiques liés à l’interaction enquêteur/enquêté
Interprétation des réponses de la part de l’enquêteur
« Suggestions » de l’enquêteur à l’enquêté
Mauvaise compréhension de la question (surtout en cas de traduction
des questions depuis une langue étrangère)
Formulation de la question, effets d’ordre, …
Fatigue due à la durée d’interviews
Autres effets enquêteur : le sexe, l’âge de l’enquêteur, sa façon de se
présenter … ne sont pas sans conséquences sur la qualité des
réponses obtenues
18
1
Sources d’erreur et biais. Les défis à relever
Mesure Représentativité
Population
Concept cible
Erreur de
[Dimensions /
couverture
indicateurs]
Validité Base de
sondage
Mesure Erreur
d’échantillonnage
Erreur de
mesure Echantillon
Erreur liée à la
Réponse
non-réponse
Erreur de Répondants
codification
Erreur
Réponse codée
d’imputation /
Imputation / redressement
redressement
Estimation Survey life cycle from a quality perspective

[Robert M. Groves et al. , Survey Methodology, Wiley, 2009]
18
2
Sources d’erreur et phases d’ enquête
!!! Pertinence, formulation, !!! Choix de la base de sondage

ordre des questions; longueur Objectifs et
et de l’algorithme de tirage !!!
du questionnaire !!! contraintes
Couverture Base de sondage
!!! Définition des variables
Non-réponse Conception du d’intérêt, du champ de l’enquête,
questionnaire du budget et des délais !!!
Échantillonnage
Échantillonnage
Collecte des
Erreurs de mesure données !!! Choix du mode de
collecte le plus approprié et
contrôle des enquêteurs !!!
Codification
Saisie
Saisie !!! Contrôles de cohérence,
contrôles de qualité de la
Codification Contrôles
codification et de la saisie !!!
Traitement Estimations
Présentation Redressement !!! Prise en compte du plan de
sondage !!!
Analyse des
données
!!! Contrôle / relecture du
rapport d’étude / des tableaux
Publications statistiques, … !!!
Évaluations
Ardilly, P. (2006), Les techniques de sondage, Editions Technip, Paris 18

3
La pointe de l’iceberg … et le reste
Erreur
d’échantillonnage
Sélection des
répondants Erreur de Couverture
Non réponse totale
Non réponse partielle

Exactitude des
réponses Erreur de mesure due aux répondants
Erreur de mesure due aux enquêteurs
Erreurs de traitement
Mode de réalisation
Effets liés au mode de recueil
Erreurs de comparaison (dessins différents, …)
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
4
Sources d’erreur, contraintes, mode de
réalisation
•Echantillonnage
•Couverture Contraintes
•Non-réponse
•Coûts
•Mesure
•Délais
•Etique
Effets du mode de réalisation de l’enquête
•Questionnaire
•Mode de recueil
•Effets de comparaison (plan
d’échantillonnage, temps, …)
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
5
L’ «art» du sondeur
La théorie statistique nous aide à mesurer et à réduire

l’erreur d’échantillonnage
L’«art» du sondeur, praticien d’enquête, consiste à juger
de l’importance du non mesurable
La pratique de cet « art » requière la compréhension
des causes qui sont à l’origine des erreurs
de leur importance relative
des effets générés
des coûts relatifs aux efforts de réduction des erreurs
Juger de l’importance du non mesurable est un « art » qui
ne doit pas se transformer en alibi pour arrêter tout effort
de modélisation et mesure de l’erreur
18
6
Bibliographie
Lecture minimale
Ardilly, P. (2ème édition actualisée et augmentée, 2006), Les techniques
de sondage, Editions Technip, Paris
Chapitre I. Aspects universels, principes de base
Pour aller plus loin

Groves, R.M. (1989), Survey errors and survey costs, Wiley, New York
Chapitres I,III,IV,VII
Groves, R.M., Fowler Jr., F.J., Couper, M.P., Lepkowski, J.M., Singer, E.,
Tourangeau, R., (2nd ed. 2009), Survey Methodology, Wiley, New York
Chapitre 2
Floyd J. Fowler, Jr., (4th ed. 2009), Survey Research Methods, Wiley, New
York
Chapitre 2
Weisberg, H.F. (2005), The total survey error approach, The University of
Chicago, Chicago
Chapitres 2, 14, 15
18
7
NON-RÉPONSES ET DONNEES
MANQUANTES
Gilbert Saporta
Conservatoire National des Arts et Métiers
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
188
Non-réponse: - totale
- partielle (données manquantes)
Causes des non-réponses:
Bases de sondage inexactes
Refus
Réponses inexploitables, perte, destructions
189
Biais de non -réponse
Deux strates P0
P1
Répondant
Non -
répondant Y1
Y0
N0 N  N0 N0 N0
Y  Y0  Y1  Y0 Y1  Y1
N N N N
En l'absence d'hypothèse sur le mécanisme des données manquantes,
seul Y1 peut être estimé
Biais : Y  Y1 
N0
N
 Y0  Y1 
190
Quelques remèdes:
Non-réponses:
 Stratégie de relance
 Post-stratification pour redresser
191
Questions sensibles ou indiscrètes: la
méthode des questions aléatoires
Première technique:
On tire au sort dans une urne avec θ boules blanches et 1- θ boules noires
la question
Si blanc: question A: « Avez-vous fraudé le fisc? »
Si noire: question : « Je n’ai pas fraudé »
A
On veut estimer PA.
 
On recueille Π = Proba de Oui = PA  1   1  PA 
% de « Oui »
  1   
 PA 1PA 1 1

PA
2 
 
 
VPA
1
 2
2
V
n

n  22
Inconvénient: A aussi indiscrète que A!

192
Deuxième technique:
Si blanche, question A sensible
Si noire, question B banale
  1    P

 PA PB 1 
P B

A
1 PB 1 PB 1

2
 

V PA 
n

n
PB peut être connu à l’avance ou estimé par une autre

enquête.
Exemple:
A: combien de fois avez-vous avorté?
B: nombre idéal d’enfants?
193
Exemple: Brown 320 officiers
Consommation de drogue: 2 enquêtes, une anonyme, l’autre
à question aléatoire
Drogue Q. Anonyme Q. aléatoire

Marijuana 5% (1.2) 9% (4.1)
Hallucinogène 1.6% (0.7) 11.6% (4.1)
Amphétamine 1.9% (0.7) 8% (3.3)
Barbiturique 0.6% (0.7) 7.9% (3.9)
Narcotique 0.3% (0.3) 4% (3.9)
194
Données manquantes
• Les mécanismes (Rubin,1976)
– MCAR (Missing Completely at Random)
• P(Y manquant) indépendant de Y et du reste
• Hypothèse forte mais réaliste si volontaire
– MAR (Missing at random)
• P(Y manquant/Y,X)=P(Ymanquant/X)
• Non testable
– MCAR et MAR: données manquantes ignorables
– Cas non ignorable: nécessité de modéliser le
mécanisme pour obtenir des estimations sans biais
• Ignorer ou estimer les données manquantes?
195
Supprimer les DM?
• « listwise »
– Perte d’information
– Marche pour MCAR et en régression pour les X
si MAR selon Y
• « Pairwise »
– Utilisable pour modéle linéaire, ACP
• Matrices non positives, statistiques de tests biaisées
196
Estimer les DM: l’imputation
• Compléter la non-réponse par une valeur
plausible.
– Méthodes implicites
– modèles
197
Estimation basée sur des modèles
• Une donnée manquante sur une variable Y est

modélisée à partir des variables X selon un
modèle de régression
régression simple en prenant la variable la plus corrélée.
régression multiple
modèle linéaire général si X est nominale et la variable à
expliquer est quantitative.
Analyse discriminante, ou régression logistique si Y
nominal
 Remarque: cas particulier de l’estimation par la
moyenne
198
Algorithme EM (espérance,
maximisation)
– étape E: espérance conditionnelle de chaque donnée

manquante sachant les données observées, d’où
estimation des paramètres.
– étape M calcule les estimateurs du maximum de
vraisemblance des paramètres, avec les lois
conditionnelles des données manquantes.
convergence vers la valeur la plus probable de
chaque donnée manquante pour l'estimation
obtenue des paramètres
199
Maximisation de la cohérence interne,
ou de l'homogénéité
• Présentation hollandaise de l’ACM

de G=(G1|G2|…|Gm) comme la
minimisation d ’une fonction de
perte:
m

1
 (X, Y)  (X - G 'jYj )' (X - G 'jYj )
m
m j 1
X
1
m j1
G j Yj
200
• Les données manquantes sont
complétées pour avoir  minimal: ACM
avec valeurs propres maximales.
MCA with missing data
Unit Income Age Car

1 x young am
2 medium medium am
3 y old jap
4 low young jap
5 medium young am
6 high old am
7 low young jap
8 high medium am
9 high z am
10 low young am
201
Results of the 27 MCA
x y z 1 x y z 1 x y z 1
l l j .70104 m l y .63594 h l y .61671
l l m .77590 m l m .72943 h l m .66458
l l o .76956 m l o .72636 h l o .65907
l m j .78043 m m y .70106 h m y .70106
l m m .84394 m m m .77839 h m m .74342
l m o .84394 m m o .84394 h m o .74342
l h j .78321 m h y .73319 h h y .68827
l h m .84907 m h m .80643 h h m .74193
l h o *.84964 m h o .80949 h h o .74198
202
• Solution unidimensionnelle peu réaliste:
max (1+2+…+k)
• Recherche exhaustive impossible.
Algorithmes itératifs.
203
IMPUTATION MULTIPLE (Rubin)
– imputer chaque donnée par m>2 valeurs

obtenues par tirage dans un ou plusieurs
modèles d'estimation. Puis analyse des
données sur chacun des m jeux de données
complétés
– simulation de la distribution a posteriori des
données manquantes , variances correctes.
– Mais: complexité des calculs, temps de calcul
et volume considérable.
204
Les méthodes d'imputation de type “ hot-
deck ”
• la valeur manquante est remplacée par la

valeur observée chez un répondant
“ proche ”, le “ donneur ”.
– - le hot-deck d'ensemble : le donneur est
choisi de façon aléatoire.
– - le hot-deck par classe :
– - le hot-deck séquentiel : l'individu le plus
“ récent ” du tableau de données
205
deux inconvénients majeurs pour toutes ces
méthodes:
• risque d’incohérence: si plusieurs données

manquantes sont estimées une par une et non
conjointement, sans prendre en compte les
corrélations
• variabilité sous-estimée: deux unités ayant les
mêmes valeurs de X auront la même estimation
pour la valeur manquante de Y
206
– le hot-deck hiérarchisé : On remplace l'unité
défaillante par une unité ayant les mêmes
valeurs pour C1, C2,…, Ck. S'il n'en existe pas
alors on la remplace par une unité ayant les
mêmes valeurs pour C1, C2,…, Ck-1; etc. …
– - le hot-deck métrique ou méthode du plus
proche voisin avec une distance d(i,j)
207
Fusions et greffes
• Fusions de fichiers et greffes d'enquêtes:
combiner des données provenant de sources
différentes.
• en amont du processus de « data mining » .
• fusionner différentes bases: enquêtes, sources
administratives, fichiers clients, données socio-
économiques agrégées, etc.
• Chaque base peut être constituée d'unités
statistiques différentes ou d'agrégation de ces
unités à différents niveaux.
208
• Fusion de fichiers. Cas élémentaire:
• deux fichiers: F1 p+q variables mesurées
sur n0 unités, F2 sous-ensemble de p
variables pour n1 unités. Souvent n0 est
faible par rapport à n1 .
X0 Y0
X1 ?
209
• Un cas plus complexe
X0 Y0
X1 Z1
210
Modèles et méthodes pour la
fusion de données
• Appliquer industriellement une technique
de traitement de données manquantes.
• deux approches:
– Méthodes d’imputation: compléter la non-
réponse par une valeur plausible.
– Repondération : affecter aux répondants
des pondérations pour compenser les non-
réponses
211
• conditions à vérifier préalablement:
– la taille de la population du fichier donneur est
suffisamment importante par rapport au fichier
receveur
– les variables communes et les variables spécifiques
possèdent des liaisons relativement fortes entre elles.
212
Les méthodes implicites:
• fusion par appariements intra-cellulaires,

• imputation par Hot-Deck,
• méthode des plus proches voisins etc.…
• donner simultanément aux variables du
fichier receveur toute l'information et les
renseignements détenus par les
variables du fichier donneur.
213
FICHIER DONNEUR
I
X0 Y0
Plus proche voisin Imputation
X1 ?
FICHIER RECEVEUR
214
La fusion sur référentiel factoriel
• Fréquemment utilisée en France. Son principe (Santini

1984) repose sur :
- les variables critiques : servent à déterminer
pour l'individu du fichier receveur ses donneurs
éligibles.
- les variables de rapprochement : une partie des
variables communes, par un calcul de distance,
permettant de choisir pour chaque receveur le
donneur éligible le plus proche
215
• Réferentiel factoriel: ACM sur l’ensemble des
variables critiques ou communes
• Détermination d’un voisinage du receveur
• Choix final parmi les donneurs éligibles selon les
variables de rapprochement (sexe, age, …)
• Pénalisation pour éviter de prendre trop souvent
les mêmes donneurs (voir fusion par mariage)
Axis II
Axis I
216
Un exemple:
• Données SPAD 992 interviews, divisées
aléatoirement en deux fichiers : 800 donneur
192 receveur.
• 4 variables communes:
Q1 - classe d'age(5 catégories),
Q2 - taille d'agglomération (5 catégories),
Q3 - heure de coucher (7 catégories),
Q4 - age de fin d'études (5 catégories) .
• 3 variables d ’opinion Y à imputer:
Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)
Q6 - Plus haut diplôme obtenu (7 catégories),
Q7 - Taux d'écoute TV (4 catégories).
217
Table 3 performances individuelles
Méthode Classifications correctes

Aléatoire 49%
Homogénéité max. 54%
FRF 47%
Table 4 performances marginales
Q5 Vraies marges Homogénéité max FRF

1 136 136 125
2 56 56 67
Q6
1 36 6 49
2 70 114 65
3 35 16 27
4 29 23 33
5 4 33 1
6 18 33 15
7 0 0 2
Q7
1 100 118 100

2 36 18 43
3 37 29 31
4 19 27 18
218
Fusion par mariages
• éviter qu'un même donneur transmette

son information à plusieurs receveurs
(mariages multiples)
• si un donneur est déjà marié à n
receveurs, d est pénalisée par :
d '  1  (1  d ) n
219
• G. Santini a imaginé 6 types différents de
relations de voisinage par “ mariage ”: A
receveur, B donneur.
le mariage par “ coup de foudre ” (voisins
réciproques) : si A est le plus proche voisin de B et
si B est le plus proche voisin de A et n'a jamais été
marié, alors A et B sont immédiatement mariés.
le mariage avec “ l'ami d'enfance ” : si B est le plus
proche voisin de A, mais B est déjà marié à A' ,
alors A sera marié à B' qui est le plus proche voisin
de A après B.
le mariage par “ adultère ” : variante du cas
précédent quand d(B ’,A) est plus grand que la
distance pénalisée entre A et B (puisque B est déjà
marié a A'). On marie alors A et B.
220
• Fusion avec collage du vecteur entier du donneur
– moins bon pour la reconstitution de données
individuelles,mais garde la structure de corrélation et
évite les incohérences
• Régression variable par variable.
– C’est l’inverse
• Dans tous les cas il est nécessaire d'avoir:
 Un nombre suffisant de variables communes
 Des corrélations élevées entre variables communes et variables
à imputer.
 Une structure commune entre fichier donneur et fichier
receveur: distributions comparables des variables communes
ou critiques, sinon résultats biaisés. Redressements souvent
nécessaires.
221
Fusion par scores de « propensity»
• Origine: essais cliniques avec affectation non-
aléatoire entre traitement et témoin (contrôle)
– Z=1 traité, Z=0 sinon. p covariables X= (x1,x2, ..,xp)
– propensity score e(x)=P(Z=1/X)
• Résumé unidimensionnel: permet de stratifier,
de chercher des jumeaux (appariement), de
repondérer en cas de données manquantes
• Estimé habituellement par une régression
logistique
222
S.Rässler, 2002
223
Application: données manquantes
• Si mécanisme ignorable:
N
1 zi yi
ˆ
Y 
N

i 1 e( x i )
1 N
zi yi (1  e(xi ))
ˆ
Y0 
n0

i 1 e( x i )
224
• rééquilibrage d’enquête
– une enquête de référence aléatoire,
– une enquête web
• plus simple que la post-stratification sur
plusieurs variables (calage sur marges)
225
Yoshimura,
226
Propriétés (1)
• Equilibrage:
Pour un score donné e(X), on tire des
échantillons aléatoires simples parmi Z=1 et
Z=0.
Alors les lois de X dans chaque groupe sont les
mêmes:
P(X / Z=1,e(X))= P(X / Z=0,e(X))
• Avantage: facile de fabriquer des échantillons
appariés même si X est de grande dimension
– Si appariement exact impossible : ppv ou strates
227
Propriétés (2)
• Consistence : estimation sans biais de
l’effet  d’un traitement Y :
–  = E(Yt)-E(Yc)
– si l’effet de l’affectation traitement-contrôle
est ignorable conditionnellement à X (donc à
e(X)) et si 0<P(Z=1/X)<1 (Yt et Yc sont
indépendants de Z conditionnellement à X)
– alors  est estimé sans biais par la moyenne
des différence entre observations appariées
selon e(X)
228
Propriétés (3)
• Etudes d’observation non randomisées
– résout le problème de l’inférence causale
– réduit les biais « ouverts »: ex: comparer la
mortalité des fumeurs et non-fumeurs alors
que les fumeurs sont en moyenne plus vieux
que les non-fumeurs
– à comparer avec la post-stratification
229
Conclusions
• Techniques:
– La fusion: un problème de données
manquantes massives, stimulant pour
les statisticiens.
– besoin réel de fournir à l'utilisateur
final une base unique sans “ trou ”.
230
– Prudence quand on utilise des “ données ” qui
sont en réalité des estimations et non des
valeurs observées: ne jamais utiliser à un
niveau individuel, mais uniquement agrégé.
– Conséquence perverse: un moindre effort de
collecte, puisque l'on peut reconstituer des
données…
– Nécessité de valider
231
Validation
• procédures empiriques où on estime des
données connues mais cachées que l'on
compare ensuite aux vraies valeurs:validation
croisées, bootstrap …
• Indicateurs:
– reconstitutions de données individuelles
– prévisions au niveau de groupes
– reconstitutions de marges, de croisements
232
• Déontologiques (confidentialité et protection de la
vie privée) :
– des données qui n'ont pas été recueillies mais

estimées, peuvent être ajoutées dans des
fichiers à l'insu des individus concernés. Quid
de La loi “ Informatique et Liberté ” ?
– paradoxe alors que les INS développent des
techniques pour assurer la confidentialité
233
Références
• Allison P. (2002) Missing data, Sage Publications
• Co V. (1997) Méthodes statistiques et informatiques pour
le traitement des données manquantes.Doctorat, CNAM.
Paris.
• Fischer N. (2004) Fusion Statistique de Fichiers de
Données. Doctorat, CNAM, Paris.
• Rässler S. (2002), Statistical matching, Springer
• Rosenbaum P.R., Rubin D. (1983) the central role of
propensity scores in observational studies for causal
effects, Biometrika 70, 41-55
• Saporta G. (2002) Data fusion and data grafting .
Computational Statistics and Data Analysis, 38(4),465-473
234

Cours de Sondages Master Is 2011-2012 (PDFDrive)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Sondages Master Is 2011-2012 (PDFDrive)

Transféré par

Droits d'auteur :

Formats disponibles

Cours de sondages

 J.ANTOINE Histoire des sondages (Odile Jacob, 2005)

 Le Conseil national de l'information statistique (Cnis) assure en

 Le service statistique public (Insee et services statistiques

 L'Autorité de la statistique publique veille au respect des

 Près de 400 instituts d’étude de marché et

Source: rapport Portelli-Sueur, Sénat

1895 – Kiaer, dénombrements représentatifs

 Simples: - à probabilités égales

 Notion peu scientifique

 Sans biais: si la moyenne des moyennes de tous les

 Définition: tirage équiprobable sans remise de n

 Estimation du total et de la moyenne:

is i i1 i Yi= variable non aléatoire

 Covariance entre variables de Cornfield

 Intervalles de confiance pour un paramètre

 La moyenne d’un échantillon de n observations

 Tirages indépendants (avec remise) et n>30

 Tirages sans remise

 Si le taux de sondage est faible la précision ne dépend pas

 Pour une moyenne:

 Pour une précision fixée

 Utile si on connait approximativement p a priori

 Les plans simples équiprobables ne sont utilisés qu’en

 Poids aléatoires de somme 1.

si n fixe formule de Yates-Grundy :

 La formule de Yates Grundy montre que

 Calcul des probabilités d’inclusion

 Exemple: tirage de 3 individus parmi 6

 Unités sélectionnées d’office et unités

 On cumule pour tous les individus les probabilités

 Utiles pour réaliser des tirages et simuler des

 choix arbitraire d’un entier x 0 appelé germe (ou seed ou graine)

On vérifie : 0< xi < m pour i 1, ..., n .

Intuition de l’horloge : les heures

Un algorithme très usité est la méthode congruentielle de

Remarque : a= 216+3=65539 m=231-1 : RANDU

 Cette relation donne un caractère ‘prédictif’ à la série pseaudo aléatoire: par

 Pour avoir un "bon" générateur, on souhaite une relation avec des

 Nombreux tests pour valider le caractère

 Doivent être capable de produire des séries dont le

 Un générateur congruenciel rapide et possédant de

 L’objectif des algorithmes de tirage est de tirer un échantillon en

On montre aisément que I(p) est toujours positif.

Plus l’entropie est élevée, plus le plan de sondage est en un certain

A défaut d’information auxiliaire, on peut chercher le plan le plus

 et aussi le tirage systématique…

 Avantages: simplicité, N pas nécessairement connu a

 Ne respecte pas les probas d’inclusion d’ordre 1

 Pour un tirage à probabilités proportionnelles à la

Gilbert Saporta, Philippe Périé (IPSOS)

 C’est le principe de la stratification: découper la population en

 La stratification a pour objectifs de pour objectif de

Par exemple, parmi ces échantillons de 2 unités, on trouve les cas

On remarque également que la plage des estimations est beaucoup plus

2 types de considérations vont conduire au choix des critères de

Ceci nécessite une connaissance

   h   Yh Y  2W 2B

 Estimateur sans biais de Y (Horvitz Thomson)

 Échantillon dit « représentatif »:

 Taux de sondage constant dans chaque

 Variance de l’estimateur du SAS sans remise:

 Avec les mêmes probabilités d’inclusion d’ordre 1,