Académique Documents
Professionnel Documents
Culture Documents
Master IS 2011-2012
Gilbert Saporta
Chaire de Statistique Appliquée & CEDRIC
CNAM
292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta 1
Ouvrages recommandés:
Sites internet:
Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/
Autorité de la statistique publique http://www.autorite-statistique-
publique.fr
CNIS http://www.cnis.fr/
INSEE : http://www.insee.fr
IPSOS: http://www.ipsos.fr/
Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm
SYNTEC Etudes http://www.syntec-etudes.com/
2
Introduction: aperçu du secteur
La statistique publique: 8000 employés dont 5800 à l’INSEE
Une organisation ternaire:
3
un secteur privé qui ne connait pas
la crise
4
5
L’opinion: une faible part de l’activité des
instituts
6
7
Une histoire récente
8
LES TECHNIQUES DE SONDAGE
Problèmes essentiels:
Sélection de l’échantillon;
Agrégation des réponses
estimateur;
précision;
9
Les principales étapes
source: P.Ardilly
10
LES TECHNIQUES DE SONDAGE
Méthodes aléatoires:
Plans de sondage
Complexes: - stratifié
- en grappe
- plusieurs degrés
11
LES TECHNIQUES DE SONDAGE
Méthodes par choix raisonné ou judicieux:
Quotas;
Itinéraires;
Unités – types;
Volontariat;
Échantillonnage sur place;
12
13
Représentativité
14
Représentativité
15
Fluctuations et biais
Fluctuations d’échantillonnage : avec les mêmes
probabilités d’inclusion, répéter q fois un sondage
donnera q résultats différents
Y y1 , y2 ,..., yq
N
1 N 2
N
1
(Yi Y) ;
2 2
S
2
(Yi Y)
2
N i1 N1 i1 N1
17
SONDAGE ALÉATOIRE SIMPLE
18
SONDAGE ALÉATOIRE SIMPLE
N y N
Yi yi=variable aléatoire;
n is
yi T i
i
Variances:
S2
V ( y ) (1 )
n
2
S
V (Tˆ ) N (1 )
2
n
Estimation de S2:
1
s2
n 1 is
( yi y)2
E(s2 ) S 2
s2
V ( y ) (1 ) n
2
s
V (T ) N (1 ) n
ˆ 2
21
SONDAGE ALÉATOIRE SIMPLE
22
Le théorème « central limite »
23
Intervalle de confiance
théorique pour une moyenne
Pour un pourcentage:
1
y pˆ fréquence observée Yi Yp
0
p(1 p) N pˆ(1 pˆ ) pˆ(1 pˆ)
V( pˆ) (1 ) V ( pˆ) (1 ) si faible
n N 1 n 1 n
pˆ (1 pˆ ) pˆ (1 pˆ )
pˆ 2 p pˆ 2
n n 25
Calculs de taille d’échantillon
Nécessite de connaitre S !
26
Pour une proportion
Si n grand et faible
p(1 p) 4 p(1 p)
2 d'où n =
n 2
Ardilly, 2006
Ardilly, 2006
27
Solution prudente (ou pessimiste)
Se placer dans le cas p=0.50
avec =0.05 1
n
2
28
Pour fort , dans le cas p=0.50 avec un
niveau de confiance de 95%:
N
n
1 N 2
29
Précision absolue ou précision relative?
Pour une population rare, on aboutit à une taille
d’échantillon souvent excessive
Viser un /p change tout
Compromis à faire quand il y a plusieurs
variables d’intérêt
Attention aux non-réponses: la précision
dépend du nombre de répondants
30
SONDAGE A PROBABILITÉS INÉGALES
31
SONDAGE A PROBABILITÉS INÉGALES
Estimateur de Horvitz-Thompson ou des valeurs
dilatées pour un total:
N
T ai yi aY
i ii
is i 1
N N
E(T ) aY
i i E(i ) aiiY i
i1 i1
N
Pour que T soit sans biais: E(T ) Y i
i 1
aii 1 32
SONDAGE A PROBABILITÉS INÉGALES
Théorème:
yi
T
est le seul estimateur linéaire sans biais
is i
de T
1 yi
Pour une moyenne Y Y
N
i s i
33
SONDAGE A PROBABILITÉS INÉGALES
Exemple (Ardilly) : nombre d’habitants Y inconnu, nombre de logements X connu.
Estimation du nombre moyen d’habitants par tirage à probabilités
proportionnelles au nombre de logements
34
SONDAGE A PROBABILITÉS INÉGALES
Echantillons de deux communes:
35
SONDAGE A PROBABILITÉS INÉGALES
Si N est inconnu:
N
N 1
i 1
L’estimateur de N est donc:
1
N
ˆ
is i
D’où:
1
E ( )N
is i
36
SONDAGE A PROBABILITÉS INÉGALES
Estimateur de Hajek:
1
1 yi
ˆ
Y
i
i s i s i
37
SONDAGE A PROBABILITÉS INÉGALES
Un cas gênant:
Yi C
y 1 Yi C 1
N is i N is i
1 y C
Comme
is
N alors
i
Mais: E(y) C
38
SONDAGE A PROBABILITÉS INÉGALES
Variance:
Yi2
Yi Yj
i j
N N
V(T ) 1i
i1 i i j i j
ij
39
SONDAGE A PROBABILITÉS INÉGALES
Estimation de la variance (par Horvitz-Thomson):
Première formule:
ˆ 2 1i
i j
V(T) yi 2 yi yj i j
peut être < 0
is i i j s
i jij
Deuxième formule:
2
ˆ 1 yi yj i j ij
V(T)
2 i, js i j ij
40
SONDAGE A PROBABILITÉS INÉGALES
41
SONDAGE A PROBABILITÉS INÉGALES
x
i 1
i
42
SONDAGE A PROBABILITÉS INÉGALES
43
Sondage systématique à probabilités
inégales
44
Simplicité
Inconvénients:
certaines probabilités d’inclusion d’ordre 2
peuvent être nulles
Dépend de l’ordre du fichier
Tri aléatoire avant tirage?
45
NOMBRES ALEATOIRES et
PSEUDO-ALEATOIRES
G.Saporta, P.Périé et S.Rousseau, octobre 2011
46
Nombres pseudo aléatoires
Procédés déterministes mais fournissant
une suite de nombres en apparence iid sur
[0; 1]
Suites mathématiques
décimales de , des tables de logarithmes
Procédés arithmétiques
Milieu du carré de Von Neumann (1946)
47
On part d'un nombre entier
On l’élève au carré
On extrait les chiffres du centre comme nombres aléatoires.
Exemple : x0 = 7534
(7534)2 = 56 7611 56
(7611)2 = 57 9273 21
(9273)2 = 85 9885 29
(9885)2 = 97 7132 25
....
d'où la suite 7611 9273 9885 7132
Inconvénients majeurs : dépendance au nombre de départ et
régularités nombreuses (permanence de 0 ou de séries
particulières).
48
Méthodes de congruence
Elles reposent sur des suites récurrentes :
50
Choix des entiers a, b et m :
Ils sont déterminés de telle sorte que la séquence ait les
meilleures propriétés possibles.
En particulier, m est pris aussi grand que possible pour
assurer une grande variété de valeurs dans la suite xi
Hull et Dobell (1962) ont montré que les séquences de
période pleine sont obtenues si et seulement si :
b et m sont premiers entre eux,
(a-1) est un multiple de chaque nombre premier qui divise m
si m est un multiple de 4 alors (a-1) aussi
51
Méthode de Lehmer :
xi+1=axi (m)
(Sur machines 32 bits m aussi grand que possible m=231-1)
choix classiques:
a=75 =16807 m=231-1
a= 216+3=65539 m=231-1
a=279470273 m=4294967291
52
RANDU
a= 216+3=65539 m=231-1
m = 216 + 3 m²=6m-9 mod 231
Pb : trois nombres successifs Xn Xn + 1 et Xn + 2 vérifient toujours la
relation Xn + 2= 6Xn + 1 -9 Xn
53
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
54
Solutions variées: congruences avec retard
xi = a xi -r +b [m]
Exemple: ri+1 =(1664525ri+1013904223) m = 232
(Numerical Recipes in C )
55
estimation de
http://www-
sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION00033120000000
000000
56
Calcul d’intégrales: méthode de Monte Carlo
Première méthode : 1
on simule n valeurs de U I
0
g (t )dt E ( g (U ))
n
1
Iˆ g (ui )
n i 1
Deuxième méthode: fonction d’importance
T variable sur [0 ;1] de densité p(t)
n
1 g (t ) g (T ) ˆI g (ti )
1
I p (t )dt E n i 1 p (ti )
0 p (t ) p (T )
57
Générateurs pseudo-aléatoires
cryptographiques
58
ALGORITHMES DE TIRAGE
Qualités souhaitées:
Sans remise
Séquentiel
Rapide
Respecte les probabilités d’inclusion
De taille fixe
Utilisable si N est inconnu
Etc.
59
Une méthode inefficace : énumération puis
sélection
(Yves Tillé, ‘Sampling Algorithms’ p 31)
Si le plan de sondage est connu, et que la population n’est par trop
large, une méthode pour sélectionner un échantillon est l’approche
énumérative : énumérer tous les échantillons possibles, puis en
sélectionner 1 au hasard.
… méthode pure et simple conceptuellement mais impossible dès que
la population dépasse quelques dizaines
60
Classes de méthodes (Yves Tillé pp 32 – 39)
Martingales
Algorithmes séquentiels
Sélection pas à pas
Par élimination
Sondages réjectifs
61
Notion d’entropie
62
Plans à probabilités égales sans remise
63
Plans à probabilités égales sans remise
Tirage de Bernoulli:
on tire N nombres aléatoires. L’unité i est retenue si Ui< .
64
Tirage de Bernoulli
65
Tri aléatoire
66
Sélection-rejet
si U1<n/N on prend l’unité 1. Puis n=n-1 et N=N-1. On sélectionne
l’unité 2 si U2<n-1/N-1
Si U1>n/N, on passe à l’unité 2 avec N=N-1. On sélectionne l’unité
2 si U2<n/N-1 etc.
j= nb d’unités
déjà sélectionnées
67
Méthode de mise à jour de l’échantillon
68
69
Pas aléatoires
Tirer U et trouver s tel que
CNn s 1
U 1
CNn
sélectionner l’unité s+1, faire N=N-s-1 et n=n-1 etc.
70
Tirage systématique
Définir un pas de tirage = N/n (entier par arrondi)
Tirer une unité au hasard au début du fichier entre 1
et pas
Sélectionner une unité tous les pas
71
Inconvénients
Si périodicité dans le fichier (Ardilly)
72
Probabilités inégales sans remise
Infinité de plans de sondage pour des i fixés
Plus de 50 méthodes de tirage! Aucune ne satisfait tous les
critères.
Quelques techniques simples:
Tirage avec remise et conservation des unités distinctes mais
taille non fixe
Rejet de l’échantillon si il y a des doublons mais proba
d’inclusion non proportionnelles aux xi
73
Tirage successif sans remise:
Onrecalcule les probas d’inclusion après tirage de
i
chaque individu. Si j est tiré: '
1
i
j
74
Tirage poissonnien (S.Rousseau, 2004)
75
Méthode de Sunter (généralisation de la méthode de
sélection-rejet)
76
77
Méthode RHC (Rao, Hartley,Cochran)
Simple et performant
Remarque: procédé « inexactement proportionnel à la
taille » car les groupes ne sont pas de même taille
78
SONDAGES STRATIFIES
79
Information auxiliaire
80
STRATIFICATION
Idée :
S’il existe dans la base de sondage un critère permettant de
distinguer a priori entre eux les individus, on aura tout à gagner
à utiliser cette information pour répartir l’échantillon dans
chaque sous-population.
81
Intuition
Dans un sondage aléatoire simple, toutes les combinaisons de n
éléments parmi N sont possibles avec la même probabilité.
Or, il arrive que certaines d’entre elles puissent s’avérer a priori
indésirables
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Recensement des résultats possibles n=2
L’unité échantillonnée dans la première strate est désignée pour en représenter trois,
celle de la deuxième strate vaut pour deux. Il convient donc de pondérer chaque
valeur par le poids de la strate dont elle est issue
3 2
ymoy y1 y2
5 5
On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 20.
Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance mathématique et 84
qu’elle est donc un estimateur sans biais pour ce paramètre.
Intuition
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)
85
STRATIFICATION
Déterminer des strates les plus homogènes possibles, par rapport au
sujet étudié.
86
STRATIFICATION PH
Utilisation d’une P2
S2
kj
S1
information auxiliaire P1
qualitative
Toujours efficace
87
STRATIFICATION, notations PH
Strates: P2 kj
N 1 , N 2 ......N h .......N H NNh P1
S1 S2
Nh
Y1 , Y 2 .......Y h .......Y H Y N
Yh
h Yh Y
Nh 2 Nh 2
, .... .....H
1
2
2
2
h
2 2 2
N N
Échantillon:
n1,n2,.........nh,...........nH n nh
nh
y1,y2,........yh,...........yH y yh
n
ˆ12,ˆ22,.....ˆh2............ˆH2 88
STRATIFICATION
N N
Variance totale=
moyenne des variances (variance intra)
+variance des moyennes (variance inter)
89
STRATIFICATION
Pour la suite, on se placera dans le cas d’un
tirage aléatoire simple sans remise, à
l’intérieur de chaque strate.
90
STRATIFICATION
N h1 N nh Nh 1
1 H Sh2
2 Nh (Nh nh )
N h1 nh
91
STRATIFICATION, répartition
proportionnelle
h 1 N h 1 n
92
STRATIFICATION, répartition
proportionnelle
variance :
2
1 H
S 1 H
Nh nh
V (Yprop ) 2 Nh ( Nh nh )
ˆ h
2 Nh Sh2
N h1 nh N h1 nh
1 H Nh 1 H
N N n H
Nh 2
2 ( 1)Nh Sh 2 ( 1)Nh Sh
2 2
Sh
N h1 nh N h1 n nN h1 N
Si Nh est grand:
N n H
N N n H
N N n 2
V (Yˆprop ) h nN
nN h1 N
h
S 2
h1 N
h
h
2
N n
w
93
STRATIFICATION, répartition
proportionnelle
94
STRATIFICATION optimale
Répartition optimale:
1 N h N h nh 2
V (Ystr ) 2
N
nh
Sh
Nh
avec Sh 2
h2
Nh 1
N h2 S h2 proportionnel à ch
n h2
nh Sh
Nh ch
Si ch constant:
N h Sh
nh n - Répartition de Neyman
N h Sh 96
STRATIFICATION optimale
Cette répartition utilise un taux de sondage f
proportionnel à la dispersion Sh de X étudiée
dans chaque strate.
Plus une strate est hétérogène vis-à-vis de la
variable étudiée, plus on utilise un taux de
sondage important.
La théorie montre que cette répartition est celle
qui fournit la variance la plus faible une fois les
strates déterminées.
97
STRATIFICATION optimale
Remarquons que l’échantillon de Neyman
dépend du caractère que l’on veut estimer en
priorité. C’est pour ce caractère que l’on prendra
la variance en considération.
En général, celle-ci ne sera pas connue a priori.
Elle pourra être estimée à partir d’une enquête
antérieure ou d’études limitées.
98
STRATIFICATION
nh 50 45 30 30 155
99
STRATIFICATION
Exemple n° 1:
Nh 3750x12.6 ..... 2475x13.8
Y yh 14.21
N 10884
Nh h
2 2
Vˆ ( Y )
N nh
0 .0 2 0 5 9 (0 .1 4 ) 2
N N
Yˆ 2
n
On estime: 2h par h h
str
n h 1
Y h par y h
Y par Yˆstr
6.06 2.46
2 2
101
STRATIFICATION
Suite: Répartition de Neyman pour n=1000:
N1S1 = 6275 n1 = 1000 x 6275/19 312 = 325
N2S2 = 5572 n2 = 288
N3S3 = 3038 n3 = 157
N4S4 = 4427 n4 = 229
19 312
1 Nh Nh nh 2
Variance: 2 Sh 0.0029 0.0542
2
N nh
Y connu à + 2 x 0.0542 soit + 0.108
T connu à + 1179 102
STRATIFICATION
n N 1
Y connu à + 0.15; T connu à + 1615
Échantillon stratifié représentatif:
n1 = 345
n2 = 301
n3 = 127
n4 = 227
103
STRATIFICATION
V ( pstr )
ˆ
h 1 N nh Nh 1
N h f h (1 f h ) nh
2
H
V ( pˆ str )
ˆ
1
h 1 N nh N h
104
STRATIFICATION
Comment stratifier?
Remarque préalable: dans un sondage à probabilité
inégale i proportionnel à Yi annule la variance.
105
STRATIFICATION
106
STRATIFICATION
Variable de stratification: en théorie Y;
sinon, variable bien corrélée avec Y.
107
Exemples
Enquêtes INSEE auprès des entreprises, sondages B2B en
institut.
108
Exemples
Indice des prix
http://www.insee.fr/fr/methodes/default.asp?page=sources/ope-ipc.htm
- critère géographique : les relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants
dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ;
- type de produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est
défini pour tenir compte de l'hétérogénéité des produits au sein des postes. La variété est le niveau
de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et
l'IPC n'est pas diffusé à ce niveau ;
- type de point de vente : un échantillon de 27 000 points de vente, stratifié par forme de vente, a été
constitué pour représenter la diversité des produits et modes d'achat des consommateurs et prendre
en compte des variations de prix différenciées selon les formes de vente.
Le croisement de ces différents critères aboutit à suivre un peu plus de 140 000 séries (produits précis
dans un point de vente donné) donnant lieu à près de 160 000 relevés mensuels. »
109
Taille des strates
Autres considérations
Dans la pratique, d’autres considérations que la précision
optimale peuvent guider l’allocation dans les strates,
comme la nécessité d’avoir des bases de lectures
suffisantes sur chaque strate
110
SONDAGE A DEUX DEGRÉS
Population découpée en sous-populations dites
unités primaires
Définition: tirage de m unités primaires puis de ni
unités secondaires
Avantages:
frais de déplacement réduits
absence de liste autorisée
Mais:
précision moindre: effet de grappe.
Taille d’échantillon en général aléatoire
111
SONDAGE A DEUX DEGRÉS
M unités primaires de taille Ni
Ni
Ti Y i j - total de l’UP n°i
M
N N i
i 1 j 1
2 n i S 2 ,i
2
2 m S 12 M
V
T M 1
N i 1
M
m m
i n
N
i
V a r ia n c e V a r ia n c e
in t e r in t r a
UP UP
2 2
S1
2 1 M
M 1 i1
Ti T S2,i
2 1 Ni
Ni 1 i1
Yij Y i 112
SONDAGE A DEUX DEGRÉS
2
S12 estimé par 1 T
m
si m>1
s1
2
Ti
m1 i1 M
Ni Ni N i m n0m
ni n0 E ( ns ) E ( n0 ) n0
N iSi N kU i N M M
113
SONDAGE A DEUX DEGRÉS
Sondage autopondéré:
- m unités primaires tirées à probabilités proportionnelles à
leur taille
- tirage d’échantillons de taille fixe n0
probabilités d’inclusion constantes
Nj n0 mn0
i m
N Nj N
Estimateur de la moyenne: N peut être inconnu
Yˆ y
114
SONDAGES A DEUX DEGRÉS
Comment améliorer la précision ?
116
SONDAGE EN GRAPPES
Cas général :tirage de grappes à probabilités
inégales
m
Ti
Estimation du total: T
ˆ
i 1 i
1 m NiYi
Estimation d’une moyenne Y
N i 1 i
pb si N inconnu: utiliser l’estimateur de Hajek
m
NiYi
i 1 i
YHajek m
Ni
i 1
117
i
SONDAGE EN GRAPPES
Tirage de grappes à probabilités égales
m
i
M
taille d’échantillon aléatoire
m Nm
E (ns ) E ( N i ) Ni
iSi kU i M M
Estimation
M 1 m
2 m S Y
2
M
T
m
T
i s
i
V T M 1
M m
1
m N i1
NY
i i
118
SONDAGE EN GRAPPES
Tirage de grappes à probabilités
proportionnelles à la taille
1 m
Y Y i
N
i m i
N
m i 1
1 m
Ni 2
V (Y )
ˆ
m(m 1) i 1
(1 m
N
)(Yi Y )
Ni m m M 2
E (ns ) E ( N i ) N i Ni
iSi iU i N N i 1
119
SONDAGE EN GRAPPES
conseils pratiques
120
Le tirage systématique
121
Le tirage systématique
L’estimateur de la moyenne est simplement la moyenne de la
grappe sélectionnée et sa variance est
2
M
Y N Y
V Yˆ M i i
i 1 N M
Lorsque le fichier se trouve être trié selon un ordre proche de Y, la
variance peut être notablement plus faible que pour le tirage aléatoire
simple. Exemple Yi = i
Mais la variance n’est pas estimable .
2
1 m T
Voir formule s1
2
Ti
m1 i1 M
Il est incorrect d’utiliser la variance de l’estimateur du tirage aléatoire
simple sauf si la base de sondage a été triée préalablement au hasard.
122
Tirage systématique: un exemple théorique
N 1 ( N 1) 2
Y S2
2 12
•Tirage équiprobable sans remise :
n ( N 1) 2
1 ( Kn 1) 2
V ( ysr ) 1 1
N 12n K 12n
123
• Tirage systématique :
une grappe : h, h+K, h+2K,.., h+(n-1)K
n 1
Yh h K
2
•Moyenne
n 1 K 1 n 1 nK 1 N 1
E (Yh ) E (h) K K
2 2 2 2 2
•Variance
ˆ n 1 K 2
1
V (Ysyst ) V (h K ) V ( h) V ( h)
2 12
ˆ
V (Ysyst ) V ( ysr )
Redressements
126
MÉTHODES DE REDRESSEMENT
OU DE REPONDÉRATION
Principe :
Utiliser a posteriori une information supplémentaire
corrélée avec la variable à étudier
De sorte à :
oaccroître la précision de l’estimation
oassurer la cohérence des résultats par rapport à
l’information supplémentaire
Information auxiliaire :
Variables de contrôle dont on connaît :
odes caractéristiques globales,
oou des caractéristiques par classes,
oou les valeurs pour chaque unité de la population 127
ESTIMATEUR PAR LE QUOTIENT
EXEMPLE
• Cadre :
• La variable auxiliaire est quantitative
• On connaît le total (ou la moyenne) de cette variable sur
l’échantillon et sur la population
• On va ajuster l’estimation sur cette grandeur connue
• Exemple :
o On veut estimer le CA moyen d’hypermarchés ( Y )
o On a enquêté 80 hypermarchés
o On sait que le nombre moyen de caisses dans la
population des hypermarchés est X 28
o On relève sur l’échantillon
ˆ ˆ
Y 110,2 k € X 28,8
o L’estimateur par le quotient vaut :
ˆ 28
YQ 110,2 107,1 k€ 128
28,8
ESTIMATEUR PAR LE QUOTIENT
FORMULE GÉNÉRALE
• Principe : règle de 3
ˆ ˆ X
• Formule générale : YQ Y ˆ
X
• Hypothèse de proportionnalité
• Biaisé mais négligeable si n>1000
• Gain de précision par rapport à un PESR de même
taille pourvu que l’hypothèse de proportionnalité
soit valide
129
ESTIMATEUR PAR LE QUOTIENT
INTERPRÉTATION GRAPHIQUE
130
ESTIMATEUR PAR LE QUOTIENT
POIDS APRÈS REDRESSEMENT
Yk X Y
• On a : Ty
ˆ et Tˆy k
Q
ks k Xˆ kS k
1 X 1 TX
• Le poids après redressement de k vaut
k Xˆ k TˆX
1
• Le poids de sondage valait
k
131
ESTIMATEUR PAR LE QUOTIENT
ESPÉRANCE
• Cas général
Var Xˆ Cov Xˆ ,Yˆ
ˆ
EYQ Y 1
X² X Y
Biais S2 Sx, y
ˆ 1 1 x
o Dans le cas d’un PESR de n parmi N : EYQ Y 1
n N X ² X Y
• Biais en 1/n
• Biais nul si Y et X sont proportionnelles (droite de
régression passant par l’origine)
Cov X,Y
ˆ ˆ
Y R i.e.Yk RXk uk
Var X X
ˆ
Sx, y Y
o Dans le cas d’un PESR : R 132
Sx2 X
ESTIMATEUR PAR LE QUOTIENT
ESPÉRANCE
ˆ
X X
Développement limité en 0 avec soit X X1
ˆ
•
X
ˆ Y ˆ
ˆ ˆ ˆ ˆ Y X ˆ ˆ Y
ˆ ˆX Y.X Y.X Y.X Y.X X Y RX où R
YQ Y Y Y
X
ˆ
X
ˆ X (1 ) 1 1 X
ˆ
ˆ ˆ X X
Y RX 1 Y RX 1
ˆ ˆ
X
Xˆ X Xˆ X
ˆ ˆ ˆ
EYQ Y EY RX 1
EY RX
ˆ ˆ
X X
EQM YQ Var Y 2 RS xy R 2 S x2 0
ˆ ˆ
S xy R
( X et Y positives)
S x2 2
S xy
1Y (b
b S x2
2 X
pente de la droite de régression de Y sur X )
o Développement limité
S 2 S x, y
E Rˆ R R x
1 1
n N X ² X .Y
136
ESTIMATEUR PAR LA RÉGRESSION
PRINCIPE
• Cadre :
o La variable auxiliaire est quantitative
o On l’observe pour chaque individu de l’échantillon et on en
connaît la vraie moyenne sur la population
o On va ajuster l’estimation sur cette grandeur connue
Yreg Y bˆ X X
ˆ ˆ ˆ
Sˆ xy
avec bˆ pente estimée de la droite de régression de Y sur X
2
Sˆ
x
137
ESTIMATEUR PAR LA RÉGRESSION
INTERPRÉTATION GRAPHIQUE
138
ESTIMATEUR PAR LA RÉGRESSION
PROPRIÉTÉS
• Biaisé mais biais négligeable pour n assez grand
• Erreur quadratique moyenne dans le cas d’un PESR
2
n yS
EQMYreg 1 1 ²
ˆ S xy
avec
N n Sx S y
• Estimée par :
ˆ2
y
S Sˆ xy
EˆQM Yreg 1
ˆ n
1 ˆ ² avec ˆ
Sˆ Sˆ
N n x y
139
ESTIMATEUR PAR LA RÉGRESSION
COMPARAISON
• Meilleur que l’estimateur d’Horvitz-Thompson
EQMYreg VarYQ 1 ² 0
ˆ ˆ (toujours vrai)
RS x2 S xy
2
0 (toujours vrai)
o Si la relation entre X et Y est linéaire et non affine (ordonnée à
l’origine nulle), alors l’estimateur par la régression est égal à 140
l’estimateur par le quotient
ESTIMATEUR POST-STRATIFIÉ
• Cadre :
o La variable auxiliaire est qualitative
o On définit après l'enquête des groupes d'individus, appelés
post-strates.
o On observe les effectifs des post-strates sur l’échantillon
o On connaît la répartition de la population selon ces post-strates
o On va ajuster l’estimation sur cette répartition
• Remarques :
o Les effectifs des post-strates dans l'échantillon ne sont connus
qu'après enquête
o Ils dépendent de l'échantillon choisi : ce sont des variables
aléatoires
141
ESTIMATEUR POST-STRATIFIÉ
1ER EXEMPLE
• On veut estimer le taux de fréquentation des salles de cinéma
• On sait que cette activité est liée à la possession de TV
• On connait le taux d’équipement en TV : ptélé = 80%
• On observe sur un échantillon de taille 1000 choisi par PESR :
Cinéma
Oui Non Total
Télé
Oui 20 680 700 70 % et non 80 % ×8/7
Non 80 220 300 ×2/3
Total 100 900 1000
• Estimateur d’Horvitz-Thompson :
ˆ
Y 6000 0,15 9000 0,3 15000 0,3 12000 0,25 11100
• Estimateur post-stratifié
ˆ
Y post 6000 0,2 9000 0,35 15000 0,3 12000 0,15 10650 143
ESTIMATEUR POST-STRATIFIÉ
PRINCIPE
• Total et moyenne sur la population :
Nh H
H H Ty HNh
Ty yk yk Tyh N hYh Y Yh
kU h1 k 1 h1 h1 N h1 N
• Estimateurs d’Horvitz-Thompson :
N H H n ˆ
Tˆy
yk
N
yk y k N h yˆ h ˆ Ty 1
Y yk
kS k n kS n h 1 kS h h 1 n N n kS
• Estimateurs post-stratifié
H H 1
Tˆy N h yh N h
ˆ yk
post
h1 h1
nh kS
h
H N H N 1
h
yk
ˆ
Y post yh
h ˆ
h1 N
h1 N nh kSh
144
ESTIMATEUR POST-STRATIFIÉ
POIDS APRÈS REDRESSEMENT
H 1 N
• On a : Ty post N h yk et T̂y yk
ˆ
h1 nh kSh n kS
Nh
• Le poids après redressement de k vaut
nh
N
• Le poids de sondage valait
n
145
ESTIMATEUR POST-STRATIFIÉ
ESPÉRANCE
ETˆy E ETˆ
post y post / nh ,h1,...,H
H
ˆ H H
ˆ
E T y
N h EYh / nh , h 1,..., H N hYh Ty Tyh
post / nh , h 1 ,...,H h1 h1 h1
nh 0 nh 0
car si nh est fixé, le plan est un PESR
H
ˆ
E T y
Ty Tyh Pnh 0
post h1
H
VarTy Tyh 0
h1
VarTˆy E VarTˆ nh 0
post post / nh ,h1,...,H
y
2
S
Var Tˆy N 2 1 h
H n yh
post / nh ,h 1,..., H h 1 h N h nh
H 2 1 1 2 H 1 2
ˆ
Var T y E N S yh N h N h E 1 S yh
post
h 1 nh N h h 1 nh
h
147
ESTIMATEUR POST-STRATIFIÉ
VARIANCE
• Calcul de E 1 / nh par développement limité en 0 avec
nh 1 E nh
nh 1 1 1
1 soit
E nh nh 1 E nh
1
E 1
1 1
D’où : n
E E 1 ²
E nh E nh
•
h 1
Nh
• Or : nh H ( n, N , N h ) i.e. E (nh ) n N
Var (nh ) n N h 1 N h N n
N N N 1
• On en déduit :
1 Nn Nn
2
E
N
E 1 1 h
1 h N 1 0 N ²Var (nh )
nN nN nN
h h nN h n ² N h2
nh h
N N ( N N h ) ( N n)
nN h N h2 n ²( N 1) 148
ESTIMATEUR POST-STRATIFIÉ
VARIANCE
H 1 2
• On a : ˆ
Var T y N h N h E 1 S yh
post h 1 nh
1 N N ( N N h ) ( N n)
avec E
nN
nh h N h2 n ²( N 1)
n 1 H Nh 2
Var T y prop N ²1
ˆ
N n h 1 N
S yh
n 1 H Nh 2 N n 1 H Nh 2
ˆ
Var T y N ² 1 S yh N ² 1 S yh
post N n h 1 N N 1 n² h 1 N
Var Tˆy
post 1 O 1
ˆ
Var T y prop
n
• Mais :
o Ne pas utiliser que des variables socio-démographiques
o Ne pas multiplier les critères de redressement
151
ESTIMATEUR DU RAKING-RATIO
EXEMPLE
1000 individus ont été interrogés. La répartition par sexe et profession est la suivante
P1 P2 P3 Total
H 300 100 200 600
F 100 150 150 400
Total 400 250 150 1000
Vraies marges 500 et 500 pour le sexe et 350,300, 350 pour la profession.
Une première règle de 3 permet d’obtenir les marges souhaitées pour le sexe : on
multiplie la première ligne par 500/600 et la deuxième ligne par 500/400
P1 P2 P3 Total
H 250 83 167 500
F 125 187.5 187.5 500
Total 375 270.5 354.5 1000
152
ESTIMATEUR DU RAKING-RATIO
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession,
ce qui change les marges en ligne :
P1 P2 P3 Total
H 233 92 165 490
F 117 208 185 510
Total 350 300 350 1000
Puis en ligne :
P1 P2 P3 Total
H 238 94 168 500
F 115 204 181 500
Total 353 298 349 1000
P1 P2 P3 Total
H 236 95 168 499
F 114 205 182 501 153
Total 350 300 350 1000
GÉNÉRALISATION : CALAGE SUR MARGES
OBJECTIFS
• Améliorer la précision des estimateurs des
paramètres d’intérêt d’une enquête
o Pourvu que les critères de calage soient liés aux
variables d’intérêt
• Assurer la cohérence des résultats avec des
informations synthétiques connues par ailleurs.
Ainsi, après calage, l’échantillon restitue :
o les totaux de variables quantitatives connus sur la
population
o les effectifs de modalités de variables catégorielles
connus sur la population 154
GÉNÉRALISATION : CALAGE SUR MARGES
PRINCIPE
155
CALAGE SUR MARGES
MÉTHODE
Supposons connus les totaux sur la population de J variables
•
auxiliaires TX Tx1 ,...,Tx j ,...,TxJ
• Pour les caractères catégoriels, les totaux sont les effectifs de chaque
modalité (= totaux des variables indicatrices associées à ces modalités)
156
CALAGE SUR MARGES
MÉTHODE
• On choisit une fonction de distance entre le poids initial et le
poids final : G(wk, dk )
• Les poids cherchés sont solutions du problème d'optimisation :
w
min wk G k avec wk x j,k Tx j j
wk kS dk kS
x L log x L L(U 1) U(1 L)expu
1 1 L Logistique
A (U 1) (1 L)expu
U x logU x Méthode du raking ratio tronquée (3)
U 1 L, U
U L
; x L,U , ( sin on)
(1 L)(U 1)
1
x 12 si x L,U
1 qi u Khi-deux tronquée
2
L,U Méthode linéaire tronquée (3)
sinon
158
CALAGE SUR MARGES
FONCTIONS DE DISTANCE
Méthode linéaire
o converge toujours en 2 étapes
o redonne l’estimateur par régression
o peut donner des poids négatifs
o rapports de poids non bornés supérieurement
Méthode exponentielle
o poids positifs
o redonne l’estimateur du raking-ratio
o rapports de poids non bornés supérieurement, en général supérieurs à
la méthode linéaire
Méthodes logit, linéaire tronquée
o poids positifs
o contrôle des rapports de poids
159 159
CALAGE SUR MARGES
PROPRIÉTÉS
Espérance
Quelle que soit la méthode utilisée, l'estimateur calé est
approximativement sans biais
Variance
Quelle que soit la méthode utilisée, la variance de
l'estimateur calé est approximativement égale à celle de
l'estimateur par régression : toutes les méthodes sont
asymptotiquement équivalentes
160
CALAGE SUR MARGES
MACRO CALMAR
Insee, 1993
Macro SAS
Disponible sur www.insee.fr
Syntaxe (paramètres obligatoires)
%CALMAR (data =,
poids =,
ident =,
datamar =,
M =, LO=, UP=,
datapoi =,
poidsfin=);
161 161
CALAGE SUR MARGES
EXEMPLE
1. les données individuelles 2. la table des marges
DATA echant; DATA marges;
INPUT nom $ x $ y $ z pond; INPUT var $ n mar1 mar2;
CARDS; CARDS;
A 1 f 1 10 X 2 20 60
B 1 h 2 0 Y 2 30 50
C 1 h 3 . Z 0 140 .
D 5 f 1 11 ;
E 5 f 3 13 RUN ;
F 5 h 2 7
H 1 h 2 8 3. lancement de Calmar
G 5 h 2 8 %CALMAR(DATA = echant,POIDS = pond,
I 5 f 2 9 IDENT = nom,
J . h 2 10 DATAMAR = marges,
K 5 h 2 14 M = 2, OBSELI = oui,
; DATAPOI = sortie,
RUN; 162 POIDSFIN = pondfin, 162
Après calage
163 163
CALAGE SUR MARGES
EXEMPLE
164
CALAGE SUR MARGES
EXEMPLE
165 165
CALAGE SUR MARGES
EXEMPLE
166 166
CALAGE SUR MARGES
EXEMPLE
167
BIBLIOGRAPHIE
Sautory O. (1993). « Redressement d’un échantillon par calage sur
marges », Document de travail de la DSDS n°F9310,, www.insee.fr .
Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). « Generalized raking
procedures in survey sampling », Journal of the American Statistical
Association, vol 88, n°423, pp. 1013-1020.
Deville, J.-C. (1998). « La correction de la non-réponse par calage ou par
échantillonnage équilibré ». Papier présenté au colloque de la Société
Statistique du Canada, Sherbrooke.
Dupont, F. (1996). « Calage et redressement de la non-réponse totale ».
Actes des journées de méthodologie statistique, 15 et 16 décembre 1993,
INSEE-Méthodes n°56-57-58.
Roy, G., et Vanheuverzwyn, A. (2001). « Redressement par la macro
CALMAR : applications et pistes d'amélioration », Traitements des fichiers
d'enquête, pp. 31-46. Presses Universitaires de Grenoble.
168 168
Sources d’erreur et biais
17
0
Utilisations des données d’enquête :
« Describers » & « Modelers »
Forte attention aux erreurs de non- Forte attention aux erreurs d’obser-
observation (défauts de couverture, vation (questionnaire)
non-réponse)
17
1
Sources d’erreur {1/3}
Erreur d’échantillonnage
Hétérogénéité des mesures parmi les individus de la population
Défaut ou excès de couverture
Probabilité de sélection nulle ou non connue pour les individus de la
population
Non-réponse
Défaut de collecte de toute ou partie de l’information pour certains
individus de l’échantillon
Erreur de mesure
Influence de l’enquêteur sur les réponses des personnes interrogées
Incapacité (ou manque de volonté) des personnes interrogées à répondre
aux questions : mémoire, impréparation, facteurs psychologiques, …
Défauts de l’instrument de mesure (questionnaire ou autre)
Effets du mode de recueil (face à face, téléphone, auto-administré papier
ou Internet)
17
2
Sources d’erreur {2/3}
Souvent on ne sait que très peu – et parfois rien du tout - sur les
erreurs d’observation et les défauts de couverture
Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la
nature de biais – ne diminuent pas lorsque la taille d’échantillon
augmente
17
3
Sources d’erreur {3/3}
Moralité
Dans une telle situation, une taille d’échantillon très importante ne sera
pas non plus de nature à éviter la déroute
Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé
par le Literary Digest - portant sur près de deux millions de lecteurs -
donnait une confortable avance à Alfred Landon (54%) … alors que
Franklin Roosevelt allait recueillir 61% des suffrages !
17
4
« Nonsampling errors » :
Populations d’intérêt
Non-réponse
divergences entre « frame » et « survey population »
Erreurs de couverture
divergences entre « frame » et « target population»
Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15 17
5
« Nonsampling errors » :
Défaut ou excès de couverture {1/2}
17
6
« Nonsampling errors » :
Défaut ou excès de couverture {2/2}
L’erreur de couverture
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon
17
7
« Nonsampling errors » :
Non-réponse {1/3}
17
8
« Nonsampling errors » :
Non-réponse {2/3}
17
9
« Nonsampling errors » :
Non-réponse {3/3}
avec nc + ni + rf = nr
18
0
« Nonsampling errors » :
Erreur de mesure
Mesure Représentativité
Population
Concept cible
Erreur de
[Dimensions /
couverture
indicateurs]
Validité Base de
sondage
Mesure Erreur
d’échantillonnage
Erreur de
mesure Echantillon
Erreur liée à la
Réponse
non-réponse
Erreur de Répondants
codification
Erreur
Réponse codée
d’imputation /
Imputation / redressement
redressement
18
2
Sources d’erreur et phases d’ enquête
Erreur
d’échantillonnage
Sélection des
répondants Erreur de Couverture
Erreurs de traitement
Mode de réalisation
Effets liés au mode de recueil
Erreurs de comparaison (dessins différents, …)
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
4
Sources d’erreur, contraintes, mode de
réalisation
•Echantillonnage
•Couverture Contraintes
•Non-réponse
•Coûts
•Mesure
•Délais
•Etique
•Questionnaire
•Mode de recueil
•Effets de comparaison (plan
d’échantillonnage, temps, …)
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
5
L’ «art» du sondeur
18
6
Bibliographie
Lecture minimale
Ardilly, P. (2ème édition actualisée et augmentée, 2006), Les techniques
de sondage, Editions Technip, Paris
Chapitre I. Aspects universels, principes de base
18
7
NON-RÉPONSES ET DONNEES
MANQUANTES
Gilbert Saporta
Conservatoire National des Arts et Métiers
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
188
Non-réponse: - totale
- partielle (données manquantes)
Causes des non-réponses:
Refus
Réponses inexploitables, perte, destructions
189
Biais de non -réponse
Deux strates P0
P1
Répondant
Non -
répondant Y1
Y0
N0 N N0 N0 N0
Y Y0 Y1 Y0 Y1 Y1
N N N N
En l'absence d'hypothèse sur le mécanisme des données manquantes,
seul Y1 peut être estimé
Biais : Y Y1
N0
N
Y0 Y1
190
Quelques remèdes:
Non-réponses:
Stratégie de relance
Post-stratification pour redresser
191
Questions sensibles ou indiscrètes: la
méthode des questions aléatoires
Première technique:
On tire au sort dans une urne avec θ boules blanches et 1- θ boules noires
la question
Si blanc: question A: « Avez-vous fraudé le fisc? »
Si noire: question : « Je n’ai pas fraudé »
A
On veut estimer PA.
On recueille Π = Proba de Oui = PA 1 1 PA
% de « Oui »
1
PA 1PA 1 1
PA
2
VPA
1
2
2
V
n
n 22
A
V PA
n
n
193
Exemple: Brown 320 officiers
Consommation de drogue: 2 enquêtes, une anonyme, l’autre
à question aléatoire
194
Données manquantes
• Les mécanismes (Rubin,1976)
– MCAR (Missing Completely at Random)
• P(Y manquant) indépendant de Y et du reste
• Hypothèse forte mais réaliste si volontaire
– MAR (Missing at random)
• P(Y manquant/Y,X)=P(Ymanquant/X)
• Non testable
– MCAR et MAR: données manquantes ignorables
– Cas non ignorable: nécessité de modéliser le
mécanisme pour obtenir des estimations sans biais
• Ignorer ou estimer les données manquantes?
195
Supprimer les DM?
• « listwise »
– Perte d’information
– Marche pour MCAR et en régression pour les X
si MAR selon Y
• « Pairwise »
– Utilisable pour modéle linéaire, ACP
• Matrices non positives, statistiques de tests biaisées
196
Estimer les DM: l’imputation
• Compléter la non-réponse par une valeur
plausible.
– Méthodes implicites
– modèles
197
Estimation basée sur des modèles
198
Algorithme EM (espérance,
maximisation)
1
(X, Y) (X - G 'jYj )' (X - G 'jYj )
m
m j 1
X
1
m j1
G j Yj
200
• Les données manquantes sont
complétées pour avoir minimal: ACM
avec valeurs propres maximales.
MCA with missing data
x y z 1 x y z 1 x y z 1
l l j .70104 m l y .63594 h l y .61671
l l m .77590 m l m .72943 h l m .66458
l l o .76956 m l o .72636 h l o .65907
l m j .78043 m m y .70106 h m y .70106
l m m .84394 m m m .77839 h m m .74342
l m o .84394 m m o .84394 h m o .74342
l h j .78321 m h y .73319 h h y .68827
l h m .84907 m h m .80643 h h m .74193
l h o *.84964 m h o .80949 h h o .74198
202
• Solution unidimensionnelle peu réaliste:
max (1+2+…+k)
• Recherche exhaustive impossible.
Algorithmes itératifs.
203
IMPUTATION MULTIPLE (Rubin)
205
deux inconvénients majeurs pour toutes ces
méthodes:
206
– le hot-deck hiérarchisé : On remplace l'unité
défaillante par une unité ayant les mêmes
valeurs pour C1, C2,…, Ck. S'il n'en existe pas
alors on la remplace par une unité ayant les
mêmes valeurs pour C1, C2,…, Ck-1; etc. …
– - le hot-deck métrique ou méthode du plus
proche voisin avec une distance d(i,j)
207
Fusions et greffes
• Fusions de fichiers et greffes d'enquêtes:
combiner des données provenant de sources
différentes.
• en amont du processus de « data mining » .
• fusionner différentes bases: enquêtes, sources
administratives, fichiers clients, données socio-
économiques agrégées, etc.
• Chaque base peut être constituée d'unités
statistiques différentes ou d'agrégation de ces
unités à différents niveaux.
208
• Fusion de fichiers. Cas élémentaire:
• deux fichiers: F1 p+q variables mesurées
sur n0 unités, F2 sous-ensemble de p
variables pour n1 unités. Souvent n0 est
faible par rapport à n1 .
X0 Y0
X1 ?
209
• Un cas plus complexe
X0 Y0
X1 Z1
210
Modèles et méthodes pour la
fusion de données
• Appliquer industriellement une technique
de traitement de données manquantes.
• deux approches:
– Méthodes d’imputation: compléter la non-
réponse par une valeur plausible.
– Repondération : affecter aux répondants
des pondérations pour compenser les non-
réponses
211
• conditions à vérifier préalablement:
– la taille de la population du fichier donneur est
suffisamment importante par rapport au fichier
receveur
– les variables communes et les variables spécifiques
possèdent des liaisons relativement fortes entre elles.
212
Les méthodes implicites:
213
FICHIER DONNEUR
I
X0 Y0
X1 ?
FICHIER RECEVEUR
214
La fusion sur référentiel factoriel
215
• Réferentiel factoriel: ACM sur l’ensemble des
variables critiques ou communes
• Détermination d’un voisinage du receveur
• Choix final parmi les donneurs éligibles selon les
variables de rapprochement (sexe, age, …)
• Pénalisation pour éviter de prendre trop souvent
les mêmes donneurs (voir fusion par mariage)
Axis II
Axis I
216
Un exemple:
• Données SPAD 992 interviews, divisées
aléatoirement en deux fichiers : 800 donneur
192 receveur.
• 4 variables communes:
Q1 - classe d'age(5 catégories),
Q2 - taille d'agglomération (5 catégories),
Q3 - heure de coucher (7 catégories),
Q4 - age de fin d'études (5 catégories) .
• 3 variables d ’opinion Y à imputer:
Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)
Q6 - Plus haut diplôme obtenu (7 catégories),
Q7 - Taux d'écoute TV (4 catégories).
217
Table 3 performances individuelles
1 36 6 49
2 70 114 65
3 35 16 27
4 29 23 33
5 4 33 1
6 18 33 15
7 0 0 2
Q7
218
Fusion par mariages
d ' 1 (1 d ) n
219
• G. Santini a imaginé 6 types différents de
relations de voisinage par “ mariage ”: A
receveur, B donneur.
le mariage par “ coup de foudre ” (voisins
réciproques) : si A est le plus proche voisin de B et
si B est le plus proche voisin de A et n'a jamais été
marié, alors A et B sont immédiatement mariés.
le mariage avec “ l'ami d'enfance ” : si B est le plus
proche voisin de A, mais B est déjà marié à A' ,
alors A sera marié à B' qui est le plus proche voisin
de A après B.
le mariage par “ adultère ” : variante du cas
précédent quand d(B ’,A) est plus grand que la
distance pénalisée entre A et B (puisque B est déjà
marié a A'). On marie alors A et B.
220
• Fusion avec collage du vecteur entier du donneur
– moins bon pour la reconstitution de données
individuelles,mais garde la structure de corrélation et
évite les incohérences
• Régression variable par variable.
– C’est l’inverse
• Dans tous les cas il est nécessaire d'avoir:
Un nombre suffisant de variables communes
Des corrélations élevées entre variables communes et variables
à imputer.
Une structure commune entre fichier donneur et fichier
receveur: distributions comparables des variables communes
ou critiques, sinon résultats biaisés. Redressements souvent
nécessaires.
221
Fusion par scores de « propensity»
• Origine: essais cliniques avec affectation non-
aléatoire entre traitement et témoin (contrôle)
– Z=1 traité, Z=0 sinon. p covariables X= (x1,x2, ..,xp)
– propensity score e(x)=P(Z=1/X)
• Résumé unidimensionnel: permet de stratifier,
de chercher des jumeaux (appariement), de
repondérer en cas de données manquantes
• Estimé habituellement par une régression
logistique
222
S.Rässler, 2002
223
Application: données manquantes
• Si mécanisme ignorable:
N
1 zi yi
ˆ
Y
N
i 1 e( x i )
1 N
zi yi (1 e(xi ))
ˆ
Y0
n0
i 1 e( x i )
224
• rééquilibrage d’enquête
– une enquête de référence aléatoire,
– une enquête web
• plus simple que la post-stratification sur
plusieurs variables (calage sur marges)
225
Yoshimura,
226
Propriétés (1)
• Equilibrage:
Pour un score donné e(X), on tire des
échantillons aléatoires simples parmi Z=1 et
Z=0.
Alors les lois de X dans chaque groupe sont les
mêmes:
P(X / Z=1,e(X))= P(X / Z=0,e(X))
• Avantage: facile de fabriquer des échantillons
appariés même si X est de grande dimension
– Si appariement exact impossible : ppv ou strates
227
Propriétés (2)
• Consistence : estimation sans biais de
l’effet d’un traitement Y :
– = E(Yt)-E(Yc)
– si l’effet de l’affectation traitement-contrôle
est ignorable conditionnellement à X (donc à
e(X)) et si 0<P(Z=1/X)<1 (Yt et Yc sont
indépendants de Z conditionnellement à X)
– alors est estimé sans biais par la moyenne
des différence entre observations appariées
selon e(X)
228
Propriétés (3)
• Etudes d’observation non randomisées
– résout le problème de l’inférence causale
– réduit les biais « ouverts »: ex: comparer la
mortalité des fumeurs et non-fumeurs alors
que les fumeurs sont en moyenne plus vieux
que les non-fumeurs
– à comparer avec la post-stratification
229
Conclusions
• Techniques:
– La fusion: un problème de données
manquantes massives, stimulant pour
les statisticiens.
– besoin réel de fournir à l'utilisateur
final une base unique sans “ trou ”.
230
– Prudence quand on utilise des “ données ” qui
sont en réalité des estimations et non des
valeurs observées: ne jamais utiliser à un
niveau individuel, mais uniquement agrégé.
– Conséquence perverse: un moindre effort de
collecte, puisque l'on peut reconstituer des
données…
– Nécessité de valider
231
Validation
• procédures empiriques où on estime des
données connues mais cachées que l'on
compare ensuite aux vraies valeurs:validation
croisées, bootstrap …
• Indicateurs:
– reconstitutions de données individuelles
– prévisions au niveau de groupes
– reconstitutions de marges, de croisements
232
• Déontologiques (confidentialité et protection de la
vie privée) :
233
Références
• Allison P. (2002) Missing data, Sage Publications
• Co V. (1997) Méthodes statistiques et informatiques pour
le traitement des données manquantes.Doctorat, CNAM.
Paris.
• Fischer N. (2004) Fusion Statistique de Fichiers de
Données. Doctorat, CNAM, Paris.
• Rässler S. (2002), Statistical matching, Springer
• Rosenbaum P.R., Rubin D. (1983) the central role of
propensity scores in observational studies for causal
effects, Biometrika 70, 41-55
• Saporta G. (2002) Data fusion and data grafting .
Computational Statistics and Data Analysis, 38(4),465-473
234