Vous êtes sur la page 1sur 234

Cours de sondages

Master IS 2011-2012

Gilbert Saporta
Chaire de Statistique Appliquée & CEDRIC
CNAM
292 rue Saint Martin, F-75003 Paris

gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta 1
Ouvrages recommandés:

 J.ANTOINE Histoire des sondages (Odile Jacob, 2005)


 P.ARDILLY Les techniques de sondage, 2ème édition (Technip, 2006)
 P.ARDILLY, Y.TILLE Exercices corrigés de méthodes de sondage (Ellipses,
2003)
 A.M. DUSSAIX, J.M. GROSBRAS Exercices de sondages (Economica, 1992)
 SYNTEC Etudes Marketing et Opinion - Fiabilité des méthodes et bonnes
pratiques (Dunod, 2007)
 Y.TILLÉ Théorie des sondages (Dunod, 2001)

Sites internet:
 Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/
 Autorité de la statistique publique http://www.autorite-statistique-
publique.fr
 CNIS http://www.cnis.fr/
 INSEE : http://www.insee.fr
 IPSOS: http://www.ipsos.fr/
 Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm
 SYNTEC Etudes http://www.syntec-etudes.com/

2
Introduction: aperçu du secteur
 La statistique publique: 8000 employés dont 5800 à l’INSEE
 Une organisation ternaire:

 Le Conseil national de l'information statistique (Cnis) assure en


amont la concertation entre ses producteurs et ses utilisateurs.

 Le service statistique public (Insee et services statistiques


ministériels ) est le moteur dans sa conception, sa production et sa
diffusion.

 L'Autorité de la statistique publique veille au respect des


principes d'indépendance professionnelle, d'impartialité, d'objectivité,
de pertinence et de qualité dans son élaboration et sa diffusion.

3
un secteur privé qui ne connait pas
la crise

 Près de 400 instituts d’étude de marché et


d’opinion identifiés en France
 Marché estimé de 2 milliards d'euros en
2010
 Environ 12 000 personnes, hors enquêteurs

4
5
 L’opinion: une faible part de l’activité des
instituts

Source: rapport Portelli-Sueur, Sénat

6
7
Une histoire récente

1895 – Kiaer, dénombrements représentatifs


1925 – Jensen,
1934 – Neyman: la théorie
1936 – Election de Roosevelt
1938 – Fondation de l’IFOP
1952 – Horvitz et Thompson, Sondages à
probabilités inégales
1965 – Ballottage De Gaulle

8
LES TECHNIQUES DE SONDAGE

 Problèmes essentiels:
 Sélection de l’échantillon;
 Agrégation des réponses
estimateur;
précision;

9
Les principales étapes

source: P.Ardilly

10
LES TECHNIQUES DE SONDAGE

 Méthodes aléatoires:

Plans de sondage

 Simples: - à probabilités égales


- à probabilités inégales

 Complexes: - stratifié
- en grappe
- plusieurs degrés

11
LES TECHNIQUES DE SONDAGE
 Méthodes par choix raisonné ou judicieux:
 Quotas;
 Itinéraires;
 Unités – types;
 Volontariat;
 Échantillonnage sur place;

12
13
Représentativité

14
Représentativité

 Notion peu scientifique


 Souvent confondue avec le respect de certaines
proportions (modèle réduit)
 Un sondage à probabilités inégales , un sondage
stratifié ou à plusieurs degrés peuvent être
représentatifs en un autre sens:
 Sondage extrapolable : probabilités d’inclusion
connues et non nulles

15
Fluctuations et biais
 Fluctuations d’échantillonnage : avec les mêmes
probabilités d’inclusion, répéter q fois un sondage
donnera q résultats différents

Y y1 , y2 ,..., yq

 Sans biais: si la moyenne des moyennes de tous les


échantillons possibles est égale à la moyenne de la
population (pas d’écart systématique)
16
SONDAGE ALEATOIRE SIMPLE
 Notations:
 Population ou base de sondage: N
 Identifiant: i
 Variable d’intérêt: Y (Y1, Y2……YN)
N
T   Yi
N
1
Y=
N
i=1
Yi ;
i 1

N
1 N 2

N
1
  (Yi Y) ;
2 2
S
2
(Yi Y) 
2

N i1 N1 i1 N1
17
SONDAGE ALÉATOIRE SIMPLE

 Définition: tirage équiprobable sans remise de n


unités;
n
 Taux de sondage: 
N
 C échantillons possibles;
n
N
N
  i probabilité d’inclusion (plan de taille fixe): 
i 1
i n
n
 Équiprobabilité: i  
N
 Remarque:  i
  p( s)
s (is )

18
SONDAGE ALÉATOIRE SIMPLE

 Estimation du total et de la moyenne:


y - estimateur de Y
N y - estimateur de T
E( y)  Y ; E ( N y )  T
 Démonstration avec les variables de Cornfield
1 si i  s E ( i )   i
i  
 0 si i  s V ( i )   i (1   i ) cov( i ;  j )   ij   i j

N y N
Yi yi=variable aléatoire;

n is
yi T    i
 i

is i i1 i Yi= variable non aléatoire


N N
Yi
E(T )   E(i )  Yi  T
i 1 i i 1 19
SONDAGE ALEATOIRE SIMPLE

 Covariance entre variables de Cornfield


cov( i ;  j )   ij   i j   ij   2
CNn 22 n(n  1) n 1
 ij   p( s)  n  
si , js CN N ( N  1) N 1
 (1   )
cov( i ;  j )  
N 1
 Variance de la moyenne
1 N  1 N 2 
V ( y )  V   Yi i   2   Yi V ( i )   YY i j cov(  i ;  j 
)
 n i 1  n  i 1 i j 
 (1   )  N 2 YYi j   (1   ) 2 S2
   Yi    NS  (1   )
n 2
 i 1 i j N  1 n 2
n
20
SONDAGE ALÉATOIRE SIMPLE

 Variances:
S2
V ( y )  (1   )
n
2
S
V (Tˆ )  N (1   )
2

n
Estimation de S2:
1
s2  
n  1 is
( yi  y)2

E(s2 )  S 2
 s2
V ( y )  (1   ) n



2
s
V (T )  N (1   ) n
ˆ 2

21
SONDAGE ALÉATOIRE SIMPLE

 Intervalles de confiance pour un paramètre


d’intérêt (« fourchette »)
 Intervalle ayant une probabilité 1- (niveau de
confiance) de contenir la vraie valeur du paramètre. 
risque d’erreur, généralement partagé de façon
symétrique /2 et /2
 Nécessite de connaitre au moins approximativement la
distribution de probabilité de l’estimateur
 La longueur de l’intervalle diminue avec n et augmente
avec le niveau de confiance et avec la variance de
l’estimateur (elle-même fonction de la variance de la
population)

22
Le théorème « central limite »

 La moyenne d’un échantillon de n observations


indépendantes issues d’une population de
moyenne  et d’écart-type  converge si n
augmente vers une loi normale:

N (; )
n
 Illustration animée:
 http://www.vias.org/simulations/simusoft_cenliit.html
Cenlimit.exe
 n>30 est souvent suffisant

23
Intervalle de confiance
théorique pour une moyenne

 Tirages indépendants (avec remise) et n>30


 
y  u /2  Y  y  u /2
n n
pour   5% u /2  2

 Tirages sans remise


 On pourra admettre que:
S S
y  u / 2 1    Y  y  u / 2 1
n n

 Si le taux de sondage est faible la précision ne dépend pas


de N
24
Intervalles de confiance estimés à
95%

 Pour une moyenne:


1 1
y2s Y  y2s
n n

 Pour un pourcentage:
1
y  pˆ fréquence observée Yi   Yp
0
p(1 p) N pˆ(1 pˆ ) pˆ(1 pˆ)
V( pˆ)  (1 ) V ( pˆ)  (1 )  si  faible
n N 1 n 1 n

pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  2  p  pˆ  2
n n 25
Calculs de taille d’échantillon

 Pour une précision fixée


1 1
  2S d'où n  N
n N 2
1
4S 2

 Nécessite de connaitre S !

26
Pour une proportion

 Si n grand et  faible
p(1  p) 4 p(1  p)
2 d'où n =
n 2

 Utile si on connait approximativement p a priori

Ardilly, 2006

Ardilly, 2006

27
 Solution prudente (ou pessimiste)
Se placer dans le cas p=0.50
avec =0.05 1
n
2
28
 Pour  fort , dans le cas p=0.50 avec un
niveau de confiance de 95%:

N
n
1 N 2

29
 Précision absolue ou précision relative?
 Pour une population rare, on aboutit à une taille
d’échantillon souvent excessive
 Viser un /p change tout
 Compromis à faire quand il y a plusieurs
variables d’intérêt
 Attention aux non-réponses: la précision
dépend du nombre de répondants

30
SONDAGE A PROBABILITÉS INÉGALES

 Les plans simples équiprobables ne sont utilisés qu’en


l’absence de toute autre information
 Tirage à probabilités inégales: une manière d’utiliser de
l’information auxiliaire
 Infinité de plans à probabilités inégales et sans remise

31
SONDAGE A PROBABILITÉS INÉGALES
 Estimateur de Horvitz-Thompson ou des valeurs
dilatées pour un total:
N
T  ai yi aY
i ii
is i 1
N N
E(T )  aY
i i E(i )  aiiY i
i1 i1
N
Pour que T soit sans biais: E(T )  Y i
i 1
aii 1 32
SONDAGE A PROBABILITÉS INÉGALES

Théorème:
yi
T 
 est le seul estimateur linéaire sans biais
is  i

de T

 1 yi
Pour une moyenne Y Y 
N

i s i

33
SONDAGE A PROBABILITÉS INÉGALES
Exemple (Ardilly) : nombre d’habitants Y inconnu, nombre de logements X connu.
Estimation du nombre moyen d’habitants par tirage à probabilités
proportionnelles au nombre de logements

34
SONDAGE A PROBABILITÉS INÉGALES
Echantillons de deux communes:

35
SONDAGE A PROBABILITÉS INÉGALES
 Si N est inconnu:
N
N  1
i 1
 L’estimateur de N est donc:
1
N 
ˆ
is i
 D’où:
1
E ( )N
is i
36
SONDAGE A PROBABILITÉS INÉGALES
 Estimateur de Hajek:
1
 1  yi
ˆ
Y    
 i 
 
 i s i s i

 Poids aléatoires de somme 1.


 Estimateur légèrement biaisé

37
SONDAGE A PROBABILITÉS INÉGALES

 Un cas gênant:

Yi  C
y  1 Yi C 1
  
N is  i N is  i
1 y  C
Comme 
is
N alors
i

 Mais: E(y)  C
38
SONDAGE A PROBABILITÉS INÉGALES

 Variance:
Yi2
Yi Yj
i j 
N N
V(T )   1i    
i1 i i j  i j
ij

si n fixe formule de Yates-Grundy :


2
1  Yi Yj 
V(T)      i j ij 
N

 
2 i j  i  j 

39
SONDAGE A PROBABILITÉS INÉGALES
 Estimation de la variance (par Horvitz-Thomson):

Première formule:
ˆ 2 1i
i j 
V(T)  yi 2  yi yj i j
peut être < 0
is i i j s 
i jij

Deuxième formule:
2
ˆ 1  yi yj  i j ij
V(T)    
2 i, js  i  j  ij
40
SONDAGE A PROBABILITÉS INÉGALES

 La formule de Yates Grundy montre que


l’on a intérêt à tirer proportionnellement
aux valeurs d’une variable auxiliaire X
corrélée (positivement!) à Y.
 Intéressant en cas d’effet taille (CA, nb
d’employés, bénéfice…)

41
SONDAGE A PROBABILITÉS INÉGALES

 Calcul des probabilités d’inclusion


 nxi
i  N

x
i 1
i

 Exemple: tirage de 3 individus parmi 6


proportionnellement à
x1=300 x2=90 x3=70 x4=50 x5=20 x6=20

42
SONDAGE A PROBABILITÉS INÉGALES

 Unités sélectionnées d’office et unités


tirées au hasard.
 Infinité de plans de sondage pour des  i
fixés.

43
Sondage systématique à probabilités
inégales

 On cumule pour tous les individus les probabilités


d'inclusion:
 Vk = 1+ 2 + ...+ k
 On génére une seule réalisation u de la loi U[0,1[
 On sélectionne k tel que Vk-1  u < V k
 puis i tel queVi-1  u + 1 < Vi
 puis j tel que Vj-1  u + 2 < Vj
 etc ... on obtient in fine n individus

44
 Simplicité
 Inconvénients:
 certaines probabilités d’inclusion d’ordre 2
peuvent être nulles
 Dépend de l’ordre du fichier
 Tri aléatoire avant tirage?

45
NOMBRES ALEATOIRES et
PSEUDO-ALEATOIRES
G.Saporta, P.Périé et S.Rousseau, octobre 2011

 Utiles pour réaliser des tirages et simuler des


phénomènes aléatoires
 Nombres aléatoires: suite de réalisations
indépendantes d’une variable uniforme sur [0;1]
 Peuvent être obtenus par des procédés physiques:
 roues de loterie,
 éclairage à intervalles irréguliers d'un disque divisé en 10
secteurs isométriques et numérotés de 0 à 9 : table de
Kendall et Babington Smith

46
Nombres pseudo aléatoires
 Procédés déterministes mais fournissant
une suite de nombres en apparence iid sur
[0; 1]
 Suites mathématiques
 décimales de , des tables de logarithmes
 Procédés arithmétiques
 Milieu du carré de Von Neumann (1946)

47
 On part d'un nombre entier
 On l’élève au carré
 On extrait les chiffres du centre comme nombres aléatoires.

 Exemple : x0 = 7534
(7534)2 = 56 7611 56
(7611)2 = 57 9273 21
(9273)2 = 85 9885 29
(9885)2 = 97 7132 25
....
 d'où la suite 7611 9273 9885 7132
 Inconvénients majeurs : dépendance au nombre de départ et
régularités nombreuses (permanence de 0 ou de séries
particulières).

48
 Méthodes de congruence
Elles reposent sur des suites récurrentes :

 choix arbitraire d’un entier x 0 appelé germe (ou seed ou graine)


 génération d’une séquence (x1 ,..., xn ) d’entiers :
Xi+1 =a xi +b (modulo m) pour i = 1, ..., n ,
où a, b et m sont des entiers appelés respectivement multiplicateur,
incrément et modulo.

On vérifie : 0< xi < m pour i 1, ..., n .


xi
 Intérêt : les nombres u1 ...,un où u
m
forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si
les entiers a, b et m sont « bien » choisis.

Intuition de l’horloge : les heures


9h et 21 sont Congrues modulo 12
49
 Le procédé étant déterministe, ces nombres sont
dits pseudo-aléatoires.
 Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25
x0 = 1 x1 = 6 [25] = 6 x2 = 36[25] =11
x3 = 66[25] = 16 x4 = 21 x5 = 1 = x0
Ce cycle a pour longueur 5.
 Remarque :
 La séquence xi i=1,...,n contient au plus m
termes distincts.
 Cette suite est donc périodique de période p
avec p m Si p = m, la période est dite pleine.

50
 Choix des entiers a, b et m :
Ils sont déterminés de telle sorte que la séquence ait les
meilleures propriétés possibles.
En particulier, m est pris aussi grand que possible pour
assurer une grande variété de valeurs dans la suite xi
 Hull et Dobell (1962) ont montré que les séquences de
période pleine sont obtenues si et seulement si :
 b et m sont premiers entre eux,
 (a-1) est un multiple de chaque nombre premier qui divise m
 si m est un multiple de 4 alors (a-1) aussi

Un algorithme très usité est la méthode congruentielle de


Lehmer (1948) qui pose b = 0.

51
 Méthode de Lehmer :
xi+1=axi (m)
(Sur machines 32 bits m aussi grand que possible  m=231-1)
choix classiques:
 a=75 =16807 m=231-1
 a= 216+3=65539 m=231-1
 a=279470273 m=4294967291

Remarque : a= 216+3=65539 m=231-1 : RANDU


(introduit dans les années 1960, sur des machines IBM. Il est très
impopulaire car il possède de nombreux biais auxquels ont dû faire face les
personnes qui l'ont utilisé).

52
 RANDU

 a= 216+3=65539 m=231-1
 m = 216 + 3  m²=6m-9 mod 231
 Pb : trois nombres successifs Xn Xn + 1 et Xn + 2 vérifient toujours la
relation Xn + 2= 6Xn + 1 -9 Xn

 Cette relation donne un caractère ‘prédictif’ à la série pseaudo aléatoire: par


exemple, une modification des valeurs de Xn et Xn + 1 de l'ordre de 0,01,
change la valeur de Xn + 2 d'au plus 0,15.

 Pour avoir un "bon" générateur, on souhaite une relation avec des


coefficients beaucoup plus grands, de telle manière qu'une petite
modification de Xn et Xn + 1 change complètement Xn + 2

53
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file

http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file

54
 Solutions variées: congruences avec retard
xi = a xi -r +b [m]
 Exemple: ri+1 =(1664525ri+1013904223) m = 232
(Numerical Recipes in C )

 Nombreux tests pour valider le caractère


uniforme et l’indépendance des
réalisations
 Chi-deux, Kolmogorov, tests de séquences, de non
corrélation

55
estimation de 

 http://www-
sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION00033120000000
000000

56
Calcul d’intégrales: méthode de Monte Carlo

 Première méthode : 1
on simule n valeurs de U I 
0
g (t )dt  E ( g (U ))

n
1
Iˆ   g (ui )
n i 1
 Deuxième méthode: fonction d’importance
T variable sur [0 ;1] de densité p(t)

n
1 g (t )  g (T )  ˆI   g (ti )
1
I  p (t )dt  E   n i 1 p (ti )
0 p (t )  p (T ) 
57
Générateurs pseudo-aléatoires
cryptographiques

 Doivent être capable de produire des séries dont le


caractère pseudo aléatoire est moins discernable pour
mériter ce titre
 … Mais plus lents

 Un générateur congruenciel rapide et possédant de


bonnes propriétés : Mersenne Twister (1997)
 Mais n’est pas considéré comme générateur
cryptographique
 Utilisé dans SPSS à partir de la version 12

58
ALGORITHMES DE TIRAGE
 Qualités souhaitées:
 Sans remise
 Séquentiel
 Rapide
 Respecte les probabilités d’inclusion
 De taille fixe
 Utilisable si N est inconnu
 Etc.

59
Une méthode inefficace : énumération puis
sélection
(Yves Tillé, ‘Sampling Algorithms’ p 31)

Si le plan de sondage est connu, et que la population n’est par trop
large, une méthode pour sélectionner un échantillon est l’approche
énumérative : énumérer tous les échantillons possibles, puis en
sélectionner 1 au hasard.
… méthode pure et simple conceptuellement mais impossible dès que
la population dépasse quelques dizaines

 L’objectif des algorithmes de tirage est de tirer un échantillon en


respectant le plan de sondage et en évitant une énumération complète
au préalable

60
Classes de méthodes (Yves Tillé pp 32 – 39)

 Martingales
 Algorithmes séquentiels
 Sélection pas à pas
 Par élimination
 Sondages réjectifs

61
Notion d’entropie

On montre aisément que I(p) est toujours positif.

Plus l’entropie est élevée, plus le plan de sondage est en un certain


cas aléatoire

A défaut d’information auxiliaire, on peut chercher le plan le plus


aléatoire (au sens de l’entropie) qui vérifie les probabilités d’inclusion
fixées

62
Plans à probabilités égales sans remise

63
Plans à probabilités égales sans remise

 Tirage de Bernoulli:
on tire N nombres aléatoires. L’unité i est retenue si Ui< .

64
 Tirage de Bernoulli

65
 Tri aléatoire

66
 Sélection-rejet
si U1<n/N on prend l’unité 1. Puis n=n-1 et N=N-1. On sélectionne
l’unité 2 si U2<n-1/N-1
Si U1>n/N, on passe à l’unité 2 avec N=N-1. On sélectionne l’unité
2 si U2<n/N-1 etc.

j= nb d’unités
déjà sélectionnées

67
 Méthode de mise à jour de l’échantillon

68
69
 Pas aléatoires
Tirer U et trouver s tel que
CNn  s 1
U  1
CNn
sélectionner l’unité s+1, faire N=N-s-1 et n=n-1 etc.

 et aussi le tirage systématique…

70
 Tirage systématique
 Définir un pas de tirage = N/n (entier par arrondi)
 Tirer une unité au hasard au début du fichier entre 1
et pas
 Sélectionner une unité tous les pas

 Avantages: simplicité, N pas nécessairement connu a


priori, peut être plus efficace que le tirage aléatoire si
le fichier est trié selon une variable bien corrélée à la
variable d’intérêt (cf cours sur le sondage en grappes)

71
 Inconvénients
 Si périodicité dans le fichier (Ardilly)

72
Probabilités inégales sans remise
 Infinité de plans de sondage pour des  i fixés
 Plus de 50 méthodes de tirage! Aucune ne satisfait tous les
critères.
 Quelques techniques simples:
 Tirage avec remise et conservation des unités distinctes mais
taille non fixe
 Rejet de l’échantillon si il y a des doublons mais proba
d’inclusion non proportionnelles aux xi

73
 Tirage successif sans remise:
 Onrecalcule les probas d’inclusion après tirage de
i
chaque individu. Si j est tiré:  '

1
i
j

 Ne respecte pas les probas d’inclusion d’ordre 1


 Tirage poissonnien: sélectionner i si Ui<i
 ij=i j variance simple
 Mais taille non fixe

74
Tirage poissonnien (S.Rousseau, 2004)

75
 Méthode de Sunter (généralisation de la méthode de
sélection-rejet)

76
77
 Méthode RHC (Rao, Hartley,Cochran)

 Pour un tirage à probabilités proportionnelles à la


taille X
 Trier les unités dans un ordre alétaoire
 Tronçonner le fichier en n groupes successifs de N/n
unités
 Tirer dans chaque groupe une unité
proportionnellement à la taille

 Simple et performant
 Remarque: procédé « inexactement proportionnel à la
taille » car les groupes ne sont pas de même taille

78
SONDAGES STRATIFIES

Gilbert Saporta, Philippe Périé (IPSOS)

79
Information auxiliaire

80
STRATIFICATION
 Idée :
 S’il existe dans la base de sondage un critère permettant de
distinguer a priori entre eux les individus, on aura tout à gagner
à utiliser cette information pour répartir l’échantillon dans
chaque sous-population.

 C’est le principe de la stratification: découper la population en


sous ensembles homogènes appelés strates et réaliser un
sondage dans chacune d’elles.

 La stratification a pour objectifs de pour objectif de


diminuer la variance, augmenter la précision

81
Intuition
Dans un sondage aléatoire simple, toutes les combinaisons de n
éléments parmi N sont possibles avec la même probabilité.
Or, il arrive que certaines d’entre elles puissent s’avérer a priori
indésirables
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Recensement des résultats possibles n=2

Par exemple, parmi ces échantillons de 2 unités, on trouve les cas


extrêmes (13, 15) et (25, 30) qui sont particulièrement « mauvais ».
S’il existe dans la base de sondage un critère permettant de distinguer a
priori les catégories des petits et gros clients, on aura tout à gagner à
utiliser cette information pour répartir l’échantillon dans chaque sous- 82
population.
Intuition
Le principe de la stratification :
Découper la population en sous-ensembles appelés strates et réaliser
un sondage dans chacune d’elles : on espère ainsi exclure les
échantillons extrêmes, et - plus généralement – améliorer la précision
des estimateurs
(On a vu qu’à taille égale un échantillon est plus efficace dans une population
homogène que dans une population hétérogène. Plus précisément, l’erreur
type d’estimation est lié à la variance du caractère étudié dans la population.)
Chaque sondage partiel s’effectuera ainsi de façon plus efficace et
l’assemblage de sondages partiels plus précis donnera des résultats
plus fiables qu’un sondage de même taille effectué « en vrac »
La plupart des fois la stratification correspond par ailleurs à un objectif
de réduction des coûts d’enquête ou d’optimisation de sa gestion
C’est en particulier le cas lorsque l’on utilise un critère de découpage
géographique comme la région, ou, dans les échantillon d’entreprise, un critère
sectoriel permettant de spécialiser les enquêteurs 83
Intuition
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)

L’unité échantillonnée dans la première strate est désignée pour en représenter trois,
celle de la deuxième strate vaut pour deux. Il convient donc de pondérer chaque
valeur par le poids de la strate dont elle est issue
3 2
ymoy  y1  y2
5 5
On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 20.
Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance mathématique et 84
qu’elle est donc un estimateur sans biais pour ce paramètre.
Intuition
N=5
Variable d’intérêt Y {13 15 17 25 30} dépôt en k€
Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)

On remarque également que la plage des estimations est beaucoup plus


resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont
moins éloignées, l’erreur type (c’est-à-dire la racine carrée de la variance des six
valeurs) vaut 1,40 au lieu de 3,95.

85
STRATIFICATION
Déterminer des strates les plus homogènes possibles, par rapport au
sujet étudié.

2 types de considérations vont conduire au choix des critères de


stratification :
1. disponibilité des critères dans la base de sondage ;
2. pertinence des différents critères pour créer des strates
homogènes.

Ceci nécessite une connaissance


• soit intuitive,
• soit venant d’études réalisées antérieurement.

86
STRATIFICATION PH

 Utilisation d’une P2

S2
kj
S1
information auxiliaire P1

qualitative
 Toujours efficace

87
STRATIFICATION, notations PH

 Strates: P2 kj
N 1 , N 2 ......N h .......N H NNh P1
S1 S2

Nh
Y1 , Y 2 .......Y h .......Y H Y   N
Yh

   h  Yh Y 
Nh 2 Nh 2
 , .... .....H
1
2
2
2
h
2 2 2

N N

 Échantillon:
n1,n2,.........nh,...........nH n nh
nh
y1,y2,........yh,...........yH y   yh
n
ˆ12,ˆ22,.....ˆh2............ˆH2 88
STRATIFICATION

   h   Yh Y  2W 2B


2 Nh 2 Nh 2

N N

Variance totale=
moyenne des variances (variance intra)
+variance des moyennes (variance inter)

89
STRATIFICATION
 Pour la suite, on se placera dans le cas d’un
tirage aléatoire simple sans remise, à
l’intérieur de chaque strate.

90
STRATIFICATION

 Estimateur sans biais de Y (Horvitz Thomson)


Nh
Ystr  
ˆ yh
N
 Variance:
2 2
 N  H
 N   2
h Nh  nh
V (Ystr )    V ( yh )   
ˆ h h

N h1  N  nh Nh 1

1 H Sh2
 2 Nh (Nh  nh )
N h1 nh
91
STRATIFICATION, répartition
proportionnelle

 Échantillon dit « représentatif »:


nh Nh nh n
  h   
n N Nh N

 Taux de sondage constant dans chaque


strate
H H
N nh
Ystr   yh   yh  y  Yˆprop
ˆ h

h 1 N h 1 n

92
STRATIFICATION, répartition
proportionnelle
 variance :
2
1 H
S 1 H
Nh  nh
V (Yprop )  2  Nh ( Nh  nh )
ˆ h
 2 Nh Sh2
N h1 nh N h1 nh
1 H Nh 1 H
N N  n H
Nh 2
 2 (  1)Nh Sh  2 (  1)Nh Sh 
2 2
 Sh
N h1 nh N h1 n nN h1 N
 Si Nh est grand:

N  n H
N N  n H
N N  n  2
V (Yˆprop )   h nN 
nN h1 N
h
S 2

h1 N
h
 h
2

N n
w

93
STRATIFICATION, répartition
proportionnelle

 Variance de l’estimateur du SAS sans remise:


n S2 N  n S2 N n2
V ( y )  (1  )  
N n N n N n

 Avec les mêmes probabilités d’inclusion d’ordre 1,


l’échantillon stratifié représentatif est plus efficace
qu’un échantillon simple de même taille dès que
les Y h sont différents.

94
STRATIFICATION optimale
 Répartition optimale:
 1 N h  N h  nh  2
V (Ystr )  2
N
 nh
Sh

Nh
avec Sh 2
  h2
Nh 1

ch – coût unitaire d’une observation


 N h N h  nh S
 m in 
2
h
 nh

  nhch  c0
Nh 2 2
n h 
S 


N

S

h h
2
95
h
fixe
STRATIFICATION optimale
 Solution:

N h2 S h2 proportionnel à ch
n h2
nh Sh

Nh ch

Si ch constant:
N h Sh
nh  n - Répartition de Neyman
 N h Sh 96
STRATIFICATION optimale
 Cette répartition utilise un taux de sondage f
proportionnel à la dispersion Sh de X étudiée
dans chaque strate.
 Plus une strate est hétérogène vis-à-vis de la
variable étudiée, plus on utilise un taux de
sondage important.
 La théorie montre que cette répartition est celle
qui fournit la variance la plus faible une fois les
strates déterminées.

97
STRATIFICATION optimale
 Remarquons que l’échantillon de Neyman
dépend du caractère que l’on veut estimer en
priorité. C’est pour ce caractère que l’on prendra
la variance en considération.
 En général, celle-ci ne sera pas connue a priori.
Elle pourra être estimée à partir d’une enquête
antérieure ou d’études limitées.

98
STRATIFICATION

 Exemple n° 1: présondage de 155 unités


Strates 1 2 3 4

Nh 3750 3272 1387 2475 10 884

nh 50 45 30 30 155

yh 12.6 14.5 18.6 13.8

ˆ h 2 2.8 2.9 4.8 3.2

99
STRATIFICATION
 Exemple n° 1:
  Nh  3750x12.6  .....  2475x13.8
Y    yh   14.21
 N  10884
 
 Nh   h
2 2

Vˆ ( Y )    
 N  nh
 0 .0 2 0 5 9  (0 .1 4 ) 2

Intervalle de confiance à 95% pour Y :

14.21 2x0.14 soit: 13.93  Y 


Pour T: 154662  3047 100
STRATIFICATION
 Exemple n° 1:
2
Nh 2 Nh
    h   Yh Y 
2

N N
Yˆ 2
n
On estime: 2h par h  h
str

n h 1

Y h par y h

Y par Yˆstr
  6.06   2.46 
 2 2
101
STRATIFICATION
 Suite: Répartition de Neyman pour n=1000:
N1S1 = 6275 n1 = 1000 x 6275/19 312 = 325
N2S2 = 5572 n2 = 288
N3S3 = 3038 n3 = 157
N4S4 = 4427 n4 = 229
19 312
1 Nh  Nh nh  2
Variance: 2  Sh  0.0029   0.0542
2

N nh
Y connu à + 2 x 0.0542 soit + 0.108
T connu à + 1179 102
STRATIFICATION

 Échantillon simple à 1000:


2 N n
  0.0055   0.0742
2

n N 1
Y connu à + 0.15; T connu à + 1615
 Échantillon stratifié représentatif:
n1 = 345
n2 = 301
n3 = 127
n4 = 227
103
STRATIFICATION

 Estimation d’une proportion p


 Même démarche: une proportion est une
moyenne particulière
H
Nh
pˆ str   fh
h 1 N
 N h  ph (1  ph ) N h  nh
H 2

V ( pstr )   
ˆ 
h 1  N  nh Nh  1
N h  f h (1  f h )  nh 
2
H

V ( pˆ str )   
ˆ
 1  
h 1  N  nh  N h 
104
STRATIFICATION
 Comment stratifier?
 Remarque préalable: dans un sondage à probabilité
inégale i proportionnel à Yi annule la variance.

Nombre de strates: le maximum mais…

Limitesde strates optimales:


méthode de Dalenius et Hodges. Regrouper des
classes selon le cumul de la racine des effectifs

105
STRATIFICATION

Répartition dans les strates:


Si Sh inconnu : répartition proportionnelle
Si Sh connu: Neyman
Sh
 Sinon, hypothèse fréquente  c d’où nh
Y h
proportionnel à la somme de la variable étudiée ou
d’une variable corrélée.
Exemple: échantillon d’entreprises proportionnel au CA
ou à l’effectif de la strate.

106
STRATIFICATION
 Variable de stratification: en théorie Y;
sinon, variable bien corrélée avec Y.

 En pratique quand il y a plusieurs


variables d’intérêt et une variable de
stratification, on utilise la répartition
proportionnelle

107
Exemples
Enquêtes INSEE auprès des entreprises, sondages B2B en
institut.

« Le plan de sondage des enquêtes de l'INSEE auprès des


entreprises est en général un plan de sondage stratifié
avec un sondage aléatoire simple sans remise dans chaque
strate. »

108
Exemples
Indice des prix
http://www.insee.fr/fr/methodes/default.asp?page=sources/ope-ipc.htm

« Le plan de sondage est stratifié selon trois types de critères :

- critère géographique : les relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants
dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ;

- type de produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est
défini pour tenir compte de l'hétérogénéité des produits au sein des postes. La variété est le niveau
de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et
l'IPC n'est pas diffusé à ce niveau ;

- type de point de vente : un échantillon de 27 000 points de vente, stratifié par forme de vente, a été
constitué pour représenter la diversité des produits et modes d'achat des consommateurs et prendre
en compte des variations de prix différenciées selon les formes de vente.

Le croisement de ces différents critères aboutit à suivre un peu plus de 140 000 séries (produits précis
dans un point de vente donné) donnant lieu à près de 160 000 relevés mensuels. »

109
Taille des strates
Autres considérations
 Dans la pratique, d’autres considérations que la précision
optimale peuvent guider l’allocation dans les strates,
comme la nécessité d’avoir des bases de lectures
suffisantes sur chaque strate

 L’étude d’audience de la presse ‘Audipresse ONE’ part d’une


répartition géographique proportionnelle, à partir de laquelle on
impose des seuils minimaux dans chaque département.

 Citons aussi le type d’abonnement pour le secteur des télécoms, les


classes d’ancienneté, les canaux de recrutement des client pour les
études de satisfaction, ….

110
SONDAGE A DEUX DEGRÉS
Population découpée en sous-populations dites
unités primaires
Définition: tirage de m unités primaires puis de ni
unités secondaires
Avantages:
 frais de déplacement réduits
 absence de liste autorisée
Mais:
 précision moindre: effet de grappe.
 Taille d’échantillon en général aléatoire

111
SONDAGE A DEUX DEGRÉS
 M unités primaires de taille Ni
Ni
Ti   Y i j - total de l’UP n°i
M
N   N i
i 1 j 1

Tirage aléatoire simple à chaque degré.


M  Ni 
T 
m
 
is  ni
 yij 
jSi 
Remarque: inutile de connaître N pour estimer T.

2  n i  S 2 ,i
 
2
2  m  S 12 M
V 
T  M 1 



  N i 1  
M
     m m
      i  n
N
i
V a r ia n c e V a r ia n c e
in t e r in t r a
UP UP
2 2

S1 
2 1 M

M 1 i1
Ti T   S2,i 
2 1 Ni

Ni 1 i1
Yij  Y i  112
SONDAGE A DEUX DEGRÉS
2
S12 estimé par 1   T 
m
si m>1
 s1 
2
 Ti  
m1 i1  M

 idem pour S22,i

 Si ni proportionnel à Ni: taille d’échantillon aléatoire

Ni Ni N i m n0m
ni  n0 E ( ns )  E (  n0 )   n0 
N iSi N kU i N M M

113
SONDAGE A DEUX DEGRÉS

 Sondage autopondéré:
- m unités primaires tirées à probabilités proportionnelles à
leur taille
- tirage d’échantillons de taille fixe n0
 probabilités d’inclusion constantes
Nj n0 mn0
i  m 
N Nj N
 Estimateur de la moyenne: N peut être inconnu

Yˆ  y

114
SONDAGES A DEUX DEGRÉS
Comment améliorer la précision ?

 Avant tout, construire des UP le plus


ressemblantes possible entre elles pour limiter
les effets de grappes.
 Exemple : l’unité ménage est intéressante pour
estimer des variables comme le sexe, l’activité, l’âge,
etc, mais elle est moins efficace pour étudier le
niveau d'instruction, la CS , etc.
 Privilégier le nombre d'UP enquêtées plutôt que
le nombre d'US
 Tirer les UP à probabilités inégales
 Stratifier au niveau des UP
115
CAS PARTICULIER: SONDAGE EN
GRAPPES
Définition: toutes les US sont observées dans les
UP tirées.

« Recensement » au deuxième degré


Le tirage systématique est un tirage d’une grappe.

116
SONDAGE EN GRAPPES
 Cas général :tirage de grappes à probabilités
inégales
m
Ti
 Estimation du total: T 
ˆ
i 1 i

 1 m NiYi
 Estimation d’une moyenne Y 
N i 1  i
pb si N inconnu: utiliser l’estimateur de Hajek
m
NiYi


i 1 i
YHajek  m
Ni

i 1
117
i
SONDAGE EN GRAPPES
 Tirage de grappes à probabilités égales
m
i 
M
 taille d’échantillon aléatoire

m Nm
E (ns )  E ( N i )   Ni 
iSi kU i M M

Estimation
 M 1 m

 2 m S Y 
2
M 

T 
m
T
i s
i
V T M 1 
 M m
1
m N i1
NY
i i

118
SONDAGE EN GRAPPES
 Tirage de grappes à probabilités
proportionnelles à la taille

 1 m
Y  Y i
N
i  m i
N
m i 1

 1 m
Ni  2
V (Y ) 
ˆ 
m(m 1) i 1
(1  m
N
)(Yi  Y )

Ni m m M 2
E (ns )  E ( N i )   N i   Ni
iSi iU i N N i 1
119
SONDAGE EN GRAPPES
conseils pratiques

 Faire des grappes homogènes en inter et


hétérogènes en intra (contraire de la stratification).
 Faire beaucoup de grappes de tailles voisines et
petites
 En tirer un maximum

120
Le tirage systématique

 Très utilisé à la place d’un tirage aléatoire à probabilités


égales
 Soit N multiple de n. Par exemple on veut tirer 10
individus parmi 1000 : on commence par tirer au hasard
un nombre entier entre 1 et 100, si ce nombre est 27, le
premier individu sera le n°27, le deuxième le n°127 etc.
jusqu’au n°927.
 De façon générale si on a tiré un entier h , les individus
sélectionnés ont les numéros : h , h+M, h+2M, …,
h+(n-1)M.
 Tirage d’une seule grappe parmi M=N/n grappes.

121
Le tirage systématique
 L’estimateur de la moyenne est simplement la moyenne de la
grappe sélectionnée et sa variance est


2
M
Y N Y 
V Yˆ  M   i i  
i 1  N M
 Lorsque le fichier se trouve être trié selon un ordre proche de Y, la
variance peut être notablement plus faible que pour le tirage aléatoire
simple. Exemple Yi = i
 Mais la variance n’est pas estimable .
2
1 m   T 
 Voir formule s1 
2
 Ti  
m1 i1  M
 Il est incorrect d’utiliser la variance de l’estimateur du tirage aléatoire
simple sauf si la base de sondage a été triée préalablement au hasard.

122
Tirage systématique: un exemple théorique

Yi=i Population triée par ordre croissant N=Kn

N 1 ( N  1) 2
Y  S2 
2 12
•Tirage équiprobable sans remise :
 n  ( N  1) 2
 1  ( Kn  1) 2
V ( ysr )  1    1  
 N  12n  K  12n

123
• Tirage systématique :
une grappe : h, h+K, h+2K,.., h+(n-1)K
n 1
Yh  h  K
2
•Moyenne
n 1 K 1 n 1 nK  1 N  1
E (Yh )  E (h)  K  K 
2 2 2 2 2

•Variance
ˆ n  1 K 2
1
V (Ysyst )  V (h  K )  V ( h)  V ( h) 
2 12
ˆ
V (Ysyst )  V ( ysr )

Exemple N=20 n=4 V (Yˆsyst )  1.33 V ( ysr )  7.35


124
STA108 Enquêtes et sondages
STA108 Enquêtes et sondages

Redressements

Sylvie Rousseau, Gilbert Saporta, novembre 2011


125
SOMMAIRE

1. Estimateur par le quotient (ou ratio)


2. Estimateur par la régression
3. Estimateur post-stratifié
4. Estimateur du raking-ratio
5. Calage sur marges

126
MÉTHODES DE REDRESSEMENT
OU DE REPONDÉRATION
Principe :
Utiliser a posteriori une information supplémentaire
corrélée avec la variable à étudier
 De sorte à :
oaccroître la précision de l’estimation
oassurer la cohérence des résultats par rapport à
l’information supplémentaire
 Information auxiliaire :
Variables de contrôle dont on connaît :
odes caractéristiques globales,
oou des caractéristiques par classes,
oou les valeurs pour chaque unité de la population 127
ESTIMATEUR PAR LE QUOTIENT
EXEMPLE
• Cadre :
• La variable auxiliaire est quantitative
• On connaît le total (ou la moyenne) de cette variable sur
l’échantillon et sur la population
• On va ajuster l’estimation sur cette grandeur connue
• Exemple :
o On veut estimer le CA moyen d’hypermarchés ( Y )
o On a enquêté 80 hypermarchés
o On sait que le nombre moyen de caisses dans la
population des hypermarchés est X  28
o On relève sur l’échantillon
ˆ ˆ
Y 110,2 k € X  28,8
o L’estimateur par le quotient vaut :
ˆ 28
YQ 110,2 107,1 k€ 128

28,8
ESTIMATEUR PAR LE QUOTIENT
FORMULE GÉNÉRALE
• Principe : règle de 3
ˆ ˆ X
• Formule générale : YQ  Y  ˆ
X
• Hypothèse de proportionnalité
• Biaisé mais négligeable si n>1000
• Gain de précision par rapport à un PESR de même
taille pourvu que l’hypothèse de proportionnalité
soit valide

129
ESTIMATEUR PAR LE QUOTIENT
INTERPRÉTATION GRAPHIQUE

130
ESTIMATEUR PAR LE QUOTIENT
POIDS APRÈS REDRESSEMENT

 Yk  X Y
• On a : Ty    
ˆ et Tˆy   k
Q
ks k  Xˆ kS  k

1 X 1 TX
• Le poids après redressement de k vaut 
k Xˆ k TˆX
1
• Le poids de sondage valait
k

131
ESTIMATEUR PAR LE QUOTIENT
ESPÉRANCE
• Cas général
 Var Xˆ  Cov Xˆ ,Yˆ 
   
 ˆ      
EYQ   Y 1  
   X² X Y 
 
Biais   S2 Sx, y 
  
ˆ  1 1  x 
o Dans le cas d’un PESR de n parmi N : EYQ   Y 1   
    n N  X ² X Y 
  
• Biais en 1/n
• Biais nul si Y et X sont proportionnelles (droite de
régression passant par l’origine)
Cov X,Y 
ˆ ˆ
   Y R i.e.Yk  RXk  uk
Var X  X
ˆ
  Sx, y Y
o Dans le cas d’un PESR :  R 132
Sx2 X
ESTIMATEUR PAR LE QUOTIENT
ESPÉRANCE
ˆ
X X
Développement limité en 0 avec soit X  X1 
 ˆ

X
ˆ Y ˆ
ˆ ˆ ˆ ˆ Y X ˆ ˆ  Y
ˆ ˆX Y.X Y.X Y.X Y.X X Y  RX où R  
YQ Y  Y Y    
X
ˆ
X
ˆ X (1  ) 1  1  X

 ˆ 
 ˆ  ˆ  X  X 
 Y  RX 1   Y  RX  1
ˆ ˆ
    X 
 
  Xˆ  X    Xˆ  X 
 ˆ   ˆ ˆ 
EYQ Y   EY  RX  1  
  EY  RX 
ˆ ˆ  
    X    X 
     

  E(Y.X) Y.X  R.E(X ²) R.X ²


1 ˆ ˆ ˆ
X  
ˆ ˆ
R.Var(X) Cov(X,Y )
 133
X
ESTIMATEUR PAR LE QUOTIENT
ERREUR QUADRATIQUE MOYENNE
2
Cas général : EQMYQ   EYQ Y   VarY  RX 
• ˆ ˆ ˆ ˆ
     
 VarY   2RCov X,Y   R2Var X 
ˆ ˆ ˆ ˆ
     
o Cas d’un PESR de taille n parmi N :
 ˆ   n  S 2
y  2 RS xy  R 2 2
Sx
EQM  YQ   1  
   N n
ˆ
Y
• Estimée par : EˆQMYˆQ   VˆarYˆ   2RˆCˆov Xˆ ,Yˆ   Rˆ 2Vˆar Xˆ  avec Rˆ 
ˆ
        X
o Cas d’un PESR de taille n parmi N :
ˆ 2  2 Rˆ Sˆ  Rˆ 2 Sˆ 2
  S
Eˆ QM  YQ   1  
ˆ n y xy x
   N n
134
ESTIMATEUR PAR LE QUOTIENT
COMPARAISON AVEC UN PESR
• Cas général :
EQM  YQ   Var  Y   2 RCov X , Y   R ²Var  X   0
ˆ ˆ ˆ ˆ ˆ
       
o Cas d’un PESR de taille n parmi N :

EQM  YQ   Var  Y   2 RS xy  R 2 S x2  0
ˆ ˆ
   
S xy R
  ( X et Y positives)
S x2 2
S xy
1Y (b 
b S x2
2 X
pente de la droite de régression de Y sur X )

 L'estimation par la méthode du ratio est efficace si les


variables Y et X sont « à peu près » proportionnelles 135
COMPLÉMENT : ESTIMATION D’UN RATIO

 Exemple : sélection de n fermes d’élevage par PESR et


observation de Xi nombre de vaches et de Yi production
Y
 Rendement par vache : R 
ˆ X
 Estimé par : Rˆ  Y
ˆ
X
 Biaisé
o Rapport de deux variables aléatoires

o Développement limité
 S 2 S x, y 
  
E Rˆ  R  R   x 
1 1 
 n N  X ² X .Y 

136
ESTIMATEUR PAR LA RÉGRESSION
PRINCIPE
• Cadre :
o La variable auxiliaire est quantitative
o On l’observe pour chaque individu de l’échantillon et on en
connaît la vraie moyenne sur la population
o On va ajuster l’estimation sur cette grandeur connue

• Hypothèse : relation affine entre Y et X y  a  bx


• Formule générale :

Yreg  Y  bˆ X  X 
ˆ ˆ ˆ
 
Sˆ xy
avec bˆ  pente estimée de la droite de régression de Y sur X
2

x
137
ESTIMATEUR PAR LA RÉGRESSION
INTERPRÉTATION GRAPHIQUE

138
ESTIMATEUR PAR LA RÉGRESSION
PROPRIÉTÉS
• Biaisé mais biais négligeable pour n assez grand
• Erreur quadratique moyenne dans le cas d’un PESR
2
 n yS
EQMYreg   1   1   ² 
ˆ S xy
avec  
   N n Sx S y

• Estimée par :

ˆ2
 y
S Sˆ xy
EˆQM Yreg   1  
ˆ n
1  ˆ ² avec ˆ 
Sˆ Sˆ
   N n x y

139
ESTIMATEUR PAR LA RÉGRESSION
COMPARAISON
• Meilleur que l’estimateur d’Horvitz-Thompson
EQMYreg   VarYQ   1   ²  0
ˆ ˆ (toujours vrai)
   

• Meilleur que l’estimateur par le quotient


EQMYreg   EQMYQ   S y2 1   ²   S y2  2RSxy  R 2 S x2
ˆ ˆ
    2
S xy
 R 2 S x2   2 RS xy  0
2
Sx
 R 2 S x4  2 RS x2 S xy  S xy
2
0

 
RS x2  S xy 
2
 0 (toujours vrai)
o Si la relation entre X et Y est linéaire et non affine (ordonnée à
l’origine nulle), alors l’estimateur par la régression est égal à 140
l’estimateur par le quotient
ESTIMATEUR POST-STRATIFIÉ
• Cadre :
o La variable auxiliaire est qualitative
o On définit après l'enquête des groupes d'individus, appelés
post-strates.
o On observe les effectifs des post-strates sur l’échantillon
o On connaît la répartition de la population selon ces post-strates
o On va ajuster l’estimation sur cette répartition

• Remarques :
o Les effectifs des post-strates dans l'échantillon ne sont connus
qu'après enquête
o Ils dépendent de l'échantillon choisi : ce sont des variables
aléatoires

141
ESTIMATEUR POST-STRATIFIÉ
1ER EXEMPLE
• On veut estimer le taux de fréquentation des salles de cinéma
• On sait que cette activité est liée à la possession de TV
• On connait le taux d’équipement en TV : ptélé = 80%
• On observe sur un échantillon de taille 1000 choisi par PESR :
Cinéma
Oui Non Total
Télé
Oui 20 680 700 70 % et non 80 % ×8/7
Non 80 220 300 ×2/3
Total 100 900 1000

• Résultats après redressement


Cinéma
Oui Non Total
Télé
Oui 23 777 800
Non 53 147 200 142
Total 76 924 1000
ESTIMATEUR POST-STRATIFIÉ
2ND EXEMPLE
• Enquête concernant les revenus : on observe X=classe d’âge et
Y=revenu
• Résultats observés :
Tranche d’âge ≤ 20 21 - 35 36 - 50 ≥ 50
Proportion
15 % 30 % 30 % 25 %
observée
Vraie proportion 20 % 35 % 30 % 15 %
Revenu moyen
6 000 9 000 15 000 12 000
observé

• Estimateur d’Horvitz-Thompson :
ˆ
Y  6000 0,15  9000 0,3  15000 0,3  12000 0,25  11100
• Estimateur post-stratifié
ˆ
Y post  6000 0,2  9000 0,35  15000 0,3  12000 0,15  10650 143
ESTIMATEUR POST-STRATIFIÉ
PRINCIPE
• Total et moyenne sur la population :
 Nh  H
H H Ty HNh
Ty   yk     yk    Tyh   N hYh Y    Yh
kU h1 k 1  h1 h1 N h1 N

• Estimateurs d’Horvitz-Thompson :
N H H n ˆ
Tˆy  
yk

N
 yk    y k N  h yˆ h ˆ Ty 1
Y    yk
kS k n kS n h 1 kS h h 1 n N n kS

• Estimateurs post-stratifié
H H  1 
Tˆy   N h yh   N h
ˆ   yk 
post
h1 h1
 nh kS 
 h 

H N H N  1 
h
yk 
ˆ
Y post   yh  
h ˆ

h1 N

h1 N  nh kSh 
 144
ESTIMATEUR POST-STRATIFIÉ
POIDS APRÈS REDRESSEMENT

H  1  N
• On a : Ty post   N h   yk  et T̂y   yk
ˆ
h1  nh kSh  n kS

Nh
• Le poids après redressement de k vaut
nh
N
• Le poids de sondage valait
n

145
ESTIMATEUR POST-STRATIFIÉ
ESPÉRANCE
ETˆy   E ETˆ 
 post    y post / nh ,h1,...,H 
  H
 ˆ  H H
ˆ
E T y

   N h EYh / nh , h  1,..., H    N hYh  Ty   Tyh
 post / nh , h 1 ,...,H  h1   h1 h1
nh 0 nh 0
car si nh est fixé, le plan est un PESR
H
 ˆ
E T y 
  Ty   Tyh Pnh  0
 post  h1

• Les effectifs nh peuvent être nuls, d’où le léger biais de


l’estimateur post-stratifié
• Pour l’éviter, définir les post-strates de sorte à vérifier :
Nh
n  30 h  1,..., H
N 146
ESTIMATEUR POST-STRATIFIÉ
VARIANCE
VarTˆy   E VarTˆ   VarETˆ 
 post    y post / nh ,h1,...,H    y post / nh ,h1,...,H 

 
 H 
VarTy   Tyh   0
 h1 
VarTˆy   E VarTˆ   nh 0 
 post    post / nh ,h1,...,H 
y

2
  S
Var  Tˆy    N 2 1  h 
H n yh

 post / nh ,h 1,..., H  h 1 h  N h  nh

 
   H 2 1 1  2  H   1   2
ˆ
Var  T y   E  N     S yh    N h  N h E    1 S yh
 post   
h 1  nh N h   h 1   nh  
h

  147
ESTIMATEUR POST-STRATIFIÉ
VARIANCE
• Calcul de E 1 / nh  par développement limité en 0 avec
nh  1   E nh  
nh 1 1 1
  1 soit 
E nh  nh 1   E nh 
 1 
  E   1
 
1 1
D’où :  n
E   E 1     ²
  E nh  E nh 

 h  1 
 Nh
• Or : nh  H ( n, N , N h ) i.e.  E (nh )  n N

Var (nh )  n N h 1  N h  N  n
 N  N  N 1
• On en déduit :
 1    Nn   Nn 
2
 
E  
N
E 1  1  h  
 1  h    N 1  0  N ²Var (nh ) 
 nN  nN   nN 
h  h    nN h  n ² N h2 
 nh    h

N N ( N  N h ) ( N  n)
 
nN h N h2 n ²( N  1) 148
ESTIMATEUR POST-STRATIFIÉ
VARIANCE
  H   1   2
• On a : ˆ
Var  T y    N h  N h E    1 S yh

 post  h 1   nh  

 1  N N ( N  N h ) ( N  n)
avec E  
 nN 
 nh  h N h2 n ²( N  1)

D’où la variance d’échantillonnage :


   n  1 H Nh 2 N  n 1 H  Nh  2
ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n² h 1  N 

Qu’on estime par :


   n  1 H Nh ˆ 2 N  n 1 H  Nh  ˆ 2
ˆ ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n ² h 1  N 
149
ESTIMATEUR POST-STRATIFIÉ
COMPARAISON
Avec un plan stratifié et des allocations proportionnelles

   n  1 H Nh 2
Var T y prop  N ²1   
ˆ
 N  n h 1 N
S yh

   n  1 H Nh 2 N  n 1 H  Nh  2
ˆ
Var  T y   N ² 1    S yh  N ²  1   S yh
 post   N  n h 1 N N  1 n² h 1  N 
Var  Tˆy 
 post   1  O 1 

ˆ
Var T y prop   
n

Il vaut toujours mieux stratifier a priori que post-stratifier


Lorsque que stratifier a priori n’est pas possible, la post-
stratification peut être intéressante
Pourvu que le critère de post-stratification soit bien lié avec
la variable d’intérêt
150
ESTIMATEUR POST-STRATIFIÉ
CONCLUSION
• Pour avoir une bonne post-stratification :
o Variable auxiliaire bien corrélée avec Y
o n grand
o Grandes post-strates i.e. (N-Nh)/N petit
o Effectifs Nh ou poids des post-strates connus

• Mais :
o Ne pas utiliser que des variables socio-démographiques
o Ne pas multiplier les critères de redressement

151
ESTIMATEUR DU RAKING-RATIO
EXEMPLE
1000 individus ont été interrogés. La répartition par sexe et profession est la suivante

P1 P2 P3 Total
H 300 100 200 600
F 100 150 150 400
Total 400 250 150 1000

Vraies marges 500 et 500 pour le sexe et 350,300, 350 pour la profession.

Une première règle de 3 permet d’obtenir les marges souhaitées pour le sexe : on
multiplie la première ligne par 500/600 et la deuxième ligne par 500/400

P1 P2 P3 Total
H 250 83 167 500
F 125 187.5 187.5 500
Total 375 270.5 354.5 1000

152
ESTIMATEUR DU RAKING-RATIO
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession,
ce qui change les marges en ligne :

P1 P2 P3 Total
H 233 92 165 490
F 117 208 185 510
Total 350 300 350 1000

Puis en ligne :

P1 P2 P3 Total
H 238 94 168 500
F 115 204 181 500
Total 353 298 349 1000

En l’absence de cases vides, l’algorithme converge rapidement et donne les poids de


redressement à appliquer à chaque case. Ainsi à la quatrième itération (très proche du résultat
souhaité) , les 300 individus H et P1 ont chacun un poids de 0.236. La somme des poids de
redressement des 1000 individus vaut 1000.

P1 P2 P3 Total
H 236 95 168 499
F 114 205 182 501 153
Total 350 300 350 1000
GÉNÉRALISATION : CALAGE SUR MARGES
OBJECTIFS
• Améliorer la précision des estimateurs des
paramètres d’intérêt d’une enquête
o Pourvu que les critères de calage soient liés aux
variables d’intérêt
• Assurer la cohérence des résultats avec des
informations synthétiques connues par ailleurs.
Ainsi, après calage, l’échantillon restitue :
o les totaux de variables quantitatives connus sur la
population
o les effectifs de modalités de variables catégorielles
connus sur la population 154
GÉNÉRALISATION : CALAGE SUR MARGES
PRINCIPE

 Re-pondérer les individus échantillonnés en


utilisant une information auxiliaire disponible sur
un certain nombre de variables, appelées
variables de calage
 Cas particuliers : les estimateurs par le ratio, par
la régression, par le raking-ratio

155
CALAGE SUR MARGES
MÉTHODE
Supposons connus les totaux sur la population de J variables
 

auxiliaires TX  Tx1 ,...,Tx j ,...,TxJ
• Pour les caractères catégoriels, les totaux sont les effectifs de chaque
modalité (= totaux des variables indicatrices associées à ces modalités)

• On va tenir compte de cette information pour améliorer


l’estimateur d’Horvitz-Thompson
y 1
Tˆy   k   d k yk (d k   poids de sondage)
kS  k kS k

• En formant un nouvel estimateur


où les nouveaux poids à rechercher : Tˆy,calé   wk yk
o sont « proches » des poids initiaux kS
o vérifient les équations de calage : Tˆx j ,calé   wk x j,k  Tx j j
kS

156
CALAGE SUR MARGES
MÉTHODE
• On choisit une fonction de distance entre le poids initial et le
poids final : G(wk, dk )
• Les poids cherchés sont solutions du problème d'optimisation :
w 
min  wk G k  avec  wk x j,k  Tx j j
wk kS  dk  kS

• Résolution du système non linéaire  d k F x'k    TX


kS
o où F est la fonction réciproque de la dérivée de la fonction G
o et λ un vecteur de multiplicateurs de Lagrange

• Ce système d'équations peut être résolu par la méthode itérative


de Newton
• En pratique, macro SAS CALMAR de l’Insee 157
CALAGE SUR MARGES
FONCTIONS DE DISTANCE
G F  G'1 Type de distance
Khi-deux
1
x 12 1 u
2 Méthode linéaire (1) i.e. estimateur par
la régression
Entropie
x log x  x 1 expu
Méthode du raking -ratio (2)


 x  L log x  L   L(U 1) U(1 L)expu
1  1 L   Logistique
A  (U 1)  (1 L)expu
 U  x logU  x   Méthode du raking ratio tronquée (3)
  U 1    L, U 
U L
 ; x  L,U  , ( sin on)
(1  L)(U  1)

1
x 12 si x  L,U 
1  qi u Khi-deux tronquée
2
 L,U  Méthode linéaire tronquée (3)
 sinon
158
CALAGE SUR MARGES
FONCTIONS DE DISTANCE
 Méthode linéaire
o converge toujours en 2 étapes
o redonne l’estimateur par régression
o peut donner des poids négatifs
o rapports de poids non bornés supérieurement
 Méthode exponentielle
o poids positifs
o redonne l’estimateur du raking-ratio
o rapports de poids non bornés supérieurement, en général supérieurs à
la méthode linéaire
 Méthodes logit, linéaire tronquée
o poids positifs
o contrôle des rapports de poids
159 159
CALAGE SUR MARGES
PROPRIÉTÉS
 Espérance
Quelle que soit la méthode utilisée, l'estimateur calé est
approximativement sans biais

 Variance
Quelle que soit la méthode utilisée, la variance de
l'estimateur calé est approximativement égale à celle de
l'estimateur par régression : toutes les méthodes sont
asymptotiquement équivalentes

160
CALAGE SUR MARGES
MACRO CALMAR
 Insee, 1993
 Macro SAS
 Disponible sur www.insee.fr
 Syntaxe (paramètres obligatoires)
%CALMAR (data =,
poids =,
ident =,
datamar =,
M =, LO=, UP=,
datapoi =,
poidsfin=);
161 161
CALAGE SUR MARGES
EXEMPLE
 1. les données individuelles  2. la table des marges
DATA echant; DATA marges;
INPUT nom $ x $ y $ z pond; INPUT var $ n mar1 mar2;
CARDS; CARDS;
A 1 f 1 10 X 2 20 60
B 1 h 2 0 Y 2 30 50
C 1 h 3 . Z 0 140 .
D 5 f 1 11 ;
E 5 f 3 13 RUN ;
F 5 h 2 7
H 1 h 2 8  3. lancement de Calmar
G 5 h 2 8 %CALMAR(DATA = echant,POIDS = pond,
I 5 f 2 9 IDENT = nom,
J . h 2 10 DATAMAR = marges,
K 5 h 2 14 M = 2, OBSELI = oui,
; DATAPOI = sortie,
RUN; 162 POIDSFIN = pondfin, 162

LABELPOI = poids raking ratio);


CALAGE SUR MARGES
EXEMPLE
 Avant calage

 Après calage

163 163
CALAGE SUR MARGES
EXEMPLE

164
CALAGE SUR MARGES
EXEMPLE

165 165
CALAGE SUR MARGES
EXEMPLE

166 166
CALAGE SUR MARGES
EXEMPLE

167
BIBLIOGRAPHIE
 Sautory O. (1993). « Redressement d’un échantillon par calage sur
marges », Document de travail de la DSDS n°F9310,, www.insee.fr .
 Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). « Generalized raking
procedures in survey sampling », Journal of the American Statistical
Association, vol 88, n°423, pp. 1013-1020.
 Deville, J.-C. (1998). « La correction de la non-réponse par calage ou par
échantillonnage équilibré ». Papier présenté au colloque de la Société
Statistique du Canada, Sherbrooke.
 Dupont, F. (1996). « Calage et redressement de la non-réponse totale ».
Actes des journées de méthodologie statistique, 15 et 16 décembre 1993,
INSEE-Méthodes n°56-57-58.
 Roy, G., et Vanheuverzwyn, A. (2001). « Redressement par la macro
CALMAR : applications et pistes d'amélioration », Traitements des fichiers
d'enquête, pp. 31-46. Presses Universitaires de Grenoble.

168 168
Sources d’erreur et biais

Oliviero Marchese, décembre 2010 16


9
Sources d’erreur et biais

Utilisations des données d’enquête :


« Describers » & « Modelers »
Sources d’erreur
« Nonsampling errors »
Populations d’intérêt
Défaut ou excès de couverture
Non-réponse
Erreur de mesure
Sources d’erreur et phases d’enquête
La pointe de l’iceberg … et le reste
Sources d’erreur, contraintes, mode de réalisation
L’ «art» du sondeur

17
0
Utilisations des données d’enquête :
« Describers » & « Modelers »

Différents langages, différentes préoccupations


« Describers » « Modelers »
Accent sur l’estimation des caractéris- Accent sur la validation d’hypothèses
tiques d’une population théoriques

Accent sur l’estimation de moyennes et Accent sur l’exploration de structures


proportions de covariance

Forte attention aux erreurs de non- Forte attention aux erreurs d’obser-
observation (défauts de couverture, vation (questionnaire)
non-réponse)

17
1
Sources d’erreur {1/3}

Erreur d’échantillonnage
Hétérogénéité des mesures parmi les individus de la population
Défaut ou excès de couverture
Probabilité de sélection nulle ou non connue pour les individus de la
population
Non-réponse
Défaut de collecte de toute ou partie de l’information pour certains
individus de l’échantillon
Erreur de mesure
Influence de l’enquêteur sur les réponses des personnes interrogées
Incapacité (ou manque de volonté) des personnes interrogées à répondre
aux questions : mémoire, impréparation, facteurs psychologiques, …
Défauts de l’instrument de mesure (questionnaire ou autre)
Effets du mode de recueil (face à face, téléphone, auto-administré papier
ou Internet)

17
2
Sources d’erreur {2/3}

Ces erreurs peuvent être liées les unes aux autres


Eg : Faire du « forcing » pour réduire la non-réponse peut amener à
amplifier les erreurs de mesure

En général, les efforts de modélisation et de mesure sont portés sur


l’erreur d’échantillonnage et la non-réponse

Souvent on ne sait que très peu – et parfois rien du tout - sur les
erreurs d’observation et les défauts de couverture

Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la
nature de biais – ne diminuent pas lorsque la taille d’échantillon
augmente

17
3
Sources d’erreur {3/3}

Moralité

Les efforts visant à affiner une méthode de tirage ou l’expression d’un


estimateur pour obtenir un gain de précision peuvent s’avérer bien
illusoires si, par ailleurs, les erreurs d’observation, les défauts de
couverture ou la non-réponse sont importants

Dans une telle situation, une taille d’échantillon très importante ne sera
pas non plus de nature à éviter la déroute
Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé
par le Literary Digest - portant sur près de deux millions de lecteurs -
donnait une confortable avance à Alfred Landon (54%) … alors que
Franklin Roosevelt allait recueillir 61% des suffrages !

17
4
« Nonsampling errors » :
Populations d’intérêt

Population objet de l’inférence (population of inference)


Ensemble des unités à étudier
Population cible du sondage (target population)
Ensemble des unités étudiées
Base de sondage (frame population)
Liste des unités utilisée pour la sélection de l’échantillon: l’« univers »
auquel font référence la plupart des livres de statistique
Population enquêtable (survey population)
Liste des unités accessibles, physiquement et mentalement prêtes à
répondre, souhaitant répondre aux questions
Il s’agit bien évidemment d’une abstraction, puisque elle ne peut être
observée indépendamment des opérations d’échantillonnage elles-mêmes

Non-réponse
divergences entre « frame » et « survey population »
Erreurs de couverture
divergences entre « frame » et « target population»
Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15 17
5
« Nonsampling errors » :
Défaut ou excès de couverture {1/2}

Ambiguïté du repérage des unités de la population


Une base de sondage se doit pour le moins d’être une liste d’identifiants
de bonne qualité
Manque d’exhaustivité
Chaque unité faisant partie du champ de l’enquête doit être présente dans
la liste des identifiants
Doubles comptes
Aucune unité doit être présente plusieurs fois dans la base (surtout si le
nombre de fois n’est pas connu)
Absence d’informations auxiliaires
Leur disponibilité peut être mise à profit pour améliorer soit la méthode de
tirage, soit l’estimateur, soit les deux
Vieillissement de la base elle-même
Absence ou inaccessibilité de la base de sondage
(situation finalement pas si rare!)

17
6
« Nonsampling errors » :
Défaut ou excès de couverture {2/2}

L’erreur de couverture est une fonction


de la proportion de population non couverte par la base de sondage
de la différence dans la valeur de la variable d’intérêt entre « frame » et
« target population»

Y c = Y + (Nnc / N) * (YC – Ync)


où Y représente la valeur auprès des N unités de la target population
Yc représente la valeur auprès des Nc unités couvertes par la
« frame population »
Ync représente la valeur auprès des Nnc unités non couvertes par la
« frame population »

L’erreur de couverture
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon

17
7
« Nonsampling errors » :
Non-réponse {1/3}

Comme pour le défaut de couverture dû au manque d’exhaustivité de


la base de sondage, la non-réponse
nous met dans l’impossibilité d’observer la valeur de la variable d’intérêt
engendre un biais non mesurable, puisque l’on ne sait pas si les unités
observées sont comparables aux unités non observées

A différence du défaut de couverture, la non réponse


est d’ampleur mesurable, à partir de l’échantillon tiré (taux de non-réponse
calculable)
peut être complète ou partielle (l’individu sélectionné répond à certaines
questions et pas à d’autres)

En diminuant la taille de l’échantillon, la non-réponse occasionne une


perte de précision (quelles que soient les hypothèses formulées sur le
profile des non-répondants)

17
8
« Nonsampling errors » :
Non-réponse {2/3}

Le taux de non-réponse est souvent interprété comme LA


mesure de qualité de l’estimation de la variable d’intérêt
or, il ne s’agit que d’une composante de l’erreur et ne peut pas en
donner seul la mesure

L’erreur dû à la non-réponse est une fonction


du taux de non-réponse
de la différence dans la valeur de la variable d’intérêt entre
répondants et non-répondants

y r = yn + (nr / n) * (yr – ynr)


L’erreur de non-réponse
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon

17
9
« Nonsampling errors » :
Non-réponse {3/3}

Une expression plus complète de la variable d’intérêt


estimée devrait être

y r = yn + (nc / n) * (yr – ync) +


+ (ni / n) * (yr – yni) +
+ (rf / n) * (yr – yrf)
où ync représente la valeur auprès des nc unités non contacté
yni représente la valeur auprès des ni unités incapables de fournir
une réponse
yrf représente la valeur auprès des rf unités refusant l’interview

avec nc + ni + rf = nr

18
0
« Nonsampling errors » :
Erreur de mesure

Il y a erreur de mesure lorsque la valeur de la variable d’intérêt


collectée pour un individu est différente de la vraie valeur attachée à ce
même individu. Quelques cas (liste non ordonnée et non exhaustive !) :
Questions faisant appel à la mémoire des personnes interrogées
Questions portants sur des sujets sensibles (revenus, comportements
sexuels, consommation de drogues, …)
Mécanismes psychologiques liés à l’interaction enquêteur/enquêté
Interprétation des réponses de la part de l’enquêteur
« Suggestions » de l’enquêteur à l’enquêté
Mauvaise compréhension de la question (surtout en cas de traduction
des questions depuis une langue étrangère)
Formulation de la question, effets d’ordre, …
Fatigue due à la durée d’interviews
Autres effets enquêteur : le sexe, l’âge de l’enquêteur, sa façon de se
présenter … ne sont pas sans conséquences sur la qualité des
réponses obtenues
18
1
Sources d’erreur et biais. Les défis à relever

Mesure Représentativité
Population
Concept cible
Erreur de
[Dimensions /
couverture
indicateurs]
Validité Base de
sondage
Mesure Erreur
d’échantillonnage
Erreur de
mesure Echantillon
Erreur liée à la
Réponse
non-réponse
Erreur de Répondants
codification
Erreur
Réponse codée
d’imputation /
Imputation / redressement
redressement

Estimation Survey life cycle from a quality perspective


[Robert M. Groves et al. , Survey Methodology, Wiley, 2009]

18
2
Sources d’erreur et phases d’ enquête

!!! Pertinence, formulation, !!! Choix de la base de sondage


ordre des questions; longueur Objectifs et
et de l’algorithme de tirage !!!
du questionnaire !!! contraintes
Couverture Base de sondage
!!! Définition des variables
Non-réponse Conception du d’intérêt, du champ de l’enquête,
questionnaire du budget et des délais !!!
Échantillonnage
Échantillonnage
Collecte des
Erreurs de mesure données !!! Choix du mode de
collecte le plus approprié et
contrôle des enquêteurs !!!
Codification
Saisie
Saisie !!! Contrôles de cohérence,
contrôles de qualité de la
Codification Contrôles
codification et de la saisie !!!
Traitement Estimations
Présentation Redressement !!! Prise en compte du plan de
sondage !!!
Analyse des
données
!!! Contrôle / relecture du
rapport d’étude / des tableaux
Publications statistiques, … !!!
Évaluations

Ardilly, P. (2006), Les techniques de sondage, Editions Technip, Paris 18


3
La pointe de l’iceberg … et le reste

Erreur
d’échantillonnage
Sélection des
répondants Erreur de Couverture

Non réponse totale

Non réponse partielle


Exactitude des
réponses Erreur de mesure due aux répondants

Erreur de mesure due aux enquêteurs

Erreurs de traitement
Mode de réalisation
Effets liés au mode de recueil
Erreurs de comparaison (dessins différents, …)

Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
4
Sources d’erreur, contraintes, mode de
réalisation

Sources d’erreur et biais

•Echantillonnage
•Couverture Contraintes
•Non-réponse
•Coûts
•Mesure
•Délais
•Etique

Effets du mode de réalisation de l’enquête

•Questionnaire
•Mode de recueil
•Effets de comparaison (plan
d’échantillonnage, temps, …)

Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago 18
5
L’ «art» du sondeur

La théorie statistique nous aide à mesurer et à réduire


l’erreur d’échantillonnage
L’«art» du sondeur, praticien d’enquête, consiste à juger
de l’importance du non mesurable
La pratique de cet « art » requière la compréhension
des causes qui sont à l’origine des erreurs
de leur importance relative
des effets générés
des coûts relatifs aux efforts de réduction des erreurs
Juger de l’importance du non mesurable est un « art » qui
ne doit pas se transformer en alibi pour arrêter tout effort
de modélisation et mesure de l’erreur

18
6
Bibliographie

Lecture minimale
Ardilly, P. (2ème édition actualisée et augmentée, 2006), Les techniques
de sondage, Editions Technip, Paris
Chapitre I. Aspects universels, principes de base

Pour aller plus loin


Groves, R.M. (1989), Survey errors and survey costs, Wiley, New York
Chapitres I,III,IV,VII
Groves, R.M., Fowler Jr., F.J., Couper, M.P., Lepkowski, J.M., Singer, E.,
Tourangeau, R., (2nd ed. 2009), Survey Methodology, Wiley, New York
Chapitre 2
Floyd J. Fowler, Jr., (4th ed. 2009), Survey Research Methods, Wiley, New
York
Chapitre 2
Weisberg, H.F. (2005), The total survey error approach, The University of
Chicago, Chicago
Chapitres 2, 14, 15

18
7
NON-RÉPONSES ET DONNEES
MANQUANTES

Gilbert Saporta
Conservatoire National des Arts et Métiers

gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta

188
Non-réponse: - totale
- partielle (données manquantes)
Causes des non-réponses:

Bases de sondage inexactes

Refus
Réponses inexploitables, perte, destructions

189
Biais de non -réponse

Deux strates P0
P1
Répondant
Non -
répondant Y1
Y0

N0 N  N0 N0 N0
Y  Y0  Y1  Y0 Y1  Y1
N N N N
En l'absence d'hypothèse sur le mécanisme des données manquantes,
seul Y1 peut être estimé

Biais : Y  Y1 
N0
N
 Y0  Y1 
190
Quelques remèdes:

Non-réponses:
 Stratégie de relance
 Post-stratification pour redresser

191
Questions sensibles ou indiscrètes: la
méthode des questions aléatoires
Première technique:
On tire au sort dans une urne avec θ boules blanches et 1- θ boules noires
la question
Si blanc: question A: « Avez-vous fraudé le fisc? »
Si noire: question : « Je n’ai pas fraudé »
A
On veut estimer PA.
 
On recueille Π = Proba de Oui = PA  1   1  PA 
% de « Oui »

  1   
 PA 1PA 1 1

PA
2 
 
 
VPA
1
 2
2
V
n

n  22

Inconvénient: A aussi indiscrète que A!


192
Deuxième technique:
Si blanche, question A sensible
Si noire, question B banale
  1    P

 PA PB 1 
P B


A

1 PB 1 PB 1


2

 

V PA 
n

n

PB peut être connu à l’avance ou estimé par une autre


enquête.
Exemple:
A: combien de fois avez-vous avorté?
B: nombre idéal d’enfants?

193
Exemple: Brown 320 officiers
Consommation de drogue: 2 enquêtes, une anonyme, l’autre
à question aléatoire

Drogue Q. Anonyme Q. aléatoire


Marijuana 5% (1.2) 9% (4.1)
Hallucinogène 1.6% (0.7) 11.6% (4.1)
Amphétamine 1.9% (0.7) 8% (3.3)
Barbiturique 0.6% (0.7) 7.9% (3.9)
Narcotique 0.3% (0.3) 4% (3.9)

194
Données manquantes
• Les mécanismes (Rubin,1976)
– MCAR (Missing Completely at Random)
• P(Y manquant) indépendant de Y et du reste
• Hypothèse forte mais réaliste si volontaire
– MAR (Missing at random)
• P(Y manquant/Y,X)=P(Ymanquant/X)
• Non testable
– MCAR et MAR: données manquantes ignorables
– Cas non ignorable: nécessité de modéliser le
mécanisme pour obtenir des estimations sans biais
• Ignorer ou estimer les données manquantes?
195
Supprimer les DM?
• « listwise »
– Perte d’information
– Marche pour MCAR et en régression pour les X
si MAR selon Y
• « Pairwise »
– Utilisable pour modéle linéaire, ACP
• Matrices non positives, statistiques de tests biaisées

196
Estimer les DM: l’imputation
• Compléter la non-réponse par une valeur
plausible.
– Méthodes implicites
– modèles

197
Estimation basée sur des modèles

• Une donnée manquante sur une variable Y est


modélisée à partir des variables X selon un
modèle de régression
régression simple en prenant la variable la plus corrélée.
régression multiple
modèle linéaire général si X est nominale et la variable à
expliquer est quantitative.
Analyse discriminante, ou régression logistique si Y
nominal
 Remarque: cas particulier de l’estimation par la
moyenne

198
Algorithme EM (espérance,
maximisation)

– étape E: espérance conditionnelle de chaque donnée


manquante sachant les données observées, d’où
estimation des paramètres.
– étape M calcule les estimateurs du maximum de
vraisemblance des paramètres, avec les lois
conditionnelles des données manquantes.
convergence vers la valeur la plus probable de
chaque donnée manquante pour l'estimation
obtenue des paramètres
199
Maximisation de la cohérence interne,
ou de l'homogénéité

• Présentation hollandaise de l’ACM


de G=(G1|G2|…|Gm) comme la
minimisation d ’une fonction de
perte:
m


1
 (X, Y)  (X - G 'jYj )' (X - G 'jYj )
m
m j 1

X
1
m j1
G j Yj

200
• Les données manquantes sont
complétées pour avoir  minimal: ACM
avec valeurs propres maximales.
MCA with missing data

Unit Income Age Car


1 x young am
2 medium medium am
3 y old jap
4 low young jap
5 medium young am
6 high old am
7 low young jap
8 high medium am
9 high z am
10 low young am
201
Results of the 27 MCA

x y z 1 x y z 1 x y z 1
l l j .70104 m l y .63594 h l y .61671
l l m .77590 m l m .72943 h l m .66458
l l o .76956 m l o .72636 h l o .65907
l m j .78043 m m y .70106 h m y .70106
l m m .84394 m m m .77839 h m m .74342
l m o .84394 m m o .84394 h m o .74342
l h j .78321 m h y .73319 h h y .68827
l h m .84907 m h m .80643 h h m .74193
l h o *.84964 m h o .80949 h h o .74198

202
• Solution unidimensionnelle peu réaliste:
max (1+2+…+k)
• Recherche exhaustive impossible.
Algorithmes itératifs.

203
IMPUTATION MULTIPLE (Rubin)

– imputer chaque donnée par m>2 valeurs


obtenues par tirage dans un ou plusieurs
modèles d'estimation. Puis analyse des
données sur chacun des m jeux de données
complétés
– simulation de la distribution a posteriori des
données manquantes , variances correctes.
– Mais: complexité des calculs, temps de calcul
et volume considérable.
204
Les méthodes d'imputation de type “ hot-
deck ”

• la valeur manquante est remplacée par la


valeur observée chez un répondant
“ proche ”, le “ donneur ”.
– - le hot-deck d'ensemble : le donneur est
choisi de façon aléatoire.
– - le hot-deck par classe :
– - le hot-deck séquentiel : l'individu le plus
“ récent ” du tableau de données

205
deux inconvénients majeurs pour toutes ces
méthodes:

• risque d’incohérence: si plusieurs données


manquantes sont estimées une par une et non
conjointement, sans prendre en compte les
corrélations
• variabilité sous-estimée: deux unités ayant les
mêmes valeurs de X auront la même estimation
pour la valeur manquante de Y

206
– le hot-deck hiérarchisé : On remplace l'unité
défaillante par une unité ayant les mêmes
valeurs pour C1, C2,…, Ck. S'il n'en existe pas
alors on la remplace par une unité ayant les
mêmes valeurs pour C1, C2,…, Ck-1; etc. …
– - le hot-deck métrique ou méthode du plus
proche voisin avec une distance d(i,j)

207
Fusions et greffes
• Fusions de fichiers et greffes d'enquêtes:
combiner des données provenant de sources
différentes.
• en amont du processus de « data mining » .
• fusionner différentes bases: enquêtes, sources
administratives, fichiers clients, données socio-
économiques agrégées, etc.
• Chaque base peut être constituée d'unités
statistiques différentes ou d'agrégation de ces
unités à différents niveaux.

208
• Fusion de fichiers. Cas élémentaire:
• deux fichiers: F1 p+q variables mesurées
sur n0 unités, F2 sous-ensemble de p
variables pour n1 unités. Souvent n0 est
faible par rapport à n1 .

X0 Y0

X1 ?
209
• Un cas plus complexe

X0 Y0
X1 Z1

210
Modèles et méthodes pour la
fusion de données
• Appliquer industriellement une technique
de traitement de données manquantes.
• deux approches:
– Méthodes d’imputation: compléter la non-
réponse par une valeur plausible.
– Repondération : affecter aux répondants
des pondérations pour compenser les non-
réponses
211
• conditions à vérifier préalablement:
– la taille de la population du fichier donneur est
suffisamment importante par rapport au fichier
receveur
– les variables communes et les variables spécifiques
possèdent des liaisons relativement fortes entre elles.

212
Les méthodes implicites:

• fusion par appariements intra-cellulaires,


• imputation par Hot-Deck,
• méthode des plus proches voisins etc.…
• donner simultanément aux variables du
fichier receveur toute l'information et les
renseignements détenus par les
variables du fichier donneur.

213
FICHIER DONNEUR

I
X0 Y0

Plus proche voisin Imputation

X1 ?

FICHIER RECEVEUR

214
La fusion sur référentiel factoriel

• Fréquemment utilisée en France. Son principe (Santini


1984) repose sur :
- les variables critiques : servent à déterminer
pour l'individu du fichier receveur ses donneurs
éligibles.
- les variables de rapprochement : une partie des
variables communes, par un calcul de distance,
permettant de choisir pour chaque receveur le
donneur éligible le plus proche

215
• Réferentiel factoriel: ACM sur l’ensemble des
variables critiques ou communes
• Détermination d’un voisinage du receveur
• Choix final parmi les donneurs éligibles selon les
variables de rapprochement (sexe, age, …)
• Pénalisation pour éviter de prendre trop souvent
les mêmes donneurs (voir fusion par mariage)

Axis II

Axis I

216
Un exemple:
• Données SPAD 992 interviews, divisées
aléatoirement en deux fichiers : 800 donneur
192 receveur.
• 4 variables communes:
Q1 - classe d'age(5 catégories),
Q2 - taille d'agglomération (5 catégories),
Q3 - heure de coucher (7 catégories),
Q4 - age de fin d'études (5 catégories) .
• 3 variables d ’opinion Y à imputer:
Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)
Q6 - Plus haut diplôme obtenu (7 catégories),
Q7 - Taux d'écoute TV (4 catégories).

217
Table 3 performances individuelles

Méthode Classifications correctes


Aléatoire 49%
Homogénéité max. 54%
FRF 47%

Table 4 performances marginales

Q5 Vraies marges Homogénéité max FRF


1 136 136 125
2 56 56 67
Q6

1 36 6 49
2 70 114 65
3 35 16 27
4 29 23 33
5 4 33 1
6 18 33 15
7 0 0 2
Q7

1 100 118 100


2 36 18 43
3 37 29 31
4 19 27 18

218
Fusion par mariages

• éviter qu'un même donneur transmette


son information à plusieurs receveurs
(mariages multiples)
• si un donneur est déjà marié à n
receveurs, d est pénalisée par :

d '  1  (1  d ) n

219
• G. Santini a imaginé 6 types différents de
relations de voisinage par “ mariage ”: A
receveur, B donneur.
le mariage par “ coup de foudre ” (voisins
réciproques) : si A est le plus proche voisin de B et
si B est le plus proche voisin de A et n'a jamais été
marié, alors A et B sont immédiatement mariés.
le mariage avec “ l'ami d'enfance ” : si B est le plus
proche voisin de A, mais B est déjà marié à A' ,
alors A sera marié à B' qui est le plus proche voisin
de A après B.
le mariage par “ adultère ” : variante du cas
précédent quand d(B ’,A) est plus grand que la
distance pénalisée entre A et B (puisque B est déjà
marié a A'). On marie alors A et B.

220
• Fusion avec collage du vecteur entier du donneur
– moins bon pour la reconstitution de données
individuelles,mais garde la structure de corrélation et
évite les incohérences
• Régression variable par variable.
– C’est l’inverse
• Dans tous les cas il est nécessaire d'avoir:
 Un nombre suffisant de variables communes
 Des corrélations élevées entre variables communes et variables
à imputer.
 Une structure commune entre fichier donneur et fichier
receveur: distributions comparables des variables communes
ou critiques, sinon résultats biaisés. Redressements souvent
nécessaires.

221
Fusion par scores de « propensity»
• Origine: essais cliniques avec affectation non-
aléatoire entre traitement et témoin (contrôle)
– Z=1 traité, Z=0 sinon. p covariables X= (x1,x2, ..,xp)
– propensity score e(x)=P(Z=1/X)
• Résumé unidimensionnel: permet de stratifier,
de chercher des jumeaux (appariement), de
repondérer en cas de données manquantes
• Estimé habituellement par une régression
logistique

222
S.Rässler, 2002

223
Application: données manquantes
• Si mécanisme ignorable:
N
1 zi yi
ˆ
Y 
N

i 1 e( x i )

1 N
zi yi (1  e(xi ))
ˆ
Y0 
n0

i 1 e( x i )

224
• rééquilibrage d’enquête
– une enquête de référence aléatoire,
– une enquête web
• plus simple que la post-stratification sur
plusieurs variables (calage sur marges)

225
Yoshimura,

226
Propriétés (1)
• Equilibrage:
Pour un score donné e(X), on tire des
échantillons aléatoires simples parmi Z=1 et
Z=0.
Alors les lois de X dans chaque groupe sont les
mêmes:
P(X / Z=1,e(X))= P(X / Z=0,e(X))
• Avantage: facile de fabriquer des échantillons
appariés même si X est de grande dimension
– Si appariement exact impossible : ppv ou strates

227
Propriétés (2)
• Consistence : estimation sans biais de
l’effet  d’un traitement Y :
–  = E(Yt)-E(Yc)
– si l’effet de l’affectation traitement-contrôle
est ignorable conditionnellement à X (donc à
e(X)) et si 0<P(Z=1/X)<1 (Yt et Yc sont
indépendants de Z conditionnellement à X)
– alors  est estimé sans biais par la moyenne
des différence entre observations appariées
selon e(X)
228
Propriétés (3)
• Etudes d’observation non randomisées
– résout le problème de l’inférence causale
– réduit les biais « ouverts »: ex: comparer la
mortalité des fumeurs et non-fumeurs alors
que les fumeurs sont en moyenne plus vieux
que les non-fumeurs
– à comparer avec la post-stratification

229
Conclusions
• Techniques:
– La fusion: un problème de données
manquantes massives, stimulant pour
les statisticiens.
– besoin réel de fournir à l'utilisateur
final une base unique sans “ trou ”.

230
– Prudence quand on utilise des “ données ” qui
sont en réalité des estimations et non des
valeurs observées: ne jamais utiliser à un
niveau individuel, mais uniquement agrégé.
– Conséquence perverse: un moindre effort de
collecte, puisque l'on peut reconstituer des
données…
– Nécessité de valider

231
Validation
• procédures empiriques où on estime des
données connues mais cachées que l'on
compare ensuite aux vraies valeurs:validation
croisées, bootstrap …
• Indicateurs:
– reconstitutions de données individuelles
– prévisions au niveau de groupes
– reconstitutions de marges, de croisements

232
• Déontologiques (confidentialité et protection de la
vie privée) :

– des données qui n'ont pas été recueillies mais


estimées, peuvent être ajoutées dans des
fichiers à l'insu des individus concernés. Quid
de La loi “ Informatique et Liberté ” ?
– paradoxe alors que les INS développent des
techniques pour assurer la confidentialité

233
Références
• Allison P. (2002) Missing data, Sage Publications
• Co V. (1997) Méthodes statistiques et informatiques pour
le traitement des données manquantes.Doctorat, CNAM.
Paris.
• Fischer N. (2004) Fusion Statistique de Fichiers de
Données. Doctorat, CNAM, Paris.
• Rässler S. (2002), Statistical matching, Springer
• Rosenbaum P.R., Rubin D. (1983) the central role of
propensity scores in observational studies for causal
effects, Biometrika 70, 41-55
• Saporta G. (2002) Data fusion and data grafting .
Computational Statistics and Data Analysis, 38(4),465-473

234

Vous aimerez peut-être aussi