Académique Documents
Professionnel Documents
Culture Documents
Sondages
Sondages
2003-2004
UV CNAM 18323 - STATISTIQUE B8
Plan :
Références
http://cedric.cnam.fr/~saporta/
http://www.agro-montpellier.fr/cnam-lr/statnet/
http://www.ipsos.fr/
http://www.cbs.nl/isi/iass/
2003-2004
Gilbert SAPORTA
Chaire de Statistique Appliquée
Conservatoire National des Arts et Mtiers
292 rue Saint Martin
75141 Paris cedex 03
saporta@cnam.fr
http://cedric.cnam.fr/~saporta
1
INTRODUCTION
z Aperçu du secteur
¾ statistique publique
CNIS
INSEE – 7 000 employés
¾ 400Instituts privés
(10 000 employés, dont 4 000 permanents)
CA 2001: 1.275 milliards € (+6.25%)
2
INTRODUCTION
3
INTRODUCTION
z Histoire récente
¾ 1895 – Kiaer, dénombrements représentatifs
¾ 1925 – Jensen
¾ 1934 – Neyman, Sondages à 2 degrés
¾ 1952 – Horvitz et Thompson, Sondages à
probabilités inégales
¾ 1936 – Election de Roosevelt
¾ 1938 – Fondation de l’IFOP
¾ 1965 – Ballottage De Gaulle 4
INTRODUCTION
Objectifs et
contraintes
Base de sondage
Conception du
questionnaire
Échantillonnage
Collecte des
données
Codification
Saisie
Contrôles
Estimations
Redressement
Analyse des
données
Publications
Évaluations
5
LES TECHNIQUES DE SONDAGE
z Méthodes aléatoires:
Plans de sondage
¾ Complexes: - stratifié
- en grappe
- plusieurs degrés
6
LES TECHNIQUES DE SONDAGE
7
LES TECHNIQUES DE SONDAGE
z Problèmes essentiels:
¾ Sélection de l’échantillon;
9 estimateur;
9 précision;
8
SONDAGE ALEATOIRE SIMPLE
z Notations:
¾ Population ou base de sondage: N
¾ Identifiant: i
¾ Variable d’intérêt: Y (Y1, Y2……YN)
N
T = ∑ Yi
N
1
Y=
N
∑i=1
Yi ;
i =1
N
1 N 2
∑
N
1
σ = ∑(Yi −Y) ;
2 2
S=
2
(Yi −Y) =
2
σ
N i=1 N−1 i=1 N−1
9
SONDAGE ALÉATOIRE SIMPLE
z Définition: tirage équiprobable sans remise de n
unités;
n
z C N échantillons possibles;
N
z π i probabilité d’inclusion (plan de taille fixe): ∑π
i =1
i =n
n
z Équiprobabilité: →π i N
=
z Remarque: π i
= ∑
s (i∈s )
p( s)
z Taux de sondage: n = f
N
10
SONDAGE ALÉATOIRE SIMPLE
z Estimation du total et de la moyenne:
y - estimateur de Y
N y - estimateur de T
E( y) = Y ; E ( N y ) = T
z Démonstration avec les variables de Cornfield
1 si i ∈ s E (δ i ) = π i
δi =
0 si i ∉ s V (δ i ) = π i (1 − π i ) cov(δ i ; δ j ) = π ij − π iπ j
N y N
Yi yi=variable aléatoire;
∑
n i∈s
yi =T = ∑ = ∑ δi
l i
n
Estimation de S2:
1
s2 = ∑
n − 1 i∈s
( yi − y )2
E ( s2 ) = S 2
n s2
V ( y ) = (1 − f ) n
⇒
2
Vn ˆ 2 s
(T ) = N (1 − f ) n 12
SONDAGE ALÉATOIRE SIMPLE
1
z Cas d’un pourcentage: Yi = Y =P
0
P(1− P) N
V( p) = (1− f )
n N −1
p(1− p) p(1− p)
Vl ( p) = (1− f )
n −1 n
13
homepage
2
Utilisations des données d’enquête :
« Describers » & « Modelers »
3
Sources d’erreur {1/3}
Erreur d’échantillonnage
Hétérogénéité des mesures parmi les individus de la population
Défaut ou excès de couverture
Probabilité de sélection nulle ou non connue pour les individus de la
population
Non-réponse
Défaut de collecte de toute ou partie de l’information pour certains
individus de l’échantillon
Erreur de mesure
Influence de l’enquêteur sur les réponses des personnes interrogées
Incapacité (ou manque de volonté) des personnes interrogées à répondre
aux questions : mémoire, impréparation, facteurs psychologiques, …
Défauts de l’instrument de mesure (questionnaire ou autre)
Effets du mode de recueil (face à face, téléphone, auto-administré papier
ou Internet)
4
Sources d’erreur {2/3}
Souvent on ne sait que très peu – et parfois rien du tout - sur les
erreurs d’observation et les défauts de couverture
Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la
nature de biais – ne diminuent pas lorsque la taille d’échantillon
augmente
5
Sources d’erreur {3/3}
Moralité
Dans une telle situation, une taille d’échantillon très importante ne sera
pas non plus de nature à éviter la déroute
Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé
par le Literary Digest - portant sur près de deux millions de lecteurs -
donnait une confortable avance à Alfred Landon (54%) … alors que
Franklin Roosevelt allait recueillir 61% des suffrages !
6
« Nonsampling errors » :
Populations d’intérêt
Non-réponse
divergences entre « frame » et « survey population »
Erreurs de couverture
divergences entre « frame » et « target population»
Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15 7
« Nonsampling errors » :
Défaut ou excès de couverture {1/2}
8
« Nonsampling errors » :
Défaut ou excès de couverture {2/2}
L’erreur de couverture
est liée à la variable d’intérêt
n’est pas une propriété de l’échantillon
9
« Nonsampling errors » :
Non-réponse {1/3}
10
« Nonsampling errors » :
Non-réponse {2/3}
11
« Nonsampling errors » :
Non-réponse {3/3}
avec nc + ni + rf = nr
12
« Nonsampling errors » :
Erreur de mesure
14
L’ «art» du sondeur
15
Lecture minimale
Ardilly, P. (1994), Les techniques de sondage, Editions Technip,
Paris
Chapitre I. Aspects universels, principes de base
16
SONDAGE A PROBABILITÉS INÉGALES
14
SONDAGE A PROBABILITÉS INÉGALES
z Estimateur de Horvitz-Thompson ou des valeurs
dilatées pour un total:
N
Tl = ∑ai yi =∑aY
i iδi
i∈s i =1
N N
E(Tl ) = ∑aY
i i E(δi ) = ∑aiπiY i
i=1 i=1
N
Pour que Tl soit sans biais: E(Tl ) = ∑Y i
i =1
aiπi =1 15
SONDAGE A PROBABILITÉS INÉGALES
Théorème:
yi
T =∑
l est le seul estimateur linéaire sans biais
i∈s π i
de T
l 1 yi
Pour une moyenne Y Y =
N
∑π
i∈ s i
16
SONDAGE A PROBABILITÉS INÉGALES
Exemple (Ardilly) : nombre d’habitants Y inconnu, nombre de logements X connu.
Estimation du nombre moyen d’habitants par tirage à probabilités
proportionnelles au nombre de logements
17
SONDAGE A PROBABILITÉS INÉGALES
Echantillons de deux communes:
18
SONDAGE A PROBABILITÉS INÉGALES
z Si N est inconnu:
N
N = ∑1
i =1
z L’estimateur de N est donc:
1
N =∑
ˆ
i∈s πi
z D’où:
1
E (∑ )=N
i∈s πi
19
SONDAGE A PROBABILITÉS INÉGALES
z Estimateur de Hajek:
−1
ˆ 1 yi
Y = ∑
π i
∑ π
i∈ s i∈ s i
20
SONDAGE A PROBABILITÉS INÉGALES
z Un cas gênant:
Yi = C
ly = 1 Yi C 1
∑ = ∑
N i∈s π i N i∈s π i
1 ly ≠ C
Comme ∑π
i∈s
≠N alors
i
z Mais: E(ly) = C
21
SONDAGE A PROBABILITÉS INÉGALES
z Variance:
N
Yi2 N
Yi Yj
V(Tl ) = ∑
πi
(1−πi ) + ∑∑
ππ
( π ij −πiπ j )
i=1 i≠ j i j
22
SONDAGE A PROBABILITÉS INÉGALES
z Estimation de la variance (par Horvitz-Thomson):
Première formule:
nˆ 2 1−πi
πi j −ππ
V(T) = ∑yi 2 + ∑∑yi yj i j
peut être < 0
i∈s πi i≠ j ∈s ππ
i jπij
Deuxième formule:
2
nˆ 1 yi yj ππ i j −πij
V(T) = ∑∑ −
2 i, j∈s πi π j πij
23
SONDAGE A PROBABILITÉS INÉGALES
24
SONDAGE A PROBABILITÉS INÉGALES
∑x
i =1
i
25
SONDAGE A PROBABILITÉS INÉGALES
27
SONDAGE A PROBABILITÉS INÉGALES
z Plus de 50 méthodes! Aucune ne satisfait
tous les critères.
z Quelques techniques simples:
z Tirage avec remise et conservation des unités
distinctes mais taille non fixe
z Rejet de l’échantillon si il y a des doublons mais
proba d’inclusion non proportionnelles aux xi
z Tirage successif sans remise:
z On recalcule les probas d’inclusion après tirage de chaque
individu. Si j est tiré: πi
πi =
'
1−π j
z Ne respecte pas les probas d’inclusion d’ordre 1
28
SONDAGE A PROBABILITÉS INÉGALES
z Sondage systématique à probabilités
inégales
z Simplicité
z Inconvénients:
z certaines probabilités d’inclusion d’ordre 2
peuvent être nulles
z Dépend de l’ordre du fichier
z Tri aléatoire avant tirage?
29
STRATIFICATION PH
z Utilisation d’une P2 kj
S2
S1
information auxiliaire P1
qualitative
z Toujours efficace
30
STRATIFICATION, notations PH
z Strates: P2 kj
N 1 , N 2 ......N h .......N H N=∑Nh P1
S1
S2
Nh
Y1 , Y 2 .......Y h .......Y H Y = ∑ N
Yh
Nh 2 Nh
σ = ∑ σh +∑ (Yh −Y )
2
σ ,σ ....σ .....σH
1
2
2
2
h
2 2 2
N N
z Échantillon:
n1,n2,.........nh,...........nH n =∑nh
nh
y1,y2,........yh,...........yH y = ∑ yh
n
σˆ12,σˆ22,.....σˆh2............σˆH2 31
STRATIFICATION
Nh 2 Nh
σ = ∑ σh + ∑ (Yh −Y ) =σ2W +σ2B
2 2
N N
zVariance totale=
moyenne des variances (variance intra)
+variance des moyennes (variance inter)
32
STRATIFICATION
N h=1 N nh Nh −1
1 H Sh2
= 2 ∑Nh (Nh − nh )
N h=1 nh
33
STRATIFICATION, répartition
proportionnelle
h =1 N h =1 n
34
STRATIFICATION, répartition
proportionnelle
z variance :
2
ˆ 1 H
S 1 H
Nh − nh
V (Yprop ) = 2 ∑ Nh ( Nh − nh ) h
= 2∑ Nh Sh2
N h=1 nh N h=1 nh
1 H Nh 1 H
N N − n H
Nh 2
= 2 ∑( − 1)Nh Sh = 2 ∑( − 1)Nh Sh =
2 2
∑ Sh
N h=1 nh N h=1 n nN h=1 N
z Si τ est faible:
N − n H
N N − n H
N N − n σ 2
V (Yˆprop ) = ∑ h nN ∑
h
S 2
h
σ h
2
= w
nN h=1 N h=1 N N n
35
STRATIFICATION, répartition
proportionnelle
N n N N
36
STRATIFICATION optimale
z Répartition optimale:
m 1 N h ( N h − nh ) 2
V (Ystr ) = 2
N
∑ nh
Sh
Nh
avec Sh 2
= σ h2
Nh −1
N h2 S h2 proportionnel à ch
n h2
nh Sh
∝
Nh ch
Si ch constant:
N h Sh
nh = n - Répartition de Neyman
∑ N h Sh 38
STRATIFICATION
nh 50 45 30 30 155
39
STRATIFICATION
z Exemple n° 1:
N
2
3750x12.6 + ..... + 2475x13.8
Y = ∑ h yh = = 14.21
N 10884
l
2
Nh σ h
2
V (Y ) ∑
N nh
= 0 .0 2 0 5 9 = ( 0 .1 4 ) 2
N N
nh l 2
On estime: σ par
2
h σ h
n h −1
Y h par y h
Y par
2
σ = 6.06 = ( 2.46 )
l 2
41
STRATIFICATION
z Suite: Répartition de Neyman pour n=1000:
N1S1 = 6275 n1 = 1000 x 6275/19 312 = 325
N2S2 = 5572 n2 = 288
N3S3 = 3038 n3 = 157
N4S4 = 4427 n4 = 229
19 312
1 Nh ( Nh −nh ) 2
Variance: 2 ∑ Sh = 0.0029 = ( 0.0542)
2
N nh
Y connu à + 2 x 0.0542 soit + 0.108
T connu à + 1179 42
STRATIFICATION
45
STRATIFICATION
zAvantages:
¾ frais de déplacement réduit
¾ absence de liste autorisée
¾Mais: précision moindre: effet de grappe.
N = ∑ N i
Ti = ∑
j =1
Y i j - total de l’UP n°i
i =1
47
SONDAGE A DEUX DEGRÉS
Tirage aléatoire simple à chaque degré.
M Ni
l
T =
m
∑
i∈s ni
∑ yij
j∈Si
Remarque: inutile de connaître N pour estimer T.
n i S 2 ,i
(Tl ) = M
2
m S 12 M
V 2
1 −
M m
+
m
∑ Ni 2
1 −
N
ni
i
V a r ia n c e V a r ia n c e
in t e r in t r a
UP UP
2 2
( )
M Ni
1
S =
1
2
∑
M −1 i=1
Ti −T S2,i 2
=
1
∑
Ni −1 i=1
Yij − Y i ( )
48
SONDAGE A DEUX DEGRÉS
2
S12 estimé par 1 l Tl
m
z s1 =
2
∑ Ti −
m−1 i=1 M
z Remarque:
- Si ni proportionnel à Ni: taille d’échantillon aléatoire
Ni Ni N i m n0m
ni = n0 E ( ns ) = E ( ∑ n0 ) = ∑ n0 =
N i∈Si N k∈U i N M M
49
SONDAGE A DEUX DEGRÉS
z Sondage autopondéré:
- m unités primaires tirées à probabilités proportionnelles à
leur taille
- tirage d’échantillons de taille fixe n0
z probabilités d’inclusion constantes
Nj n0 mn0
πi = m =
N Nj N
Yˆ = y
50
CAS PARTICULIER: SONDAGE EN
GRAPPES
zDéfinition:toutes les US sont observées dans les
UP tirées.
Nécessité de grappes: hétérogènes
de faible taille
nombreuses
de tailles voisines
Le tirage systématique est un tirage d’une grappe.
51
SONDAGE EN GRAPPES
z Cas général :tirage de grappes à probabilités
inégales
Ti
m
z Estimation du total: T =∑
ˆ
i =1 πi
1 m NiYi
z Estimation d’une moyenne y= ∑
N i =1 π i
pb si N inconnu: utiliser l’estimateur de Hajek
52
SONDAGE EN GRAPPES
z Tirage de grappes à probabilités égales
m
πi =
M
() M1 m
2
M m S
l
T =
m
∑T
i∈ s
i
V Tl =M2 1− 1
M m
y= ∑
m N i=1
NY
i i
53
SONDAGE EN GRAPPES
z Tirage de grappes à probabilités
proportionnelles à la taille
m
1
y = ∑ yi
N
πi = m i
N
m i =1
m
1 Ni 2
ˆ
V ( y) = ∑
m(m − 1) i =1
(1 − m
N
)( yi − y)
Ni m m M
E (ns ) = E (∑ N i ) = ∑ N i = ∑ i
N 2
i∈Si i∈U i M M i =1
54
MÉTHODES DE REDRESSEMENT OU DE
PONDÉRATION
zPrincipe:
utiliser a posteriori une information
supplémentaire corrélée avec la variable à
étudier.
z Information:
variables de contrôle dont on connaît soit des
caractéristiques globales, des caractéristiques
par classes, pour chaque individu.
55
MÉTHODES DE REDRESSEMENT OU DE
PONDÉRATION
z Estimation par le quotient ou redressement par
variable quantitative
Exemple:
¾Échantillon de 80 hypermarchés - On veut estimer
le CA moyen Y
¾On a y =110,2MF
¾On sait que le nombre moyen X de caisses dans la
population des hypermarchés est 28.
¾Dans l’échantillon x = 28.8
ˆ 28
Y=110.2× =107.1 56
28.8
Estimation par le quotient
X
Formule générale: yq = y
x
57
Estimation par le quotient
z Calcul du biais:
y −Y
1+
y y −Y +Y Y
yq = X = X =Y
x x−X + X x− X
1+
X
ε
Développement limité:
y −Y x− X x− X
2
y −Y x − X y −Y x − X x − X 2
yq Y 1 + 1 − + Y 1+ − × − +
Y X X Y X Y X X
58
(
cov x; y ) + V ( x )
E (y )
q Y 1 −
XY X
2
Biais en 1/n.
Biais nul si la droite de régression passe par 0.
59
z Erreur quadratique moyenne
N −n 2 Y Y 2 2 N −n 1 n 2
2
E ( yq − Y ) = s y − 2 sxy + ( ) sx estimé par
Nn X X
∑
Nn n − 1 i =1
zi
y
Avec zi = yi − rxi où r =
x
60
Complément: estimation d’un ratio
N − n s x2 s xy
E (r) R + R 2 −
Nn X XY
61
Estimation par la régression
Hypothèse:
y = a + bx
( )
yr
yr = y + b X − x
y
62
x X
Post-stratification; redressement
sur critère qualitatif
Exemple:
n=1000; on veut estimer le pourcentage de
fréquentation du cinéma.
On s’aperçoit que la fréquentation du cinéma
est liée à la posssession de TV.
Cinéma
Oui Non Total
Tele
Oui 20 680 700 (800) X 8/7
Non 80 220 300 (200) x 2/3
Total 100 900
Après redressement:
Cinéma
Oui Non Total
Tele
Oui 23 777 800
Non 53 147 200
Total 76 924
64
Généralisation: calage sur marges
65
Post-stratification pour une
variable numérique
Tl post =∑Nh yh 1
ypost = ∑Nh yh
N
Exemple: enquête concernant les revenus
X=classe d’âge; Y=revenu
<20 21-35 36-50 >50
15% 30% 30% 25% y = 11.100
6000 9000 15.000 12.000
( )
V ypost =V E(Y / nh ) + E V (Y / nh )
0
En prenant l’espérance:
2
Nh 2 1 1 Nh 2
∑ N Sh E n − N ∑ N Sh
h
67
1
Calcul de E
nh
Nh nh
Ph = ph =
N n
nh ph − Ph
nh = n = nph = n ( ph − Ph + Ph ) = nPh 1+
n Ph
Développement limité
1 1 1
= ×
nh n Ph p h − Ph
1 +
P
h
ε
1 1 1 ph − Ph ph − Ph
2
1−ε + ε =
2
1− +
nh nPh nPh Ph Ph
68
En prenant l’espérance :
E ( ph ) = Ph V ( ph ) =
N −n
Ph (1 − Ph )
Nn
1 1 N − n Qh
E = 1 + 2
×
n
h nPh N n Ph
1 N − n Qh 1
( )
V ypost = ∑P S + 2 × − ∑PS
2 2
h h
nP Nn P N
h h
2
h h
N −n 1 N −n
=
Nn
∑ P S
h h
2
+
n Nn
∑Q S
h h
2
1− f Nh 2 1− f Nh 2
( )
V ypost = ∑ Sh + 2 ∑1− Sh
n N n N
69
z Pour avoir une bonne post-stratification
z Variable de redressement bien corrélée
zN grand
z (N-Nh)/N petit donc grandes strates
z Effectifs Nh connus
70
MÉTHODES DE REDRESSEMENT OU DE
PONDÉRATION
Remarque:
¾ne pas utiliser que des variables socio-
décisionnelles;
¾dangers de redressement sur critères multiples.
Propriétés:
¾l’estimateur est sans biais, mais il faut connaître
avec certitude les poids des strates.
¾sa variance est plus petite si le critère de post-
stratification est très lié à la variable d’intérêt, si n
est grand et s’il n’y a pas trop de strates. 71
Questions sensibles ou indiscrètes:
la méthode des questions aléatoires
Première technique:
On tire ou sort dans une urne avec θ boules
blanches et 1- θ boules noires la question
Si blanc: question A: « Avez-vous fraudé le fisc? »
Si noire: question A: « Je n’ai pas fraudé »
On veut estimer PA.
On recueille Π = Proba de Oui = θPA + (1 − θ )(1 − PA )
72
l % de « Oui »
Π
l − (1 − θ )
Π
l=
PA
2θ −1
PA (1−PA) 1 θ(1−θ)
( )
l =
VPA
1
( 2θ−1)
2()l
VΠ
n
+
n ( 2θ−1)
2
73
Deuxième technique:
Si blanche, question A sensible
Si noire, question B banale
l − (1 − θ ) P
Π
Π= PAθ+ PB (1−θ) l=
P B
A
θ
Π(1−Π) PB (1− PB )(1−θ)
2
( )
l
V PA
nθ2
+
nθ2
Précisions de langage
Redresser pour quoi faire ?
Une pratique qu’il ne faut pas banaliser
Redresser sur quoi et comment
Le choix des critères
Les contrôles à opérer
La pratique des redressements
dans les études marketing
dans les études politiques
Peut-on se fier aux redressements ?
Bibliographie
2
Précisions de langage
« Extrapolation »
Le poids comme coefficient d’extrapolation : passage des
« effectifs échantillon » aux « effectifs population »
« Pondération »
Redistribution de poids à effectif échantillon constant,
visant à corriger une sur/sous -pondération de strates
décidée lors de l’établissement du plan de sondage
« Redressement »
Redistribution de poids à effectif échantillon constant -
généralement fondée sur des critères multiples -, visant à
corriger une sur/sous -représentation de catégories de la
population constatée a posteriori
3
Redresser pour quoi faire ? {1/2}
4
Redresser pour quoi faire ? {2/2}
5
Une pratique qu’il ne faut pas banaliser
6
Le choix des critères
7
Les contrôles à opérer
(*) Cela vaut 100 si tous les poids sont égaux, entre 50 et 70 s’il y a une forte dispersion;
à moins de 50 le redressement est à revoir …
8
La pratique des redressements
dans les études marketing
9
La pratique des redressements
dans les études politiques
Ce qui a été dit pour les études marketing reste bien sûr
valable
Pour le reste, un exemple vaut mieux que mille discours :
10
Peut-on se fier aux redressements ?
11
Bibliographie
12
La méthode des quotas
Principe de la méthode
Point de départ et but recherché
Caractère « intuitif » de la méthode
A quoi ressemble une feuille de quotas ?
La recherche des personnes à interroger
Critique de la méthode
Biais d’échantillon
Impossibilité de calculer l’erreur d’échantillonnage
Si c’est aussi « compliqué » …
… pourquoi continue-t-on ?
Enquêtes par quotas et sondage aléatoire
Une étude empirique
Quelques enseignements
Réalisation du plan de sondage
La nécessité de consignes précises
La nécessité d’enquêteurs professionnels
Quotas marginaux ou quotas croisés ?
Quels quotas choisir ?
Peut-on se fier aux échantillons par quotas ?
Bibliographie
2
Principe de la méthode
Point de départ et but recherché
3
Principe de la méthode
Caractère « intuitif » de la méthode
4
Principe de la méthode
A quoi ressemble une feuille de quotas ?
10 interviews Répartition 1 2 3 4 5 6 7 8 9 10
Auprès d’électeurs inscrits des
interviews
Sexe
Homme 5 12345
Femme 5 12345
Age
18 – 34 ans 3 123
35 – 49 ans 2 12
50 – 64 ans 2 12
65 ans et plus 3 123
CS de la personne interrogée
Agriculteur 1 1
Artisan / Petit commerçant 1 1
Prof. Lib. / Cadre supérieur 1 1
Prof. Intermédiaire, employé, ouvrier 4 1234
Retraité, étudiants, autre inactif 3 123
5
Principe de la méthode
La recherche des personnes à interroger
6
Critique de la méthode
Biais d’échantillon
7
Critique de la méthode
Impossibilité de calculer l’erreur d’échantillonnage
8
Critique de la méthode
Si c’est aussi « compliqué » …
9
Critique de la méthode
… pourquoi continue-t-on ?
10
Enquête par quotas et sondage aléatoire
Une étude empirique (1/2)
11
Enquête par quotas et sondage aléatoire
Une étude empirique (2/2)
12
Enquête par quotas et sondage aléatoire
Quelques enseignements
13
Réalisation du plan de sondage
La nécessité de consignes précises
14
Réalisation du plan de sondage
La nécessité d’enquêteurs professionnels 1/2
15
Réalisation du plan de sondage
La nécessité d’enquêteurs professionnels 2/2
16
Réalisation du plan de sondage
Quota marginaux ou quotas croisés ?
Ce risque est souvent moins fort lorsque l’on doit réaliser un seul
quota croisé
17
Réalisation du plan de sondage
Quels quotas choisir ?
19
Bibliographie
20
LES PANELS
z Panel= échantillon permanent d’individus
interrogés régulièrement sur leurs
comportements ou leurs opinions
z Quelques exemples:
z Panels de consommateurs
z Panels de distributeurs
z Panels de téléspectateurs
z Echantillon démographique de l’INSEE (700 000)
z Enquêtes emploi, loyers et charges (INSEE)
z Panels de professionnels: médecins, pharmaciens,
dentistes, agriculteurs.
1
PANELS :
CONSOMMATEURS ou DISTRIBUTEURS ?
PANEL DE CONSOMMATEURS
PANEL DE CONSOMMATEURS
Permet de connaître ce qui acheté :
Permet de connaître ce qui
- quantités, prix acheté :
- quantités,- prom otion (?)
prix
- promotion - acheteurs
(?) : profils
- acheteurs : profils
PANEL DE DISTRIBUTEURS
Permet de connaître ce qui est vendu :
PANEL DE DISTRIBUTEURS
- quantité, prix
- prom
Permet de connaître otion
ce qui est vendu :
- circuits, enseignes
- quantité, prix
- promotion
- circuits, enseignes
©C.Chevallier IRI-Secodip 2
PAPANEL DE CONSOMMATEURS
Un Rapide Historique des Panels
1929 : le premier panel détaillant aux USA
crée par Arthur Charles Nielsen
©C.Chevallier IRI-Secodip 3
Les Sociétés de Panels Consommateurs
Sécodip
¾ le panel Consoscan scannérisé de 8000 foyers
qui a remplacé depuis le 01/95 deux panels
traditionnels
¾ un panel de 1000 foyers avec bébés de 0 à 36 mois
¾ un panel de 3300 automobilistes
Nielsen
¾ le panel Homescan scannérisé
©C.Chevallier IRI-Secodip 4
Metascope SOFRES
z Metascope
Le Métascope est un Access Panel constitué d'un échantillon de 30 000 foyers, soit 80 000
individus, représentatifs de la population des ménages français en termes de :
région, habitat, profession,
catégorie sociale du chef de ménage,
âge du chef de ménage,
nombre de personnes au foyer.
z La base de sondage est consultée mensuellement par voie postale à l'aide d'un questionnaire
auto-administré. Elle est renouvelée à hauteur de 6 000 foyers par an, par douzième
mensuel. Les panélistes sont recrutés en face-à-face à domicile, par téléphone, ou par voie
postale à partir de fichiers spécifiques pour toucher des cibles larges ou très fines.
z Automobile / Transports
Descriptif et suivi du Parc Automobile
Le financement des automobiles
Suivi des achats de pneus
Description et suivi du Parc des deux-roues à moteur
Banques / Assurances
Baromètre des contrats d'assurance détenus par les foyers : Assurance Fidélité Transfert
Suivi de l'impact des actions publicitaires des banques et des compagnies d'assurances
Suivi du marché des ouvertures de comptes
Suivi des comportements, besoins et attentes des PME-PMI à l'égard de la banque
5
Equipement de la maison
Suivi des achats de revêtements de sols, d'arts de la table et ustensiles de cuisson
Pharmacie / Santé
Suivi des achats de lunettes correctrices, solaires et lentilles de contact
Profil, descriptif du profil, des comportements d'achats et des habitudes des utilisatrices de soin
du corps
Tourisme / Loisirs
Descriptif des jardins et suivi des achats
Suivi de la demande touristique des Français
Suivi des achats de photos d'identité, de livres, de cassettes vidéo
Suivi des achats de cartes routières, de guides touristiques, atlas et plans de ville
6
Audience télé (Médiamètrie)
7
Objectifs
z Fournir des estimations des parametres de la population
à différentes périodes
z Fournir des estimations sur une période de temps
z Mesurer des évolutions
z Mesurer des composantes d’évolution au niveau
individuel
z Agréger des données au niveau individuel sur une
période donnée
z Mesurer des fréquences, des durées pendant une
période donnée
z Cumuler des échantillons
8
Panels ou échantillons
indépendants?
z Un panel
- Limite les erreurs d’observation dues aux
défaillances de la mémoire
- Donne une meilleure précision pour mesurer
des évolutions
9
Cas de deux enquêtes successives,
avec mêmes unités
z Différence de moyennes
Estimation de m2-m1 (mêmes variances, grands échantillons, taux
de sondage faible)
10
Cas de deux enquêtes successives,
avec mêmes unités (2)
z Différence de moyennes
Test d’évolution
H0 m2=m1
H1 m2 ≠ m1
11
Cas de deux enquêtes successives,
avec mêmes unités (3)
z Différence de pourcentages
Test de Mc Nemar
exemple: on interroge à deux reprises, après une action, 600
clients d’une société pour connaître leur taux de satisfaction.
La proportion de satisfaits est passée de 41.7% à 46.7% . S’il
s’agissait de deux échantillons indépendants de 600 individus,
cette différence ne serait pas jugée significative.
On commettrait une grave erreur en appliquant les formules des
échantillons indépendants : il faut ici connaître pour chaque
individu son état aux deux enquêtes, que l’on peut résumer par
le tableau de contingence 2x2 croisant les effectifs des deux
variables.
12
Cas de deux enquêtes successives,
avec mêmes unités (4)
z Différence de pourcentages
Test de Mc Nemar
13
Cas de deux enquêtes successives,
avec mêmes unités (5)
z Test de Mc Nemar (suite)
T1 T2 Satisfaits Non satisfaits
satisfaits p11 p12 p1.
Non satisfaits p21 P22 P2.
p.1 p.2
H0 : p1. = p.1
Comme p1. =p11 + p12 et p.1=p11+p21 H0 revient à tester p12 = p21
14
Cas de deux enquêtes successives,
avec mêmes unités (6)
z Test de Mc Nemar (fin)
2
n12 + n21 n12 + n21
2
( n12 − n21 )
2
Qui se simplifie en :
n12 + n21
15
Biais et problèmes liés aux panels
z Biais de sélection
z Recrutement
z Non-réponses (lassitude)
z Biais de conditionnement
z Effet de panel (apprentissage)
z Naissance d’individus (défaut de couverture)
z Solution: renouvellement du panel
16
Renouvellement partiel d’un panel
17
Les panels
2
Des panels pour quoi faire ?
3
Les utilisations les plus appropriées
4
Questions pour un panel
5
Panels et échantillons ad hoc
10
Gestion des panels (1/4)
11
Gestion des panels (2/4)
12
Gestion des panels (3/4)
Définition du « contrat »
attribution des « incentives »
animation
fréquence de sollicitation
modalités des recrutements complémentaires
« purge » des non-répondants
14
Contrôles qualité
16
Peut-on se fier aux panels ? (1/2)
17
Peut-on se fier aux panels ? (2/2)
18
Bibliographie
19
Méthodes d’enquête
Les études on-line
Pourquoi maintenant ?
Un développement majeur
Les « fondamentaux » restent les mêmes
Un auto-administré d’un genre nouveau
Les défauts de couverture
La participation et ses écueils spécifiques
L’échantillonnage : comment fait-on ?
Les systèmes CAWI
Principales caractéristiques
Limites actuelles
Autour des systèmes CAWI
Les interactions avec les sites
Le suivi on-line des études
Des structures de coût inédites
Bibliographie
2
Pourquoi maintenant ?
Il y a cinq ans
tout le monde en parlait …
rares étaient ceux qui en faisaient
Aujourd’hui
3
Un développement majeur
4
Les « fondamentaux » restent les mêmes
5
Un auto-administré d’un genre nouveau
6
Les défauts de couverture (1/3)
7
Les défauts de couverture (2/3)
8
Les défauts de couverture (3/3)
Adresses multiples
Pas de correspondance « un à un » ménage <> adresse
9
La participation et ses écueils spécifiques
10
L’échantillonnage : comment fait-on ? (1/2)
Pop-up
On Entry
On Exit
On Entry / Exit
Avec e-mail automatique
Bandeau …
…avec récupération d’informations du site
11
L’échantillonnage : comment fait-on ? (2/2)
Code PIN
Identification de panélistes
Remplissage du questionnaire en plusieurs fois
12
Les systèmes CAWI
Principales caractéristiques (1/2)
Déroulements complexes
Présentation d’items en aléatoire
« normal »
« prioritaire »
« pondéré »
Présentation de questions en aléatoire
Présentation de blocs de questions en aléatoire
Déroulement «horizontal» de questions
13
Les systèmes CAWI
Principales caractéristiques (2/2)
14
Les systèmes CAWI
Limites actuelles
15
Autour des systèmes CAWI
Les interactions avec les sites
Off-line
Alignement sur la charte graphique (logos, fonds, polices)
On-line
Récupération d’informations depuis le site visité par
l’internaute
Visite d’un site Web en cours de questionnaire
Visite d’un site Wap en cours de questionnaire (Par
émulateur)
Listes additionnelles (Communes, profession…)
Intégration de logiciels de trade-off (ACA, …)
16
Autour des systèmes CAWI
Le suivi on-line des études
Suivi de quotas
Tris à plat
Tris croisés
17
Des structures de coût inédites
Dillman, D.A., (2000). Mail and Internet Surveys. The Tailored Design
Method, New York, Wiley
19
Méthodes d’enquête
Enquêtes en face à face, par téléphone,
par voie postale
3
Les enquêtes en face à face
Avantages
5
Les enquêtes en face à face
Inconvénients
6
Les enquêtes en face à face
Inconvénients
Encadrement rapproché
Facilité de briefing centralisé
Présence de chefs d’équipe dans les salles
Écoutes à distance
Rapidité d’exécution, surtout pour les enquêtes par quotas
Cela se compte en jours, parfois même en heures
8
Les enquêtes par téléphone
Avantages
9
Les enquêtes par téléphone
Inconvénients
11
Les enquêtes par voie postale
Avantages
Questionnaire auto-administré
La personne interrogée peut répondre à son rythme
en choisissant le moment qui lui convient le mieux
13
Les enquêtes par voie postale
Inconvénients
14
Comparaison des trois méthodes
Taux de
♥♥♥ ♥♥ ♥
participation
Nombre de
♥♥♥ ♥ ♥♥
questions
Complexité des
♥♥♥ ♥♥♥ ♥
questions
Interaction
♥ ♥♥ ♥♥♥
enquêteur / enquêté
Rapidité ♥♥ ♥♥♥ ♥
15
Autres modes et modes combinés
Autres modes
Enquêtes en salle
en rue ou en sortie | entrée de magasin, bureau de vote, …
par fax, mail, internet, …
et modes combinés
Dépôt / Rappel (« Drop-off » / « callback » )
Phone / Mail / Phone
Face à face, puis internet
Téléphone, puis internet
Voie postale, puis internet …
16
Question d’arbitrages
18