Vous êtes sur la page 1sur 36

Chapitre 11

METHODOLOGIE D’ENQUÊTES

PLAN DU CHAPITRE 11

11.1 LE QUESTIONNAIRE
11.1.1 Qu’est-ce qu’un questionnaire ?
11.1.2 Etapes de la construction d’un questionnaire
11.1.3 Règles de base pour l’élaboration du questionnaire
11.1.4 Types de questions
11.1.5 Formulation des questions
11.1.6 Agencement du questionnaire
11.1.7 Les erreurs induites par le questionnaire

11.2 LA COLLECTE DES DONNEES


11.2.1 Modes de collecte les plus courants
11.2.2 Facteurs influençant le choix d’une méthode de collecte
11.2.3 Travail à faire durant la collecte
11.2.4 Mesures à mettre en oeuvre pour améliorer le taux de réponse

11.3 SOURCES D’ERREUR DANS UNE ENQUÊTE


11.3.1 Erreur de couverture
11.3.2 Erreur due à la non-réponse
11.3.3 Erreur d’échantillonnage
11.3.4 Erreur de mesure

1
11.1 LE QUESTIONNAIRE

11.1.1 Qu’est-ce qu’un questionnaire ?


• Un document rédigé contenant des questions et des informations
• Un moyen de communication
• Un outil à exploiter

11.1.2 Etapes de la construction d’un questionnaire

a) Définitions préalables
• Objectifs du questionnaire
• Population concernée
• Mode de consultation

b) Analyse exploratoire qualitative (définition des concepts, du voca-


bulaire, . . . )

c) Premières versions du questionnaire


• Définir la structure
• Première formulation des questions
N.B.) Importance du travail en équipe, de la consultation de spécialistes,
...

d) Enquête pilote

e) Version définitive du questionnaire

2
11.1.3 Règles de base pour l’élaboration du questionnaire
• Distinguer les catégories d’information recherchées :
faits, connaissances, opinions, attitudes ou comportements, convic-
tions, motivations, . . .
• Pertinence et utilité des questions
• Motiver et faciliter la tâche de l’enquêté avant de simplifier celle
du chargé d’études
• Souci d’objectivité (neutralité)
• Tenir compte du mode de consultation utilisé (par enquêteur,
enquête postale, par téléphone, . . . )
• Penser aux étapes ultérieures : dépouillement, codification, saisie,
vérifications, traitements, . . .

11.1.4 Types de questions

1) Renseignements signalétiques

2) Questions ouvertes

a) Exemple
Que pensez-vous de la manière dont le cours est donné ?
N.B.) La question est suivie d’un espace délimité destiné à recevoir la
réponse, fournie librement par l’enquêté.

3
b) Utilisation
• Analyse exploratoire
• Analyse qualitative
• Formulation ”naturelle” d’un problème
• Offre la possibilité d’exprimer tous les aspects d’une opinion,
d’une motivation, d’une conviction, d’une attitude, . . .
• Permet d’obtenir des données numériques précises

c) Avantages
c.1) Pour l’enquêté :
• Latitude dans le choix et la formulation des réponses
• Possibilité de diversité et de nuance
c.2) Pour l’enquêteur :
• Latitude dans la formulation de la question
• Utile quand on ne connaı̂t pas le champ des réponses possibles
ou qu’il est très vaste

d) Inconvénients
c.1) Pour l’enquêté :
• Risque de mauvaise compréhension des questions
• Possibilité de ne pas répondre complètement
• Travail exigeant
c.2) Pour l’enquêteur :
• Travail plus important de saisie des réponses
• Plus grande difficulté de codage, analyse et interprétation
N.B.) Recours à des méthodes d’analyse spécifiques (analyse de
contenu, analyse de données textuelles, . . . )

4
3) Questions fermées

L’ensemble des réponses possibles est proposé.

a) Types de questions fermées


a.1) Question dichotomique
Ex. : Possédez-vous un ordinateur ?
Oui
Non
a.2) Question à choix multiple à réponse unique
Ex. : Combien avez-vous d’enfants ?
Zéro
Un
Deux
Trois ou plus
a.3) Question avec échelle d’évaluation
• Ex. : Quelle est votre opinion sur le ministre Untel ?
Très mauvaise
Mauvaise
Bonne
Très bonne
Sans opinion
• Une telle échelle peut comporter ou non une case ”sans opinion”.

5
• Le nombre de modalités peut varier.
Ex. :

Les échelles d’évaluation permettent d’analyser à la fois le contenu et


l’intensité de l’attitude des répondants vis-à-vis d’un concept :
cf. échelles de sémantique différentielle d’Osgood.

Extrê- Très Assez Ni l’un Assez Très Extrê-


mement ni l’autre mement
(-3) (-2) (-1) (0) (1) (2) (3)
Personnel Personnel
incompétent compétent
Agences Agences
mal situées bien situées
Mauvais Bon
travail travail

6
a.4) Question avec réponses à cocher
Ex. : Quel moyen de transport avez-vous utilisé hier ?
Voiture
Vélo
Autobus
Tram
Métro
Train
Avion
Autre
N.B.) On peut dans ce cas cocher toutes les cases pertinentes.

7
a.5) Question avec classement
Il s’agit ici de donner un certain nombre de propositions et de demander
aux interrogés de les classer par ordre de préférence.
Ex. : Voici une liste de façons de préparer un examen de première
année d’université. Vous êtes invités à les classer par ordre d’efficacité
en écrivant 1 dans la case située à côté de la méthode que vous jugez
la plus efficace, puis 2 pour celle que vous jugez la plus efficace en
deuxième lieu et ainsi de suite.
Etudier dans le livre de référence
Etudier dans ses notes prises au cours
Etudier dans les notes d’un autre étudiant
Consulter un ou plusieurs ouvrages
à la bibliothèque
Prendre un professeur particulier
Chercher et résoudre les questions
des années précédentes
Etudier un seul chapitre
et compter sur la chance
N.B.) On peut ne demander d’indiquer que les 3 ou 4 premières
méthodes choisies.

8
b) Avantages
b.1) Pour l’enquêté :
• Facile à répondre, souvent rapide
• Plus anonyme
b.2) Pour l’enquêteur :
• Facilité de dépouillement, de codage et d’analyse
• Moins coûteux
• Réponses plus consistantes
• Peuvent servir de questions filtres
Ex. : Possédez-vous un ordinateur ?
Oui
Non
Si OUI : quand l’avez-vous acheté ?
Cette année
L’an passé
Il y a deux ans
Il y a trois ans
Il y a quatre ans ou plus
Si NON : pensez-vous en acheter prochainement ?
Oui
Non

9
c) Inconvénients
• Risque de trop simplifier un problème.
• Peut susciter une réponse non naturelle.
• Peut engendrer une réponse en l’absence de connaissance ou
d’opinion.
• Peut engendrer une réponse valorisante.
• Les modalités proposées peuvent amener des non-réponses (liste
non exhaustive, question délicate, . . . )

4) Questions semi-ouvertes (ou semi-fermées)


• Elles comportent des réponses proposées et offrent la possibilité
d’ajouter des réponses libres.
Ex. : Pourquoi suivez-vous cet enseignement ?
Parce qu’il m’est imposé dans un programme de cours
Parce qu’il constitue un préalable à d’autres enseignements que
je souhaite suivre
Parce que le sujet m’intéresse
Parce qu’il me permet d’améliorer une formation
Parce qu’il me permettra d’avoir une promotion dans ma pro-
fession
Autres raisons :
1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10
• Caractéristiques :
– Utiles quand on ne maı̂trise qu’une partie du champ des réponses
possibles.
– Plus faciles à manipuler que les questions ouvertes.
– Permet de diminuer les non-réponses pour absence d’exhaustivité.

5) Formulation des questions


• Il est bon d’anticiper les possibilités de non-réponses. En particu-
lier, il faut prévoir, explicitement ou non, la possibilité de dire ”je
ne sais pas”, ”je suis sans opinion” ou ”je refuse de répondre”.
Attention cependant à la tentation de se réfugier dans ces ru-
briques.
• Le choix des mots utilisés dans une question et sa formulation
sont importants.

11
11.1.5 Formulation des questions

L’objectif d’une question est d’obtenir une réponse traduisant exacte-


ment ou le plus fidèlement possible une réalité.

Il existe quelques consignes générales à respecter :


– Une question ne doit contenir qu’une et une seule idée.
– Elle doit être simple (utiliser des mots simples du langage courant
parlé).
– Elle doit être claire et précise (choisir des mots qui ont une seule
signification et qui ne peuvent être mal interprétés par l’enquêté).
– Elle doit être courte et directe (craindre les négations et surtout
ne pas utiliser de doubles négations).
– Elle doit être lue (ou entendue) facilement.
– Elle ne doit pas suggérer une réponse particulière.
– Elle ne doit pas comporter d’éléments d’émotivité.
– Les questions ne doivent pas - dans la mesure du possible - contri-
buer à la production de non-réponses (manque d’exhaustivité,
questions délicates, . . . ).

12
11.1.6 Agencement du questionnaire
a) Introduction et demande de collaboration
Transparence de l’origine de l’enquête et des objectifs.
b) Renseignements d’identification
Nom, adresse, sexe, . . .
c) Premières questions
Questions générales et simples, faciles à répondre. Il ne faut pas
rebuter la personne interrogée et lui faire renoncer à continuer.
d) Enchaı̂nement des questions
1) Rassembler les questions par thème.
2) Les premières questions d’un thème doivent être suffisamment
larges pour que l’on soit certain que la population visée soit
incluse dans ce premier ensemble. Ensuite, par une série de
questions plus précises, on définit une partition de ce dernier
et on délimite précisément la cible.
3) Intercaler entre les questions difficiles des questions plus fa-
ciles, dites questions ”de repos”.
4) Veiller à la cohérence, aux liaisons entre thèmes, aux redon-
dances, aux contrôles.
5) Etre attentif à la longueur du questionnaire.

13
11.1.7 Les erreurs induites par le questionnaire

Nous considérons ici à la fois les erreurs réelles et les effets impliquant
des réponses ”incorrectes”, ”biaisées”.
a) Erreurs dues au questionnaire
1) Questions fermées avec liste de réponses non exhaustive.
2) Questions incompréhensibles.
3) Questions suggérant des réponses.
Ex. : Que préférez-vous de ces deux éventualités ?
Que Monsieur X soit nommé président.
Que la guerre civile éclate.
4) Effet de halo : influence d’une question sur la question sui-
vante.
Ex. :
– ”Pensez-vous que la grande criminalité soit en progression ?”
– ”Etes-vous favorable au rétablissement de la peine de mort ?”
5) Biais de réponse sur liste : l’ordre de présentation des réponses
à une question fermée a un effet sur les réponses.

b) Erreurs dues à l’enquêté


– Biais d’acquiescement :
Tendance à répondre ”oui” pour ne pas contrarier l’interlocu-
teur, ou ”d’accord” pour ne pas avoir à discuter
– Désir d’impressionner (réponse valorisante)
– Crainte d’être mal jugé
– Désir de se conformer à la norme sociale
– Refus d’être impliqué

14
– Gêne pour répondre
– Défaillances de la mémoire
– Refus de répondre
– Désir de saboter l’enquête
– ...

N.B.) Pour mieux apprécier la proportion de personnes qui possèdent


une ”caractéristique délicate”, c’est-à-dire telle que certaines d’entre
elles n’osent pas (ou ne veulent pas) affirmer au grand jour qu’elles
possèdent cette caractéristique, on peut recourir à une méthode
de réponses aléatoires.

15
11.2 LA COLLECTE DES DONNEES

• Après avoir défini la population pour laquelle on a besoin d’in-


formations et identifié ses unités, il faut définir une technique de
collecte des données en tenant compte des coûts, des délais et de
l’existence ou non d’une base de sondage.
• L’étape de la collecte des données est une étape très importante,
caractérisée par :
- elle est souvent la plus coûteuse
- elle prend beaucoup de temps
- elle mobilise de grandes ressources humaines et matérielles
- elle affecte directement la qualité des données

11.2.1 Modes de collecte les plus courants

a) Auto-dénombrement
• L’information requise est fournie par le répondant qui complète
lui-même le questionnaire.
• Avantages :
+ Bonne couverture
+ Coût moins élevé
+ Meilleure confidentialité
+ Plus de temps pour répondre (si nécessaire)

16
• Désavantages :
− Taux de réponse faible
− Impersonnel
− Pas indiqué pour les analphabètes ou quasi-illettrés

• Modes de livraison :
- mise à la poste / retour par la poste (fax)
- livraison par une personne / retour par la poste (fax)
- livraison par une personne / reprise par une personne

b) Entrevue personnelle
• L’information requise est obtenue par une visite personnelle au
lieu de résidence (enquête sociale) ou au lieu de travail (enquête
entreprises).
• Avantages :
+ Taux de réponse élevé
+ Contact personnel avec le répondant
+ Permet de faire des observations
+ Permet la prise de mesures directes

• Désavantages :
− Coût élevé
− Formation des enquêteurs
− Déplacement des enquêteurs

17
c) Entrevue téléphonique
• L’information requise est obtenue par un contact téléphonique
avec le répondant.
• Avantages :
+ Permet un contact direct
+ Moins coûteuse et plus rapide qu’une entrevue personnelle
+ Compromis entre une visite et la poste
+ Centralisée

• Désavantages :
− Pas d’informations visuelles
− Problème éventuel de couverture de la population
(toutes les unités de la population sont-elles contactables par
téléphone ? . . . )
− Formation des enquêteurs
− Confidentialité
− Taux de réponse inférieur à l’entrevue personnelle

• La composition d’un numéro téléphonique peut aboutir à :


- une résidence
- une entreprise
- une institution
- une cabine téléphonique
- un numéro hors-service
- un problème technique
18
- un signal ”occupé”
- une sonnerie sans réponse
⇒ Taux de succès : pourcentage de numéros de téléphone com-
posés faisant partie de la population cible
• L’échantillon de numéros de téléphone peut être obtenu de différentes
manières :
1) à partir de l’annuaire téléphonique
Avantages :
+ Base de sondage facile d’accès
+ Taux de succès très élevé
Désavantages :
− Peut demander beaucoup de temps (pour une enquête na-
tionale par exemple)
− Numéros non publiés n’ont aucune chance d’être sélectionnés

2) par génération (composition) aléatoire de numéros de téléphone


Permet de joindre des numéros confidentiels et de nouveaux
numéros

d) Mode mixte de collecte


Consiste à utiliser plusieurs méthodes de collecte.
Ex. :
– Entrevue personnelle et téléphonique
– Entrevue personnelle et auto-dénombrement (recensement de la
population)

19
11.2.2 Facteurs influençant le choix d’une méthode de collecte
- Objectifs de l’enquête
- Disponibilité des bases de sondage
- Caractéristiques de la population cible
- Complexité des concepts
- Nature des questions
- Qualité des données requise (taux de non-réponse)
- Coût
- Echéancier
- Ressources disponibles (facilité d’exploitation)

Tableau comparatif des principales méthodes de collecte :


Entrevue Auto-
dénombrement
personnelle téléphonique poste/poste
coût élevé moyen faible
délais moyens courts longs
taux de élevé moyen à faible (très)
réponse élevé

20
11.2.3 Travail à faire durant la collecte
• Identifier les membres de l’échantillon
• Dépistage des unités de l’échantillon :
- nécessaire pour suivre les unités qui déménagent, changent de
nom, etc.
- coûteux mais requis pour la longitudinalité
- différencie les non-répondants des unités hors-champ
• Appliquer les procédures de collecte et de dépouillement
• Contrôler la collecte :
- rapidité des retours
- rappels si nécessaire
• Vérification des réponses

21
11.2.4 Mesures à mettre en oeuvre pour améliorer le taux de réponse

a) A l’étape de la conception
• Choisir une bonne méthode de collecte
• Anticiper le taux de non-réponse
• Tester les questions
• Avoir un bon questionnaire
• Avoir une bonne base de sondage
• Lettres d’information sur l’enquête ou rapports sur les résultats de
l’enquête (à la suite de l’enquête)

b) A l’étape de la collecte
• Etablir un bon contact avec le répondant
• Susciter l’intérêt du répondant
• Bien former les intervieweurs
• Superviser adéquatement le déroulement de la collecte
• Argent ou cadeaux

22
11.3 SOURCES D’ERREUR DANS UNE ENQUÊTE

Il existe, dans une enquête, de nombreuses sources d’erreur. Les prin-


cipales sont
– l’erreur de couverture
– l’erreur due à la non-réponse
– l’erreur d’échantillonnage
– l’erreur de mesure

11.3.1 Erreur de couverture

Elle est due au fait que certains individus dans la population ont une
probabilité nulle de figurer dans l’échantillon.

La population définie par la base de sondage ne coı̈ncide pas avec la


population que l’on désire réellement étudier.
Ex. : usage de l’annuaire téléphonique qui ne contient pas la liste des
numéros privés
Ex. : sous-dénombrement, sur-dénombrement ou doubles comptes ; in-
formation incorrecte dans la base de sondage (classification ou adresses
postales désuètes ou fausses, . . . )

23
11.3.2 Erreur due à la non-réponse

• Elle est présente si l’on ne peut pas réaliser l’enquête auprès de tous
les individus de l’échantillon qui a été constitué.

Causes :
refus, non-contact, inaptitude, invalidité de la réponse, destruction des
documents, . . .

• Il faut distinguer 2 catégories de non-réponses :


a) les non-réponses partielles : non-réponses à certaines questions du
questionnaire. Elles peuvent être dues à
- un refus de répondre
- une ignorance ou une incompréhension
- une question sautée par l’enquêteur
- des réponses supprimées parce qu’incohérentes, lors de la phase
de vérification

b) les non-réponses intégrales : non-réponses à l’entièreté de l’enquête.


Elles peuvent être dues à
- un refus de répondre
- une absence lors du passage de l’enquêteur
- une incapacité à répondre (langue, . . . )
- une incapacité à retracer une unité qui a déménagé
- une perte du questionnaire

24
Le traitement des non-réponses intégrales se pose différemment selon
que l’on se situe :
- dans une méthode empirique (méthode des quotas) où l’on ne
possède pas d’information, en général, sur les non-répondants ;
- dans une méthode aléatoire où l’on connaı̂t le nombre et, parfois,
les causes des non-réponses ;
- dans un panel où on a beaucoup d’informations sur les non-
répondants.

• De manière spécifique pour les panels, on a aussi


a) la non-réponse de vague : non-réponse intégrale qui se produit à
une ou plusieurs vagues, mais pas de façon permanente.
Elle crée des ”trous” dans la série de vagues.
Causes possibles :
- impossibilité de répondre pour une vague spécifique (données
non disponibles, . . . )
- absence temporaire

b) l’érosion (ou attrition) : réduction de la taille du panel causée par


la non-réponse intégrale chronique.
Causes possibles :
- augmentation du taux de non-réponse (refus catégoriques,
...)
- difficulté à retracer les unités longitudinales (changements d’adresse,
fusion d’entreprises, . . . )
- pas de rotation au sein de l’échantillon (haut fardeau de réponse
au cours du temps pour l’enquêté, . . . )
25
L’érosion peut souvent être réduite en utilisant des incitatifs (ca-
deaux, . . . ) et en utilisant de la rotation au sein de l’échantillon.
L’érosion doit être traitée avec soin à cause de biais potentiels si
la non-réponse est non-ignorable (cf. ci-dessous).
Les unités non répondantes sont souvent celles qui sont d’intérêt.

• On peut également classifier les non-réponses en


a) ignorables : le fait qu’une personne réponde ou non à une question
n’est pas relié à la réponse à cette question.
Ex. : On ne renvoie pas le questionnaire simplement par paresse.
b) non ignorables : tend à biaiser les résultats de l’enquête.
Ex. : Enquête sur la satisfaction des employés où seuls les employés
non satisfaits renvoient le questionnaire.

• Effet des réponses manquantes : elles créent un biais qui dépend


- du taux de non-réponse
- de l’écart entre les comportements des répondants et des non-
répondants en ce qui concerne la variable étudiée (cf. non-réponse
non ignorable).

26
• Redressement pour non-réponses
a) Relance des non-répondants (méthode de Hansen)
Parmi les n individus sélectionnés pour l’échantillon, n1 ont répondu
au questionnaire et n2 n’ont pas répondu.
Parmi ces n2 non-répondants, on tire de façon équiprobable et sans
remise un sous-échantillon s02 de taille n02 = λn2 (0 < λ < 1), et on
s’arrange pour obtenir les réponses des n02 individus réenquêtés.
L’estimateur de Hansen est
n1 n2 0
yH = y1 + y
n n 2
où
y aurait été la moyenne de l’échantillon initial si celui-ci avait été
complet
y 1 est la moyenne parmi les n1 répondants (avant la relance)
y 2 est la moyenne qui résulterait des observations auprès des n2
non-répondants ; y 2 est inconnue mais peut être approchée par
y 02, la moyenne parmi les n02 individus qui ont répondu suite à la
relance.
L’étude des propriétés de y H prend en compte le fait que la procédure
repose sur 2 niveaux d’aléas :
1) n est fixé mais aléas sur le nombre n2 de non-répondants et sur
les individus qui seront non-répondants ;
2) n2 est connu au moment de la relance mais aléas sur les n02 indi-
vidus qui seront sélectionnés lors de cette relance.
On montre que
E(y H ) = µ (non biais)
27
N.B.) On peut aussi étudier le cas de relances successives.

b) Méthodes de redressement sur critère


Ces méthodes permettent de réduire une partie du biais dû aux non-
réponses en corrigeant les estimations de leurs déformations dues à
des sous-représentations ou sur-représentations de certaines classes
(strates) de la population.
Les données de l’échantillon observé sont triées a posteriori selon les
H modalités d’un critère dont on connaı̂t la répartition dans la popu-
lation :
Nh
wh = (h=1,. . . ,H)
N
Ex. : critère=sexe - On connaı̂t la proportion d’hommes et de femmes
dans la population.
Pour chaque strate h, on note :
• n1h : nombre de réponses obtenues dans la strate h
• y 1h : moyenne parmi les réponses obtenues dans la strate h

Hypothèse : le critère de stratification n’est pas corrélé avec la variable


”Réponse - Non réponse”.
Dans ce cas, on prend comme estimateur ”redressé” (même principe
que la post-stratification) :
H
X
y REDR = why 1h
h=1

On montre que
E(y REDR) = µ (non biais)

28
Remarques :
• Dans ce type de méthodes, on estime, classe par classe, le com-
portement des non-répondants grâce à celui des répondants.
• On peut généraliser cette méthode au cas de plusieurs critères de
pondération par l’utilisation d’algorithmes dits de redressement
sur critères multiples.

• Imputation : forme de traitement de la non-réponse


- Souvent employée dans les enquêtes à défaut de pouvoir recon-
tacter les non-répondants.
- On impute une valeur plausible à une donnée manquante.
- Evaluer diverses méthodes d’imputation en se basant sur des données
réelles.
- Analyser les répercussions de l’imputation sur les estimations fi-
nales.

a) Méthodes d’imputation pour la non-réponse intégrale


• Consiste à assigner une valeur plausible à l’ensemble des variables
de la personne non répondante.
• Il existe plusieurs méthodes d’imputation : le choix dépend du
nombre de contraintes que l’on désire associer à la valeur imputée
de sorte qu’elle reflète le mieux possible la vraie valeur.
a.1) Imputation par la moyenne
- On remplace la valeur manquante par une moyenne cal-
culée à partir des unités répondantes.

29
- Ne peut pas être appliquée dans le cas de variables quali-
tatives.
- Variante :
* Diviser préalablement l’ensemble des répondants en classes
d’imputation pour ensuite calculer les moyennes à l’intérieur
de celles-ci.
* On doit savoir à quelle classe d’imputation appartient
chaque unité non répondante (difficile si l’information
est tirée de l’entrevue elle-même).
a.2) ”Hot deck”
- Consiste à tirer au hasard un des répondants de l’échantillon
que l’on appelle alors un donneur ; les valeurs des variables
du donneur sont ensuite assignées à un non-répondant
donné.
- Particulièrement utile parce qu’elle assigne automatique-
ment aux non-répondants des valeurs cohérentes provenant
directement des répondants.
- Fonctionne autant pour les variables quantitatives que qua-
litatives.
- Peut s’employer à l’intérieur des classes d’imputation.
a.3) ”Cold deck”
Elle diffère du ”hot deck” par le fait qu’elle choisit le don-
neur au sein d’une source de données externe (Ex. : données
administratives ou enquêtes précédentes)

30
a.4) Imputation multiple
- Consiste à imputer, pour un non-répondant donné, différentes
valeurs ; les estimations sont alors calculées en utilisant un
ou plusieurs des ensembles de données produits.
Ex. : plusieurs imputations par ”hot deck”
- Permet de mesurer la variabilité des estimations introduite
par l’utilisation de valeurs imputées.
- Peu employée en pratique, principalement à cause de la
multiplication des ensembles de données.

b) Méthodes d’imputation pour la non-réponse partielle


• Consiste à assigner une valeur plausible aux variables où la valeur
est manquante, sans modifier les variables qui possèdent déjà des
valeurs.
• Les méthodes d’imputation pour le traitement de la non-réponse
intégrale (imputation par la moyenne, ”hot deck”, ”cold deck”,
imputation multiple) peuvent être utilisées.
Problèmes :
Ces méthodes ne tiennent pas compte de la valeur des variables
où il y a eu réponse ; elles peuvent ainsi détruire les relations entre
les variables (structure des données).

b.1) Imputation déterministe (ou imputation par déduction)


S’applique lorsque l’on peut déterminer sans aucune ambiguı̈té la
valeur des variables manquantes.

31
b.2) Imputation par le plus proche voisin
- Le donneur est choisi en prenant celui qui se trouve le plus
proche selon une distance calculée en utilisant une ou plusieurs
des variables connues.
- Préserve assez bien la structure des données puisque l’on choi-
sit le donneur ressemblant le plus à l’unité pour laquelle une
valeur doit être imputée.

b.3) Imputation par modélisation


On estime la valeur de la variable manquante au moyen d’un
modèle qui utilise les variables connues comme variables auxiliaires
explicatives ; pour estimer les valeurs des paramètres du modèle,
on utilise les données disponibles de l’ensemble des répondants.
(Ex. : modèles linéaires, modèles logit, probit, . . . )

Important ! !
Identifier dans les ensembles de données les variables où il y a eu
imputation afin de bien tenir compte du fait qu’une partie des valeurs
proviennent non pas des unités interrogées mais d’une assignation par
imputation.

32
c) Imputation pour les panels
• Pour les panels, les méthodes d’imputation doivent tenir compte
des données des vagues précédentes et suivantes, en plus de la
vague courante.
• Utiliser seulement les données de la vague courante peut créer des
changements (ou transitions) artificiels.
• Utiliser les données des vagues précédentes et suivantes seulement
peut sous-représenter les changements.
• Méthodes d’imputation utilisables :
- imputation par le plus proche voisin (imputation par donneur)
en utilisant les données des vagues précédentes, suivantes et
actuelle pour aider à trouver le donneur ;
- imputation par modélisation en utilisant des variables auxi-
liaires provenant des vagues précédentes, suivantes et actuelle.

• Exemple :
Valeurs pour i Vague 1 Vague 2 Vague 3
Ventes 10 000 ? 11 000
Profits 15 000 30 000 16 000
Moyenne 25 000 50 000 30 000
des ventes
- Imputation par la moyenne :
ventes imputées = 50 000
(pas plausible si comparées aux vagues 1 et 3)

33
- Imputation historique :
ventes imputées = 10 500
(pas plausible si comparées à la moyenne des ventes pour
la vague 2 et également si les profits sont corrélés avec les
ventes)
- Solutions utilisant les données des vagues précédentes, sui-
vantes et actuelle :
a) Modèle 1 :
Ventes = α + β(moyenne des ventes) + erreur
= 5 000 + 0.2(moyenne des ventes) + erreur
(α et β sont estimés sur base des vagues précédentes et
suivantes)
⇒ ventes imputées = 5 000 + 0.2(50 000) = 15 000
b) Modèle 2 :
Ventes = α + β(profits) + erreur
= -5 000 + profits + erreur
(α et β sont estimés sur base des vagues précédentes et
suivantes)
⇒ ventes imputées = -5 000 + 30 000 = 25 000

34
11.3.3 Erreur d’échantillonnage

Cette erreur a été examinée dans les chapitres précédents.

11.3.4 Erreur de mesure

Elle provient des inexactitudes des réponses enregistrées. Les princi-


pales causes de cette erreur sont :
a) l’effet induit par l’enquêteur sur les réponses des enquêtés.
b) l’erreur due aux répondants : incapacité de répondre aux ques-
tions (défaillances de la mémoire, oublis, . . . ), manque de sincérité
(crainte des ennuis, désir d’impressionner favorablement, désir de
valorisation, réponses pour ne pas paraı̂tre ignorant, gêne pour
répondre, réponses conformes au ”modèle” social, . . . ), . . .
c) l’erreur due aux défauts du questionnaire ou de l’instrument de
mesure.
Erreurs dans la conception du questionnaire :
- Difficultés de vocabulaire
- Incompréhension ou mauvaise compréhension du sens des ques-
tions
- Questionnaire trop long
Ce à quoi il faut faire attention :
- Les concepts utilisés doivent satisfaire les objectifs de l’enquête
et permettre d’obtenir des réponses claires et cohérentes.
- Si le concept est déjà employé par une autre enquête, on tâche
alors d’utiliser le même concept, la même désignation et la
même définition.
35
Remarques :
- Importance d’une étude qualitative préalable (entretiens en
profondeur, . . . ) pour connaı̂tre le vocabulaire, les thèmes em-
ployés par les interviewés.
- Importance du pré-test du questionnaire.
- Une fois l’enquête effectuée, il est parfois possible de valider
les concepts et les questions par des entrevues détaillées sur le
terrain auprès d’un échantillon de répondants ; on vérifie alors
si le répondant a bien compris le questionnaire et a bien fourni
une information exacte (étude cognitive).

d) l’erreur de saisie (transcription imprécise des réponses, . . . ) et de


traitement.
Cette erreur est liée à la manipulation des questionnaires et à
l’usage de mauvaises techniques de traitement.

36

Vous aimerez peut-être aussi