Vous êtes sur la page 1sur 36

RISCD 2008

-
Sources de données et
méthodes de compilation
Thierno Aliou BALDE
Division de statistique des Nations unies

Atelier régional pour les pays africains sur la mise en oeuvre des Recommandations
internationales sur les statistiques du commerce de distribution
17-20 juin 2008, Bamako, Mali
Sommaire

 Sources de données pour les SCD –


enquêtes statistiques, sources de
données administratives et bases de
sondage

 Méthodes de compilation de données

 Stratégie de collecte de données


Sources de données pour la
compilation des SCD
 Processus de production des SCD – basé sur
des données collectées à partir de plusieurs
sources

 Sources de données statistiques – les données


sont collectées spécifiquement à des fins
statistiques

 Sources de données administratives – les données


sont crées initialement, à des fins autres que la
production de données statistiques
Sources de données statistiques
 Enquêtes statistiques
 Recensements économiques – enumération de toutes les unités de la
population; basé sur l’établissement d’un Registre d’entreprises;
permet l’établissement de bases de sondage pour les enquêtes
échantillon
 Enquêtes-échantillon – collecte de l’information sur une partie de la
population sélectionnée de manière scientifique
 Avantages des enquêtes statistiques sur les sources de données
administratives
 Les procédures de planification, d’exécution, de collection de
données et de traitement sont contrôlées par l’office statistique
 Les répondants ont moins de raison de donner des réponses
inadéquates car l’ONS garantit la confidentialité
 Inconvénients
 Utilisent beaucoup de ressources (aussi bien financières
qu’humaines)
 Alourdissent fardeau de réponse
 Taux élevés de non réponse
 Erreurs d’échantillonnage
Recensement des unités du
commerce (1)
 Types
 Partie d’un recensement à l’échelle de toute l’économie
 Recensement au niveau des sous-secteurs/activités du CD
uniquement
 Avantages
 Tend à fournir une énumération complète, à un point donné
dans le temps, des unités engagées dans l’activité
commerciale, incluant les unités du secteur informel
 Permet la collecte de SCD à des niveaux de détail suffisants
pour les longs intervalles de temps
 Inconvénients
 Limité en terme de contenu des données
 La planification, l’organisation et la conversion subséquente
des données du recensement en données SCD
 Utilise beaucoup de temps et de ressources
 Coûteux, impose un lourd fardeau de réponse aux répondants
 Les taux de réponse peuvent être bas, ce qui peut affecter la
qualité de l’information collectée
Recensement des unités du
commerce (2)
 Recommandations
 La Conduite d’un recensement complet sur les
unités du commerce est recommandée lorsque:
 Le pays ne possède pas un registre d’entreprises
statistique à jour
 Besoin d’avoir des données statistiques détaillées par
région géographique
 Les recensements doivent être suivis autant que
possible par des enquêtes-échantillons périodiques
(annuelles, trimestrielles et mensuelles)
 Les recensements des unités du commerce ne
devraient pas être conduits s’il existe d’autres
moyens de collecter et produire des SCD de qualité
suffisante
Enquêtes sur les unités du commerce
(1)
 Technique qui consiste à obtenir de
l’information sur toute la population à partir
d’une sous-population (échantillon)
sélectionnée de manière scientifique
 Les conclusions (inférence) sur la population sont
faites à partir des estimés obtenus de
l’échantillon
 Les enquêtes échantillon sont généralement
moins coûteuses que les recensements
 Peuvent être utilisés en conjonction avec des
seuils
Enquêtes sur les unités du commerce
(2)
 Enquêtes-échantillon sur le commerce
de gros et de détail
 Diverses
 Tendance à combiner plusieurs formes,
différenciées par la périodicité et les
caractéristiques des unités
 activité, taille, forme légale, type d’opération
et types de variables
 Parfois, d’autres caractéristiques telles
l’emplacement géographique, peuvent aussi
être prises en compte
Enquêtes sur les unités du commerce
(3)
 Seuils sur la taille
 La taille des unités joue un rôle important dans la
détermination de la population cible et, lorsque
nécéssaire, l’échantillon lui-même
 La plupart des enquêtes échantillons sont
conduites pour les unités se trouvant au dessus
d’un certain seuil
 Raisons à l’utilisation des seuils
 Limiter la taille de l’enquête
 Réduire le fardeau de réponse
 Prise en compte des problèmes reliés à la mise à
jour des registres (pour les petites unités)
Enquêtes sur les unités du
commerce (4)
 Seuils appropriés
 Pas de recommandation internationale
 Laissés au jugement de chaque ONS
 Peut varier d’une enquête à une autre selon les
activités couvertes et la périodicité
 Les pays sont encouragés à:
 Évaluer périodiquement la sous-couverture dûe à
l’introduction de seuils
 Inclure la description de tels seuils dans les
métadonnées
Types d’enquêtes sur les SCD (1)
 Enquêtes-entreprises
 Les unités échantillonales sont les entreprises (ou des unités
statistques appartenant à ces entreprises)
 Présuppose la disponibilité d’une base de sondage
 Base sous forme de liste – Registre d’entreprises ou liste
provenant de recensement
 Base aréolaire – un échantillon de zones est sélectionné et les
entreprises y sont énumérées
 Recommandations
 Pour les enquêtes-entreprises, la base-liste devrait être
préférée à la base aréolaire
 Plus éfficiente en termes de représentativité de l’échantillon et
aussi pour la maintenance de la base
 La base aréolaire est inappropriée pour les grandes et moyennes
entreprises opérant dans plusieurs régions géographiques
 L’approche de la base aréolaire devrait être utilisée pour les
petites entreprises opérant dans le segment informel (ou
inorganisé) de l’économie
Types d’enquêtes sur les SCD (2)
 Enquêtes-ménages (EM)
 les ménages sont les unités observées et aussi les
unités de reporting– assure la couverture de la
production des entreprises des ménages qui sont
très petites
 Inconvénients
 L’échantillon ne reflète pas une couverture
représentative des activités du commerce mais plutôt
une distribution des ménages
 La distribution des ménages est différente de celle des
activités du commerce (les activités du commerce ont
tendance à se concentrer dans les zones commerciales)
 Recommandations
 Les EM sont recommandées pour la couverture
des entreprises non incorporées des ménages qui
ne sont pas reconnues en tant qu’entités légales
séparées de leurs propriétaires
Types d’enquêtes sur les SCD (3)
 Enquêtes mixtes ménages-entreprises
 Un échantillon de ménages est sélectionné et on demande à
chaque ménage si au moins un de ses membres possède et opère
une entreprise non incorporée
 La liste des entreprises ainsi compilée est utilsée comme base à
partir de laquelle des entreprises sont sélectionnées pour fournir
l’information désirée
 Par opposition aux enquêtes ménages, ces enquêtes mixtes
collectent l’information sur les entreprises et pas sur les
personnes des ménages comme telles
 Inconvénients
 Le design d’enquêtes n’est pas efficient
 Difficultés de traiter les entreprises ayant des unités de production
dans plus d’un emplacement
 Recommandations
 Cette approche est préférée aux enquêtes ménages et aux
enquêtes entreprises à bases aréolaires lorsqu’il s’agit de
collecter des données pour estimer la production des petites
unités du commerce qui sont exclues des enquêtes entreprises à
bases de listes
Sources de données administratives (1)
 Généralement mises en oeuvre en réponse à une
législation et/ou règlement
 Chaque législation résulte en un registre des unités
 Les pays doivent utiliser ces sources de données avec
prudence
 Sources privées
 Données obtenues à partir de fournisseurs du secteur privé
 Le transfert de données vers les NSO prend la forme de
contrat moyennant le paiement d’une prime
 Recommandations
 Les producteurs de SCD doivent identifier et évaluer les SDA
disponibles dans leurs pays et utiliser celles qui sont les plus
appropriées à la compilation des SCD
Sources de données administratives (2)
 Avantages
 Couverture complète des unités et taux de non-réponse faibles
 Evite le fardeau de réponse
 Coûte moins cher aux ONS comparativement aux enquêtes
 Adapté à la couverture du segment des petites unités de la population
dont la contribution est relativement faible mais qui représente un
pourcentage substantiel du nombre d’unités de la population
 Erreurs d’échantillonnage plus faibles que dans les enquêtes, meilleure
précision

 inconvénients
 Ecart entre les données administratives et les concepts statistiques
 Mauvaise adéquation (intégration) avec les autres données du système
statistique
 Risque au niveau de la stabilité
 Les données peuvent être disponibles mais avec parfois des délais
inacceptables
 Contraintes légales sur l’accès et la confidentialité
Registre d’entreprises
 Registre d’entreprises (RE) – recommandé comme étant
la source la plus appropriée pour dériver les bases de
sondage des enquêtes du CD
 L’organisation et la conduite de toute enquête-entreprise sur les
unités du CD suppose la disponibilité d’une base de sondage
adéquate
 Base de sondage – ensemble des unités susceptibles d’être
échantillonnées, avec tous les détails à leur sujet qui pourront
être utilisés à des fins de stratification, d’échantillonnage et de
contact
 Registre d’entreprises statistique
 Liste détaillée de toutes les entreprises et des autres unités
d’une économie nationale, avec leur caractéristiques
 Utilisé pour la conduite des enquêtes, mais aussi utilisé comme
source d’information statistique
 Facilite la classification des unités selon des standards
conceptuels établis et acceptés
Registre d’entreprises statistique (1)
 Etablissement
 Registres administratifs disponibles – forment le
point de départ pour l’établissement du RES
 Lorsqu’un seul registre administratif est utilisé, le RES
résultant risque d’être déficient en termes de couverture et
de contenu et par conséquent générera des bases de
sondage inadéquates pour les enquêtes
 Les pays sont encouragés à oeuvrer pour une amélioration
de la couverture et du contenu de leurs RES en utilisant
des données provenant de plusieurs sources de données
administratives
 Besoin d’un identicateur unique pour chaque entreprise
 Maintenance
 Le RES doit être à jour
 Doit être mis à jour régulièrement pour prendre en
compte les changements dans la dynamique des
entreprises
Registre d’entreprises statistique (2)
 Sources pour l’établissement et la maintenance du
RES
 Recensement économique- fournit une liste détaillée des
unités et de leurs caractéristiques
 Sources de données administratives – TVA et autres
systèmes de taxes, fichiers maintenus par les gouvernemnts
pour la gestion de l’assurance-emploi, la sécurité (ou
assurance) sociale et autres programmes
 ‘Feedback’ des enquêtes-entreprises – fournit de
l’information nouvelle sur les changements d’adresse, la
fermeture d’entreprises, les changements dans l’activité
économique d’une unité, etc.
 Enquêtes du RE – profil des entreprises
 Autres sources potentielles - information provenant des
associations commerciales, répertoires téléphoniques ou
‘listings’ spéciaux préparés par les compagnies
téléphoniques, etc.
Profil des entreprises
Groupe d’Entreprises
- ‘holding company’

Entreprise à un ‘Holding enterprise’/ Entreprise à établissements multiples


établissement établissement servant
principalement à gérer
(contrôler) l’investissement
mainly as control investment
unit

Unité locale Unité locale 1 Unité locale 2 Unité locale 3


établissement établissement établissement établissement
ancillaire
Méthodes de compilation de données
 Processus de compilation de données
 C’est plus qu’une simple agrégation des résultats obtenus
dans les cases des questionnaires remplis
 En fait, les ONS effectuent de nombreuses opérations de
contrôle, de validation et aussi des procédures
statistiques, afin de rendre les données collectées aptes à
répondre au but statistique final
 Les répondants des enquêtes statistiques– sujets à
des erreurs lors du ‘remplissage’ des
questionnaires
 Les données sur les SCD collectées à partir des
enquêtes statistiques – affectées par des erreurs
de toutes sortes (erreurs de réponse et non réponse )
Validation des données et vérification
(1)
 Fait partie intégrante des opérations de traitement
dans tous les types d’enquêtes statistiques
 Servent à résoudre les problèmes de données
manquantes, invalides ou des réponses
inconsistantes
 Vérification
 Examen systématique selon des règles prédéterminées,
des données collectées afin d’identifier et éventuellement
corriger les valeurs inadmissibles, douteuses ou
improbables
 Processus essentiel pour assurer la qualité de
l’information collectée
 Types vérification
 Micro-vérification (intrants) – se concentre sur la
vérification des enregistrements individuels
 Macro vérification (extrants) – vérifie les données
agrégées
Validation des données et vérification
(2)
 Vérification sélective
 Consiste à établir un ordre de prorité sur les
enregistrements à vérifier, de sorte à réduire les coûts de
la vérification
 Vise seulement les ‘champs’ des micro-données qui
pourraient avoir un impact significatif sur les résultats de
l’enquête sur les SCD
 Recommandée pour la vérification des données du
commerce de distribution
 Observations influentes
 Réponses pour des variables particulières qui ont un
impact considérable sur les principaux estimés
 Les efforts de vérification doivent être centrés sur elles
Validation des données et vérification
(3)
 Contrôles de détection des erreurs
dans les données sur les SCD
 Contrôles de routine – vérifie si toutes les
questions ont été répondues
 Contrôles de validation – vérifie si les
réponses sont admissibles
 Contrôles de rationalité – vérification
basée sur une analyse statistique des
données fournie par les répondants
 Contrôles de plausibilité – utilisée pour
capter les grandes erreurs (aléatoires)
Imputations (1)
 Données manquantes
 Existent dans la plupart des enquêtes statistiques sur le
CD
 Posent problème pour la vérification
 Types de données manquantes
 Non-réponse de ‘champ’ (ou partielle)– les données d’un
champ (ou cellule) particulier for a particular data item of
the questionnaire is missing
 Non-réponse d’unité (ou totale)- L’unité sélectionnée n’a
pas retourné de questionnaire rempli
 Techniques de traitement des données manquantes
 Imputations
 Repondération (mise à jour des poids d’échantillonage)
Imputations (2)
 Remplacer une ou plusieurs réponses manquantes
ou erronées d’un enregistrement par des valeurs
plausibles et consistantes
 Processus de ‘remplissage’ des cellules vides
 Voies et moyens pour produire un questionnaire
complété à partir de valeurs imputées
 Utilisée principalement dans le cas de non réponse
partielle
 Substitution - Utilisée dans le cas de non réponse totale
lorsque:
 Données disponibles sur l’unité dans les précédentes
périodes
 Données disponibles sur l’unité à partir de sources
administratives
Imputations (3)
 Méthodes d’imputation usuelles
 Imputation par la Moyenne/mode
 Post-stratification
 Substitution
 ‘Cold deck’ – utilse un ensemble de valeurs
fixes, qui couvrent l’ensemble des variables
pertinentes
 ‘Hot deck’ – remplace chaque valeur manquante
par celle d’un ‘donneur’ ', i.e. une unité de
l’enquête ayant des caractéristiques similaires
 Imputation ‘hot deck’ séquentielle
 Imputation par le plus proche voisin ou ‘distance
minimum’
 Imputation par la régression (basée sur des
modèles)
Non réponse de champ
 Stratégies
 Ignorer les questionnaires incomplets et
baser l’analyse sur les questionnaires
complétés
 Pas recommandée car on perd les
données valides contenues dans les
questionnaires incomplets
 Les données manquantes doivent être
imputées de manière à obtenir une
matrice complète et cohérente
Non réponse d’unité
 Causes de la non-réponse d’unité:
 Unité non existante ou hors champ (mais qui a été incluse dans
l’enquête)
 Le répondant ne connaît pas (ou ne réalise pas) l’importance de
l’étude ou aussi l’importance de sa réponse sur l’enquête
 Refus du répondant
 Le répondant ne sait pas comment répondre
 Manque de ressources
 L’information désirée est non disponible
 Façons de minimiser la non réponse
 Sensibilisation du répondant sur l’importance des enquêtes
 Travail de proximité auprès des respondents pour ‘les mettre de
son côté’ (partenariat)
 Rappels de suivi, et (dans les cas extrêmes) invocation de la loi
 Stratégies pour traiter la non réponse
 Repondération – les poids sont mis à jour de façon à ne tenir
compte que des unités répondantes
 Diverses formes d’imputation – similaires à celles déjà vues sur la
non-response de champ
Stratégie de collecte de données (1)
 Les enquêtes et/ou les sources de données
administratives sur les SCD doivent couvrir toutes les
unités engagées dans des activités économiques
comprises dans le champ du commerce de distribution
(Section G de CITI, Rev.4)
 Les unités de toutes tailles et de tous types incluant les
corporations et les unités non incorporées

 Stratégie de collecte
 Les ONS doivent développer leur propre stratégie de
collecte de données
 S’assurant d’avoir une couverture complète des activités
du secteur du CD
 Basée sur une approche intégrée et couvrant toutes les
unités et toutes les classes de taille de ces entreprises
 Adaptée à leurs circonstances spécifiques tant au niveau
statistique qu’organisationnel
Stratégie de collecte de données (2)
 Entreprises publiques incorporées
 Un repertoire de ces unités est généralement disponible
dans la plupart des cas
 Doivent être couvertes par énumération complète
 Entreprises incorporées privées
 Grandes unités
 Doivent être couvertes si possible, par énumération complète
 Autres unités
 Significatives en nombre mais relativement homogènes
 Doivent être couvertes par enquêtes-échantillon
 Petites entreprises
 Enquêtes-échantillon – Si elles sont dans le RE ou alors en
utilisant des données administratives (données de taxe sur
les entreprises)
 Approche ‘FIRST’ (Fully Integrated Rational Survey
Technique) – si pas de RE disponible pour les entreprises
non incorporées
Stratégie de collecte de données (3)

Population totale des unités


engagées dans les activités de
commerce

Incluses dans le Registre Non incluses dans le


d’entreprises Registre d’entreprises
(Segment de la base-liste)

Grandes unités Petites unités Avec des Sans locaux


locaux fixes fixes

Secteur public Secteur privé Couvertes soit  1 Base aréolaire


par enquêtes
Segment 1: échantillon  2 Doivent être couvertes par
Doivent être Les grandes unités soit par des enquêtes échantillon
couvertes par doivent être couvertes
énumeration par énumération données
complète complète admin.
Segment 2:
Les unités restantes
doivent être couvertes
par enquêtes échant.
Méthode ‘FIRST’ (1)
 Programme d’enquêtes qui capture de manière éfficiente et
intégrée de l’information statistique détaillée sur toutes les
entreprises du CD opérant dans une économie
 Mise en oeuvre
 Requiert deux ensembles d’information statistique
 Énumération complète, un recensement économique de préférence -
pour pouvoir établir les bases de sondage nécéssaires aux enquêtes
échantillon
 Recensement de la population – alternative en l’absence de recensement
économique
 Documentation de support sur les zones géographiques/blocs
d’énumération qui vont servir de support à l’énumération de base
 Diviser les unités en deux segments
 Segment de base-liste – regroupe les ‘grandes unités’, qui sont
généralement en nombre relativement faible et clairement
distinguables des autres unités par leur statut légal
 Segment aréolaire – incluant aussi toutes unités restantes qui ne
peuvent être couvertes que par l’approche de base aréolaire
Méthode ‘FIRST’ (2)
 Segment de la base-liste
 Population peut être hétérogène en termes de taille et
caractéristiques
 Les enquêtes dans ce segment utilisent des bases de sondage
tirés de RE ou de répertoires d’unités
 Segment aréolaire
 Étape 1 – sélectionner un échantillon de zones
 Étape 2 – identification (liste) de tous les établissements des
zones sélectionnées dans l’étape 1
 Les établissements qui appartiennent au champ des SCD sont classés
par type-d’activité
 Sélectionner un échantillon à partir de cette liste d’établissements
 Unités mobiles
 Tous les établissements de la zone sélectionnée, identifiables et
situés en dehors de la maison des propriétaires et aussi les
entreprises à l’int.rieur de l’habitation (listées par visites de maison à
maison)
 Les autres unités n’ayant pas de locaux fixes (vendeurs de rue, etc.)
sont identifiées à partir de questions additionnelles posées lors des
visites d’identification des ménages
Enquêtes sur le CD
 Enquêtes annuelles
 Doivent fournir des estimés qui couvrent tous les établissements du
commerce de gros et de détail
 Les enquêtes détaillées ne sont pas souvent nécéssaires
 Les établissements au dessus d’un certain seuil pourront être énumérés alors
que pour les autres unités, on utilise l’échantillonnage
 Toutes les unités de l’échantillin doivent recevoir le questionnaire, mais les
petites unités doivent recevoir une version abrégée
 Les estimés pour les petits établissements peuvent être faits à partir de
données administratives ou à partir d’autres approches telles les enquêtes
mixtes ménage-entreprise
 Enquêtes infra-annuelles (mensuelles, trimestrielles)
 Couverture plus restreinte
 Petits établissements – couverture sujette à leur importance et aussi à
la disponibilité de données adminstratives
 Enquêtes non fréquentes (5-10 ans)
 Utilisées pour collecter des données sur des sujets spécifiques ou à des
niveaux de détail élevés
 Pas appropriées pour collecter et compiler des statistiques structurelles
sur les SCD
Période de référence
 Enquêtes annuelles
 Les données se rapportent à une période de 12
mois
 De préférence, l’année calendaire
 Autres options
 Pour certains établissements, les données sont disponible
sur une base fiscale (plutôt que calendaire)
 Quelques variables telles que les salaires et émoluments
doivent être collectées aussi bien sur base calendaire que
fiscale pour faciliter la construction de données agrégées
calendaires annuelles
 Pour la plupart des établissements, les données sont
disponibles sur la base fiscale (période comptable)
 Enquêtes infra-annuelles
 Les mois et trimestres calendaires sont
recommandés à titre de période de référence
Merci