Vous êtes sur la page 1sur 5

Économie rurale

Quelle informatique pour l'économétrie ?


J.C. Poupa

Résumé
La démarche économétrique mobilise un ensemble important de méthodes numériques et statistiques, dont certaines sont
spécifiques. Cet article, après avoir regroupé ces méthodes en plusieurs grandes catégories, examine comment un certain
nombre de logiciels connus peuvent répondre aux besoins des économètres. Dans un second temps, il aborde le problème de
la gestion et de la documentation des données utilisées et celui de l'interface avec des logiciels ou programmes variés. Le
dernier chapitre donne un exemple d'environnement informatique pour l'économétrie et décrit un produit créé spécialement pour
répondre à ce type de demande.

Abstract
The art and science of econometrics needs an important set of statistical and numerical methods. Some of them are specific to
the particular field of econometrics. This paper emphasizes several packages. Choosing among them is a difficult task.
Therefore we are giving some guidelines. An other important question regards data banks. We are presenting a specific
package specially designed for linking economic data with econometric programs.

Citer ce document / Cite this document :

Poupa J.C. Quelle informatique pour l'économétrie ?. In: Économie rurale. N°157, 1983. pp. 97-100;

doi : https://doi.org/10.3406/ecoru.1983.3001

https://www.persee.fr/doc/ecoru_0013-0559_1983_num_157_1_3001

Fichier pdf généré le 08/05/2018


ECONOMIE
n° 157, septembre-octobre
RURALE 1983

QUELLE INFORMATIQUE POUR L'ECONOMETRIE ?


J.C. POUPA
INRA - Rennes

Résumé :
La démarche économétrique mobilise un ensemble important de méthodes numériques et statistiques, dont
certaines sont spécifiques. Cet article, après avoir regroupé ces méthodes en plusieurs grandes catégories, examine
comment un certain nombre de logiciels connus peuvent répondre aux besoins des économètres. Dans un second temps,
il aborde le problème de la gestion et de la documentation des données utilisées et celui de l'interface avec des
logiciels ou programmes variés. Le dernier chapitre donne un exemple d'environnement informatique pour l'économétrie
et décrit un produit créé spécialement pour répondre à ce type de demande.

Summary :
WHICH PROCESSING FOR ECONOMETRICS ?
The art and science of econometrics needs an important set of statistical and numerical methods. Some of them
are specific to the particular field of econometrics. This paper emphasizes several packages. Choosing among them
is a difficult task. Therefore we are giving some guidelines. An other important question regards data banks. We
are presenting a specific package specially designed for linking economic data with econometric programs.

La démarche économétrique requiert, du point de vue phase antérieure. Dans ces conditions, il est souhaitable que
informatique, à la fois des procédures de calcul et de gestion de l'outil informatique puisse intervenir le plus tôt possible en amont
données. Quelles sont ces procédures ? Quelles sont leurs fonctions ? de la démarche, donc pour tous les aspects de gestion et de
Comment s'articulent ces fonctions dans un environnement documentation des données.
informatique de recherche ? 1-2. - Les moyens informatiques pour la gestion des données
Ces tâches s'effectuaient traditionnellement en partie à
1. LES PROCEDURES DE GESTION DE DONNEES l'extérieur de la sphère informatique, à l'aide de fiches explicatives
associées aux bordereaux de saisie, la machine n'étant
1-1. - Les besoins pratiquement utilisée que pour l'ultime conditionnement des données
Les données utilisées en économétrie sont généralement des avant la phase de calcul. Notons ici que les seules opérations de
séries chronologiques de périodicité annuelle, trimestrielle ou lecture et d'écriture, selon une syntaxe très rigoureuse et sous une
mensuelle. La méthode spatio-temporelle exploite des données forme parfois difficilement lisible, consommaient tout autant
observées simultanément dans le temps et l'espace, au niveau d'« énergie programmeur » que le calcul proprement dit, ce qui
d'unités géographiques telles que la région ou le département. limitait beaucoup les possibilités d'exploration systématique. La
Les variables de base sont donc soit des vecteurs, soit des situation pouvait être pire encore lorsqu'il fallait transiter par
matrices lorsque la dimension spatiale s'ajoute à la dimension un service de perforation-vérification de cartes.
temporelle. Les systèmes informatiques de gestion de bases de données
La construction d'un modèle économétrique exige d'abord de offrent des possibilités nombreuses pour simplifier ce travail :
disposer de données propres, fiables et documentées : comment structuration des fichiers, documentation illimitée, désignation
ont-elles été élaborées ? D'où proviennent-elles ? L'instrument simple des variables par leur nom, saisie directe en format libre
de mesure est-il invariant dans l'espace et le temps ? etc. L'éco- et avec contrôle, mise à jour facile, accès immédiat aux données,
nomètre se heurte aux mêmes problèmes que le statisticien. Il partage des fichiers, etc. Plusieurs logiciels statistiques ou d'éco-
doit disposer pour chaque variable non seulement d'une sérrie nométrie gèrent leurs propres bases de données (SAS, TROLL,
de valeurs numériques, mais aussi d'une suite d'attributs APACHE (1) ou accèdent à des bases de données externes
documentaires : descriptif, source, homogénéité, références aux (version IBM de TSP). La plupart lisent les données dans une
définitions, transformations subies, conventions pour des données section spécialisée, parfois en format libre ou selon des
manquantes ou des raccordements de séries, etc.. Ces spécifications du type de celles traditionnellement utilisées dans le
ensembles de données acquièrent parfois de très grandes dimensions langage Fortran (TSP, SPSS, GLIM, EAS...). Il faut alors
en particulier pour des modèles macroéconomiques. Il peut prévoir des procédures d'interface avec le système de gestion des
s'avérer nécessaire de prendre en compte un grand nombre de bases de données. Le problème est le même pour ranger des
variables dans la phase d'exploration, pour n'en retenir qu'un variables issues de la phase de calcul.
nombre plus limité dans la phase de formalisation du modèle. Les
résultats des tests statistiques puis le comportement du modèle
en simulation conduisent à éliminer ou à transformer certaines 1. Les références des logiciels cités sont regroupées dans une liste
variables, à en ajouter d'autres éventuellement exclues dans une reproduite en annexe.

97-
Le concept de base de données est utilisé dans son sens le plus concerne le seul modèle linéaire, si la procédure des moindres
large. Il peut s'agir des bases de données relationnelles carrés ordinaires est présente dans beaucoup de logiciels
classiques ou de produits spécifiques réalisés par des équipes. Dans statistiques, il n'en est plus de même pour des méthodes qui font
cette dernière solution, les procédures sont conçues en fonction intervenir des variables instrumentales, des variables retardées
des besoins exprimés et des ressources d'un site et sont donc (Almon) ou d'autres hypothèses sur les résidus (Orcutt-Cochrane,
d'utilisation extrêmement simplifiée par rapport à des produits Hildreth-Lu, Durbin...). On recherchera éventuellement, en
d'intérêt beaucoup plus général : ainsi la base de données MGVM fonction de ses préoccupations, des estimateurs pour les modèles non
permet, à l'aide d'une dizaine de commandes très simples et d'une linéaires, les systèmes à équations simultanées, les méthodes dites
assistance conversationnelle, de gérer de grands ensembles de spatio-temporelles, l'analyse spectrale, etc..
vecteurs ou de matrices mais aussi d'assurer l'interface avec La complétude apparente d'un logiciel économétrique n'est
l'ensemble des logiciels de calculs externes. pas sa seule qualité. Il faut également veiller à ce que le langage
proposé soit aussi proche que possible du formalisme
2. LES MOYENS DE CALCUL mathématique usuel, pour faciliter tant la mise au point des programmes
Les calculs économétriques pourraient, pour chaque que leur réutilisation. Le langage sera encore meilleur s'il offre
application, être traduits dans un langage de programmation : une une grande liberté dans le choix des notations : le fait de
recherche en économétrie exigerait alors la collaboration d'une nommer directement les variables et parfois de désigner une
équipe d'informaticiens. L'intérêt des logiciels est justement de équation ou un groupe d'équations par un nom permet de ne pas
permettre aux économètres de mobiliser les procédures de perdre de vue la signification mathématique des opérations et le
calcul les plus communément utilisées sans devoir réécrire les contenu économique du modèle.
algorithmes et les traduire dans un langage. Ces procédures de
calcul sont ici classées en cinq chapitres : description statistique, 2-4. - La simulation
transformations de données vectorielles ou matricielles, Cette étape peut intervenir dès qu'un modèle cohérent sur le
estimation de paramètres, simulation, algorithmique numérique. plan statistique est construit. La simulation des phénomènes
2-1. - La description statistique économiques étudiés sur la période d'estimation et à partir des
valeurs observées des variables exogènes constitue un premier
Cette tâche se situe en amont de la démarche économétrique. test de validation du modèle. La simulation pour l'avenir
Elle a pour objet de faire le point sur l'ensemble des données permet d'examiner la stabilité du modèle et dans le meilleur des cas,
statistiques disponibles : comment se regroupent les variables ? de construire des variantes en fonction d'un corps
Comment sont-elles corrélées ? Il s'agit en fait d'une d'hypothèses. Sur le plan mathématique il s'agit de calculer les coefficients
structuration préalable des données pour guider les choix ultérieurs et d'un système d'équations puis de le résoudre pour chaque période
éviter une exploration trop aléatoire ou trop coûteuse. Des d'observation. Les valeurs instantanées des variables endogènes
procédures de statistique descriptive existent généralement dans les sont les inconnues. Les coefficients instantanés sont calculés à
logiciels d'économétrie mais elles couvrent un champ plus ou moins partir des valeurs fournies pour les variables exogènes
restreint. Les logiciels statistiques généraux sont beaucoup plus (instantanées ou décalées) et des valeurs des variables endogènes
complets, qu'il s'agisse des méthodes classiques ou, multidimen- décalées. La simulation est dite dynamique lorsque ces dernières
sionnelles, et sont mieux adaptés à des démarches exploratoires valeurs sont celles calculées à la période antérieure, statique s'il
dont l'intérêt est de dégager une première vue d'ensemble (SPSS, s'agit de valeurs observées.
SAS, BMDP, etc.). Des procédures de simulation existent indépendamment des
2-2. - La transformation des données logiciels d'économétrie mais leur présence dans ces logiciels (TSP,
La variable utilisée dans un modèle est rarement la variable TROLL) est intéressante dans la mesure où elle évite des
brute directement issue de l'observation économique. Elle peut passages d'un produit informatique à un autre, avec tous les
être une fonction de plusieurs variables, un indice, une moyenne problèmes d'interface qui peuvent se poser. Ces simulations peuvent
mobile, etc. Il faut donc fabriquer ces variables et mémoriser aussi s'effectuer par programmes, avec l'aide éventuelle des
les transformations effectuées. Bien qu'il s'agisse de procédures de résolution de systèmes d'équations disponibles dans
transformations arithmétiques simples sur des vecteurs ou des matrices, des bibliothèques d'analyse numérique (NAG). Leur mise en
on appréciera la présence d'outils adaptés dans un logiciel dans œuvre pratique exige cependant une connaissance élémentaire
la mesure où ils évitent des va-et-vient permanents avec des des algorithmes classiques de résolution des systèmes linéaires
programmes externes. Parmi les fonctions les plus communes, on et non linéaires, avec leurs hypothèses d'application et leurs
peut citer les opérations arithmétiques sur les séries (qui conditions d'initialisation pour certains d'entre eux.
utilisent le formalisme usuel des expressions arithmétiques), les
procédures de calcul d'indices, des outils d'interpolation, 2-5. - L'algorithme numérique
d'extrapolation ou de raccordement et quelques utilitaires très Les méthodes économétriques mobilisent et adaptent des
pratiques de type désaisonnalisation ou calcul d'amortissements. Au procédures numériques très générales : calcul matriciel, algorithmes
cours de cette phase, il est absolument indispensable de pouvoir d'optimisation, dérivations vectorielles, etc. Un logiciel pour
documenter les variables créées ou transformées, pour ne pas lequel le langage prévoit l'accès direct à de telles fonctions
prendre le risque de fabriquer une base de données qui élémentaires permet à l'économètre de calculer par exemple son
deviendrait vite inexploitable. propre estimateur, en progressant au pas-à-pas, à partir d'une
expression formalisée avec les conventions mathématiques usuelles. Les
2-3. - L'estimation de paramètres procédures numériques utiles peuvent être disponibles dans
L'intérêt d'un logiciel d'économétrie est lié pour une grande d'autres disciplines (recherche opérationnelle, physique). En
part à ce chapitre, vu que les estimateurs spécialisés n'existent conséquence, il vaut mieux prendre du recul par rapport aux
généralement pas dans les logiciels statistiques et que leur mise techniques utilisées pour être en mesure d'abord de maîtriser les
en œuvre numérique, comme leur traduction informatique, algorithmes puis, en fonction des résultats de cette analyse, de savoir
s'avère être parfois complexe et coûteuse. Les programmes exploiter judicieusement l'ensemble des ressources disponibles
correspondants sont optimisés et fournissent un ensemble de dans un centre de calcul et dans son environnement. On quitte
résultats indispensables pour l'économètre et qui ne figurent pas alors le domaine économétrique pour rejoindre les domaines
nécessairement dans des produits à vocation plus générale. En ce qui informatiques et numériques.

-98
3. L'ENVIRONNEMENT INFORMATIQUE moyens classiques de l'informatique, en l'occurrence les
POUR L'ÉCONOMÉTRIE langages de programmation dits de haut niveau et leurs bibliothèques
Les besoins informatiques pour une recherche de type de programmes. Dans ce cas, quel que soit le langage utilisé, il
économétrique étant globalement répertoriés, il reste à se définir un vaut mieux ne pas procéder au coup par coup mais prendre le
environnement de travail, lequel dépend de la nature et de la temps de formaliser et de structurer les algorithmes puis de
dimension des problèmes traités mais aussi des ressources paramétrer et de documenter les produits créés. Ainsi se construit
informatiques accessibles. progressivement un environnement de recherche adapté aux
besoins exprimés par les équipes.
3-1. - Les limites des logiciels
On pourrait être tenté de croire, en regard de certaines 3-2. - L'interface entre les bases de données
argumentations, que l'outil universel capable de résoudre tous les et les logiciels et programmes
problèmes d'économétrie existe sur le marché du logiciel : la mise Une condition nécessaire pour accéder à tout produit logiciel
en œuvre de cet outil se limiterait à l'application scrupuleuse de ou programme externe est de préserver au maximum
règles d'utilisation consignées dans un manuel. Certes des l'indépendance entre les procédures de calcul et les bases de données. Cette
produits logiciels très performants et très complets, faciles à indépendance évite d'être lié à un seul produit, éventuellement
utiliser, sont proposés mais le praticien se heurte de fait à de incomplet et obsolescent, et facilite grandement les transferts d'un
nombreuses difficultés imprévues, liées à la clarté et à la cohérence site informatique vers un autre.
du langage, à la qualité de la documentation et aux Dans le contexte du Centre Régional Interuniversitaire de
performances réelles des programmes. Dès que Ton s'écarte des méthodes Calcul de Bretagne,, implanté à Rennes, les économètres accèdent
standards, l'outil logiciel devient de plus en plus inadapté. principalement à deux logiciels : APACHE et TSP. Le premier,
L'existence de fonctions numériques (procédures de calcul matriciel, dans sa version originale, gère des fichiers pour lesquels l'accès
programmes d'optimisation, gradient, hessien, etc..) peut aider à une variable s'effectue via un numéro d'ordre. Le second lit
à résouder davantage de problèmes mais cette façon relativement des vecteurs d'observations rangés séquentiellement ou des
empirique de procéder peut aboutir à un gaspillage très matrices du type observations-variables, le programmeur ayant la
important de ressources humaines et informatiques, avant de se possibilité de nommer les variables. Quant aux logiciels statistiques
heurter à ses propres limites : complexité des programmes, coûts comme SPSS ou BMDP, ils lisent les données sous la forme d'un
excessifs, difficulté d'interpréter les erreurs et de vérifier tableau observations-variables mais avec des variantes dans les
l'exactitude des résultats... Elle est de plus éprouvante pour le syntaxes autorisées. Un logiciel spécialisé, MGVM, créé pour
praticien et très peu rationnelle, voire archaïque, pour l'informaticien, l'économétrie, permet d'extraire les jeux de données pour les
Cette remarque se justifie d'autant plus que beaucoup de soumettre aux différents logiciels de calcul selon des formats
logiciels sont de conception relativement ancienne et n'intègre pas complètement définis en mode conversationnel et dans le langage
un certain nombre de progrès récents. naturel. Les valeurs calculées peuvent en retour être
Après que les possibilités offertes par les différents outils documentées et archivées dans les bases de données. Le schéma
logiciels aient été examinées, il peut être nécessaire de recourir aux ci-dessous illustre la structuration de cet environnement.

bases de données
mgvtn intermédiaires saisie
mise à jour
' consultation
1

If
1 i '
'

données
i

Bases
SPSS de données

m g vn> transferts
tats

BMDP

Autres
logiciels

environnement associé a une tâche


environnement associé à un projet de recherche .bases de données communes

Schéma : interface entre base de données et logiciels.

-99-
3-3. - Description de MGVM. mentés par MGVM. Pour faciliter cette tâche, des améliorations
MGVM offre un nombre volontairement réduit de ont été apportées aux logiciels APACHE et TSP afin
commandes, regroupées en quatre chapitres : création d'une base de d'autoriser un accès direct aux fichiers structurés gérés par MGVM.
données, modification et mise à jour, édition et sélection pour les
logiciels, transformations numériques. Ces commandes sont sur
le plan informatique totalement indépendantes et sont en fait
pilotées par un programme superviseur qui contrôle d'une part
toutes les opérations sur les fichiers et d'autre part un certain Avant la phase de développement des logiciels, les calculs
nombre d'événements imprévisibles. Cette structuration permet économétriques ne pouvaient être effectués que par des spécialistes
de s'adapter aisément à toute évolution ou transformation de qui maîtrisaient simultanément les méthodes d'analyse
l'environnement informatique, ou à des demandes formulées par numérique et aux moins un langage informatique. Aujourd'hui l'éco-
des équipes : des commandes d'accès aux logiciels nouveaux riomètre est en mesure de résoudre seul un certain nombre de
s'ajoutent progressivement à la version originale ; des outils problèmes en mobilisant judicieusement les ressources des sites
d'empilement de vecteurs ont été créés pour répondre aux besoins informatiques sur lesquels il peut travailler. On peut penser en
exprimés par les économètres ; plusieurs opérateurs spécifiques outre que des produits nouveaux, beaucoup plus performants
de transformation des matrices en vecteurs sont disponibles » La parce qu'intégrant à la fois les connaissances linguistiques
documentation de base est accessible en ligne et les réponses actuel es et les progrès technologiques récents, seront commercialisés
erronées sont systématiquement interprétées et reformulées. dans les années à venir.
La gestion d'une telle base de données est très simple. Le Confrontées à cette situation, les équipes, en économétrie
traditionnel bordereau de saisie, dans lequel chaque caractère est comme dans d'autres disciplines, se heurtent au problème de
dûment positionné, est remplacé par un texte libre qui est l'évaluation d'un logiciel ou d'un environnement informatique.
interprété. Les outils d'édition offrent des possibilités de contrôle Comment procéder à cette évaluation ? Faut-il adopter une
adaptées à la nature des données et assurent l'interface avec les attitude très pragmatique qui se réfère à quelques expériences et à
logiciels : les variables choisies sont désignées par leurs noms et des tests sur des exemples d'école ? Faut-il au contraire
rangées dans des fichiers intermédiaires conformément aux examiner d'abord les propriétés formelles du langage proposé puis
spécifications fournies ou aux exigences des logiciels. construire une méthode rigoureuse d'évaluation ? En fait ces
Les données calculées par les logiciels peuvent être archivées interrogations débordent largement du cadre d'une discipline
dans la base de données : elles transitent par des fichiers particulière et renvoient à la question beaucoup plus générale de la
intermédiaires, produits par des logiciels puis repris, contrôlés et définition d'un environnement scientifique de recherche.

ANNEXE : Liste des logiciels cités


APACHE Logiciel d'économétrie. Ministère de l'Economie. Direction Calcul de Bretagne, Université de Rennes 1 . UER de
de la Prévision. Division Informatique. 151, rue Saint- Mathématiques et d'Informatique.
Honoré, 75056 Paris R.P. NAG Numerical Algorithms Group. 256 Banbury Road, Oxford
BMDP Biomédical Computer Programs. University of California OX2 7DE.
Press, 2223 Fulton Street, Berkeley, California 94720. SAS Stastistical Analysis System. SAS Institute Inc. Box, 8000
EAS Econometric Analysis System. Oklahoma State University. Cary, North Carolina 27511.
Department of Agricultural Economics, Stillwater Okla- SPSS Statistical Package for the Social Sciences. SPSS Inc. Suite
homa 74078. 3000, 444 North Michigan Avenue, Chicago, Illinois 60611.
GLIM Generalised Linear Interactive Modeling. 7 Banbury Road, TROLL Time-shared Reactive On-Line Laboratory, National Bureau
Oxford OX2 6NN. of Economics research, inc. Computer research center for
MGVM Module de Gestion de Vecteurs et de Matrices. INRA, economics and management science, 575 Technology square,
Station d'Economie et de Sociologie Rurales, 65, rue de Saint- Cambridge. Massachusetts 02139.
Brieuc, 35042 Rennes cedex. Centre Interuniversitaire de Time Series Processor, TSP International, 928 mears court,
Stanford, California 94305.

-100-

Vous aimerez peut-être aussi