Vous êtes sur la page 1sur 15

Économie rurale

La démarche économétrique : principes et difficultés illustrés à partir


d'un exemple
Mr François Bonnieux

Citer ce document / Cite this document :

Bonnieux François. La démarche économétrique : principes et difficultés illustrés à partir d'un exemple. In: Économie rurale.
N°157, 1983. pp. 35-47;

doi : https://doi.org/10.3406/ecoru.1983.2996

https://www.persee.fr/doc/ecoru_0013-0559_1983_num_157_1_2996

Fichier pdf généré le 08/05/2018


Résumé
Cet article est basé sur un exemple réel emprunté à l'économie régionale. Il propose une présentation
non théorique de l'économétrie. Il vise à donner un aperçu de la démarche aux lecteurs dont la
formation mathématique est élémentaire. La mise en évidence des différentes questions abordées
repose sur le modèle de la régression.
On insiste d'abord sur la construction du modèle et on discute l'ajustement par les moindres carrés.
L'évaluation du modèle est traitée en détails : comparaison entre estimations et valeurs a priori,
jugement sur les signes et les ordres de grandeur, influence des variables exogènes. Les
conséquences de la colinéarité ainsi que les effets de différentes erreurs de spécification donnent lieu
à une discussion. Une dernière partie est consacrée à l'analyse de la covariance et à la technique des
variables indicatrices.

Abstract
This article is based on a real world example from regional economics. It is a mathematical
presentation of the principles of econometric theory. Its objective is to acquaint readers with a simple
mathematical training. Regression is used throughout the text to demonstrate the points made.
Model development is stressed early on. There is also a discussion of least squares fitting. Special
emphasis is put on model evaluation : how well do the coefficient estimates conform to a priori
expectations ? Are the signs and magnitude "Correct" ? Are the coefficients different from zero ? The
consequence of multicollinearity and the effects of various specification errors are discussed in detail.
A final section is devoted to covariance analysis and dummy variable technique.
ECONOMIE
n° 157, septembre-octobre
RURALE 1983

LA DEMARCHE ECONOMETRIQUE :
PRINCIPES ET DIFFICULTÉS ILLUSTRÉS À PARTIR D'UN EXEMPLE
F. BONNIEUX
INRA - Rennes

Résumé :
Cet article est basé sur un exemple réel emprunté à l'économie régionale. Il propose une présentation non
théorique de l'économétrie. Il vise à donner un aperçu de la démarche aux lecteurs dont la formation mathématique est
élémentaire. La mise en évidence des différentes questions abordées repose sur le modèle de la régression.
On insiste d'abord sur la construction du modèle et on discute l'ajustement par les moindres carrés. L'évaluation
du modèle est traitée en détails : comparaison entre estimations et valeurs a priori, jugement sur les signes et les ordres
de grandeur, influence des variables exogènes. Les conséquences de la colinéarité ainsi que les effets de différentes
erreurs de spécification donnent lieu à une discussion. Une dernière partie est consacrée à l'analyse de la covariance
et à la technique des variables indicatrices.

Summary :
BUILDING AND USING OF ECONOMETRIC MODELS : A PROBLEM - SOLVING PAPER
This article is based on a real world example from regional economics. It is a mathematical presentation of the
principles of econometric theory. Its objective is to acquaint readers with a simple mathematical training. Regression
is used throughout the text to demonstrate the points made.
Model development is stressed early on. There is also a discussion of least squares fitting. Special emphasis
is put on model evaluation : how well do the coefficient estimates conform to a priori expectations ? Are the signs
and magnitude "Correct" ? Are the coefficients different from zero ? The consequence of multicollinearity and the
effects of various specification errors are discussed in detail. A final section is devoted to covariance analysis and
dummy variable technique.

Cet article n'a pas pour objectif d'exposer les méthodes de sons l'hypothèse économique que les valeurs observées de Y ne
l'économétrie qui font l'objet de nombreux manuels de niveaux sont pas simplement dues au hasard mais dépendent de
théoriques divers (1). Il est consacré à une présentation de la différents facteurs, parmi lesquels le système de production, la
démarche économétrique à partir d'un exemple emprunté au structure des exploitations, le niveau de développement économique
domaine de l'économie régionale. Aussi n'aborde-t-il que les des régions.
problèmes économétriques rencontrés lors d'une recherche particu- On fait ainsi l'hypothèse qu'il existe un ensemble de variables
lièredont les aspects économiques sont traités par ailleurs (Bon- noté t dont les variations permettent d'expliquer les variations
nieux et al., 1980). Les données de base sont de type cross-section observées de Y. On suppose donc l'existence d'une relation
puisqu'il s'agit d'une coupe régionale. Les questions spécifiques fonctionnelle :
que posent l'analyse de séries chronologiques ne sont donc pas
envisagées ici. A fortiori le regroupement de plusieurs coupes
(données de type spatio temporel) n'est pas considéré. Sur le plan
des instruments statistiques, il se limite au modèle de la qui exprime la dépendance de la variable Y par rapport aux
régression linéaire multiple. Ce dernier, malgré sa grande simplicité variables explicatives de l'ensemble e . Les variations de ces
formelle, correspond à un processus d'abstraction très dernières sont observées indépendamment de la relation fonctionnelle,
important et permet de poser nombre de questions fondamentales de aussi peut-on parler de variables indépendantes.
l'économétrie. Il permet par ailleurs de passer en revue des La théorie économique est rarement explicite sur la liste des
difficultés liées à l'interprétation des résultats et d'aborder celles variables qui constituent l'ensemble £ et sur la forme
qui sont introduites par le non-respect de certaines hypothèses mathématique de la relation fonctionnelle. Spécifier un modèle
fondamentales. consiste donc à préciser ces points. Il existe néanmoins des cas
triviaux où il n'y a pas d'étape de spécification, c'est le cas des
équations institutionnelles et des équations de définition. Les
1. SPECIFICATION D'UN MODELE premières sont déterminées par des lois, des décrets, des arrêtés, par
Sans entrer dans les détails, considérons le problème des
disparités régionales de revenu dans l'agriculture européenne. Plus 1. Une bibliographie commentée d'ouvrages généraux d'économétrie est
fournie à la fin de ce numéro.
précisément intéressons-nous à une variable notée Y qui mesure 2. Nous utilisons un découpage de la CEE en 295 régions qui
la valeur ajoutée agricole par actif (agricole) des différentes cor espondent pour la France aux départements. Les départements de la Région
régions de la Communauté Economique Européenne (2). Parisienne sont toutefois agrégés pour former deux unités seulement.

■35-
exemple une équation qui exprime le montant d'un impôt en X2, X3, X4 et X5 décrivent l'agriculture et la variable X6 rend
fonction de son assiette. Quant aux secondes il s'agit compte d'une façon synthétique du niveau de développement
d'identités. C'est par exemple le cas de l'équation qui exprime que le économique. La valeur ajoutée agricole par actif est mesurée en
revenu est égal à la consommation plus l'investissement. Dans centaines d'unités de compte.
ces deux cas les variables indépendantes qui interviennent et la Pour estimer les paramètres du modèle et la loi de probabilité
relation fonctionnelle sont parfaitement déterminées. du terme aléatoire l'économètre utilise un échantillon
La fonction linéaire est largement utilisée à cause de sa d'observations de taille N (5). Dans notre exemple N est égal à 295,
simplicité mais surtout parce qu'elle fournit une bonne nombre de régions de la CEE. En indicant les observations par i, le
ap roximation de fonctions plus générales dans certains domaines de modèle s'écrit :
variations des variables indépendantes. En outre, comme nous le + b2 Xi2 + . . . + bK XiK + i = 1, . . . N
verrons, les résultats obtenus sont relativement faciles à
interpréter. L'approximation linéaire présente donc deux avantages (N = 295)
évidents, à l'inverse elle est bien sûr source d'erreur (Cramer, Nous ne considérons ici que des modèles linéaires où la
1971, p. 79-83). variable dépendante est continue. Les variables indépendantes
Dans le problème d'économie régionale que nous considérons peuvent être par contre continues ou qualitatives (on parle alors plus
de très nombreux facteurs spécifiques aux diverses régions volontiers de facteurs). Lorsque toutes les variables explicatives
interviennent et influencent le niveau de valeur ajoutée. De façon sont des facteurs, il est intéressant d'exploiter cette particularité
générale on est conduit à négliger certains facteurs explicatifs et d'utiliser les techniques d'analyse de la variance. Si l'on a à
et à ne faire intervenir que quelques variables explicatives dans faire à la fois à des variables continues et à des facteurs l'analyse
le modèle. de la covariance présente un intérêt pratique important. Nous
Aux sources d'erreur qui viennent d'être évoquées il convient la présenterons en développant l'exemple.
d'ajouter les erreurs de mesure. Il est en effet bien difficile de Pour estimer les paramètres du modèle, il est nécessaire de se
mesurer les notions introduites par la théorie économique. Enfin fixer auparavant des hypothèses précises qui portent sur la loi
il est fort possible que le problème étudié ne puisse pas être de probabilité du terme aléatoire du modèle. Comme on l'a vu,
complètement appréhendé par une démarche déterministe. l'hypothèse qui pose que l'espérance mathématique de ce terme
Pour représenter la résultante de ces phénomènes : erreur est nulle n'a pas de caractère contraignant :
d'approximation et de mesure, variables négligées et caractère E (ej) = 0 i = 1 . . .N
incertain du problème, on introduit une variable aléatoire dans le
modèle. où la lettre E désigne l'opérateur espérance (mathématique). Les
Le passage fondamental d'hypothèses économiques hypothèses d'homoscédasticité et d'absence d'autocorrélation
déterministes à un modèle économétrique aléatoire se fait donc par sont plus limitatives, aussi de nombreux développements de l'éco-
l'introduction d'un terme aléatoire. Celui-ci recouvre diverses nométrie tentent de les dépasser. La première exprime que, quelle
notions délicates à cerner et il est difficile de faire des que soit l'observation considérée, la variance du terme aléatoire
hypothèses précises sur la loi de probabilité qui le régit. Cette loi décrit est la même, ce qui s'écrit :
la population fictive dont est extrait l'échantillon d'observations, E (e]) = s2 i = 1 . . .N
c'est donc ce terme qui va nous permettre de généraliser un
certain nombre de caractéristiques constatées sur l'échantillon. Les s2 est un paramètre fini et strictement positif. D'après la
caractéristiques trouvées sur l'échantillon vont permettre de seconde hypothèse, les termes aléatoires associés à deux
préciser certains aspects permanents du phénomène étudié. Une des observations différentes ne sont pas corrélés, ce qui s'écrit :
conséquences de cette abstraction est alors de nous contraindre E (e; e3) = 0 i,j = 1 . . . N et i 4 j
à ne porter que des jugements en probabilité.
Si Y désigne la variable dépendante (à expliquer) et Notons ici que nous ne faisons pas d'hypothèse sur
X2 . . . XK les variables indépendantes (explicatives) prises en l'importance de la variance du terme aléatoire, il est cependant clair que
compte, le modèle s'écrit : les résultats seront d'autant meilleurs qu'elle sera plus petite.
Nous présenterons un cas d'hétéroscédasticité à partir du
Y = b, + b2 X2 + + e développement de l'exemple. Dans l'étude de phénomènes
Le terme constant bj qui correspond à une ordonnée à historiques la présence d'autocorrélation est fréquente. Sur des
l'origine et les coefficients b2 . . . bK sont des paramètres données régionales, on peut rencontrer des cas de corrélation spa-
inconnus (3), e est une variable aléatoire dont la loi de probabilité
est elle aussi inconnue. Le terme constant du modèle représente 3. Le modèle avec terme constant est d'application plus générale que le
modèle sans terme constant. Formellement on peut définir une variable
la composante systématique des phénomènes qui ne sont pas X1 identiquement égale à l'unité, ce qui permet d'écrire le modèle sous
directement pris en compte. Le terme aléatoire e figure donc les la forme suivante :
écarts aléatoires par rapport à cette composante systématique, Y = b, X, + b2 X2 + + bK XK + e
on peut par conséquent supposer que son espérance On note la double linéarité par rapport aux variables explicatives et par
mathématique est nulle (4). rapport aux paramètres inconnus. Seule cette deuxième hypothèse est
importante. En effet supposons par exemple qu'une variable Z intervienne
Dans notre exemple Y désignant la valeur ajoutée agricole par par l'intermédiaire de son logarithme, il suffit pour se ramener à la
linéarité par rapport aux variables explicatives de faire la transformation
actif, nous retenons 5 variables explicatives donc K = 6 X = Log Z et d'introduire cette nouvelle variable au lieu de Z dans le
(nombre de variables explicatives plus le terme constant). Celles-ci sont modèle. L'hypothèse de linéarité ne porte donc que sur les paramètres.
définies de la façon suivante : 4. Cette hypothèse est peu restrictive puisqu'elle n'exclut que le cas où
X2 : terres labourables \ cette espérance n'est pas définie. L'hypothèse de nullité est rendue
nécessaire pour des raisons d'identification des paramètres du modèle (Malin-
X3 : prairies permanentes > ha par actif agricole vaud, 1978, p. 88). De toute façon, il est toujours possible d'incorporer au
terme constant une espérance mathématique qui ne serait pas nulle.
X4 : cultures permanentes ; 5. Si le modèle ne comptait pas de terme aléatoire, il suffirait de K
X5 : cheptel en unités gros bovins par actif agricole observations pour calculer le terme constant et les -coefficients des variables
explicatives. Puisqu'il n'y a pas de solution exacte, l'estimation de K
X6 : pourcentage de la population active employée dans paramètres nécessite N > K observations, la différence N — K est le nombre
l'agriculture. de degrés de liberté.

-36-
Y" "i" "x,2"
tiale, ceux-ci sortent du domaine de cet article et ne sont
évoqués que pour mémoire (Paelinck et Klaassen, 1979).
Enfin, pour finir de spécifier le modèle, précisons que les Y= x,= x,-
variables explicatives sont des variables certaines (non aléatoires) et
qu'il n'existe pas de relation linéaire entre elles. Cette dernière
hypothèse est très importante. Lorsqu'elle n'est pas vérifiée on
se heurte au difficile problème de la colinéarité qui a de Y est le vecteur des observations sur la variable dépendante, X,
nombreuses incidences pratiques. Nous aurons l'occasion de revenir figure la variable identiquement égale à l'unité (8), X2 . . . , XK
sur ce problème. sont les vecteurs d'observation sur les variables explicatives. Il
L'hypothèse de normalité du terme aléatoire (6) permet après est commode de définir la matrice à N lignes et K colonnes :
l'étape d'estimation d'élaborer des tests d'hypothèses et de X = (X,X2 . . . XK)
construire des intervalles de confiance. Dès lors que l'on a de grands
échantillons, ce qui est notre cas ici, cette hypothèse n'est guère ainsi que le vecteur à K éléments des paramètres à estimer :
limitative. Enfin, signalons que pour obtenir certains résultats
asymptotiques, il faut poser des conditions sur le comportement b,
de l'échantillon lorsque sa taille tend vers l'infini.
Tel qu'il vient d'être spécifié ce modèle est connu sous le nom b =
de modèle de la régression linéaire multiple. Il est intéressant de
l'écrire sous une forme un peu différente. La variable
dépendante est aléatoire par l'intermédiaire du terme aléatoire, on peut
alors calculer son espérance mathématique : On peut alors adopter l'écriture condensée du modèle :
E (Yj) = b, + b2Xi2 + + bKXiK i= 1 N Y
On détermine de même sa variance : E(Y) = X b.
Var (Yj) = s2 i = 1 . .. N
et on vérifie que pour deux observations différentes i et j, les
valeurs de Y; et de Yj ne sont pas corrélées. Ainsi le modèle pose
que les valeurs de la variable dépendante sont engendrées par
un processus aléatoire. Son espérance dépend linéairement des
variables explicatives par l'intermédiaire de paramètres
inconnus et sa variance est inconnue. Signalons que lorsque les
variables explicatives ne sont plus certaines, mais aléatoires, on peut
aussi donner une interprétation du modèle (7).

2. ESTIMATION ET PROPRIÉTÉS DES ESTIMATEURS FigUre 1 - Agression représentée dans l'espace des observations
On estime tout d'abord les paramètres b,, b2, . . . bK en Dans l'espace des observations les vecteurs colonnes de la
appliquant la méthode des moindres carrés, puis on s'intéresse matrice X engendrent un sous-espace vectoriel V(X) de
à l'estimation de la variance s2. L'emploi de la méthode des dimension égale à K puisque les variables explicatives sont linéairement
moindres carrés est justifié a posteriori par les propriétés des indépendantes. La figure 1 représente le cas où K = 2. Le modèle
estimateurs obtenus. Afin d'éviter au maximum des considérations comporte un terme aléatoire donc le vecteur Y n'appartient pas
techniques qui risqueraient d'être fastidieuses donnons une à V(X), par contre le vecteur espérance mathématique E(Y) = Xb
présentation géométrique de la méthode des moindres carrés et des est situé dans ce sous-espace vectoriel.
estimateurs obtenus. On recherche un vecteur Y situé dans V(X) pour estimer E(Y).
Les observations sur la variable dépendante et les variables La méthode des moindres carrés consiste à choisir la projection
explicatives permettent de définir des vecteurs de l'espace orthogonale du vecteur Y sur le sous-espace vectoriel V(X),'ce
euclidien à N dimensions, appelé ici espace des observations. De façon que l'on écrit :
naturelle nous les notons : Y - Y + ê
Y est appelé vecteur ajusté et ê vecteur des résidus. Pour
6. L'hypothèse de normalité concerne des quantités non observables. On estimer les paramètres il suffit enfin de calculer les coordonnées de
doit juger de son caractère raisonnable en considérant ses implications. Y par rapport à la base de V(X) formée par les colonnes de la
Il est clair qu'on l'introduit en premier lieu pour des raisons techniques.
Elle permet en effet d'obtenir des conclusions puissantes et qui peuvent matrice X.
être confrontées aux faits observés. On peut aussi évoquer une raison plus Y = xb
théorique. Dans la mesure où les facteurs explicatifs qui sont négligés
dans le modèle sont très nombreux, indépendants entre eux et où 62X
2X2 bKXK
l'influence de chacun est négligeable par rapport à l'influence de tous les
autres, leur somme est approximativement distribuée selon une loi Les coordonnées 6j, 62 . . . . bKsont uniques, donc le problème
normale. d'estimation est résolu (9).
7. On ne considère plus alors la loi de probabilité de la variable
dépendante mais sa loi conditionnelle par rapport aux variables explicatives. Ce
qui après tout est naturel dans la mesure où notre information se limite 8. X1 est un vecteur particulier puisqu'il porte la première bissectrice de
à l'échantillon. Dans notre exemple au lieu de s'intéresser à la loi de l'espace des observations.
probabilité de la valeur ajoutée agricole par actif on s'intéresserait alors à 9. Notons ici que si les variables explicatives étaient linéairement
cette loi conditionnée par les valeurs des variables qui décrivent dépendantes, la dimension du sous-espace vectoriel V(X) serait strictement
l'agriculture et le niveau de développement des régions de la CEE. L'avantage de inférieure à K. Il n'y aurait donc pas un système unique de coordonnées de
cette interprétation est d'autoriser ces variables à être aléatoires (Malin- Y par rapport aux vecteurs X,, X, .... X,,. C'est donc bien l'indépendance
vaud, 1978, p. 86-87). linéaire qui assure l'unicité de ta solution.

-37-
Il est intéressant de donner une forme explicite de 6. Pour ce A mesure que N croît la courbe représentative de f(6h) tend
faire il suffit d'écrire que le vecteur des résidus est orthogonal à se concentrer autour de la vraie valeur bh du paramètre.
au sous-espace vectoriel V(X), ce qui équivaut à : En général les économètres privilégient le critère de
X'X 6 = X'Y où X' est la matrice transposée de X. convergence en probabilité plutôt que l'absence de biais. En effet un
estimateur biaisé mais convergent en probabilité peut ne pas être
Cette équation est connue sous le nom d'équation normale et égal en moyenne à la valeur du paramètre, mais l'approcher
admet la solution unique : asymptotiquement. C'est un comportement plus sécurisant que
celui d'un estimateur qui serait sans biais mais tendrait à
V diverger asymptotiquement de la valeur du paramètre (Bibby et Tou-
b = = (X'X)-i X'Y tenburg, 1977 ; chapitre 2).
La méthode des moindres carrés fournit donc un estimateur
qui satisfait un certain nombre de critères statistiques ce qui
On pçut vérifier une propriété de l'estimateur du terme justifie son utilisation. Pour achever l'estimation du modèle, il nous
constant : _ _ _ reste à estimer la variance s2. L'idée est de baser un estimateur
sur la longueur du vecteur des résidus. On montre que :
6j = Y — 62 X2 . . . . — bK XK
où Y, X2, . . . XK désignent les moyennes arithmétiques des
différentes variables. S* = i- I «?
N —K
Il est facile de montrer que 6 est un estimateur sans biais de
b, ce qui signifie que l'espérance mathématique de la
distribution de probabilité de b est égal à b. L'absence de biais est une où ê! . . . . êN sont les composantes du vecteur ê, est un
propriété intéressante mais qui n'implique rien en ce qui estimateur sans biais et convergent en probabilité de s2.
concerne la dispersion de l'estimateur. Ainsi un estimateur peut-il On peut aller plus loin et montrer que la matrice des
être sans biais et très dispersé, ce qui peut conduire à lui variances et covariances de l'estimateur 6 vaut s2(X'X)-', ce qui
préférer un estimateur faiblement biaisé et moins dispersé. Il faut donc s'écrit explicitement :
s'interroger sur l'efficacité des estimateurs, mais il s'agit là d'une
notion difficile à manipuler dans le cas général. var (6|) cov(6!,62) cov(6|, 6K)~ ' " n lXa -XiK
L'estimateur des moindres carrés 6 dépend linéairement des cov (6,, 62) var (62) cov (62, 6k) I X» Ï, X?,
observations sur la variable dépendante. Limitons-nous à la classe
des estimateurs démette forme et plus particulièrement aux
estimateurs linéaires sans biais. Parmi ceux-ci les estimateurs 6ls cov(6), 6k) cov (62,61c) var (6k)
. . 6K obtenus par la méthode des moindres carrés sont de
variance minimale. La méthode des moindres carrés fournit donc
les estimateurs linéaires sans biais les plus efficaces du terme
constant et des coefficients du modèle. On dit encore que b est le Pour estimer cette matrice il suffit de substituer s2 à s2 ce qui
meilleur estimateur linéaire sans biais de b. fournit les estimateurs des variances et des covariances du terme
Pour compléter cette discussion des propriétés de constant et des coefficients du modèle.
l'estimateur b indiquons qu'asymptotiquement il est très proche de b La variance estimée de 6h (h = 1 . . . K) s'obtient donc en
au sens suivant : lorsque la taille de l'échantillon tend vers multipliant s2 par le he terme de la diagonale de la matrice
l'infini la probabilité que le biais soit arbitrairement faible tend vers (X'X)-1 . On obtient de même la covariance estimée de 6h et bk
un. On dit que 6 converge vers b en probabilité. Ce qu'on peut (h, k = 1 . . . K, h ^ k) en multipliant s2 par le terme de la
illustrer en figurant la densité de probabilité f(bh) de 6h he ligne et ke colonne de la matrice (X'X)—1. Désignons par sjL
(h = 1,2, ... K) pour différentes valeurs de N. la variance estimée de 6h et par s^k la covariance estimée de bh
et 6k.
N très grand Si on suppose que le terme aléatoire suit la loi normale (10),
on montre que
shh
suit la loi du t de Student à N — K degrés de liberté.
Ce résultat permet de construire des intervalles de confiance
pour le terme constant et les coefficients du modèle, faire des
tests d'hypothèse sur ces mêmes paramètres. Désignons par ta
la valeur t de Student lue dans la table qui a une probabilité a
N grand d'être dépassée en valeur absolue. L'intervalle de confiance à
(1 — a) % pour bh est donnée par :

ce qui signifie que la probabilité que bh appartienne à


l'intervalle
petit (6h — ^ shh, 6h + ta shh) est égale à 1 — a.

h 10. Si cette hypothèse n'est pas vérifiée, on peut cependant justifier les
résultats qui suivent par des considérations asymptotiques. Elles
Figure 2. - Convergence en probabilité reposent sur le théorème central limite.

-38-
Supposons que l'on désire tester l'hypothèse d'influence sur Comme nous l'avons déjà remarqué le choix du niveau de
la variable dépendante de la variable Xh. Ce qui équivaut à confiance du test n'a pas un caractère arbitraire. Si le test a pour
tester la nullité de bh. On considère alors la quantité : objet la confirmation d'une hypothèse solide on se contente d'un
niveau de confiance plus faible que s'il remet en cause une
théorie solidement établie. On touche ici du doigt un des problèmes
Si ce rapport est supérieur en valeur absolue à ta , on rejette fondamentaux de l'économétrie, à savoir le rôle exact des a priori
l'hypothèse nulle, donc implicitement on accepte l'hypothèse économiques dans l'analyse des résultats quantitatifs. Ainsi il
d'influence significative de Xh avec une probabilité égale à est déjà établi que le système de production et le degré de
1 — a. Lorsqu'on fait ce test et plus généralement tout test développement influencent le niveau de valeur ajoutée. Les tests sur
statistique, on se fixe une règle d'acceptation ou de rejet avant la nullité des effets des variables qui les décrivent ont pour objet
d'examiner les données. Supposons que l'on prenne le seuil de une simple vérification. Un niveau de confiance de 0,95 ou
a = 0,05 cela signifie que le rejet de l'hypothèse nulle lorsqu'elle éventuellement moins apparaît ainsi suffisant, cette valeur correspond
est vraie se produit avec une probabilité de 5 % . Il est clair que à la pratique économétrique courante. Cette attitude est
le choix du seuil dépend du contexte pratique dans lequel on se cependant contestable car elle revient à négliger l'arbitrage entre le
situe. risque de première espèce et le risque de seconde espèce (11).
Un autre test usuel vise à comparer les influences de deux Signalons que dans le cas de notre exemple nous aboutirons aux
variables Xh et Xk, c'est-à-dire les coefficients bh et bk. Dans le cas mêmes conclusions pour un niveau de confiance plus élevé. Par
simple où l'on s'interroge sur leur égalité on forme le rapport exemple pour 0,99 on lit la valeur critique ^ 01 = 2,576. En
de la différence bh — bk à son écart type : conclusion les calculs confirment nos hypothèses a priori sur
l'influence des variables indépendantes introduites comme variables
6h — 6w explicatives du niveau de valeur ajoutée agricole par actif.
On obtient les intervalles de confiance à 0,90 suivant pour les
52hh coefficients de :
Si ce rapport est en valeur absolue supérieur à ta . on rejette terres labourables b2 : 1,17 1,62
l'hypothèse de nullité de la différence bh — bk c'est-à-dire qu'on prairies permanentes b3 : — 0,81 — 0,38
conclut que les influences sont inégales avec une probabilité égale cultures permanentes b4 : 3,00 5,47
à 1 —a .
Pour illustrer notre propos, seulement deux catégories de tests cheptel b5 : 0,26 0,56
ont été présentées. Outre les tests basés sur la loi du t, les tests actifs agri. °/o b6 : — 0,59 — 0,45
basés sur la loi du F sont d'un usage courant en régression (Cas- La conduite des tests sur l'influence des variables explicatives
sidy 1981, p. 243 et sq.). correspond à un premier examen des résultats que l'on poursuit
par une appréciation globale de la qualité de l'ajustement
3. INTERPRETATION DES RESULTATS effectué. Une mesure utile est fournie par la valeur des résidus, en
effet des valeurs élevées de ceux-ci impliquent un mauvais
ajustement tandis que des valeurs faibles plaident au contraire pour
Laissons de côté tous les aspects algorithmiques et supposons un bon ajustement. Les résidus dépendant toutefois des unités
exécutés les calculs qui conduisent à l'équation de régression de mesure, on se ramène à une quantité sans dimension. Le
estimée. Nous allons passer en revue les principales statistiques que coefficient de détermination rapporte les variations expliquées de la
fournissent tous les programmes informatiques consacrés à la variable dépendante aux variations totales :
régression linéaire multiple en insistant sur les difficultés
d'interprétation. N
^ — Y)2 — ê?
3-1. - Discussion statistique générale i = 1
R2 = = 1 — N
L'équation de régression estimée de notre exemple s'écrit :
ri — Y)2 v_ — Y)2
Y = 32,32 + l,40X2 — 0,59X3 + 4,23 X4 + 0,41 X5 — 0,52X6 i= 1 ri
(20,43) (10,22) (4,64) (5,65) (4,48) (12,00)
Le coefficient de détermination est une mesure descriptive de
Pour chaque paramètre on fournit entre parenthèses le rapport l'association d'une variable dépendante et d'un ensemble de
variables indépendantes facile à interpréter. Il est en effet
th = — — h = 1, ...6 compris entre zéro et un et une valeur proche de l'unité est associée
shh à un bon ajustement tandis qu'une valeur faible correspond à
de l'estimateur à son écart-type estimé. Certains auteurs un mauvais ajustement.
indiquent la valeur de shh, l'intérêt de la présentation que nous Le coefficient de détermination ne tient pas compte du
avons retenue est d'indiquer par lecture directe le résultat du test nombre de degrés de liberté, l'addition d'une variable indépendante
d'absence d'influence des variables explicatives. supplémentaire se traduit automatiquement par son
Pour un test de niveau de confiance égal à 0,95 on lit accrois ement puisque la somme des carrés des résidus diminue. C'est une
dans la table du t de Student à 289 degrés de liberté propriété mathématique qui ne dépend pas de l'adéquation de
(N — K = 295 — 6 = 289) cette variable et ne correspond pas à une quelconque causalité.
Par conséquent, on lui préfère souvent le coefficient de
t005 = 1,960 détermination ajusté :
- _R2 .= 1 — (1 — Kl 1
Toutes les valeurs calculées th sont supérieures à cette valeur R2) — — K—
critique. Pour chaque variable explicative on rejette donc N
l'hypothèse nulle (absence d'influence) ce qui revient à accepter
l'hypothèse d'influence significative de chaque variable explicative 11. Rappelons que dans un test, on peut commettre deux types d'erreur:
considérée isolément. De même on rejette l'hypothèse de nullité du — accepter
refuser uneunehypothèse
hypothèse
alorsalors
qu'ellequ'elle
est vraie,
est c'est
fausse,
le risque
c'est dele 1rerisque
espèce,
de
terme constant. 2e espèce.

-39-
qui tient compte du nombre de degrés de liberté et établit une Appliqué à l'exemple on trouve :
sorte de compromis entre diminution de la somme des carrés des F = 76.62
résidus et perte de degrés de liberté (12).
La comparaison de différentes valeurs du coefficient de au seuil de 0,05 on lit dans la table pour 289 et 5 degrés de liberté
détermination ne peut être menée qu'avec prudence et est insuffisante
pour guider le choix entre différentes spécifications comme le F0>05 = 4,36
montre l'exemple suivant. On considère les comptes ce qui conduit à admettre que les variables indépendantes
départementaux de l'agriculture française en 1977 et plus particulièrement introduites dans le modèle est une influence significative sur les
les comptes de production (13). Pour simplifier, considérons un variations de la variable dépendante.
échantillon de N = 13 départements (14). Afin d'étudier la
structure de ces comptes on étudie l'ajustement de la valeur ajoutée Dans cet exemple les coefficients des variables indépendantes
apparaissent comme non nuls et le coefficient de détermination
en fonction de la production finale d'où l'équation ajustée : suffisamment élevé ce qui ne pose pas de problèmes
VA = 325,44 + 0,310 PFIN R2 = 0,76 d'interprétation et conduit à conclure à l'utilité du modèle. Nous aurions
(2,40) (6,00) la même conclusion avec un coefficient de détermination élevé,
Le même calcul avec les consommations intermédiaires comme quelques coefficients statistiquement nuls et les autres non nuls.
variable dépendante donne : A l'inverse le modèle apparaît inutile lorsque le coefficient de
CI = — 325,44 + 0,689 PFIN R2 = 0,94 détermination est très faible et les coefficients statistiquement
(2,40) (13,33) nuls.
Un examen rapide de ces résultats pourrait conduire à
déclarer le deuxième modèle meilleur que le premier, or ils se Des difficultés d'interprétation interviennent lorsque le test
déduisent l'un de l'autre puisque l'on a l'identité suivante : conjoint sur l'influence des variables explicatives et les tests
séparés sur l'influence de chacune d'entre elles conduisent à des
PFIN = VA + CI conclusions en apparence contradictoires. Un cas typique est celui
On pourrait d'ailleurs vérifier que les sommes des carrés des où le coefficient de détermination est relativement élevé et les
résidus sont égales dans les deux cas ce qui achève de montrer coefficients des variables indépendantes statistiquement nuls. Il
l'équivalence entre modèles. La différence des coefficients de correspond à une situation de colinéarité de ces dernières. Plus
détermination provient uniquement du fait que les valeurs rarement on observe le cas d'un coefficient de détermination
ajoutées sont plus dispersées d'un département à l'autre que les proche de zéro et des coefficients non nuls (statistiquement). Un tel
consommations intermédiaires. résultat peut être dû à une structure particulière des liaisons entre
variables indépendantes lorsque celles-ci sont faiblement corré-
En tout état de cause on ne peut comparer les coefficients de lées à la variable dépendante. Un autre cas problématique se
détermination que pour des modèles qui expliquent la même rencontre lorsque le coefficient de détermination est proche de zéro
variable dépendante. et que quelques coefficients apparaissent comme non nuls
Dans l'exemple d'économie régionale on obtient des valeurs statistiquement. La question est en effet alors de savoir si on doit
relativement modestes du coefficient de détermination : éliminer du modèle les variables indépendantes dont l'influence
R2 = 0,57 et R2 = 0,56. paraît être nulle.
C'est souvent le cas lorsque la variable dépendante est un
rapport (ici valeur ajoutée agricole par actif)- Par ailleurs dans un 3-2. - Interprétation économique
grand échantillon les données sont très dispersées ce qui traduit
la multiplicité des facteurs qui peuvent en rendre compte. Une Les coefficients des variables indépendantes s'interprètent
telle dispersion n'interdit pas l'étude de l'influence des variables comme les dérivées partielles de la variable dépendante par
qui paraissent être les plus importantes. Aussi n'y a-t-il pas lieu rapport à ces variables. Ainsi, si Xh (h = 2 . . . K) s'accroît de
de s'étonner que les effets des variables explicatives introduites A Xh, alors toutes choses égales par ailleurs Y varie de Y = bh
dans le modèle soient significatifs alors que la valeur du A Xh. Ces coefficients n'ont cependant cette interprétation que
coefficient de détermination est somme toute faible. dans un domaine de variations voisin du point moyen, car il ne
faut pas oublier que la fonction linéaire ne correspond qu'à une
Le coefficient de détermination rend compte de l'association approximation d'une fonction plus compliquée dans ce voisinage.
des variables indépendantes et de la variable dépendante. Plus Cette interprétation des coefficients permet du même coup d'en
précisément on peut faire un test simultané de l'influence de déduire leur dimension.
l'ensemble des variables indépendantes, en considérant la statistique Dans l'exemple les coefficients de X2, X3, X4 sont exprimés
p — R2 N en 100 unités de compte par hectare, celui de X5 en 100 unités
1 — R2 K — 1 de compte par unité de gros bovins. Celui de X6 exprime la
perte de valeur ajoutée (en 100 unités de compte) associée à une
qui suit si l'hypothèse nulle est vraie (c'est-à-dire les coefficients variation en pourcentage de la population active employée dans
des variables indépendantes sont tous nuls) la loi F de Fisher à l'agriculture.
N — K et K — 1 degrés de liberté. On rejettera l'hypothèse nulle Le signe des coefficients doit aussi donner lieu à une
si la valeur calculée F est supérieure à la valeur critique Fa lue interprétation particulière. Si le signe négatif pour le coefficient de X6
dans la table, pour un test au seuil a. On accepte donc apparaît normal compte tenu de la liaison négative entre niveau
l'hypothèse d'une influence significative de l'ensemble des variables de valeur ajoutée et niveau de développement, ce même signe
indépendantes si la valeur calculée F est significativement pour le coefficient de X3 paraît plus étonnant. Il est normal car
positive, ce qui revient à dire que le coefficient de détermination est il exprime que par rapport à une situation européenne moyenne
suffisamment élevé. l'hectare marginal de prairies permanentes entraîne une baisse
12. Si K = 1 alors R2 = R2. Si K > alors R2 < R2. de valeur ajoutée, la situation étant inverse pour l'hectare
marginal de terres labourables ou de cultures permanentes. De même
13. Le compte de production décompose la production finale (PFIN) en on trouve que la valeur ajoutée marginale (b4 supérieure à b2 au
consommations intermédiaires (Cl) et valeur ajoutée brute (VA).
14. Il s'agit des départements des régions Bretagne, Pays de Loire et seuil de 0,05) procurée par les cultures permanentes est plus
Poitou-Charentes. élevée que celle procurée par les terres labourables.

-40-
Il est intéressant de calculer les élasticités de la variable cultures permanentes A Rj = 0,05
dépendante par rapport aux différentes variables indépendantes. Ce
calcul n'a de sens qu'au point moyen et donne pour l'élasticité cheptel ARj = 0,03
de Y par rapport à Xh, l'expression 6hXh/y(15). Appliqué à actifs agri. % A R* = 0,21
l'exemple on trouve des élasticités assez faibles :
L'étude comparée des contributions marginales des
terres labourables 62 X2/Y = 0,23 dif érentes variables indépendantes permet de se faire une idée de leur
prairies permanentes 63 X3/Y = — 0,10 pouvoir explicatif marginal. Dans le cas présent les variables X2
et X6 apparaissent comme nettement dominantes, ce qui peut
cultures permanentes 64 X4/Y = 0,06 entraîner une surestimation de leur influence.
cheptel 65X5/Y = 0,13 3-3. - Le problème de la colinéarité
actifs agri. <7o 66 X6/ Y = — 0,32 (Judge et al., 1980, chapitre 12)
Si l'on considère le modèle avec un terme constant et une
L'interprétation du terme constant du modèle est plus variable explicative on constate que la variance de l'estimateur du
délicate que celle des coefficients. Mathématiquement il correspond coefficient de cette variable est d'autant plus élevée qu'elle varie peu.
à une ordonnée à l'origine et représente l'espérance A la limite si celle-ci est constante la variance est
mathématique de la variable dépendante lorsque toutes les variables indéterminée (17). Pour obtenir une estimation précise il est donc
indépendantes sont nulles. Sur le plan économique cette situation peut nécessaire que le domaine de variations de la variable indépendante
n'avoir aucun sens, en effet n'oublions pas que le modèle n'est soit vaste, surtout si la variance s2 du terme aléatoire est élevée.
valable que dans un certain domaine de variations des variables Dans le cas général de plusieurs variables explicatives la
explicatives, clairement. dans notre exemple nous avons à faire situation est plus compliquée puisqu'il faut faire intervenir leurs
à un cas où le terme constant ne peut pas être interprété variances mais aussi leurs covariances. La colinéarité coi respond
directement. Par contre lorsqu'on fait des ajustements sur des sous- au cas où les variables explicatives du modèle sont linéairement
échantillons, les variations de terme constant ont, comme nous dépendantes. La matrice X'X est alors singulière et il est
le verrons, des interprétations économiques particulièrement impossible de calculer l'estimateur des moindres carrés des
intéressantes. paramètres. La dépendance linéaire est un cas limite, aussi en pratique
Le coefficient de détermination donne une vue globale de la parle-t-on de colinéarité lorsque les variables explicatives sont
valeur de l'ajustement. Les estimateurs des coefficients des fortement liées. Il existe entre elles une ou plusieurs relations
variables indépendantes et les élasticités renseignent sur leur influence. linéaires approximatives qui peuvent être accidentelles mais aussi
Enfin les tests sur les coefficients et les intervalles de confiance traduire des dépendances générales.
donnent une idée de la précision de l'estimation. La colinéarité rend difficile l'estimation valable des
Une analyse plus approfondie permet d'aller au-delà et doit paramètres du modèle car elle entraîne plusieurs effets qui ont pour
aider à mettre en évidence l'apport de chaque variable conséquence ultime de diminuer la précision et l'efficacité des
indépendante à l'explication globale des variations de la variable estimateurs des paramètres. Les variances de ces derniers
dépendante. Les coefficients de régression étant liés aux unités de augmentent avec le degré de colinéarité des variables explicatives, de telle
mesure, leur comparaison ne nous instruit pas sur cette sorte qu'il devient difficile, parfois impossible, de séparer les
question. Pour hiérarchiser l'influence des variables explicatives influences respectives des diverses variables explicatives.
certains auteurs utilisent la régression linéaire multiple entre Supposons en effet que deux variables Xh et Xk soient
variables centrées autour de leur moyenne et réduites par leur écart- approximativement liées, il est alors faux d'interpréter le coefficient de Xh
comme mesurant l'influence de Xh sur Y toutes choses égales
type (16). par ailleurs. Un cas typique de colinéarité, facile à détecter, est
Une technique simple pour comparer l'apport des différentes celui où le coefficient de détermination est élevé tandis que les
variables indépendantes consiste à évaluer leur contribution coefficients de variables explicatives sont significativement nuls.
marginale ; elle peut être mesurée en calculant l'accroissement du L'examen de la matrice estimée des variances et covariances des
coefficient de détermination entraîné par leur introduction dans coefficients permet de détecter la colinéarité puisque celle-ci se
le modèle (Theil, 1971, p. 168-171). On trouve : traduit par des écarts-types élevés et aussi des corrélations
1 — R2 importantes entre certains coefficients.
h N-K ph h = 2 K Sur le plan numérique la colinéarité correspond au cas où
Plus la statistique th est élevée plus l'apport de la variable Xh certaines des valeurs propres de la matrice de corrélation des
est élevé. Appliqué à l'exemple on obtient : variables explicatives sont très faibles (18). Un autre indicateur de
colinéarité est l'instabilité de la solution de l'équation normale au
terres labourables A R22 = 0,16 sens où de faibles variations du second membre de l'équation
induisent de fortes variations de sa solution.
prairies permanentes A R] = 0,03 Il existe différentes méthodes de nature statistique qui ont été
proposées pour étudier le problème de colinéarité. Elles sont
15. Lorsque les variables du modèle sont obtenues après transformation basées sur l'hypothèse que les variables explicatives sont
logarithmique les élasticités valent simplement bh et sont constantes aléatoires ce qui est contradictoire avec le modèle de la régression
dans tout le domaine de variations des variables.
16. Si S désigne l'écart-type de Y et Shh celui de Xh (h = 2 . . ^K), on linéaire multiple. Ainsi si ces variables suivent la loi multinor-
fait la régression linéaire de (Y — Y)/Syy en fonction des (Xh — Xh)/Shh. male il est aisé de dériver les lois de probabilité de différentes
statistiques liées à leur matrice de corrélation et ainsi d'étudier
Les coefficients estimés du modèle valent bh—— et sont connus sous
Syy 17. Dans l'espace des observations les vecteurs X1 et X2 sont
proportionnels. La variable indépendante X2 est colinéaire à la variable artificielle Xv
l'p.modèle
d'variables
leéeqfuafeti262-265).
nom
ondes
normale
devariables
avant
indépendantes.
coefficient
Cette
autransformation
lieu
technique
explicatives
« bêta
de laLamatrice
est
».statistique
On
centrées
toutefois
des
vérifie
X'Xvariables
qui
aisément
est
réduites
rarement
permet
la matrice
(Draper
est
que
de latester
utilisée
lademême
matrice
etencorrélation
l'absence
Smith,
économétrie.
quede pour
1981,
desle 18. A la limite une valeur propre au moins est nulle, le déterminant de la
matrice de corrélation est donc nul. A l'inverse ce dernier est égal à l'unité,
dans le cas idéal où les variables explicatives sont orthogonales. La
matrice X'X est alors diagonale.

-41-
le problème de colinéarité. Bien qu'assez répandue, cette alors dans une situation de quasi-orthogonalité gage d'une
approche nous paraît être inadéquate car elle revient à généraliser estimation précise du modèle. L'inconvénient étant celui d'une
abusivement une propriété de l'échantillon. spécification incomplète.
Bien qu'elle puisse résulter de phénomènes plus généraux, la Une étude plus approfondie en raisonnant à cheptel constant
colinéarité résulte d'une structure particulière des observations, (variable X5 fixée) permet de mettre en évidence les relations
aussi nous paraît-il préférable d'aborder son étude en s'appuyant entre variables qui décrivent le mode d'utilisation du sol (X2,
sur une analyse descriptive de l'échantillon. Pour ce faire nous X3 et X4). En raisonnant sur les coefficients de corrélation
utilisons des statistiques descriptives comme le coefficient de partielle, on trouve de faibles liaisons. Liaison légèrement négative
détermination et les coefficients de corrélation simple et partielle. entre terres labourables et prairies permanentes (coefficient de
Il est clair qu'une telle approche connaît des limites strictes et — 0,14) qui traduit à degré d'intensification fixé des productions
ne permet pas de découvrir certaines liaisons complexes. animales une concurrence entre modes d'utilisation du sol. Dans
La localisation d'une colinéarité, c'est-à-dire la détermination les mêmes conditions la liaison faiblement positive entre
des variables qui en sont principalement responsables peut être prairies permanentes et cultures permanentes (coefficient de 0,20)
menée simplement. Pour chaque variable indépendante X,, correspond à la présence simultanée de ces deux modes
(h = 2 ... K) on calcule le coefficient de détermination R2 qui d'utilisation du sol dans l'Europe Méridionale.
mesure le degré d'association entre Xh et l'ensemble des autres Il est intéressant de rapprocher les estimations obtenues sur
variables explicatives du modèle. Si Rj; est élevé, proche de le modèle complet de celles que l'on trouve en supprimant la
l'unité, on peut en conclure que les variations de Xh sont variable X5.
décrites correctement par le jeu combiné des autres variables
explicatives. Il est alors difficile de mesurer avec précision l'influence Y = 32,32 + l,40X2 — 0,59X3 + 4,23 X4 + 0,41 X5 — 0,52X6
de Xh sur la variable dépendante du modèle. Cette approche est (20,43) (10,22) (4,64) (5,65) (4,48) (12,00)
purement descriptive. Elle est uniquement valable pour R2 = 0,57 R2 = 0,56
l'échantil on considéré et aucune conclusion ne doit en être tirée quant
à la population. Y = 35,41 + 1,52X2 — 0,24 X3 + 2,79 X4 — 0,55 X6
Appliquée à l'exemple cette approche aboutit aux valeurs (24,10) (10,93) (2,29) (3,99) (12,66)
suivantes du coefficient de détermination : R2 = 0,54 R2 = 0,53
terres labourables R\ = 0,08 ainsi que les intervalles de confiance à 0,90 par les coefficients :
prairies permanentes R2 = 0,35 modèle complet modèle incomplet
cultures permanentes R2 = 0,20 terres labourables b2 1,17 1,62 1,29 1,74
cheptel R2 = 0,47 prairies permanentes b3 — 0,81 — 0,38 — 0,41 — 0,07
actif agri. % R2 = 0,06 cultures permanentes b4 3,00 5,47 1,64 3,93
cheptel b5 0,26 0,56
Les valeurs obtenues sont faibles pour X2 et X6. A l'opposé
celles de X3 et surtout de X5 sont assez élevées puisque actifs agri. °/o b6 —0,59 0,45 —0,63 —0,48
respectivement 35 % et 47 % de leur variance peut être décrite par le
jeu des autres variables. La variable X4 est en situation La comparaison des coefficients des équations ajustées et des
intermédiaire. On observe donc un phénomène de colinéarité intervalles de confiance fait apparaître une concordance entre
localisé sur X3, X4 et X5. les deux modèles, en particulier une stabilité élevée pour les
coefficients de X2 et Xg. Pour les coefficients des autres variables
Le calcul précédent donne une idée précise de l'ampleur de notons qu'il n'y a pas d'incompatibilité entre intervalles de
la colinéarité et de sa localisation, il convient d'approfondir la confiance et que la précision apparaît plus élevée dans le modèle
structure des relations entre variables explicatives. L'étude des complet pour les coefficients de X3 et X4. Si on examine les
coefficients de corrélation simple montre une corrélation assez coefficients de corrélation entre coefficients estimés du modèle
élevée (coefficient de 0,58) entre X3 et X5. Cette forte liaison complet, on observe deux valeurs non négligeables — 0,62 entre 63
positive est normale puisque ces variables représentent et 65, 0,43 entre 64 et b5. Ces résultats peuvent s'interpréter de
respectivement les prairies permanentes et le cheptel par actif. On note la façon suivante : il existe une combinaison linéaire de b3 et bs
aussi une corrélation négative (coefficient de — 0,45) entre X4 d'une part, de b4 et b5 d'autre part que l'on pourrait estimer
et X5 qui traduit un phénomène de localisation du cheptel en avec une meilleure précision que b3, b4 et b5. En fait on
dehors des zones où l'on rencontre des cultures permanentes confirme, ce que l'on avait trouvé plus directement, à savoir une
(variable X5). liaison entre X3 et X5 ainsi qu'entre X4 et X5.
La variable cheptel apparaît responsable des phénomènes que Pour le modèle complet le problème de colinéarité n'est pas
l'on vient d'observer. Ainsi si on réduit le nombre de variables finalement crucial. Il repose sur une spécification plus exacte et
explicatives en la supprimant, et en ne retenant que X2, X3, doit donc être préféré au modèle incomplet. D'autant plus qu'il
X4 et X6 on constate une chute de coefficients de semble qu'en utilisant ce dernier on minore l'influence des
détermination : variables X3 et X4 qui se trouve absorbée par les variables
terres labourables R2. = 0,05 dominantes X2 et X6 dont on tend à surestimer les effets.
L'économètre est confronté à un dilemme. D'une part il
prairies permanentes R3 = 0,02 souhaite spécifier correctement le modèle, ce qui se traduit par la
cultures permanentes R2 = 0,05 prise en compte d'un nombre élevé de variables explicatives.
D'autre part, il observe qu'il en résulte souvent une diminution
actifs agri. °/o R2 = 0,03 de la précision des estimateurs en raison du phénomène de
colinéarité. Finalement il adopte une cote mal taillée, en essayant
qui s'accompagne d'une hausse brutale du déterminant de la de réaliser un compromis entre les inconvénients d'une
matrice de corrélation qui passe de 0,43 à 0,90. On se trouve spécification incomplète et ceux de la colinéarité.

-42-
4. ERREURS DE SPÉCIFICATION Supposons que pour des raisons de simplicité, on souhaite
décrire l'agriculture régionale au moyen d'une seule variable :
Les résultats obtenus à partir d'un modèle économétrique la surface agricole utilisée par actif, notée X7. Celle-ci est
sont conditionnels puisqu'ils dépendent d'un ensemble obtenue par addition des variables X2 (termes labourables), X3
d'hypothèses. Or celles-ci ne sont pas rigoureusement vérifiées dans la (prairies permanentes) et x4 (cultures permanentes). Après calculs on
réalité. Il convient donc de s'interroger sur la robustesse des obtient l'équation ajustée :
résultats lorsque certaines hypothèses sont contestables, c'est-à-dire
étudier les conséquences des erreurs de spécification, en désignant ?= 40,64 — 0,62X6 + 0,38X7 R2 = 0,37 R2 = 0,37
ainsi toutes les divergences entre hypothèses et propriétés du (25,74) (12,50) (4,00)
phénomène étudié.
Les erreurs de spécification peuvent tout d'abord concerner Un tel modèle évite tous les écueils de la colinéarité (le
la loi de probabilité du terme aléatoire du modèle, mais aussi déterminant de la matrice de corrélation de X6 et X7 vaut un) ce qui
la liste des variables explicatives ou encore la forme autorise une estimation précise. Nous allons comparer cet
mathématique du modèle. Plus généralement l'étude du phénomène ajustement au modèle supposé exact à cinq variables explicatives X2,
économique auquel on s'intéresse peut exiger un ensemble X3, X4, X5 et Xg. Comme leurs coefficients sont inconnus, nous
d'équations du fait de la simultanéité et il n'est pas possible d'en isoler allons utiliser les estimateurs des moindres carrés en assimilant
une seule sans considérer les autres. Traiter des erreurs de valeurs des estimateurs et des paramètres.
spécification nécessiterait donc de traiter de toute l'économétrie déjà terres labourables b2 — 62 = 1,40
écrite mais aussi de celle qui reste à faire. Aussi avons-nous
restreint notre champ à une catégorie particulière d'erreurs de prairies permanentes b3 — 63 = — 0,59
spécification, celles qui concernent la liste des variables
explicatives. Quelles conséquences entraîne l'omission d'une variable cultures permanentes b4 — 64 = 4,23
pertinente dans le modèle ou au contraire l'inclusion d'une cheptel b5 — 65 = 0,41
variable inutile ? Outre cette question nous aborderons dans un sous-
paragraphe le problème de l'hétérocédasticité que nous avons actifs agri. % b6 — 66 = — 0,52
rencontré fréquemment en économie régionale.
On ne peut pas toujours estimer le modèle exact soit parce
qu'on ignore la spécification complète du modèle, soit parce
qu'on ne dispose pas de données suffisantes sur toutes les
variables. Très souvent on est conduit à estimer un modèle ■C i)
varimathématique
et ablLes
La
esX7.dumatrice
colonnes
modèle
On —obtient
P0,37
0,05
deexact
desestPcoefficients
s'obtiennent
une
ainsi
(X2,
0,04
0,64
matrice
X3,
une X4,
du
—0,01
approximation
enà modèle
0,01
X5
2 lignes
exprimant
et X6)simplifié
eten
—0,08
chacune
50,70
fonction
de
colonnes
l'espérance
: des
0, de: X6
incomplet, c'est-à-dire un modèle où ont été omises une ou plusieurs
variables explicatives pertinentes. A l'inverse il arrive que l'on
introduise des variables inutiles. Avant d'entrer dans le détail
de ces situations spécifiques nous allons en donner une
présentation générale. * — — 0,62
E607)~ 0,38
4-1. - Présentation générale (Theil, 1971, p. 548 et sq.)
On suppose que le phénomène étudié peut être représenté par Une comparaison avec les estimations obtenues à l'aide du
le modèle de la régression linéaire multiple à (K — 1) variables modèle simplifié fait apparaître l'absence de biais de
explicatives plus un terme constant. Les observations sur ces spécification, ce qui permet une interprétation précise du modèle
variables sont regroupées ^ans la matrice X à N lignes et K simplifié. Ce résultat encourageant est particulier et résulte du fait que
colonnes. Pour des raisons qu'il ne convient pas d'analyser pour la variable X7 est obtenue par addition de trois variables du
l'instant, on n'observe pas la matrice X mais une matrice Xo à N modèle complet. Son coefficient mesure la résultante
lignes et Ko colonnes. Ainsi, au lieu d'observer les vraies d'influences de sens opposés : effets positifs des terres labourables et des
variables explicatives, on observe un autre ensemble de variables cultures permanentes, négatifs des prairies permanentes.
auquel on applique la méthode des moindres carrés, qui fournit L'influence de la variable cheptel est captée par les variables X6 et
l'estimateur : X7 ainsi que par la perturbation aléatoire dont la variance est
60 = (X'0X0)-i X'0Y augmentée.
Une question naturelle concerne la signification de cet De façon générale les erreurs de spécification ont des
estimateur vis-à-vis des coefficients du modèle exact. Il est bien conséquences non seulement sur le biais des estimateurs mais aussi
évident que la réponse à cette question est très contingente car elle sur leur précision et leurs propriétés asymptotiques. Nous allons
dépend des relations entre les variables de la matrice Xo et les passer en revue deux cas simples, celui de l'omission d'une ou
variables pertinentes de la matrice X. Comme le montre un plusieurs variables explicatives pertinentes et celui où on
calcul élémentaire, l'espérance mathématique de 6O vaut. introduit dans le modèle des variables inutiles.
E(b0) = P b P = (X'oX0)-i X'0X 4-2. - Variables pertinentes et variables inutiles
(Cassidy, 1981, chapitre 6)
Le vecteur espérance mathématique est lié linéairement aux L'omission de variables pertinentes se traduit par des biais de
paramètres inconnus qui forment le vecteur b par l'intermédiaire spécification dont l'ampleur dépend du degré de liaison entre
d'une matrice de pondération P. Celle-ci est en général les variables omises et les variables effectivement introduites dans
différente de la matrice identité donc l'estimateur obtenu b0 est un le modèle. Asymptotiquement les biais de spécification ne
estimateur biaisé de b, on parle de biais de spécification. s'annulent pas, les estimateurs ne convergent plus en probabilité vers
Ce qui intéresse le praticien c'est l'importance du biais selon les valeurs des paramètres. L'omission d'une variable
les situations particulières qu'il peut rencontrer. Au prix de explicative sera donc d'autant plus grave qu'elle est corrélée aux autres
certaines simplifications appliquons l'approche précédente au variables. Ainsi si les corrélations sont nulles les biais de
problème d'économie régionale qui nous intéresse et interrogeons- spécification sur les coefficients des variables explicatives s'annulent
nous sur l'interprétation d'un modèle simplifié. et les estimateurs retrouvent leur propriété de convergence. Par

-43-
contre, sauf cas particulier, l'estimateur du terme constant trop incomplète des facteurs explicatifs ce qui, à la limite,
demeure biaisé et non convergent. Dans tous les cas les interdirait l'interprétation de tous les coefficients.
estimateurs de la variance des coefficients obtenus par les formules L'économètre doit naviguer entre deux écueils, celui des
classiques surestiment les variances, ce qui risque de conduire à modèles incomplets et celui des modèles colinéaires. La voie en fin
ac epter l'hypothèse d'absence d'influence des variables introduites de compte est bien étroite. Jusqu'à quel degré de raffinement
dans le modèle alors qu'elle devrait être rejetée. peut-on aller tout en obtenant des résultats fiables ? Et à
Il y a donc un effet de capture de l'influence des variables l'inverse jusqu'à quel niveau de simplification est-il possible de
omises par les autres variables du modèle. Lorsque ce transfert se descendre tout en conservant des coefficients susceptibles d'une
produit au profit d'une variable dominante il peut conduire à interprétation économique pertinente. Le dilemme est moins aigu,
une surestimation de l'influence de celle-ci. Ainsi un raffinement la stratégie plus simple lorsque l'objectif du modèle n'est plus
du modèle d'économie régionale a-t-il consisté à décrire plus principalement l'explication, la vérification d'hypothèses mais
finement l'agriculture en introduisant le capital d'exploitation par la prévision. Dans cette dernière situation on peut davantage faire
actif. On observe alors une amélioration de la qualité de abstraction de la pertinence économique pour rechercher la
l'ajustement, accompagnée d'une diminution sensible du coefficient spécification qui fournit l'ajustement statistique le meilleur. Les
de la variable terres labourables sans que les autres coefficients stratégies sont certes différentes selon que le modèle est davantage
soient affectés. Ce résultat est facile à comprendre du fait que explicatif ou davantage prévisionnel, il faut cependant se méfier
ces deux variables sont étroitement corrélées, ainsi en l'absence des approches qui ne reposeraient que sur des critères d'ordre
de la variable capital d'exploitation y a-t-il un effet de capture statistique.
par la variable dominante terres labourables.
L'addition de variables inutiles dans un modèle, c'est-à-dire 4-3. - Effets de taille et hétéroscédasticité
de variables qui n'ont pas de caractère pertinent en ce qui Le terme aléatoire du modèle n'est pas observable, aussi, la
concerne l'explication des variations de la variable dépendante, recherche d'éventuelles erreurs de spécification portant sur sa
n'entraîne pas de biais de spécification et n'empêche pas la distribution de probabilité utilise-t-elle des moyens indirects. Elle
convergence en probabilité. L'inconvénient est une perte de précision, passe en particulier par un examen des résidus (19). Il existe ainsi
qui pour de grands échantillons est finalement peu gênante. Par toute une gamme de moyens graphiques pour mettre en évidence
ailleurs, comme les estimateurs des variances sont sans biais on certaines erreurs de spécification (Draper et Smith, 1981, chap.
peut utiliser les procédures habituelles pour les intervalles de 3), l'hétéroscédasticité entre autres. Avant d'en donner un
confiance et les tests. La limite à l'introduction de variables exemple rappelons ses conséquences sur les propriétés de l'estimation
supplémentaires est donc outre le nombre de degrés de liberté, le par la méthode des moindres carrés.
problème de la colinéarité. Même en présence d'hétéroscédasticité les estimateurs des
Il est très difficile d'être sûr qu'un modèle correspond à une coefficients des variables explicatives et du terme constant
spécification correcte. Les techniques statistiques ne fournissent demeurent sans biais et convergents en probabilité vers les valeurs des
que des éléments de réponse, aussi de ce point de vue sommes- paramètres. Par contre, ce ne sont pas des estimateurs
nous critique vis-à-vis des algorithmes de sélection automatique efficaces, la méthode des moindres carrés perd sa propriété d'opti-
des variables explicatives. Il est délicat de conclure par exemple malité. Cet inconvénient pourrait ne pas être trop gênant sur le
qu'un groupe de variables est inutile sur la base de tests plan pratique. Plus grave est le fait que les variances estimées
statistiques, tout d'abord parce qu'il est difficile de séparer les des paramètres, lorsqu'on utilise les formules habituelles, sont
variables entre celles qui seraient a priori pertinentes et les autres. Par biaisées ce qui rend illusoire les conclusions des tests
ailleurs le jeu des corrélations entre variables peut conduire à d'hypothèses. Un risque important est de sous-estimer les variances, donc
des résultats contradictoires sur leurs influences lorsqu'on d'en déduire des intervalles de confiance de faible amplitude,
compare différents ajustements. Ainsi sur des modèles simplifiés et d'en tirer l'impression d'une estimation précise, meilleure
peut-on conclure à une influence significative de variables, alors qu'elle ne l'est en réalité.
que sur des modèles plus complets leurs effets s'avèrent nuls. Si le risque d'hétéroscédasticité est limité lorsqu'on travaille
De ce point de vue envisager toutes les combinaisons possibles sur des données chronologiques, il est relativement important
de variables explicatives nous paraît d'un faible secours. Un lorsqu'il s'agit de données de coupe, échantillons de ménages,
risque évident des algorithmes de sélection automatique est, sur la d'entreprises par exemple. Dans le domaine de l'économie
base de tests, de conduire à préférer une variable à la véritable régionale l'hétéroscédasticité peut résulter d'un effet de taille. Ainsi
variable explicative lorsque celles-ci sont fortement corrélées et dans l'étude des disparités régionales, il est tentant de
par conséquent de commettre des biais de spécification. rechercher un modèle qui relie directement la valeur ajoutée agricole
Parfois le fait de supprimer une variable a peu d'influence sur à un certain nombre de variables explicatives, agrégats décrivant
les coefficients qui restent stables tandis que son addition affecte l'agriculture. Un tel modèle correspond à des hypothèses
peu les variances. Sur le plan statistique il s'agit d'une variable économiques sensiblement différentes de celles que nous avons
superflue, ce qui n'implique pas qu'elle ne présente pas adoptées jusqu'ici. Un ajustement portant sur des agrégats régionaux,
d'intérêt sur le plan de l'explication économique. avec 5 variables explicatives s'avère être d'une bonne qualité
L'écart entre interprétation statistique et interprétation puisqu'on obtient un coefficient de détermination ajusté égal à
économique peut aussi être illustré par le cas des variables 0,82 et l'utilisation des formules habituelles conclut à une
synthétiques. Ce sont des variables qui résument les effets d'un grand excellente précision sur les coefficients.
nombre de facteurs, ainsi pour des raisons qui tiennent à la fois Les unités statistiques sont ici les 295 régions européennes qui
à l'information disponible et à la simplification nécessaire, nous sont de tailles économiques extrêmement différentes. La région
avons représenté le niveau de développement régional par le la plus petite au sens de la valeur ajoutée agricole est 58 fois plus
pourcentage de population active employée dans l'agriculture. petite que la plus grande, la 100e du classement ne représente
L'interprétation des coefficients des variables synthétiques est que le quart de la 200e. On peut donc penser en première, analyse
délicate car ce sont souvent des variables dominantes liées à des que le terme aléatoire du modèle qui explique l'agrégat valeur
facteurs exclus du modèle. Pour ces raisons, on trouve qu'elles ont ajoutée agricole dépend d'une façon plus ou moins compliquée
une influence forte, résultat qui nécessite une interprétation
nuancée. L'omission de ces variables synthétiques serait cependant 19. Les résidus sont calculés et dépendent linéairement du terme
un remède pire que le mal car elle aboutirait à une description aléatoire.

-44-
de la taille. L'effet de taille se traduirait par un terme aléatoire Allemagne : 31 régions
fonction de la région considérée et une variance croissante avec France : 89
l'importance économique. Un examen graphique des résidus Italie : 93
confirme cette hypothèse, en fonction de la valeur ajoutée agricole UEBL : 10
observée, ils se distribuent à l'intérieur d'un éventail alors qu'en Pays-Bas : 11
cas d'homoscédasticité on a une distribution régulière dans une
bande de plan horizontale. Danemark : 14
Pour conforter la conclusion que nous faisons à partir de la Irlande : 27
représentation graphique des résidus on peut utiliser différents Royaume-Uni : 20
tests statistiques. Nous en présenterons un qui est simple (Gold- On considère un double indice pour les régions, j qui prend
feld et Quandt, 1972, p. 88-89). les valeurs de 1 à n, effectif de la classe, i indice de classe.
Supposons que les N régions (N = 295) soient classées par Le modèle d'analyse de la covariance s'écrit sous la forme (Rot-
valeur ajoutée agricole croissante, on partage les observations tier, 1975, p. 103-111) :
en trois groupes, en isolant les Nj plus petites régions et les N,
plus grandes, laissant ainsi de côté les (N 2 Nj) régions de Yjj = m{ + b, + b2 Xij2 + + bK XijK + ey
taille médiane. S'il y a un effet taille, la variance du terme
aléatoire est plus faible pour les petites régions que pour les plus i = 1 . . . I j = 1 ... n; n; = N
grandes. L'idée du test est d'ajuster le modèle séparément sur les

.
groupes de régions extrêmes afin de comparer les sommes des carrés 1 = 8 N = 295 K = 5
des résidus.

.
Appelons S, la somme des carrés des résidus de l'ajustement Chaque classe (pays) est caractérisée par un terme constant
sur les régions les plus petites et S2 la même quantité obtenue spécifique m; + b.j mais les coefficients des variables
à partir de l'ajustement sur les régions les plus grandes. Sous explicatives sont les mêmes pour toutes les classes. Ainsi dans le cas d'une
l'hypothèse de distribution normale du terme aléatoire le seule variable explicative le modèle peut être représenté par un
rapport Sj/Sj suit la loi F de Fisher à N, K et Ht- K degrés faisceau de I droites parallèles.
de liberté. On rejette donc l'hypothèse d'homoscédasticité si ce Si on considère deux classes indicées par i et i', la différence
rapport est statistiquement élevée. On a donc un test au niveau de termes constants m; rrij, s'interprète comme une différence
(1 a) dont la région critique est définie par S2/Sj > Fa,Fçç de valeur ajoutée agricole par actif (entre régions du pays i et
est la valeur de F à Nj K degrés de liberté dépassée avec une régions du pays i'), donc imputable à une différence
probabilité égale à a. La puissance de ce test est fonction du d'appartenance toutes choses égales par ailleurs.
nombre d'observations médianes. Plus le nombre des régions Si on continue à désigner par 62 . . . 6K les estimateurs des
éliminées des échantillons extrêmes est grand, moins le test risque moindres carrés des coefficients des variables explicatives, on
d'être puissant. On ne dispose pas de résultats théoriques estime lés effets m; du facteur pays et le terme constant
définitifs sur lé choix optimal de Nj, aussi est-il recommandé commun Bi au moyen des équations suivantes :
d'essayer plusieurs valeurs.
SiNj = 100 Sj = 1,21 106 m; = (Yi( k = 2 \ (Xiok Xook) 1 - 1 I
13,53 F0 99 = 1,78
N, K = 95 S2= 16,37 10*
K
SiN, = 125 Sj = 1,88106 S &i = Y0 S
k = 2 btX,ook
N! K = 120 S, = 18,83 10* -7T
S = 10,02 0,99 1,59

Dans chaque cas on rejette l'hypothèse d'homoscédasticité. Yio et Xiok (k = 2 . . . K) désignentJes moyennes des diverses
La conclusion est qu'un ajustement entre agrégats n'est pas variables dans la classe i tandis que Y0o et Xook (K = 1 . . . K)
fiable, la solution statistique est alors de raisonner sur des sont leurs moyennes générales. On remarque que les effets du
variables transformées ce qui conduit à considérer un modèle qui facteur pays sont estimés sous la contrainte :
explique la valeur ajoutée agricole par actif. La démarche purement i
statistique que nous venons de faire rejoint ainsi les hypothèses S ^ ihi = o
économiques introduites au début de cet article. Il est cependant i= i
évident que les interprétations qui peuvent être obtenues à
partir de ces deux types de modèles économiques ne sont pas les qui signifie que la somme des effets pondérés par les effectifs
mêmes. de classe est nulle. Par ailleurs le terme constant m( + bj
spécifique de la classe i est estimé par :
5. ANALYSE DE LA COVARIANCE K
ET VARIABLES INDICATRICES - S Bu X;
Le modèle des disparités régionales qui a été ajusté suppose k =2
une homogénéité à l'intérieur de la Communauté Economique
Européenne. On peut se demander si le même ajustement quantité appelée moyenne ajustée de la classe. Ainsi on corrige
s'applique à tous les pays et s'il ne faudrait pas distinguer dés la moyenne observée de la variable dépendante de l'influence au
classes de pays. Le modèle de régression permet de mesurer point moyen dès variables explicatives. D'une classe à l'autre,
l'influence de facteurs quantitatifs, le modèle d'analyse de la cova- les moyennes ajustées sont comparables puisqu'elles sont
riance fait intervenir à la fois des facteurs quantitatifs et des obtenues sous les mêmes conditions.
facteurs qualitatifs et permet de répondre à une telle question. L'estimation faite, il est aisé de tester l'hypothèse d'absence
En regroupant la Belgique et le Grand Duché du Luxembourg d'effet pays, c'est-à-dire la nullité simultanée des mj. Le test
pour former l'UEBL (20), nous considérons une répartition des
régions de la CEE en I = 8 classes d'effectifs variés : 20. Union Economique Belgo-Luxembourgeoise.

-45-
repose sur une décomposition des variations de la variable Tableau 2. - Test des valeurs ajoutées ajustées
dépendante en variations imputables au facteur qualitatif, aux
variables explicatives continues et au terme aléatoire. Les carrés Valeur ajoutée
moyens obtenus en les divisant par leur nombre de degrés de ajustée Valeur du t
liberté respectifs suivant des lois du khi-carré. Il est alors facile unités de compte
de construire des tests basés sur la loi F de Fisher puisque le carré
moyen associé au terme aléatoire est indépendant d'une part du Allemagne . . . 3 256 20,87
carré moyen associé au facteur qualitatif, d'autre part au carré France 3 335 34,03
moyen associé aux variables explicatives continues. La table Italie 3 185 27,70
d'analyse de la variance (tableau 1) résume ces résultats. UEBL 3 911 14,54
Tableau 1. - Table d'analyse de la variance Pays-Bas 5 253 20,76
Danemark . . 3 196 13,49

.
Irlande 2 874 13,37
Source des variations Somme des carrés Nombre de degrés
de liberté Carré moyen Royaume-Uni 2 158 8,11
Facteur pays SA = 6 775,18 SA 1 = 967,88
CA = I—
— L'étape suivante de l'analyse consiste à comparer les valeurs
ajoutées ajustées des pays pris deux-à-deux de façon à voir s'il
Variables explicatives SX = 19 734,65 CX = K—SX1 = 3 946,93 est possible de faire des regroupements. Cette étude des cons-
(X2,X3.X4)X3!X6)
trastes élémentaires revient à tester l'égalité des constantes
...

Terme aléatoire SE = 17 502,21 N— I— K+l = 282 = 62,06 spécifiques m; sur la base d'un test de Student (tableau 3).
Tableau 3. - Test des contrastes élémentaires
Pour tester l'hypothèse d'absence d'effet-pays on calcule le
rapport. r
F = CA 967,88 = 15,60 Allemagne _ 0,41— 0,39 2,15 6,96 0,21 1,30 3,40
France
.. 0,68 0,97— 1,93 6,73 0,54 1,94 4,03
CE 62,06 Italie 0,70 0,33 2,36— 7,32 0,04 1,13 3,04
UEBL 0,03 0,05 0,02 3,87— 2,09 3,05 5,24
qui suit la loi F de Fisher à 7 et 282 degrés de liberté. La région Pays-Bas 0,00 0,00 0,00 0,00 6,07_ 7,06 9,02
Danemark 0,83
0,19 0,59 0,97 0,03 0,00 1,03— 3,22
critique d'un test au niveau 1 — a est définie par les valeurs Irlande 0,05 0,26 0,00 0,00 0,30 2,53
..

calculées du rapport supérieures à Fa. On lit dans la table Royaume-Uni 0,00 0,00 0,00 0,00 0,00 0,00 0,01
F001 =2,64 donc on rejette l'hypothèse d'absence d'effet-pays.
De même on peut tester l'hypothèse d'absence d'influence Le tableau indique pour chaque contraste élémentaire dans sa
simultanée des variables X2, X3, X4, X5 et X6 en considérant le partie supérieure la valeur calculée du t. Dans sa partie inférieure
rapport : on lit la probabilité de la région critique, c'est-à-dire la
probabilité eu égard au nombre de degrés de liberté d'observer une
F = CX 3 946,93 = 63,60 valeur supérieure à la valeur du t calculée.
CE 62,06 Au sens de la valeur ajoutée ajustée, on en conclut que les Pays-
Bas dominent tous les autres pays, avec une probabilité
qui suit la loi F de Fisher à 5 et 282 de liberté. La comparaison supérieure à 0,99. Avec une probabilité au moins égale à 0,95 l'UEBL
avec la valeur critique F001 = 3,02 conduit à rejeter l'hypothèse domine les autres états membres. A l'inverse, avec une
d'absence d'influence dès variables continues. probabilité supérieure à 0,99 on constate que le Royaume-Uni est
La question naturelle qui vient ensuite consiste à s'interroger toujours dominé. Enfin avec une probabilité de 0,95 le contraste
sur une éventuelle hétérogénéité des coefficients des variables France-Irlande est significatif, avec un écart en faveur de la
explicatives continues. Il est clair que deux hectares de terres France.
labourables ne sont pas équivalentes quelle que soit leur On va distinguer quatre classes de pays. Les Pays-Bas, l'UEBL
localisation. De même la valeur ajoutée marginale d'un hectare de et le Royaume-Uni formeront chacun une classe. La quatrième
prairies permanentes varie de façon importante entre une région de classe est formée des autres états membres. Pour formaliser cette
montagne et une zone de riches pâturages. Or, le modèle ne prend situation on introduit trois nouvelles variables explicatives (21).
pas en compte ces différences. Pour tester l'homogénéité Ce sont des variables indicatrices qui prennent les valeurs 0 ou
interpays des coefficients, il suffit de comparer le modèle avec 1 (Cassidy, 1981, p. 36-46). Leur statut est particulier puisqu'elles
facteurs qualitatifs et facteurs quantitatifs à un modèle où nous sont spécifiques aux Pays-Bas, à l'UEBL et au Royaume-Uni.
aurions une équation par classe. C'est-à-dire à comparer le
modèle d'analyse de la covariance à 8 modèles de régression 1 si la région est !1 si la région est
spécifiques aux différents pays. Pratiquement on décompose la PB = située aux Pays-Bas située dans l'UEBL
somme des carrés imputable au terme aléatoire en deux, de façon 0 sinon 0 sinon
à tester l'hypothèse d'homogénéité des coefficients. Sans plus
de détails indiquons que l'on est conduit à la rejeter au niveau il si la région est située
de confiance de 0,99. RU = < au Royaume-Uni
Les conclusions des tests remettent en cause le modèle et ( 0 sinon
incitent donc à l'approfondir. Pour ce faire on doit s'interroger sur
la nature exacte de l'effet-pays et des spécificités des coefficients, L'approfondissement des spécificités des coefficients des
étant entendu que l'on ne peut guère descendre à un niveau de variables continues est plus délicat. On pourrait penser sur la base
détails très fin. d'une typologie, faire des regroupements de région. Une telle
Les valeurs ajoutées ajustées par pays sont positives au niveau démarche serait peu opérationnelle à cause de sa complexité. De
de confiance de 0,99 comme le montre le test basé sur la loi du
t de Student (tableau 2.) : 21. Autant qu'il y a de classes moins une.

-46-
toute façon un modèle ne peut pas intégrer la réalité dans toute cultures permanentes b40 ■' 4,27 6,42
sa complexité. (Italie exclue)
Un certain nombre d'analyses montre une forte hétérogénéité cheptel b5 : 0,24 0,56
entre les cultures permanentes italiennes et les autres, qui tient actifs agri. °/o b6 : — 0,53 — 0,40
pour partie à une différence de productivité due entre autres à
l'importance des oliveraies en Italie. Pour tenir compte de cette Pour les coefficients des variables indicatrices nous obtenons
différence il suffit d'introduire deux variables X^ et X41 pour avec la même probabilité les intervalles de confiance suivant :
représenter les cultures permanentes, au lieu de la seule variable
X4: UEBL 285 1 179 unités de compte
Pays-Bas 1 596 2 441 unités de compte
_ \ 0 pour l'Italie Royaume-Uni — 1 207 — 393 unités de compte
4 pour le reste de la CEE
y 41 _~~ J^4 Pour l'Italie Ces valeurs mettent en évidence un avantage spécifique de
(0 pour le reste de la CEE l'agriculture du Bénélux et surtout des Pays-Bas, à l'inverse un
décalage vers le bas pour l'agriculture du Royaume-Uni. Ces
X4 = X40 + X41 (22). écarts de valeur ajoutée, obtenus toutes chose égales par ailleurs,
traduisent les différences d'intensification de la production
On sépare ainsi les cultures permanentes relatives à l'Italie des agricole. Les variables BL et PB traduisent la forte intensification
autres, ce qui va permettre d'estimer des valeurs ajoutées de l'agriculture du Bénélux, tandis que le caractère extensif de
marginales différentes. l'agriculture du Royaume-Uni a été pris en compte par la
La partition de la CEE en quatre classes et l'introduction d'une variable indicatrice RU.
spécificité des cultures permanentes italiennes conduisent à
l'équation ajustée :
Y = 30,56 + 7.32BL + 20.18PB — 8,00 RU + 1,51 X2 * *
(20,68) (2,70) (7,86) (3,23) (12,06) Nous n'avons abordé que quelques problèmes de l'économé-
— 0,54 X3 + 5,34X40 + 1,04 X41 + 0,40 X5 — 0,47X6 trie, ceux rencontrés lors d'une recherche particulière. Pour
(4,71) (8,15) (0,76) (4,02) (11,41) d'autres développements il faut se reporter aux nombreux ouvrages
et articles spécialisés. L'économétrie a atteint en quelque
R2 = 0,70 R2 = 0,69 décennies un important degré de sophistication, mais ses progrès ont
souvent précédé en qualité les améliorations du matériel
On obtient un fort accroissement du coefficient de statistique. Ainsi on est souvent frappé par le manque de comparabi-
détermination dû pour l'essentiel à la prise en compte de l'effet pays. lité internationale de nombreuses données. Dans le domaine de
Ainsi les contributions marginales des variables BL, PB et RU l'économie régionale il est encore difficile de constituer des séries
valent respectivement 0,01, 0,07 et 0,01. L'introduction d'une historiques suffisamment longues.
spécificité des cultures permanentes contribue marginalement à Le développement de l'informatique permet à l'économètre
un accroissement de 0,02 du coefficient de détermination. Les de nouvelles ambitions qui étaient du domaine du rêve il y a vingt
variables X2 et X6 demeurent dominantes mais leurs ans : utilisation de modèles non linéaires, combinaison de
contributions marginales diminuent nettement. données de coupe et de données chronologiques... Les progrès
Le coefficient de X41 s'avère significativement nul, ce qui techniques ne doivent pas faire oublier les objectifs de
justifie la décomposition de X4 qui a été faite. Les intervalles de l'économétrie, qui doit rester le moyen principal de contrôler une théorie
confiance à 0,90 pour les coefficients des variables explicatives économique.
sont comparables à ceux que nous avions obtenus :
terres labourables b2 : 1,30 1,71 22. Cette écriture revient à introduire une variable indicatrice D qui vaut
1 pour les régions italiennes et 0 pour les autres
prairies permanentes b3 : — 0,72 — 0,35 X*, = (1 - D) X4 et X41 = DX4
:

RÉFÉRENCES BIBLIOGRAPHIQUES

BIBBY J., TOUTENBURG H. (1977). — Prediction and improved GOLDFELD S.M., QUANDT R.E. (1972). — Non linear methods
estimation in linear models. Wiley, New York. in econometrics. North Holland Publishing Company, Amsterdam.
BONNIEUX F., FOUET J.P., RAINELLI P. (1980). — Approche JUDGE G.G., GRIFFITHS W.E., HILL R.C., LEE T.C. (1980). —
au niveau régional des inégalités dans l'agriculture : situation comparée The theory and practice of econometrics. Wiley, New York.
de 6,la pp.
n° France
75-92.
et de la CEE. Bulletin d'Inf. du Département d'E.S.R., MALINVAUDE(1978). — Méthodes statistiques de l'économétrie.
Dunod, Paris, 3e édition.
CASSIDY HJ. (1981). — Using econometrics : a beginner's guide. PAELINCK J.H.P., KLAASSEN L.H. (1979). — Spatial
Reston Publishing Company, Inc. Reston, Virginia. econometrics. Gower.
CRAMER J.S. (1971). — Empirical econometrics. North-Holland, ROTTIER G. (1975). — Econométrie appliquée: modèles de
Publishing Company, Amsterdam. consommation. Dunod, Paris.
DRAPER N., SMITH H. (1981). — Applied regression analysis. THEIL H. (1971). — Principles of econometrics. North Holland
Wiley, 2e édition. Publishing Company, Amsterdam.

-47-

Vous aimerez peut-être aussi