CM Économétrie

Économétrie
e
Licence 3 année de Sciences Économiques
Mentions : Économie internationale,
Économie des Entreprises et des Marchés,
Monnaie-Finance
Magistère Banque-Finance 1
Cours de Monsieur le Professeur Alain PIROTTE

Plan
Introduction
Chapitre 1 : La modélisation
Chapitre 2 : Le modèle de régression simple
Chapitre 3 : Le modèle de régression multiple
Chapitre 4 : Le modèle de régression multiple avec matrice de variances-

covariances des perturbations non scalaire
Chapitre 5 : Autocorrélation des perturbations
Chapitre 6 : Hétéroscédasticité des perturbations
Chapitre 7 : Estimation sous contraintes linéaires et tests d’hypothèses
Conclusion
2
Références bibliographiques (sélection)
Cadoret I., C. Benjamin, F. Martin, N. Herrard et S. Tanguy (2009),

Économétrie Appliquée. Méthodes, Applications, Corrigés, Ouvertures Économiques,
2e Ã c dition, De Boeck.
Crépon B. et N. Jacquemet (2018), Économétrie : Méthode et Applications,
Ouvertures Économiques, 2e Ã c dition, De Boeck.
Dormont B. (2007), Introduction à l’Économétrie, Seconde Edition, Mont-
chrestien, Paris.
Ghosh S.K. (1991), Econometrics. Theory and Applications, Prentice-Hall, New
Jersey.
Greene W.H. (2012), Econometric Analysis, 7th Edition, Pearson International
Edition, New Jersey.
Greene W.H. (2005), Économétrie, Traduit par D. Schlacther, T. Azomahou, N.
Couderc, S. Monjon et P. Nguyen Van, Pearson Éducation, Paris.
Gujarati D.N. (2015), Econometrics by Example, 2nd Edition, MacMillan Educa-
tion, Palgrave.
Heij C., P. de Boer, P.H. Franses, T. Kloek and H.K. van Dijk (2004),
Econometric Methods with Applications in Business and Economics, Oxford Univer-
sity Press.
Kmenta J. (1997), Elements of Econometrics, Second Edition, MacMillan, New
York.
Mignon V. (2007), Econométrie. Théorie et Applications, Collection CorpusÉ-
conomie, Economica, Paris.
Murray P.P. (2006), Econometrics. A Modern Introduction, Pearson International
Edition, Addison Wesley.
Pirotte A. (2004), L’Économétrie, Des Origines aux Développements
Récents, CNRS Économie, CNRS Éditions, Paris.
Ramanathan R. (2002), Introductory Econometrics with Applications, Harcourt
College Publishers.
Verbeek M. (2012), A Guide to Modern Econometrics, 4th Edition, Wiley, Chich-
ester.
Wooldridge J.M. (2012), Introductory Econometrics: A Modern Approach, 5th
Edition, International Edition, Thomson.
3
Pour des compléments d’algèbre, consulter en priorité les ouvrages suivants :
Abadir K.M. and J.R. Magnus (2005), Matrix Algebra, Cambridge University
Press, Cambridge.
Dhrymes P.J. (1984), Mathematics for Econometrics, Springer-Verlag, New York.
Simon C.P. and L. Blume (1998), Mathématiques pour Économistes, Traduit par
V. Darmon, G. Dufrénot, O. Ferrier, M. Paul, A. Pirotte, B. Planès et M. Séris, De
Boeck Université Presses, Bruxelles.
4
Thèmes des séances de travaux dirigés
Fiche de TD n 1/2 : Le modèle de régression simple
Fiche de TD n 3/4/5 : Le modèle de régression multiple
Fiche de TD n 6/7 : Autocorrélation des perturbations
Fiche de TD n 8/9 : Hétéroscédasticité des perturbations
Fiche de TD n 10 : Les moindres carrés sous contraintes

et tests d’hypothèses
Tous les exemples d’économie appliquée seront réalisés sous le logiciel Stata.
5
Fiche de TD n 1/2 : Le modèle de régression simple
Exercice n 1
Soit le modèle de régression simple
yt = axt + b + ut ; t = 1; :::; T; (1)
sous les hypothèses H1 à H5 (cf. cours).
1. Démontrer que l’estimateur a

^ des MCO est un estimateur de Gauss-Markov.
2. Montrer que le coe¢cient de détermination (R2 ) est égal au carré du coe¢cient

de corrélation ( 2 ) entre la variable explicative xt et la variable expliquée yt .
Exercice n 2
Soit le modèle
yt = axt + ut ; t = 1; :::; T: (2)
Trois estimateurs du coe¢cient a sont proposés :
y
b
a1 = ;
x
PT
xt yt
t=1
b
a2 = ;
PT
x2t
t=1
P
T
(xt x)(yt y)
t=1
b
a3 = ;
P
T
(xt x)2
t=1
où
1X 1X
T T
y= yt et x = xt :
T t=1 T t=1
1. Quelle hypothèse n’est pas véri…ée dans le modèle (2) ?
6
2. Montrer que ces trois estimateurs sont sans biais.
3. Déterminer la variance de chacun de ces trois estimateurs. Quelle est l’estimateur

qui possède la plus petite variance ?
Exercice n 3
Soit un échantillon de 10 observations qui concernent les salariés d’une …rme de
chocolat1 :
n yi xi
1 11 10
2 10 7
3 12 10
4 6 5
5 10 8
6 7 8
7 9 6
8 10 7
9 11 9
10 10 10
où xi est le nombre d’heures travaillées (par salarié) et yi est la quantité de biens

produite (par le salarié). Le directeur de cette entreprise souhaite étudier la relation
qui existe entre la quantité de biens produite par le salarié et le nombre d’heures
travaillées.
1. Quel modèle doit-il choisir (en donner une interprétation économi-

que) ?
2. Calculer les estimateurs des MCO des coe¢cients du modèle proposé. Com-
menter.
3. Calculer le coe¢cient de détermination. E¤ectuer une analyse de la variance.

Le coe¢cient a¤ecté au nombre d’heures travaillées (par salarié) est-il signi…ca-
tivement di¤érent de zéro ? Commenter.
Exercice n 4
Cet exercice est consacré à l’étude du taux de salaire horaire des salariés américains
1
Ici, le raisonnement s’e¤ectue dans la dimension individuelle (transversale) et non temporelle
(longitudinale). Les variables sont donc indicées en i et non en t.
7
sur la base d’une coupe transversale. La base de données est extraite de l’“US Na-
tional Longitudinal Survey”. Elle concerne 3296 salariés (dont 1569 femmes) observés
en 1987. La base de données wages contient les variables suivantes :
- exper : nombre d’années d’expérience ( =âge études 6);
- male : variable dummy valant 1 si l’individu est un homme;
- school : nombre d’années d’études;
- wage : taux de salaire horaire (en $ 1980).
1. Représenter les nuages de points (school wage) et (exper wage).
2. Calculer la moyenne, l’écart-type, le min et le max de chaque variable de la
base.
3. Calculer les percentiles 10, 25, 50, 75 et 90 des variables exper, school et wage.
4. Calculer la matrice de corrélation des 4 variables de la base.
5. Créer une variable indicatrice valant 1 si l’individu est une femme.
6. Calculer le taux de salaire horaire moyen, la moyenne du nombre d’années
d’études et du nombre d’années d’expérience pour les hommes et pour les
femmes. Que peut-on en déduire ?
Pour expliquer le taux de salaire horaire des salariés américains, on considère

le modèle :
wagei = b0 + b1 malei + ui (3)
où malei est une variable indicatrice valant 1 si le salarié est un homme, 0 sinon.
7. Estimer par les MCO les paramètres du modèle (3). Comment s’interprète le
coe¢cient estimé bb1 ? Même question pour celui de la constante.
8. Calculer et interpréter le coe¢cient de détermination.
9. Expliquer la relation qui existe entre les coe¢cients estimés et les taux de salaire
horaire moyens des salariés hommes et femmes.
10. Que pensez-vous de cette a¢rmation : “une variable indicatrice f emalei a été
oubliée dans le modèle (3), valant 1 si le salarié est une femme, 0 sinon” ?
11. À partir des résultats des MCO, tester l’hypothèse que les salariés hommes et
femmes ont, en moyenne, le même taux de salaire horaire, contre l’hypothèse
alternative que les salariés femmes gagnent moins.
12. Construire l’intervalle de con…ance à 95 % pour le coe¢cient b1 . Interpréter.
13. Finalement, que pensez-vous du modèle retenue pour expliquer le taux de salaire
horaire des salariés américains ?
8
Fiche de TD n 3/4/5 : Le modèle de régression multiple
Exercice n 1
Démontrer que l’estimateur bb des MCO du modèle de régression multiple est e¢cace,
mais que celui de la variance b2u ne l’est pas.
Exercice n 2
Soit un échantillon de 9 entreprises spécialisées dans la production de peinture2 :
n yi x1i x2i
1 60 1100 300
2 120 1200 400
3 190 1430 420
4 250 1500 400
5 300 1520 510
6 360 1620 590
7 380 1800 600
8 430 1820 630
9 440 1800 610
où x1i est le travail (heures travaillées), x2i est le capital (machines/heures) et yi est
la quantité de peinture produite (tonnes). On cherche à étudier la relation qui existe
entre la quantité de peinture produite, le nombre d’heures travaillées et le nombre
machines/heures.
1. Quel modèle doit-il choisir (en donner une interprétation économi-

que) ?
2. Calculer les estimateurs des MCO des coe¢cients du modèle proposé. Com-
menter.
3. Retrouver les résultats de la question précédente grâce au théorème de Frisch-

Waugh.
4. Calculer le coe¢cient de détermination. E¤ectuer une analyse de la variance.

Les coe¢cients sont-il signi…cativement di¤érents de zéro ? Commenter.
2
Ici, le raisonnement s’e¤ectue dans la dimension individuelle (transversale) et non temporelle
(longitudinale). Les variables sont donc indicées en i et non en t.
9
Exercice n 3
Soit le modèle d’investissement d’une …rme i
Ii = b0 + b1 Vi + b2 Ki + b3 Si + ui ; i = 1; : : : ; N;
où Ii représente l’investissement, Vi les ventes de l’entreprise, Ki le stock de capital.

Toutes ces variables sont exprimées en millions d’euros. En…n, Si est une variable
indicatrice valant si la …rme est privée, 0 si la …rme est publique. Par ailleurs, on
suppose que les perturbations sont indépendantes et de même loi ui s N (0; 2u ).
L’estimation de ce modèle par les MCO, à partir de 34 observations, a conduit aux
résultats
Ibi = 10 + 0:2Vi + 0:02Ki + 0:3Si ;
avec pour matrice de variances-covariances des coe¢cients estimés
0 1
4:0
h i B 0:16 0:01 C
Vb bb =B C;
@ 0:10 0:002 0:0001 A
0:20 0:005 0:003 0:01
>
b = bb0 ; bb1 ; bb2 ; bb3
où b .
1. Prévoir le montant de l’investissement pour une …rme privée, ayant un stock de

capital de 1 milliard d’euros et des ventes de 100 millions d’euros.
2. Quelles seraient les valeurs de tous les coe¢cients estimés, si I, V et K avaient

été mesurés en milliers d’euros ?
3. Tester au seuil = 5% les hypothèses suivantes :
H01 : b1 = 0:3 contre H11 : b1 6= 0:3;
H02 : b2 0:03 contre H12 : b2 < 0:03;

et
H03 : b1 = b3 contre H13 : b1 6= b3 :
4. Construire l’intervalle de con…ance à 95 % pour le coe¢cient b1 .
Exercice n 4
Dans la théorie keynésienne, la demande de monnaie existe pour des motifs spéci…ques
: le motif de transaction, le motif de précaution et en…n celui de spéculation. Pour
10
simpli…er, ce raisonnement aboutit à une fonction où la demande de monnaie dépend
du revenu et du taux d’intérêt. Supposons que la demande de monnaie puisse s’écrire
sous forme linéaire
mt = b0 + b1 rt + b2 it + ut ;
où mt est l’agrégat M1, rt est le produit intérieur brut (PIB) et it le taux d’intérêt à
six mois des bons du trésor américain. Ces données sont disponibles pour l’économie
américaine sur la période 1960-1983 (base de données “monnaie”). m et r sont
exprimés en milliards de dollars et le taux d’intérêt i est en pourcentage.
1. Tracer les graphiques des séries utilisées, commenter.
2. Quels sont les signes espérés des coe¢cients b1 et b2 ? Pourquoi ?
3. Estimer par les MCO les coe¢cients de ce modèle. Les coe¢cients estimés ont-
ils les signes attendus ? Comment interpréter chacun de ces coe¢cients estimés
?
4. Prévoir la demande de monnaie

- pour un PIB de 1000 milliards de dollars et un taux d’intérêt de 12 %.
- même chose pour un PIB de 2000 milliards de dollars et un taux d’intérêt de
6 %.
5. Trouver les élasticités points de la demande de monnaie par rapport au revenu

en prenant les données de la question précédente. Interpréter ces élasticités ?
Est-il possible d’expliquer ces di¤érences ?
6. E¤ectuer le même raisonnement pour le calcul des élasticités points de la de-

mande de monnaie par rapport au taux d’intérêt.
7. Calculer la matrice de variances-covariances des coe¢cients estimés.
8. Calculer la valeur du coe¢cient de détermination, que peut-on en dire, en dé-

duire ?
9. Tracer le graphique des séries observée et ajustée.
10. Tracer le graphique des résidus estimés, peut-on diagnostiquer un pro-

blème, si oui lequel ? Pourquoi ? Que faudrait-il faire ?
Exercice n 5
Supposons qu’au lieu de considérer le modèle de l’exercice 4 pour la demande de
monnaie, on retienne maintenant un modèle log-linéaire
ln mt = 0 + 1 ln rt + 2 ln it + "t :
11
1. Estimer par les MCO les coe¢cients de ce modèle.
2. Prévoir la demande de monnaie en utilisant les données de l’exercice précédent.

Comparer les deux types de prévision.
3. Calculer les expressions

@mt @mt
et :
@rt @it
Les évaluer au point moyen de l’échantillon. Comment peut-on les comparer
avec celles de l’exercice précédent ?
12
Fiche de TD n 6/7 : Autocorrélation des perturbations
Exercice n 1
1. Dans le cas où V [u] = 2u 6= 2u IT , démontrer que l’estimateur de la variance

des perturbations b2u;M CO est biaisé et que celui des MCG est sans biais.
2. Dans le cas où V [u] = 2u 6= 2u IT , démontrer que l’estimateur b ^ M CG est

2
e¢cace, mais que celui de la variance des perturbations bu;M CG ne l’est pas.
Exercice n 2
Lorsque les rendements d’échelle sont croissants, la situation d’une entreprise en
monopole est appelée monopole naturel au sens où c’est la plus e¢cace économique-
ment. Un économiste s’interroge donc sur l’existence de rendements d’échelle crois-
sants dans “l’industrie” de la distribution de courrier (i.e. la poste). Pour ce faire,
il estime la fonction de production suivante sur données trimestrielles couvrant la
période 1970:1 à 1994:4
ln Qt = b0 + b1 ln Kt + b2 ln Lt + "t ; (4)
où Qt est la quantité de courrier distribuée, Lt le nombre de personnes a¤ectées au

service du courrier (collecte, tri, distribution) et Kt le capital consacré au service du
courrier. En estimant ce modèle par les MCO, il obtient les résultats suivants
[
ln Qt = 10:4 + 0:38 ln Kt + 0:72 ln Lt : (5)
(2:971) (9:50) (12:0)
h i
d bb1 ; bb2 = 0:05, R2 = 0:81, R2 = 0:79, DW = 1:87 et b2" = 0:97.
Par ailleurs, on a Cov
1. Tester au seuil = 5 % l’hypothèse
H0 : b1 + b2 1 contre H1 : b1 + b2 < 1:
2. Sous quelles conditions la conclusion de ce test est-elle …able ?
3. Tester l’absence d’autocorrélation des perturbations, que peut-on en conclure ?
13
Exercice n 3
Cet exercice est consacré à l’étude de l’o¤re de logement. On retient le modèle
ln ihvt = 0 + 1 ln rhpt + 2 ln ydrht + 3 ln piht + ut ; (6)

où ihv est le montant de l’investissement en logement, rhp est le prix réel des lo-
gements, ydrh est le revenu disponible réel des ménages par habitant et pih est le
dé‡ateur de l’investissement en logement.
Pour estimer les paramètres de ce modèle, on dispose d’une base de données car-
actérisant le marché français couvrant la période 1978 à 2017 (données trimestrielles,
T = 160 observations).
1. Tracer les graphiques des séries ln ihv et ln rhp. Commenter ?
2. Estimer par les MCO les coe¢cients du modèle (6). A¢cher la matrice de
variances-covariances estimée de l’estimateur des MCO.
3. Tracer le graphique des valeurs observées et ajustées, celui des résidus. Com-
menter ?
4. Tester l’absence de l’autocorrélation d’ordre 1 des perturbations. Les résultats

des MCO de la question précédente sont-ils …ables ?
5. En supposant que l’on ne connaisse pas la forme d’autocorrélation, calculer la

matrice de variances-covariances des coe¢cients des MCO par la méthode de
Newey-West. Commenter (par rapport à la matrice de variances-covariances
d’origine des MCO).
6. Estimer l’équation (6) à l’aide des méthodes de Prais-Winsten (1954), de

Cochrane-Orcutt (1948), de Hildreth-Lu (1960) et du maximum de vraisem-
blance. Commenter les résultats obtenus.
14
Fiche de TD n 8/9 : Hétéroscédasticité des perturbations
Exercice n 1
On considère le modèle de régression
yi = + ui
avec
2 2
E(ui j xi ) = 0; Cov(ui ; uj j xi ; xj ) = 0; 8i 6= j et V (ui j xi ) = u xi ; xi > 0;
et où est un paramètre à estimer.
1. Étant donné un échantillon d’observations sur yi et xi , quel est l’estimateur de

le plus e¢cace ? Quelle est sa variance ?
2. Quel est l’estimateur des MCO de et quelle est sa variance ?
3. Montrer que l’estimateur obtenu à la première question est au moins aussi

e¢cace que celui de la deuxième.
Exercice n 2
L’objectif de cet exercice est d’estimer une fonction de demande de travail. Les don-
nées sont extraites de Verbeek (2000).3 Elle concerne 570 entreprises belges observées
en 1996. La base de données labor comprend les variables suivantes : labori , capitali ,
wagei et outputi où labori est l’e¤ectif total de la …rme, capitali , le stock de capital
(en millions de francs belges), wagei , le coût salarial (en millions de francs belges)
et outputi , la valeur ajoutée (en millions francs belges). On considère le modèle de
demande de travail4
ln labori = b0 + b1 ln wagei + b2 ln outputi + b3 ln capitali + ui :
1. Estimer par la méthode des MCO les paramètres du modèle de demande de

travail. Commenter.
2. Faire le graphique des résidus.5 Commenter.

3
A Guide to Modern Econometrics, Wiley.
4
Ici, le coût d’usage du capital est approximé par le stock de capital.
5
Pour des sous-parties selon la lisibilité.
15
3. Tester l’absence d’hétéroscédasticité des perturbations grâce au test de Breusch
et Pagan (1979). Commenter.
4. Même question que la précédente en utilisant le test de White (1980).
5. En supposant que l’on ne connaisse pas la forme de l’hétéroscédasticité, calculer
la matrice de variances-covariances des coe¢cients des MCO par la méthode de
White. Commenter (par rapport à la matrice de variances-covariances d’origine
des MCO).
6. Donner l’intervalle de con…ance à 95% des coe¢cients associés au coût salarial
(wage), à la valeur ajoutée (output) et au stock de capital (capital). Interpréter.
7. En supposant cette fois-ci que l’on connaisse la forme de l’hétéroscédasticité
(cas de l’hétéroscédasticité multiplicative) qui serait telle que 2i = 2u exp (Zi a),
calculer les estimateurs des moindres carrés pondérés. Commenter. La forme
de l’hétéroscédasticité envisagée semble-t-elle appropriée ?
Exercice n 3
L’objectif de cet exercice est d’analyser les déterminants de la croissance économique.
On dispose d’une base de données qui comprend les observations liées à un certain
nombre de variables de 167 pays des continents africaine, américains (nord et sud),
asiatique et européen. On considère le modèle suivant :
gi = 0 + 1 y96i + 2 invi + 3 popi + 4 openi + ei (7)

où gi est le taux de croissance moyen du PIB par habitant entre 1996 et 2014, y96i
est la valeur du PIB Ã l’année 1996, invi est le taux d’investissement (la part de
l’investissement dans le PIB), popi est le taux de croissance de la population et openi ,
les ‡ux commerciaux (importations et exportations) en pourcentage du PIB.
1. Estimer par la méthode des MCO les paramètres du modèle. Commenter.

2. Tester l’absence d’hétéroscédasticité des perturbations grâce au test de Breusch
et Pagan (1979). Commenter.
3. En supposant que l’on ne connaisse pas la forme de l’hétéroscédasticité, calculer
la matrice de variances-covariances des coe¢cients des MCO par la méthode de
White. Commenter (par rapport à la matrice de variances-covariances d’origine
des MCO).
4. Après avoir introduit les variables indicatrices qui représentent les régions du
monde (Amérique, Asie, Europe), estimer par les MCO les coe¢cients du mod-
èle et calculer la statistique de Breusch-Pagan. Commenter.
16
Fiche de TD n 10 : Les moindres carrés sous contraintes
et tests d’hypothèses
Exercice n 1
Soit le modèle y = Xb + u et la contrainte Rb = r. On rappelle que l’estimateur
des moindres carrés sous contraintes (MCC) est donné par
b M CC = b
b b M CO 0 0 0
b M CO
(X X) 1 R fR(X X) 1 R g 1 (Rb
0
r):
1. Sous quelles conditions l’estimateur des MCC est sans biais ?
2. Montrer que l’expression précédente peut s’écrire

b M CC = fI
b b M CO + w;
CRgb
b M CO .
où w n’est pas fonction de b
3. Montrer que la matrice de variances-covariances de l’estimateur des MCC est

donnée par
2 0 1 0 0 0 0
u (X X) fIk+1 R fR(X X) 1 R g 1 R(X X) 1 g:
Exercice n 2
On considère le modèle de production
2
ln Qi = b0 + b1 ln Li + b2 ln Ki + ui , ui N (0; u ), i = 1; :::; 23;
où l’indice i fait référence à la i-ème …rme. Toutes les hypothèses du modèle de

régression multiple sont supposées être satisfaites. L’information sur les 23 …rmes est
résumée par la matrice
ln Q ln Q ln L ln L ln K ln K
0 1
ln Q ln Q 10 10 8
ln L ln L @ 10 12 8 A:
ln K ln K 8 8 12
1. On souhaite imposer a priori des rendements d’échelle constants (i. e. b2 =

1 b1 ). Estimer le coe¢cient b1 par les moindres carrés sous contraintes.
17
2. Commenter les di¤érences (en termes de propriétés des estimateurs et de va-
lidité des t de Student) entre l’estimation de b1 obtenue sous l’hypothèse de
rendements d’échelle non contraints et celle obtenue sous l’hypothèse de rende-
ments d’échelle constants sachant que :
(a) L’hypothèse des rendements d’échelle constants est correcte;

(b) L’hypothèse des rendements d’échelle constants est incorrecte.
3. Calculer des estimateurs e¢caces de b1 et de b2 et déterminer leurs écarts-types

sachant que : 3b1 = 5b2 .
Exercice n 3
Cet exercice est consacré à l’étude d’une fonction de gains de salariés belges sur la
base d’une coupe transversale. Elle est extraite de l’European Community Household
Panel. Elle concerne 1472 salariés (dont 579 femmes) observés en 1994. La base de
données bwages comprend les variables suivantes : experi , malei , educi et wagei
où experi est l’expérience professionnelle en nombre d’années, malei , une variable
indicatrice valant 1 si le salarié est un homme, 0 sinon, educi , le niveau d’études et
wagei , le taux de salaire horaire (en francs belges). On considère le modèle
ln wagei = b0 + b1 malei + b2 ln educi + b3 ln exper i + b4 (ln exper i )2 + ui :
1. Estimer par la méthode des MCO les paramètres de cette équation.
2. A¢cher la matrice de variances-covariances des MCO.
3. Estimer le modèle sous les contraintes b3 = 0 et b4 = 0 en ayant aupa-

ravant écrit cet ensemble de contraintes sous la forme Rb = r.
4. A¢cher la matrice de variances-covariances des MCC. Commenter.
5. Les contraintes imposées sont-elles justi…ées ? Discuter.
18
Chapitre 1
––––––––––––––––––––––––––
La modélisation
L’analyse économique repose sur des schémas théoriques qui retracent les
comportements des agents et les mécanismes qui sont à l’origine des phénomènes
observés. Comme les corpus théoriques influencent les actions sur le réel, il est
indispensable qu’ils soient confrontés aux observations. Dans cette perspective,
l’économétrie constitue l’approche la plus féconde. Avant toute chose, il est
nécessaire de formaliser un modèle qui permettra de tester la théorie avec les
observations.
La conception de modèle n’existait pas dans les prémices de l’économétrie, on
concentrait alors l’analyse en mesurant approximativement les phénomènes à partir
de statistiques descriptives. Celles-ci servaient à établir des lois et à prévoir les
évolutions futures. Les écarts importants constatés par rapport aux réalisations
effectives amenèrent à remettre en cause totalement ce type d’approche. De plus,
un inconvénient majeur était d’aboutir à une dissociation entre les lois statistiques
et les lois économiques. Cette séparation a contribué à «donner naissance à une
entité plus maniable et plus modeste qu’une loi, le modèle» (Qin (1993, p. 37)).
Par ailleurs, les méthodes statistiques – avec l’introduction des probabilités – ont
permis d’effectuer une inférence statistique beaucoup plus formelle et rigoureuse.
Un modèle sous-entend une certaine structure, une certaine organisation.
Progressivement l’économie a retenu et utilisé ce concept. Une démarche cohérente
est apparue pour rendre compatible modèle et théorie économique; c’est ce que l’on
qualifie de procédure de modélisation. La logique des modèles consiste à choisir
délibérement une représentation simple pour des phénomènes économiques réels
complexes, dans l’espoir de gagner énormément en facilité de compréhension sans
perdre trop en terme d’information disponible. Malinvaud (1983, p. 45) en donne
une définition plus large et précise. Il écrit :
«un modèle consiste en la représentation formelles d’idées ou de connaissances re-
latives à un phénomène. Ces idées, souvent appelées «théorie du phénomène»,
s’expriment par un ensemble d’hypothèses sur les éléments essentiels du phénomène
21
Introduction aux méthodes de l’économétrie 22
et des lois qui le régissent. Elles sont généralement traduites sous la forme d’un
système mathématique dénommé lui-même «modèle»».
Grâce au concept de modèle, il est possible d’étudier les implications des
hypothèses retenues, de les confronter aux résultats empiriques, d’arriver ainsi à
mieux appréhender la réalité pour agir plus efficacement sur elle. La procédure de
modélisation se scinde en quatre étapes : la spécification du modèle, l’identification
des paramètres, l’estimation des paramètres et les procédures de tests et la réalisation
de prévisions.
1.1 La spécification du modèle

La théorie économique descrit de nombreuses relations entre variables économiques.
Les fonctions de demande, d’offre, de coûts, de production... en sont des illustrations,
mais encore faut-il tester ces propositions théoriques, en estimant les paramètres
qu’elles définissent. Un phénomène économique étant très complexe à décrire et
à analyser, il est nécessaire de construire un modèle pour pouvoir l’étudier. Il
ne pourra bien évidemment pas prendre en compte toutes les caractéristiques de
la réalité, mais uniquement les éléments indispensables à son explication. Dans
ce cadre, la théorie économique constitue une base fondamentale dans l’étape de
la formulation du modèle. Le modèle n’est donc qu’une approximation de la
réalité, d’où l’importance par la suite de l’inférence statistique pour encadrer cette
incertitude.
Cette étape est délicate et prépondérante car la validité des estimations qui seront
obtenues repose sur celle du modèle retenu. En effet, elle s’avère souvent sensible
car la théorie économique conduit rarement à une formulation précise. La phase de
spécification se divise en trois étapes :
• le choix des variables mises en relation, le statut des équations et la nature des
variables;
• la forme de la relation qui lie ces variables;
• le choix des hypothèses sur la partie aléatoire du modèle.
Le choix des variables et le sens de leur relation sont tirés directement de la théorie
économique. Si l’on prend l’exemple du modèle keynésien simplifié, qui comporte
quatre variables : la consommation C, la production Y , l’investissement I et le
revenu R. Les relations entre les variables sont :
C = f (R) (1.1)
Y = C +I (1.2)
1. La modélisation 23
Y = R (1.3)
Les équations du modèle keynésien sont de deux types :
• l’équation (1.1) traduit le fait que la consommation dépend du revenu. Elle reflète
un comportement de consommation. On parle d’«équation de comportement».
Sa forme est tributaire du type d’économie considérée et est empiriquement
estimée sur la base d’un échantillon (le plus souvent à partir des agrégats définis
et fournis par la comptabilité nationale);
• les équations (1.2) et (1.3) retracent respectivement le fait que la production
est obtenue par sommation de la consommation et de l’investissement, et que
la totalité de la production est distribuée sous forme de revenu. Ces deux
équations ne sont en définitive que des «identités comptables», et servent à
assurer l’identification des paramètres dans des modèles plus complexes7 .
Les variables du modèle peuvent être classées de deux façons selon que l’on
appréhende le système d’équations dans son ensemble ou chacune des équations
séparément. Ainsi, l’investissement I est fixé par l’État et est donc une quantité
prédéterminée : une telle variable est qualifiée d’exogène; alors que les autres
variables se déduisent de l’investissement par l’intermédiaire du modèle : on parle
alors de variables endogènes. Il est toujours possible d’exprimer les variables
endogènes en fonction des seules variables exogènes. Le nouveau système obtenu
est alors appelé forme réduite, tandis que le système d’équations initial correspond
à la forme structurelle.
Maintenant, si l’on suppose que la fonction de consommation est linéaire, telle
que :
C = f (R) = aR + b (1.4)
où a et b sont des paramètres constants; la forme réduite associée au modèle
keynésien simplifié est alors :
a b
C = I+ (1.5)
1−a 1−a
1 b
Y = I+ (1.6)
1−a 1−a
1 b
R = I+ (1.7)
1−a 1−a
La forme réduite n’est bien entendue définie que si a = 1. Si l’on s’intéresse à la seule
7
L’identification fait l’objet de la section 1.2 de ce chapitre et de la section 13.2 du chapitre 13.
équation – estimable – de comportement, la consommation C est expliquée par

le revenu R. La variable C est la variable expliquée et R est la variable explicative.
Une variable explicative peut être endogène ou exogène; une variable expliquée ne
peut être qu’endogène.
Si l’on prend un autre exemple, celui d’une fonction de production de Cobb-
Douglas :
Q = ALα K β (1.8)
où Q est la production, K le capital et L le travail. La relation (1.8) est une équation
de comportement. Ce «système» ne comprend qu’une équation et donc les formes
structurelle et réduite, les variables exogènes et explicatives, endogène et expliquée
se confondent. Ici, les variables L et K sont exogènes ou explicatives et la variable
Q est endogène ou expliquée.
Dans ce qui suit, on se limite au cas où le modèle comprend une seule équation.
Autrement dit, on ne considère qu’une seule variable expliquée, une constante
(x0 = 1) et k variables explicatives x1 , ..., xk , soit y = f (1, x1 , ..., xk ; b0 , b1 , ..., bk ).
Le choix et la nature des variables doit donc reposer sur une théorie susceptible
de décrire le phénomène étudié. Au final, il faut que la formulation choisie soit
interprétable. Pour cela, le modèle ne doit pas comporter trop de variables exogènes,
ni trop de paramètres. Le problème est que la théorie économique se trouve être
moins explicite en ce qui concerne la forme fonctionnelle f des relations.
1.1.1 Les modèles linéaires déterministes
En pratique, il est d’usage de retenir des modèles simples, en particulier des modèles
linéaires. Dans cette perspective, l’économètre adopte souvent une linéarité par
rapport aux paramètres du modèle et pas forcément par rapport aux variables. Par
ailleurs, pour déterminer les valeurs des paramètres b0 , b1 , ..., bk , il se sert de données
observées. En toute généralité, le modèle s’écrit :
yt = b0 + b1 x1t + b2 x2t + · · · + bk xkt (1.9)
De nombreux modèles peuvent être rendus linéaires par des transformations simples.
L’exemple le plus classique est celui de la fonction de production de Cobb-Douglas
(1.8). En effet, en utilisant les logarithmes des variables, on obtient un modèle
log-log :
ln Qt = b0 + b1 ln Lt + b2 ln Kt (1.10)
avec b0 = ln A, b1 = α et b2 = β. En pratique, il est fondamental de pouvoir
interpréter les paramètres ou plus exactement de calculer les effets marginaux
et/ou les élasticités. Pour le modèle (1.10), les effets marginaux correspondent aux
productivités marginales des facteurs (i. e. du travail et du capital), soit :
∂Qt Qt ∂Qt Qt
pmL = = b1 et pmK = = b2
∂Lt Lt ∂Kt Kt
et les élasticités
∂ log Qt ∂Qt Lt ∂ log Qt ∂Qt Kt
ηQt /Lt = = × = b1 et η Qt /Kt = = × = b2
∂ log Lt ∂Lt Qt ∂ log Kt ∂Kt Qt
Plus généralement, l’hypothèse de linéarité par rapport aux paramètres à l’avantage
d’être peu restrictive. Elle recouvre un grand nombre de cas possibles. En
considérant le cas simple où n’intervient qu’une seule variable explicative xt , en
voici quelques exemples :
• polynômes : yt = b0 + b1 xt + b2 x2t + · · · + bn xn
t . En envisageant le cas quadratique
(n = 2), il vient pour l’effet marginal :
∂yt
= b1 + 2b2 xt
∂xt
et pour l’élasticité de yt par rapport à xt :
xt
η yt /xt = (b1 + 2b2 xt )
yt
• exponentielles (log-linéaires) : yt = exp[b0 + b1 xt + · · · + bn xn
t ]. Pour simplifier en
posant n = 1, l’effet marginal est donné par :
∂yt
= b1 exp [b0 + b1 xt ]
∂xt
et l’élasticité de yt par rapport à xt par :
η yt /xt = b1 xt
b
• linéaires-log (semi-log) : exp[yt ] = exp[b0 ]xt 1 . L’effet marginal est obtenu par :
∂yt b1
=
∂xt xt
b1
ηyt /xt =
yt
• hyperboles (réciproques) : yt = b0 + b1 x1 . L’effet marginal est donné :

t
∂yt b1
=− 2
∂xt xt
b1
η yt /xt = −
xt yt
Ces différents modèles posent la question du choix de la forme fonctionnelle. À

chaque forme est associée une courbe au profil spécifique qui reflète une relation
particulière entre la variable expliquée et la variable explicative (se reporter aux
figures 1.1 à 1.5). Parallèlement, ces spécifications ont des implications distinctes
concernant la dérivation des effets marginaux et des élasticités. En particulier, selon
les modèles, ils (elles) peuvent être constant(e)s ou varié(e)s avec le temps8 . C’est à
l’économètre qu’il revient de choisir le modèle approprié au regard de son objectif.
figure 1.1 : Modèle log-log
yt = 2x0.5
t Cas 1 : 0 < b1 < 1 log yt = 0.693 + 0.5 log xt
8
Ce point fait l’objet de plusieurs exercices dans le chapitre suivant.
yt = 10xt Cas 2 : b1 = 1 log yt = 2.303 + log xt
yt = 0.5x2t Cas 3 : b1 > 1 log yt = −0.693 + 2 log xt

yt = 10x0t Cas 4 : b1 = 0 log yt = 2.303
yt = 10x−1
t Cas 5 : b1 < 0 log yt = 2.303 − log xt
figure 1.2 : Modèle quadratique (yt = b0 + b1 xt + b2 x2t )
Cas 1 : b0 , b1 > 0, b2 < 0 Cas 2 : b0 , b2 > 0, b1 < 0
Cas 3 : b0 , b1 , b2 > 0 Cas 4 : b0 , b1 > 0, b2 = 0

Cas 5 : b0 > 0, b1 , b2 < 0

figure 1.3 : Modèle log-linéaire
yt = exp [2.303 + 0.2xt ] Cas 1 : b1 > 0 log yt = 2.303 + 0.2xt

yt = exp [2.996] Cas 2 : b1 = 0 log yt = 2.2996
yt = exp [3.401 − 0.25xt ] Cas 3 : b1 < 0 log yt = 3.401 − 0.25xt

figure 1.4 : Modèle semi-log
yt = 100 + 200 log xt Cas 1 : b1 > 0 yt = 100 + 200 log xt
yt = 400 + 0 log xt Cas 2 : b1 = 0 yt = 400 + 0 log xt

yt = 700 − 300 log xt Cas 3 : b1 < 0 yt = 700 − 300 log xt

figure 1.5 : Modèle hyperbolique
yt = 2 + 10 (1/xt ) Cas 1 : b1 > 0 yt = 2 + 10 (1/xt )

yt = 15 Cas 2 : b1 = 0 yt = 15
yt = 6 − 5 (1/xt ) Cas 3 : b1 < 0 yt = 6 − 5 (1/xt )

Une autre question fondamentale concerne la pertinence à raisonner par rapport

à une relation déterministe. S’il existait une relation certaine entre la variable
expliquée yt et les variables explicatives x1t , ..., xkt , la relation serait vérifiée à chaque
période t, ce qui implique que toutes les observations appartiendraient à la même
droite. À l’évidence de tels modèles ne peuvent pas rendre compte parfaitement de
la réalité puisque, par définition, ils en constituent des représentations simplifiées.
En d’autres termes, cela signifie qu’il n’est pas possible de prévoir avec exactitude
la valeur de la variable expliquée yt . L’écart entre ce que le modèle est capable
d’expliquer et ce que l’on observe n’est donc pas prévisible.
Plus concrètement, si l’on s’intéresse à la relation entre la consommation
alimentaire et le niveau de vie d’un échantillon de ménages, on s’aperçoit,
généralement, que cette consommation tend à croître avec le revenu, mais de façon
moins régulière que dans le cas d’une relation fonctionnelle. En particulier, si l’on a
un nombre important de ménages ayant le même revenu, ils n’auront pas la même
consommation, mais leurs consommations se répartiront autour d’une valeur centrale
par analogie à une distribution statistique.
Or, si la théorie (courbes d’Engel) fait ressortir une relation fonctionnelle stricte
entre la consommation et le revenu, elle n’explique pas tout. En effet, elle ne
vaut que «toutes choses égales par ailleurs». Néanmoins, cette condition n’est
jamais strictement observée. C’est pourquoi il n’existe pas de liaison stricte entre
la consommation alimentaire et le revenu. Ainsi, la dispersion des points autour
d’une courbe régulière traduit l’influence d’un ensemble d’éléments perturbateurs
qui ne sont pas pris en compte dans l’hypothèse théorique (hétérogénéité des goûts,
influence d’autres facteurs sur la consommation (âge, localisation...), etc.).
Cependant, le problème n’est pas (pour l’instant) d’identifier ou d’isoler ces
éléments mais de mesurer l’influence probable de la variable revenu sur la
consommation. Dans cette perspective, il est nécessaire de faire des hypothèses
sur la façon dont joue en bloc l’ensemble de ces facteurs omis. Ces hypothèses se
ramènent à considérer que ces facteurs sont multiples, ne jouent pas tous dans le
même sens et qu’aucun d’entre eux n’a un rôle prépondérant par rapport aux autres.
L’influence de l’ensemble peut alors être considérée comme une variable aléatoire
dont la distribution de probabilité est supposée satisfaire un certain nombre de
conditions. Tout ce qui vient d’être dit fonde et justifie l’ajout au modèle d’une
perturbation aléatoire.
1.1.2 Les modèles linéaires aléatoires
Pour pouvoir juger de la précision des résultats des problèmes d’estimation, de test,
etc., il est intéressant d’incorporer un terme aléatoire dans le modèle. Cet aléa u
appelé perturbation, ou encore écart, est introduit pour chacune des observations :
yt = b0 + b1 x1t + b2 x2t + · · · + bk xkt + ut t = 1, . . . , T (1.11)
Dans la sous-section précédente, plusieurs arguments ont déjà été avancés pour
justifier l’incorporation de ce terme. Néanmoins, on peut y adjoindre quelques
compléments. Ainsi, les T observations (yt , x1t , ..., xkt ) ne sont jamais sur un même
sous espace, car le modèle n’est qu’une approximation. Il est donc nécessaire
d’introduire la perturbation ut sorte de passerelle entre la réalité et l’approximation.
Cette perturbation traduit principalement :
• le fait que la forme fonctionnelle f n’est pas forcément linéaire dans les
paramètres;
• le fait que cette fonction varie en fonction du temps ou des individus observés;
• l’omission de variables d’importance secondaire;
• la non prise en compte de variables psychologiques, sociologiques, etc.
difficilement quantifiables;
• des erreurs de mesure sur les variables;
• des anticipations aléatoires réalisées par les individus.
Les deux dernières composantes peuvent être considérées comme aléatoires et
justifient donc partiellement l’hypothèse, que la perturbation ut soit elle-même une
variable aléatoire. La perturbation ut comprenant un grand nombre de composantes,
et si le modèle est bien choisi, il est souvent supposé que les perturbations suivent
une loi normale; ceci est une conséquence du théorème central limite. Il convient
de bien percevoir les principales implications du passage d’un modèle certain à un
modèle aléatoire :
• d’une part, on est maintenant condamné à n’effectuer que des jugements en
probabilité sur les résultats obtenus, et il faut un certain entrainement pour
bien apprécier de tels jugements. En particulier, la notion de contre exemple,
si commode dans le domaine certain, doit faire place dans le domaine aléatoire la
notion infiniment plus délicate de test statistique;
• de plus, il va falloir définir la loi de probabilité de la perturbation aléatoire
introduite. Mais dans la mesure où cette perturbation aléatoire constitue une
variable «fourre-tout» qui recouvre simultanément plusieurs notions délicates à
cerner rigoureusement, il est difficile de faire des hypothèses très précises sur la
loi de probabilité pourtant il sera par la suite nécessaire d’en faire. La démarche
qui sera adoptée dans les chapitres qui vont suivre consistera à se donner des
hypothèses assez restrictives afin de pouvoir mettre en œuvre des méthodes
37
d’estimation relativement simples. Elles pourront ensuite être éventuellement

reconsidérées si l’inférence statistique les réfutent. Il faudra alors souvent recourir
à d’autres méthodes d’estimation.
1.2 L’identification des paramètres

Il se peut que l’identification des paramètres soit assurée dès l’écriture du modèle.
La fonction de production de Cobb-Douglas (1.8) en est un exemple. En revanche,
tout n’est pas toujours aussi simple. En effet, avant toute chose, l’économiste est
intéressé par l’estimation des paramètres du modèle d’origine (forme structurelle).
Or, il se peut très bien qu’il faille le réécrire (forme réduite). Généralement, les
paramètres de la forme réduite ne coïncident pas directement avec ceux de la
forme structurelle. Pour pouvoir obtenir ces derniers, il est nécessaire de passer
par des relations appelées contraintes d’identification9 . Afin d’illustrer ces propos,
on considère le modèle suivant :
yt = αet + βxt + c1 Q1t + c2 Q2t + c3 Q3t + c4 Q4t + ut (1.12)
où et = 1, ∀t, les variables Q1t , Q2t , Q3t et Q4t sont des variables indicatrices
caractérisant chaque trimestre c’est-à-dire prenant la valeur 1 pour le trimestre
considéré et 0 ailleurs, soit :
1 si t = le trimestre j
Qjt =
0 sinon
or l’équation (1.12) n’est pas directement estimable car il existe une relation linéaire
entre la constante et et les variables indicatrices (Q1t , Q2t , Q3t , Q4t ). En d’autres
termes, il n’est pas possible à partir de l’information disponible d’estimer les
paramètres c1 , c2 , c3 et c4 . En fait, puisque les coefficients α, c1 , c2 , c3 et c4
sont associés à des variables liées dans l’échantillon, ils ne sont pas identifiables.
Cela veut dire que l’information apportée par l’une des variables l’est déjà par la
combinaison linéaire des autres. Cela révèle une redondance de l’information. Une
autre façon de le dire est qu’il y a un manque d’information pour pouvoir identifier
l’ensemble des paramètres de ces variables. Pour encore mieux s’en rendre compte,
on a :
et = Q1t + Q2t + Q3t + Q4t (1.13)
Pour briser cette dépendance, on peut, par exemple, remplacer Q1t par son
9
Le chapitre 13, consacré aux modèles à équations simultanées, revient en détails sur les formes struc-
turelle et réduite et sur les contraintes d’identification.
expression (Q1t = et − Q2t − Q3t − Q4t ) dans l’équation (1.12), ce qui donne :
yt = b0 + b1 xt + b2 Q2t + b3 Q3t + b4 Q4t + ut (1.14)
où les coefficients bj sont définis par :
b0 = α + c1 (1.15)
b1 = β (1.16)
b2 = c2 − c1 (1.17)
b3 = c3 − c1 (1.18)
b4 = c4 − c1 (1.19)
On aboutit donc à un système de cinq équations (1.15 à 1.19) à six inconnues.
Le modèle (1.12) n’est pas identifiable (sous-identifié) puisqu’il est impossible de
déterminer les valeurs des coefficients α, c1 , c2 , c3 et c4 . Il faut donc imposer une
contrainte supplémentaire pour que les paramètres du modèle (1.12) deviennent
identifiables (cela revient à rajouter de l’information). Ici, la contrainte identifiante
la plus naturelle consiste à poser :
4
cj = 0 (1.20)
j=1
Autrement dit, les coefficients des variables indicatrices caractérisant chaque

trimestre s’interprètent en termes d’écarts à la moyenne.
Après avoir spécifié le modèle et s’être assuré de l’identifiabilité des paramètres,
on peut envisager de passer à la phase d’estimation.
1.3 L’estimation des paramètres

L’estimation d’un modèle économétrique nécessite que l’on dispose d’observations
statistiques sur les variables mises en relation par le modèle.
• Les principales sources statistiques
Elles peuvent être de plusieurs types. En général, on en distingue quatre :
• tout d’abord, elles peuvent se composer d’observations statistiques relatives
à l’évolution de grandeurs au cours du temps (tels que les agrégats
macroéconomiques définis par la comptabilité nationale). On parle alors de
séries temporelles ou encore de séries chronologiques. Ces séries sont le
plus souvent marquées par des périodicités variées et spécifiques (annuelle,
trimestrielle, semestrielle, etc.). Les échantillons disponibles comprennent au

total T observations. Les modèles retenus sont donc indicés en t, soit :
yt = b0 + b1 x1t + b2 x2t + · · · + bk xkt + ut t = 1, . . . , T
L’avantage de ce type de données est qu’elles sont par nature bien adaptées à
l’analyse dynamique des phénomènes économiques;
• le deuxième type de séries statistiques disponibles concerne des observations
statistiques relatives à des individus observés à un moment particulier du temps.
Elles sont appelées coupes transversales ou coupes instantanées. On se situe ici
uniquement dans une dimension individuelle. Il y a donc au total non plus T
observations mais N observations. Les modèles retenus sont alors indicés en i,
soit :
yi = b0 + b1 x1i + b2 x2i + · · · + bk xki + ui i = 1, . . . , N
De part la nature de ces données, plus aucune chronologie temporelle n’intervient.
Il en découle qu’il est impossible d’étudier la dynamique des phénomènes analysés;
• le troisième type de données combine les dimensions temporelle (ou encore
longitudinale) (T ) et transversale (N) qui viennent d’être évoquées. Ainsi,
ces observations sont constituées d’observations relatives à un certain nombre
d’individus suivis pendant plusieurs périodes. Ces données sont communément
appelées données de panel ou encore données individuelles temporelles. Dans ce
cas, les modèles sont doublement indicés en i et en t, soit :
yi,t = b0 + b1 x1i,t + b2 x2i,t + · · · + bk xki,t + ui,t i = 1, . . . , N et t = 1, . . . , T
Elles présentent le double avantage de pouvoir étudier simultanément la
dynamique des comportements et leur éventuelle hétérogénéité. Il est donc
possible de modéliser plus aisément la complexité des comportements individuels
au contraire des séries temporelles ou des données en coupes transversales. Par
ailleurs, le recours aux données de panel évite les problèmes liés à l’agrégation.
• enfin, le dernier type concerne les données qualitatives. Leur spécificité est qu’elles
font l’objet d’un codage spécifique. Les exemples de variables qualitatives sont
multiples : être de sexe masculin ou féminin, avoir fait des études ou pas, etc.
L’utilisation de données qualitatives ne présente pas de difficultés particulières
lorsqu’elles caractérisent les variables explicatives. En revanche, lorsqu’elles
concernent la variable expliquée, on sort du cadre de l’économétrie «classique»10 .
10
On renvoie au chapitre 15 consacré à l’économétrie variables qualitatives. Se reporter à Thomas
(2000), Maddala (1994) et Gouriéroux (1989).
• Les méthodes d’estimation

Une fois les données statistiques sur les variables du modèle réunies, se pose la
question du choix de la méthode d’estimation. Pour simplifier, on prend un modèle
à une variable explicative – modèle de régression simple – yt = axt + b + ut ,
t = 1, ..., T . La figure 1.6 représente le nuage de points des observations dans un
repère orthonormé 0xy. Pour déterminer un modèle susceptible d’avoir engendré ces
observations, c’est-à-dire estimer les valeurs des paramètres a et b, il faut déterminer
une droite y = ax + b = D proche du nuage de points.
L’approche la plus simple consiste à transcrire la notion de proximité entre le
nuage et la droite en terme de distance. Soit d(Mt , D) une mesure de la distance
entre le point Mt = (xt , yt ) et la droite D; D sera choisie telle que :
T T
d(Mt , D) =min d(Mt , D)
D
t=1 t=1
La droite D obtenue dépend bien entendu de la distance choisie. Trois cas sont
particulièrement importants :
• la méthode des moindres carrés ordinaires (MCO) pour régresser yt sur xt (figure
1.7). Dans ce cas, la distance est mesurée parallèlement à l’axe des ordonnées
0y. Le point de même abscisse que Mt qui se trouve sur la droite D est :
′ ′ ′
Mt = (xt , axt + b). La distance entre Mt et Mt sera d(Mt , D) = d(Mt , Mt ) =
(yt − axt − b)2 , qui correspond au carré de la distance euclidienne. Les paramètres
a et b seront déterminés en minimisant :
T T
2 2
(yt − axt − b) = u2t = u
t=1 t=1
• la méthode des moindres carrés ordinaires (MCO) pour régresser xt sur yt (figure
1.8). La distance est ici mesurée parallèlement à l’axe des abscisses 0x. Le point
′ ′
Mt de la droite D ayant la même ordonnée que Mt , soit Mt = a1 yt − ab , yt . Les
paramètres a et b seront déterminés en minimisant :
T 2 T
1 b ut 2 u 2
x t − yt + = =
t=1
a a t=1
a a
• la régression orthogonale. La distance est mesurée perpendiculairement à la droite

′
D (figure 1.9). Si Mt est la projection orthogonale de Mt sur D, la distance
′
d(Mt , D) est égale à la distance de Mt et Mt . Cette approche est très liée à
l’analyse en composantes principales (ACP, analyse des données).
Parmi ces trois méthodes, la dernière n’est pas adaptée à notre problème. En
effet, elle traite de manière symétrique les deux variables yt et xt et ne dépend donc
pas du sens de la causalité. Cette notion fondamentale dans nos modèles n’est pas
prise en compte. Les deux autres modèles correspondent à des sens différents de
la causalité. Dans ce qui suit, on adopte la convention habituelle qui veut que l’on
détermine les paramètres en minimisant parallèlement à l’axe des ordonnées 0y.
figure 1.6
figure 1.7
figure 1.8
43
figure 1.9
1.4 Les procédures de tests et la réalisation de prévisions

L’inférence statistique concerne la généralisation des conclusions obtenues à partir
d’un échantillon de la population entière. Elle est fonction de la représentativité de
l’échantillon et des notions de probabilité retenues. Plus précisément, elle dépend
principalement des hypothèses initiales posées (par exemple dans le cadre du modèle
de régression), des propriétés des estimateurs, de la loi suivie par les perturbations.
Il est donc fondamental pour effectuer une inférence statistique correcte (intervalles
de confiance, tests d’hypothèses, etc.) de vérifier les hypothèses initialement faites.
Ceci est d’autant plus important que cette dernière phase permet notamment de
passer de l’estimation ponctuelle des paramètres à leur estimation par intervalles
de confiance. Si certaines hypothèses ne sont pas respectées, il est indispensable
de bien en connaître les implications et de savoir quelles méthodes d’estimation
alternatives choisir pour pouvoir effectuer une inférence statistique correcte. Dès lors
que les hypothèses posées sont vérifiées, il est possible d’exploiter les résultats des
estimations tant d’un point de vue économétrique que d’un point de vue économique.
En effet, au niveau économétrique, on peut effectuer tous les tests d’hypothèses
(Student, Fisher, etc.) et intervalles de confiance souhaités. En particulier, cela
permet de tester la significativité des coefficients et de dépasser le simple stade
de l’estimation ponctuelle des paramètres. Ensuite, au niveau économique, il est

indispensable de s’assurer de la signification économique des estimations. En effet,
grâce à la théorie économique et/ou à des études d’économie appliquées, on dispose
en général d’informations a priori sur le signe que doivent prendre les coefficients
de certaines variables explicatives. Si des coefficients sont de signes opposés à ceux
attendus, il convient de s’interroger sur la validité du modèle (est-il bien spécifié ?).
Au total, l’évaluation des résultats permet de s’assurer de la validité
des hypothèses posées et d’analyser les estimations tant économétriquement
qu’économiquement. Après tout cela, le modèle repose sur des bases solides, ce
qui rend possible son utilisation pour pouvoir réaliser des prévisions ou envisager
différents scénarios d’évolution (variantes). La difficulté de cet exercice réside dans
l’obtention des valeurs futures des variables explicatives. Elles peuvent provenir de
sources diverses telles que de prévisions effectuées par des instituts, de l’utilisation
de méthodes de séries temporelles, etc.
Pour conclure, la figure 1.10 reprend les principaux éléments de la démarche
économétrique exposée dans ce chapitre. On visualise ainsi parfaitement les
différentes étapes de la modélisation et leurs enchaînements.
2. Le modèle de régression simple 45
Idées a priori sur le phénomène

économique à analyser ←
Théorie économique
↓
Spécification du modèle
Modèle déterministe ←
Modèle probabiliste
↓
Pb d’identification ?
Forme structurelle - Forme réduite
↓
Données statistiques
↓
Méthodes statistiques
↓
Estimation
↓
Validation des hypothèses faites
Validation statistique ⇒ Tests - Méthodes d’estimation → non
alternatives
↓
Tests d’hypothèses
Intervalles de confiance
↓
Validation économique ⇒ Analyse économique des résultats → non
La théorie est-elle validée ?
↓
Prévisions
Variantes
figure 1.10 : La procédure de modélisation

Chapitre 2
——————————————————————————
Le modèle de régression simple
Le modèle de régression simple ne constitue qu’un cas particulier du modèle de

régression multiple, qui fera l’objet du prochain chapitre. Même si ce modèle peut
paraître (trop) simple, il est souvent utilisé en pratique et présente l’avantage de
pouvoir raisonner dans un espace à deux dimensions — plus facile à représenter
—, de mener des calculs fastidieux, ce qui permet de bien voir les di¢cultés qui
se posent dans tout modèle économétrique. D’autre part, on peut mieux se rendre
compte des problèmes qui existent et qui seraient initialement délicat d’aborder à
un niveau général. Le modèle de régression simple s’écrit :
yt = axt + b + ut t = 1; :::; T (2.1)
yt est la variable expliquée, endogène ou encore régressante (dépendante). xt est la

variable explicative, exogène ou encore appelée régresseur (indépendante). Les yt
et xt sont généralement des valeurs observées de variables issues d’un échantillon;
les ut sont des valeurs non observables d’une variable aléatoire appelée
perturbation (ou encore aléa ou écart);
a et b sont des coe¢cients constants non aléatoires, inconnus et à estimer.
A…n d’illustrer le modèle de régression simple, on reprend l’exemple classique de
la fonction de consommation. La théorie économique précise que la consommation
dépend de plusieurs facteurs, tels que les prix des biens, le revenu courant, les revenus
passés, les revenus futurs anticipés, etc. Dans un premier temps, on peut souhaiter
ne tester que l’in‡uence d’un seul facteur. L’introduction de la perturbation permet
de retracer toutes les approximations de ce modèle. L’ajout de ce terme donne au
modèle un caractère aléatoire et non plus déterministe, il en découle que :
les jugements portés sur les résultats de ce modèle doivent s’e¤ectuer en des
termes probabilistes c’est-à-dire préciser l’incertitude marquant les paramètres;
en outre, il faut dé…nir la loi de probabilité de la perturbation. Ce dernier point
est fondamental dans la mesure où il conditionne la validité de toute l’inférence
statistique e¤ectuée.
47
Sur le modèle de régression simple, cinq hypothèses fondamentales sont faites :

H1 : E[ut ] = 0 8t
H21 : V [ut ] = E (ut E[ut ])2 = E[u2t ] = 2u 8t
H2 : 0
H22 : Cov[ut ; ut0 ] = E[ut ut0 ] = 0 8t 6= t
H3 : la variable explicative xt est non aléatoire
H4 : le modèle est correctement spéci…é
H5 : la variable explicative xt n’est pas constante pour toutes les observations de
l’échantillon.
L’interprétation des hypothèses :
les hypothèses H1 , H21 et H22 stipulent que le processus qui engendre les
perturbations est stationnaire au second ordre. L’hypothèse H1 traduit la stabilité
de la perturbation, puisque son comportement est en moyenne nul. Autrement
dit, l’écart entre la valeur observée de la variable expliquée yt et sa valeur ajustée
y^t par le modèle est en moyenne nul (l’ensemble des déterminants de yt qui n’ont
pas été pris en compte dans le modèle est d’espérance nulle). Cette hypothèse
sur le premier moment est peu restrictive. En e¤et, si E[ut ] = 6= 0 on peut
écrire :
yt = axt + b + ut +
ce qui est équivalent à,
yt = axt + b + ut
avec b = b + et ut = ut , d’où :
E[ut ] = 0, V [ut ] = E[ut 2 ] = V [ut ] = 2 0
u 8t et Cov[ut ; ut0 ] = 0 8t 6= t
Trois remarques s’imposent :
– dans ce modèle, il ne faut pas attacher trop d’importance à la valeur du terme
constant;
– il est toujours possible de reformuler le modèle de façon à ce que l’hypothèse
H1 soit véri…ée, mais uniquement à partir du moment où la valeur de l’espérance
est constante dans le temps;
- seuls les coe¢cients b et a peuvent être estimés. Sans contrainte supplémentaire,
il n’est pas possible d’estimer b et .
l’hypothèse H21 traduit l’homoscédasticité des perturbations (…gure 2.1 versus

…gures 2.3 et 2.4), c’est-à-dire une variance scalaire, donc constante dans le temps.
Dans le cas contraire, on parle de perturbations hétéroscédastiques. Il faudra lors
de la procédure d’estimation estimer la valeur de cette variance 2u . L’ampleur
des écarts est donc constante dans le temps 8t (i. e. l’approximation e¤ectuée
par le modèle). Par ailleurs, il est à noter que du fait de la nullité du moment
d’ordre un, la variance des perturbations est égale aux moments d’ordre deux.
l’hypothèse H22 traduit l’absence d’autocorrélation des perturbations (…gure 2.1
versus …gures 2.2 et 2.4). Les écarts entre les valeurs observées de la variable
expliquée yt et les valeurs ajustées y^t du modèle ne sont pas liés entre eux. Ils
sont uniquement fonction de la di¤érence des temps. Il convient de remarquer
que ces deux hypothèses sont nettement plus restrictives que l’hypothèse H1 .
Ainsi, en réunissant les hypothèses H1 et H2 (i. e. H21 et H22 ), on dit que le
processus qui engendre les perturbations est stationnaire au second ordre11 (les deux
premiers moments sont constants et indépendants du temps).
l’hypothèse H3 stipule que la variable explicative est non aléatoire. Si tel n’est pas
le cas alors on peut modéliser cette variable — si par exemple, elle est caractérisée
par une erreur de mesure importante —, ce qui n’est pas comme on le verra
plus loin, sans conséquence sur l’estimateur des moindres carrés ordinaires de ce
modèle. Cette hypothèse implique que si l’on prend un autre échantillon de T
observations, le vecteur colonne x de format (T; 1) reste inchangé.
l’hypothèse H4 précise que le modèle est correctement spéci…é. En particulier,
cela signi…e que l’on ne se trompe pas sur les variables explicatives introduites
dans le modèle et sur la forme fonctionnelle posée.
En regroupant toutes les hypothèses qui précédent (H1 à H4 ), on peut dire que le
modèle (2.1) constitue en moyenne une bonne représentation du phénomène étudié.
l’hypothèse H5 est très importante car si xt = c 8t, alors on a : yt = + ut
où = ac + b = cte. Il est donc impossible, à partir d’un tel modèle, d’estimer
les paramètres a et b. Cette hypothèse stipule que les variables explicatives ne
sont pas linéairement dépendantes (dans le cas contraire, on parle de colinéarité).
Autrement dit, cela revient à poser que :
T T
1X 1X
s2x = (xt x)2 6= 0 avec x = xt
T t=1 T t=1
11
On parle également de bruit blanc faible.
où x est la moyenne empirique de x et s2x sa variance empirique.
Figure 2.1
PERTURBATIONS HOMOSCEDASTIQUES ET NON AUTOCORRELEES

2.4
1.6
0.8
- 0.0
- 0.8
- 1.6
- 2.4
Figure 2.2
PERTURBATIONS AUTOCORRELEES
4
-1
-2
-3
Figure 2.3
PERTURBATIONS HETEROSCEDASTIQUES
25
20
15
10
-5
- 10
- 15
- 20
Figure 2.4
PERTURBATIONS HETEROSCEDASTIQUES ET AUTOCORRELEES

20
15
10
-5
- 10
- 15
- 20
- 25
Aprés avoir exposé le modèle de régression simple et explicité les hypothèses

posées, il faut maintenant trouver une méthode d’estimation pour estimer les
paramètres a, b et 2u .
2.1 La méthode des moindres carrés ordinaires (MCO)
Dans un premier temps, l’objectif est d’estimer les paramètres a et b du modèle

(2.1) :
yt = axt + b + ut t = 1; :::; T
en utilisant les notations matricielles, il vient :
y = x a + eT b + u (2.2)
(T;1) (T;1)(1;1) (T;1)(1;1) (T;1)
où
0 1 0 1 0 1 0 1
y1 x1 1 u1
B y2 C B x2 C B 1 C B u2 C
y =B C B
@ ... A ; x = @ .. C
A , eT = B
@ .. C
A et u = B
@ .. C
. . . A
yT xT 1 uT
Pour cela, on dispose d’un échantillon. En raisonnant dans R2 , il est possible
d’obtenir une représentation graphique simple des observations de l’échantillon.
Chaque observation e¤ectuée peut être caractérisée par un couple (xt ; yt ). On obtient
alors un nuage de points (…gure 2.5).
^ et ^b telle qu’une droite d’équation
Le problème posé est de choisir des valeurs de a
^
^x+ b passe le plus près possible de tous les points du nuage. Cette droite est
a
appelée «droite de régression linéaire». Dans ce chapitre, les résultats présentés
ne retiennent pas les notations matricielles. Elles seront utilisées dans le chapitre
suivant pour présenter le modèle de régression multiple et généraliser les résultats
vus dans ce chapitre. Ne pas considérer, dans un premier temps, les notations
matricielles permet de bien se rendre compte des di¢cultés qui se posent dans
tout modèle économétrique, de voir tous les tenants et aboutissants du principe
des moindres carrés ordinaires et les implications des hypothèses faites.
Figure 2.5
2.1.1 Dé…nition
On appelle estimateurs des moindres carrés ordinaires (MCO) de a et b, les valeurs

^ et ^b, qui minimisent la somme des carrés des perturbations12 . Cette somme
a
retrace les écarts élevés au carré de la variable expliquée yt par rapport à sa
moyenne. On cherche donc la valeur de cette moyenne qui minimise cette somme,
par l’intermédiaire des estimateurs de a et b. Il faut résoudre le programme de
minimisation libre suivant :
T
X T
X T
X
min u2t = min (yt axt 2
b) = min (yt E[yt ])2 = min S (2.3)
a;b a;b a;b a;b
t=1 t=1 t=1
P ^b)2 minimise PT (yt

12
^ et ^b doivent être choisis de telle sorte que Tt=1 (yt
a ^ xt
a t=1 axt b)2 pour xt
et yt donnés.
Les conditions du premier ordre associées à ce programme sont données par :

T
X
@S ^b) = 0
= 2 xt (yt a
^ xt (2.4)
@a a=a ^
t=1
b = ^b
T
X
@S ^b) = 0
= 2 (yt a
^ xt (2.5)
@b a=a ^
t=1
b = ^b
^ et ^b tels qu’ils annulent les dérivées partielles. Il est

On cherche les estimateurs a
encore possible d’écrire :
T
X
xt u^t = 0 (2.6)
t=1
T
X
u^t = 0 (2.7)
t=1
^xt + ^b et u^t = yt y^t . L’équation (2.6) traduit le fait qu’il n’y a pas de
car y^t = a
corrélation entre la variable explicative xt et le résidu u^t .
L’équation (2.7) montre que la somme des résidus sur l’échantillon est nulle, ce qui
implique que leur moyenne l’est également (i. e. u^ = 0)13 .
Les équations (2.4) et (2.5) sont appelées équations normales. Ce système de

deux équations s’écrit également :
T
X T
X T
X
^b xt + a
^ x2t = xt yt (2.8)
t=1 t=1 t=1
T
X T
X
T ^b + a
^ xt = yt (2.9)
t=1 t=1
Pour que le programme de minimisation donne des estimateurs de a et b qui

conduisent au minimum de la somme des carrés des perturbations, il faut que la
13
Cette équation est liée à la présence d’un terme constant dans le modèle de régression simple. Elle
exprime en fait que le vecteur résiduel u
^ est orthogonal au vecteur unitaire eT .
matrice hessienne soit dé…nie positive14 :

0 1
P
T P
T
@2S @S B t=1 x2t xt C
H= @a@a
@S
@a@b
@2S =B
@ PT
t=1 C
A (2.10)
a=a ^
@b@a @b@b
b = ^b xt T
t=1
avec
T
X
@2S
= x2t > 0
@a@a a=a ^
t=1
b = ^b
En outre, il est nécessaire que le déterminant de la matrice hessienne soit positif :

0 T 12
! P
B xt C
T T 2 T
X X X
2 2 2 B t=1 C
jHj = |{z}
T xt xt = T xt T @
T A
>0 t=1 t=1 t=1
| {z } | {z }
>0 >0
T
X
= T x2t T 2 x2
t=1
T
!
X
= T x2t T x2
t=1
T
X
= T (xt x)2 > 0
t=1
D’après l’hypothèse H5 , la variable xt n’est pas constante pour toutes les

observations de l’échantillon donc jHj > 0. Par conséquent, les estimateurs a
^ et
^b correspondent au minimum de la somme des carrés des perturbations.
2.1.2 ^ et ^b des moindres carrés ordinaires

Les estimateurs a
À partir de l’équation (2.9), on obtient l’estimateur ^b de b :

T
X T
X
T ^b + a
^ xt = yt
t=1 t=1
14
Autrement dit, pour un minimum, il faut que les mineurs soient strictement positifs (> 0). Pour un
maximum, il faut que les mineurs soient de signes alternés (< 0, > 0, < 0, etc.).
en divisant cette expression par T , il vient :
^b + a
^x = y
donc
^b = y a
^x
Cela signi…e que la droite des moindres carrés ordinaires passe par le point moyen
de l’échantillon (i. e. du nuage).
De plus, l’équation (2.8) permet d’obtenir l’estimateur a
^ de a :
T
X T
X T
X
^b xt + a
^ x2t = xt yt
t=1 t=1 t=1
En remplaçant ^b par son expression, on aboutit à :
T
X T
X T
X
(y a
^x) xt + a
^ x2t = xt yt
t=1 t=1 t=1
T
X T
X T
X XT
y xt + a
^( x2t x xt ) = xt yt
t=1 t=1 t=1 t=1
T PT
1X 2 2 t=1 xt yt
yx + a
^( x x) =
T t=1 t T
P
T
xt yt T xy
t=1
a
^ =
PT
x2t T x2
t=1
PT P
or 2
t=1 xt T x2 = Tt=1 (xt x)2 , d’après l’hypothèse H5 le dénominateur est
donc di¤érent de 0. Les estimateurs des moindres carrés ordinaires de a et b sont
donc :
^b = y a
^x (2.11)
et,
P
T
xt yt T xy
t=1
a
^= (2.12)
PT
x2t T x2
t=1
L’estimateur a
^ de a peut se réécrire comme suit :
P
T
(xt x) (yt y)
t=1 Covariance empirique entre xt et yt
a
^= = (2.13)
P
T
2 Variance empirique de xt
(xt x)
t=1
D’après cette formule, a

^ mesure la variation des yt en fonction de la variation des xt .
À partir de l’équation (2.13), une autre écriture possible de cet estimateur s’obtient
par :
0 10s 1
PT P
T
B (xt x) (yt y) CB (yt y)2 C
B C B C
^ = B
a s t=1
s C B s t=1 C
B T CB T C
@ P 2 P
T
2A@ P 2A
(xt x) (yt y) (xt x)
t=1 t=1 t=1
0s 1
P
T
B (yt y)2 C
B t=1 C
= Bs C
B T C
@ P 2A
(xt x)
t=1
où est le coe¢cient de corrélation empirique entre xt et yt . Si l’on prend les

variances empiriques des variables yt et xt , soit :
T T
1X 2 1X
s2y = (yt y) et s2x = (xt x)2
T t=1 T t=1
On en déduit que :
v v
u T u T
uX p uX p
t (y y) = sy T et t
2
(xt x)2 = sx T
t
t=1 t=1
donc
sy
a
^= (2.14)
sx
Il en découle que la pente de la droite de régression (^
a) et du coe¢cient de corrélation
( ) ont le même signe. Si le coe¢cient de corrélation tend vers zéro alors a ^ tend
également vers zéro.
L’équation (2.13) permet aussi de déboucher sur :
T
!
X (xt x)2 yt y
a
^= PT 2
(2.15)
t=1 t=1 (xt x) xt x
D’après cette dernière expression, on voit que l’estimateur a ^ peut s’interpréter

comme la moyenne pondérée des pentes des droites joignant les divers points (xt ,
yt ) du nuage de points au point moyen (x, y). Cela implique qu’une observation
a d’autant plus de poids que la valeur de la variable explicative xt à un instant
t est éloignée de la valeur moyenne de l’échantillon x. L’estimateur des moindres
carrés ordinaires s’avère donc particulièrement sensible aux observations atytiques
ou aberrantes que peuvent prendre les variables xt et yt .
En…n l’expression (2.13) peut encore prendre la forme suivante :
P
T
(xt x) yt
t=1
a
^= (2.16)
PT
2
(xt x)
t=1
P
T
puisque (xt x) = 0.
t=1
Terminologie :
^xt + ^b est appelée valeur ajustée de la variable expliquée;
l’expression y^t = a
la droite y^ = a^x + ^b est appelée droite des moindres carrés ordinaires, ou droite
de régression linéaire;
en…n, l’expression yt y^t = u^t est appelée résidu de l’estimation des moindres
carrés ordinaires (…gure 2.6).
Figure 2.6
2.1.3 Équation d’analyse de la variance et coe¢cient de détermination

R2
Si l’on reprend la dé…nition de la variance totale de la variable yt au facteur 1
T 1
prêt, il vient :
T
X
SCT = (yt y)2
t=1
où SCT signi…e somme des carrés totale (somme des carrés des écarts par rapport
à sa moyenne de la variable expliquée yt ). En se servant de la relation yt = y^t + u^t
et en soustrayant de chaque côté y (…gure 2.7), on obtient :
(yt y) = (^ ^xt + ^b et ^b = y
yt y) + u^t or y^t = a a
^x
(yt y) = a
^ (xt x) + u^t
En utilisant le fait qu’il n’existe pas de corrélation entre la variable explicative xt

et le résidu u^t (équation (2.6)), on peut alors écrire l’équation de l’analyse de la

variance de yt .
Figure 2.7
Équation d’analyse de la variance

Par conséquent, l’équation de l’analyse de la variance au facteur 1
T 1
prêt, est donnée
par :
T
X T
X T
X
2 2 2
(yt y) = y^t y^ + u^t u^ (2.17)
t=1 t=1 t=1
| {z } | {z } | {z }
SCT SCE SCR
où SCE signi…e somme des carrés expliquée et SCR somme des carrés résiduelle (ou
encore somme des carrés des résidus). Or on a y = y^ et u^ = 0, donc :
T
X T
X T
X
(yt y)2 = (^
yt y)2 + u^2t (2.18)
t=1 t=1 t=1
ce qui est équivalent à :

T
X T
X T
X
2 2
(yt y) = (^
yt y) + (yt y^t )2 (2.19)
t=1 t=1 t=1
Le tableau 2.1 regroupe les caractéristiques de l’analyse de la variance pour le modèle

de régression simple.
Tableau 2.1 : Analyse de la variance pour le modèle de régression simple
Source de variation Sommes des carrés (SC) Degrés de liberté (dl ) Carrés moyens (CM)
PT 2
x SCE= t=1 (^ yt y) 1 CMSCE = SCE 1
P T 2
^2 t=1 (xt x)
=a
PT
^ t=1 (xt x) (yt y)
=a
PT SCR
Résidu SCR= t=1 u ^2t T 2 CMSCR = T 2
PT 2 SCT
Total SCT= t=1 (yt y) T 1 CMSCT = T 1
La dernière colonne du tableau est obtenue en divisant chaque somme des carrés
par le nombre de degrés de liberté qui lui est associé. Intuitivement, le nombre de
degrés de liberté représente le nombre de valeurs que l’on peut choisir arbitrairement.
Les degrés de liberté correspondent au nombre de termes linéairement indépendants
impliqués dans chacune des sommes des carrés. Ils reposent sur les T observations
indépendantes (y1 ; : : : ; yT ) et sur le nombre de paramètres à estimer. La SCT
nécessite (T 1) termes indépendants. En e¤et, il n’est possible de choisir librement
que (T 1) valeurs de (yt y), la n-ième étant déterminée par la condition
PT
t=1 (yt y) = 0. De même pour la SCR, on ne peut retenir que (T 2) valeurs de
u^t , l’ajustement
PT des moindres carrésPT imposant deux conditions que les résidus doivent
satisfaire : t=1 (x t x) u
^ t = ^t = 0. En…n, à la somme des carrés expliquée
t=1 u
n’est rattachée qu’un seul degré de liberté (i.e. di¤érence entre ((T 1) (T 2))).
Les degrés de liberté peuvent également s’interpréter comme le nombre d’éléments
dans les sommes des carrés moins le nombre de paramètres à estimer dans ces
sommes.
Coe¢cient de détermination
Sur la base de l’équation (2.19), on dé…nit le coe¢cient de détermination, appelé
R2 . Il correspond au rapport entre la SCE et la SCT de la variable expliquée yt ,
soit :
PT
2 yt y)2
t=1 (^ SCE
R = PT = (2.20)
t=1 (yt y) 2
SCT
or,
T
X T
X T
X
2 2
(^
yt y) = (yt y) u^2t
t=1 t=1 t=1
d’où
P
T
u^2t
t=1 SCR
R2 = 1 =1 (2.21)
P
T
2 SCT
(yt y)
t=1
En considérant la décomposition de l’analyse de la variance, on a la condition :
0 R2 1
D’autre part, on peut montrer que le coe¢cient de détermination n’est en dé…nitive

que le carré du coe¢cient de corrélation entre la variable explicative xt et la variable
expliquée yt (i. e. R2 = 2 ).
Interprétation du coe¢cient de détermination :

il permet de mesurer la qualité de l’ajustement réalisé. Cependant, il est
impossible de dire, s’il existe une causalité entre xt et yt . Autrement dit, cette
statistique ne donne aucune information sur le sens économique du modèle;
le R2 n’apporte aucune information sur la précision des estimateurs de a et b;
la valeur du R2 est fortement conditionnelle au type de données utilisées (i. e.
à la variabilité des observations). Par exemple, lorsque les variables du modèle
sont exprimées en logarithmes ou en taux de croissance. La valeur du coe¢cient
de détermination est généralement beaucoup plus faible dans le second cas car la
composante tendancielle disparaît alors qu’il est relativement aisé de la modéliser
dans le cadre d’un modèle log-log15 .
en…n, l’ajout d’une ou plusieurs observations supplémentaires peut a¤ecter
sensiblement la valeur du R2 à la hausse ou à la baisse. Cela dépend de
l’éloignement de l’observation supplémentaire (xst ; yts ) par rapport au point moyen
de l’échantillon (x; y).
15
Se reporter à Dormont (1999, pp. 78-79).
2.2 ^ et ^b des MCO

Propriétés à distance …nie des estimateurs a
Les estimateurs a ^ et ^b des MCO sont des variables aléatoires car ils sont dé…nis
comme des fonctions de la variable aléatoire yt . Il est donc logique de s’intéresser à
leurs propriétés statistiques. Ici, on raisonne à distance …nie (T …xé), plus tard le cas
asymptotique (T ! 1) sera envisagé. On va voir que les hypothèses initialement
posées servent dans la démonstration des propriétés de ces estimateurs. Il est donc
important de bien mémoriser où chaque hypothèse intervient. Cela permet de se
rendre compte à quel niveau les estimateurs des MCO sont a¤ectés (biais et/ou
variances-covariances) par le non respect de telle ou telle hypothèse.
2.2.1 ^ et ^b sont sans biais
Les estimateurs a
Pour démontrer que les estimateurs a^ et ^b des MCO sont des estimateurs sans biais
respectivement de a et b, il est nécessaire que leurs espérances soient égales aux
vraies valeurs des paramètres. Autrement dit, on doit avoir :
a] = a et E[^b] = b
E[^
2 3
P
T
6 t=1(xt x)(yt y) 7
a] = E 6
E[^ 4
7
5 H5
P
T
(xt x)2
t=1
P
T
(xt x)E[(yt y)]
t=1
= H3
P
T
(xt x)2
t=1
or,
T
1X
E[yt y] = E[yt yt ]
T t=1
" T T
!#
1 X X
= E axt + b + ut a xt + T b + ut H4
T t=1 t=1
= E[axt + b + ut ax b u]
= a(xt x) H1
donc
0 1
P
T
2
B t=1(xt x) C
a] = a B
E[^ @P T
C
A
(xt x)2
t=1
= a
Pour le calcul de l’espérance de l’estimateur ^b, il vient :
E[^b] = E[y a
^x]
or y = ax + b + u, donc
E[^b] = E[ax + b + u a
^x]
= ax + b ax H1 , H3 et E[^
a] = a
= b
Les estimateurs des MCO de a et b sont donc sans biais. On peut constater que
^ et ^b. Cependant,
l’hypothèse H2 n’intervient pas dans la démonstration du biais de a
l’absence de biais est loin d’être su¢sante, il faut également que la précision qui
caractérise ces estimateurs soit bonne.
2.2.2 ^ et ^b des MCO et leur covariance
Les variances des estimateurs a
Par dé…nition, la variance de a

^ est donnée par :
V [^
a] = E[(^
a a])2 ] = E[(^
E[^ a a)2 ]
Après quelques calculs fastidieux, on obtient :

2
u
V [^
a] = (2.22)
P
T
(xt x)2
t=1
De même la variance de l’estimateur de b est donnée par :

0 1
PT
2
2 B xt C
^
V [b] = u B t=1 C (2.23)
T @P T A
(xt x)2
t=1
^ et ^b, elle est égale à :

Quant à la covariance entre les deux estimateurs a
a; ^b] = E[(^
Cov[^ a E[^ a])(^b E[^b])]
= E[(^
a E[^ a])(y a ^x E[y a ^x])]
= E[(^
a E[^ a])( a^x E[^ a]x)]
2 2
= xE[â ] + xE[^ a]
2
= x E[^ a ] E[^ a]2
= xV [^
a]
x
a; ^b] =
Cov[^ 2
u T (2.24)
P
(xt x)2
t=1
Remarques :
On constate d’après les expressions des variances des estimateurs de a ^ et ^b, que
ces
PTestimateurs2 sont d’autant plus précis que l’expression …gurant au dénominateur
( t=1 (xt x) ) est élevée, c’est-à-dire :
que le nombre d’observations est important;
que les valeurs observées de la variable explicative sont dispersées.
2.3 Théorème de Gauss-Markov
Sous les hypothèses H1 à H5 , a ^ et ^b sont les meilleurs estimateurs linéaires sans

biais de a et b. Plus précisément, cela signi…e qu’aucun autre estimateur
linéaire sans biais n’aura une variance plus petite que celui obtenu par les
MCO. On parle alors d’estimateur BLUE (Best Linear Unbiased Estimator), ou
d’estimateur de Gauss-Markov, ou de meilleur estimateur linéaire sans biais ou
encore d’estimateur e¢cace. On remarque que ce résultat est obtenu avec des
hypothèses assez peu restrictives puisque l’on a pas encore précisé la loi suivie par
la perturbation ut .
Implications :
Il en découle que pour estimer n’importe quelle forme linéaire des coe¢cients de
a et b dans le modèle de régression simple, il faut être prêt à endurer certains
^ et ^b des moindres carrés ordinaires ne sont pas
désagréments si les estimateurs a
retenus. En e¤et :
soit on choisit un estimateur sans biais, qui est une fonction linéaire des
observations yt ; mais alors il possède une variance supérieure à celle de

^ et ^b;
l’estimateur obtenu en utilisant a
ou bien on se sert des estimateurs qui, tout en étant des fonctions linéaires des yt
ne sont pas sans biais; mais alors cela n’a pas de sens de vouloir considérer des
estimateurs à variance minimale, et il faut envisager d’autres critères d’estimation.
Dans cette optique, il est couramment fait référence au critère de l’erreur
quadratique moyenne (noté en abrégé EQM ).
2.4 ^ et ^b des MCO

Propriétés asymptotiques des estimateurs a
Dans ce qui précède, il a été montré que les estimateurs a ^ et ^b des MCO dépendent
des observations xt et yt présentes dans l’échantillon. Ainsi, si l’on utilise un
autre échantillon, les résultats devraient changer. Cependant, si cet échantillon
est représentatif de la même population, les di¤érences sont censées ne pas être
signi…catives. Si, le théorème de Gauss-Markov énonce que les estimateurs a ^ et ^b des
MCO sont sans biais et à variance minimale, cela n’exclue pas parfois une précision
médiocre. Il est alors intéressant de voir comment se comporte la connaissance de
a et b lorsque le nombre d’observations tend vers l’in…ni (T ! 1). Intuitivement,
augmenter la taille de l’échantillon revient à acquérir de l’information donc cela
devrait améliorer la connaissance du phénomène que l’on cherche à modéliser.
L’étude des propriétés asymptotiques des estimateurs a ^ et ^b des MCO permet de
bien cerner les implications d’une taille d’échantillon importante.
2.4.1 ^ et ^b sont des estimateurs convergents de a et b

a
Pour cela, il est nécessaire de poser une hypothèse supplémentaire H6 , qui assure
cette convergence :
T
1X
H6 : lim (xt x)2 = qx > 0
T !1 T
t=1
^ converge en probabilité vers a

a
Pour que cela soit e¤ectivement le cas, il faut avoir :

lim E[^
a] = a
T !1
lim V [^
a] = 0
T !1
or, on a :
E[^
a] = a 8t
2 2 =T
0
lim V [^
a] = lim u
= lim u ! = qx
=0
T !1 P (xt x)2
T P
T
T !1 T !1
(xt x)2 =T
t=1 t=1
donc
plima
^=a
T !1
^b converge en probabilité vers b
plim^b = plim(y a
^x)
T !1 T !1
= plim(ax + b + u a
^x)
T !1
= b
P
T
car plimu = plim T1 ut = 0 et plima
^ = a.
T !1 T !1 t=1 T !1
2.4.2 ^ et ^b suivent asymptotiquement une loi normale

a
Pour cela, il faut que l’hypothèse H7 soit véri…ée :

H7 : Les perturbations ut sont indépendantes et identiquement distribuées.
Si H7 est véri…ée et grâce au théorème central limite, alors on peut écrire :
p 2
u
T (^
a a) N 0;
qx
p 2
T ^b b N 0; u
qx
hP PT i
T
où qx est la limite quand T ! 1, du rapport x
t=1 t
2
= (x
t=1 t x) 2
.
Cette hypothèse est plus forte que l’hypothèse de non-corrélation faite jusqu’ici
H22 . En e¤et, l’indépendance implique la non-corrélation, mais la réciproque est
fausse16 .
16
Sauf dans le cas où les perturbations suivent une loi normale.
2.5 ^ et ^b des MCO sous l’hypothèse de nor-

Propriétés des estimateurs a
malité des perturbations
Jusqu’ici, aucune loi n’a été spéci…ée pour les perturbations ut . En e¤et, seuls les
deux premiers moments ont été considérés (espérance, variances et covariances).
L’objet de cette section est de montrer que sous l’hypothèse supplémentaire H8 , les
estimateurs a^ et ^b des MCO possèdent d’autres propriétés.
H8 : Les perturbations ut sont indépendantes et de même loi N (0; 2

u ).
Cette hypothèse de normalité des perturbations peut parfois être justi…ée par une
référence implicite au théorème central limite; dans la mesure où les perturbations
traduiraient l’in‡uence additive d’un grand nombre de variables explicatives omises
indépendantes et chacune d’importance in…nitésimale. Dans ces circonstances, la
somme de ces variables suivrait bien approximativement une loi normale. Les sous-
^ et ^b des
sections suivantes décrivent les propriétés supplémentaires des estimateurs a
MCO qui résultent de l’ajout de cette hypothèse.
2.5.1 ^ et ^b suivent une loi normale
Les estimateurs a
Sous les hypothèses H1 à H8 , les estimateurs a ^ et ^b suivent une loi normale, quel
que soit le nombre d’observations. Ce résultat tient à la linéarité du modèle et à
celle des estimateurs a^ et ^b. Kmenta (1986) montre qu’une combinaison linéaire
de variables aléatoires suivant une loi normale suit également une loi normale (se
reporter à la sous-section suivante et au théorème fourni en note de bas de page).
2.5.2 Les estimateurs des MCO et du maximum de vraisemblance de
a et b sont identiques
Sous les hypothèses H1 à H8 , les estimateurs des MCO et du maximum de

vraisemblance (MV) de a et b sont identiques. Dorénavant, on raisonne avec le
modèle de régression simple (2.1) où les perturbations suivent des lois normales :
ut N (0; 2u ). Les variables yt sont également indépendantes et suivent aussi des
lois normales, puisque yt s’obtient à partir de ut en ajoutant la constante axt + b
(car xt est non aléatoire, hypothèse H3 )17 .
17
Théorème : Soit y, z,...,w des variables aléatoires normales et identiquement et indépendamment
distribuées, et a, b,...,d des constantes, alors la combinaison linéaire ay + bz + ::: + dw est également
normalement distribuée (cf. Kmenta (1986, pp. 90-91 )).
Comme les moments de la variable yt sont donnés par :

2
E[yt ] = axt + b et V [yt ] = u
donc la variable yt suit une loi normale :

2
yt N (axt + b; u)
La densité de la loi suivie par yt est :

axt b)2
2 1 (yt
2 2
f (yt ; a; b; u) = p exp u
u 2
Celle du n-uple (y1 ; y2 ; :::; yT ) s’obtient à cause de l’indépendance en faisant le
produit des densités marginales de chaque yt , soit :
2
L(y1 ; y2 ; :::; yT ; a; b; u) = f (y1 ):f (y2 ):::f (yT )
YT
= f (yt )
t=1
YT axt b)2
1 (yt
2 2
= p exp u
t=1 u 2
PT
b)2
1 t=1 (yt axt
2 2
= T exp u
(2 2) 2
u
^, ^b et ^ 2u du MV de a, b et 2u s’obtiennent en maximisant la log-

Les estimateurs a
vraisemblance par rapport aux paramètres a, b et 2u .
La log-vraisemblance s’écrit :
T
Y
2
log L(y1 ; y2 ; :::; yT ; a; b; u) = log f (yt )
t=1
T
X
= log f (yt )
t=1
T
T T 2 1 X
= log 2 log u 2
(yt axt b)2
2 2 2 u t=1
(2.25)
La maximisation de cette vraisemblance par rapport à a, b et 2

u conduit à :
T
@ log L 1 X ^b)xt = 0
a=a ^ = 2(yt a
^ xt (2.26)
@a 2^ 2u t=1
b = ^b
2 2
u = û
T
@ log L 1 X ^b) = 0
a=a ^ = 2(yt a
^ xt (2.27)
@b 2^ 2u t=1
b = ^b
2 2
u = û
T
@ log L T 1 X ^b) = 0
a=a ^ = + (yt a
^ xt (2.28)
@ 2u 2^ 2u 2^ 4u t=1
b = ^b
2 2
u = û
Les deux premières équations (2.26) et (2.27) ne sont autres que les équations
normales présentées à la sous-section 2.1.1 (équations (2.4) et (2.5)) et admettent
donc comme solutions les estimateurs a^ et ^b des MCO précédemment trouvés (2.11)
et (2.13).
^ et ^b des MCO sont les estimateurs du MV sous

Propriété 2.1 : Les estimateurs a
l’hypothèse de normalité.
Les estimateurs a ^ et ^b jouissent donc des bonnes propriétés asymptotiques

des estimateurs du MV; en particulier ils sont convergents et asymptotiquement
^ et ^b
e¢caces18 . Ainsi, tant à distance …nie qu’asymptotiquement, les estimateurs a
sont les estimateurs sans biais ayant la plus faible variance.
La dernière équation (2.28) permet de trouver l’estimateur de la variance des

perturbations ^ 2u , soit :
P
T
u^2t
t=1
^ 2uM V = (2.29)
T
P
T
u^2t
t=1
6= = ^ 2uM CO
T 2
18
Se reporter à Tassi (1985).
Par conséquent, l’estimateur de la variance des perturbations est biaisé :

(T 2)
E[^ 2uM V ] = E ^ 2uM CO
T
(T 2)
= E ^ 2uM CO
T
puisque E ^ 2uM CO = u,
2
il vient :
(T 2)
E[^ 2uM V ] = 2
u
T
2
6= u
Propriété 2.2 : Lorsque le nombre T d’observations tend vers l’in…ni, les

estimateurs de la variance des perturbations ^ 2uM V et ^ 2uM CO sont approximativement
identiques 19 .
2.5.3 Les estimateurs a ^ et ^b sont, parmi les estimateurs sans biais,
linéaires ou non, ceux qui ont la plus petite variance
Sous les hypothèses H1 à H5 et H8 , les estimateurs a^ et ^b sont, parmi les estimateurs
sans biais, linéaires ou non, ceux qui ont la plus petite variance20 .
Ce résultat va au-delà du théorème de Gauss-Markov, qui n’établit la supériorité

des estimateurs des MCO de a et b que dans la classe des estimateurs linéaires et
sans biais.
2.5.4 ^ et ^b sont e¢caces
Les estimateurs a
Pour montrer que ces estimateurs sont e¤ectivement e¢caces, il su¢t de prouver
^ et ^b atteignent la borne de Fréchet-Darmois-
que les variances des estimateurs a
Cramer-Rao (FDCR), qui est dé…nie comme l’inverse de la matrice d’information
de Fisher :
1
1 @ 2 log L ( )
I( ) = E
@ @ >
1
@ log L ( ) @ log L ( )
= E
@ @ >
19
Se reporter à la section 2.7.4.
20
Se reporter à Monfort (1982, p. 226).
où log L ( ) correspond à (2.25) et = (a; b; u) .

2 >
Ici, après quelques calculs, on
obtient l’égalité suivante :
0 i h 1
V [^
a] Cov a ^
^; b 0
B h i h i C
I( ) 1
=B
@ Cov ^b; a
^ V ^b 0 C
A (2.30)
2 4u
0 0 T
^ et ^b des MCO sont donc e¢caces.

Les estimateurs a
2.6 L’estimateur de la variance des perturbations 2

u par la méthode des
MCO
^ et ^b et celle de leur
Si l’on reprend les expressions des variances des estimateurs a
covariance (équations 2.22, 2.23 et 2.24), on s’aperçoit qu’elles dépendent de la
variance des perturbations 2u . Il faut donc pour pouvoir par la suite réaliser une
inférence statistique (intervalles de con…ance, tests d’hypothèses, etc.) déterminer
un estimateur de 2u .
2.6.1 Dé…nition
En reprenant la dé…nition de la variance de la perturbation ut , soit V [ut ] = E[u2t ] =

u (en utilisant l’hypothèse H1 ), et puisque les perturbations ne sont pas observables,
2
on va estimer la variance des perturbations à partir des résidus des MCO c’est-à-dire
u^t = yt a ^xt ^b. L’estimateur des MCO de la variance des perturbations est donné
par :
P
T
u^2t
t=1
^ 2u = (2.31)
T 2
2.6.2 ^ 2u est un estimateur sans biais de 2

u
Il faut démontrer que l’espérance de l’estimateur ^ 2u est égale à sa vraie valeur.
2 3
P
T
" T #
6 7 u^2tX
1
E[^ 2u ] = E 6 t=1 7
4T 25 = T 2E u^2t
t=1
hP i
T
or E t=1 u^2t = (T 2) u,
2
ce qui implique que :
E[^ 2u ] = 2
u
donc l’estimateur ^ 2u des MCO est un estimateur sans biais de la variance des
perturbations 2u .
2.7 Propriétés de l’estimateur ^ 2u des MCO sous l’hypothèse de normal-

ité des perturbations
2.7.1 L’estimateur des MCO de 2u suit à une constante près une loi
du khi-deux à (T 2) degrés de liberté
^ 2u 2
(T 2) 2
(T 2)
u
Pour démontrer que 2u suit une loi du khi-deux à (T 2) degrés de liberté, se

reporter à Malinvaud (1983).
2.7.2 La variance de ^ 2u est égale à 2 4
u =(T 2)
Sous les hypothèses H1 à H5 et H8 , on sait que la variance d’une variable aléatoire

suivant une loi du khi-deux à (T 2) degrés de liberté est égale à 2(T 2)21 . On a
donc :
^ 2u
V (T 2) 2
= 2(T 2)
u
(T 2)2
4
V [^ 2u ] = 2(T 2)
u
2 4u
V [^ 2u ] =
T 2
2.7.3 ^ 2u a la plus faible variance parmi tous les estimateurs linéaires

et sans biais de 2u , cependant il n’est pas e¢cace
On obtient la variance la plus faible, mais cette variance ne correspond pas à la

borne de FDCR. Cependant, il n’existe pas d’autres estimateurs sans biais qui est
21
une variance minimale (la variance minimale est dé…nie par la borne de FDCR, la
démonstration a été e¤ectuée par Rao (1965)).
2.7.4 Les estimateurs des MCO et du MV de 2
u ne sont pas identiques
En e¤et, la section 2.6 a montré que l’estimateur des MCO de la variance des
perturbations 2u est fourni par :
P
T
u^2t
t=1
^ 2uM CO =
T 2
Par ailleurs, on a vu qu’il est sans biais. En revanche, la section 5 a montré que
l’estimateur du MV de cette même variance est donné par :
P
T
u^2t
t=1
^ 2uM V =
T
et qu’il est biaisé vers le bas puisque :
2
E ^ 2uM V = 2
u
2
u
T
Cependant, asymptotiquement (T ! 1), l’estimateur du MV est convergent car le
biais 2 2
T u
tend vers zéro.
2.7.5 ^ et ^b sont indépendants de ^ 2u

Les estimateurs a
Pour le démontrer, il faut prouver que les estimateurs a ^ et ^b sont indépendants des
^ et ^b
résidus u^t . Dans cette perspective, puisque les résidus u^t et les estimateurs a
suivent des lois normales, il su¢t de montrer que leurs covariances sont nulles22 .
h i
a a) u^t ] = 0 et E ^b b u^t = 0
E [(^
2.8 Inférence statistique

L’estimation des coe¢cients a et b par la méthode des MCO est une méthode
d’estimation ponctuelle. La question qui se pose alors est d’évaluer le degré de
22
Soient deux variables aléatoires suivant une loi normale, N1 et N2 sont indépendantes si et seulement
si leur covariance est nulle (cf. Monfort (1980, p. 132)).
con…ance que l’on peut accorder à cette estimation. En d’autres termes, est-il
possible que la vraie valeur des paramètres soit assez éloignée de cette estimation ?
Pour répondre à cette question, on peut procéder à l’estimation de ces paramètres
par intervalles de con…ance.
2.8.1 Intervalles de con…ance
Intervalles de con…ance à distance …nie

Un intervalle de con…ance au seuil (1 ) pour un paramètre donné est un
intervalle [a1 ; a2 ] dé…ni de telle sorte que la vraie valeur de ce paramètre est
comprise entre les bornes a1 et a2 avec une probabilité (1 ).
On écrit23 :
Pr[a1 a a2 ] = 1 (2.32)
Sous l’hypothèse de normalité des perturbations, on a :
0 1
B 2 C
a
^ NB
@a;
u C
A
P
T
(xt x)2
t=1
et donc,
a
^ a
N (0; 1)
a
^
où,
v
u 2
u u
a
^ =u T
tP
(xt x)2
t=1
Autrement dit, a^ est l’écart-type du coe¢cient a

^. La variance des perturbations
étant inconnue, on la remplace par son estimateur ^ 2u , il vient alors :
a
^ a a
^ a 1 N (0; 1)
s =s q 2 q
^ 2u 2
u û 2 (T 2)
2 T 2
P
T P
T u
(xt x)2 (xt x)2
t=1 t=1
23
Cette écriture est justi…ée car les bornes a1 et a2 sont aléatoires. Elles dépendent des observations
(xt ; yt ) par le biais de l’estimation du coe¢cient a.
Le rapport d’une loi normale à une loi du khi-deux détermine une loi de Student
à (T 2) degrés de liberté24 . On a donc :
a
^ a
t(T 2)
^ a^
On peut donc rechercher la valeur critique t d’ordre 1 =2 de la loi de Student
à (T 2) degrés de liberté qui véri…e l’égalité :
a
^ a
Pr t1 =2 (T 2) t1 =2 (T 2) = 1
^ a^
soit,
Pr a
^ ^ a^ t1 =2 (T 2) a a
^ + ^ a^ t1 =2 (T 2) = 1 (2.33)
L’intervalle de con…ance est alors donné par :
Ia = a
^ ^ a^ t1 =2 (T 2) (2.34)
Ainsi, on peut conclure que la vraie valeur du paramètre a se trouve, avec une
probabilité égale à (1 ) dans l’intervalle Ia . Cet intervalle permet d’apprécier
le degré de précision de l’estimation. En e¤et, d’après l’expression de l’intervalle,
on s’aperçoit qu’il sera d’autant plus large que la précision de l’estimation est
faible.
Intervalles de con…ance asymptotiques
L’intervalle de con…ance asymptotique pour le coe¢cient a est dé…ni par :
Ia = [^
a ^ a^ N1 =2 ] (2.35)
où N1 =2 est la valeur critique d’ordre 1 =2 de la loi normale centrée réduite.
2.8.2 Tests d’hypothèses
Une des …nalités de l’estimation d’un modèle économétrique est d’apporter des
éléments d’information sur l’adéquation entre un modèle et le phénomène qu’il est
censé représenter. A…n d’évaluer cette adéquation, on procède à la mise en œuvre
de tests statistiques. Les tests les plus fréquemment mis en œuvre sont les tests
d’égalité qui permettent de tester l’égalité d’un (ou plusieurs) paramètre(s) à une
(des) valeur(s) …xée(s) a priori.
24
Habituellement une hypothèse testable consiste à se …xer la valeur d’un paramètre

concernant une population donnée. La théorie statistique nomme cette hypothèse
: hypothèse nulle H0 (on suppose ainsi qu’il n’y a pas de di¤érence entre la vraie
valeur a¤ectée à la population et l’hypothèse posée). À l’hypothèse nulle posée, une
contrepartie doit être trouvée sinon le test n’a pas lieu d’être. Cette contrepartie est
appelée hypothèse alternative H1 . Pour récapituler, on a donc :
Hypothèse nulle H0 : a = a0 contre l’hypothèse alternative H1 : a 6= a0 .
La théorie économique sert souvent de base pour avoir une idée sur la vraie valeur
du coe¢cient a0 . Ensuite, il faut un critère qui permet de dire si l’hypothèse nulle
peut être non-rejettée (acceptée) au regard de la réalité. L’idée va être de distinguer
une région de non-rejet (d’acceptation) et une région de rejet (non acceptation) de
l’hypothèse nulle. Plus précisément, on parle de région critique et de région de
non-rejet. Si la statistique de test se situe dans la région de non-rejet, alors on ne
rejette pas l’hypothèse nulle contre l’hypothèse alternative. Les bornes des régions
sont déterminées par la distribution de la statistique de test (sa loi), par la forme
de l’hypothèse alternative.
Soit donc H0 l’hypothèse nulle (a = a0 ) et H1 l’hypothèse alternative (a 6= a0 ), on
conçoit intuitivement que l’on va baser le non-rejet ou le rejet de l’hypothèse nulle
sur l’écart qui existe entre l’estimation obtenue a ^ et la valeur testée a0 . La valeur
de a^ peut être beaucoup plus grande que celle de a0 comme elle peut être nettement
plus petite que celle de a0 . Ces possibilités constituent deux alternatives possibles à
l’hypothèse nulle. Les bornes entre les régions critique et de non-rejet doivent être
telles que l’on rejettera H0 lorsque la valeur de a^ est supérieure ou inférieure à celle
de a0 compte tenu du caractère rare attribué à cet évènement. À celui-ci est a¤ecté
une probabilité 0:01, qui est séparée en deux parties équivalentes.
Ensuite, il est nécessaire de connaître la loi suivie par la variable aléatoire. Ici,
c’est une loi de Student. On peut se référer aux tabulations de cette loi pour trouver
ses valeurs théoriques, et ainsi déterminer les régions de non-rejet et critique. Par
ailleurs, lorsqu’on réalise un test, on base la décision de non-rejet ou de rejet de
l’hypothèse H0 sur l’estimation du paramètre testé. Il existe par conséquent deux
risques d’erreur liés simplement au fait que a ^ est di¤érent de a :
le risque de rejeter H0 alors qu’elle est vraie; appelé risque de 1re espèce;
le risque d’accepter H0 alors qu’elle est fausse; appelé risque de 2e espèce.
Le tableau 2.2 résume les di¤érents cas possibles. La procédure de test conduit à
privilégier l’hypothèse H0 en ce sens que l’on va en général se donner une très faible
probabilité ( 0:10) de rejeter H0 alors qu’elle est vraie et minimiser ensuite le
risque de seconde espèce (probabilité de commettre une erreur de seconde espèce).

Ceci revient à maximiser, pour une valeur donnée, la valeur de (1 ), appelée
aussi puissance du test, soit :
Puissance = 1 =1 Pr [risque de 2e espèce]
Tableau 2.2 : Cas possibles

RÉALITÉ
H0 H1
DÉCISION H0 Pas de risque Risque de 2e espèce
H1 Risque de 1re espèce Pas de risque
Tableau 2.3 : Tests de Student
1 - H0 : a = a0 contre H1 : a 6= a0 au seuil %g =) Test bilatéral

2 - H0 : a a0 contre H1 : a > a0 au seuil %
=) Tests unilatéraux
3 - H0 : a a0 contre H1 : a < a0 au seuil %
Non-rejet de l’hypothèse nulle

Région de non-rejet
1- ^ 2 a0 ^ a^ t1
a =2 (T 2) ;a0 + ^ a^ t1 =2 (T 2)
ou tc = a^ ^ aâ0 2 t1 =2(T 2) ;t1 =2 (T 2)
2- ^ 2 [ 1;a0 + ^ a^ t1 (T 2)]
a
ou tc = a^ ^ aâ0 2 [ 1;t1 (T 2)]
3- ^ 2 [a0 ^ a^ t1 (T 2) ; + 1]
a
ou tc = a^ ^ aâ0 2 [ t1 (T 2) ; + 1]
Hypothèse nulle rejetée

Région critique
1- ^2
a 1;a0 ^ ba t1 =2 (T 2) ou a
^ 2 a0 + ^ a^ t1 =2 (T 2) ; + 1
a
^ a0
ou tc = â
^
2 1; t1 =2 (T 2) ou tc = a^ ^ aâ0 2 t1 =2 (T 2) ; + 1
2- ^ 2 ]a0 + ^ a^ t1 (T 2) ; + 1[
a
ou tc = ba ^ aâ0 2 ]t1 (T 2) ; + 1[
3- ^ 2 ] 1;a0 ba^ t1 (T 2)[

a
ou tc = a^ baâ0 2 ] 1; t1 (T 2)[
Remarque : Lorsque le nombre d’observations tend vers l’in…ni alors la loi de Student converge vers une
loi normale. Les valeurs des statistiques théoriques sont alors celles données par la loi normale.
Une façon plus conviviale et strictement équivalente d’exprimer les régions de

non-rejet et critique de l’hypothèse nulle est donnée dans le tableau 2.4.
Non-rejet de l’hypothèse nulle Hypothèse nulle rejetée

Région de non-rejet Région critique
a
^ a0 a
^ a0
1- jtc j = â
^
t1 =2 (T 2) jtc j = â
^
> t1 =2 (T 2)
a
^ a0 a a0
b
2- tc = â
^
t1 (T 2) tc = â
^
> t1 (T 2)
a
^ a0 a
^ a0
3- tc = â
^
t1 (T 2) tc = â
^
< t1 (T 2)
2.8.3 Inférence et analyse de la variance
Sur la base des sommes des carrés reportées (SCT, SCE et SCR) dans le tableau
2.1 d’analyse de la variance pour le modèle de régression simple, il est possible de
réaliser le test suivant :
H0 : a = 0 contre H1 : a 6= 0
Si l’hypothèse H0 est véri…ée, on peut montrer que les espérances de ces sommes
sont égales à :
E [SCT] = (T 1) 2
u ) E SCT
T 1
= 2
u
E [SCE] = 2u ) E [SCE] = 2
u
E [SCR] = (T 2) 2
u ) E SCR
T 2
= 2
u
Les estimateurs suivants sont alors des estimateurs sans biais de 2

u :
P
T P
T P
T
(yt y)2 (b
yt y)2 u2t
t=1 t=1 t=1
CMSCT = , CMSCE = et CMSCR = (2.36)
T 1 1 T 2
Le dernier estimateur correspond à l’estimateur b2u des MCO de la variance des
perturbations. Il présente l’avantage de rester sans biais même si a 6= 0 (à l’inverse
des deux autres). Lorsque l’hypothèse H0 est satisfaite, les quantités (2.36) suivent
des lois du khi-deux à (T 1), 1 et (T 2) degrés de liberté. De plus, les quantités
(SCE= 2u ) et (SCR= 2
u) sont indépendantes. Il en découle que, sous l’hypothèse H0 ,
la statistique :
SCE
1 2u SCE (T 2) CMSCE
Fc = SCR
= = F (1; T 2) (2.37)
(T 2) 2 SCR 1 CMSCR
u
Cette statistique suit une loi de Fisher à (1; T 2) degrés de liberté. Si la statistique
calculée Fc est supérieure à la statistique théorique F (1; T 2) au seuil de %,
alors on rejette l’hypothèse H0 contre l’hypothèse alternative H1 au seuil de %.
Cette procédure est appelée analyse de la variance (ANOVA25 ). Les résultats sont
généralement présentés dans un tableau.
Tableau 2.5 : Présentation des résultats de l’analyse de la variance
pour le modèle de régression simple
Source de variation SC dl CM Fc
SCE SCE (T 2) CM S C E
x SCE 1 CMSCE = 1 SCR 1 = CM S C R
SCR
Résidu SCR T 2 CMSCR = T 2
SCT
Total SCT T 1 CMSCT = T 1
Remarques :
On peut montrer que ce test est équivalent au test de Student bilatéral. En e¤et,
T
X
SCE = (b
yt y)2
t=1
XT
= (y + b
a (xt x) y)2
t=1
T
X
= b
a 2
(xt x)2
t=1
25
«ANalysis Of VAriance».
Or, on a :
SCE
Fc =
SCR/ (T 2)
P
T
a2 (xt x)2
b
t=1
=
SCR/ (T 2)
P
T
a2 (xt
b x)2
t=1
=
b2u
P
T
D’après l’équation (2.22), b2u = bb2a (xt x)2 , donc
t=1
2
a
b
Fc = = t2c (2.38)
bba
La statistique tc est équivalente à la statistique de Student calculée sous l’hypothèse
nulle H0 . L’équivalence entre les deux tests est donc :
Fc = t2c
On peut également mettre en évidence un lien avec le coe¢cient de détermination.
p
tc = Fc
s
SCE
=
SCR/ (T 2)
s
R2 (T 2)
=
(1 R2 )
p
R T 2
= p (2.39)
1 R2
Or comme R2 = 2
, donc
p
T 2
tc = p (2.40)
1 2
Au total, on dispose de trois versions d’un même test. Le test d’analyse de la

variance, qui a pour objectif de tester si la SCE est signi…cative. Le test de Student,
qui est destiné à juger si la pente de la droite de la régression est signi…cativement

di¤érente de zéro. En…n, le test qui utilise le coe¢cient de détermination peut être
considéré comme un test sur le caractère signi…catif du coe¢cient de corrélation
entre xt et yt . Sur le fond, ces tests correspondent à trois façons di¤érentes de
répondre à la même question.
2.9 Prévision
La méthode des MCO a permis d’estimer les paramètres a et b du modèle de

régression simple. Il est maintenant possible d’utiliser ce modèle estimé pour prédire
la valeur de yT +1 à la date T + 1 sachant que x vaudra xT +1 . Dans la mesure où
l’on pense que le modèle de regression simple reste vrai en T + 1, il est naturel de
prévoir yT +1 , conditionnellement au fait que x vaudra xT +1 par26 :
^xT +1 + ^b
y^T +1 = a (2.41)
2.9.1 y^T +1 est un prédicteur sans biais de yT +1

Parmi tous les prédicteurs linéaires en (y1 ,y2 ,...,yT ), la prévision y^T +1 ainsi calculée
est la meilleure prévision possible. En utilisant le fait que E[uT +1 ] = 0, il
vient27 :
E[^
yT +1 axT +1 + ^b
yT +1 ] = E[^ axT +1 b uT +1 ]
= E[uT +1 ]
a] = a et E[^b] = b, il vient :
puisque E[^
E[^
yT +1 yT +1 ] = E[uT +1 ] = 0
Le prédicteur linéaire y^T +1 de yT +1 est sans biais, si l’écart algébrique moyen entre
y^T +1 et yT +1 est nul.
2.9.2 Son erreur de prévision a la plus faible variance
Si l’on considère un prédicteur linéaire sans biais y~T +1 , son erreur de prévision u~T +1
est dé…nie par :
u~T +1 = yT +1 y~T +1
26
On parle de prédiction conditionnelle puisque l’on ne tient pas compte de l’incertitude qui peut exister
sur xT +1 .
27
La condition pour que y^T +1 soit un prédicteur sans biais de yT +1 n’est pas E[^
yT +1 ] = yT +1 . Ceci tient
évidemment au fait que yT +1 est aléatoire.
Puisque E[~
uT +1 ] = 0, la variance de u~T +1 est donnée par :
uT +1 ] =
V [~ E[(~
yT +1 yT +1 )2 ]
= E[(~
yT +1 axT +1 b uT +1 )2 ]
= E[(~
yT +1 axT +1 b)2 ] + E[u2T +1 ] 2Cov[~
yT +1 axT +1 buT +1 ]
= E[(~
yT +1 axT +1 b)2 ] + 2u
car la covariance est nulle. En e¤et y^T +1 ne dépend que des observations (y1 ,...,
yT ) et est donc sans corrélation avec uT +1 si les perturbations (u1 ,..., uT ) sont non
corrélées avec uT +1 . D’autre part, la variance de la perturbation en T + 1 est égale
à V [uT +1 ] = 2u .
Par conséquent, le problème posé est de trouver le prédicteur linéaire sans biais de
E[yT +1 ] = axT +1 + b qui minimise l’expression E[(~
yT +1 axT +1 b)2 ]. D’après le
théorème de Gauss-Markov, ce prédicteur est donné par :
^xT +1 + ^b
y^T +1 = a
Compte tenu du caractère aléatoire de yT +1 , la précision de y^T +1 est fournie par :
E[(^
yT +1 axT +1 + ^b
yT +1 )2 ] = E[(^ axT +1 b uT +1 )2 ]
= E[((^
a a)xT +1 + ^b b)2 ] + 2 u
dès lors que V [uT +1 ] = 2u et que uT +1 n’est pas corrélé avec (u1 ,...,uT ). En e¤et, on
a uT +1 ] = E[^b uT +1 ] = 0. Ainsi :
a alors E[^
E[(^
yT +1 a] + V [^b] + 2xT +1 Cov[^
yT +1 )2 ] = x2T +1 V [^ a; ^b] + 2u
" #
2 2
x 1 x
= 2u PT T +1 + 2u + PT
t=1 (x t x) 2 T t=1 (xt x)2
xT +1 x
2 2u PT + 2u
2
t=1 (xt x)
" #
2
1 (x T +1 x)
= 2u 1 + + PT
T t=1 (xt x)2
" #
2
1 (x T +1 x)
E[(^
yT +1 yT +1 )2 ] = 2u + 2u + PT (2.42)
T t=1 (x t x) 2
Cette variance est composée de deux éléments :

le terme 2u correspond au caractère aléatoire de yT +1 . On ne peut pas réduire
cette incertitude;
le second terme est lié à la précision de l’estimation de a et b ainsi qu’à l’écart
entre la valeur xT +1 et la moyenne des observations.
On peut constater que la variance de la prévision est d’autant plus faible que :
u est faible;
2
T est grand;
la dispersion des xt sur l’échantillon ayant servi de base à l’estimation de a et b
est grande;
l’écart entre xT +1 et x est faible.
Les trois premiers points peuvent être considérés comme liés à la précision de
l’estimation de a et b. Le dernier montre que le modèle fonctionne d’autant mieux
en prévision que la valeur de xT +1 utilisée dans la prédiction n’est pas trop éloignée
de la moyenne de l’échantillon28 .
!!
2
2 1 (xT +1 x)
y^T +1 yT +1 N 0; u 1+ + PT
T t=1 (xt x)2
et l’intervalle de con…ance de la prévision de yT +1 est donné par29 :
" s #
1 (xT +1 x)2
IyT +1 = y^T +1 ^ u t1 =2 (T 2) 1 + + PT (2.43)
T t=1 (xt x)2
ou asymptotiquement par :
" s #
1 (xT +1 x)2
IyT +1 = y^T +1 ^ u N1 =2 1 + + PT (2.44)
T t=1 (xt x)2
28
Il résulte du dernier point que si la variable xt suit une tendance, l’observation xT +1 a toutes les chances
d’être assez éloignée de x. La précision de la prévision dans un modèle où les variables explicatives suivent
une tendance peut donc être assez mauvaise.
29
Se reporter à la …gure 2.8.
Figure 2.8
Chapitre 3
——————————————————————————
Le modèle de régression multiple
Ce modèle constitue une extension du modèle de régression simple traité dans

le chapitre précédent. Les résultats qui vont être présentés ne sont pas fonda-
mentalement di¤érents de ceux du modèle de régression simple, l’unique di¢culté
réside dans la manipulation des matrices et des vecteurs (i. e. il faut maîtriser l’algè-
bre matricielle).
Grâce à la prise en compte de plusieurs variables explicatives, ce modèle permet de
mieux coller à la réalité économique dans la mesure où il autorise une représentation
beaucoup plus détaillée des phénomènes économiques. Ainsi, il est possible d’estimer
et de tester l’in‡uence de plusieurs variables. Le modèle de régression multiple
s’écrit :
yt = b0 + b1 x1t + b2 x2t + + bk xkt + ut t = 1; : : : ; T (3.1)
ou encore
k
X
yt = xjt bj + ut t = 1; : : : ; T (3.2)
j=0
avec x0t = 1, 8t. Le modèle comporte k variables explicatives (hors constante), xjt ,
j = 1; : : : ; k. Par analogie au modèle de régression simple, cinq hypothèses sont
faites :
H1 : E[ut ] = 0 8t
H21 : V [ut ] = E (ut E[ut ])2 = E[u2t ] = 2u 8t
H2 : 0
H22 : Cov[ut ; ut0 ] = E[ut ut0 ] = 0 8t 6= t
Autrement dit, les perturbations sont supposées homoscédastiques (H21 , variance
constante) et non autocorrélées (H22 , covariances nulles).
H3 : les variables explicatives xjt sont non aléatoires, pour j = 1; : : : ; k
H5 : les variables explicatives xjt ne sont pas colinéaires (constante comprise).
118
3. Le modèle de régression multiple 119
En utilisant les notations matricielles, il vient :

0 1 0 10 1 0 1
y1 1 x11 x21 xk1 b0 u1
B y2 C B 1 x12 x22 xk2 C B b C B u C
B . C=B . .. .. .. C B .1 C + B .2 C
@ .. A @ .. . . . A @ .
. A @ .. A
yT 1 x1T x2T xkT bk uT
soit,
y = X b + u (3.3)
(T;1) (T;k+1)(k+1;1) (T;1)
où y est le vecteur des observations sur la variable expliquée, X correspond à

la matrice des observations sur les variables explicatives (constante comprise), b
est le vecteur des paramètres à estimer et u est le vecteur des perturbations. Si
l’on retranscrit les cinq hypothèses précédemment posées sous forme matricielle, on
obtient :
H1 : E[u] = 0
H2 : V [u] = 2u IT où IT est la matrice identité de taille (T; T )
H3 : la matrice X est non aléatoire
H5 : la matrice X est de plein rang k + 1 < T .
3.1 La méthode des moindres carrés ordinaires
3.1.1 Dé…nition
L’estimateur des moindres carrés ordinaires (MCO) est solution du programme de

minimisation (libre) de la somme des carrés des perturbations :
T
X T
X
min (yt b0 b1 x1t b2 x2t bk xkt )2 = min u2t (3.4)
b0 ;b1 ;:::;bk b0 ;b1 ;:::;bk
t=1 t=1
Soit, matriciellement
min u> u = min (y Xb)> (y Xb) = min S (3.5)

b> b> b>
min S = min y> y y> Xb b> X> y + b> X> Xb
b> b>
or b> X> y est un scalaire. Par dé…nition, sa transposée est égale à ce scalaire, donc
b> X> y = y> Xb, il vient :
min S = min y> y 2y> Xb + b> X> Xb
b> b>
En appliquant les règles de dérivations fournies au chapitre 15, les conditions du

premier ordre associées à ce programme s’écrivent :
@S b=0
= 2X> y + 2X> Xb (3.6)
@b b
b=b
Ceci correspond à un système de k + 1 équations à k + 1 inconnues b b =

>
bb0 ; bb1 ; : : : ; bbk . Ces k + 1 équations sont appelées équations normales. Pour que
ce système admette une solution unique qui coïncide avec un minimum, il faut que
la condition du second ordre suivante soit satisfaite :
@S
= 2X> X matrice dé…nie positive (m.d.p) (3.7)
@b@b> b
b=b
Cette condition est e¤ectivement satisfaite puisque d’après l’hypothèse H5 , la

matrice X est de plein rang k + 1. Par conséquent, la matrice X> X de dimension
(k + 1; k + 1) est également de rang k + 1 et est dé…nie positive. À partir des
équations normales (3.6), on obtient l’expression de l’estimateur des MCO, soit :
1
b = X> X
b X> y (3.8)
3.1.2 Propriétés statistiques des MCO

La valeur ajustée du modèle de régression multiple est donnée par :
b
b = Xb
y
b = X> X 1
or b X> y, donc
1
b = X X> X
y X> y
= Py (3.9)
1
avec P = X X> X X> . La matrice P véri…e les propriétés suivantes :
P = P> , elle est symétrique;
PP> = P> P = P, la matrice P est idempotente;
PX = X;
rg(P) = tr(P) = k + 1.
Par ailleurs, on a :
b = y
u b
y
= y Xbb
= y Py
= (IT P) y
= My (3.10)
avec M = IT P. De la même façon que la matrice P, la matrice M véri…e les

propriétés suivantes :
M = M> , elle est symétrique;
MM> = M> M = M, la matrice M est idempotente;
MX = 0;
rg(M) = tr(M) = T (k + 1).
On en déduit donc :
X> u
b=0 (3.11)
car X> ub = X> My = 0 puisque X> M = 0. On retrouve le résultat déjà obtenu
dans le cadre du modèle de régression simple : les résidus sont orthogonaux aux
variables explicatives du modèle. Il n’existe donc pas de lien systématique entre ces
résidus et les variables explicatives.
De plus, si le modèle comporte un terme constant, on peut décomposer la matrice
X comme suit :
e
X = eT ; X
e la matrice des variables explicatives

où eT est le vecteur unitaire de taille (T; 1) et X
de taille (T; k). D’après (3.11), on obtient tout de suite :
e>
Tub=0 (3.12)
soit
u
b=0 (3.13)
donc avec un terme constant la moyenne des résidus est nulle. À partir de ce résultat,
il vient :
yb = y (3.14)
puisque l’on a :
b = X> Py = X> y
X> y (3.15)
car X> P = X> , et donc si le modèle comporte un terme constant :
e>
Tyb = e>
Ty
yb = y
En…n, on a :
b> u
y b=0 (3.16)
car y b = y> PMy = 0 puisque PM = 0. Il n’y a donc aucun lien systématique
b> u
entre les valeurs ajustées par le modèle et les résidus.
3.1.3 Équation d’analyse de la variance, coe¢cients de détermination
et théorème de Frisch-Waugh
Équation d’analyse de la variance et coe¢cients de détermination

À partir de l’équation d’analyse de la variance (2.18) au facteur 1
T 1
prêt, soit :
T
X T
X T
X
2 2
(yt y) = (^
yt y) + u^2t
|t=1 {z } |t=1 {z } |t=1{z }
SCT SCE SCR
On obtient le coe¢cient de détermination31 :

PT PT
2 yt y)2
t=1 (b ^2t
t=1 u SCR
R = PT = 1 P =1 (3.17)
t=1 (yt y)2 T
t=1 (yt y)2 SCT
Si le modèle ne comporte pas de terme constant, l’expression (3.17) du R2 dé…ni

ci-dessus ne constitue plus une mesure satisfaisante de la qualité de l’ajustement.
En e¤et, dans ce cas, la moyenne des résidus u
b n’est plus nulle et la décomposition
de la variabilité de yt en deux composantes orthogonales n’est plus possible.
Un autre inconvénient associé au coe¢cient de détermination est qu’il augmente
obligatoirement lorsque l’on rajoute une variable explicative au modèle. Ainsi
31
La démarche est similaire à celle retenue dans la section 2.1.3 du chapitre 2.
du point de vue de la qualité de l’ajustement linéaire, l’ajout d’une variable

explicative se trouve toujours justi…é sur la base du R2 . Pour pallier cette
di¢culté, on dé…nit le R2 corrigé (ou encore appelé R2 ajusté) du nombre de
2
degrés de liberté, noté R , soit :
PT
2 u^2 = (T (k + 1))
R = 1 PTt=1 t (3.18)
t=1 (yt y)2 = (T 1)
SCR T 1
=1
SCT T (k + 1)
Variance Résiduelle (VR)
=1
Variance Totale (VT)
2
Lorsque l’on ajoute une variable explicative au modèle, le R peut augmenter ou
2
diminuer. Pour que le R augmente, il faut que la diminution de la somme des
carrés des résidus qu’entraîne la prise en compte de cette variable supplémentaire
soit relativement plus importante que celle du nombre de degrés de liberté
(T (k + 1)). On considère alors que l’inclusion de cette variable dans le modèle
2
est justi…ée. Il est à noter qu’il existe une relation entre le R et le R2 . En e¤et,
on peut écrire :
2 k (1 R2 )
R = R2 (3.19)
(T (k + 1))
Or, on sait que 0 R2 1, donc au pire le second membre est nul. Par
conséquent, on peut en déduire :
2
R R2 (3.20)
2
À l’inverse du R2 , le coe¢cient de détermination corrigé R peut être négatif.
Le théorème de Frisch-Waugh (1933)32
Ils montrent qu’il est possible de décomposer l’estimation d’un ensemble de
paramètres en deux estimations successives d’un modèle transformé. En
reprenant le modèle de régression multiple y = Xb + u, avec X = (X1 ; X2 ),
b = (b1 ; b2 )> sous les hypothèses habituelles (i. e. H1 à H5 ), il vient :
y = X1 b 1 + X2 b 2 + u (3.21)
(T;1) (T;k1 )(k1 ;1) (T;k2 )(k2 ;1) (T;1)
32
On parle également de théorème de Frisch-Waugh-Lowell. En 1963, Lowell a redonné une nouvelle vie
au théorème de Frisch-Waugh un peu oublié.
avec k1 + k2 = k + 1. On peut estimer b1 et b2 en appliquant respectivement les

MCO aux modèles transformés :
MX2 y = MX2 X1 b1 + MX2 u (3.22)
1
avec MX2 = IT X2 X>
2 X2 2 , et,
X>
y b = X2 b + u
X1 b (3.23)
1 2
ce qui donne pour le modèle (3.22) :
1
b = X > MX X 1
b X> (3.24)
1 1 2 1 MX2 y
et pour le modèle (3.23)
1
b = X> X2
b X> y b
X1 b (3.25)
2 2 2 1
Les expressions de b b et de b
b sont équivalentes aux (k + 1) composantes du
1 2
b
vecteur b (éq. 3.8).
3.2 b des MCO

Propriétés à distance …nie de l’estimateur b
L’estimateur b b des MCO est aléatoire car il est dé…ni comme une fonction du
vecteur de la variable aléatoire y. Il est donc logique de s’intéresser à ses propriétés
statistiques. Ici, on raisonne à distance …nie (T …xé), plus tard le cas asymptotique
(T ! 1) sera envisagé. On va voir que les hypothèses initialement posées servent
dans la démonstration des propriétés de cet estimateur. Il est donc important de
bien mémoriser où chaque hypothèse intervient. Cela permet de se rendre compte
à quel niveau l’estimateur des MCO est a¤ecté (biais et/ou matrice de variances-
covariances) par le non respect de telle ou telle hypothèse.
3.2.1 b est un estimateur sans biais de b
b
h i
b des MCO de b est sans biais si : E b
L’estimateur b b = b. En calculant cette
espérance, il vient :
h i h 1
i
b
E b = E X X >
X y or y = Xb + u H4 et H5
>
h 1 1
i
= E X> X X> Xb + X> X X> u
h 1
i
= E b + X> X X> u
1
= b + X> X X> E [u] H3
h i
b = b
E b H1 (3.26)
b est un estimateur sans biais de b. Il est important de constater que l’hypothèse

b
b des MCO.
H2 n’intervient pas dans la démonstration du biais de l’estimateur b
b est égale à 1
3.2.2 La matrice de variances-covariances de b 2
u X> X
Par dé…nition, l’expression de la matrice de variances-covariances de l’estimateur
des MCO s’obtient à partir de :
h i h i h i >
b = E
V b b
b b
E b b
b b
E b b est sans biais
or b
>
= E b
b b b
b b
En utilisant le résultat selon lequel l’estimateur des MCO est sans biais, on se sert
implicitement des hypothèses H1 , H3 , H4 et H5 . Par ailleurs, comme
1
b
b b = X> X X> y b or y = Xb + u (H4 )
1
= b + X> X X> u b
1
b
b b = X> X X> u
donc
h i 1 1 >
b = E
V b X> X X> u X> X X> u
h 1 1
i
= E X> X X> uu> X X> X
1 1
= X> X X> E uu> X X> X H3
2 1 1
= u X> X X> X X> X H2
h i 1
b =
V b 2
X> X (3.27)
u
On peut constater que pour aboutir à l’expression de la matrice de variances-

covariances de l’estimateur des MCO, on utilise l’ensemble des hypothèses
précédemment posées (H1 à H5 ).
3.3 Théorème de Gauss-Markov

Sous les hypothèses H1 à H5 , bb est le meilleur estimateur linéaire sans biais (BLUE).
Pour le démontrer, il faut prouver que tout autre estimateur linéaire sans biais b
a une matrice de variances-covariances supérieure ou égale à celle de l’estimateur
b des MCO. On suppose que l’on considère un estimateur linéaire b comme une
b
b soit :
autre alternative possible à l’estimateur b,
b = Hy (3.28)
avec :
1
H = X> X X> + C
où C est une matrice non aléatoire. En remplaçant y (= Xb + u) par son expression
dans (3.28), il vient :
b = Hy = HXb + Hu (3.29)
En calculant l’espérance de l’estimateur :
E [b ] = HXb (3.30)
donc l’estimateur b est sans biais sous la condition :
HX = Ik+1 (3.31)
Or,
1
HX = X> X X> X + CX
= Ik+1 + CX
donc HX = Ik+1 si et seulement si CX = 0. La matrice de variances-covariances de

l’estimateur b est donnée par :
h i
V [b ] = E (b E [b ]) (b E [b ])>
h i
>
= E (b b) (b b)
h >
i
= E Huu> H
1 1 >
= E X> X X> + C uu> X> X X> + C
1 1
= X> X X> + C E uu> X X> X + C>
2 1 1
= u X> X X> + C X X> X + C>
2 1 2 >
= u X> X + u CC
| {z }
b]
V [b
puisque CX = 0. Par conséquent,

h i
V [b ] b =
V b 2 >
(3.32)
u CC
où CC> est une matrice semi-dé…nie positive. Ainsi, tout estimateur linéaire et
sans biais b a une matrice de variances-covariances supérieure ou égale à celle de
b des MCO.
l’estimateur b
3.4 b des MCO

Propriétés asymptotiques de l’estimateur b
Sous les hypothèses H1 à H5 , le théorème de Gauss-Markov énonce que l’estimateur

b des MCO est à variance minimale. Ce résultat est valable à distance …nie, c’est–
b
à-dire avec un nombre …xé d’observations. On peut également s’interroger sur
les propriétés de cet estimateur lorsque le nombre d’observations tend vers l’in…ni
(T ! 1).
3.4.1 b est un estimateur convergent de b

b
Sous l’hypothèse supplémentaire
X> X
H6 : lim =Q m.d.p (3.33)
T !1 T
En e¤et, une condition su¢sante pour que l’estimateur bb des MCO converge en
probabilité vers b est qu’il converge en moyenne quadratique. Pour cela, il faut
avoir :
b =b
lim E[b]
T !1
b =0
lim V [b]
T !1
or, on a :
b =b
E[b] 8t
2 1
b = lim
lim V [b] u X> X
=0 Q 1
=0
T !1 T !1 T T
b des MCO converge en probabilité vers b quand

Par conséquent, l’estimateur b
T ! 1, soit :
b=b
plimb (3.34)
T !1
3.4.2 b suit asymptotiquement une loi normale

b
Il est nécessaire de poser un hypothèse supplémentaire H7 , soit :
H7 : Les perturbations ut sont indépendantes et identiquement distribuées.
Si l’hypothèse H7 est véri…ée et grâce au théorème central limite, alors on peut

écrire :
p L
T bb b ! N 0; 2u Q 1 (3.35)
T !1
avec comme matrice de variances-covariances asymptotique :

hp i
V b
T b b ! 2u Q 1 (3.36)
T !1
3.5 b des MCO sous l’hypothèse de normalité

Propriétés de l’estimateur b
des perturbations
Le résultat précédent montre que l’estimateur des MCO suit une loi normale dès
lors que les perturbations sont indépendantes et identiquement distribuées et que
T ! 1. Malheureusement, dans de nombreuses situations, l’échantillon dont on
dispose ne comporte qu’un nombre limité d’observations. Il faut donc faire une
hypothèse plus forte que H7 pour que l’estimateur b b des MCO suivent une loi
normale :
2
H8 : Les perturbations u sont indépendantes et de même loi N 0; u IT
Les propriétés statistiques qui suivent découlent de cette hypothèse supplémentaire.

3.5.1 b suit une loi normale
b
1
b
b N b; 2
X> X (3.37)
u
En e¤et, l’estimateur bb des MCO apparaît comme une combinaison linéaire de

variables aléatoires suivant une loi normale. Il suit donc également une loi normale.
3.5.2 L’estimateur du MV de b est identique à celui des MCO
Sous les hypothèses H1 à H8 , les estimateurs des MCO et du MV de b sont

identiques. Dorénavant, on raisonne avec le modèle de régression multiple (3.3)
où le vecteur des perturbations suit une loi normale : u N (0; 2u IT ). Les
variables yt sont également indépendantes et suivent aussi des lois normales, puisque
yt s’obtient à partir de ut en ajoutant la constante et les k variables explicatives
b0 + b1 x1t + + bk xkt (les xjt sont non aléatoires, hypothèse H3 ).
Comme les moments de la variable yt sont donnés par :
2
E[yt ] = b0 + b1 x1t + + bk xkt et V [yt ] = u
donc la variable yt suit une loi normale :
2
yt N (b0 + b1 x1t + + bk xkt ; u)
ou
2
yt N X>
t b; u
avec X>
t = (1 x1t x2t : : : xkt ). Soit, matriciellement
2
y N (Xb; u IT )
La densité de la loi suivie par yt est :
Xt b)2
2 1 (yt
2 2
f (yt ; b; u) = p exp u
u 2
Celle du n-uple (y1 ; y2 ; :::; yT ) s’obtient à cause de l’indépendance en faisant le

produit des densités marginales de chaque yt , soit :

2
L(y1 ; y2 ; :::; yT ; b; u) = f (y1 )f (y2 ):::f (yT )
YT
= f (yt )
t=1
YT Xt b)2
1 (yt
2 2
= p exp u
t=1 u 2
(y Xb)> (y Xb)
1 2 2
= T exp u
(2 2) 2
u
^ et ^ 2u du MV de b et 2u s’obtiennent en maximisant la log-

Les estimateurs b
vraisemblance par rapport aux paramètres b et 2u .
La log-vraisemblance s’écrit :
T
Y
2
log L(y1 ; y2 ; :::; yT ; b; u) = log f (yt ) (3.38)
t=1
T
X
= log f (yt )
t=1
T T 1
= log 2 log 2
u (y
2|
Xb)> (y Xb)
2 2 2 u {z }
u
La maximisation de cette vraisemblance par rapport à b et 2

u conduit à :
@ log L 1 > b =0
= X (y Xb) (3.39)
@b b=b
2
^ ^ 2u
u = ^ 2u
@ log L T 1 b > (y b =0
= 2 + (y Xb) Xb) (3.40)
@ 2u b=b
2
^
2
2^ u 2^ 4u
u = û
L’équation (3.39) correspond à un système de k + 1 équations à k + 1 inconnues. Il

est identique aux équations normales (3.6) dé…nies à la section 3.1.1. Cette équation
admet donc comme solution l’estimateur b b des MCO (3.8).
Propriété 3.1 : L’estimateur b b des MCO est l’estimateur du MV sous l’hypothèse
de normalité.
Par conséquent, l’estimateur b b jouit des bonnes propriétés asymptotiques de

l’estimateur du MV; en particulier il est convergent et asymptotiquement e¢cace.
Ainsi, tant à distance …nie qu’asymptotiquement, l’estimateur b b est l’estimateur
sans biais ayant la plus faible variance.
La dernière équation (3.40) permet de trouver l’estimateur de la variance des

perturbations ^ 2u , soit :
b>u
u b
^ 2uM V = (3.41)
T
b>u
u b
6= = ^ 2uM CO
T (k + 1)
Par conséquent, l’estimateur de la variance des perturbations est biaisé :
(T (k + 1)) 2
E[^ 2uM V ] = E ^ uM CO
T
(T (k + 1))
= E ^ 2uM CO
T
puisque E ^ 2uM CO = u,
2
il vient :
(T (k + 1))
E[^ 2uM V ] = 2
u 6= 2
u
T
Propriété 3.2 : Lorsque le nombre T d’observations tend vers l’in…ni, les esti-
mateurs de la variance des perturbations ^ 2uM V et ^ 2uM CO sont approximativement
identiques.
3.5.3 L’estimateur b b est, parmi les estimateurs sans biais, linéaires ou

non, celui qui a la plus petite variance
Sous les hypothèses H1 à H5 et H8 , l’estimateur b b est, parmi les estimateurs sans

biais, linéaires ou non, celui qui a la plus petite variance.
Ce résultat va au-delà du théorème de Gauss-Markov, qui n’établit la supériorité

des estimateurs des MCO de b que dans la classe des estimateurs linéaires et sans
biais.
3.5.4 b est e¢cace

L’estimateur b
En e¤et, sa matrice de variances-covariances atteint la borne de FDCR, qui est
dé…nie comme l’inverse de la matrice d’information de Fisher :
1
1 @ 2 log L ( )
I( ) = E
@ @ 0
avec = (b; u) .
2 >
Après quelques calculs, on obtient :
!
2 1
1 X> X 0
I( ) = u
2 4u (3.42)
0> T
h i
b b = 1
L’estimateur b des MCO est e¢cace puisque V b 2
u X> X .
3.6 L’estimateur de la variance des perturbations 2u par la méthode des

MCO
h i
b des MCO dépend de la
La matrice de variances-covariances de l’estimateur V b
variance des perturbations u,
2
il faut donc trouver un estimateur de cette variance.
3.6.1 Dé…nition
L’estimateur b2u des MCO de 2
u est dé…ni par :
X T
1
b2u = b2
u (3.43)
T (k + 1) t=1 t
Soit, matriciellement
b>u
u b
b2u = (3.44)
T (k + 1)
avec u
b=y b
Xb.
3.6.2 b2u est un estimateur sans biais de 2
u
En e¤et, on peut montrer que33 :

33
Se reporter à l’exercice 3.1.
E b2u = 2
u
3.7 Propriétés de l’estimateur b2u des MCO sous l’hypothèse de normal-

ité des perturbations
3.7.1 L’estimateur b2u des MCO suit, à une constante près, une loi du
khi-deux à T (k + 1) degrés de liberté
Sous les hypothèses H1 à H5 et H8 , l’estimateur b2u des MCO suit, à une constante
près, une loi du khi-deux à T (k + 1) degrés de liberté :
^ 2u 2
(T (k + 1)) 2
(T (k + 1))
u
Ceci est la conséquence du théorème suivant :

Théorème 3.1 : Soit u un vecteur aléatoire normal N (0; 1) et soit M une matrice
idempotente d’ordre T et de rang (T (k + 1)), alors la forme quadratique u> Mu
suit une loi du khi-deux à (T (k + 1)) degrés de liberté.
3.7.2 La variance de ^ 2u est égale à 2 4

u =(T (k + 1))
Sous les hypothèses H1 à H5 et H8 , on sait que la variance d’une variable
aléatoire suivant une loi du khi-deux à (T (k + 1)) degrés de liberté est égale
à 2(T (k + 1))34 . On a donc :
^ 2u
V (T (k + 1)) 2
= 2(T (k + 1))
u
(T (k + 1))2
4
V [^ 2u ] = 2(T (k + 1))
u
2 4u
V [^ 2u ] =
T (k + 1)
3.7.3 Les estimateurs des MCO et du MV ne sont pas identiques

En e¤et, la section 3.6 a montré que l’estimateur des MCO de la variance des
perturbations 2u est fourni par :
b>u
u b
^ 2uM CO =
T (k + 1)
34
Par ailleurs, on a vu qu’il est sans biais. En revanche, la section 3.5 a montré que
l’estimateur du MV de cette même variance est donné par :
b>u
u b
^ 2uM V =
T
et qu’il est biaisé vers le bas puisque :
(k + 1)
E ^ 2uM V = 2
u
2
u
T
Cependant, asymptotiquement (T ! 1), l’estimateur du MV est convergent car le
(k+1) 2
biais T u tend vers zéro.
3.7.4 b et b2 sont indépendants

Les estimateurs b u
Pour le montrer, il su¢t d’utiliser le théorème suivant :

Théorème 3.2 : Soit y un vecteur aléatoire suivant une loi normale, soit M
une matrice idempotente d’ordre T et de rang p, et soit P une matrice d’ordre
(k + 1; T ) et de rang (k + 1 T p) si P M = 0, la forme linéaire P y et la
forme quadratique y> My sont indépendantes.
Ainsi, puisque
1
b = X> X
b X> y = P y
où la matrice P est d’ordre (k + 1; T ) et de rang k + 1 et,
b>u
u b 1 1
b2u = = y> IT X X> X X> y
T (k + 1) T (k + 1)
>
y My
=
T (k + 1)
b et b2 des MCO
Or, le produit P M est nul35 . Par conséquent, les estimateurs b u
sont indépendants.
3.8 Inférence statistique
La logique adoptée ici est identique à celle retenue pour le modèle de régression
simple. Il est donc important d’évaluer le degré de con…ance que l’on peut accorder
35
Se reporter à la section 3.1.2.
aux estimations obtenues. Plus précisément, on cherche à savoir dans quelle mesure
la vraie valeur des paramètres est proche ou non des estimations.
3.8.1 Intervalles de con…ance
Intervalles de con…ance à distance …nie

bbj N bj ; b j = 0; 1; : : : ; k
bj
Par ailleurs, on sait que la variance des perturbations suit, à une constante près,
une loi du khi-deux à (T (k + 1)) degrés de liberté. Ceci implique que :
bbj bj
t (T (k + 1))
bbbj
Il vient alors :
h i
Ibj = bbj bbbj t1 =2 (T (k + 1)) (3.45)
Intervalles de con…ance asymptotiques
Lorsque T ! 1, la loi de Student tend vers la loi normale, on aboutit à

l’expression de l’intervalle de con…ance asymptotique :
h i
b
Ibj = bj bbbj N1 =2 (3.46)
Intervalles de con…ance pour une combinaison linéaire de coe¢cients
L’intervalle de con…ance à distance …nie pour une combinaison linéaire de

coe¢cients Lb est donné par :
h i
b
ILb = Lb bLbb t1 =2 (T (k + 1)) (3.47)
q
où bLbb = b2u L (X> X) 1 L> . L est un vecteur comportant des constantes
et de dimension (1; k + 1). Quant à l’intervalle de con…ance asymptotique, il
correspond à :
h i
ILb = Lbb b b N1 =2 (3.48)
Lb
b est obtenu à partir de :

où l’écart-type estimé bLbb de la combinaison linéaire Lb
h i h i >
Vb Lb b = b 2 b = LV
b b b L
Lb
h i
b
or V b b =b2 X> X 1 , donc :
u
q
1 >
bLbb = bu L X X L ) bLbb = bu L (X> X) 1 L>
2 2 >
(3.49)
3.8.2 Tests d’hypothèses
1 - H0 : bj = b0j contre H1 : bj 6= b0j au seuil % =) Test bilatéral

2 - H0 : b j b0j contre H1 : bj > b0j au seuil %
=) Tests unilatéraux
3 - H0 : b j b0j contre H1 : bj < b0j au seuil %

h i
1- bbj 2 b0 ^bbj t1 =2 (T (k + 1)) ;b0j + ^bbj t1 =2 (T (k + 1))
j
b
bj b0j
ou tc = ^ bb 2 t1 =2 (T (k + 1)) ;t1 =2 (T (k + 1))
j
h i b
bbj 2 bj b0j
2- 1;b0j + ^bbj t1 (T (k + 1)) ou tc = ^ bb 2 [ 1;t1 (T (k + 1))]
j
h i b
bbj 2 b0 bj b0j
3- j ^bbj t1 (T (k + 1)) ; + 1 ou tc = ^ bb 2 [ t1 (T (k + 1)) ; + 1]
j

Région critique
i h i h
1- bbj 2 1;b0j ^bbj t1 =2 (T (k + 1)) ou bbj 2 b0j + ^bbj t1 =2 (T (k + 1)) ; + 1
b
bj b0j b
bj b0j
ou tc = ^ bb 2 1; t1 =2 (T (k + 1)) ou tc = ^ bb 2 t1 =2 (T (k + 1)) ; + 1
j j
i h
2- bbj 2 b0 + ^b t1 (T (k + 1)) ; + 1
j bj
b
bj b0j
ou tc = ^ bb 2 ]t1 (T (k + 1)) ; + 1[
j
i h
3- bbj 2 1;b0j ^bbj t1 (T (k + 1))
b
bj b0j
ou tc = ^ bb 2 ] 1; t1 (T (k + 1))[
j
Remarque : Lorsque le nombre d’observations tend vers l’in…ni alors la loi de Student converge vers une
loi normale. Les valeurs des statistiques théoriques sont alors celles données par la loi normale.
Une façon plus conviviale et strictement équivalente d’exprimer les régions de

non-rejet et critique de l’hypothèse nulle est donnée dans le tableau 3.2.
Non-rejet de l’hypothèse nulle Hypothèse nulle rejetée

Région de non-rejet Région critique
b
bj b0j b
bj b0j
1- jtc j = ^ bb t1 =2 (T (k + 1)) jtc j = ^ bb > t1 =2 (T (k + 1))
j j
b
bj b0j b
bj b0j
2- tc = ^ bb t1 (T (k + 1)) tc = ^ bb > t1 (T (k + 1))
j j
b
bj b0j b
bj b0j
3- tc = ^ bb t1 (T (k + 1)) tc = ^ bb < t1 (T (k + 1))
j j
On peut également tester des combinaisons linéaires, il est nécessaire de remplacer

bbj par Lb
b et bb par b b .
bj Lb
3.8.3 Inférence et analyse de la variance
Comme pour le modèle de régression simple, sur la base des sommes des carrés
(SCT, SCE et SCR), il est possible de réaliser le test suivant :
H0 : b1 = b 2 = = bk = 0 contre H1 : 9bj 6= 0; j = 1:::; k
Sous l’hypothèse H0 , le modèle (3.1) s’écrit :
y t = b0 + u t t = 1; :::; T
On peut alors montrer que les espérances des sommes SCT, SCE et SCR sont égales
à:
E [SCT] = (T 1) 2u ) E SCT
T 1
= 2u
E [SCE] = k 2u ) E h SCE
k i = u
2
2 SCR 2
E [SCR] = (T (k + 1)) u )E T (k+1)
= u
On en déduit des estimateurs sans biais de 2

u :
P
T P
T P
T
(yt y)2 (b
yt y)2 u2t
t=1 t=1 t=1
CMSCT = , CMSCE = et CMSCR = (3.50)
T 1 k T (k + 1)
Le dernier estimateur correspond à l’estimateur b2u des MCO de la variance des

perturbations. Il présente l’avantage de rester sans biais même si H0 n’est pas
véri…ée (à l’inverse des deux autres). Lorsque l’hypothèse H0 est satisfaite, les
quantités (3.50) suivent des lois du khi-deux à (T 1), k et (T (k + 1)) degrés
de liberté. De plus, les quantités (SCE= 2u ) et (SCR= 2u ) sont indépendantes. Il en
découle que, sous l’hypothèse H0 , la statistique :
SCE
k 2u SCE T (k + 1) CMSCE
Fc = SCR
= = F (k; T (k + 1)) (3.51)
(T (k+1)) 2 SCR k CMSCR
u
Cette statistique suit une loi de Fisher à (k; T (k + 1)) degrés de liberté. Si la
statistique calculée Fc est supérieure à la statistique théorique F (k; T (k + 1)) au
seuil de %, alors on rejette l’hypothèse H0 contre l’hypothèse alternative H1 au
seuil de %. Cette procédure est appelée analyse de la variance. Les résultats sont
généralement présentés dans un tableau.
Tableau 3.3 : Présentation des résultats de l’analyse de la variance

pour le modèle de régression multiple
Source de variation SC dl CM Fc
CM S C E
X SCE k CMSCE = SCE
k
SCE
SCR
T (k+1)
k = CM S C R
Résidu SCR T (k + 1) CMSCR = T SCR
(k+1)
Total SCT T 1 CMSCT = TSCT1
Une autre façon d’écrire la statistique de Fisher Fc est de l’exprimer en fonction

du coe¢cient de détermination. En e¤et, on sait d’après (3.17) que :
SCR SCE
R2 = 1 =
SCT SCT
il vient
SCR
1 R2 =
SCT
En reprenant l’expression (3.51), on obtient :

R2 T (k + 1)
Fc = F (k; T (k + 1))
1 R2 k
3.9 Prévision
Après avoir estimé le modèle (3.3), on peut souhaiter l’utiliser pour faire de la
prévision. En supposant qu’il reste valide en T + 1, que la perturbation uT +1 ait les
mêmes propriétés que les perturbations u1 ; : : : ; uT et que l’on connaisse le vecteur
des valeurs des variables explicatives en T + 1, X> T +1 , on peut prévoir y
bT +1 par :
ybT +1 = X> b (3.52)

T +1 b
b est l’estimateur des MCO de b.

où b
3.9.1 ybT +1 est un prédicteur sans biais de yT +1
Pour que ybT +1 soit un prédicteur sans biais de yT +1 , il faut que :

E [b
yT +1 yT +1 ] = 0
En remplaçant ybT +1 et yT +1 par leurs expressions, on obtient :
h i
E [b
yT +1 yT +1 ] = E X> b X> uT +1
T +1 b T +1 b
h i
= X> b
T +1 E b b E [uT +1 ]
= 0
h i h i
b
puisque E b b = b) et E [uT +1 ] = 0.
b = 0 (car E b
3.9.2 Son erreur de prévision à la plus faible variance

Soit y~T +1 un prédicteur linéaire sans biais de yT +1 . Son erreur de prévision u~T +1 est
dé…nie par :
u~T +1 = yT +1 y~T +1
La variance de u~T +1 est donnée par :
2 2
V [~
uT +1 ] = E[(~
yT +1 X>
T +1 b) ] + u
car la covariance est nulle (E y~T +1 X> T +1 b uT +1 ). En e¤et y

bT +1 ne dépend
que des observations (y1 ,..., yT ) et est donc sans corrélation avec uT +1 puisque les
perturbations (u1 ,..., uT ) sont non corrélées avec uT +1 . D’après le théorème de
Gauss-Markov, le prédicteur linéaire sans biais qui a la plus petite variance est
donné par :
ybT +1 = X> b
T +1 b
Compte tenu du caractère aléatoire de yT +1 , la précision de y^T +1 est fournie par :

h 1
i
2 2
E (b
yT +1 yT +1 ) = u X>
T +1
>
X X XT +1 + 1 (3.53)
L’intervalle de con…ance de la prévision à distance …nie est donné par :
q
1
IyT +1 = ybT +1 bu t1 =2 (T (k + 1)) X> >
T +1 (X X) XT +1 + 1 (3.54)
et asymptotiquement par :
q
1
IyT +1 = ybT +1 b u N1 =2 X> >
T +1 (X X) XT +1 + 1 (3.55)
/
WWWWWWWWWWWWWWWWWWWWWWWWWW
( #
* $
0 1 & 0
! $ $ & % "! ! % O % ! +
6 6 $ $ O
' & ( " $ # "/ (#

O
)* " # "/ )#
* ! 6 !
: : :
:
' ( ( "/ ,#
:
:
> $ $ O
!
"/ /#
/2
&
% &
% ' & ( P
%
1 $
(4(
$
% & +
%
! $
! + & % $
0 1
5 # 1 . &7 0 (
( # #
5 5 ! &7
* 0 1 ", .# *
& ' & '

& "#$ & %
& '
& %
& %
& '
& "#$ % "/ 2#
1 $ $ & % !
0 1 * "#$
5 5 ! ( &7
# " 1(
= G !
& ' ) & ' & ' *

' "#$ & "#$ & "#$ "#$ & "#$
) * & '
& "#$ "#$ $ & "#$
) *
&
& '
&
$
& %
%
( "/ 4#
* ! 6 ! "#$
& '
' "#$ ( "/ -#
& '
' "#$ (
> $ & 0 1 $
$ O ! 6
! C "/ -#
$ $
! + O
! = G
! ! ! 6 ! "#$
> + & % D $
0 1
5 5 ! &7 #
= G & & ! + 3
0 1
5 # , # 0 &7
5 5 "#$ "
&
%
$
= G C $ 0 1 !
! $ ! $ $ 1
& "#$
' "#$
3 $ "#$ ! ! $
"#$
5 5 "#$ , # 0
; 6 0 1 ! !
"#$ (
! ! 6 ! $
& '
' "#$ (
> + & 0 1 !
$ <
N ! !
! 6 ! $
5 ! &7 # 0 1 >
= G $ 6! & "/ /#
( 1 (
(
"/ .#
$
= ! $
$ 0 1/4 ", .#
5 # ( &7
5 5 ! &7 (
= G $ ( "#$ !
0 1
& ( "#$ ( (
5 : % # $ ' ( "#$
&! D # +
(
& ( "#$
( (
?# " 0 3 &#
+
& ( "#$ (
& ( "#$ ( 8 #( "#$

( '
5 5 ! &7 ( "
! $
( "#$ (
> $ ! 6 ! "#$
( "#$
/7
$$
! 6 !
$
& '
' "#$ ( "#$ "/ 7#
! (
!
5 ! " 6 &A8
* $ ! $
! & " O
# 0 1
5 5 9 .
= $ $ & &
"#$ T*B= ! & "/ /#
$ & + ! + & > !
$
"/ (:#
! + &
% &
% ' (
%
% & +
%
* $
' " # <
% & &
% ' ' (
%
% & +
%
E! $ $'
3 & % $
"/ ((#
$ + !
"/ ()#
1 $ ! +
= K "/ (:# !
"/ (,#
"/ (/#
! 9
& "/ (/# ! + & & <
0 1 $ & "/ (/#
"#& "/ (2#
"0 9#
1 $ Y 0 1
& "/ (/#
= $ 0 9
" #
.
.
"/ (4#
= $ & ! (2
!
.
"#& "/ (-#
& $ 3
0 1 $ $
$)
M 6 0 9 "/ (2# <

! + ! $ + $
& $ $ Y !
.
"/ (.#
5 5 # 0 &A
* ! A & "/ (/#
"#& "/ (7#

"#&
"/ ):#
! $
! + !
I
I
< ! A
! ! ! !
! " # A A $
0 1
/-
& "/ /#
& "/ (/# = G
$ !
.
M $ ! !
!
$-
"/ )(#
3 ' & "/ /#

0 9 = G & "/ (-# $
!
! . "#& 0' & ! !

! . . >
0 9$ 3
$
* "#& + & $ & $ %

! & "#&
, , ! "#&
= + C A $
1 ! $ & "/ (/#
$ $ 0 1" $ 0 9#
$ & < '
& C
$ ! $
&
5$ # 1 . &A
* "#& + !
! $ $
+ " + # $
! 0 1 ! ! $ &
!
P $ & !
$ ! 0 9 G " O
! 6 ! # &
'+
5$5 ! &A
& '
* 0 9 & "#& =
!
& ' & '
& "#& & %
& '
& %
& %
& '
& "#& % "/ ))#
* "#& 5
0 1 $ & % !
5$5 ! ( &A
# (
3 + ! 6 !
& ' ) & ' & ' *

' "#& & "#& & "#& "#& & "#&
& ' & '

& "#& $ & "#& !
& '
"#& & "#& "#&
& ' ) *
' "#& &
& '
&
& %
%
'
(
( "/ ),#
5'
5 & & ! +
0 9 <
=
$ 0 1/.
5) # , # 0 &A
5)5 "#& "

&
% "/ )/#
= G C $ "#& !
! $ ! $ $ 1
& "#&
' "#&
3 $ "#& ! ! $
"#&
5)5 "#& , # 0
& % % % !
$
"#& ( "/ )2#
= > S $ (7,/6,2 &

P
'
5- # &A ,#
#
* $ 0 9 &
$ $ $
0
$ !
& $ 0 9 !
% ( "/ )4#
5-5 ! &A
& % % % 0 9
"#& ( "/ )-#
5-5 ! > 0 1 &A

= 6! "/ .#
( !
. "/ ).#
.
.
(
.
. . "/ )7#
( .
.
( .
(
.
* $ "/ ).# & $

$ $ "/ (-# $
"#&
." "#& 3 $
"#& A $ 08I
! $ C >
+ $ $ "#&
!
* & $ "/ )7# ! !
'
.
(
.
( ." ."
/7
* 08 ! .
(
(
5-5 ! "#& :
= G ! 6 ! @< ? $
+ !
) *
&
! ( > & $ $
& '
* "#& C $ ' "#& (
5 + ! # ( #
&A
* ! 6 ! 0 9 !
( $ !
!
5 +5 9 .
* ( "#& ! (
( "#&
/ (: !
'
"#& "#&
"#& "#&
. .
"/ ,:#
! . "#&
5 +5 ( "#& (
2:
1 R $
& ( "#& ( "/ ,(#
5 +5 ( "#& " (
& % % % !
$ ( "#& !
(
( "#& (
5 +5 ! ( "#& 1 # 2 1
"
& % % % ( "#& &
2
( "#&
2
(
!
(
' ( "#& "/ ,)#
/(
'
5 +5 ! "#& ( "#& #
& % % % "#& ( "#&

2(
5 ! 0 " 6 &BA8
< 0
$
1 * ! 6
! $ &
; ; ; &
; &
' (
;
; &
$ &
F $ !
& & " &
+ # >+ C
$ A $ 1 ! $
!
& ! '
"/ ,,#
! ' K !
9 & - ' !
! 6 !
"/ ,/#
$ 0 ;9 ( ! $
1 ! /,
'$
& "/ ,,# * 2 4

P ! 6 !
<
0 ;9
5 5 9 .
> & ! !
0 ;9 (
"# & "/ ,2#
.
. .
.
( "# & "/ ,4#
P.
. "# & 0 1 $
&
"/ ,-#
$ !
!
5 5 ! ,#
#
& & &

! + = G
& '
& & $ I
& '
' ' "
* 0 ;9
5 # 1 . "# &
E! $ ''
5 5 "# & "

= 0 ;9 !
& ' ) *
& "# & & %
) *
& %
) *
&
) *
& &
= G $ " # 0 1
"
# 3 $
) *
&
& '
& "# & "/ ,.#
5 - & & ' $

' ( ># & "# & 0 %
C 012=F33
> ! !
$ $ !
0 ;9 & +$
$ $
5 5 ! ( "# & #
* ! 6 !
')
& ' ) *
' "# & '
) *
' "/ ,7#
&
+ ! 6 !
0 ;9
5 5 ! "# & &BA #
0' !
5 # , # 0 "# & ( "# &
5 5 ! "# & &BA "

& % % %
% "/ /:#
% "/ /(#
* "# & !
"# &
5 5 ! "
& % % % % &
% "/ /)#
! $
'-
"# & ( "/ /,#
* 0 ;9 $ $ !
0 9 $ $ C
5 5 ( "# & " (
&
% "/ //#
* ( "# & ( !
> ! 6 !
! 0 9
+ =
$ 0 ;9 $ 0 1 =
! 6 ! 0 ;9 +
+ N !
! +
= $ $ $ &
2)
" ! C # <
C
! = + $ $ !
0 ;9 & !
? 0 1 0 9 0 ;9
0 1 0 9 0 ;9
+ T " #
F C =C 8
! ! !
> C > C > C
3 G "(74)# - "(7-4#
)+
5
= & "/ /# $
! ' & !
"/ /2#
!
& "/ /4#
' ( "/ /-#
$ !
)* ( "/ /.#
* & !
B '
. "/ /7#
P 3 !
!
(
! !
$
.
)
"#& "#& "/ 2:#
< $ !
A "#& !
! '
& .
&
&
&
$
!
& '
' . & . & . . & .
& '
& . .
& '
&
& '
&
&
& & & &
( ( ( (
' . ( ( ( "/ 2(#
Chapitre 5
——————————————————————————
Autocorrélation des perturbations
Dans ce cas, l’hypothèse H2 du modèle de régression multiple n’est pas respectée

:
2
V [u] 6= u IT (5.1)
Plus concrètement, cela signi…e que les covariances entre les perturbations ne sont
pas toutes nulles. Autrement dit, on a :
2
V [u] = u (5.2)
où la matrice prend la forme45
0 1
1 ! 12 ! 1T
B ... .. C
B 1 . C
=B ... C 6= IT
@ !T 1T
A
1
Si l’on étudie la production d’une …rme sur données mensuelles, par
l’intermédiaire d’une fonction de production de Cobb-Douglas, l’absence
d’autocorrélation des perturbations sous-entend, par exemple, que la panne de
plusieurs machines à un e¤et sur la production du mois, mais n’a¤ecte pas celle
relative aux autres mois.
Plus généralement, l’autocorrélation des perturbations se manifeste surtout
sur séries chronologiques. Comme cela a déjà été dit, la perturbation traduit
notamment l’omission de variables autres que les variables explicatives du modèle.
Or, les variables économiques progressent selon des trajectoires qui sont fortement
dépendantes des évènements passés. Cela sous-entend que les observations
temporelles d’une variable économique (tel que l’investissement) sont souvent
fortement corrélées entre elles (surtout lorsque l’on travaille sur les niveaux). De
ce constat, il en découle que les perturbations peuvent être autocorrélées.
45
Cependant, on peut très bien envisager des cas où les éléments de la diagonale ne seraient pas forcément
égaux à 1.
189
5.1 Les principales formes d’autocorrélation des perturbations

S’intéresser à di¤érentes formes d’autocorrélation des perturbations permet de
déterminer la structure exacte de la matrice .
5.1.1 Autocorrélation à l’ordre un des perturbations
La relation reliant les perturbations est alors :
ut = ut 1 + "t t = 1; : : : ; T j j<1 (5.3)
où "t i:i:d: (0; 2" ), E ["t "s ] = 0; 8t 6= s et E ["t ut 1 ] = 0, 8t. On parle de processus
AR(1). La condition j j < 1 permet au processus d’être stationnaire au second
ordre. En développant l’équation (5.3) de façon récursive, il vient :
1
X
j
ut = "t j (5.4)
j=0
comme j j < 1, les perturbations "t j ont un poids décroissant dans le temps.
2
" 2
V [ut ] = 2
= u (5.5)
1
2
s " s 2
Cov [ut ; ut s ] = 2
= u (5.6)
1
Si, par exemple s = 1, alors l’expression de la covariance s’écrit :
2 Cov [ut ; ut 1 ]
Cov [ut ; ut 1 ] = u ) =q q
E [ut ] E u2t 1
2
| {z }| {z }
u u
s’interprète donc comme le coe¢cient de corrélation entre les deux perturbations

ut et ut 1 . Ceci permet d’obtenir l’expression de la matrice de variances-covariances
5. Autocorrélation des perturbations 191
des perturbations, soit :
0 1
E [u21 ] E [u1 u2 ] E [u1 uT ]
B E [u22 ] C
E [u2 uT ]
B .. C
B .. C
V [u] = B . . C
B .. C
@ . E [uT 1 uT ] A
E [u2T ]
0 T 1
1
1
B .. C
B 1 . T 2 C
B
2B .. .. .. .. .. C
= uB . . . . . C= 2
(5.7)
C u
B .. .. .. C
@ . . . A
T 1 T 2
1
D’après l’expression de cette matrice, on constate que les corrélations sont d’autant
plus faibles qu’elles sont éloignées dans le temps.
5.1.2 Autocorrélation à l’ordre deux des perturbations
Dans ce cas, le processus engendrant les perturbations exprime une dépendance à
deux étapes, soit :
ut = 1 ut 1 + 2 ut 2 + "t t = 1; : : : ; T (5.8)
où "t i:i:d: (0; 2" ), E ["t "s ] = 0; 8t 6= s et E ["t ut 1 ] = E ["t ut 2 ] = 0, 8t. On parle
de processus AR(2). Ici, les conditions de stationnarité sont données par :
1 + 2 < 1
2 1 < 1
1 < 2<1
Les variances et les covariances associées à ce processus sont :

2
(1 2) " 2
V [ut ] = 2 2
= u = 0 (5.9)
(1 + 2 ) (1 2) 1
2
1 u
Cov [ut ; ut 1 ] = = 1 (5.10)
1 2
2 2
2 1 u
Cov [ut ; ut 2 ] = 2 u + = 2 (5.11)
1 2
Cov [ut ; ut s ] = 1 s 1+ 2 s 2 = s s>2 (5.12)
Après quelques calculs, on obtient alors la matrice 1
, soit :
0 1
1 1 2 0 0
B .. .. .. C
B 1 1+ 1 2
1+ 1 2 . . . C
B . . C
B 1 + 21 .. .. C
1+ 1 2 0
1
=B
B
2
... ... .. ..
C
C (5.13)
B 0 . . 2 C
B . . . . C
@ .. .. .. .. 1 + 2 A
1 1
0 0 2 1 1
et
0 1
"= u 0 0
B p p ... ..C
B 1 1 2
1 1 2
2 .C
B .. C
..
B 1 . C
.
1=2
=B
B
2
..
1
.. ... ...
C
..
C (5.14)
B 0 . . C.
B .. .. .. .. C
@ . . . . 1 0 A
0 0 2 1 1
2 1=2
où "= u = (1 + 2) (1 2)
2
1 = (1 2) et 1 = 1 = (1 2 ).
5.1.3 Autocorrélation à l’ordre p des perturbations

Supposer que les perturbations sont autocorrélées à l’ordre un ou à l’ordre deux
peut, dans certains cas, s’avérer être une hypothèse très restrictive. Il peut être
préférable d’élargir le champ des possibles en envisageant un processus plus général
tel qu’un processus autorégressif à l’ordre p (i. e. AR (p)), soit :
2
ut = 1 ut 1 + 2 ut 2 + + p ut p + "t "t i:i:d: 0; " (5.15)
où E ["t us ] = 0, 8t; s. Dans ce cas, les conditions de stationnarité sont plus

compliquées à obtenir. Il faut que les racines du polynôme caractéristique
en z :
2 p
1 1 2 p =0
soient de module supérieur à 1.
Il existe encore d’autres processus pouvant caractériser l’autocorrélation des
perturbations. En particulier, les processus de moyenne mobile (MA(q)) ou les
processus autorégressif de moyenne mobile (ARMA(p,q)). Pour plus de détails, on
renvoie à Bresson et Pirotte (1995), Fomby, Hill et Johnson (1984).
Néanmoins, dans ce qui suit, on se limite au traitement de l’autocorrélation
à l’ordre un très courant dans la dimension temporelle. L’intérêt de retenir un
tel processus est qu’il est à la fois simple et souvent pertinent dans le processus
engendrant les perturbations. D’autre part, il permet d’obtenir des estimations plus
e¢caces que celles fournies par les MCO.
5.2 Propriétés statistiques de l’estimateur des MCO

À distance …nie, ces propriétés peuvent se résumer par les trois points suivants46 :
b M CO est un estimateur sans biais de b;
b
b M CO n’est plus un estimateur à variance minimale (i. e. il n’est plus BLUE
b
puisque H2 n’est pas respectée);
la bonne matrice de variances-covariances de l’estimateur des MCO est donnée
par :
h i 1 1
b
V bM CO = 2u X> X X> X X> X
au lieu de
h i 1
V bb M CO = 2
X> X
u
Ainsi, si l’inférence statistique est e¤ectuée sur la base de la mauvaise matrice

de variances-covariances de l’estimateur des MCO, tous les tests et intervalles de
con…ance réalisés seront faux. D’autre part, on rappelle que si asymptotiquement
l’estimateur des MCO est convergent, il n’est pas e¢cace.
Newey et West (1987) ont proposé un estimateur convergent de la matrice
de variances-covariances de l’estimateur des MCO lorsque la structure de
l’autocorrélation est inconnue. Dans le cas où la structure de l’autocorrélation
46
Pour plus de détails, on renvoie au chapitre précédent.
est connue, il su¢t simplement d’avoir un estimateur convergent de la matrice

pour pouvoir estimer la bonne matrice de variances-covariances des MCO.
5.3 Détection de l’autocorrélation des perturbations

Au regard des conséquences de l’autocorrélation des perturbations sur les propriétés
de l’estimateur des MCO, il importe de savoir si un tel problème est sous-jacent.
Pour cela, des tests spéci…ques ont été développés qui permettent de considérer
di¤érentes structures d’autocorrélation des perturbations.
5.3.1 Le test de Durbin-Watson
Comme cela a déjà été évoqué auparavant, un cas fréquemment rencontré en
économie appliquée est l’autocorrélation à l’ordre un des perturbations (processus
AR(1) (5.3)). Deux auteurs, Durbin et Watson (1950, 1951), ont construit un
test pour tester l’absence d’autocorrélation (hypothèse H0 : = 0 ce qui implique
ut = "t ). Il repose sur la statistique suivante :
P
T
(b
ut bt 1 )2
u
t=2
DW = (5.16)
P
T
b2t
u
t=1
où les u
bt sont les résidus des MCO du modèle (4.4). L’intérêt de cette statistique
est qu’elle est liée asymptotiquement au coe¢cient de corrélation du modèle (5.3),
par la relation suivante :
plimDW = 2 (1 )
T !1
En e¤et :
2 3
P
T
6 t=2 (b
ut bt 1 )2 7
u
plimDW = plim 6
4
7
5
T !1 T !1 P
T
b2t
u
t=1
2 3
1
P
T
1
P
T
2
P
T
6T b2t
u + T
b2t 1
u T
u
bt u
bt 1
7
= plim 6
4
t=2 t=2 t=2 7
5
T !1 1
P
T
T
b2t
u
t=1
or
T T T
1X 2 1X 2 1X 2
plim bt = plim
u u
bt 1 = plim u
bt
T !1 T t=2 T !1 T
t=2
T !1 T
t=1
ce qui revient à dire que la variance des perturbations est constante 8t (processus
stationnaire au second ordre), et :
2 T 3
1
P
u
b u
b
6 T t=2 t t 1 7
plim 6
4
7=
5
T !1 1
P
T
2
T
u
b t
t=1
b = 0, donc :
car u
plimDW = 1 + 1 2
T !1
= 2 (1 )
À partir de cette expression, on peut en déduire un estimateur convergent du
coe¢cient de corrélation , soit :
DW
b=1 (5.17)
2
Plusieurs cas extrêmes sont possibles :
b = 0 ! DW = 2, absence d’autocorrélation des perturbations;
b ' 1 ! DW ' 0, autocorrélation positive des perturbations;
b ' 1 ! DW ' 4, autocorrélation négative des perturbations.
Plus généralement, a priori, trois cas sont à distinguer :
DW < 2, autocorrélation positive des perturbations;
DW > 2, autocorrélation négative des perturbations;
DW ' 2, absence d’autocorrélation des perturbations.
La di¢culté de ce test provient du fait que la statistique de test DW repose sur
les résidus u
bt des MCO et non sur les perturbations ut . Ceci a pour conséquence que
la loi de probabilité de la statistique DW dépend des valeurs prises par les variables
explicatives du modèle. En e¤et, on peut écrire :
b > Ab
u u
DW = (5.18)
b u
u > b
où la matrice A est dé…nie de la façon suivante :

0 1
1 1 0 0
B . .. C
B 1 2 1 .. . C
B . . C
A=B B 0 1 .. .. 0 C C (5.19)
B . . C
@ .. .. ... 2 1 A
0 0 1 1
Or dans le chapitre 3, il a été montré que u
b = My = Mu avec M =
1
IT X X X>
X , par conséquent, on a :
>
u> MAMu
DW = (5.20)
u> Mu
puisque la matrice M est idempotente. On constate que, A et M étant symétriques,
MAM est symétrique. De plus, M étant idempotente, MAM et M commutent.
En appliquant des résultats de la bidiagonalisation, on peut …nalement écrire :
w> w
DW =
w> w
où
0 1
1 0 0
B ... .. C
B 0 2 . C
B .. ... ... ... .. C
=B
B . . C
C
B .. ... ... C
@ . 0 A
0 0 T (k+1)
et w N (0; 1), les perturbations u étant supposées normales. Les 1 ; : : : ; T (k+1)

sont les valeurs propres non nulles de MAM (fonction des X donc des valeurs
observées des variables explicatives). Par conséquent, la distribution exacte de la
statistique DW est fonction de la matrice des variables explicatives X. Le problème
posé est que même sous l’hypothèse nulle de non autocorrélation, la loi de probabilité
d de DW dépend des valeurs propres de la matrice X des observations. Bien qu’il
soit possible de déterminer numériquement cette loi de probabilité, cette procédure
est extrêmement lourde et complexe. En fait, Durbin et Watson ont montré que sous
l’hypothèse H0 : = 0, il existe deux statistiques dl et ds , qui encadrent toujours
DW :
dl DW ds
et dont les lois de probabilité ne dépendent que du nombre T d’observations et du

nombre k de variables explicatives (hors constante). Les paramètres T et k ont
l’avantage d’être connus. La loi de probabilité d de DW (inconnue) se trouve donc
encadrée par celles, connues, de dl et ds .
Le cas en pratique le plus courant consiste à tester l’hypothèse de non
autocorrélation (H0 ) contre l’hypothèse alternative d’autocorrélation positive (H1 )
au seuil %, soit :
H0 : = 0 contre H1 : > 0 au seuil %
A…n d’e¤ectuer ce test, on utilise les lois de dl et ds . Si l’on connaissait la loi

de probabilité d de DW , on pourrait déterminer la valeur critique d au seuil de
% permettant de conclure au rejet ou au non-rejet de l’hypothèse H0 de non
autocorrélation :
dans le cas où DW < d , on refuserait H0 ;
dans le cas où DW d , on ne rejetterait pas H0 .
Ne connaissant pas d , on détermine les valeurs critiques dl et ds à partir des lois
de probabilité des statistiques dl et ds . Compte tenu de ce qui précède, on a :
dl d ds
Ceci aboutit au problème de la zone inconcluse47 du test de Durbin-Watson. Son

amplitude dl ds est d’autant plus importante que le nombre T d’observations est
faible et que le nombre de variables explicatives est important. Pour surmonter cette
di¢culté, la pratique consiste à inclure la zone inconclusive dans la zone de rejet de
l’hypothèse H0 . La justi…cation en est double :
d’une part, Theil et Nagar (1961) ont montré que si les variables explicatives
sont fortement autocorrélées positivement, ce qui est le cas de la plupart des
séries économiques, la loi de ds est proche de celle de DW et par conséquent ds
est proche de d ;
d’autre part, cette stratégie consiste à se couvrir contre le risque de ne pas rejeter
à tort l’absence d’autocorrélation;
47
De nombreuses procédures ont été proposées pour surmonter le problème de la zone inconclusive, se
reporter à Fomby, Hill et Johnson (1984).
H0 refusée Zone inconclusive H0 non-rejetée Zone inconclusive H0 refusée

>0 | {z } =0 | {z } <0
| {z } | {z } | {z }
0 dl ds 2 4 ds 4 dl 4
Tableau 5.1 : Tests de Durbin-Watson
1 - H0 : = 0 contre H1 : 6= 0 au seuil %
2 - H0 : = 0 contre H1 : > 0 au seuil %
3 - H0 : = 0 contre H1 : < 0 au seuil %

1- si ds < DW < 4 ds : on ne rejette pas H0 contre H1 au seuil % ! MCO
2 2
2- si DW ds : on ne rejette pas H0 contre H1 au seuil % ! MCO

3- si DW 4 ds : on ne rejette pas H0 contre H1 au seuil % ! MCO
Région critique
1- si DW < dl : on rejette H0 contre H1 au seuil % ! MCQG
2
si dl < DW < ds : il y a doute au seuil % ! MCQG
2 2
si 4 ds < DW < 4 dl : il y a doute au seuil % ! MCQG
2 2
si DW > 4 dl : on rejette H0 contre H1 au seuil % ! MCQG
2
2- si dl < DW < ds : il y a doute au seuil % ! MCQG

si DW dl ds : on rejette H0 contre H1 au seuil % ! MCQG
3- si DW 4 dl : on rejette H0 contre H1 au seuil % ! MCQG
si 4 ds DW 4 dl : il y a doute au seuil % ! MCQG
Les valeurs théoriques renvoient aux tabulations spéci…ques de Durbin-Watson

(1951). La régression doit absolument comporter un terme constant. Si tel n’est
pas le cas, il convient de se reporter aux tabulations de Farebrother (1980). Par
ailleurs, les valeurs tabulées de Durbin-Watson ont été obtenues sous l’hypothèse
que la matrice X est non aléatoire. De fait, ce test n’est pas applicable si une
variable explicative est stochastique (par exemple si des retards sur la variable
expliquée …gurent parmi les régresseurs). Savin et White (1978) ont développé
plusieurs statistiques dans le cas d’observations manquantes. Le schéma ci-avant et
le tableau 5.1 permettent de synthétiser les règles à suivre dans la mise en œuvre
du test de Durbin-Watson.
5.3.2 Le test de Box-Pierce

Le test précédent repose sur une hypothèse alternative (H1 ) spéci…que. Il peut
être souhaitable, non seulement de tester l’absence d’autocorrélation selon une
structure plus importante, mais également sous une hypothèse alternative moins
restrictive. En 1970, Box et Pierce ont développé un tel test. Il est appelé test du
«portemanteau» (fourre-tout en anglais) et repose sur la statistique suivante :
M
X
Q=T b2j (b
ut )
j=1
où bj (b
ut ) est le coe¢cient d’autocorrélation d’ordre j des résidus des MCO :
P
T
u
bt u
bt j
t=j+1
bj (b
ut ) =
P
T
b2t
u
t=1
Sous l’hypothèse nulle (absence d’autocorrélation, H0 : 1 = 2 = = M = 0),

lorsque le nombre T d’observations tend vers l’in…ni, la statistique Q suit une loi du
khi-deux à M degrés de liberté :
2
Q ! (M )
T !1
p
avec M = min T =2; 3 T . Si la statistique Q est supérieure (>) à la valeur critique
du khi-deux à M degrés de liberté au seuil de %, on rejette H0 , les perturbations
sont autocorrélées. Le problème de ce test est que les propriétés à distance …nie
de la statistique restent, même pour T assez grand, assez di¤érentes des propriétés
asymptotiques. En 1978, Ljung et Box ont proposé une autre statistique de test
censée avoir de meilleures propriétés à distance …nie.
5.3.3 Le test de Ljung-Box
Leur test repose sur la statistique suivante :

M
X b2j (b
ut ) 2
Q = T (T + 2) (M )
j=1
T j
Cette statistique présente l’avantage d’être plus proche, à distance …nie, de la loi
du khi-deux. La règle de décision est identique à celle énoncée pour le test de
Box-Pierce.
Ces tests permettent la détection de l’autocorrélation, s’il en découle que les
perturbations sont autocorrélées. Il faut mettre en œuvre la procédure d’estimation
adéquate pour pouvoir par la suite réaliser une inférence statistique correcte.
Autrement dit, il est nécessaire de recourir à un estimateur de type MCG.
5.4 Estimateurs des MCG et des MCQG lorsque les perturbations suiv-
ent un processus AR(1)
5.4.1 L’estimateur des MCG

Dans le cas où les perturbations sont autocorrélées (i. e. H2 non véri…ée), le chapitre
4 a montré que le meilleur estimateur linéaire sans biais de b est l’estimateur des
MCG, soit :
1
b M CG = X>
b 1
X X> 1
y
avec comme matrice de variances-covariances

h i 1
b
V bM CG = 2u X> 1
X
Au début de ce chapitre, il a été vu que, dans le cas d’une autocorrélation à l’ordre

un des perturbations, la matrice prend la forme :
0 T 1
1
1
B ... T 2 C
B 1 C
B . . . . . C
= B ..
B .. .. .. .. C
C
B . . . C
@ . . . . . . A
T 1 T 2
1
En inversant cette matrice, il vient :

0 1
1 0 0
B .. .. .. C
B 1+ 2 . . . C
1 B B .. .. .. C
0 C
1
= 2 B 0 . . . C (5.21)
1 B . C
@ .. .. ..
. . 1+ 2 A
0 0 1
Il faut donc trouver une matrice H régulière, telle que :

2 1
1 = H> H
où H correspond à la matrice 1=2

. D’autre part, on a vu que l’estimateur
des MCG est équivalent à l’application de l’estimateur des MCO au modèle
transformé :
1=2 1=2 1=2
y= Xb + u
Dans le cas où les perturbations suivent un processus AR(1) et après quelques
calculs, la matrice 1=2
est donnée par :
0 p 1
1 2 0 0
B ... .. C
B
B 1 . C
C
1=2
=B ... ... . . . .. C (5.22)
B 0 . C
B .. .. .. .. C
@ . . . . 0 A
0 0 1
On a donc :
0 p 1 0 p 1 0 p 1
1 2y 1 2 X> 1 2u
1 1 1
B y2 y1 C B X> X > C B u2 u1 C
B C B 2 1 C B C
B .. C=B .. C b + B .. C (5.23)
@ . A @ . A @ . A
>
yT yT 1 XT X>T 1 uT uT 1
où X> t représente la t-ième ligne de la matrice des observations des k + 1 variables

explicatives. Le modèle (5.23) s’écrit encore :
0 p 1 0 p 1 0 p 1 0 p 1
1 2y 1 2 1 e>
2X
1 2u
1 1 1
B y y1 C C B C B e > e > C B C
B 2 B 1 C B X2 X1 Ce B u2 u1 C
B .. C = B .. C b0 + B .. Cb + B .. C
@ . A @ . A @ . A @ . A
yT yT 1 1 Xe> e>
X uT uT 1
T T 1
(5.24)
où Xe > représente la t-ième ligne de la matrice des observations des k variables

t
e = (b1 ; b2 ; :::; bk )> le vecteur des paramètres à estimer des k variables
explicatives et b
explicatives. A priori, on peut constater que le modèle transformé (5.24) ne
comporte plus de terme constant, ce qui n’est pas sans importance dans le calcul
du coe¢cient de détermination. En outre, le paramètre est inconnu. Il est donc

nécessaire de l’estimer. Ceci renvoie à l’estimateur des MCQG.
5.4.2 Les estimateurs MCQG
L’estimateur de Prais-Winsten (1954)

Cet estimateur est un estimateur en deux étapes :
estimation du modèle (4.4) par les MCO. On récupère les résidus associés à cette
régression et on calcule un estimateur convergent b de ;
substitution de par b dans le modèle (5.23) et application des MCO au modèle
ainsi transformé. Ceci permet d’obtenir l’estimateur des MCQG.
Cette méthode est, dans de nombreux logiciels, itérée. Dans ce cas, après
estimation des coe¢cients de b par les MCQG, on recalcule les résidus, puis on
réestime b, etc. Plusieurs critères d’arrêt sont possibles, par exemple :
le processus itératif peut être arrêté dès lors que la di¤érence entre les estimations
de de deux itérations successives est inférieure à un certain seuil;
la procédure peut être stoppée quand l’écart entre deux évaluations successives
de la somme des carrés des résidus (SCR) est inférieur à un seuil donné.
L’estimateur de Cochrane-Orcutt (1948)

La démarche associée à cette procédure d’estimation est identique à celle de Prais-
Winsten, la seule di¤érence réside dans la non prise en compte de la première
observation du modèle. Tout comme pour l’approche de Prais-Winsten, cette
méthode est souvent itérée.
L’estimateur de Hildreth et Lu (1960)

Cette méthode d’estimation est basée sur une procédure de balayage. Tout comme
la méthode de Cochrane-Orcutt, elle ne prend pas en compte la première observation.
La procédure est la suivante :
on dé…nit p valeurs i (i = 1; : : : ; p) dans l’intervalle [0; 1[ (dans le cas d’une
autocorrélation positive DW < 2, ce qui en pratique est souvent le cas. Sinon,
pour une autocorrélation négative DW > 2, on balaye sur l’intervalle ] 1; 0]);
on calcule les données transformées :

(i)
yt = yt i yt 1 t = 2; : : : ; T
(i)>
Xt = X>
t
>
i Xt 1 t = 2; : : : ; T
(i)
ut = ut i ut 1 t = 2; : : : ; T
pour chaque ensemble i de données transformées, on applique les MCO au modèle
transformé :
(i) (i)> (i)
yt = Xt b + ut t = 2; : : : ; T
puis on calcule la somme des carrés des résidus (SCRi );
on choisit comme estimateur b de , la valeur i qui rend minimale la somme des
carrés des résidus. À cette valeur correspond l’estimateur des MCQG.
L’estimateur du MV
Les méthodes précédentes ne supposent aucune hypothèse particulière sur la loi
suivie par les perturbations. Sous l’hypothèse de normalité des perturbations,
on peut estimer le modèle (4.4) et le modèle (5.23) par la méthode du
MV. Les estimations des paramètres b; b b et b2 sont alors convergentes et
u
asymptotiquement e¢caces.
La log-vraisemblance associée au modèle (4.4) sous l’hypothèse H2 s’écrit :
2 T T 2
log L(y1 ; y2 ; :::; yT ; b; u; ) = log 2 log u
2 2
1
(y X b)> (y X b) (5.25)
2 2u
Lorsque les perturbations suivent un processus AR(1), la log-vraisemblance peut
également s’écrire :
2 T T 2 1 2
log L(y1 ; y2 ; :::; yT ; b; "; ) = log 2 log " + log 1
2 2 2
1
(y X b)> (y X b) (5.26)
2 2"
Si le paramètre est connu, l’estimateur du MV de b est égal à celui des MCG. Le
problème ici est qu’il est inconnu. Finalement, on cherche à obtenir les estimateurs
e
e e 2 e
du MV b, e et e
e . Dans un premier temps, on détermine, en fonction de b
"
e et e
e,
l’estimateur du MV de ".
2
On obtient cet estimateur à partir de la condition du
premier ordre :
2
@ log L(y1 ; y2 ; :::; yT ; b; "; )
e
e
=0
@ 2" b=b
=ee
2 e2
" = e"
soit :
>
e 2 1 e
e e
e
e" = y X b y X b (5.27)
T
En remplaçant (5.27) dans la log-vraisemblance (5.26), on obtient la log-

vraisemblance concentrée :
>
T e
e e + 1 log 1
e
log Lc (y1 ; y2 ; :::; yT ; b; ) = C te y X b y X b 2
2 2
e
e et e
Par dé…nition, b e sont les solutions de :
M ax log Lc (y1 ; y2 ; :::; yT ; b; )

b;
Di¤érents algorithmes de résolution ont été proposés (Magnus (1978), Beach et

MacKinnon (1978)).
En toute généralité, on peut dire que les estimateurs de Prais-Winsten et du MV
sont à privilégier lorsque l’on souhaite estimer avec un nombre limité d’observations
(T < 30) un modèle dont les perturbations sont autocorrélées à l’ordre un (prise en
compte de la première observation).
5.5 Prévision
Dans le chapitre précédent, on a montré que le meilleur prédicteur linéaire sans biais
de yT +1 est donné par :
yeT +1 = X> b > 1 b M CG

T +1 bM CG + W y Xb
Dans le cas où les perturbations suivent un AR(1), on a :

0 1
1 0 0 0 1
B . ... .. C T
B 1 + 2 .. . C T 1
1 1 B B 0 .. .. .. C B
C et W = B
C
C
= 2 B . . . 0 C @ .. A
1 B . .. .. C .
@ .. . . 1+ 2 A
0 0 1
Donc cela donne :
yeT +1 = X> b (5.28)
T +1 bM CG + u
eT
avec u b
eT = yT X> T bM CG . Du fait de l’autocorrélation à l’ordre 1 des perturbations,
il est possible d’améliorer la prévision de yeT +1 en exploitant le lien entre uT +1 et uT .
En pratique, le paramètre n’étant pas connu, il n’est pas possible d’utiliser
l’estimateur des MCG et de raisonner par rapport au prédicteur (5.28). On doit
donc prévoir yT +1 par :
e
yeT +1 = X> b e (5.29)
T +1 bM CQG + bu
eT
b M CQG est l’estimateur des MCQG de b, b un estimateur convergent de
où b
e
et u b Malheureusement, dans ce cas, e
eT = yT X>T bM CQG . yeT +1 n’est plus,
a priori à distance …nie, le meilleur prédicteur linéaire sans biais de yT +1 .
Néanmoins, asymptotiquement, ce prédicteur devrait constituer en principe une
bonne approximation de yT +1 .
Chapitre 6
——————————————————————————
Hétéroscédasticité des perturbations
Comme dans le cas de l’autocorrélation des perturbations, c’est l’hypothèse H2 du

modèle de régression multiple qui n’est pas respectée :
0 1
! 11 0 0
B . .. C
2 2B ! 22 . . . C
V [u] = u = u B . C 6= 2u IT
@ .. 0 A
!T T
si les covariances entre les perturbations sont toujours supposées nulles (i. e. non
autocorrélées), ce sont les variances qui ne sont plus identiques 8t. Les sources de
l’hétéroscédasticité sont diverses :
le non respect de l’hypothèse H2 se véri…e surtout lorsque l’on travaille sur
des données en coupes transversales50 c’est-à-dire des observations constituées
d’individus (entreprises, ménages, régions, etc.), observés à un moment donné du
temps. Dans ce cas, l’hétéroscédasticité est le re‡et d’un e¤et taille. Dans la
dimension transversale, le modèle est indicé en i, soit :
yi = b0 + b1 x1i + b2 x2i + + bk xki + ui i = 1; : : : ; N (6.1)
l’hétéroscédasticité peut également résulter de processus d’agrégation51 ;
l’hétéroscédasticité est nettement moins présente sur séries chronologiques.
Cependant, il ne faut pas l’exclure totalement quand les variables sont marquées
par des tendances. Mais ceci sort du cadre d’un cours d’économétrie classique.
50
Elle se véri…e aussi lorsque l’on travaille sur données de panel puisque l’on combine les dimensions
tranversale (individuelle) et longitudinale (temporelle). Dans ce cas, on a d’ailleurs souvent non seulement
des problèmes d’hétéroscédasticité mais également d’autocorrélation des perturbations. Pour les surmonter,
il est nécessaire de les gérer simultanément (Baltagi (2001)).
51
Se reporter à l’exercice 6.1.
214
6. Hétéroscédasticité des perturbations 215
6.1 Propriétés statistiques de l’estimateur des MCO

Tout comme lorsque les perturbations sont autocorrélées, à distance …nie, les
propriétés de l’estimateur des MCO peuvent se résumer en trois points52 :
b M CO est un estimateur sans biais de b;
b
b M CO n’est plus un estimateur à variance minimale (i. e. il n’est plus BLUE
b
puisque H2 n’est pas véri…ée);
la bonne matrice de variances-covariances de l’estimateur des MCO est donnée
par :
h i
V b b M CO = 2 X> X 1 X> X X> X 1
u
1 1
= X> X X> X X> X (6.2)
avec
0 2 1
1 0 0
B .. .. .. C
B 0 . . . C
=B .. .. .. C (6.3)
@ . . . 0 A
2
0 0 N
au lieu de
h i 1
V bb M CO = 2
X> X
u
Ainsi, si l’inférence statistique est e¤ectuée sur la base de la mauvaise matrice

de variances-covariances de l’estimateur des MCO, tous les tests et intervalles
de con…ance réalisés seront faux. Pour pouvoir appliquer des tests basés sur
l’estimateur des MCO de b, il faut utiliser la matrice de variances-covariances
(6.2). Le problème est que la matrice est inconnue. White (1980) a proposé
un estimateur convergent de cette matrice de variances-covariances. Il a montré
que la quantité X> X peut être estimée de façon convergente par
N
X
b
V = b2i Xi
u X> (6.4)
i
(k+1;k+1) (k+1;1)(1;k+1)
i=1
bi représente les résidus des MCO et où X>

où u i est la i ième ligne de la matrice
X des observations des k + 1 variables explicatives (i. e. observations relatives au
52
Pour plus de détails, on renvoie au chapitre 4.
i-ième individu de l’échantillon (i. e. de la coupe tranversale)). Donc, la matrice

de variances-covariances de l’estimateur des MCO peut être estimée par
h i
Vb bb M CO = X> X 1 V b X> X 1 (6.5)
Ne pas oublier que c’est un estimateur convergent de la matrice de variances-

covariances de l’estimateur des MCO. Par conséquent, il faut un nombre
d’observations élevé pour pouvoir réaliser une inférence statistique correcte. De
plus, si l’estimateur des MCO est asymptotiquement convergent, il n’est pas
e¢cace.
6.2 Les tests de détection de l’hétéroscédasticité
De nombreux tests existent, dont trois sont couramment utilisés :

le test de Goldfeld et Quandt (1965);
le test de Breusch et Pagan (1979);
le test de White (1980).
6.2.1 Le test de Goldfeld et Quandt

L’avantage de ce test est la facilité de sa mise en œuvre. Il repose sur l’hypothèse
a priori selon laquelle les variances des perturbations sont une fonction monotone
croissante (ou décroissante) des valeurs prises par une variable Z quelconque. Les
variances sont en général inconnues. On admet donc qu’elles sont liées à une des
variables de l’échantillon et on ordonne les observations en fonction des valeurs de
cette variable.
En e¤et, l’idée du test est de comparer les variances des perturbations sur
deux sous-échantillons constitués de N=2 premières et N=2 dernières observations
((N + 1) =2 et ((N 1) =2) si le nombre d’observations est impair). Si les variances
sont e¤ectivement croissantes (resp. décroissantes) avec la variable retenue pour
e¤ectuer le classement des observations, on peut s’attendre à ce que la variance
estimée à partir d’une régression sur le second sous-échantillon soit sensiblement
supérieure à celle estimée sur le premier.
2 2 2 2
H0 : u;g1 = u;g2 contre H1 : u;g1 < u;g2 au seuil % (6.6)
De plus pour augmenter la distinction entre les variances sur chacun de ces sous-
échantillons, Goldfeld et Quandt suggèrent d’éliminer les dernières observations du
premier sous-échantillon et les premières du second sous-échantillon. Une fois que
les deux sous-échantillons ont été constitués, on e¤ectue une régression sur chacun
d’entre eux et on calcule la statistique :
b2u;g2
G= F (N2 (k + 1) ; N1 (k + 1)) (6.7)
b2u;g1
où F (N2 (k + 1) ; N1 (k + 1)) correspond à une loi de Fisher à (N2
(k + 1),N1 (k + 1)) degrés de liberté et où
P
N1 P
N2
b21;i
u b22;i
u
i=1 i=1
b2u;g1 = et b2u;g2 = (6.8)
N1 (k + 1) N2 (k + 1)
où u b1;i et ub2;i correspondent aux résidus des MCO des régressions e¤ectuées
respectivement sur le premier sous-échantillon et sur le deuxième sous-échantillon.
Si la statistique G est supérieure (>) à la statistique théorique, on rejette l’hypothèse
H0 d’homoscédasticité, les variances sont trop di¤érentes. Il est nécessaire de
recourir à un estimateur de type MCQG.
La validité du test de Goldfeld et Quandt repose sur l’hypothèse selon laquelle
le classement des observations par ordre croissant (resp. par ordre décroissant)
des valeurs prises par une variable de l’échantillon correspond e¤ectivement au
classement qui serait obtenu en fonction des variances des perturbations. Si cette
hypothèse n’est pas véri…ée alors il est probable que ce test fonctionne assez mal.
Des tests plus généraux (moins contraints) ont été élaborés.
6.2.2 Le test de Breusch et Pagan
Ce test répond en partie à cette objection puisqu’il permet de tester
l’homoscédasticité contre l’hypothèse alternative que la variance est une fonction
quelconque d’une ou plusieurs variables. Son principe consiste à tester :
2 2 2
H0 : i = u contre H1 : i = h (Zi a) i = 1; : : : ; N
où h est une fonction indépendante de i, deux fois dérivable, et où les variables Zi
sont dé…nies par :
Zi = (1; Z1i ; Z2i ; : : : ; Zpi ) i = 1; : : : ; N
En pratique, les variables Z1i ; Z2i ; : : : ; ZpN sont les variables explicatives du modèle.
On peut alors écrire l’hypothèse alternative comme :
2
H1 : i = h (a0 + a1 Z1i + a2 Z2i + + ap Zpi )
Tester l’hypothèse d’homoscédasticité revient donc à tester :

H0 : a1 = a2 = = ap = 0 contre H1 : 9 aj 6= 0 j = 1; : : : ; p
Pour mettre en œuvre ce test, la procédure à suivre est la suivante :
estimer le modèle (6.1) par les MCO puis calculer les résidus
u
bi = yi X> b
i bM CO
pour obtenir la variance résiduelle

P
N
b2i
u
i=1
b2u =
N
e¤ectuer la régression :
b2i
u
= a0 + a1 Z1i + a2 Z2i + + ap Zpi + i
b2u
comparer la quantité égale à la moitié de la somme des carrés expliquée associée
à cette régression :
2 32
1 XN \ 2 \ 2
QBP = 4 ubi ubi 5 2
(p) (6.9)
2
2 i=1 bu b2u
où 2 (p) correspond à la loi du khi-deux à p degrés de liberté. Si la statistique

QBP est supérieure (>) à la statistique théorique, on rejette H0 , les variances
ne sont pas constantes puisqu’elles sont corrélées de manière signi…cative à des
variables. Il est nécessaire de recourir à un estimateur de type MCQG.
6.2.3 Le test de White
Ce test est une généralisation du test de Breusch et Pagan. Il est souvent utilisé
car il ne fait pas d’hypothèse particulière sur la forme de l’hétéroscédasticité. A
priori, on suppose qu’elle est de forme inconnue. Auparavant, on a vu que White
(1980) a proposé une estimation convergente de la matrice de variances-covariances
de l’estimateur des MCO :
h i
Vb bb M CO = X> X 1 V b X> X 1
avec
N
X
b =
V b2i Xi X>
u i
i=1
dans le cas où les perturbations sont hétéroscédastiques. Dès lors, la comparaison

b M CO
de cette matrice avec l’estimateur de la matrice de variances-covariances de b
sous l’hypothèse d’homoscédasticité :
h i 1
Vb bb M CO = b2 X> X
u
qui n’est pas convergente sous hypothèse alternative, permet de détecter la présence
d’hétéroscédasticité. L’idée serait donc de raisonner sur la di¤érence de ces deux
matrices. Néanmoins, une approche plus simple et équivalente consiste à e¤ectuer
la régression53 suivante :
k
X k X
X k
b2i
u = a0 + aj xij + ajl xij xil + "i
j=1 j=1 l j
et à calculer la statistique
(k + 1) (k + 2)
QW = N R2 2
1 (6.10)
2
(k+1)(k+2)
La statistique calculée QW suit une loi du khi-deux à 2
1 degrés de
2
liberté. Si le produit N R est supérieur (>) à la statistique théorique, les matrices
de variances-covariances di¤èrent trop pour pouvoir ne pas rejeter l’hypothèse
d’homoscédasticité. Il est nécessaire de recourir à un estimateur de type MCQG.
L’inconvénient du test de White est qu’il a une puissance limitée au regard de la
multiplicité des hypothèses alternatives possibles sur la forme de l’hétéroscédasticité.
En particulier, lorsque la taille de l’échantillon est faible.
53
Autrement dit, ce modèle de régression multiple comprend une constante, les variables explicatives du
modèle d’origine, leurs carrés ainsi que les produits croisés.
6.3 Correction de l’hétéroscédasticité : l’estimateur des MCQG

La matrice de variances-covariances des perturbations est donnée par :
0 2 1
1 0 0
B .. .. .
B 0 . . .. CC
=B . . . C
@ .. .. .. 0 A
2
0 0 N
Les variances des perturbations étant inconnues, il n’est pas possible de mettre
en œuvre l’estimateur des MCG. Il convient donc d’estimer ces variances ce qui
permettra d’obtenir la matrice de variances-covariances des perturbations estimée
b . Ensuite, il su¢t de raisonner par rapport au modèle transformé :
b 1=2
y= b 1=2
Xb + b 1=2
u (6.11)
avec
0 1
1=b1 0 0
B .. .. .. C
b 1=2 B 0 . . . C
=B .. .. .. C (6.12)
@ . . . 0 A
0 0 1=bN
Moyennant une estimation correcte des variances des perturbations, il est alors
possible d’estimer b de façon convergente et asymptotiquement e¢cace, en
appliquant les MCO au modèle transformé :
yi X> ui
= i b+ i = 1; : : : ; N (6.13)
bi bi bi
On obtient ainsi l’estimateur des MCQG. On parle encore d’estimateur des moindres
carrés pondérés (MCP). En e¤et, d’après (6.13), on remarque qu’aux observations
initiales est appliquée une pondération54 . Ce modèle transformé ne comporte plus de
terme constant ce qui n’est pas neutre pour le calcul du coe¢cient de détermination.
En pratique, comme cela a déjà été évoqué, les variances 2i sont inconnues.
Pour les estimer, il est nécessaire de poser a priori, une structure particulière pour
l’hétéroscédasticité des perturbations. Les hypothèses les plus souvent retenues
54
Alors que pour gérer l’autocorrélation des perturbations, on raisonnait en termes de quasi di¤érences.
sont :
2 2
i = u (Zi a) (hétéroscédasticité additive) (6.14)
2
i = 2
u (Zi a)2 (hétéroscédasticité multiplicative) (6.15)
2 2
i = u exp (Zi a) (hétéroscédasticité multiplicative) (6.16)
Le choix d’une fonction suppose que l’on ne se trompe pas sur la forme de
l’hétéroscédasticité, sinon la correction qui sera adoptée par l’intermédiaire de la
matrice b 1=2 ne constituera pas une solution satisfaisante. L’estimateur des MCQG
n’aura pas les bonnes propriétés asymptotiques.
Pour prendre un exemple, on retient la forme multiplicative (6.16) de
l’hétéroscédasticité55 , qui peut s’écrire en linéarisant :
2 2
log i = log u + Zi a (6.17)
ou encore
b2i = log
log u 2
u + Zi a+"i (6.18)
b2
u
avec "i = log i2 comme terme d’erreur. Ce terme est asymptotiquement
i
homoscédastique et non corrélé avec les Zi . Le problème est qu’il n’est pas
d’espérance nulle (même asymptotiquement). Cependant, cela a¤ecte seulement
l’estimation de la constante log 2u , qui est de peu d’importance. Pour résumer,
l’estimateur des MCQG est obtenu selon les étapes suivantes :
estimer le modèle (6.1) par les MCO;
b2i à partir des résidus u
calculer log u bi des MCO;
estimer le modèle (6.18) par les MCO. Cela permet d’obtenir un estimateur b a
convergent de a;
calculer56 b2i = exp (Zi b
a) puis transformer les observations et en…n appliquer les
MCO au modèle transformé (6.11) pour obtenir l’estimateur des MCQG.
la variance b2u peut être estimée de façon convergente par :
2
N yi X> b
1 X i bM CQG
b2u = (6.19)
N (k + 1) i=1 b2i
une estimation convergente de la matrice de variances-covariances de l’estimateur
55
On renvoie à Harvey (1976).
56
La non convergence du coe¢cient de la constante a¤ecte toutes les variables équi-proportionnellement.
Cela n’a donc pas de conséquence sur les résultats d’estimation du modèle transformé (6.11).
des MCQG est donnée par :

! 1
h i N
X Xi X>
b M CQG =
Vb b b2u i
(6.20)
i=1
b2i
Chapitre 7
——————————————————————————
Estimation sous contraintes linéaires et tests

d’hypothèses
La théorie économique donne assez souvent à l’économiste des informations a priori

sur les paramètres d’un modèle économétrique. Ces informations peuvent prendre
la forme de contraintes linéaires. Par exemple, en supposant que l’on s’intéresse à
l’estimation d’une fonction de production de Cobb-Douglas, soit :
log Qt = b0 + b1 log Kt + b2 log Lt + ut t = 1; :::; T (7.1)
et que l’on se demande si les rendements d’échelle sont constants. Cette question
revient à prendre en compte une contrainte linéaire sur les coe¢cients du modèle
(8.1), à savoir :
b1 + b 2 = 1 (7.2)
Plus généralement, l’objet de ce chapitre est de montrer comment on peut
répondre aux diverses interrogations soulevées par ces contraintes :
comment tenir compte de cette information a priori dans la procédure
d’estimation des paramètres du modèle;
quelles sont les conséquences de cette prise en compte pour les estimations
obtenues ?
comment tester la pertinence de ces contraintes linéaires ?
7.1 Formulation des contraintes
Soit le modèle de régression multiple :

yt = b0 + b1 x1t + b2 x2t + + bk xkt + ut
sous les hypothèses habituelles (H1 à H5 ). On suppose que l’on souhaite tenir
compte des contraintes suivantes sur les paramètres (souvent suggérées par la théorie
228
7. Estimation sous contraintes linéaires et tests d’hypothèses 229
économique) :
b1 + b2 + b3 = 1 b1 + b2 + b3 = 1
,
bk = bk 1 bk 1 + bk = 0
Ce système de contraintes peut se réécrire sous forme matricielle :

0 1
b0
B b1 C
0 1 1 1 0 0 B C
B ... C = 1 , R
B C b = r
0 0 0 0 0 1 1 @ A 0 (2;k+1)(k+1;1) (2;1)
| {z } bk 1 | {z }
R r
bk
| {z }
b
En toute généralité, il vient :
R b = r (7.3)
(p;k+1)(k+1;1) (p;1)
avec au maximum p k. Le problème posé est d’estimer le modèle y = Xb + u

sous les contraintes Rb = r sous les hypothèses H1 à H5 .
7.2 La méthode des moindres carrés sous contraintes (MCC)
Le programme à résoudre est le programme de minimisation sous contraintes

suivant :
min S = min(y Xb)> (y Xb)
b b
sous les contraintes

Rb = r
ou encore60
min S = (y Xb)> (y Xb) + 2 >
(Rb r) (7.4)
;b
où est un vecteur colonne de format (p; 1) qui correspond aux multiplicateurs de

Lagrange. À partir des conditions du premier ordre et après résolution, on obtient
60
Le multiplicateur de Lagrange associé aux contraintes est ici égal à 2 >
a…n de faciliter les calculs qui
suivent.
l’estimateur des moindres carrés sous contraintes (MCC) :

1 1 1
b b M CO
b M CC = b X> X R> R X > X R> b M CO
Rb r (7.5)
On constate immédiatement que l’estimateur des MCC di¤ère d’autant plus de celui
b M CO r 6= 0 .
des MCO que ce dernier ne véri…e pas a priori les contraintes Rb
7.3 Propriétés à distance …nie de l’estimateur des MCC
7.3.1 Étude du biais
Après quelques calculs fastidieux, on obtient :

h i 1 1 1
E bb M CC = b X> X R> R X > X R> (Rb r) (7.6)
Deux cas sont à distinguer :
si les contraintes sont justi…ées, l’estimateur des MCC est sans biais car Rb r =
0;
si les contraintes sont imposées à tort, l’estimateur des MCC est biaisé et ce biais
est proportionnel à la di¤érence Rb r 6= 0.
En fait, l’utilisation de contraintes non justi…ées revient à se servir d’une
information fausse, il est donc assez normal que l’estimateur soit biaisé.
7.3.2 La matrice de variances-covariances de l’estimateur des MCC
b M CC est donnée par :
La matrice de variances-covariances de b
h i 1 1 1 1 1
b
V bM CC = 2
X> X X> X R> R X > X R> R X> X
u
(7.7)
L’expression de la matrice de variances-covariances de l’estimateur des MCC est
indépendante de la validité des contraintes posées a priori.
Si les contraintes sont justi…ées, l’estimateur des MCC est le meilleur estimateur
linéaire sans biais.
7.4 b M CC est le meilleur estimateur linéaire sans biais

L’estimateur b
Théorème 8.1 : Sous les hypothèses H1 à H5 et en supposant que les contraintes
Rb = r sont justi…ées, l’estimateur des MCC est le meilleur estimateur linéaire
sans biais. Plus précisément, cela signi…e qu’il possède la plus petite variance dans
la classe des estimateurs linéaires sans biais 61 .
7.5 Propriétés asymptotiques de l’estimateur des MCC
Théorème 8.262 : Sous l’hypothèse supplémentaire que les perturbations sont

normalement distribuées et que les contraintes Rb = r sont justi…ées, l’estimateur
des MCC est convergent et asymptotiquement e¢cace parmi la classe des estimateurs
utilisant les informations de l’échantillon sur y et r.
7.6 L’estimateur de la variance des perturbations 2

u par la méthode des
MCC
La variance des perturbations 2

u est estimée par :
b>
u bc
c u
b2u;M CC = (7.8)
T (k + 1) + p
or, on peut montrer que :
b>
u b c = (u + D)> (M + Pc ) (u + D)
c u
avec
1 1 1
D = X X> X R> R X > X R> (Rb r)
1
M = IT X X > X X>
1 1 1 1
Pc = X X> X R> R X > X R> R X> X X>
d’où
2
b>
E u bc =
c u u (T (k + 1) + p) + D> D
donc :
61
La démonstration est similaire à celle du théorème de Gauss-Markov.
62
Ce théroème est établi à partir d’une nouvelle borne (di¤érente de celle FDCR) qui prend en compte
la présence des contraintes Rb = r (Rothenberg (1973)).
si les contraintes sont valides, cet estimateur est sans biais (puisque D = 0);
si les contraintes sont non justi…ées, cet estimateur est biaisé(puisque D 6= 0).
7.7 Comparaison des propriétés statistiques des estimateurs des MCO

et des MCC
b M CC et b2
En fait, concernant les estimateurs b u;M CC , leurs propriétés dépendent de
la validité des contraintes posées.
7.7.1 Si les contraintes sont valides
Dans ce cas Rb r = 0, on a :
h i
E bb M CC = b
h i 1
b 1 1 1 1
V bM CC = 2u X> X X> X R> R X > X R> R X> X
et
h i
E bb M CO = b
h i
b 1
V bM CO = 2u X> X
Par conséquent, on en déduit que :

les estimateurs bb M CO et b
b sont sans biais;
h i h i M CC 1
V b b M CO V b b M CC = 2 X> X 1 R> R X> X 1 R> R X> X ,
1
u
donc l’introduction de contraintes valides entraîne une diminution de la matrice de
variances-covariances des estimations. Ceci paraît intuitivement logique puisque
l’on utilise plus d’information.
7.7.2 Si les contraintes sont erronées
Ici Rb r 6= 0, il en découle que :
h i 1
b M CC = b 1 1
E b X> X R> R X > X R> (Rb r)
h i 1
b M CC = 2 1 1 1 1
V b u X> X X> X R> R X > X R> R X> X
et
h i
b
E bM CO = b
h i
b M CO = 2 X> X 1
V b u
Ces résultats montrent que :

l’estimateur bb M CC est biaisé alors que b
b M CO est sans biais;
la matrice de variances-covariances de l’estimateur des MCC reste toujours
inférieure à celle des MCO.
En toute généralité, l’introduction de contraintes linéaires conduit à :
diminuer la matrice de variances-covariances des estimations, que les contraintes
soient justi…ées ou non;
si les contraintes sont imposées à tort, les estimateurs bb M CC et b2
u;M CC sont
biaisés.
Dans le cas où les contraintes ne sont pas justi…ées, un dilemme se pose. Choisir
un estimateur biaisé mais à variance plus faible (estimateur des MCC), ou retenir
un estimateur sans biais mais à variance plus importante (estimateur des MCO).
C’est le dilemme biais-variance. Pour pouvoir discriminer entre les estimateurs des
MCO et des MCC, on utilise le critère de l’erreur quadratique moyenne (EQM)63 .
7.8 Tests d’hypothèses sur la validité des contraintes
Au regard des conséquences de contraintes imposées à tort dans la procédure

d’estimation, il apparaît important de tester leur validité.
7.8.1 Test d’un ensemble de contraintes
Pour élaborer ce test, outre les hypothèses H1 à H5 , il faut supposer que les
perturbations sont indépendantes et normalement distribuées (H8 ). Dans ce cas,
l’estimateur des MCO suit une loi normale
1
b
b N b; 2
X> X
u
d’où
1
b
Rb N Rb; 2
X> X R>
uR
63
Se reporter au chapitre 16.
et
> 1 1
b
Qc = Rb Rb 2
X> X R> b 2
(p)
uR Rb Rb
Dans la pratique, la variance des perturbations 2

u étant inconnue, on la remplace
par b2u . Or, dans le chapitre 3, on a vu que :
b>u
u b
b2u =
T (k + 1)
b sont indépendants
De plus, on sait que sous les hypothèses H1 à H5 et H8 , b2u et b
et que :
b2u 2
(T (k + 1)) 2
(T (k + 1))
u
Par conséquent, sous l’hypothèse H0 (Rb = r), on obtient la statistique64 :
0 > 1
1
b > 1 > b
B Rb r R X X R Rb r C
Qc = @ A F (p; T (k + 1)) (7.9)
pb2u
Si la statistique calculée Qc est supérieure (>) à la valeur critique, on rejette H0 , la

somme des carrés des résidus associée aux estimations contraintes est trop di¤érente
de celle associée aux estimations non contraintes (hypothèse H0 ). Sous cette forme
la statistique Qc ne dépend que des estimateurs b b et b2 des MCO de b et 2 .
u u
Cependant, le calcul de cette statistique est assez lourd et il est préférable de la
réécrire sous une forme plus facilement calculable, soit :
SCRc SCR T (k + 1)
Qc = F (p; T (k + 1)) (7.10)
SCR p
où SCRc est la somme des carrés des résidus contraints u b> b c , SCR la somme des
c u
carrés des résidus non contraints u >
b ub et p le nombre de contraintes. Le principe de
ce test peut être étendu à plusieurs types de contraintes linéaires sur les coe¢cients.
64
Cette statistique est obtenue par le rapport de deux khi-deux indépendants, chacun divisé par son degré
de liberté. Ce rapport aboutit à une loi de Fisher, ce qui donne la relation (8.9).
7.8.2 Test de l’égalité d’un coe¢cient à une valeur donnée

On cherche à tester :
H0 : bj = b0j contre H1 : bj 6= b0j
Les matrices R et r sont :
R = 0 0 1 0 0 , r = b0j
(1;k+1)
z }| {
j ieme
composante
En e¤et, on rappelle que le carré d’une statistique suivant une loi de Student à
(T (k + 1)) degrés de liberté suit une loi de Fisher à (1; T (k + 1)) degrés de
liberté.
7.8.3 Test de l’égalité à une valeur donnée de plusieurs coe¢cients
Ici, on cherche à tester :
b1 = b01
b2 = b02
H0 : .. contre H1 : H0c
.
bj = b0j
On construit facilement les matrices R et r, soit :

0 1 0 1
0 1 0 0 b01
B 0 0 1 0 0 C B b02 C
B . . .. C B
B . . C
. C, r = B .. C
R =B . .
B . . B . C
C
(j;k+1)
@ .. .. .. C (j;1) @ b0 A
. A j 1
0 0 0 1 0 0 b0j
En particulier, si l’on s’intéresse au cas où l’on teste la signi…cativité de l’ensemble

des coe¢cients d’une régression, soit :
H0 : b1 = b 2 = = bk = 0 contre H1 : H0c
Sous l’hypothèse H0 , le modèle contraint s’écrit :
y t = b0 + ut t = 1; :::; T
Il vient immédiatement :
bb0 = y et u
bc;t = yt y
On en déduit la somme des carrés des résidus contraints :
T
X
SCRc = u
b> bc =
c u (yt y)2
t=1
Sous l’hypothèse H1 (modèle non contraint), la somme des carrés des résidus non
contraints est donnée par :
T
X 2
SCR = u >
b=
b u bt
u b
u
t=1
Par conséquent, sous l’hypothèse H0 , la statistique de test s’écrit :

SCRc SCR T (k + 1)
Qc = F (k; T (k + 1)) (7.11)
SCR k
Or on sait que
2 b>u
u b
R =1
P
T
(yt y)2
t=1
La statistique peut donc se réécrire en fonction du coe¢cient de détermination,

soit65 :
R2 T (k + 1)
Qc = 2
F (k; T (k + 1)) (7.12)
1 R k
Si la statistique calculée Qc est supérieure (>) à la valeur critique, on rejette H0 ,
les coe¢cients de la régression sont signi…cativement di¤érents de zéro.
7.8.4 Le test de Chow
En 1960, Chow a proposé un test qui permet de tester la stabilité temporelle
(sur séries chronologiques) et/ou l’homogénéité de divers groupes, de tel ou tel
comportement (sur coupes transversales). Ce test examine si les di¤érences entre
les coe¢cients sont signi…catives. Par exemple, on peut se poser plusieurs types de
question : la productivité du travail s’est-elle modi…ée durant les dernières années
65
Ici, p = k.
? À quali…cation égale, les salaires des hommes sont-ils plus élevés que ceux des
femmes ?
Soit le modèle de régression multiple
y = Xb + u
L’échantillon initial comprend T observations. On partage cet échantillon en deux
sous-échantillons (y1 ; X1 ) et (y2 ; X2 ) de tailles respectives T1 et T2 . Ces échantillons
concernent deux groupes d’observations di¤érents (par exemple deux périodes, ou
deux catégories de ménages, de secteurs...). On considère deux modèles associés à
chacun des deux groupes :
y 1 = X1 b 1 + u 1 rg (X1 ) = k + 1 (T1 > k + 1) (7.13)
et
y 2 = X2 b 2 + u 2 rg (X2 ) = k + 1 (T2 > k + 1) (7.14)
avec
2
u1 N 0; u IT1
2
u2 N 0; u IT2
et
Cov [u1 ; u2 ] = 0
Ici, on veut tester
H0 : b1 = b2 contre H1 : b1 6= b2 (7.15)
ou encore
y 1 = X1 b 1 + u 1
H0 : y = Xb + u contre H1 : (7.16)
y 2 = X2 b 2 + u 2
Sous l’hypothèse alternative H1 , on a deux modèles di¤érents, un pour chaque sous-
période (ou chaque catégories de ménages). En fait, ce test n’est rien d’autre qu’un
test de r contraintes linéaires sur les paramètres (test de Fisher). En e¤et, on peut
toujours réécrire les hypothèses (8.15) sous la forme :
H0 : Rb = r contre H1 : Rb 6= r
On en déduit immédiatement la statistique de test :
SCRc SCR T1 + T2 2 (k + 1)
Qc = F (k + 1; T1 + T2 2 (k + 1)) (7.17)
SCR k+1
où SCRc est la somme des carrés des résidus sous l’hypothèse H0 (stabilité ou
homogénéité), SCR=SCR1 +SCR2 (SCR1 est la somme des carrés des résidus
associée à la régression (8.13), SCR2 est la somme des carrés des résidus associée à
la régression (8.14)). Les sommes des carrés des résidus sont obtenues en appliquant
les MCO à chaque modèle. Si la statistique calculée Qc est supérieure (>) à la
valeur critique, on rejette H0 . Autrement dit, on rejette l’hypothèse de stabilité ou
d’homogénéité.
Remarques :
Le test de Chow peut être notamment adapté aux cas d’échantillons sous-
dimensionnés, ou encore au cas où les perturbations sont autocorrélées ou
hétéroscédastiques (Dormont (1999)).

CM Économétrie

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CM Économétrie

Transféré par

Droits d'auteur :

Formats disponibles

Économétrie

Cours de Monsieur le Professeur Alain PIROTTE

Chapitre 2 : Le modèle de régression simple

Chapitre 3 : Le modèle de régression multiple

Chapitre 4 : Le modèle de régression multiple avec matrice de variances-

Chapitre 6 : Hétéroscédasticité des perturbations

Chapitre 7 : Estimation sous contraintes linéaires et tests d’hypothèses

Cadoret I., C. Benjamin, F. Martin, N. Herrard et S. Tanguy (2009),

Fiche de TD n 1/2 : Le modèle de régression simple

Fiche de TD n 3/4/5 : Le modèle de régression multiple

Fiche de TD n 6/7 : Autocorrélation des perturbations

Fiche de TD n 8/9 : Hétéroscédasticité des perturbations

Fiche de TD n 10 : Les moindres carrés sous contraintes

yt = axt + b + ut ; t = 1; :::; T; (1)

sous les hypothèses H1 à H5 (cf. cours).

1. Démontrer que l’estimateur a

2. Montrer que le coe¢cient de détermination (R2 ) est égal au carré du coe¢cient

1. Quelle hypothèse n’est pas véri…ée dans le modèle (2) ?

3. Déterminer la variance de chacun de ces trois estimateurs. Quelle est l’estimateur

où xi est le nombre d’heures travaillées (par salarié) et yi est la quantité de biens

1. Quel modèle doit-il choisir (en donner une interprétation économi-

3. Calculer le coe¢cient de détermination. E¤ectuer une analyse de la variance.

Pour expliquer le taux de salaire horaire des salariés américains, on considère

1. Quel modèle doit-il choisir (en donner une interprétation économi-

3. Retrouver les résultats de la question précédente grâce au théorème de Frisch-

4. Calculer le coe¢cient de détermination. E¤ectuer une analyse de la variance.

où Ii représente l’investissement, Vi les ventes de l’entreprise, Ki le stock de capital.

1. Prévoir le montant de l’investissement pour une …rme privée, ayant un stock de

2. Quelles seraient les valeurs de tous les coe¢cients estimés, si I, V et K avaient

3. Tester au seuil = 5% les hypothèses suivantes :

H01 : b1 = 0:3 contre H11 : b1 6= 0:3;

H02 : b2 0:03 contre H12 : b2 < 0:03;

4. Construire l’intervalle de con…ance à 95 % pour le coe¢cient b1 .

1. Tracer les graphiques des séries utilisées, commenter.

2. Quels sont les signes espérés des coe¢cients b1 et b2 ? Pourquoi ?

4. Prévoir la demande de monnaie

5. Trouver les élasticités points de la demande de monnaie par rapport au revenu

6. E¤ectuer le même raisonnement pour le calcul des élasticités points de la de-

7. Calculer la matrice de variances-covariances des coe¢cients estimés.

8. Calculer la valeur du coe¢cient de détermination, que peut-on en dire, en dé-

9. Tracer le graphique des séries observée et ajustée.

10. Tracer le graphique des résidus estimés, peut-on diagnostiquer un pro-

2. Prévoir la demande de monnaie en utilisant les données de l’exercice précédent.

3. Calculer les expressions

1. Dans le cas où V [u] = 2u 6= 2u IT , démontrer que l’estimateur de la variance

2. Dans le cas où V [u] = 2u 6= 2u IT , démontrer que l’estimateur b ^ M CG est

où Qt est la quantité de courrier distribuée, Lt le nombre de personnes a¤ectées au

1. Tester au seuil = 5 % l’hypothèse

2. Sous quelles conditions la conclusion de ce test est-elle …able ?

3. Tester l’absence d’autocorrélation des perturbations, que peut-on en conclure ?

ln ihvt = 0 + 1 ln rhpt + 2 ln ydrht + 3 ln piht + ut ; (6)

1. Tracer les graphiques des séries ln ihv et ln rhp. Commenter ?

4. Tester l’absence de l’autocorrélation d’ordre 1 des perturbations. Les résultats

5. En supposant que l’on ne connaisse pas la forme d’autocorrélation, calculer la

6. Estimer l’équation (6) à l’aide des méthodes de Prais-Winsten (1954), de

et où est un paramètre à estimer.

1. Étant donné un échantillon d’observations sur yi et xi , quel est l’estimateur de

2. Quel est l’estimateur des MCO de et quelle est sa variance ?

3. Montrer que l’estimateur obtenu à la première question est au moins aussi

ln labori = b0 + b1 ln wagei + b2 ln outputi + b3 ln capitali + ui :

1. Estimer par la méthode des MCO les paramètres du modèle de demande de

2. Faire le graphique des résidus.5 Commenter.

gi = 0 + 1 y96i + 2 invi + 3 popi + 4 openi + ei (7)

1. Estimer par la méthode des MCO les paramètres du modèle. Commenter.