Vous êtes sur la page 1sur 258

COURS DCONOMTRIE

Professeur Philippe Deschamps

Edition 2006-2007

Universit de Fribourg
Sminaire d'Economtrie
Boulevard de Prolles 90
CH-1700 Fribourg, Suisse

Philippe Deschamps, 2006


i

TABLE DES MATIERES

Premire partie: Quelques notions de base du calcul des probabilits et de lanalyse statistique.

I. Vecteurs alatoires

1.1. Distribution jointe.


1.2. Densit jointe
1.3. Densit marginale
1.4. Densit conditionnelle
1.5. Indpendance
1.6. Covariance
1.7. Esprances conditionnelles et partielles
1.8. Application conomique des esprances partielles (gestion de stock).

II. Fonctions de variables alatoires.

2.1. Changement de variables (cas univari).


2.2. Changement de variables (cas multivari).
2.3. Fonction gnratrice des moments.
2.4. Fonctions de variables normales (Chi-carr, Student, Fisher).

III. Estimation ponctuelle

3.1. Echantillon alatoire, estimateur, estimation.


3.2. Fonction de vraisemblance.
3.3. Maximum de vraisemblance.

IV. Proprits des estimateurs

4.1. Estimateur sans biais


4.2. Estimateur convergent.
4.3. Estimateur efficace.
4.4. Minimisation de lerreur quadratique moyenne.
4.5. Interprtation des proprits.

V. Tests dhypothses

5.1. Mthode des intervalles de confiance.


5.2. Mthode gnrale de construction des tests.
5.3. Le critre du rapport des vraisemblances (LR).
5.4. Le critre de Wald (W).
5.5. Le critre des multiplicateurs de Lagrange (LM).
5.6. Comparaison des trois critres LR, W, et LM.
ii

Seconde partie: Modles conomtriques une quation

I. La rgression simple: estimation ponctuelle

1.1. Description du problme et exemples conomiques


1.2. Le modle et ses hypothses
1.3. Les estimateurs de moindres carrs
1.4. Moments des estimateurs de moindres carrs
1.5. Convergence en probabilit
1.6. Interprtation matricielle
1.7. Thorme de Gauss-Markov
1.8. Estimation de la variance des erreurs
1.9. Dcomposition de la variance: le coefficient de dtermination
1.10. Exemple numrique

II. La rgression simple: intervalles de confiance et tests dhypothses

2.1. Tests sur les coefficients individuels


2.2. Test sur les deux paramtres a et b
2.3. Test sur une combinaison linaire des coefficients
2.4. Prvision
2.5. Exemple numrique

III: Complments dalgbre matricielle

3.1. Formes quadratiques


3.2. Matrice symtriques et idempotentes
3.3. Linversion en forme partage
3.4. Notions de drivation matricielle

IV. Complments danalyse statistique multivarie

4.1. La loi normale multivarie


4.2. Fonctions linaires et quadratiques de variables normales
4.3. Application: calcul de la distribution sous H0 de la statistique t

V. Le modle de rgression multiple

5.1. Le modle et ses hypothses


5.2. Les estimateurs de moindres carrs
5.3. Moments des estimateurs de moindres carrs
5.4. Le thorme de Gauss-Markov
5.5. Lestimation de la variance des erreurs
5.6. Dcomposition de la variance: les coefficients de dtermination R2 et R2*
5.7. Problmes particuliers: multicolinarit, biais de spcification, variables muettes
iii

5.8. Estimateurs par maximum de vraisemblance


5.9. Exemple numrique

VI. Moindres carrs sous contraintes linaires

6.1. Lestimateur de sous contraintes


6.2. Efficacit de lestimateur de sous contraintes
6.3. Dcomposition de la somme des carrs des rsidus contraints

VII. Infrence statistique en rgression classique

7.1. Le test de lhypothse linaire gnrale


7.2. Drivation de la statistique F laide du critre du rapport des vraisemblances
7.3. Calcul de la distribution sous H0 de la statistique F
7.4. Drivation de la statistique F laide du critre de Wald
7.5. Drivation de la statistique F laide du critre des multiplicateurs de Lagrange
7.6. Cas particulier du test de lhypothse linaire gnrale
7.6.1. Test sur un coefficient individuel
7.6.2. Test de nullit de tous les coefficients; lien avec R2*
7.6.3. Test de nullit de tous les coefficients sauf la constante; lien avec R2
7.6.4. Test sur une combinaison linaire des coefficients
7.6.5. Tests de stabilit structurelle (Chow)
7.7. Intervalles de prvision
7.8. Exemple numrique

VIII. Moindres carrs gnraliss: la mthode de Aitken

8.1. Introduction
8.2. Exemples
8.3. Lestimateur de Aitken et ses proprits
8.4. La prvision dans le modle de Aitken

IX. Lautocorrlation et lhtroscdasticit

9.1. Erreurs autorgressives dordre un


9.2. La matrice de covariance des erreurs
9.3. Transformation des donnes ( connu)
9.4. Estimation du coefficient dautorgression
9.5. La statistique de Durbin-Watson
9.6. La prvision dans le modle erreurs autorgressives
9.7. Le problme de lhtroscdasticit
9.8. Les tests de diagnostic
9.8.1. Analyse des autocorrlations
iv

9.8.2. Le test de Breusch-Godfrey (autocorrlation)


9.8.3. Le test de Koenker (htroscdasticit)
9.8.4. Le test de Bera-Jarque (normalit)
9.9. Exemple numrique
9.10. Introduction aux mthodes semi-paramtriques

X. Elments de thorie statistique asymptotique

10.1. Introduction
10.2. Convergence en probabilit
10.3. Ingalit de Chebychev
10.4. Loi faible des grands nombres
10.5. Convergence en distribution
10.6. Proprits des modes de convergence
10.7. Fonction caractristique et convergence en distribution
10.8. Versions du thorme central limite
10.9. Lingalit de Rao-Cramer
10.10. La matrice dinformation
10.11. Proprits asymptotiques des estimateurs par maximum de la vraisemblance
10.12. Distribution asymptotique du rapport des vraisemblances
10.13. Exemple dapplication dans un modle erreurs autorgressives: distributions limites
des estimateurs par maximum de la vraisemblance et de la statistique
dautocorrlation par le rapport des vraisemblances
XI. Proprits asymptotiques des estimateurs par moindres carrs ordinaires

11.1. Convergence en probabilit


11.2. Normalit asymptotique

XII. Proprits asymptotiques des estimateurs dAitken

XIII. Rgresseurs stochastiques

13.1. Introduction: types de rgresseurs stochastiques


13.2. Rgresseurs stochastiques indpendants du vecteur des erreurs
13.3. Rgresseurs stochastiques dpendants des erreurs contemporaines
13.3.1. La mthode des variables instrumentales (VI)
13.3.2. Convergence en probabilit des estimateurs VI
13.3.3. Convergence en distribution des estimateurs VI
13.3.4. Choix des variables instrumentales.

XIV. Introduction aux modles dynamiques

14.1. Retards chelonns


14.2. Mthode de Koyck
v

14.3. Mthode dAlmon


14.4. Loprateur de retard
14.5. Rsolution dquations linaires de rcurrence stochastiques
14.6. La distribution rationnelle des retards
14.7. Variables endognes retardes

XV. Le modle autorgressif retards chelonns (AD)

15.1. Prsentation du modle


15.2. Restrictions de facteurs communs
15.3. Le modle AD et la relation dquilibre stationnaire
15.4. Le modle AD et le modle de correction derreur (ECM)
15.5. Exemple conomique

XVI. Racines unitaires et cointgration

16.1. Processus stochastiques


16.2. Stationnarit faible
16.3. Processus stochastiques intgrs
16.4. Le test de Dickey-Fuller augment
16.5. Variables cointgres
16.6. Rgressions de cointgration
16.7. Rgressions factices
16.8. Conclusions

Troisime partie: systmes dquations simultanes

I. Introduction

1.1. Explication intuitive du biais d la simultanit


1.2. Variables endognes et prdtermines
1.3. Prsentation matricielle et hypothses
1.4. Forme structurelle et forme rduite
1.5. Proprits statistiques de la forme rduite
1.6. Interprtation conomique de la forme rduite
1.7. Forme rduite dynamique, forme finale, multiplicateurs
1.8. Relation entre la forme rduite dynamique et le modle AD de la deuxime partie
(chap. XV)

II. Le problme de lidentification

2.1. Structures observationnellement quivalentes


2.2. Systmes rcursifs
2.3. La condition de rang
vi

2.4. La condition dordre


2.5. Exemple

III. Mthodes destimation information limite de la forme structurelle

3.1. Introduction
3.2. Moindres carrs indirects
3.2.1. Prsentation de la mthode
3.2.2. Limitations
3.3. Moindres carrs doubles
3.3.1. Notation
3.3.2. Premier exemple dapplication
3.3.3. Prsentation heuristique gnrale
3.3.4. Justification par les variables instrumentales
3.3.5. Distribution asymptotique
3.3.6. Exemple numrique
3.4. Lestimateur de classe k

IV. Mthodes destimation information complte de la forme structurelle

4.1. Le produit de Kronecker et certaines de ses proprits


4.2. Loprateur de vectorisation et certaines de ses proprits
4.3. Premier exemple dapplication de loprateur de vectorisation: moindres carrs
gnraliss et forme rduite
4.4. Moindres carrs triples
4.4.1. Prsentation heuristique
4.4.2. Justification par les variables instrumentales
4.4.3. Comparaison avec les moindres carrs doubles
4.4.4. Distribution asymptotique
4.4.5. Exemple numrique
4.5. Maximum de vraisemblance information complte
4.5.1. La vraisemblance logarithmique
4.5.2. Les conditions de premier ordre du maximum de vraisemblance.

V. Analyse statistique de la forme rduite (rgression multivarie)

5.1. Estimation par maximum de vraisemblance des paramtres de la forme rduite


5.2. Tests dhypothses jointes sur les coefficients par le rapport des vraisemblances
5.3 . Forme rduite drive
VI. Comparaison des moindres carrs triples et du maximum de vraisemblance information
complte

6.1. Reformulation des quations normales des moindres carrs triples


vii

6.2. Reformulation des conditions de premier ordre du maximum de vraisemblance


information complte
6.3. Comparaison des deux nouvelles formulations.
6.4. Consquences
VII. Mthodes numriques de maximisation dune fonction de vraisemblance

7.1. Mthode de Newton-Raphson


7.2. Mthodes quasi-Newton
7.3. Mthode du score
7.4. Mthode de Davidon-Fletcher-Powell
7.5. Choix de lamplitude du dplacement
AVANT-PROPOS

Ce cours deconometrie de second cycle est enseigne depuis 1981 aux etudiants de troi-
sieme et de quatrieme annee de licence en Sciences Economiques a lUniversite de Fribourg
(Suisse), et, depuis 1996, aux etudiants du diplome de Mathematiques appliquees a la
Finance de lUniversite de Neuchatel (dans le cadre des accords BENEFRI).
Les notes de ce cours peuvent etre imprimees et peuvent etre utilisees, en tout ou en
partie, comme support dun cours de niveau equivalent, a condition:
(1) den avertir lauteur a ladresse suivante:

philippe.deschamps@unifr.ch;
(2) den mentionner clairement lorigine.

Elles ne peuvent pas etre publiees sur un site dierent de leur site dorigine:

http://mypage.bluewin.ch/Philippe Deschamps.

Ces notes ont ete composees a laide des logiciels AMS TEX, PICTEX, et TABLE. Lau-
teur remercie Madame Edith Beck-Walser, qui a mene a bien, avec beaucoup de devoue-
ment, la saisie informatique dune version preliminaire du texte. Il remercie egalement
Monsieur Roberto Cerratti pour ses commentaires constructifs, Mademoiselle
Reanne Meyer pour la composition des formules des chapitres XV et XVI de la seconde
partie, et Mademoiselle Brigitte Sermier pour son assistance ecace lors de la correction
des epreuves.

Fribourg, ete 2002.

Typeset by AMS-TEX

1
2 P. DESCHAMPS, COURS DECONOMETRIE

CONNAISSANCES PREREQUISES

Cours de mathematiques de premiere annee (lequivalent de louvrage de


P. Deschamps, Cours de Mathematiques pour Economistes, Paris, Dunod 1988).

Probabilite, probabilite jointe, probabilite conditionnelle

Independance de deux evenements

Theoreme de la probabilite totale

Variables aleatoires discretes et continues

Distribution et densite (cas univarie)

Esperance mathematique et proprietes

Variance et proprietes

Variable aleatoire binomiale

Variable aleatoire uniforme

Variable aleatoire normale: proprietes et emploi des tables


PREMIERE PARTIE, CHAPITRE I 3

PREMIERE PARTIE

QUELQUES NOTIONS DE BASE DU CALCUL DES


PROBABILITES ET DE LANALYSE STATISTIQUE

CHAPITRE I

VECTEURS ALEATOIRES

Denition

On peut associer a tout resultat possible dune experience aleatoire un vecteur X ()


Rk . Si pour tout x = (x1 , . . . , xk ) Rk , lensemble:

{ | Xi () xi , i = 1, . . . , k}

est un evenement dont on peut calculer la probabilite, la fonction X () est dite mesurable
et X porte le nom de vecteur aleatoire. Il est discret si X () prend ses valeurs dans un
ensemble denombrable, continu sinon.

1.1 Distribution jointe

Dans le cas discret et continu, elle peut senoncer comme:

FX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 x1 ) (X2 x2 ) . . . (Xk xk )] .


4 P. DESCHAMPS, COURS DECONOMETRIE

1.2 Densite jointe

Cas discret:

fX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 = x1 ) (X2 = x2 ) . . . (Xk = xk )] .

Cas continu: la fonction de densite est la fonction dont lintegrale donne la fonction
de distribution. Formellement, fX = fX1 ,...,Xk est la densite jointe du vecteur X =
(X1 , . . . , Xk ) si:
 xk  x1
FX (x1 , . . . , xk ) = ... fX (u1 , . . . , uk ) du1 . . . duk .

Note
Dans tout ce qui suit, nous supposerons pour alleger la notation que k = 2. La genera-
lisation a k > 2 est facile et les denitions pertinentes se trouvent dans la litterature. On
etudiera donc un vecteur (X, Y ).

Exemples

Cas discret: Le tableau suivant donne les valeurs de deux variables X et Y et les
probabilites que le couple (X, Y ) prenne la valeur (x, y):

X
0 1 2
0 0,20 0,20 0,10 0,5
Y
1 0,40 0,05 0,05 0,5
0,60 0,25 0,15
On obtient:
fX,Y (0, 0) = 0, 2 ; fX,Y (0, 1) = 0, 4 ; etc.
FX,Y (1, 0) = 0, 4 ; FX,Y (1, 1) = 0, 85 ; etc.

Cas continu:

 
1 x2 y2
fX,Y (x, y) = exp 2 2
21 2 21 22

(densite jointe de deux variables normales centrees independantes) .

En integrant cette densite sur [a, b] [c, d], on obtient P [(a X b) (c Y d)] .
PREMIERE PARTIE, CHAPITRE I 5

1.3 Densite marginale

Cas discret:


fX (xi ) = fX,Y (xi , yj )
j

fY (yj ) = fX,Y (xi , yj )
i

Cas continu:

 +
fX (x) = fX,Y (x, y) dy

 +
fY (y) = fX,Y (x, y) dx

Exemple
Pour les densites jointes donnees precedemment a la section 1.2:

(a) fX (0) = 0, 6 ; fX (1) = 0, 25 ; fX (2) = 0, 15


fY (0) = 0, 5 ; fY (1) = 0, 5
(b)
 +  
1 x2 y2
fX (x) = exp 2 2 dy
21 2 21 22

   +  2
1 x2 1 y
= exp 2 exp dy
1 2 21 2 2 222
  
=1
 
1 x2
= exp 2
1 2 21

 
1 y2
fY (y) = exp 2 .
2 2 22
6 P. DESCHAMPS, COURS DECONOMETRIE

1.4 Densite conditionnelle

Cas discret: les densites conditionnelles sobtiennent a partir de la denition dune


P (AB)
probabilite conditionnelle P (A|B) = P (B)
Donc:

fX,Y (xi , yj )
fX|Y (xi | yj ) =
fY (yj )

(denie si fY (yj ) = 0).

Cas continu:

fX,Y (x, y)
fX|Y (x | y) = si fY (y) = 0 .
fY (y)

Note: cette fonction depend dune realisation particuliere de Y . Cette fonction est donc
aleatoire car Y est aleatoire (on peut dire aussi quelle depend dun parametre aleatoire).
Exemple pour les densites jointes donnees precedemment (section 1.2):
(a) Cas discret:
fX|Y (0 | 0) = 0, 4
fX|Y (1 | 0) = 0, 4
fX|Y (2 | 0) = 0, 2
Les valeurs de fX|Y (x | 1) sont celles dune autre densite.
(b) Dans le cas continu, on avait fX,Y (x, y) = fX (x)fY (y). Donc fX|Y (x | y) =
fX (x)

1.5 Independance

Cas discret: X et Y sont independantes si pour tout i et pour tout j, on a:

fX,Y (xi , yj ) = fX (xi )fY (yj ) .

Dans lexemple precedent (section 1.2, cas discret), X et Y ne sont pas independantes,
car:

fX,Y (0, 0) = 0, 2 = fX (0)fY (0) = 0, 6 0, 5 .

Cas continu: X et Y sont independantes si pour tout x et pour tout y, on a:

fX,Y (x, y) = fX (x)fY (y) .


PREMIERE PARTIE, CHAPITRE I 7

Dans lexemple precedent (section 1.2, cas continu), on a lindependance.

Propriete tres importante


Si X et Y sont independantes, alors: E(XY ) = E(X)E(Y ). La reciproque nest pas
vraie en general!

Exercice. Demontrez la propriete precedente dans le cas continu.

1.6 Covariance

Denition

Cov(X, Y ) = E [{X E(X)} {Y E(Y )}] .

Exercice

Montrez que Cov(X, Y ) = E(XY ) E(X)E(Y ) .

Propriete importante (consequence de lexercice)

Si X et Y sont independantes, alors Cov(X, Y ) = 0. La reciproque nest pas vraie en


general!

Contre exemple montrant que la reciproque nest pas vraie.

X
1 0 +1
1 1
16
3
16
1
16
5
16
3 3 6
Y 0 16 0 16 16
1 3 1 5
+1 16 16 16 16
5 6 5
16 16 16

On na pas lindependance, car

6 6
fX,Y (0, 0) = 0 = fX (0)fY (0) = .
16 16
8 P. DESCHAMPS, COURS DECONOMETRIE

Mais la covariance est nulle:

1 3 1 3
E(XY ) = 1 +0 1 +0 +00
16 16 16 16
3 1 3 1
+0 1 +0 +1 =0
16 16 16 16
5 5
E(X) = +0+ =0
16 16
5 5
E(Y ) = +0+ =0
16 16
= Cov(X, Y ) = E(XY ) E(X)E(Y ) = 0 .

1.7 Esperances conditionnelles et partielles

Lesperance conditionnelle sevalue a partir de la densite conditionnelle.



Cas discret: E (X | Y = yj ) = i xi fX|Y (xi | yj )

+
Cas continu: E (X | Y = y) = xfX|Y (x | y) dx

Dans lexemple de la section 1.2 (cas discret):

E (X | Y = 0) = 0, 4 0 + 0, 4 1 + 0, 2 2 = 0, 8
E (X | Y = 1) = 0, 8 0 + 0, 1 1 + 0, 1 2 = 0, 3 .

Propriete tres importante

E(X) = EY [E (X | Y )] .

Cette propriete porte le nom de loi des esperances iterees (Law of Iterated Expecta-
tions). Elle est analogue au theoreme de la probabilite totale: une esperance incondition-
nelle, tout comme une probabilite inconditionnelle, peut etre evaluee a laide dun arbre.
PREMIERE PARTIE, CHAPITRE I 9

Loi des esperances iterees dans le cas discret:



E (X) = E (X | Y = yj ) P (Y = yj )
j

Loi des esperances iterees dans le cas continu:


 +  +
E (X) = fY (y) xfX|Y (x | y) dx dy

  
E(X|Y )

Exemple pour le cas discret (donnees de la section 1.2):

On a vu que E (X | Y = 0) = 0, 8 et E (X | Y = 1) = 0, 3.

Par ailleurs P (Y = 0) = 0, 5 et P (Y = 1) = 0, 5. EY [E (X | Y )] est la moyenne des


esperances conditionnelles:

EY [E (X | Y )] = E (X | Y = 0) P (Y = 0) + E (X | Y = 1) P (Y = 1)
= 0, 8 0, 5 + 0, 3 0, 5 = 0, 55 .

Il est facile de verier a laide de la densite marginale que 0, 55 est bien egale a E(X):

E(X) = xi P [X = xi ]
i
= 0 0, 6 + 1 0, 25 + 2 0, 15 = 0, 55 .

Cas particulier de lesperance conditionnelle: lesperance partielle

Denition


E (Y | Y a) = yj P (Y = yj | Y a) (cas discret)
j
 +
= yf (y | Y a) dy (cas continu)

d
ou f (y | Y a) = P (Y y | Y a) .
dy
10 P. DESCHAMPS, COURS DECONOMETRIE

Propriete

Dans le cas discret:

 P (Y = yj )
E (Y | Y a) = yj
P (Y a)
{j:yj a}

Dans le cas continu:


 a
fY (y)
E (Y | Y a) = y dy
FY (a)

Demonstration pour le cas continu:

P (Y y Y a)
P (Y y | Y a) =
P (Y a)


FY (y) si y a
= FY (a)

1 si y > a

Donc:

d
f (y | Y a) = P (Y y | Y a)
dy


fY (y) si y a
= FY (a)

0 si y > a


+
a fY (y)
et
yf (y | Y a) dy =
y dy.
FY (a)

Exercice. Demontrez la propriete precedente dans le cas discret.


PREMIERE PARTIE, CHAPITRE I 11

1.8 Application economique des esperances partielles (gestion de stock)

Cet exercice a pour but dillustrer linteret de la loi des esperances iterees, appliquee
aux esperances partielles.

Enonce
Un commercant a une demande journaliere aleatoire Y pour une denree vendue par
kilos. Y , mesuree en centaines de kilos, a la densite suivante:

fY (y) = 3y 2 si 0 y 1
= 0 sinon .

(Le commercant ne peut stocker plus de 100 kilos).


Il veut commander k 100 kilos de cette denree. Il lachete 6 francs par kilo et la vend
10 francs par kilo. Quelle est la valeur de k qui maximisera lesperance mathematique de
son prot journalier?

Solution
Le prot peut secrire comme:

(k, Y ) = 1000Y 600k si Y k


= 400k si Y > k .

Le prot est aleatoire. Mais son esperance ne depend que de la variable de decision k.
Il sagit donc de calculer cette esperance et de la maximiser par rapport a k.
La loi des esperances iterees donne:

E () = E ( | Y k) P (Y k) + E ( | Y > k) P (Y > k) .

On va evaluer tour a tour chacun de ces termes. E ( | Y k) depend de:


 k
fY (y)
E (Y | Y k) = y dy
FY (k)

 k
 
y 3y 2
= dy
0 k3

 k
3 y4 3
= = k .
4 k3 0 4
12 P. DESCHAMPS, COURS DECONOMETRIE

Alors:

E ( | Y k) = 1000E (Y | Y k) 600k
 
3
= 1000 k 600k = 150k
4
 k  3 k
3y
P (Y k) = 2
3y dy = = k3
0 3 0
P (Y > k) = 1 k3
E ( | Y > k) = 1000k 600k = 400k .

En combinant:
 
E () = (150k) k 3 + (400k) 1 k 3
= 250k 4 + 400k .

En maximisant:

dE ()
= 1000k 3 + 400 = 0
dk
= k 3 = 0, 4 = k = (0, 4)1/3 0, 7368 .
d2 E ()
= 3000k 2 < 0 .
dk 2
PREMIERE PARTIE, CHAPITRE II 13

CHAPITRE II

FONCTIONS DE VARIABLES ALEATOIRES

2.1 Changement de variables (cas univarie)

Enonce du probleme
On connat une densite fY (y). Quelle est la densite dune fonction strictement monotone
(i.e. strictement croissante ou strictement decroissante) de Y ? Si U = h(Y ), alors, si h est
croissante:

P [U u] = P [h(Y ) u]
= P [Y h1 (u)]

et, si h est decroissante:


P [U u] = P [Y h1 (u)].

Mais quelle est la densite qui donne bien cette probabilite lorsquon lintegre? La reponse
est donnee par le theoreme du changement de variables, dont on va voir la version univariee
et multivariee.

Theoreme.
Supposons que la variable aleatoire continue Y ait pour densite fY (y) et soit:

Y = {y | fY (y) > 0} (Y sappelle le support de fY )

Si h() est une fonction derivable et strictement monotone de domaine Y et dimage U,


alors U = h(Y ) a pour densite:

 1
  dy 
fU (u) = fY h (u)   pour u U
du
= 0 sinon .
14 P. DESCHAMPS, COURS DECONOMETRIE

Exemple
Soit
fY (y) = 2y si 0 y 1
= 0 sinon .

On cherche la densite de U = h(Y ) = 4Y + 3. Cette fonction est derivable et


bijective.
En resolvant u = 4y + 3, on obtient:
3u   3u
 dy  1
y= , donc   = et h1 (u) = .
4 du 4 4
Le theoreme donne:
 
3u 1
fU (u) = fY
4 4
 
3u 1
= 2 si 1u3
4 4
fU (u) = 0 sinon .

Exercice: Soit Y la valeur dun portefeuille en euros et U = 1.5Y la valeur du meme


portefeuille en francs suisses. On suppose que la densite de Y est exponentielle:
fY (y) = ey pour y > 0
=0 sinon.
On demande de trouver la densite de la variable U.

2.2 Changement de variables (cas multivarie)

Theoreme.
Soit Y1 et Y2 deux variables aleatoires de densite jointe fY1 ,Y2 (y1 , y2 ). Soit:

Y = {(y1 , y2 ) | fY1 ,Y2 (y1 , y2 ) > 0} .


   
u1 y1
Soit =h une fonction bijective de domaine Y et dimage U.
u2 y2
Si:
(1) les derivees partielles de h sont continues sur Y,
(2) le jacobien:

y1 /u1 y1 /u2
J = det
y2 /u1 y2 /u2
est non nul pour (u1, u2 ) U,
PREMIERE PARTIE, CHAPITRE II 15

alors:

fU1 ,U2 (u1, u2 ) = | J | fY1 ,Y2 [h1 (u1 , u2 )] pour u U


= 0 sinon .

Exemple
Densite de la somme et de la dierence de variables uniformes.

Soit fY1 ,Y2 (y1 , y2 ) = 1 si 0 y1 1 et 0 y2 1


= 0 sinon .

On demande la densite jointe de:



U1 Y1 + Y2
= .
U2 Y2 Y1

On peut ecrire:

u1 1 1 y1
=
u2 1 1 y2


y1 1 1 u1
= = 1
2
y2 1 1 u2

1 1 1
= J= + = =| J | .
4 4 2

1
Donc fU1 ,U2 (u1 , u2 ) = pour u U
2
= 0 sinon .

Mais quelle est la forme de U? Pour determiner la forme de U, il faut traduire les
conditions sur y1 , y2 en un systeme de conditions sur u1 , u2 .
16 P. DESCHAMPS, COURS DECONOMETRIE

On a y1 = 1
2 (u1 u2 ) et y2 = 1
2 (u1 + u2 ). Donc:

y1 0 = u2 u1
y1 1 = u2 2 + u1
y2 0 = u2 u1
y2 1 = u2 2 u1
et lensemble U prend la forme indiquee sur la gure suivante:

u2
...
....
2 .... ....
....
....
....
....
.. . . .....
....
....
.... . .....
..... u =u 2 1
.... . .
.... ...
.... . ......
.... ...
.... ....
.... .....
....
.... . ......
.... ..
.... ....
.... ....
.... .....
.... ....... ..
...... .....
1 ... ....
...........................
. ..
.............................. .....
........
.

.
......................................
...............................................
................................................................................................ .
.....
..... u2 = 2 + u1
. . .
................................................ ....
.............................................................................. .....
...................................................................................... ....
.................................................................................................................................................................. ....
.. .
U
..........................................................................
.................................................................................................................... ....
....
..
.
............................................................................................................................. ....
. . ................................................................................................................................................................................................................................... .
......
..................................................................................................................................................... ....
............................................................................................................................................................... ....
................................................................................................................ ....
......................................................................................................................................................................................................................................................................................................... u1
0 .................................................................................................................................................................... ....
.......................................................................................................................................................... ....
................................................................................................................................................... ....
1
.........................................................................................................................................
.........................................................................................
..........................................................................................................................
2 ....
....
....
3
................................................................................................................. ....
........................................................................................................ ....
................................................................... ....
........................................................................................ ....
................................................................................. ....
....................................................................... ....
............................................. ....
....................................................... ....
................................................ ....
......................................
.............................
....
.... u2 = 2 u1
1
................
..............
..
........
. .
.
....
....
....
....
. .... ..... ...
.. .. ....
... . . ....
.. .. ....
. . . . .....
..... ....
.... ....
.. . ..... ....
....
. .. . ....
.. .. ....
. . .. ....
.. . ....
.. ... ....
. .. .. . . . .. ....
....
.... u = u 2 1
2 . . .. . . .... .
....
....
....
....

Quelle est alors la densite dune somme de variables uniformes?


Pour calculer la densite de Y1 +Y2 , il sut de calculer la densite marginale de U1 ; on voit
sur la gure que si 0 u1 1, la densite fU1 ,U2 (u1 , u2 ) est non nulle pour u1 u2 u1 .
Si 1 u1 2, la densite est non nulle pour 2 + u1 u2 2 u1 .

Donc:
   u1
u1
1 1
fU1 (u1) = du2 = u2 = u1 pour 0 u1 1
u1 2 2 u1
 2u1  2u1
1 1
fU1 (u1) = du2 = u2
2+u1 2 2 2+u1
2 u1 2 + u1
= = 2 u1 pour 1 u1 2 .
2 2
PREMIERE PARTIE, CHAPITRE II 17

La densite marginale de U1 = Y1 + Y2 a donc la forme triangulaire suivante:

fU1 (u1 )

1












u1

1 0 1 2 3

2.3 La fonction generatrice des moments

Denition
 
Soit X une variable aleatoire. Si E etX existe pour t dans un voisinage ouvert de zero,
la fonction generatrice des moments de X est denie comme:
 
mX (t) = E etX
Utilite
mX (t) permet de calculer facilement les moments de X; la fonction generatrice des
moments permet en outre, dans certains cas, de calculer facilement la distribution dune
somme de variables aleatoires independantes.
Proprietes
dr
(1) mX (0) = E(X r )
dtr
En eet:
     
d tX d tX tX
E e =E e = E Xe = E (X) si t = 0 .
dt dt
De meme:
   2   
d2 tX d tX 2 tX
 2
E e = E e = E X e = E X si t = 0 , etc.
dt2 dt2
(2) Si mX (t) = mY (t) pour tout t dans un voisinage ouvert de t = 0, alors
FX (x) = FY (y) pour x = y
(3) Si X et Y sont independantes, alors mX+Y (t) = mX (t)mY (t). En eet:
   
E[et(X+Y ) ] = E[etX etY ] = E etX E etY .
18 P. DESCHAMPS, COURS DECONOMETRIE

Exemple: calcul de la fonction generatrice des moments dune variable normale.


 
Soit X N , 2 ,

  
  1 1
+
2
mX (t) = E e tX t
=e E e t(X)
et(x) e 22 (x) dx
=e t
2
 +   
t 1 1 2
=e exp 2 (x ) 2 t (x ) dx .
2
2 2

Noter que

2 2
(x ) 2 2 t (x ) = (x ) 2 2 t (x ) + 4 t2 4 t2
 2
= x 2 t 4 t2 .

Donc:
 +
t 2 t2 /2 1 1 2 2
mX (t) = e e e 22 (x t) dx
2
  
= 1 car integrale dune densite N (+2t,2 )
2 2
mX (t) = et+ t /2
.

Exemple dapplication: calcul des deux premiers moments E(X) et V (X) dune variable
normale.
2 t2
Si X N (, 2 ), on a vu que mX (t) = et+ 2 . Alors:

d   2 t2
mX (t) = + 2 t et+ 2 = mX (0) = = E(X)
dt

d2 2 t2  2 2 t2
mX (t) = 2 et+ 2 + + 2 t et+ 2
dt2

= mX (0) = 2 + 2 = E(X 2 )

= V (X) = E(X 2 ) E 2 (X)

= 2 + 2 2 = 2 .

On peut, de maniere analogue, calculer tous les moments de X.


PREMIERE PARTIE, CHAPITRE II 19

Note: il existe des tables des fonctions generatrices des moments des variables les plus cou-
rantes; voir lappendice B de Mood, Graybill, Boes, Introduction to the Theory of Statistics,
1974.
Exercice: Soit X une variable aleatoire ayant la distribution normale reduite N (0, 1).
Montrez que E(X 3 ) = 0 et que E(X 4 ) = 3.

Autre exemple dapplication: calcul de la distribution dune somme de variables nor-


males independantes.
   
Soit X N x , x2 et Y N y , y2 et supposons X et Y independantes.

mX+Y (t) = mX (t) mY (t) (Propriete 3)


2 2 2 2
/2 ty + y t /2
= etx + x t e
2 2 2
= et(x +y )+(x + y )t /2

mX+Y (t) est


2
donc
2
 la fonction generatrice des moments dune variable distribuee selon
N x + y , x + y . En vertu de la propriete 2, la distribution de Z = X + Y est donc
une normale de parametres x + y et x2 + y2 .
Il est beaucoup plus facile de prouver le resultat de cette maniere que par lutilisation
du theoreme de changement de variables.

2.4 Fonctions de variables normales

(1) Toute combinaison lineaire de variables normales independantes est normale:


 
Xj N j , j2 independantes (j = 1, . . . , n)

aj constantes en probabilite (j = 1, . . . , n)


n
 n
 n

= aj Xj N aj j , a2j j2
j=1 j=1 j=1

(2) Variable Chi-Carre:

Xj N (0, 1) independantes (j = 1, . . . , k)

k

= Y = Xj2 2k
j=1
20 P. DESCHAMPS, COURS DECONOMETRIE

(3) Variable t de Student:

X N (0, 1) ; Y 2k ; X et Y independantes

X
= Z= tk
Y /k
(4) Variable F de Fisher-Snedecor

X 2k ; Y 2r ; X et Y independantes

X/k
= Z= Fk,r .
Y /r

Notes sur ce qui precede


(1) La densite de Student est symetrique autour de 0. Elle tend vers la densite N (0, 1)
lorsque k . Ses deux premiers moments nexistent que si k > 2.

(2) La densite de Fisher-Snedecor tend vers la densite dune variable 2k /k lorsque r, le


nombre de degres de liberte au denominateur, tend vers linni.

(3) Les expressions des densites 2 , Student, et Fisher peuvent etre trouvees dans la
litterature, notamment louvrage de Mood, Graybill, Boes (en tete des tables). Elles
sont compliquees et nous nen ferons pas usage dans la premiere partie du cours. Elles
sont obtenues a laide du theoreme de changement de variables vu precedemment.

(4) Nos denitions precedentes permettent dengendrer des realisations simulees des
variables en question.

Exercice. Supposons que vous disposiez dun logiciel permettant dengendrer des realisa-
tions simulees de variables aleatoires normales reduites independantes. Comment pourriez-
vous engendrer des realisations simulees dune variable ayant une distribution de Student
avec k degres de liberte?
PREMIERE PARTIE, CHAPITRE III 21

CHAPITRE III

ESTIMATION PONCTUELLE

3.1 Echantillon aleatoire, estimateur, estimation

Echantillon aleatoire
Suite de variables aleatoires independantes ayant la meme distribution (i.i.d.)

Exemple
Tailles de 100 etudiants de premiere annee, distribuees N (, 2 ) et independantes:
(Xi , i = 1, . . . , 100).

Estimateur
Fonction de variables aleatoires observables, ne dependant pas de parametres inconnus.

Exemple

100
i=1 Xi
=
100
100 2
i=1 (Xi )
2 =
100

Estimation
Valeur prise par une telle fonction pour des realisations particulieres des variables
aleatoires, soit x1 , x2 , . . .

Exemple

= 175, 2 = 25
22 P. DESCHAMPS, COURS DECONOMETRIE

3.2 Fonction de vraisemblance

Soit (x1 , . . . , xn ) des realisations des variables aleatoires X1 , . . . , Xn .


Soit fX (x1 , . . . , xn | 1 , . . . , k ) la densite jointe de ces variables au point (x1 , . . . , xn );
cette densite depend des parametres inconnus 1 , . . . , k . Si lon considere cette densite
jointe comme une fonction des parametres inconnus, on lappelle fonction de vraisemblance
et lecrit:

L (1 , . . . , k ; x1 , . . . , xn ) ou plus simplement L (1 , . . . , k ) .

Note
Les observations xi sont ici des parametres de la vraisemblance; en dautres termes, la
vraisemblance nest denie quapres lobservation des realisations des variables! La vrai-
semblance est donc une notion statistique, tandis que la densite jointe est une notion
probabiliste.

3.3 Maximum de vraisemblance

Principe
On choisit comme estimations des i les valeurs de ces parametres qui maximisent
L (1 , . . . , k ).

Interpretation dans le cas discret


On choisit comme estimations les valeurs des i qui donnent la plus grande probabilite
davoir obtenu le resultat experimental (x1 , . . . , xn ).

Exemple 1
Une bote contient 3 boules, qui peuvent etre soit rouges, soit blanches. Le nombre de
boules rouges est inconnu. On tire deux boules sans remise. On obtient 2 boules rouges. On
demande destimer le nombre n de boules rouges que contient la bote a laide du principe
du maximum de vraisemblance.

Solution
La vraisemblance est donnee dans ce cas par la probabilite dobtenir le resultat experi-
mental observe (tirage de 2 boules rouges), consideree comme fonction des quatre valeurs
possibles du parametre inconnu (n = 0, 1, 2, 3).
PREMIERE PARTIE, CHAPITRE III 23

L(0) = P (R1 R2 | n = 0) = 0
L(1) = P (R1 R2 | n = 1) = 0
L(2) = P (R1 R2 | n = 2)
= P (R2 | R1 , n = 2) P (R1 | n = 2)
1 2 1
= =
2 3 3
L(3) = P (R1 R2 | n = 3) = 1 .

Donc lestimation est n = 3.

Exemple 2
On demande destimer par maximum de vraisemblance le parametre p dune loi bino-
miale Bi(n, p).

Rappel

n = nombre dessais independants


p = probabilite de succes lors de chaque essai
Y = nombre de succes est Bi(n, p)
nr
P (Y = r) = Cnr pr (1 p)

Solution
On peut ecrire:
n

Y = Xi ou Xi = 1 si lessai i donne un succes
i=1
Xi = 0 sinon .

n
On observe les realisations (x1 , . . . , xn ). Le nombre de succes observe est r = i=1 xi
On a:
nr
f (x1 , . . . , xn | p) = pr (1 p) (car lordre des realisations est donne)

En considerant cette densite comme une fonction du parametre inconnu p, on a:

nr
L (p) = pr (1 p)
24 P. DESCHAMPS, COURS DECONOMETRIE

Pour maximiser cette fonction, il est commode de maximiser son logarithme:

log L (p) = r log p + (n r) log (1 p)


d log L r nr
= =0
dp p 1p
r nr 1p nr
= = = =
p 1p p r
1 n r
= 1= 1 = p = .
p r n

On estime donc p par le pourcentage des succes observes. On a bien un maximum


car:

d2 log L r nr
= <0 .
dp2 p2 (1 p)2

Exemple 3
On demande destimer par maximum de vraisemblance les parametres et 2 dune
loi normale a partir dun echantillon aleatoire (Xi , i = 1, . . . , n).
On a, par denition de la densite normale:
 
 
2 1/2 1 2
fXi (xi ) = 2 exp 2 (xi ) .
2

En vertu de lindependance:
 n

    n/2 1  2
fX x1 , . . . , xn | , 2 = 2 2 exp 2 (xi ) .
2
i=1

En considerant cette fonction comme fonction des parametres inconnus:

 n

   
2 n/2 1  2
L , 2
= 2 exp 2 (xi )
2 i=1
n
n n 1  2
log L = log (2) log 2 2 (xi )
2 2 2 i=1

qui est a maximiser par rapport a et 2 .


PREMIERE PARTIE, CHAPITRE III 25

Les conditions de premier ordre secrivent:


n
log L 2 
(1) = (xi ) = 0
2 2
i=1
n
log L n 1  2
(2) 2
= 2
+ 4 (xi ) = 0
2 2
i=1

n
 n
i=1 xi
(1) = xi = n, donc = = x
i=1
n
n
1  2
(2) = n + 2 (xi ) = 0
i=1
n 2
2 i=1 (xi )
= =
n
n 2
2 i=1 (xi x)
= = en remplacant par .
n

Exercice: verier que lon a bien un maximum.

Note: Par la suite, nous utiliserons toujours 2 pour designer lestimateur de 2 par
maximum de vraisemblance. Un autre estimateur, que nous designerons par s2 , sera vu au
debut du chapitre suivant.
26 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE IV

PROPRIETES DES ESTIMATEURS

4.1 Estimateur sans biais

Denition:
Un estimateur de est dit sans biais si E() = .

Exemple:
Soit un echantillon aleatoire (Xi , i = 1, . . . , n) avec E(Xi ) = pour tout i et V (Xi ) = 2
pour tout i. On va montrer que:
n
i=1 Xi
= X =
n

et
n
1  2
2
s = Xi X
n1
i=1

sont sans biais.


En ce qui concerne la moyenne:
 
  Xi 1   1  1
E X = E = E Xi = E (Xi ) = n =
n n n n

En ce qui concerne la variance, notons que:



 2
     E( X )2
i
E Xi X =E Xi nX = E
2 2
Xi
2
n
et que:
        
E Xi2 = E Xi2 = 2 + 2 = n 2 + 2
   
car 2 = E Xi2 2 , et donc E Xi2 = 2 + 2 .
PREMIERE PARTIE, CHAPITRE IV 27

Dautre part:
 n
2 
n n1 n 
  
E Xi = E Xi2 +2 Xi Xj
i=1 i=1 i=1 j=i+1
n
 n1
 n

 
= E Xi2 +2 E (Xi Xj )
i=1 i=1 j=i+1
  
n(n1)/2 termes

 
Mais E Xi2 = 2 + 2 , et, par lindependance:

E (Xi Xj ) = E (Xi ) E (Xj ) = 2 .

Donc:
 n
2
   2n(n 1)
E Xi = n 2 + 2 + 2
2
i=1
 
= n 2 + n2 + n2 2 n2 = n 2 + n2 .

E( Xi )2
Donc = 2 + n2 , et:
n


n   n

 2  E( Xi )2
E Xi X = E Xi2
n
i=1 i=1
 
= n + 2 2 n2 = (n 1) 2
2
.

Donc:
  2 
  Xi X 1
E s2 = E = (n 1) 2
n1 n1
= 2 ,

ce qui montre que s2 est sans biais.

4.2 Estimateur convergent

Denition
Un estimateur n de est dit convergent si et seulement si:
 
lim P | n |>  = 0 pour tout  > 0; on ecrit plim n = .
n
28 P. DESCHAMPS, COURS DECONOMETRIE

Interpretation
Si n possede une densite f(n ), la probabilite P [| n |> ] est la zone hachuree de
la gure suivante:

.....
.... ....
.... ......
....
. ...
. ...
... ...
.
.... ...
..
. ...
...
.
.
..
. ..
...
.
. ...
.... ..
... ..
...
..
...
... f ( ) 2 n2
.
...
....
...
...
.
.

... ...
... ...
...
..
.... ..
...
.. ..
... ..
.. ..
.. ..
. ...
..... ...
...
... ...
... ...
.
..... ...
...
.. ...
.
... .
. ..
.........
...
..
. .... . .
... ............. ...
... . ...
.. . ....... .
. .
. . .. .. ....... ....
.. ........
. ...... ...
.. ........
. ..... ...
.
...... . ........
..... ....
.......
......... ... ....
.
... ... .. ....
..
.. .. ... ....
... ..
. ... ....
.
... ... ... ....
.. .. .
. ....
. ..... .. ...
. . .
. ... .
.
. ... ...........
. .
........ . ... .... ...
.
...
..
. . . .. ... .
. .. ...............
........... ..
. ... ............
. ... ... . . .....
.... . . . ... ... ... ................
............. ..
.......................... .....
. ... .................
... .. . . . . . ......
.
... . . . . . ... ..
.
... . . . . . . . .
..............................
........................ f ( ) 1 n1
. ..
.
..
..
........................
.
... . . . . . . . .........
...........................
.... . . . . . . . .......
...............................

.
..
. . . . . . . . . . .. . ..
... . . . . . . . . . .. ..
...... . . . . . . . . . .......... ..................................................
....... . . . . . . . . . ........... ................................................
............................................
.
...
..
.................................................................... ..................... . . . . . . . . . . ..........
. ............... . . . . . . . . . . . ......
....... . . . . . . . . . . . ............ ...................................................................................................................
............ . . . . . . . . . . . . ...............................
.......................................................................................................................... ................................................. . . . . . . . . . . . . .........................
............................... . . . . . . . . .................................... .. ................ ................................. ........................................ . . . . . . . . . . ...............

 +

Cette probabilite doit tendre vers 0 lorsque n tend vers linni; ceci sera le cas si les
densites deviennent de plus en plus concentrees autour de .

Conditions susantes
Si limn E(n ) = et si limn V (n ) = 0, alors plim n = . Ceci sera demontre
au chapitre X de la deuxieme partie.

Exemple
Si (Xi , i = 1, . . . , n) est un echantillon aleatoire avec E (Xi ) = , V (Xi ) = 2 , alors
plim X = , car:

 
E X =
 n 
  1  n 2 2
V X = 2
= = 0 .
n2 n2 n
i=1
PREMIERE PARTIE, CHAPITRE IV 29

Note
Contrairement a labsence de biais qui est une propriete de petit echantillon (valable
pour tout n), la convergence est une propriete asymptotique (valable si n ).

4.3 Estimateur ecace

Un estimateur ecace est un estimateur sans biais, et de variance minimale parmi tous
les estimateurs sans biais.

Denition


E() =
est ecace: .


V () V () si E() =

Interpretation
La variance dun estimateur est une mesure de limprecision de notre estimation de la
vraie valeur du parametre. Un estimateur sans biais, mais de variance enorme, est inutile:
on ne se trompe pas en moyenne, mais on peut se tromper enormement dans des cas
individuels, c.a.d. pour certains echantillons. Il est donc important que la variance soit la
plus petite possible.

Exemple
Nous prouverons au chapitre X de la seconde partie que si les Xi sont normales i.i.d.,
alors X est ecace.

4.4 Minimisation de lerreur quadratique moyenne

Que faire si lon doit choisir entre un estimateur sans biais mais de grande variance,
ou un estimateur un peu biaise mais de petite variance?
Reponse: on peut minimiser lerreur quadratique moyenne:

EQM() = E( )2
 
Si est sans biais, EQM() = V () .

Justication: On va montrer que:

EQM() = V () + Biais2 () .
30 P. DESCHAMPS, COURS DECONOMETRIE

En eet:

EQM() = E( )2
 2
= E E() + E()
 2  2   
= E E() + E E() + 2E E() E() .

      
Mais E E() E() = E() E E()
   
= E() E() E E()
  
= E() E() E() = 0 .

Dautre part:
 2
E E() = V ()
 2  2
E E() = E() = Biais2 ().

4.5 Interpretation des proprietes

Il est utile dillustrer ces proprietes a laide dechantillons ctifs, qui peuvent etre
obtenus par simulation.
Supposons donc que lon ait m echantillons de taille n, permettant de calculer m
estimations i (n):
echantillons
x11 x12 x1m
.. .. ..
. . ... .
xn1 xn2 xnm

1 (n) 2 (n) m (n)

Si est sans biais, on aura en general

m
1 
lim i (n) = pour tout n .
m m
i=1
PREMIERE PARTIE, CHAPITRE IV 31

Si est ecace, on aura en general

1  2
m

lim i (n) (n) minimale pour tout n .
m m
i=1

Si minimise lEQM, on aura en general

1  2
m
lim i (n) minimale pour tout n .
m m
i=1

Si est convergent, on aura pour tout i:


 
lim P | i (n) |>  = 0 .
n

On fait donc ici tendre n (et non m) vers linni.

Remarque: Dans ce contexte, les estimations i (n) sont des nombres pseudo-aleatoires,
car il sagit dune experience de simulation. La notation lim est par consequent plus
appropriee que la notation plim.
32 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE V

TESTS DHYPOTHESES

5.1 Methode des intervalles de conance

Cette methode est facile a appliquer lorsque lon possede un estimateur sans biais dun
parametre inconnu (soit cet estimateur), et que la densite de est symetrique autour
de (par exemple normale). On cherche alors un intervalle entre les bornes duquel la vraie
valeur du parametre inconnu a une certaine probabilite 1 de se situer.

Exemple: construction dun intervalle de conance sur lesperance dune population


normale.
Si la variance 2 est connue, on a:
- echantillon (X1 , . . . , Xn ) ; Xi N (, 2 )
- Valeurs observees x1 , . . . , xn
n
xi 2
- x = i=1 est une realisation dune variable distribuee N (, n )
n  
x x
- = n est donc une realisation dune variable distribuee N (0, 1).
/ n
Si Z/2 est la valeur de la N (0, 1) ayant une probabilite /2 detre depassee:

 
x
P Z/2 Z/2 = 1 , donc:
/ n
 

P x Z/2 x + Z/2 =1 .
n n
On a une probabilite de 1 de ne pas se tromper lorsque lon arme que se situe
entre ces 2 bornes.
1 n
Si la variance 2 est inconnue, on peut lestimer par s2 = n1 i=1 (xi x) .
2

On peut ecrire:  
x
  n
x
n = !
s "
" (xi x)2
#
(n 1) 2
PREMIERE PARTIE, CHAPITRE V 33

(xi x)2
On demontrera plus loin (4.3 de la seconde partie) que est distribuee 2n1
  2
x
et est independante de n

 
x
Alors n tn1 , et lintervalle de conance secrit:
s
 
s s
P x tn1; 2 x + tn1; 2
= 1
n n
On ne rejette pas une hypothese impliquant que soit interieure aux deux bornes, on
rejette une hypothese impliquant que soit exterieure aux deux bornes.

5.2 Methode generale de construction des tests

On a ici un vecteur de parametres inconnus = (1 , . . . , k ). On veut tester: H0 : = 0


contre H1 : = 0 (0 est un vecteur de nombres)

Note: rien nempeche detre une fonction dun autre vecteur de parametres plus
fondamentaux; exemple: k = 1 et 1 = 1 2 , H0 : 1 = 0 contre H1 : 1 = 0 .

Procedure de test
Elle doit conduire, soit au rejet de H0 en faveur de H1 , soit a labsence de rejet, en
tenant compte des deux types derreurs possibles:

Rejeter H0 Ne pas rejeter H0

H0 vraie Erreur de type I (prob. ) Decision correcte (prob. 1 )

H0 fausse Decision correcte (prob. 1 ) Erreur de type II (prob. )

Les probabilites sont conditionnelles aux evenements denissant les lignes!


On a donc:

= P (rejeter H0 | H0 vraie) = taille du test, ou niveau


= P (ne pas rejeter H0 | H0 fausse)

1 sappelle la puissance du test. Cest la probabilite de deceler la violation de H0 ,


si H0 est fausse (probabilite conditionnelle!)
Malheureusement, on peut montrer quil est impossible, en general, de minimiser et
simultanement. La procedure generale de construction dun test que lon va decrire
34 P. DESCHAMPS, COURS DECONOMETRIE

tient compte de cet etat des choses: on va, des le depart, choisir une valeur faible
de (typiquement 0.01 ou 0.05), et, pour cette valeur de , choisir un test puissant
parmi les tests de taille .

Procedure de construction

Etape 1: on se donne une probabilite de commettre une erreur de type I (rejeter H0 si


H0 est vraie).

Etape 2: on choisit une statistique s(, 0 ), a laide dun critere tel que ceux que nous
exposerons aux sections 5.3, 5.4, et 5.5. Ces criteres conduisent a des tests puissants.

Etape 3: on determine la distribution conditionnelle de s(, 0 ) sous lhypothese H0 , cest-


a-dire si = 0 .

Etape 4: la probabilite permet de determiner une region dacceptation RA () et une


region critique RC ():

RA () = {s | P (s RA () | H0 ) = 1 }
RC () = RA () .

Ces regions peuvent etre calculees a laide des resultats de letape 3, qui nous donne la
distribution de s = s(, 0 ) sous H0 !

Etape 5: on decide de rejeter H0 si s(, 0 ) RC ().

Notes
(1) Par construction, est alors bien la probabilite de commettre une erreur de
type I (rejeter H0 si H0 est vraie) car on a suppose que H0 etait vraie en
calculant la distribution conditionnelle de s(, 0 ) a letape 3.

(2) La puissance 1 depend de la vraie valeur (inconnue) de , puisquelle se


calcule conditionnellement a H1 , cest-a-dire lorsque la valeur de nest pas
donnee a priori.

(3) Le fait de ne pas rejeter H0 ne signie pas demontrer H0 : cela veut seulement
dire que les donnees ne fournissent pas susamment dinformations pour
inrmer H0 ! Il est donc plus correct de dire on ne rejette pas H0 que on
accepte H0 .
PREMIERE PARTIE, CHAPITRE V 35

(4) Pour letape 2, il existe un assez grand nombre de criteres. Les trois criteres
que nous allons exposer sont tres employes, sont dune applicabilite generale,
et ont des proprietes doptimalite sur le plan de la puissance. Dans certains
cas les trois criteres conduisent a la meme statistique. Dans la plupart des
cas les trois criteres sont asymptotiquement equivalents.

5.3 Le critere du rapport des vraisemblances (LR)

Denition
Le rapport des vraisemblances est deni comme:

maxH0 L()
=
max L()
ou est le vecteur de parametres inconnus de vraisemblance L(). H0 designe ici len-
semble des valeurs de compatibles avec lhypothese nulle, et designe lensemble de
toutes les valeurs admissibles de .

Exemple

    
0
= ; H0 : |x>0 R
2 x
  
y
= | x > 0 R2 .
x

Interpretation
Comme la vraisemblance est une fonction positive, 0,
Comme un maximum contraint est inferieur a un maximum libre, 1
Donc 0 1 ; et:
si 0 , mauvais accord entre lobservation et lhypothese H0
si 1 , bon accord entre lobservation et lhypothese H0 .

En dautres termes, si est proche de 0 lhypothese H0 ne parat pas vraisemblable


a la lumiere des informations fournies par lechantillon. Donc, on rejettera H0 si
est proche de 0.
Probleme: en-dessous de quelle valeur decidera-t-on que est susamment proche
de 0 pour que lon puisse rejeter H0 ? La reponse est fournie par la procedure de test
decrite plus haut. On devra choisir de telle sorte que si lon rejette H0 lorsque
< , alors la probabilite dune erreur de type I est precisement egale a . Le calcul
de necessite la connaissance de la distribution de (ou dune fonction monotone
de ) conditionnelle a lhypothese H0 .
36 P. DESCHAMPS, COURS DECONOMETRIE

Premier exemple dapplication: test sur lesperance


dune population normale dont la variance est connue

On a Xi N (, 2 ) independantes (i = 1, , n), 2 connue.


On veut tester H0 : = 0 contre H1 : = 0 .
On a ici = (un seul parametre inconnu)
 n/2  
L() = 2 2 exp 21 2 (xi )2

 
 
2 n/2 1 
max L() = 2 exp 2 (xi 0 ) 2
H0 2
 
 
2 n/2 1 
max L() = 2 exp 2 (xi x)2
2
 n/2  
2 2 exp 21 2 (xi 0 )2
= n/2  
(2 2 ) exp 21 2 (xi x)2
 
1  2
 2
= exp 2 (xi 0 ) (xi x) .
2

Notons que (xi 0 )2 = (xi x)2 + n(x 0 )2 .
En eet:
   
(xi 0 )2 = (xi x+ x0 )2 = (xi x)2 +n(x0 )2 +2 (xi x)(x 0 )
  
=0

Donc:
 
1  2 2
 2
= exp 2 (xi x) + n (x 0 ) (xi x)
2
 
n
= exp 2 (x 0 ) .
2
2

Une fonction monotone de est donnee par:

(x 0 )2
2 log = = LR
2 /n def
(LR = 2 log sappelle la statistique du rapport des vraisemblances)

Si H0 est vraie ( = 0 ), LR est le carre dune normale reduite! On a donc trouve la


distribution dune fonction monotone de sous H0 .
PREMIERE PARTIE, CHAPITRE V 37

Conclusion
(x 0 )2
On a: 2 log =
2 /n

(x 0 )
On denit: Zobs =
/ n

Si on decide de rejeter H0 : = 0 lorsque Zobs > Z/2 ou Zobs < Z/2 , sera
bien la probabilite dune erreur de type I puisque Zobs N (0, 1) sous H0 .
De facon equivalente, on rejetteH0 si < ou est deni implicitement par
2 log = Z/2
2
(soit = exp 12 Z/2
2
).

Exercice. Calculez, en fonction de , la puissance du test precedent lorsque , 0 , 2 , et


n sont donnes. Comment cette fonction de puissance se comporte-t-elle lorsque la taille n
de lechantillon tend vers linni?

Second exemple dapplication: test sur lesperance


dune population normale, variance inconnue

On a toujours Xi N (, 2 ) independantes pour i = 1, . . . , n; mais 2 est inconnue.


Le test est toujours H0 : = 0 contre H0 : = 0
 

Ici, =
2
n 2
Sous H0 : la maximisation de L implique 0 = 0 et 02 = i=1 (xi 0 ) /n.
n 2
Sous : la maximisation de L implique = x et 2 = i=1 (xi x) /n comme on
la vu.
Le rapport des vraisemblances senonce comme:
 n/2 
2
exp 21 2
202 (xi 0 )
=  0

n/2 2
2
(2 ) exp 21 2 (xi x)
 2 n/2
0
= , puisque:
2
 2
 2
(xi 0 ) = n02 ; (xi x) = n 2 .

On a vu que:
 2
 2 2
(xi 0 ) = (xi x) + n (x 0 ) .
38 P. DESCHAMPS, COURS DECONOMETRIE

En substituant plus haut:

 n/2
2
n (x 0 )
= 1+ 2 , donc :
(xi x)
  (x )2 2
2/n 0 (xi x)
(n 1) 1 = avec s2
= .
s2 /n n1

On reconnat le carre dune variable de student avec n 1 degres de liberte sous H0 .


On a donc de nouveau trouve la distribution dune fonction monotone de sous H0 .

Conclusion
(x 0 )
On denit tobs =
s/ n
   n/2
t2obs
On a (n 1) 2/n 1 = t2obs , soit aussi: = 1 + n1

Si on decide de rejeter H0 lorsque tobs > tn1, 2 , ou tobs < tn1, 2 , sera bien la
probabilite de commettre une erreur de type I puisque tobs tn1 sous H0 .
De facon equivalente, on rejette H0 si < , ou:
$ %n/2
t2n1,
2
= 1 +
n1

5.4. Le critere de Wald

Nous nenoncerons ici ce critere que pour le test dune seule hypothese, car la generalisa-
tion aux tests joints sera vue plus tard.

Denition
Soit L() = L(1 , , k ) la vraisemblance et soit = (1 , . . . , k ) lestimation de qui
maximise L(). On sinteresse au test:

H0 : i = 0 contre H1 : i = 0
(i est un element de , 0 est un nombre)

La statistique de Wald est denie comme:

(i 0 )2
W= ,
V (i )
PREMIERE PARTIE, CHAPITRE V 39

ou V (i ) est lestimation de la variance de i obtenue par maximisation de la vraisem-


blance.
Note: la vraisemblance est maximisee sans contraintes!

Interpretation
Il sagit du carre dune distance entre lestimation de i sous H0 (a savoir 0 ) et lesti-
mation de i sous H1 (a savoir i ). On divise par la variance estimee pour tenir compte de
la precision de lestimation.

Exemple
Soit L(, 2 ) la vraisemblance precedente (population normale, variance inconnue).
Pour tester H0 : = 0 contre H1 : = 0 , on forme:

2 2
( 0 ) (x 0 )
W= =
V () 2 /n
n 2
ou 2 = 1
n i=1 (xi x) est lestimation de 2 par maximum de vraisemblance.
Comme precedemment, on peut transformer la statistique W en une autre statistique
possedant une distribution connue sous H0 , a laide dune transformation monotone.
En eet, comme 2 = n1n
s2 , on a:

2
(x 0 ) n
W= 2 = n1 t2obs
n1s
n n
et le critere de Wald conduit donc, dans ce cas-ci, au meme test que le critere du rapport
des vraisemblances (le test t).

5.5. Le critere des multiplicateurs de Lagrange

De nouveau, nous enoncerons ce critere pour le test dune seule hypothese; la generalisa-
tion aux tests joints sera vue plus tard.
Soit L() = L(1 , . . . , k ) la vraisemblance logarithmique L = loge L. On sinteresse au
test:

H0 : i = 0 contre H1 : i = 0 .

Soit 0 lestimation de par maximisation de la vraisemblance sous la contrainte H0 .


0 est obtenu en annulant les derivees du Lagrangien:

(, ) = L() (i 0 ).
40 P. DESCHAMPS, COURS DECONOMETRIE

Dans un modele lineaire et pour des observations distribuees normalement, on peut


montrer que la statistique du multiplicateur de Lagrange est egale a:

20
LM =
V0 ()

ou 0 est la valeur de evaluee au point = 0 et ou V0 () est lestimation de V ()


obtenue par maximisation de L sous H0 .

Interpretation
Lannulation de la derivee de par rapport a i implique:

L
=
i

ce qui montre que 0 est le taux de variation de la vraisemblance maximisee L(0 )


lorsque lon seloigne de la situation contrainte. Si ce taux de variation est nul, le fait de
relacher H0 ne modie pas la vraisemblance contrainte: cette contrainte napparat donc
pas comme signicative.

Exemple
 
Soit L , 2 la vraisemblance logarithmique precedente:

n
  n n 1  2
L , 2
= log 2 log 2
2
(xi ) .
2 2 2
i=1

On a vu que:

n
L 1  n (x )
= (xi ) =
2 2
i=1

= (par lannulation de la derivee de )

Donc:


L  n (x 0 )
0 =  =
=0 ,2 =2 02
0

n
1 2
ou 02 = (xi 0 ) .
n
i=1
PREMIERE PARTIE, CHAPITRE V 41

Par ailleurs:
 n 
1  n 2 n n
V () = 4 V xi = = 2 , donc V0 () = .
i=1
4 02

2
n2 (x 0 )
2
04 n (x 0 )
Donc LM = n = .
02
02

Comme precedemment, on peut appliquer une transformation monotone a LM pour


obtenir t2obs . En eet:

n
1 2
02 = (xi 0 )
n
i=1
n 
1 2 2
= (xi x) + n (x 0 )
n
i=1
2
= + (x 0 )
2
.

Donc:
2
1 02 2 + (x 0 )
= 2 = 2
LM n (x 0 ) n (x 0 )
n1 2
1 2 1 n s
= + 2 = +
n n (x 0 ) n n (x 0 )2
1 n1 1 t2obs + n 1
= + = .
n n t2obs nt2obs

Soit aussi:
nt2obs
LM = .
t2obs + n 1

5.6 Comparaison des trois criteres

Rappelons que LR = 2log.


Pour le test vu precedemment:
H0 : = 0 contre H1 : = 0
observations xi N (, 2 ) independantes, 2 inconnue,
42 P. DESCHAMPS, COURS DECONOMETRIE

on a etabli que:

n 2
W= t
n 1 obs
1 1 n1 1
= +
LM n n t2obs
 2   n
n (x 0 ) t2obs
LR = n log 1 + 2 = log 1 + n 1 .
(xi x)

On a donc une relation bijective entre t2obs et chacune des trois statistiques, ce qui
veut dire que chacun des trois criteres conduit au meme test (le test t).

Il nen est pas toujours ainsi: dans des situations plus compliquees, les trois statis-
tiques W, LM, et LR ne seront pas des fonctions bijectives les unes des autres, et
leurs regions critiques seront dierentes en petit echantillon.

En revanche, si n , les distributions des trois statistiques sous H0 tendront en


general vers la meme distribution 2 . Ceci peut se verier
 facilementnpour le test que
1 n1 t2obs  
nous venons de voir, puisque 0, 1, et 1 + exp t2obs .
n n n1
Mais la validite de cette proposition est beaucoup plus generale!

Quel est alors linteret de letude de ces trois statistiques? Il reside dans leur commo-
dite demploi. Celle-ci depend du contexte:

(a) W sera plus facile a employer chaque fois que le modele est plus facile a
estimer sans contraintes;
(b) LM sera plus facile a employer chaque fois que le modele est plus facile a
estimer sous H0 ;
(c) LR necessite lestimation du modele avec et sans contraintes; en revanche,
son calcul ne necessite que la connaissance des valeurs de la vraisemblance
maximisee. Aucun calcul analytique de derivees ni de variance nest neces-
saire.
SECONDE PARTIE

MODELES ECONOMETRIQUES A UNE EQUATION

CHAPITRE I.

LA REGRESSION SIMPLE: ESTIMATION PONCTUELLE

1.1 Description du probleme et exemples economiques

(1) Nous partons dune relation lineaire, speciee par un modele economique. Par
exemple :

La fonction de consommation :

C = a + bY

La loi de demande :

X = a bPX

La fonction de cout :

CT = a + bQ .

(2) Nous desirons estimer les parametres a, b de ces modeles a des ns danalyse ou de
prevision. Une telle estimation est plus elaboree quune simple etude de correlation.
Elle peut en eet servir a repondre a des questions de politique economique telles
que :

(a) comment faudrait-il modier les depenses gouvernementales pour augmenter


le niveau de lemploi de x%? Pour reduire le taux dination de y%?
(b) combien une rme doit-elle produire pour maximiser son prot?
(c) Une politique de soutien du prix dun produit agricole doit-elle prendre la
forme dun prix garanti aux producteurs (et de lachat de toute production

43
44 P. DESCHAMPS, COURS DECONOMETRIE

invendue) ou dun subside a ces producteurs? Les couts respectifs de ces deux
politiques alternatives dependront de lelasticite de la demande, qui peut etre
estimee par leconometre, a partir de donnees sur les variables X et PX .
Les egalites precedentes ne seront jamais veriees exactement par des donnees sur les
variables C, Y , X, PX , etc. En eet :

lon ne peut esperer quune relation lineaire exacte fournisse une description complete
du comportement des agents economiques. Il est trop complexe pour cela. Il est parfois
erratique.
des erreurs aleatoires de mesure, dagregation, etc., sont dordinaire presentes dans
tout echantillon. Ces erreurs ne peuvent etre expliquees par un modele deterministe.
On ajoutera donc aux fonctions precedentes un terme derreur aleatoire u, et lon ecrira:

C = a + bY + u
X = a bPX + u
CT = a + bQ + u.

1.2 Le modele et ses hypotheses

1.2.1 Lequation de regression.

Nous avons donc une equation lineaire de la forme :

yt = a + bxt + ut , t = 1, . . . , n .

Lindice t correspond a une observation particuliere, par exemple lannee 1960 dans un
echantillon de 20 observations annuelles.

La variable yt sappelle indieremment variable endogene, ou variable dependante, ou


variable expliquee. La variable xt sappelle indieremment variable exogene, ou variable
independante, ou variable explicative. On parle aussi de regresseur. Le terme ut est un
terme derreur aleatoire inobservable.

a et b sont des parametres a estimer. Leurs estimateurs seront notes a et b.


SECONDE PARTIE, CHAPITRE I 45

1.2.2 Les hypotheses.

Les estimateurs a et b vont dependre des yt , donc des ut : ce seront des variables
aleatoires, et nous aurons besoin des moments de leur distribution. Il nous faut donc
faire des hypotheses sur la distribution des ut .

H1 . E(ut ) = 0 pour tout t .

Si cette hypothese netait pas satisfaite, le terme derreur aleatoire ut aurait une compo-
sante systematique, qui aurait du etre incluse dans la partie non aleatoire de lequation de
regression. Le modele serait alors mal specie.

H2 . V (ut ) = E(u2t ) = 2 pour tout t .

Cette hypothese implique que chaque erreur ut ait la meme variance; si les ut ont une
distribution normale, chaque ut aura la meme distribution.
Comme exemple de modele ou cette hypothese nest pas veriee, on peut citer un
modele de regression dont les observations sont des moyennes calculees a partir de nombres
dobservations dierents: si le modele vrai est:

yis = a + bxis + uis pour i = 1, . . . , ns et s = 1, . . . , T

ou les uis sont de variance 2 et sont independantes, et si le modele estime est:

ys = a + bxs + us pour s = 1, . . . , T

avec: ns ns ns


i=1 yis i=1 xis i=1 uis
ys = , xs = , us =
ns ns ns
on verie aisement que la variance des us depend de s.

H3 . Cov(ut , uh ) = 0 t = h .

Cette hypothese sera satisfaite si le fait que ut prenne une certaine valeur est indepen-
dant de la valeur prise par uh . Elle pourrait etre violee, par exemple, si yt etait la pro-
duction dun bien agricole dans une region geographique donnee t . Une autre observation,
faite dans une region voisine, pourrait etre inuencee par des conditions meteorologiques
communes.
Un autre exemple de viol de cette hypothese est le cas ou les ut sont engendrees par
lequation de recurrence ut = ut1 + t , ou les t sont desperance nulle, de variance
constante, et ne sont pas correlees entre elles. On verie aisement que la covariance entre
ut et ut1 depend de .
46 P. DESCHAMPS, COURS DECONOMETRIE

H4 . Les xt sont non aleatoires (on dit aussi non stochastiques).

Cette hypothese est provisoire, destinee a simplier les arguments presentes. Nous
verrons plus loin quon pourrait la remplacer par lhypothese plus faible que E(xt ut ) = 0,
sans changer certains resultats. Par la loi des esperances iterees, on peut aussi supposer
que E(ut | xt ) = 0.
Lhypothese que la covariance entre le regresseur et le terme derreur contemporain est
nulle est violee dans le modele suivant:

Ct = a + bYt + ut

Yt = C t + I t
ou Ct est la consommation au temps t, Yt est le revenu national au temps t, It est lin-
vestissement au temps t, et ut est le terme derreur. En substituant la premiere equation
dans la seconde et en resolvant, on sapercoit aisement que E(Yt ut ) = 0.

H5 . xt prend au moins deux valeurs dierentes. Si cette hypothese netait pas satisfaite,
nous naurions pas un probleme de regression : en eet, a + bxt serait constante, et
yt = a + bxt + ut serait constante a un terme aleatoire pres. Nous aurions alors le
modele yt = + ut avec = E(yt ) .

Nous voulons trouver les parametres a, b de la droite a + bxt qui approche le mieux la
dependance des y sur les x, cest-a-dire qui secarte le moins du nuage de points (xt , yt ).
Quels criteres allons-nous employer?
Il faut, quen moyenne, la distance entre yt et a + bxt soit minimale. Il faut donc que la
valeur absolue de ut = yt a bxt soit petite, pour tout t. Nous pourrions retenir comme
criteres :

(1) min max |ut|


a,b t

(2) min |ut|
a,b

t
(3) min u2t
a,b t

Pour des raisons de commodite, nous allons employer le troisieme critere : cest la me-
thode des moindres carres.
SECONDE PARTIE, CHAPITRE I 47

La dierence:
ut = yt a bxt
sappelle un residu, et est une estimation de lerreur ut . On peut ecrire indieremment:

yt = a + bxt + ut

yt = a + bxt + ut
mais la premiere de ces relations est une hypothese, tandis que lautre est une identite!
Lestimation par moindres carres du modele de regression simple sur la base dobservations
(xt , yt ) est illustree par la gure suivante.

yt , yt
8
yt = a + bxt

.....
.....
......
7 ..
......
.
......
......
.
.....
.....
.
.....
........
..... .
.
..

...... .....
6
.....
.
......
.
..
.
... u = yt yt t
......
......
...
..
.
....
......
..
.
.
.

.

.
..
......
......
5
.
......
.....
.
.....
..
.......
.
......
.
.....
......
...... 
...
....

4 ......
..... (x , y )
.
....... t t

..
.
....
..
..
.
.....
......
.
......
.....
3 ......
...
.......
...
......
.....
......
xt
0.5 1.0 1.5 2.0

1.3 Les estimateurs de moindres carres

Nous voulons donc minimiser en a, b la somme de carres :


  2
S(a, b) = u2t = yt a bxt .

Les conditions de premier ordre sont :

S  
= 2 yt a bxt = 0
a

S  
= 2 yt a bxt xt = 0 .
b
48 P. DESCHAMPS, COURS DECONOMETRIE

Elles impliquent les equations normales:

 
(1) yt na b xt = 0

  
(2) xt yt a xt b x2t = 0 .

En divisant (1) par n, on obtient :


 
xt yt
a = y bx avec x = , y = .
n n

En remplacant cette valeur dans (2), il vient :



(yt [y bx] bxt )xt = 0

(yt y b(xt x))xt = 0


(y y)xt
b =  t
(xt x)xt

(yt y)(xt x)
= 
(xt x)2

x y nxy
=  t 2t
x nx2
 t 
(x x)yt
=  t = wt yt
(xt x)2
ou :
(xt x)
wt =  .
(xt x)2

Il est facile de verier, de meme, que a = zt yt , avec:
1
zt = xwt
n

Les deux estimateurs a et b sont donc des fonctions lineaires des yt .


Les wt et zt possedent des proprietes quil est utile de noter:

(1) wt = 0

 1
(2) wt2 = 
(xt x)2
SECONDE PARTIE, CHAPITRE I 49

(3) wt xt = 1


(4) zt = 1

  2
1 x2 xt
(5) zt2 = + = 
n (xt x)2 n (xt x)2


(6) zt xt = 0

 x
(7) wt zt =  .
(xt x)2

Exemple: soient les n = 5 observations suivantes sur les yt et les xt :

yt xt
2 1
4 2
5 3
7 4
10 5

    
On a xt = 15 , yt = 28 , x2t = 55 , xt yt = 103 , yt2 = 194 .

103 (15)(28)/5
b = = 1.9
55 (15)2 /5

 
28 15
a = (1.9) = 0.1 .
5 5
50 P. DESCHAMPS, COURS DECONOMETRIE

1.4 Moments des estimateurs de moindres carres

1.4.1 Esperances mathematiques.

Nous allons verier que a et b sont des estimateurs sans biais de a et de b. On a

 
a = zt yt = zt (a + bxt + ut )

  
= a zt + b zt xt + zt ut


= a+0+ zt ut


et E(a) = E(a) + zt E(ut ) = a

 
b = wt yt = wt (a + bxt + ut )

  
= a wt + b wt xt + wt u t


= 0+b+ wt u t


et E(b) = E(b) + wt E(ut ) = b.

1.4.2 Variances.

La variance de b se calcule comme :

 2
V (b) = E b E(b)

= E(b b)2 .


Mais b b = wt ut comme nous lavons montre. On a alors:
SECONDE PARTIE, CHAPITRE I 51

 2
V (b) = E wt u t

n n1
  n
= E wt2 u2t + 2 wi wj u i u j
t=1 i=1 j=i+1
n
 n

 2
= wt2 E u2t = 2
wt2 = 
t=1 t=1
(xt x)2

puisque E(u2t ) = 2 , et puisque E(ui uj ) = 0 pour i = j.

On a par ailleurs

 2
2
V (a) = E (a a) = E zt ut

= 2 zt2 par le meme argument que precedemment
 
2
1 x
= 2 + 2
n (xt x)
 2
2  xt
= .
n (xt x)2

1.4.3 Covariance.

Cov(a, b) = E(b b)(a a)


   
= E wt u t zt ut

n  n 
= E wt zt u2t + wi zj ui uj
t=1 i=1 j=i
    
wt
= 2
wt zt = 2
x wt2
n
x
= 2  2 .
(xt x)
52 P. DESCHAMPS, COURS DECONOMETRIE

1.5 Convergence en probabilite

On verie facilement a laide de ces moments que plim b = b et plim a = a:

    2
E b = b et V b = n 0
t=1 (xt x)
2 n
 2
xt /n
E (a) = a et V (a) 0, car: V (a) =  2
0
n (xt x)2

x2t
sous la condition susante que limn n existe.

1.6 Interpretation matricielle

En reunissant toutes les observations sur lequation de regression yt = a + bxt + ut , il


vient:


y1 1 x1 u1


y2 1 x2 u2

= a+ b+
. . . .
.. .. .. ..


yn 1 xn un


1 x1 u1


1 x2 a u
2
= +
. .. b .
.. . ..


1 xn un

ou: y = X + u.

Les equations normales peuvent secrire:


 

na + b xt = yt



 
a xt + b x2t = xt yt
SECONDE PARTIE, CHAPITRE I 53

ce qui implique:

 
n xta yt
=
  2 
xt xt b xt yt

1
(X  X) = X  y = = (X  X) Xy .

1
La matrice (X  X) peut secrire:

 1  
n xt x2t xt
1
= 
  n (xt x)2 
xt x2t xt n


x2t /n x
1
=  .
(xt x)2
x 1

On sapercoit quen multipliant cette matrice par 2 , on obtient la matrice:


 
V (a) Cov a, b

    .
Cov a, b V b

Ceci peut etre generalise! En ajoutant des variables explicatives supplementaires (des
colonnes a la matrice X) on obtient le modele de regression multiple.

On note limportance de lhypothese H5 : si xt = pour tout t, (xt x)2 = 0,
det X  X = 0 et les equations normales nont pas de solution unique.

1.7 Theoreme de Gauss-Markov

Nous ne verrons ici quun cas particulier de ce theoreme (une version plus generale sera
vue en regression multiple).
Nous avons vu que les estimateurs de moindres carres sont sans biais et convergents.
Sont-ils de variance minimale? La reponse est: oui, dans la classe des estimateurs sans biais
et lineaires. Nous allons verier cette propriete dans le cas de b.
Un estimateur lineaire arbitraire de b peut secrire comme:
54 P. DESCHAMPS, COURS DECONOMETRIE

 
b = ct yt = ct (a + bxt + ut )
  
= a ct + b ct xt + ct ut ,
  
une condition necessaire et susante pour que E b = b pour tout (a, b) est ct = 0,

ct xt = 1. Alors:

   2  2
V b = E b b = E ct ut

= 2 c2t .
 
On va minimiser cette variance sous la contrainte E b = b et montrer que la solution
est ct = wt .
Comme la minimisation de V (b) est equivalente a celle de V (b)/ 2 , le Lagrangien secrit:
   
= c2t + 1 ct + 2 ct xt 1

et les conditions de premier ordre sont donc:



= 2ct + 1 + 2 xt = 0 (t = 1, . . . , n)
ct

Pour eliminer 1 et 2 a laide des contraintes, nous pouvons utiliser:

n n
 n


= 2 ct + n1 + 2 xt = 0
t=1
ct t=1 t=1
n n n
 n


xt = 2 ct xt + 1 xt + 2 x2t = 0 .
t=1
c t t=1 t=1 t=1

 
En utilisant les contraintes ct = 0, ct xt = 1:

n1 + 2 xt = 0

 
2 + 1 xt + 2 x2t = 0

n xt 1 0
= .
 
xt x2t 2 2
SECONDE PARTIE, CHAPITRE I 55

Linverse de la matrice des coecients a deja ete calculee ((X  X)1 ). On peut donc
calculer la solution du systeme comme:

 
1 x2t xt 0
1
= 
n (xt x)2 
2 xt n 2


(xt x)2
2x/
= .

2/ (xt x)2


En substituant ces valeurs dans =0:
ct

x xt
2ct = 2  + 2
(xt x)2 (xt x)2

(x x)
ct =  t = wt .
(xt x)2

Cette valeur de ct minimise donc bien la variance sous la contrainte que lestimateur
soit sans biais.

1.8 Estimation de la variance des erreurs

Les variances et la covariance calculees dans les sections 1.4.2 et 1.4.3 dependent du
parametre
 inconnu 2 . Une procedure naturelle serait de calculer la variance dechantillon
1 2 , et de corriger un biais eventuel, pour arriver a un estimateur de 2 .
(ut u)
n

 
2 =  u2
En fait, ut u t , car
    
ut = yt a bxt = yt na b xt = 0

en vertu de la premiere equation normale (Section 1.3). Nous allons prouver que
 
E u2t = (n 2) 2

1

et que donc s2 = n2
u2t est un estimateur sans biais de 2 .
56 P. DESCHAMPS, COURS DECONOMETRIE

Nous avons:

ut = yt a bxt
= a + bxt + ut (y bx) bxt
= a + bxt + ut a bx u + bx bxt
= ut u + (b b)(xt x) .

Alors
  
u2t = (ut u) + (b b) (xt x) + 2(b b)(xt x)(ut u)
2 2 2

  
= (ut u)2 + (b b)2 (xt x)2 + 2(b b) (xt x)(ut u) .

Mais
  
(xt x)(ut u) = (xt x) 2
wt (ut u)

= (b b) (xt x)2
 
puisque wt (ut u) = wt ut = b b.

Donc
   
u2t = (ut u)2 + (b b)2 (xt x)2 2(b b)2 (xt x)2
 
= (ut u)2 (b b)2 (xt x)2 .

Calculons separement lesperance de chacun de ces termes.

   
1  2 n
E (ut u) 2
= E u2t ( ut ) = n 2 2 = (n 1) 2
n n
  
E (b b)2 (xt x)2 = 2 .

 2 
Et donc E ut = (n 2) 2 , Q.E.D.
On peut interpreter la division par n 2 de la maniere suivante. Precedemment (a la
section 4.1 de la premiere partie), nous avions vu que pour obtenir un estimateur sans biais
de la variance, on devait diviser par n 1 la somme des carres des deviations par rapport a
la moyenne. Cette division par n 1 etait en fait due a la presence dune condition liant les
SECONDE PARTIE, CHAPITRE I 57

deviations par rapport a la moyenne: la somme de ces deviations est identiquement nulle.
Dans le cas qui nous occupe, nous avons deux conditions liant les residus ut , a savoir:
n

ut = 0
t=1

n

ut xt = 0
t=1

Si nous connaissons n2 des residus, nous pouvons determiner les valeurs des deux derniers
a laide de ces conditions.

1.9 Decomposition de la variance: le coecient de determination


(yt y)2
Nous allons voir que la variance totale des y, soit , peut etre decomposee
n
en une somme de deux variances, celle des y (partie expliquee par la regression) et celle
des u (partie residuelle). Ceci nous permettra de denir le coecient de determination, qui
permet de mesurer la qualite de lajustement lineaire.
A cette n, nous prouverons que :

  2 
(yt y)2 = yt y + u2t

soit SCT = SCE + SCR .


En guise detape preliminaire, demontrons une formule de calcul commode pour u2t .
 2  
Lemme ut = (yt y)2 b2 (xt x)2

Demonstration

ut = yt yt = yt a bxt
= (yt y) b(xt x) .

Donc
  2
  2
u2t = (yt y) 2b (xt x) (yt y) + b2 (xt x) .

  2
Mais (xt x) (yt y) = b (xt x) , donc
58 P. DESCHAMPS, COURS DECONOMETRIE

  2
 2
u2t = (yt y) b2 (xt x) , Q.E.D.

Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
 
b2 (xt x)2 = (yt y)2 .

Mais ceci est evident car :

 
2=
(yt y) (a + bxt a bx)2 .

On denit alors le coecient de determination comme :

SCE SCR
R2 = = 1
SCT SCT

et lon a 0 R2 1 . Plus R2 est proche de lunite, plus grand est le pourcentage de la


variance totale expliquee par la regression, et meilleure est donc la qualite de lajustement.
Mentionnons des a present une interpretation statistique plus ne du R2 . Nous demon-
trerons, en regression multiple, que si b = 0, (n 2)R2 /(1 R2 ) suit le carre dune loi
de Student avec n 2 degres de liberte. Avec un seuil de signication , le R2 sera donc
bon si:
(n 2)R2
> t2n2,/2
1 R2
SECONDE PARTIE, CHAPITRE I 59

1.10 Exemple numerique

Poursuivons lexemple de la section 1.3. Nous avions trouve les valeurs a = 0.1 et
b = 1.9. On a de plus:

x = 3
y = 5.6

(xt x)2 = 10

(yt y)2 = 37.20

u2t = 37.20 (1.9)2 (10) = 1.10
1.10
s2 = = 0.37
3
0.37
s2b = = 0.037
10  
1 9
s2a = 0.37 + = 0.403
5 10
(0.37)3
sab = = 0.11
10
1.10
R2 = 1 = 0.97 .
37.20

Nous pouvons presenter ces resultats comme:

yt = 0.1 + 1.9 xt (R2 = 0.97)


(0.635) (0.192)

ou les nombres entre parentheses sont les estimations des ecarts-types des coecients
estimes. On peut aussi les presenter comme:

yt = 0.1 + 1.9 xt (R2 = 0.97)


(0.157) (9.88)

ou les nombres entre parentheses sont les rapports entre les coecients estimes et les
estimations de leurs ecarts-types. On appelle ces rapports les rapports t (t-ratios); ils nous
serviront dans le cadre des tests dhypotheses.
60 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE II.

LA REGRESSION SIMPLE: INTERVALLES


DE CONFIANCE ET TESTS DHYPOTHESES

2.1 Tests sur les coecients individuels

a et b ne sont que des estimateurs ponctuels de a et de b. Dans ce chapitre, nous nous


eorcerons denoncer des jugements de probabilite du type :
 
P b b b = 1 , ou est une constante appelee niveau de signication.
Un tel jugement de probabilite doit se lire :
Jai une probabilite de 1 de ne pas me tromper lorsque jarme que b est compris
entre b et b.
Les bornes b et b vont dependre de b et de sa variance. Elles sont donc aleatoires, au
meme titre que b.
Elles dependront
 aussi
 de la distribution de b. Si cette distribution est symetrique autour
de b, lintervalle b, b aura b comme point median. Ce sera le plus petit intervalle ayant
une probabilite 1 de contenir b.
Il nous faut donc maintenant specier la distribution de a et b, ce qui necessite une
hypothese sur la distribution des erreurs ut . Si nous faisons lhypothese de normalite :

H6 : ut N (0, 2 )
 
a = a + zt ut et b = b + wt ut seront normales, puisque ce sont alors des combinaisons
lineaires de variables normales independantes.
Quelles seront alors les formes de a, a, b et b?
Si 2 etait connue, nous aurions :

b b a a
N (0, 1) et N (0, 1)
b a

 
2 1 x2
avec b2 =  , a2 = 2
+  .
(xt x)2 n (xt x)2
SECONDE PARTIE, CHAPITRE II 61

Nous pourrions alors ecrire, par exemple,


 
b b
P z/2 z/2 = 1
b

ou z/2 est la valeur de la variable normale reduite ayant une probabilite 2 detre
depassee.
Nous aurions alors :
 
P b z/2 b b b + z/2 b = 1 .

Les bornes cherchees sont donc :

b = b z/2 b
et b = b + z/2 b .

En pratique, 2 est inconnue. Que se passe-t-il lorsquon la remplace par son estimation
sans biais

2 u2t
s = ?
n2
Pour reprendre lexemple de b :

b b b b
= 
sb u2t 1

n 2 (xt x)2

b b
  
1
2
(xt x)2 N
=   = .
u2t def D
2 (n 2)

N est une variable normale reduite. Nous prouverons rigoureusement plus loin que

u2t
2
62 P. DESCHAMPS, COURS DECONOMETRIE

est une variable 2 avec n 2 degres de liberte, independante de la variable N . Par


denition, le rapport N
D est alors une variable Student avec n 2 degres de liberte.
Donc :
b b a a
tn2 et, de maniere analogue tn2
sb sa

et les intervalles de conance sont donnes par :


 
P b tn2; 2 sb b b + tn2; 2 sb = 1,

 
P a tn2; 2 sa a a + tn2; 2 sa = 1 .

Pour tester :

H0 : b = b0 contre H1 : b = b0

on ne rejettera pas H0 si b0 [b, b].

Pour tester :

H0 : b = b0 contre H1 : b > b0

on rejette H0 si b0 < b tn2; sb .

Pour tester :

H0 : b = b0 contre H1 : b < b0

on rejette H0 si b0 > b + tn2; sb .

Des procedures analogues sont evidemment valables pour le parametre a.

2.2 Test sur les deux parametres a et b

Il sagit ici du test :

H0 : a = a0 et b = b0
contre
H1 : a = a0 ou b = b0 , ou les deux.
SECONDE PARTIE, CHAPITRE II 63

Ce test nest pas equivalent a une juxtaposition des deux tests t sur chaque coecient
de regression. Une methode bivariee simpose, et nos intervalles de conance deviennent
des ellipses. En pratique, on passe par la variable F de Fisher-Snedecor.
La statistique a employer est:

Q/2
Fobs =
s2
   
avec Q = n(a a0 ) + 2nx(a a0 )(b b0 ) +
2
x2t (b b0 )
2
.

Q est toujours positive ou nulle; elle sera dautant plus grande que a et b dierent de
a0 et b0 . Or, ce sont bien les valeurs elevees dune statistique F qui conduisent a rejeter
lhypothese nulle. Par ailleurs, une valeur elevee de s2 reete une mauvaise qualite de
lajustement statistique; il est donc logique quelle nous fasse hesiter a rejeter lhypothese
H0 .
En regression multiple, nous demontrerons que si H0 est vraie, Fobs a la distribution
F2,n2 . On rejettera donc H0 si

Fobs > F2;n2; .

Nous montrerons aussi que Fobs est egale a (n 2)/2n fois la statistique de Wald pour
tester lhypothese H0 : (a, b) = (a0 , b0 ) contre H1 : (a, b) = (a0 , b0 ). Ceci fournit une
premiere justication rigoureuse de lemploi de cette statistique.

2.3 Test sur une combinaison lineaire des coecients

Un estimateur sans biais dune combinaison lineaire = a + b des coecients a et b


est bien sur:

= a + b.

An de construire un intervalle de conance pour , nous devons estimer la variance de


:

V (a + b) = 2 V (a) + 2 V (b) + 2 Cov(a, b)


   
1 x2 2 x
= 2
2
+ + 2
n (xt x)2 (xt x)2 (xt x)2

 
2 ( x)2
= 2
+ .
n (xt x)2
64 P. DESCHAMPS, COURS DECONOMETRIE

En utilisant le meme raisonnement que precedemment (section 2.1.), on peut montrer


que :

a b
 tn2
2 ( x)2
s +
n (xt x)2

et un intervalle de conance est donc donne par les deux bornes



2 ( x)2
a + b tn2; 2 s + .
n (xt x)2

2.4 Prevision

Que se passerait-il si nous voulions trouver un intervalle de conance sur une valeur
future y de y? On parlerait alors dintervalle de prevision. Supposons par exemple que
y = a+bx+u soit une fonction de consommation, que nous possedions des donnees annuelles
entre 1960 et 1981 sur la consommation et le revenu national, et que nous voulions predire
la consommation pour lannee 1982, conditionnellement a une projection x du revenu
national pour 1982.
Sous lhypothese que le modele reste inchange, nous aurons:

y = a + bx + u et
y = a + bx sera sans biais .

La variable y y = u (a a) (b b)x est normale, de parametres:

E(y y ) = 0
V (y y ) = E(y y )2
= E(u2 ) + E((a a) + (b b)x )2

puisque a et b ne dependent que de u1 , u2 , . . . un , et que E(ui u ) = 0, i = 1, 2, . . . , n:


On a donc bien E(au ) = E(bu ) = 0.

Le premier terme de la somme est egal a 2 . Le second terme peut etre calcule a laide
des resultats de la section 2.3, en posant = 1 et = x . Nous avons donc:
 
1 (x x)2
E(y y ) 2
= 1+ + 
2
n (xt x)2
SECONDE PARTIE, CHAPITRE II 65

et les bornes de lintervalle de prevision sont donnees par



1 (x x)2
y tn2; 2 s 1+ + .
n (xt x)2

2.5 Exemple numerique

Reprenons lexemple numerique du chapitre 1. Nous avons t3;0.025 = 3.182. Un intervalle


de conance sur b correspondant a = 0.05 sera donc donne par:

 
1.9 (3.182) 0.037 , 1.9 + (3.182) 0.037 = [1.29 , 2.51] .

On rejettera donc, par exemple, lhypothese:

H0 : b = 1.2
mais on ne rejettera pas lhypothese:

H0 : b = 1.5.

Pour tester:

H0 : a = 0.15 et b = 2.5
contre H1 : a = 0.15 ou b = 2.5

on construit la statistique


1
Fobs = 5(0.10 + 0.15)2 + 2 5 3(0.10 + 0.15)(1.9 2.5)
2(0.37)

+ 55(1.9 2.5)2

18.9125/2
= = 25.79 .
0.37

On a F2;3;0.05 = 9.55 et F2;3;0.01 = 30.82 .


On ne rejette donc pas H0 pour = 0.01 , mais on la rejette pour = 0.05.
66 P. DESCHAMPS, COURS DECONOMETRIE

Un intervalle de conance sur y0 = E [y | x = 3.5] a pour bornes :

1 (3.5 3)2
0.1 + (1.9)(3.5) (3.182)(0.61) + si = 0.05.
5 10
Ce qui donne [5.636 , 7.464].
Un intervalle de prevision sur y6 = a + b(6) + u6 au niveau de signication = 0.01
aura pour bornes:

1 (6 3)2
0.1 + (1.9)(6) (5.841)(0.61) 1 + +
5 10
ce qui donne [6.175 , 16.426].
SECONDE PARTIE, CHAPITRE III 67

CHAPITRE III

COMPLEMENT DALGEBRE MATRICIELLE

3.1. Formes quadratiques

Soit x un vecteur n 1. Une forme quadratique est une expression du type x Ax, ou
A est une matrice symetrique n n. Elle est dite denie non negative si x Ax 0 pour
tout x; denie positive si x Ax > 0 pour tout x = 0; semi-denie positive si x Ax 0 pour
tout x et si rang (A) = n. La meme terminologie sapplique a la matrice A. Rappelons
sans autres commentaires quelques proprietes importantes des matrices symetriques et des
matrices denies.

3.1.1 Proprietes des matrices symetriques.

Si A = A :
(1) Ses valeurs propres sont toutes reelles.
(2) A deux valeurs propres dierentes correspondent des vecteurs propres orthogonaux.
(3) On peut associer k vecteurs propres orthogonaux a une valeur propre de multiplicite
k.
(4) Il existe une matrice C orthogonale, dont les colonnes sont les vecteurs propres de
A, telle que:
C  AC = diag(1 , 2 , . . . , n ) ou les i sont les valeurs propres de A.
(5) Le rang de A est egal au nombre de valeurs propres de A non nulles.

3.1.2 Proprietes des matrices denies non negatives.

(1) Une matrice A dordre n est denie non negative si et seulement si (a) toutes ses
valeurs propres sont non negatives, ou (b) il existe une matrice B de dimensions
m n et de rang m telle que B  B = A.
(2) Si A est denie non negative, alors (a) aii 0 pour tout i, et (b) B  AB est denie
non negative pour toute matrice B de dimensions n m.
68 P. DESCHAMPS, COURS DECONOMETRIE

3.1.3 Proprietes des matrices denies positives.

(1) Si A est denie positive, alors:


A est reguliere.
aii > 0 pour tout i.
Si B est n m et de rang m, B  AB est denie positive (corollaire: B  B est
denie positive).
(2) A est denie positive si et seulement si:
Il existe une matrice B reguliere telle que A = B  B, ou:
Toutes ses valeurs propres sont strictement positives, ou:
Tous ses mineurs principaux sont strictement positifs, ou:
Tous les mineurs principaux de A alternent en signe, en commencant par
moins, ou:
Il existe une matrice D reguliere telle que DAD = I.

3.2 Matrices symetriques idempotentes

Soit A une matrice n n avec A = A et AA = A. Nous avons les resultats suivants:

3.2.1 A est reguliere si et seulement si A = I.

Demonstration
Si A est reguliere, premultiplions les deux membres de AA = A par A1 . Cela donne:

A1 AA = A1 A,

soit aussi IA = I. La reciproque est immediate.

3.2.2 Les valeurs propres de A sont 0 ou 1.

Demonstration
Si est une valeur propre de A, Ax = x pour un vecteur x = 0. En premultipliant les
deux membres par A:
AAx = Ax,

donc aussi Ax = 2 x, en utilisant AA = A et Ax = x; nous avons alors x = 2 x, ce qui


demontre la propriete.
SECONDE PARTIE, CHAPITRE III 69

3.2.3 Le determinant de A est 0 ou 1.

Demonstration
Evidente, car le determinant dune matrice est egal au produit de ses valeurs propres.

3.2.4 Le rang de A est egal a sa trace.

Demonstration
Comme A est symetrique, il existe une matrice orthogonale C telle que C  AC =
diag(1 , 2 , . . . , n ).
On a alors:

tr A = tr CC A = tr C  AC
= tr diag(1 , 2 , . . . , n )
= rang de A

puisque CC  = I, et puisque les i sont egaux a 0 ou 1, le nombre de uns etant le rang


de A.

3.3 Linversion en forme partagee

Soit A une matrice n n, reguliere, partagee comme suit:


 
E F
A=
G H

et supposons que E et D = H GE 1 F soient regulieres. Alors:



E 1 (I + F D1 GE 1 ) E 1 F D1
A1 =
1 1 1
D GE D

On verie en eet par multiplication que AA1 = I.

3.4 Notions de derivation matricielle

Si = (x) est un scalaire et x est 1 n:


 

= ...... .
x x1 xn
70 P. DESCHAMPS, COURS DECONOMETRIE

De meme, si x est n 1:

/x1
..
= . .
x
/xn

Si v = v(x) et x sont des vecteurs (lignes ou colonnes) ayant respectivement n et m


elements:
v1 vn
x1
... x1
v ..
= ... .
x
v1 vn
xm ... xm

est la matrice Jacobienne de v(x).

Dans cette notation, nous avons, si A est n m:



a11 a21 ... an1
(Ax)
=
... .. .. = A .
x . .
a1m a2m ... anm

De meme:

(x A)
=A .
x
Pour une forme quadratique, si A est n n et symetrique, on a:

(x Ax)
= 2Ax .
x
 
Par exemple, si A = 2 1
1 3
, on a x Ax = 2x21 + 2x1 x2 + 3x22 , et

 4x1 + 2x2
(x Ax)
= = 2Ax .
x
2x1 + 6x2
SECONDE PARTIE, CHAPITRE IV 71

CHAPITRE IV

COMPLEMENT DANALYSE STATISTIQUE MULTIVARIEE

4.1 La loi normale multivariee

La densite normale univariee, de parametres m et 2 :


 
1 1
fX (x) = exp 2 (x m)2
2 2
peut etre generalisee a la densite normale multivariee, fonction de densite jointe des compo-
santes dun vecteur aleatoire:

X1
.
X = .. .
Xn

Cette generalisation est la suivante:


! "
n/2 12 1  1
fX (x) = (2) (det ) exp (x ) (x ) , ou:
2

E (X1 )
..
= . = E (X)
E (Xn )
est le vecteur des esperances mathematiques des composantes de X, et est une matrice
denie positive, dite matrice de covariance, avec

[]ii = V (Xi ) = E(Xi i )2 et

[]ij = Cov(Xi , Xj ) = E(Xi i )(Xj j ) .


72 P. DESCHAMPS, COURS DECONOMETRIE

On a donc:

11 12 ... 1n
! " ..
 22 .
= E (X )(X ) = .12 ..
.. .
1n ... nn
on ecrira X N (, ).

4.2 Fonctions lineaires et quadratiques de variables normales

4.2.1 Fonctions lineaires.

Soit X N (, ), B une matrice m n de constantes, de rang m, et A un vecteur


m 1 de constantes. Alors Y = BX + A est N (B + A, BB  ).
Nous ne prouverons pas la normalite de Y . Il est neanmoins facile de calculer E(Y ) et
la matrice de covariance V (Y ):

E(Y ) = E(BX + A) = BE(X) + E(A) = B + A

V (Y ) = E [(BX + A B A) (BX + A B A) ]


= E [(BX B) (BX B) ]
= BE [(X ) (X ) ] B  = BB  .

Exercice: Un portefeuille contient n actifs nanciers de rendements Xi , pour i = 1, . . . , n.


Ces rendements forment un vecteur X. X est aleatoire de distribution N (, ). Les sommes
n sont de vi , pour i = 1, . . . , n, et le rendement global du
investies dans chacun des n actifs
portefeuille est donc de = i=1 vi Xi . Lutilite de ce rendement est egale a U() =
a c exp(b), ou a, b, et c sont des parametres strictement positifs. Montrez que la
composition du portefeuille qui maximise lesperance dutilite est donnee par le vecteur
v = 1b 1 . (On utilisera la fonction generatrice des moments dune variable normale,
obtenue a la section 2.3 de la premiere partie.)

4.2.2 Sous-vecteurs dun vecteur normal.

Soit X N (, ), partage comme suit:



X1 n1
X =
X2 n n1
SECONDE PARTIE, CHAPITRE IV 73

Nous pouvons alors partager et de la facon suivante:



1 n1 11 12 n1
= , =
2 n n1 21 22 n n1
n1 n n1

alors X1 N (1 , 11 ) et X2 N (2 , 22 ).

Demonstration

Soit B une matrice n1 n denie comme:

B = ( In 1 On1 (nn1) ) .

Nous avons BX = X1 , et le theoreme de la section 4.2.1 nous permet de determiner la


distribution de X1 . Nous avons X1 N (B, BB  ) avec B = 1 et


11 12 In 1
BB  = ( In 1 On1 (nn1) )
21 22 O(nn1 )n1
= 11 .

La derivation de la distribution de X2 se fait de maniere analogue.

4.2.3 Formes quadratiques.

Soit X N (0, I) (un vecteur n 1).


Soit M une matrice non stochastique, idempotente et symetrique de rang k.
Alors X  MX 2k .

Demonstration

En vertu des proprietes de M, il existe une matrice orthogonale C telle que



Ik Ok(nk)
C  MC = .
O(nk)k O(nk)(nk)

Soit Y = C  X. Nous avons Y N (0, C  IC), cest-a-dire Y N (0, I). Par consequent:
74 P. DESCHAMPS, COURS DECONOMETRIE

X  MX = X  (CC )M(CC  )X
= X  C(C MC)C  X

Ik O k

= Y Y = Yi2 2k .
O O i=1

4.2.4 Independance des fonctions lineaires et des formes quadratiques.

Soit X N (0, I) (un vecteur n 1)


B une matrice m n de rang m, non stochastique
M une matrice n n idempotente et symetrique, de rang k, non stochastique.

Si BM = O, la forme lineaire BX est independante de la forme quadratique X  MX.

Demonstration

Soit C la matrice orthogonale de la section 4.2.3 et Y = C  X.


Soit alors F = BC = ( F1 F2 ) ou F1 est m k.
On a
Ik O
( F1 F2 ) = BCC  MC = BMC = O,
O O

ce qui implique F1 = O. Alors BX = BCY = F Y = (O F2 ) Y ne depend que des


n k derniers elements de Y , qui sont independants des k premiers, puisque Y N (0, I).
k
Comme X  MX = i=1 Yi2 , la proposition est demontree.

4.2.5 Independance de deux formes quadratiques.

Soit X N (0, I) (un vecteur n 1)


M une matrice n n idempotente et symetrique de rang k, non stochastique
M une matrice n n idempotente et symetrique de rang r, non stochastique.

Si MM = O , alors les formes quadratiques X  MX et X  M X sont independantes.


SECONDE PARTIE, CHAPITRE IV 75

Demonstration

Soit C la matrice orthogonale precedente et Y = C  X.


Considerons alors la matrice symetrique:

G1 G2
G = = C M C ou G1 est k k .

G2 G3
On a:
G1 G2 Ik O
= C  M CC MC = C  M MC = O

G2 G3 O O
ce qui implique G1 = O, et G2 = O, donc aussi G2 = O. Par consequent:

O O
X  M X = X  CC M CC X = Y  GY = Y  Y
O G3

ne depend que des n k derniers elements de Y , qui sont independants des k premiers;
k
comme X  MX = i=1 Yi2 , la proposition est demontree.

4.3 Application: calcul de la distribution sous H0 de la statistique t

Test: H0 : = 0 contre H1 : = 0
Echantillon: yi N (, 2 ) independantes.
On a vu au chapitre V de la premiere partie que la statistique a employer est:

y 0 1  2
tobs = avec s2 = (yi y) .
s/ n n1
Quelle est la distribution de tobs si H0 est vraie? On va montrer que tobs tn1 .
Solution: on peut ecrire:

y 0

/ n N
tobs =  =
(yi y)
2 D
(n 1) 2

Si H0 est vraie, N N (0, 1).


Nous montrerons au cours que:
N = Bx

(yi y)2
2
= x Mx

76 P. DESCHAMPS, COURS DECONOMETRIE

ou:
y 0 i
x=

1
B = i
n
1 
M =I ii
n
i etant un vecteur n 1 dont tous les elements sont unitaires.
Si H0 est vraie, x N (0, I).
Nous montrerons au cours que M est symetrique, idempotente, de rang n 1; Nous
montrerons de plus que BM est un vecteur nul.
Alors le theoreme de la section 4.2.3 implique que D est la racine dune 2n1 divisee
par n 1 et le theoreme de la section 4.2.4 implique lindependance de N et de D.
Alors, par denition, tobs tn1 .
SECONDE PARTIE, CHAPITRE V 77

CHAPITRE V

LE MODELE DE REGRESSION MULTIPLE

5.1 Le modele et ses hypotheses

Les notions presentees dans les deux chapitres precedents vont nous permettre de gene-
raliser les resultats des chapitres I et II a un modele econometrique possedant un nombre
arbitraire k de variables explicatives, soit:

yt = 1 + 2 xt2 + 3 xt3 + . . . + k xtk + ut pour t = 1, 2, . . . , n .

Pour prendre un exemple, il est raisonnable de supposer quune loi de demande com-
prenne comme variable explicative non seulement le prix PY du bien demande, mais aussi
le prix PX dun substitut et le revenu R du consommateur. Nous aurions alors:

yt = 1 + 2 (PY )t + 3 (PX )t + 4 Rt + ut .

Une formulation matricielle du modele simpose. Il peut secrire sous la forme suivante:

y1 1 x12 ... x1k 1 u1
y2 1 x22 ... x2k 2 u2
. = . .. .. .. . + .
. .. . . . . ..
. .
yn 1 xn2 ... xnk k un

soit y = X + u, ou y est un vecteur n 1 dobservations sur la variable dependante, X


est une matrice n k dobservations sur les variables explicatives, est un vecteur k 1
de parametres inconnus et u est un vecteur n 1 derreurs aleatoires inobservables.
Nous faisons les hypotheses suivantes:

H1 : E(u) = 0
H2 : E(uu ) = 2 I
H3 : X est non aleatoire
H4 : rang(X) = k < n .
78 P. DESCHAMPS, COURS DECONOMETRIE

Lhypothese H2 implique que les erreurs sont de meme variance, et non correlees. Si
lhypothese H4 netait pas satisfaite, il existerait une relation lineaire exacte entre certaines
des colonnes de X: En substituant cette relation dans lequation de regression, on pourrait
alors supprimer un regresseur. Ceci revient a dire que le vecteur ne pourrait pas etre
estime de maniere unique.
Notons que nous ne faisons pas encore dhypotheses sur la forme fonctionnelle de la
distribution de u.

5.2 Les estimateurs de moindres carres

Lestimateur de moindres carres sera obtenu, comme precedemment, en minimisant


la somme des carres des residus. Le vecteur des residus est u = y X . Cette somme de
carres peut donc secrire:

u u = (y X ) (y X )

   
= y  y X  y y X + X X

   
= y  y 2 X y + X X .

En utilisant les regles de la Section 3.4, on obtient:



u u  
= 2X y + 2X X = 0 .


Comme X est de rang k, X X est denie positive, donc reguliere (voir 3.1.3. (1)), et
nous pouvons ecrire:
 
= (X X)1 X y .

Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque
 

u u 
= 2X X ,


une matrice denie positive, ce qui montre que u u est convexe en .
SECONDE PARTIE, CHAPITRE V 79

5.3 Moments des estimateurs de moindres carres

5.3.1 Esperance de .

est un estimateur sans biais de puisque:

  

E() = E (X X)1 X (X + u)

  
  
= E + (X X)1 X u = + (X X)1 X E(u) = .

5.3.2 Matrice de covariance de .

La matrice de covariance de est alors:

 

V () = E ( )( )

    

1 1
= E (X X) X uu X(X X)

   
= (X X)1 X E(uu )X(X X)1

   
= 2 (X X)1 (X X)(X X)1 = 2 (X X)1 .

5.4 Le theoreme de Gauss-Markov

Nous allons montrer que est le plus ecace des estimateurs lineaires de . Plus
precisement, si est un autre estimateur lineaire sans biais de , cest-a-dire si E() =
et = Ay, les variances de ses composantes ne peuvent etre inferieures a celles des
composantes de :

V (i ) V (i ) , pour i = 1, 2, . . . , k .
80 P. DESCHAMPS, COURS DECONOMETRIE

Demonstration

Soit donc = Ay un autre estimateur lineaire de . Nous pouvons supposer sans perte
de generalite que:
 
A = (X X)1 X + C.
Alors:
  

= (X X)1 X + C (X + u)
 
= + (X X)1 X u + CX + Cu = [I + CX] + Au

est un estimateur sans biais de si et seulement si CX = O. Nous imposons donc cette


condition, qui implique que = + Au.
La matrice de covariance de est alors:

 
   

E ( )( ) = E Auu A


= 2 AA

  
  

= 2 (X X)1 X + C X(X X)1 + C

      

= 2 (X X)1 + (X X)1 X C + CX(X X)1 + CC

  

= 2 (X X)1 + CC puisque CX = O


= V () + 2 CC .


Mais les elements de la diagonale de CC sont des sommes de carres, donc non negatives.
Les variances des composantes de sont donc superieures ou egales aux variances des
composantes de .
SECONDE PARTIE, CHAPITRE V 81

5.5 Lestimation de la variance des erreurs

Comme precedemment (section 1.5) notre estimateur sans biais sera base sur
  2
2 =
(ut u) = 0. (En eet, la premiere ligne de la matrice (X  X) est
ut puisque u
   
le vecteur i X avec i = [1, 1 . . . 1] ; la premiere composante du vecteur X y est i y. La
    
premiere equation normale secrit alors i X = i y, ou i (y X ) = i u = ut = 0). Pour

trouver, comme precedemment, un estimateur sans biais de 2 , calculons E(u u).
Nous avons
 
u = y X = X + u X(X X)1 X (X + u)

 
= X + u X X(X X)1 X u

  

= I X(X X)1 X u = Mu .
def

On verie aisement que M est idempotente et symetrique.


  
Alors u u = u M  Mu = u Mu .

   
E(u u) = E(u Mu) = E(tr u Mu) puisque u Mu est un scalaire


= E(tr Muu ) puisque trAB = trBA


= trE(Muu ) puisque la trace est une somme


= trME(uu ) puisque M est non aleatoire

= trM( 2 I) = 2 tr(MI) = 2 trM .

 
Mais trM = trIn trX(X X)1 X

 
= trIn tr(X X)(X X)1 = trIn trIk

= nk.
 
u u
Alors E(u u) = (n k) 2 et s2 = nk est un estimateur sans biais de 2 .
82 P. DESCHAMPS, COURS DECONOMETRIE

5.6 Decomposition de la variance: les coecients de determination R2 et R2


Nous commencons, comme a la section 1.9, par demontrer une formule de calcul de u u.

Lemme
   
u u = y y X y .

Demonstration


u u = (y X ) (y X )

    
= y y 2 X y + (X X)

    
= y y X y puisque (X X) = X y .

Nous decomposons maintenant, comme precedemment en regression simple (section 1.9),


la somme des carres totaux en une somme de deux termes:

 2
 2 
(yt y) = yt y + u2t , soit:

SCT = SCE + SCR .

 

(i y)2
Pour demontrer cette identite, notons que (yt y)2 = y y n

 (i X )2



et (yt y) 2
= (X ) (X )
n


 (i y)2

= (X X)
n

  
(puisque i y = i X + i u et i u = 0)


 (i y)2

= X y .
n
SECONDE PARTIE, CHAPITRE V 83

   
Par le lemme, nous avons y y = u u + X y,
 
  

 (i y)2  (i y)2
 
donc y y = X y + u u ,
n n

cest-a-dire SCT = SCE + SCR , Q.E.D.


Il faut bien noter que cette identite nest valable que dans un modele ou la somme des
residus est nulle (i u = 0). Tel sera bien le cas lorsque le modele de regression comporte un
terme constant, puisque i est la premiere ligne de X  et puisque les equations normales
impliquent X  u = 0.
A partir de cette identite, nous pouvons denir, dans un modele avec terme cons-
tant, le coecient de determination comme:

  (i y)2
SCE SCR X y n
R2 = =1 =  2
.
SCT SCT y  y (i ny)

u u
Comme SCR 2
n = n est un estimateur biaise de , il est preferable demployer le coef-
cient de determination ajuste, deni comme suit:

SCR/n k n1 2 k1
R2 = 1 = R
SCT/n 1 nk nk
qui est, lui, base sur des estimateurs sans biais des variances. Si lon ajoute un regresseur,
R2 crotra toujours (non strictement); ceci nest pas le cas pour R2 .
Dans un modele sans terme constant, la somme des residus nest pas necessaire-
ment nulle et la decomposition precedente (SCT = SCR +SCE) nest donc plus valable.
Le R2 precedent nest donc pas necessairement compris entre 0 et 1. Neanmoins, on a
toujours, en vertu du lemme:
y  y =  X  y + u u = y  y + u u
avec y = X .
On peut alors denir:

y  y u u
R2 =  =1 
yy yy
qui est, lui, toujours compris entre 0 et 1. Ce coecient R2 peut etre utilise dans tous
les cas, tant dans un modele sans constante que dans un modele avec constante. Mais son
interpretation est dierente de celle du R2 .
Comme precedemment, nous pouvons ajuster ce dernier coecient de determination
aux nombres de degres de liberte, comme suit:
u u/(n k) n1 2 k1
R2 = 1 = R .
y y/(n 1)
 nk nk
84 P. DESCHAMPS, COURS DECONOMETRIE

Interpretation des coecients de determination:


Nous verrons plus loin que R2 est une fonction monotone de la statistique F a employer
pour tester la nullite de tous les coecients de regression sauf la constante.
Nous verrons aussi que R2 est une fonction monotone de la statistique F a employer
pour tester la nullite de tous les coecients, constante comprise.
On peut montrer que R2 est le carre du coecient de correlation entre les valeurs
observees yt et les valeurs yt calculees a laide de lequation de regression estimee.

5.7 Problemes particuliers: multicolinearite,


biais de specication, variables muettes

5.7.1 Multicolinearite.

(1) Comme nous lavons deja mentionne, lexistence dune relation lineaire exacte entre
les colonnes de X nous empeche de determiner lestimateur de maniere unique. Ce
cas est un cas extreme de multicolinearite. Mais il arrive souvent que certaines des
colonnes de X presentent une dependance lineaire approximative. Les consequences
de ce phenomene sont les suivantes:
un manque de precision dans les estimations des i , se traduisant par de fortes
variances;
les estimations des i presenteront souvent des distortions importantes, dues a
des raisons numeriques. Le nombre de chires signicatifs des emplacements-
memoire dun ordinateur est en eet limite, ce qui se traduit par un manque
de stabilite des programmes dinversion matricielle, pour des matrices qui
sont presque singulieres.
Pour illustrer le premier point, reprenons le modele de regression simple
yt = a + bxt + ut . Nous avons vu que

2
V (b) =  .
(xt x)2

La multicolinearite se traduira dans ce cas par une serie dobservations


 (xt ) presque
constante, cest-a-dire par xt x pour tout t. On a alors (xt x)2 0, ce qui
se traduit par une forte variance de b.
(2) La multicolinearite peut etre mesuree en calculant le rapport max
min de la plus grande

a la plus petite valeur propre de X X.
(3) Pour corriger le probleme de multicolinearite, on peut:
soit ajouter des observations a lechantillon quand la chose est possible; il
faut neanmoins que les observations supplementaires ne presentent pas de
multicolinearite!
Soit introduire une information a priori. Supposons par exemple que dans la
fonction de production:
SECONDE PARTIE, CHAPITRE V 85

log Qt = A + log Kt + log Lt + ut

les variables log Kt et log Lt soient fortement colineaires. Si lon sait que les
rendements dechelle sont constants ( + = 1), on peut transformer le modele
comme suit:

log Qt = A + log Kt + (1 ) log Lt + ut


ou (log Qt log Lt ) = A + (log Kt log Lt ) + ut ,

ce qui a donc pour eet de supprimer un regresseur. Ceci peut resoudre le pro-
bleme. Essentiellement, linformation a priori + = 1 supplee au defaut dinfor-
mation present dans lechantillon (tentative destimer trop de parametres avec trop
peu de donnees).
Cette information a priori peut egalement prendre une forme stochastique, non
deterministe. Nous etudierons ce point lorsque nous verrons les methodes baye-
siennes.

5.7.2 Biais de specication.

Examinons maintenant le probleme du choix dune forme fonctionnelle, cest-a-dire du


choix de la liste des regresseurs. Comme nous allons le montrer, lomission dune variable
explicative a pour consequence, en general, un biais de lestimateur .
Supposons que y soit engendre par le modele:

y = X + u = X1 1 + X2 2 + u , avec 2 = 0 et E(u) = 0

et que lon omette les colonnes de X2 de la liste des regresseurs. On estimerait alors par
moindres carres le modele

y = X1 1 + u avec u = X2 2 + u

et par consequent E(u ) = X2 2 = 0. Lestimateur:

 
1 = (X  1 X1 )1 X1 y = 1 + (X  1 X1 )1 X1 u

sera biaise.
86 P. DESCHAMPS, COURS DECONOMETRIE

5.7.3 Variables muettes.

Une variable muette, ou binaire (en anglais: dummy variable) est une variable du type
Dt = 1 si t T1

Dt = 0 si t  T1

ou T1 {1, 2, . . . , n}.
Une telle variable, incluse dans la liste des regresseurs, pourrait par exemple indiquer
la presence ou labsence de guerre, ou classier des donnees selon un critere saisonnier.
Pour des donnees mensuelles, sil ny pas de variations saisonnieres a linterieur dun meme
trimestre, on pourrait poser:
D1t =1 si t est un mois du premier trimestre, 0 sinon
D2t =1 si t est un mois du second trimestre, 0 sinon
D3t =1 si t est un mois du troisieme trimestre, 0 sinon
D4t =1 si t est un mois du quatrieme trimestre, 0 sinon.
Les quatre colonnes des regresseurs D1 , D2 , D3 , D4 pour les 12 mois dune annee
auraient alors la forme suivante:

1 0 0 0
1 0 0 0
1 0 0 0

0 1 0 0
0 1 0 0
0 1 0 0

0 0 1 0
0 0 1 0
0 0 1 0

0 0 0 1
0 0 0 1
0 0 0 1

Nous ne pourrions pas inclure de constante dans ce modele, puisque la somme de ces
quatre vecteurs est un vecteur de uns. On aurait alors colinearite parfaite. Les coecients
des variables Di sont en fait des constantes speciques a chaque saison.
SECONDE PARTIE, CHAPITRE V 87

Une autre possibilite serait dinclure une constante, et de supprimer lune des variables
Di , par exemple D1 . Les coecients de D2 , D3 et D4 mesureraient alors leet relatif des
facteurs saisonniers: les constantes speciques seraient 1 , 1 + 2 , 1 + 3 , 1 + 4
plutot que 1 , 2 , 3 , 4 .
Notons aussi que les variables muettes permettent la specication de pentes variables.
Si Dt = 1 pour une periode de guerre, = 0 sinon, et que lon a des raisons de penser que
la propension marginale a consommer dans le modele:

Ct = + Yt + ut

est dierente en temps de paix et en temps de guerre, on pourra estimer les parametres
du modele:

Ct = + bDt Yt + c(1 Dt )Yt + ut

et b sera lestimateur de la propension marginale a consommer en temps de guerre, c


lestimateur de cette propension en temps de paix.

5.8 Estimateurs par maximum de vraisemblance

Nous faisons ici lhypothese que le vecteur u a une distribution normale:

H5 u N (0, 2 I) .

Ce qui implique que y X N (0, 2 I).

La fonction de vraisemblance secrit alors:

! "
2 n/2 1 
2
L(, ) = (2 ) exp 2 (y X) (y X)
2
n n 1 
et loge L = loge 2 loge 2 2 (y X) (y X) .
2 2 2
Nous avons alors les conditions de premier ordre suivantes:

loge L 1
= 2 (2X  y + 2X  X) = 0 (voir Section 5.2).
2

loge L n 1 
= + (y X) (y X) = 0 .
2 2 2 2 4
La premiere condition implique = (X  X)1 X  y. En remplacant par dans la

u u
seconde condition et en la multipliant par 2 2 , on obtient 2 = n comme estimateur de
2 par maximum de vraisemblance.
88 P. DESCHAMPS, COURS DECONOMETRIE

La matrice Hessienne H sobtient en derivant le vecteur


1
 
2 (2X y + 2X X)
2

n 1 
2 + 4 (y X) (y X)
2 2
 

par rapport au vecteur . Ceci donne:
2
(X  X) 1
 
(X y + X X)
2 4
H = .
1    n 1 
(y X + X X) 6 (y X) (y X)
4 2 4
En remplacant par = (X  X)1 X  y et 2 par 2 = 
n (y X ) (y X )
1
, on obtient:

(X  X)
Ok1
2
H = .
n
O1k 4
2
qui est denie negative puisque (X  X) est denie positive et 2 > 0. Nous avons donc
bien un maximum.
SECONDE PARTIE, CHAPITRE V 89

5.9 Exemple numerique

Une association de vignerons vaudois voudrait etudier linuence sur la production de


vin par hectare (Y ) des quantites de main-doeuvre (X1 ) et dengrais (X2 ) employees par
hectare.
Une enquete est menee chez dix vignerons (i = 1, . . . , 10) et lon postule la forme
fonctionnelle suivante:

logYi = 1 + 2 logX1i + 3 logX2i + ui

ou ui est un terme derreur aleatoire satisfaisant nos hypotheses. Les donnees de lechan-
tillon sont resumees dans la matrice suivante:

   
(logY )2 logY logY logX1 logY logX2
  

logY n logX1 logX2

   

logY logX1 logX1 (logX1 )2 logX1 logX2

   
logX2 logY logX2 logX2 logX1 (logX2 )2


19.34 11.8 7.1 4.1


11.8 10 2 2

= .

7.1 2 7 1

4.1 2 1 7

On a:


10 2 2


(X  X) = 2 7 1

2 1 7


11.8

 
Xy = 7.1 et yy = 19.34

4.1
90 P. DESCHAMPS, COURS DECONOMETRIE


48 12 12

 1 1
(X X) = 12 66 6
432
12 6 66

1

 1 
= (X X) X y = 0.7

0.2


X  y = 17.59


u u = 19.34 17.59 = 1.75

s2 = 0.25

1.75
R2 = 1 (11.8)2
= 0.677
19.34 10

9 2
R2 = (0.677) = 0.585 .
7 7

Les resultats peuvent etre resumes de la facon suivante (les estimations des ecarts-types
se trouvent entre parentheses):

log Y = 1 + 0.7 log X1 + 0.2 logX2 (R2 = 0.585)


(0.167) (0.195) (0.195).
SECONDE PARTIE, CHAPITRE VI 91

CHAPITRE VI

MOINDRES CARRES SOUS CONTRAINTES LINEAIRES

6.1 Lestimateur de sous contraintes

Nous deriverons dans ce chapitre lestimateur c du vecteur sous un systeme de J


contraintes independantes, qui peut secrire sous la forme:

Rc = r ,

ou R est une matrice J k de rang J , r est un vecteur J 1, et c est le vecteur des


estimateurs de sous contraintes.
Dans notre exemple precedent, nous pourrions vouloir imposer la contrainte que les
rendements dechelle sont constants, cest-a-dire estimer les parametres 1 , 2 , et 3 de:

logY = 1 + 2 logX1 + 3 logX2 + u ,

sous la contrainte 2c + 3c = 1, ou 2c et 3c sont les estimations contraintes de 2 et


3 . On aurait alors:

R = (0 1 1) et r = 1 .

Notons que ce probleme pourrait aussi etre resolu par substitution; cest ce que nous
avons fait a la section 5.7.1 (3). Mais une presentation matricielle nous sera tres utile
lorsque nous verrons, au chapitre 7, le test de R = r.

Nous minimisons la somme des carres des residus sous les contraintes du systeme
Rc = r. A cette n, nous ecrivons ce systeme comme 2(Rc r) = 0, et nous formons le
Lagrangien:

= (y X c ) (y X c ) 2 (Rc r)

ou est un vecteur ligne de J multiplicateurs de Lagrange. Le systeme de conditions
de premier ordre peut secrire:
92 P. DESCHAMPS, COURS DECONOMETRIE


(1) = 2X  y + 2(X  X)c 2R = 0
c


(2) = 2(Rc r) = 0 .

En vertu de (1), on a:

(3) c = + (X  X)1 R

ou = (X  X)1 X  y est lestimateur sans contraintes.

En premultipliant par R:

Rc = R + R(X  X)1 R

= r (en vertu de (2)) .

 1
Ceci implique = R(X  X)1 R [r R].
En substituant dans (3), il vient:

1  1
(4) c = + (X  X) R R(X  X)1 R [r R] .

On constate que c (lestimateur contraint) diere de (lestimateur non contraint) par


une fonction lineaire du vecteur r R. Ce dernier vecteur sera nul si le vecteur verie
les restrictions a priori .

6.2 Ecacite de lestimateur de sous contraintes

Nous allons maintenant montrer que si les restrictions a priori sont veriees par le
vecteur (c.a.d. par les vraies valeurs des parametres a estimer), lestimateur c est au
moins aussi ecace que lestimateur ; en particulier,

E(c ) = et V (ic ) V (i ) pour tout i.


SECONDE PARTIE, CHAPITRE VI 93

En substituant = + (X  X)1 X  u dans (4), il vient:

1  1  
c = + (X  X) X  u + (X  X)1 R R(X  X)1 R r R R(X  X)1 X  u

  1   1 
= + I (X  X)1 R R(X  X)1 R R (X X) X u

sous lhypothese R = r

= + A(X  X)1 X  u .
def

Comme A est non stochastique, on a E(c ) = ,


  
et V (c ) = E c c
= A(X  X)1 X  ( 2 I)X(X  X)1 A
= 2 A(X  X)1 A .

On verie aisement que si V = 2 (X  X)1 = V (), alors:

 
2 A(X  X)1 A = V V R (RV R )1 RV

 
ou: V (c ) = V () V R (RV R )1 RV .
Comme la seconde matrice de la dierence est denie non negative, les elements de sa
diagonale sont non negatifs et V (ic ) V (i ), Q.E.D.

Exemple

Reprenons le modele et les donnees de la section 5.9. Nous voulons imposer la contrainte
que les rendements dechelle sont constants. On a:

r = 1, R = [0 1 1]

r R = 1 0.7 0.2 = 0.1

1 10
R(X  X)1 R = (66 6 + 66 6) =
432 36
94 P. DESCHAMPS, COURS DECONOMETRIE

et donc:

1 48 12 12 0
 
36 1
c = 0.7 + (0.1) 12 66 6 1
10 432
0.2 12 6 66 1


1 0.02 0.98


= 0.7
+ 0.05
= 0.75 .

0.2 0.05 0.25

6.3 Decomposition de la somme des residus contraints

Nous allons voir dans cette section que la somme des carres des residus contraints est
toujours superieure ou egale a la somme des carres des residus non contraints. Ceci a une
consequence sur le R2 .
Soit uc = y X c le vecteur des residus contraints. On a:

uc uc = (y X c ) (y X c )
= (y X + X X c ) (y X + X X c )
= (u + X[ c ]) (u + X[ c ])
= u u + 2( c ) X  u + ( c ) X  X( c )
= u u + ( c ) X  X( c ).

Mais le second terme de cette somme est positif ou nul, car X  X est denie positive.
On a donc :
uc uc u u
et comme:
ucuc
R2c =1 
(yt y)2
u u
R2 = 1 
(yt y)2
ceci implique R2c R2 .
On peut aussi noter (ceci nous sera utile au chapitre suivant) que si u N (0, 2 I),
lestimateur c maximise la vraisemblance sous la contrainte Rc = r.
SECONDE PARTIE, CHAPITRE VII 95

CHAPITRE VII.

INFERENCE STATISTIQUE EN REGRESSION CLASSIQUE

7.1 Le test de lhypothese lineaire generale

Nous allons tout dabord presenter la theorie generale du test de J contraintes indepen-
dantes de la forme discutee plus haut. Ce test inclut comme cas particulier tous les tests
mentionnes au chapitre II; nous reexaminerons ces tests a la section 7.2 dans le cadre de
la regression multiple. Soit donc a tester:

H0 : R = r
contre H1 : R = r ,

R etant, rappelons-le, une matrice J k de constantes connues de rang J , et r etant un


vecteur J 1.
Nous allons dabord utiliser la methode du rapport des vraisemblances pour trouver
une statistique appropriee; en utilisant les resultats de la section 4.2, nous determinerons
ensuite la distribution de cette statistique.

7.2 Derivation de la statistique F a laide


du critere du rapport des vraisemblances

Nous introduisons lhypothese:

H5 : u N (0, 2 I) .

La vraisemblance secrit alors:


! "
2 n/2 1 
2
L(, ) = (2 ) exp 2 (y X) (y X) .
2

Rappelons la denition du rapport des vraisemblances :

maxH0 L(, 2 )
= ;
max L(, 2 )

on rejette H0 si est proche de 0.


96 P. DESCHAMPS, COURS DECONOMETRIE

Lestimation du modele sous H0 et sous a deja ete traitee. On avait obtenu sous H0 :

  
 1

c = + (X  X)1 R R(X  X)1 R r R

1 1
c2 = (y X c ) (y X c ) = uc uc ,
n n
et sous :
= (X  X)1 X  y
1 1
2 = (y X ) (y X ) = u u.
n n
Il sut de remplacer, dans lexpression de , et 2 par ces valeurs. En faisant les
substitutions, on obtient:

L(c , c2 )
=
L(, 2 )
 
n/2 nc2
(2) (c2 )n/2
exp 2
2c
=  
n 2
(2) n/2 2
( ) n/2 exp 2
2
 2 n/2
c
=
2
  n/2
uc uc
=
u u
  n/2
u u + uc uc u u
=
u u
 n/2
Q
= 1+ 
u u
ou:
Q = uc uc u u.

Nous avons deja demontre, a la section 6.3, que:

Q = ( c ) X  X( c ).

Nous montrerons au cours que, de plus:

Q = (R r) [R(X  X)1 R ]1 (R r)


et que, si H0 est vraie:
Q = u Lu, avec:
SECONDE PARTIE, CHAPITRE VII 97

L = X(X  X)1 R [R(X  X)1 R ]1 R(X  X)1 X  .

Nous avons donc au total quatre expressions equivalentes de la forme quadratique Q; la


derniere ne vaut que sous H0 . Selon le contexte, certaines de ces expressions seront plus
utiles que les autres. La derniere expression nous servira, a la section suivante, a trouver
la distribution dune fonction monotone de sous H0 , donnee par:

nk
F = (2/n 1) .
J

7.3 Distribution sous H0 de la statistique F

Nous invitons le lecteur a verier, a titre dexercice, que la matrice L denie a la section
precedente verie:

(1) L = L

(2) LL = L

(3) rang(L) = trace(L) = J

(4) si M = I X(X  X)1 X  , alors LM = O.

.
Le fait que u Mu = u u et les resultats de la section 4.2 impliquent alors, puisque
u
N (0, I):
Q  u   u 
2
= L 2J sous H0


u u  u   u
= M 2nk
2
et ces deux variables aleatoires sont independantes puisque LM = O.
Par consequent:

Q Q/J Q/[ 2 J ]
Fobs = = =
J s2 u u/(n k) u u/[ 2 (n k)]
est un rapport de deux 2 independantes divisees par leurs nombres de degres respectifs
et a la distribution FJ,nk sous H0 .
En utilisant:
 n/2
Q
= 1+ 
u u
98 P. DESCHAMPS, COURS DECONOMETRIE

il est facile de montrer que:


nk
Fobs = (2/n 1) .
J
Les petites valeurs de correspondent donc a de grandes valeurs de Fobs .
En utilisant:
Q = uc uc u u
il est facile de montrer que:
 
c2 nk
Fobs = 1 .
2 J

Donc pour calculer Fobs, il sut destimer les modeles contraints et non contraints et
de comparer les variances estimees.

7.4 Derivation de la statistique F a laide du critere de Wald

A la section 5.4 de la premiere partie, nous avions enonce la statistique de Wald pour
le test dune hypothese portant sur un seul parametre inconnu i , et nous avions vu que
cette statistique:
(i 0 )2
W=
V (i )
pouvait etre interpretee comme le carre dune distance entre les estimations sous les hypo-
theses nulle et alternative.
Ici, nous avons un test joint de J hypotheses: celui de H0 : R = r contre H1 : R = r.
En posant R = , on peut considerer ce test comme celui dune hypothese nulle sur .
Lexpression precedente va devenir une forme quadratique, qui peut etre interpretee comme
le carre dune distance dans un espace a J dimensions. Lexpression precedente peut etre
generalisee comme suit:

W = (R r) [V (R)]1 (R r)

ou est lestimation de par maximum de vraisemblance et ou V (R) est lestimation


par maximum de vraisemblance de la matrice de covariance de R. On a:

= (X  X)1 X  y

V (R) = R[ 2 (X  X)1 ]R


= 2 R(X  X)1 R

V (R) = 2 R(X  X)1 R


SECONDE PARTIE, CHAPITRE VII 99

avec 2 = u u/n. En substituant et en utilisant Fobs = Q/(J s2 ), on obtient:


(R r) [R(X  X)1 R ]1 (R r)
W=
2
 
Q
J
J
=
nk 2
s
n

Jn
= Fobs.
nk
Donc:

nk
Fobs = W
Jn
est bien une fonction monotone de la statistique de Wald.

7.5 Derivation de F a partir du critere des multiplicateurs de Lagrange

A la section 5.5 de la premiere partie, nous avions formule la statistique LM pour le


test dune hypothese H0 : i = 0 comme:
20
LM =
V0 ()
0 etant la valeur du multiplicateur de Lagrange evaluee aux estimations contraintes des
parametres, et V0 () lestimation contrainte de la variance de .
Dans ce cas-ci, on a J contraintes, donc un vecteur de J multiplicateurs de Lagrange.
La statistique LM va donc devenir une forme quadratique, et la variance precedente sera
remplacee par une matrice de covariance.
A la section 6.1 de la seconde partie, on a vu que le vecteur des multiplicateurs de
Lagrange pour la minimisation contrainte de la somme des carres des residus etait egal a:

(1) = [R(X  X)1 R ]1 (r R).


Comme ce vecteur ne depend pas de parametres inconnus, il est ici egal a 0 . Dautre part,
comme il est proportionnel au vecteur des multiplicateurs de Lagrange pour la maximi-
sation contrainte de la vraisemblance, on peut lutiliser pour deriver la statistique LM (le
facteur de proportionnalite se simplie). Sa matrice de covariance est la suivante:
V () = [R(X  X)1 R ]1 V (R)[R(X  X)1 R ]1
= 2 [R(X  X)1 R ]1 .
100 P. DESCHAMPS, COURS DECONOMETRIE

Donc:

(2) V0 () = 02 [R(X  X)1 R ]1

ou 02 = uc uc /n.
En utilisant (1) et (2), il vient:

LM = 0 [V0 ()]1 0
(R r) [R(X  X)1 R ]1 (R r)
=
02
Q
= 2.
0

Montrons maintenant que Fobs est une transformation monotone de LM. On a vu a la


section 7.2 que:
Q = ( c ) X  X( c ) = uc uc u u.
Donc:

1 2 2 + Q/n 1 2
= 0 = = +
LM Q Q n Q
nk 2
1 s
= +  n 
n Q
J
J
J Fobs + n k
=
nJ Fobs

et donc:
nJ Fobs
LM = .
J Fobs + n k

7.6 Cas particuliers du test de lhypothese lineaire generale

7.6.1 Test sur un coecient individuel.

Si nous voulons tester:

H0 : i = i0
contre H1 : i = i0

la matrice R prendra la forme


SECONDE PARTIE, CHAPITRE VII 101

R = (0 0 ... 0 1 0 ... 0)
ou lunite apparait en ieme position. r est le scalaire i0 .
On obtient alors:

(i i0 )2
Fobs = F1;nk = t2nk
s2 [(X  X)1 ]ii

et la statistique

(i i0 )
tobs = #
s [(X  X)1 ]ii

suit une loi de Student avec n k degres de liberte sous H0 .

7.6.2 Test de nullite de tous les coecients; lien avec R2 .

Si nous voulons tester:

H0 : = 0
contre H1 : = 0 .

La matrice R nest autre que la matrice unite dordre k. Le vecteur r est le vecteur nul (de
dimensions k 1).
On a alors:

 (X  X)/k
Fobs = Fk;nk sous H0 .
s2
Il est interessant detablir un lien entre cette statistique et le R2 , car ceci nous permettra
denoncer des valeurs critiques pour ce dernier. La statistique peut secrire:
   
y y nk
Fobs =
u u k
  
 
y y/y y nk
=
u u/y  y k
   
R2 nk
= .
1 R2 k

Donc Fobs est bien une fonction monotone du R2 . Sa reciproque est donnee par:

kFobs
R2 =
n k + kFobs
102 P. DESCHAMPS, COURS DECONOMETRIE

et R2 est donc signicatif (de maniere equivalente, on rejettera H0 ) si:

kFk,nk,
R2 > .
n k + kFk,nk,

Ceci indique que le seuil critique de R2 tend vers zero lorsque le nombre dobservations n
tend vers linni. Par exemple, un R2 de 0, 10 sera signicatif au seuil = 0, 05 si n = 122
et k = 2; mais il ne le sera pas pour k = 2 et n = 22.

7.6.3 Test de nullite de tous les coecients sauf la constante; lien avec R2 .
Le vecteur des k 1 derniers coecients de regression peut secrire:

2
..
= . .
k

Nous voulons tester:


H0 : = 0 contre = 0.

Lhypothese nulle peut secrire sous la forme R = r, avec:

R = ( O(k1)1 Ik1 ) ,

r = 0.

La matrice R est donc de genre k 1 k et le vecteur r est de taille k 1; nous avons


un cas particulier du test F avec J = k 1.
Nous allons montrer que la statistique peut secrire:
  
R2 nk
Fobs =
1 R2 k1

et le R2 sera donc signicatif (de maniere equivalente, on rejettera H0 ) si:

(k 1)Fk1,nk,
R2 > .
n k + (k 1)Fk1,nk,

En eet, le vecteur des residus dans le modele contraint est le suivant:



y1 y
.
uc = ..
yn y

et la somme des carres des residus contraints est donc:



uc uc = (yt y)2 .
SECONDE PARTIE, CHAPITRE VII 103

Par consequent: 
Q = uc uc u u = (yt y)2 u u
Q
 = 1 (1 R2 ) = R2
(yt y)2
u u
 = 1 R2
(yt y)2
et donc:  
uc uc u u nk R2 n k
Fobs = =
u u k1 1 R2 k 1
.

7.6.4 Test sur une combinaison lineaire des coecients.

Nous avons ici le test:

H0 : c = r
contre H1 : c = r

ou c est un vecteur k 1 de constantes et r est un scalaire. La statistique a employer


prend alors la forme suivante:

(c r)2
Fobs = F1;nk = t2nk
s2 (c (X  X)1 c)

et la statistique:

c r
tobs = #
s c (X  X)1 c

suit donc une loi de Student avec n k degres de liberte sous H0 .

7.6.5 Test de stabilite structurelle (Chow).

Ce test, comme on va le voir, est un cas particulier du test F . On va diviser la periode de


lechantillon en deux sous-periodes de nombres dobservations n1 > k et n2 > k, et etudier
la stabilite des coecients de regression dune sous-periode a lautre. Sous lhypothese nulle
(stabilite structurelle), les coecients sont les memes; sous lhypothese alternative, ils sont
dierents.
Si lon na pas de stabilite structurelle (hypothese alternative), le modele secrit:
      
y1 X1 O 1 u1
y= = +
y2 O X2 2 u2
104 P. DESCHAMPS, COURS DECONOMETRIE

ou y1 et u1 sont n1 1, y2 et u2 sont n2 1, X1 est n1 k, X2 est n2 k, et 1 et 2 sont


k 1. Sous lhypothese alternative, 1 = 2 . On a ici 2k regresseurs. On veut tester:
H0 : 1 = 2 contre H1 : 1 = 2 .
Sous lhypothese nulle, le modele precedent peut secrire:
     
y1 X1 u1
= +
y2 X2 u2
ou = 1 = 2 . On a ici k regresseurs.
Le nombre de contraintes imposees sous H0 est donc de J = k. Le nombre de degres de
liberte dans le modele non contraint est de n 2k = n1 + n2 2k.
La statistique est donc:
  
uc uc u u n 2k
Fobs = .
u u k
Le modele contraint correspond aux hypotheses classiques avec:
 
X1
X= .
X2
Donc, en utilisant le lemme de la section 5.6:
uc uc = y  y  X  y = y  [I X(X  X)1 X  ]y = y  My.
Dans le modele non contraint, on a comme matrice de regresseurs:
 
X1 O
X =
O X2
et comme vecteur de coecients:  
1
= .
2
Par consequent la somme des carres des residus dans le modele non contraint est de:
u u = y  y  X y = y  [I X (X X )1 X ]y = y  M y.
On peut facilement voir que:
y  M y = y1 M1 y1 + y2 M2 y2
avec:
M1 = In1 X1 (X1 X1 )1 X1
M2 = In2 X2 (X2 X2 )1 X2 .
En remplacant, dans lexpression de Fobs , u u et uc uc par les valeurs trouvees, on obtient:
   
y My y1 M1 y1 y2 M2 y2 n 2k
Fobs =
y1 M1 y1 + y2 M2 y2 k
et on rejette lhypothese de stabilite structurelle si:
Fobs > Fk,n2k,.
SECONDE PARTIE, CHAPITRE VII 105

7.7 Intervalles de prevision

Supposons que nous observions k valeurs futures des k regresseurs a une periode
suivant la derniere periode de lechantillon. Ces valeurs forment un vecteur de dimension
1 k, soit x .
Nous desirons, comme precedemment (section 2.4), calculer un intervalle de prevision
centre sur la prevision y de la variable dependante.
Si le modele reste inchange a la periode , on a:

y = x + u
avec:
E(u u1 ) = = E(u un ) = 0
et:
y = x .

Sous lhypothese u N (0, 2 ), trouvons la distribution de lerreur de prevision:

y y = u x ( ) .

Cest une variable normale de parametres:

E(y y ) = 0
V (y y ) = E(u2 ) + E(x ( ))2 2 Cov(u , x ( )) .

Mais la covariance est nulle, puisque ne depend que des erreurs u1 , u2 , . . . , un de


lechantillon qui sont independantes de u par hypothese. On a alors:

 
V (y y ) = 2 + E x ( )( ) x

= 2 + 2 x (X  X)1 x .

Considerons alors les variables

y y
V = #
1 + x (X  X)1 x


u u
et W = .
2 (n k)
106 P. DESCHAMPS, COURS DECONOMETRIE


V est une variable N (0, 1). u2u est une variable 2 avec n k degres de liberte, puisque
u
N (0, 1), u u = u Mu et rang M = n k (section 4.2).
Les deux sont independantes puisque V ne depend que de u et de:

( ) = (X  X)1 X  u

et que:  
(X  X)1 X  I X(X  X)1 X  = O.

Nous pouvons en deduire que

V y y
tobs = = # tnk
W s 1 + x (X  X)1 x

et lintervalle de prevision cherche a pour bornes


$
y t nk; 2
s 1 + x (X  X)1 x .

7.8 Exemple numerique

Reprenons le modele et les donnees de la Section 5.9.

7.8.1 Testons lhypothese que la quantite dengrais X2 ne contribue pas a la production


de vin.

Nous avons:

H0 : 3 = 0

H1 : 3 = 0 .

0.2
tobs = # = 1.023 .
0.5 66/432

Comme t7;0.025 = 2.365 > 1.023, nous ne rejetons pas H0 au seuil de signication
= 0.05.
SECONDE PARTIE, CHAPITRE VII 107

7.8.2 Testons maintenant lhypothese

H0 : 1 = 1, 2 = 1, 3 = 0

contre H1 : 1 = 1 ou 2 = 1 ou 3 = 0 .

Ceci donne:

10 2 2 0

1
Fobs = (0 0.3 0.2 ) 2 7 1 0.3
3(0.25)
2 1 7 0.2

= 1.053 < 4.35 = F3;7;0.05 .

On ne rejette donc pas lhypothese H0 .

7.8.3 Si nous voulons tester:

H0 : 1 = 0.5 et 2 = 0.5

H1 : 1 = 0.5 ou 2 = 0.5 .

Nous construisons la statistique:


1
432 48 12 0.5
Fobs = ( 0.5 0.2 )
2(0.25)
12 66 0.2

= 5.949 > 4.74 = F2;7;0.05 .

On rejette donc H0 .
108 P. DESCHAMPS, COURS DECONOMETRIE

7.8.4 Si nous voulons tester lhypothese que la production de vin ne depend pas des facteurs
X1 et X2 , nous avons:

H0 : 2 = 0 et 3 = 0

H1 : 2 = 0 ou 3 = 0 .

Ceci donne:

R2 /2
Fobs = = 7.332 > 4.74 = F2;7;0.05 .
(1 R2 )/7

On rejette donc lhypothese dindependance.

7.8.5 Enn, si nous voulons tester lhypothese que les rendements dechelle sont constants:

H0 : 2 + 3 = 1

H1 : 2 + 3 = 1 .

Nous avons c = ( 0 1 1 ) et r=1.


48 12 12
0

1

12 66

6
On a c (X  X)1 c = (0 1 1) 1
432

12 6 66
1

120
= .
432
Ceci donne
1 0.7 0.2 0.1
tobs = # =
(0.5) 120/432 (0.5)(0.527)

= 0.379 < t7;0.025 = 2.365 .

Nous ne rejetons donc pas lhypothese de rendements constants.


SECONDE PARTIE, CHAPITRE VII 109

7.8.6 Supposons quun onzieme vigneron vaudois engage 2 unites de main-doeuvre (X1 )
et emploie 3 unites dengrais (X2 ). Entre quelles bornes sa production de vin aura-t-elle
95 chances sur 100 de se situer? On a:

loge 2 = 0.69315

loge 3 = 1.09861

loge y11 = 1 + (0.7)(0.69315) + (0.2)(1.09861)

= 1.70493

x11 (X  X)1 x11 =



48 12 12 1

1
(1 0.69315 1.09861 ) 12 66 6 0.69315 = 0.2482.
432
12 6 66 1.09861

Alors les bornes de lintervalle sont



1.70493 (2.365)(0.5) 1.2482 soit [0.384 ; 3.026]

et la production y11 a 95 chances sur 100 de se situer dans lintervalle


 
0.384 + 3.026
[1.468 ; 20.616] (valeur mediane = exp = 5.5) .
2
110 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE VIII

MOINDRES CARRES GENERALISES: LA METHODE DE AITKEN

8.1 Introduction

Dans beaucoup de modeles econometriques, lhypothese que les erreurs sont de variance
constante et ne sont pas correlees entre elles ne peut pas etre faite. Cest ainsi que dans
notre exemple numerique precedent, la production de vin par hectare de deux agriculteurs
voisins pourrait fort bien etre inuencee par des conditions exogenes (meteorologiques ou
autres) communes, ce qui se traduirait par une correlation des erreurs.
Que se passerait-il si lon appliquait la methode des moindres carres ordinaires a un tel
modele? Nous verrons plus loin que les estimateurs i obtenus seraient toujours sans biais,
mais quils seraient inecaces; de plus, les estimateurs de leurs variances seraient biaises.
La methode de Aitken permet heureusement de remedier dans une large mesure a cet
etat de choses.

8.2 Exemples

8.2.1 Agregation des donnees.

On veut estimer les parametres du modele y = X + u avec E(u) = 0 et E(uu ) = 2 I,


mais lon ne dispose que de donnees agregees y et X avec y = Gy, X = GX. Pour prendre
un exemple, supposons que les donnees que lon possede soient les moyennes des deux
premieres observations, des trois suivantes et des quatre dernieres. La matrice G a alors la
forme suivante:

1/2 1/2 0 0 0 0 0 0 0


G = 0 0 1/3 1/3 1/3 0 0 0 0 .

0 0 0 0 0 1/4 1/4 1/4 1/4
SECONDE PARTIE, CHAPITRE VIII 111

On estimerait le vecteur sur la base du modele:

Gy = GX + Gu
soit aussi:
y = X + u.
La matrice de covariance de u est donc:

E(uu ) = E(Guu G ) = 2 GG



1/2 0 0

2
= 0 1/3 0

0 0 1/4

qui nest pas une matrice scalaire.


Ceci est le probleme dheteroscedasticite, qui sera etudie au chapitre IX.

8.2.2 Erreurs autoregressives.


Un autre exemple de modele de regression ou la matrice de covariance des erreurs nest
pas scalaire est le modele a erreurs autoregressives, ou E(ut uts ) = s 2 avec | |< 1. Ce
modele sera traite en detail au chapitre IX.

8.2.3 Equations simultanees.

Ce modele tres employe, est du a A. Zellner (Seemingly unrelated regressions and


tests for aggregation bias, Journal of the American Statistical Association 57 (1962), pp.
348368). Nous avons les N equations de regression suivantes:

yi = Xi i + ui pour i = 1, . . . , N

ou, sous forme matricielle:



X1 O ... O

y1 1 u1

O X2 ... O
. . .
.. = .. + .. .
.. ..

. .
yN uN
N
O ... XN
ou les yi sont des vecteurs T 1, les Xi sont des matrices T ki , les i sont des vecteurs
ki 1, et les ui sont des vecteurs T 1. On fait lhypothese E(ui uj ) = ij I. Nous avons
donc labsence de correlation dans le temps, mais pas entre les equations (les erreurs de
112 P. DESCHAMPS, COURS DECONOMETRIE

deux equations dierentes sont correlees a la meme periode). Si lon ecrit lequation de
regression precedente comme y = X + u, la matrice de covariance du vecteur u secrit:

u1 u1 ... u1 uN 11 IT ... 1N IT
.. = .. .. ..
E(uu ) = E ... ..
. . . . .
uN u1 ... uN uN 1N IT ... N N IT
et nest donc ni diagonale, ni scalaire.

8.3 Lestimateur de Aitken et ses proprietes

Nous avons donc le modele general:

y = X + u
avec E(u) = 0 et E(uu ) = 2 , ou est une matrice denie positive, supposee (tempo-
rairement) connue. Pour des raisons de commodite, nous utiliserons parfois la notation
V = 2 .
Nous allons voir quil existe une transformation lineaire du modele, soit une applica-
tion (y, X, u) (y , X , u ) telle que u verie les hypotheses du modele de regression
classique. On peut alors appliquer la methode des moindres carres ordinaires au modele
transforme.
Comme la matrice est symetrique, il existe une matrice orthogonale C telle que

C C = diag(1 , 2 , . . . , n ) = , ou les i sont les valeurs propres de . Comme est
def
denie positive, i > 0 pour tout i. Denissons alors
 
1/2 1 1
= diag ,..., .
1 n

Nous avons 1/2 1/2 = I, soit aussi 1/2 C  C1/2 = I, ou T T  = I avec


T = 1/2 C  .
Il est facile alors de montrer que T denit une transformation lineaire du modele (et
donc en particulier des erreurs) qui permet de retrouver les hypotheses faites en regression
classique.
En premultipliant y = X + u par T , on obtient en eet y = X + u avec u = T u.
Calculons la matrice de covariance de u . On a

E(u u ) = E(T uu T  ) = T E(uu )T  = 2 (T T  ) = 2 I .

Notons enn que 1 = T  T . On obtient, en eet, en premultipliant legalite T T  = I


par T 1 et en la postmultipliant par (T  )1 :
 1
= T 1 (T  )1 , soit 1 = T 1 (T  )1 = T T .
SECONDE PARTIE, CHAPITRE VIII 113

Si lon applique la methode des moindres carres ordinaires au modele transforme T y =


T X + T u, on obtient:

mcg = (X  T  T X)1 X  T  T y
soit aussi:
mcg = (X  1 X)1 X  1 y
= (X  V 1 X)1 X  V 1 y
et lon a:
V () = E( )( ) = 2 (X  T  T X)1 = 2 (X  1 X)1 .

Un estimateur sans biais de 2 est obtenu comme auparavant par:


1 
s2 = u u
nk

1
= (y X mcg ) (y X mcg )
nk

1
= (y X mcg ) T  T (y X mcg )
nk

1
= (y X mcg ) 1 (y X mcg ) .
nk

Passons maintenant au probleme de letude des proprietes de mco = (X  X)1 X  y


lorsque E(u) = 0 et E(uu ) = 2 . Cet estimateur sera toujours sans biais (la demons-
tration est exactement la meme que precedemment). Mais il ne sera pas ecace. En eet,
puisque le modele y = X + u satisfait les hypotheses du modele de regression clas-
sique, le theoreme de Gauss-Markov lui est applicable; lestimateur mcg est donc, pour ce
modele, le plus ecace des estimateurs lineaires sans biais. Or, mcg = mco si = I.
Il y a plus grave. Lorsque = I, nous allons montrer que V (mco ) = 2 (X  X)1 . La
formule classique nest donc plus applicable. En eet, nous avons

V (mco ) = E(mco )(mco )

 
= E (X  X)1 X  uu X(X  X)1

= 2 (X  X)1 X  X(X  X)1 = 2 (X  X)1 .


114 P. DESCHAMPS, COURS DECONOMETRIE

8.4 La prevision dans le modele de Aitken

Nous avons donc le modele y = X + u, avec E(u) = 0 et E(uu ) = 2 = V . Nous


voulons predire une valeur future y de la variable dependante, conditionnellement a un
vecteur futur dobservations sur les k variables explicatives. Si le modele reste inchange et
si u est lerreur future, nous pouvons ecrire:

y = x + u

avec E(u ) = 0, E(u2 ) = 2 et E(u u) = w

(w est un vecteur colonne de taille n).

La connaissance du vecteur w des covariances entre lerreur future et les erreurs de


lechantillon va nous permettre de denir un previseur de y plus ecace que la valeur
calculee x mcg . En eet, la connaissance de ces covariances et lestimation des erreurs de
lechantillon a laide des residus permet souvent de faire une inference statistique portant
sur lerreur future u . Les resultats de cette section sont dus a A. Goldberger, Best linear
unbiased prediction in the generalized linear regression model, Journal of the American
Statistical Association 57 (1962), pp. 369375.
Nous voulons trouver un previseur lineaire de la forme p = c y, ou le vecteur c doit etre
choisi de facon a minimiser la variance p2 = E(y p)2 , sous la contrainte que E(y p) = 0.
Comme y p = (x c X) (c u u ), cette contrainte secrit sous forme vectorielle
comme x = c X. Nous avons donc un systeme de k contraintes. Quant a la variance a
minimiser, elle peut secrire:

p2 = E(y p)2

= E(y p)(y p) puisque p est un scalaire

= E(c u u )(c u u ) puisque x c X = 0

= E(c uu c + u2 2c uu )

= c V c + 2 2c w.

Le Lagrangien peut secrire:

L(c, ) = c V c 2c w 2(c X x )


SECONDE PARTIE, CHAPITRE VIII 115

et le systeme de conditions de premier ordre:

L
= 2V c 2X 2w = 0 .
c

L
= 2X  c + 2x = 0

secrit sous forme matricielle comme:

V X c w
=

X O x

En utilisant la formule dinversion en forme partagee, la solution de ce systeme peut


secrire:

 
c V 1 I X(X  V 1 X)1 X  V 1 V 1 X(X  V 1 X)1 w
=
 1 1  1  1 1
(X V X) XV (X V X) x

ou, en eectuant le produit:


 
c = V 1 I X(X  V 1 X)1 X  V 1 w + V 1 X(X  V 1 X)1 x

et

p = c y = w V 1 y + x (X  V 1 X)1 X  V 1 y w V 1 X(X  V 1 X)1 X  V 1 y

= x mcg + w V 1 umcg avec umcg = y X mcg .

On sapercoit donc que le meilleur previseur lineaire sans biais sobtient en ajoutant a la
valeur calculee x mcg un terme correcteur w V 1 umcg , qui depend notamment du vecteur
w des covariances entre les erreurs passees et lerreur future, et du vecteur de residus umcg .
116 P. DESCHAMPS, COURS DECONOMETRIE

An de trouver le gain decacite entrane par ladjonction de ce terme correcteur, nous


substituons lexpression precedemment obtenue pour c dans la formule p2 = 2 2c w +
c V c. On a:

c = Mw + P  Q1 x
avec:
P = X  V 1
Q = X  V 1 X
M = (V 1 P  Q1 P ).
On verie par ailleurs par simple multiplication que:
Q1 P V P  = I

Q1 P V M = O

M V M = M .

Alors:
c V c = w M  V Mw + w M  V P  Q1 x + x Q1 P V Mw + x Q1 P V P  Q1 x

= w Mw + x Q1 x .

De meme:
c w = w Mw + x Q1 P w
et donc, en substituant plus haut:

p2 = 2 w Mw + x Q1 x 2x Q1 P w .

Soit maintenant p = x mcg . On verie aisement que p = c y avec c = P  Q1 x . En


remplacant c par c dans la formule de p2 , il vient:

p2 = 2 2c w + c V c

= 2 2x Q1 P w + x Q1 P V P  Q1 x

= 2 2x Q1 P w + x Q1 x

= p2 + w Mw .
SECONDE PARTIE, CHAPITRE VIII 117

Nous allons montrer que la matrice M est denie non negative . Comme V 1 est denie
positive, il existe une matrice B reguliere telle que V 1 = B  B (voir 3.1.3). Nous pouvons
alors ecrire:

M = V 1 P  Q1 P

= V 1 V 1 X(X  V 1 X)1 X  V 1

 
= B  I BX(X  B  BX)1 X  B  B

= B  NB .
def

On verie par simple multiplication que N est symetrique et idempotente. Elle est alors
denie non negative, puisque ses valeurs propres sont 0 ou 1. Alors M = B  NB est denie
non negative . Par consequent, w Mw 0, et p2 p2 .
118 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE IX

LAUTOCORRELATION ET LHETEROSCEDASTICITE

9.1 Erreurs autoregressives dordre un

Cette hypothese a ete introduite pour remedier au probleme suivant. Il arrive frequem-
ment, dans les series chronologiques, que les residus presentent une allure cyclique: soit
un residu positif tend a etre suivi par un residu positif, et un residu negatif par un residu
negatif; soit les signes des residus successifs alternent. Le premier cas correspond a une
autocorrelation positive des erreurs; le second cas, a une autocorrelation negative.
Dans un modele de consommation par exemple, la presence dune autocorrelation po-
sitive des erreurs pourrait traduire une certaine inertie du comportement des agents: une
consommation superieure a la normale aurait tendance a se poursuivre durant plusieurs pe-
riodes successives. La presence dune autocorrelation negative pourrait traduire un pheno-
mene oscillatoire, lindividu compensant par une consommation moindre a la periode t un
exces de consommation a la periode t 1.
Dans un cas comme dans lautre, lhypothese de non correlation des erreurs est violee.
Il faut alors appliquer la methode de Aitken. Mais il est necessaire pour cela de decrire
formellement cette dependance des erreurs, cest-a-dire de postuler une forme explicite de
la matrice de covariance des erreurs. On fait donc les hypotheses suivantes:

ut = ut1 + t , avec:

|| < 1
E(t ) = 0 pour tout t,
E(t s ) = 2 (t = s)
= 0 (t = s) .

Lerreur ut possede donc une composante systematique ut1 et une composante pure-
ment aleatoire t .
SECONDE PARTIE, CHAPITRE IX 119

9.2 La matrice de covariance des erreurs

On la calcule facilement en resolvant lequation de recurrence ut = ut1 + t . Comme


ut1 = ut2 + t1 , on obtient:

ut = (ut2 + t1 ) + t

= 2 ut2 + t1 + t

= 2 (ut3 + t2 ) + t1 + t

= 3 ut3 + 2 t2 + t1 + t

soit, en remontant indeniment dans le temps:



ut = i ti
i=0

ce qui implique:



E(ut ) = i E(ti ) = 0
i=0

E(u2t ) = E(2t ) + 2 E(2t1 ) + 4 E(2t2 ) + . . .

= 2 (1 + 2 + 4 + . . . )

2
= .
1 2

De meme:

E(ut ut1 ) = E(ut1 (ut1 + t ))

2
= E(u2t1 ) = = u2 .
1 2
120 P. DESCHAMPS, COURS DECONOMETRIE

E(ut ut2 ) = E(ut2 (2 ut2 + t1 + t ))

= 2 E(u2t2 ) = 2 u2

E(ut uts ) = s u2 .

Nous avons donc etabli que



1 2 ... n1


1 ... n2

2

 2
E(uu ) = u = u
... .. .. .. ..
. . . .


n1 n2 ... 1

9.3 Transformation des donnees ( connu)

Si le coecient dautoregression est connu, la methode de Aitken appliquee au mo-


dele y = X + u fournit le meilleur estimateur lineaire sans biais de , qui est mcg =
(X  1 X)1 X  1 y. Calculons linverse de la matrice .
On verie par simple multiplication que:

1 0 ... 0 0


1 + 2 ... 0 0



0 1 + 2 ... 0 0
1 1


= .
1 2
... .. .. .. .. ..
. . . . .



0 1 + 2
0 0 ...

0 0 0 ... 1

Comme nous lavons vu plus haut, il est avantageux de calculer mcg de la facon suivante:
On trouve dabord une matrice T telle que 1 = T  T ; on applique ensuite les moindres
carres ordinaires a lequation T y = T X + T u. On verie egalement par multiplication
que T est donnee par:
SECONDE PARTIE, CHAPITRE IX 121

#
1 2 0 0 ... 0 0


1 0 ... 0 0



0 1 ... 0 0
1
T =# .
..
1 2 .. .. .. .. ..
. . . . . .



0 0 0 ... 1 0

0 0 0 ... 1

Nous pouvons laisser tomber le facteur multiplicatif qui se simplie, apparaissant a


gauche et a droite dans lequation transformee. Nous pouvons donc retenir comme formule
de transformation dune colonne z de la matrice des donnees [y X] la regle suivante:

#
( 1 2 )z1


z2 z1



z = z3 z2



.
..


zn zn1

et appliquer les moindres carres ordinaires aux donnees transformees.

9.4 Estimation du coecient dautoregression

9.4.1 Methode de Cochrane-Orcutt.

Cette methode est la plus employee. On commence par appliquer les moindres carres
ordinaires pour obtenir un vecteur u de residus, soit u = [I X(X  X)1 X  ]y. On obtient
ensuite en regressant ut sur ut1 . Ceci donne:
n
ut ut1
= t=2
n 2 .
t=2 ut1

On applique alors la formule des moindres carres generalises en remplacant par dans
lexpression de la matrice . Soit donc:
122 P. DESCHAMPS, COURS DECONOMETRIE


1 ... n2 n1

n3 n2
1 ...


. .. .. .. ..
=
.
. . . . .
.


n2 n3
... 1

n1 n2 ... 1

On calcule = (X  1 X)1 X  1 y. Ceci fournit un nouveau vecteur de residus u =

y X . Ce nouveau vecteur peut servir a calculer une nouvelle estimation de , soit .
Cette derniere peut servir a calculer une troisieme estimation de , et ainsi de suite. On
peut poursuivre cette procedure jusqua la convergence des estimations de .

9.4.2 Methode de Durbin.

Reecrivons lequation de regression sous la forme suivante:

k

yt = j Xjt + ut .
j=1

En retardant dune periode et en multipliant par :

k

yt1 = (j )Xjt1 + ut1 .
j=1

En soustrayant cette equation de la premiere, on obtient, puisque ut ut1 = t :

k
 k

yt = yt1 + j Xjt (j )Xjt1 + t
j=1 j=1

qui est une equation de regression comportant 2k + 1 regresseurs. Comme les t verient
les hypotheses du modele de regression classique, on applique la methode des moindres car-
res ordinaires pour estimer . (Son estimateur est celui du coecient de yt1 ). Comme yt1
est un regresseur stochastique (il depend de t1 ), nous verrons plus loin que lestimateur
ainsi obtenu nest pas sans biais.
On remplace alors, comme precedemment, par dans lexpression de , et applique
la formule des moindres carres generalises.
Notons que lestimateur = (X  1 X)1 X  1 y sappelle parfois lestimateur Aitken-

pur ; = (X  1 X)1 X  1 y sappelle alors lestimateur Aitken-realisable.
SECONDE PARTIE, CHAPITRE IX 123

9.5 La statistique de Durbin-Watson

Elle permet de tester lhypothese nulle que = 0, contre les hypotheses alternatives
= 0, ou > 0, ou < 0. Sa distribution na pas pu etre determinee independamment
de la forme de la matrice X. Il existe donc une zone de valeurs de cette statistique pour
lesquelles on ne pourra rejeter ni lhypothese nulle, ni lhypothese alternative.
La statistique de Durbin-Watson est denie comme:
n
(ut ut1 )2
t=2
dobs = n 2
t=1 ut
ou les ut sont les residus des moindres carres ordinaires.
Nous allons etudier ses proprietes lorsque n tend vers linni.
Plus precisement, nous montrerons que si n est susamment grand dobs est approxima-
tivement egale a 2 lorsque = 0; a 0 lorsque = 1; et a 4 lorsque = 1. En eet,

n n n
t=2 ut1 2
2 2
t=2 ut + t=2 ut ut1
dobs = n 2
t=1 ut

n n
2 2
t=2 ut 2 t=2 ut ut1
n 2 ,
t=2 ut
puisque:
n
 n

u2t u2t1
t=2 t=2
n n
u2t u2t .
t=1 t=2
1
n 2
Il est raisonnable de supposer que lorsque n tend vers linni, n1 t=2 ut tend vers
1
 n
u2 et n1 2
t=2 ut ut1 tend vers Cov(ut , ut1 ) = u . On a alors, en divisant numerateur
et denominateur par n 1:
2u2 2u2
dobs = 2(1 )
u2
ce quil fallait montrer.
Les valeurs de dobs qui sont proches de 2, nous conduisent donc a ne pas rejeter = 0;
celles qui sont proches de 0, a rejeter = 0 en faveur de > 0; celles qui sont proches de 4,
a rejeter = 0 en faveur de < 0. La table des valeurs critiques fournit deux valeurs, dU
et dL , pour chaque combinaison de nombres dobservations (n) et de nombres de variables
explicatives (k  = k 1). La zone dL < dobs < dU est une zone dincertitude, de meme que
la zone 4 dU < dobs < 4 dL . Pour ces valeurs de dobs , on ne pourra rejeter ni = 0, ni
= 0.
124 P. DESCHAMPS, COURS DECONOMETRIE

Les regles de decision sont resumees dans le tableau suivant (lhypothese nulle est tou-
jours H0 : = 0):

H1 d < dL dL d < dU dU d < 4 dU 4 dU d < 4 dL 4 dL d


> 0 Rejeter H0 Incertain Ne pas rejeter H0
<0 Ne pas rejeter H0 Incertain Rejeter H0
= 0 Rejeter H0 Incertain Ne pas rejeter H0 Incertain Rejeter H0

Note importante: Le test de Durbin-Watson ne peut pas etre employe lorsque les
regresseurs incluent des variables endogenes retardees.

9.6 La prevision dans le modele a erreurs autoregressives

Nous avons vu a la Section 8.4 que le meilleur previseur lineaire sans biais dune valeur
future y de la variable dependante etait p = x mcg + w V 1 u, avec w = E(u u), V =
E(uu ) et u = y X mcg . Nous allons illustrer cette regle de prevision dans le modele a
erreurs autoregressives dordre un, en supposant = n + 1. Le vecteur w prend la forme:


E(u1 un+1) n n1

. .
E(u2 un+1) .. ..

w=

= u = u

2

2


.
.. 2
.


E(un un+1) 1

Mais u2 [n1 . . . 1] est la derniere ligne de V . Comme V V 1 = I , nous avons:


2 n1
u [ . . . 1] V 1 = [0 . . . 0 1] et donc: w V 1 = u2 [n1 . . . 1]V 1 = [0 . . . 0 1]. Par
consequent, w V 1 u = un . La formule precedente secrit alors:

p = xn+1 mcg + un .

Linterpretation de cette formule est immediate. On ajoute a la valeur calculee xn+1 mcg
un terme correcteur qui aura le signe du dernier residu de lechantillon si le coecient de
correlation entre deux erreurs successives est positif, le signe contraire sinon.
SECONDE PARTIE, CHAPITRE IX 125

9.7 Le probleme de lheteroscedasticite

Nous avons deja rencontre ce probleme a la section 8.2.1. Lorsquil se rencontre sous
cette forme, il est tres facile a traiter: la matrice E(uu ) est en eet connue, egale a
2 diag(k1 , . . . , kn ) ou les ki sont des constantes positives connues.
La matrice de transformation a utiliser est alors bien entendu diag ( 1k , . . . , 1k ): Il
1 n
sut de multiplier les k + 1 donnees correspondant a la t-ieme observation par 1k pour
t
retrouver une matrice de covariance scalaire.
Il existe bien sur dautres formes dheteroscedasticite. Il peut etre raisonnable de suppo-
ser que la variance des erreurs augmente avec la valeur absolue de lun des regresseurs, soit,
par exemple, que E(u2t ) = 2 Xt2 . Il sut alors de multiplier les donnees correspondant a
la t-ieme observation par 1 2 .
Xt

Plus generalement, nous allons voir quune heteroscedasticite des erreurs peut etre in-
duite par des variations aleatoires des coecients de regression, en illustrant cette situation
a laide dun exemple simple. Soit donc le modele:

yt = a + bxt + ut

et supposons que b = b + t , ou b est constant en probabilite et ou t est une erreur


aleatoire avec E(t ) = 0, V (t ) = 2 , E(t s ) = 0 pour t = s, et E(ut t ) = 0. On peut
alors ecrire:

yt = a + (b + t )xt + ut
= a + b xt + (ut + t xt )
= a + b xt + vt

avec vt = ut + t xt . On a E(vt ) = 0, E(vt vs ) = 0 pour t = s, mais:

E(vt2 ) = E(u2t ) + x2t E(2t )


= u2 + x2t 2

depend de lindice t.
Une solution possible, en grand echantillon, est de poser:

vt2 = + x2t + t

ou vt est un residu de la regression de yt sur xt par moindres carres ordinaires. On estime


et par MCO et on estime t2 = E(vt2 ) par + x2t . On utilise ensuite les moindres
carres ponderes pour estimer a et b .
126 P. DESCHAMPS, COURS DECONOMETRIE

9.8 Les tests de diagnostic

9.8.1 Analyse des autocorrelations.

On denit les coecients dautocorrelation empiriques des residus ut des moindres carres
comme: n
ut uts
Rs = t=s+1 n 2 .
t=1 ut

Linterpretation de Rs est la suivante:


n
n1 t=s+1 ut uts est une estimation de Cov(ut , uts );
n
n1 t=1 u2t est une estimation de V (ut ), supposee egale a V (uts );
Rs est donc une estimation du coecient de correlation entre ut et uts , a savoir:
Cov(ut , uts )
rs = # .
V (ut )V (uts )

Letude du comportement des coecients dautocorrelation permet par exemple de dis-


tinguer un processus autoregressif (AR) dun processus dit a moyenne mobile (MA).
Pour le processus autoregressif dordre un:
ut = ut1 + t ,
on a vu a la section 9.2 que:

V (ut ) = V (uts ) = u2
Cov(ut , uts ) = s u2 , et donc:
Cov(ut , uts )
rs = # = s .
V (ut )V (uts )
Le coecient dautocorrelation theorique decrot donc geometriquement avec s. Un tel
comportement de la fonction dautocorrelation empirique Rs est donc indicatif derreurs
autoregressives.
Pour un processus a moyenne mobile dordre un:

ut = t + t1
ou les t sont des erreurs fondamentales avec E(t ) = 0 pour tout t, E(2t ) = 2 pour tout
t, et E(t ts ) = 0 pour s > 0, on a:

E(ut ut1 ) = E(t + t1 )(t1 + t2 )


= E(t t1 ) + E(t t2 ) + E(2t1 ) + 2 E(t1 t2 )
= 2
SECONDE PARTIE, CHAPITRE IX 127

et, comme on le verie aisement:

E(ut uts ) = 0 pour s > 1.

Par consequent:

Cov(ut , uts )
rs = # = si s = 1;
V (ut )V (uts ) 1 + 2
= 0 si s > 1.

Ces observations peuvent etre generalisees a des processus dordre superieur au premier.
Plus generalement, un comportement du type:

Rs = 0 pour 1 s
Rs 0 pour s >

sera indicatif derreurs a moyenne mobile; tandis que la convergence vers zero sera graduelle
pour un processus autoregressif.

9.8.2 Le test de Breusch-Godfrey (autocorrelation).

Ce test permet, lorsque les erreurs sont autoregressives dordre p:

ut = 1 ut1 + 2 ut2 + + p utp + t


de tester lhypothese:

H0 : 1 = 2 = = p = 0
contre:
H1 : (1 , 2 , . . . , p ) = (0, 0, . . . , 0).

Contrairement au test de Durbin-Watson, le test de Breusch-Godfrey peut etre employe


lorsque lequation de regression contient des variables endogenes retardees (yt1 , yt2 , . . . )
comme variables explicatives.
La statistique est obtenue en appliquant le principe des multiplicateurs de Lagrange
(critere LM) dans le contexte du maximum de vraisemblance pour un modele a erreurs
autoregressives.
On a montre, a laide detudes de simulation, que ce test est egalement capable de
deceler des erreurs a moyenne mobile. Il peut donc etre considere comme un test general
de misspecication dynamique, ce qui le rend tres utile.
Nous ne verrons la derivation formelle de la statistique que dans un cas simple, au
chapitre XIV. Cette statistique est facile a interpreter intuitivement: on peut montrer que
128 P. DESCHAMPS, COURS DECONOMETRIE

cette statistique est identique a la statistique LM utilisee pour tester la nullite jointe des
i dans lequation de regression auxiliaire:

yt = 1 + 2 xt2 + + k xtk + 1 ut1 + + putp + t


ou les uts sont les residus de la regression de yt sur (1, xt2 , . . . , xtk ) par MCO. Cette
statistique a ete vue a la section 7.5.
Si H0 est vraie, on peut montrer que la distribution limite (lorsque n ) de cette
statistique est une 2p . Cette distribution limite a neanmoins tendance a sous-estimer les
valeurs critiques de petit echantillon (ceci a ete montre a laide detudes de simulation).
Pour cette raison, on utilise souvent une version F de la statistique (test F de H0 : 1 =
= p = 0 dans lequation auxiliaire). Les etudes de simulation ont montre que ceci est
preferable lorsque la taille de lechantillon est faible.

9.8.3 Le test de Koenker (heteroscedasticite).

Rappelons qua la section 9.7, nous avions vu que des variations aleatoires dun coe-
cient de regression pouvaient se traduire par une heteroscedasticite du type:

V (ut ) = + x2t
ou xt est une variable explicative du modele estime.
Si de telles variations aleatoires portent sur plusieurs coecients dun modele de regres-
sion multiple, ceci conduit naturellement a lhypothese:

V (ut ) = + 1 x2t1 + + p x2tp


ou meme, plus generalement:

V (ut ) = + (1 xt1 + + p xtp )2 .

En pratique, un test acceptable est obtenu en remplacant (1 xt1 + + p xtp )2 par


yt2 , ou yt est la valeur calculee en appliquant les MCO a lequation pour laquelle on veut
tester lheteroscedasticite des erreurs. On peut donc utiliser un test F de H0 : = 0 dans
lequation de regression auxiliaire:

u2t = + yt2 + t .

Cette statistique est basee sur des criteres heuristiques, et nest pas necessairement la
meilleure.
SECONDE PARTIE, CHAPITRE IX 129

9.8.4 Le test de Bera-Jarque (normalite).

Pour une variable normale Y N (0, 1), il est facile de montrer a laide de la fonction
generatrice des moments que:

E(Y 3 ) = 0 et E(Y 4 ) = 3.

Si X N (, 2 ), Y = (X )/ N (0, 1), et donc:

E(X E(X))3
= 0,
3
E(X E(X))4
= 3.
4
La variance 2 peut etre estimee par:
n
1
m2 = (xt x)2 .
n t=1

De maniere analogue, E(X E(X))3 peut etre estime par:


n
1
m3 = (xt x)3 ,
n t=1

et E(X E(X))4 peut etre estime par:


n
1
m4 = (xt x)4 .
n t=1

Une deviation de la normalite sera donc indiquee par:


m3 m4
= 0 et = 3.
(m2 )3/2 (m2 )2

Bera et Jarque ont montre que sous lhypothese de normalite, la statistique:


  2  2 
1 m3 1 m4
n + 3
6 (m2 )3/2 24 (m2 )2

a une distribution limite 2 avec 2 degres de liberte lorsque n .


Nous verrons au chapitre XI que meme si les erreurs ne sont pas normales, tous les tests
vus precedemment restent approximativement valables (lapproximation est bonne si n est
grand). Donc une violation de la normalite a moins dimportance quune violation de la
sphericite (a savoir une autocorrelation et/ou une heteroscedasticite) qui indique, elle, une
mauvaise formulation du modele.
130 P. DESCHAMPS, COURS DECONOMETRIE

9.9 Exemple numerique

Nous voulons trouver les meilleures estimations lineaires sans biais de a et de b dans le
modele:

yt = a + bxt + ut avec ut = 0.6 ut1 + t

E(t ) = 0, V (t ) = 2 , E(t s ) = 0 (t = s)

sur la base des donnees suivantes:

yt xt
8 3
12 6
14 10
15 12
15 14
18 15

On demande en plus la meilleure estimation lineaire sans biais de y7 = a + 20b + u7 .


La matrice X secrit:


1 3


1 6



1 10

.

1 12



1 14

1 15

Nous transformons le vecteur y et les deux colonnes de cette matrice selon la regle
enoncee a la section 9.3. Ceci donne, puisque = 0.6:
SECONDE PARTIE, CHAPITRE IX 131


0.8 2.4 6.4


0.4 4.2 7.2



0.4 6.4 6.8

X = et y =

0.4 6.0 6.6



0.4 6.8 6.0

0.4 6.6 9.0
On verie que:
1.44 13.92
(X ) X =
13.92 190.16

19.36
(X ) y =
228.92

6.1817
1
et mcg = ( (X ) X ) (X ) y = .
0.7513
Calculons maintenant le previseur de y7 si x7 = [1 20]. On a:

x7 mcg = 6.1817 + (20)(0.7513) = 21.208 .


Comme u6 = 18 6.1817 (15)(0.7513) = 0.5485, ceci donne:
p = 21.208 + (0.6)(0.5485) = 21.537.
9.10 Introduction aux methodes semi-parametriques

Nous avons vu que si E(uu ) = V = 2 I, la matrice de covariance de lestimateur de


par moindres carres ordinaires est egale a:
V (mco ) = (X  X)1 (X  V X)(X  X)1 .
Il est possible dutiliser cette information pour estimer les variances exactes des elements
de mco lorsque V = 2 I. Ceci donne:
(1) dans le cas de lheteroscedasticite seule: lestimateur de White ( White heterosce-
tasticity consistent covariance matrix estimator)
(2) dans le cas general ou lon peut avoir heteroscedasticite et autocorrelation: lesti-
mateur de Newey-West (Newey-West heteroscedasticity and autocorrelation con-
sistent covariance matrix estimator)
132 P. DESCHAMPS, COURS DECONOMETRIE

Dans le premier cas, on estime V par:


u2 0 ... 0
1
0 u22 ... 0
V =
.. .. .. ..

. . . .
0 0 ... u2n

Dans le second cas, on estime directement X  V X (et non pas V ) par une methode spec-
trale. Pour une introduction, voir Hamilton, Time-Series Analysis, chapitre 10. La methode
necessite le choix dune fonction de ponderation (kernel function) et dun parametre de
troncation (window width).
En pratique ces methodes ne donnent de bons resultats que lorsque la taille de lechan-
tillon est assez grande. Par ailleurs lestimateur mco reste inecace.
SECONDE PARTIE, CHAPITRE X 133

CHAPITRE X.

ELEMENTS DE THEORIE STATISTIQUE ASYMPTOTIQUE

10.1 Introduction

Les proprietes des estimateurs que nous avons rencontres lors de letude des moindres
carres ordinaires et lors de celle des moindres carres generalises si E(uu ) est une matrice
connue etaient toutes valables quelle que soit la taille n de lechantillon. Sous lhypothese
de normalite des erreurs, nous avons pu determiner leur distribution de facon exacte,
en fonction de n. Mais ces distributions exactes prennent vite une forme tres complexe
lorsque la methode destimation devient plus elaboree, comme cest le cas pour la methode
Aitken-realisable. Leur etude necessite des outils theoriques que nous ne pouvons passer en
revue ici; lapplication empirique de ces resultats dits de petit echantillon fait appel a des
techniques numeriques couteuses et complexes; de plus, les moments de ces distributions
de petit echantillon nexistent pas toujours!
Fort heureusement, la situation devient souvent beaucoup plus simple a la limite, lorsque
la taille de lechantillon tend vers linni. Cest ainsi que nous pourrons montrer que lorsque
la taille de lechantillon tend vers linni, la distribution de lestimateur Aitken-realisable
tend vers une loi normale. Nous pourrons alors nous baser sur cette loi pour eectuer des
tests approximatifs, dits tests asymptotiques.
La theorie que nous allons exposer dans ce chapitre sera aussi utilisee pour etudier
certains estimateurs proposes lorsque les regresseurs sont stochastiques, notamment dans
le cadre des modeles dynamiques et dans celui des systemes dequations simultanees.
Elle peut aussi etre employee pour faire des tests dhypotheses dans un modele de
regression lineaire dont les erreurs ne sont pas distribuees normalement, et pour lequel les
hypotheses du chapitre VII de cette seconde partie ne sont par consequent pas veriees.

10.2 Convergence en probabilite

Soit (Xn ) une suite de variables aleatoires. Cette suite converge en probabilite vers un
nombre a si et seulement si:

lim P [| Xn a |> ] = 0 pour tout  > 0, aussi petit soit-il.


n
134 P. DESCHAMPS, COURS DECONOMETRIE

On ecrira alors:
plim Xn = a, ou Xn a
n p
.
Lorsque cette propriete est veriee, les densites des Xn tendent vers une densite dont
toute la masse est concentree au point a (distribution degeneree).
Lorsque a est un parametre inconnu et Xn un estimateur de a, lestimateur est dit
convergent si plimn Xn = a .
Si Xn est non aleatoire, la limite en probabilite se reduit a une limite habituelle.

10.3 Inegalite de Chebychev

Enonce.
Soit X une variable aleatoire continue avec E(X) = et V (X) = 2 < . Pour tout
nombre reel  > 0 , X verie linegalite suivante, dite inegalite de Chebychev:

2
P [|X | > ] .
2
Demonstration
Si X est une variable continue de densite fX (x), on a par denition de sa variance:
%
2
= (x )2 fX (x)dx
%R %
= (x ) fX (x)dx +
2
(x )2 fX (x)dx
{x:|x|>} {x:|x|}
%
(x )2 fX (x)dx
{x:|x|>}
%
 2
fX (x)dx = 2 P [|X | > ]
{x:|x|>}

10.4 Loi faible des grands nombres

Enonce. Soit (Yn ) une suite de variables aleatoires avec E(Yn ) = et limn V (Yn ) =
0. Alors plim Yn = .

Demonstration Par linegalite de Chebychev, on a, pour tout n et tout  > 0:

V (Yn )
P [|Yn | > ] .
2
SECONDE PARTIE, CHAPITRE X 135

Si V (Yn ) 0, ceci implique:

V (Yn )
lim P [|Yn | > ] lim = 0.
2
Comme une probabilite ne peut pas etre strictement negative, la limite de la probabilite
est nulle, ce qui implique le resultat.

Corollaire (generalisation). Soit (Xn ) une suite de variables aleatoires. Si:

lim E(Xn ) = et lim V (Xn ) = 0,

alors plim Xn = .

Il sut en eet de poser Yn = Xn E(Xn ) et dappliquer le resultat precedent.

Application: Supposons que X1 , X2 , . . . , Xn soient independamment et identiquement


distribuees
n avec E(Xi ) = , V (Xi ) = 2 et considerons la moyenne dechantillon Xn =
1
n i=1 Xi . On a E(Xn ) = et limn V (Xn ) = 0, donc plimn Xn = .

10.5 Convergence en distribution

Soit (Xn ) une suite de variables aleatoires, et soit (FXn ) la suite de leurs fonctions
de distribution. La suite (Xn ) converge en distribution vers la variable aleatoire X , de
distribution FX , si et seulement si:

lim FXn (x) = FX (x)


n

chaque fois que FX est continue en x. On ecrira alors:

dlim Xn = X , ou Xn X .
n d

Ce type de convergence est plus faible que le precedent. Sa principale application est le
theoreme central limite, que nous verrons plus loin.
Comme exemple, prenons la moyenne Xn de n observations Xi independantes, despe-
rances nulleset de variances unitaires. La loi faible des grands nombres implique plim Xn =
0. La suite nXn ne converge pas en probabilite, mais bien en distribution; on verra par
la suite que la distribution limite est normale.
Les moments de la distribution limite FX sappellent moments asymptotiques de Xn .
On parle en particulier de lesperance asymptotique dun estimateur, ou de sa variance
asymptotique; on peut parler de meme dun estimateur asymptotiquement sans biais, ou
asymptotiquement ecace. Il est tres important de noter que ces moments asymptotiques
136 P. DESCHAMPS, COURS DECONOMETRIE

ne sont pas denis comme les limites des moments des distributions FXn , mais bien comme
les moments de la distribution limite FX ! Ceci pour deux raisons: les moments des FXn
peuvent ne pas exister; et les FXn peuvent ne pas etre entierement caracterisees par leurs
moments. Nous pouvons illustrer la premiere raison en mentionnant que la variance dune
variable Student a un degre de liberte nexiste pas; la seconde en mentionnant que la
distribution lognormale (distribution de Y = eX avec X N (, 2 )) nest pas entierement
caracterisee par ses moments.
Exercice: Soit n = 10000 et m = 1000. Supposons que lon ait engendre par simulation nm
observations independantes xij de distribution uniforme sur lintervalle [1, 1],  pour i =
n
1, . . . , n et j = 1, . . . , m. On calcule, pour j = 1, . . . , m, les moyennes xj = n1 i=1 xij .

A quoi ressemblera lhistogramme des xj ? A quoi ressemblera lhistogramme des nxj ?

10.6 Proprietes des modes de convergence

10.6.1 Relation entre limite en probabilite et limite en distribution.

Enonce. Soit (Xn , Yn ) une suite de paires de variables aleatoires. Si plim(Xn Yn) = 0
et dlim Yn = Y , alors dlim Xn = Y .

Cette propriete possede une reciproque partielle. Si dlim Xn = a et dlim Yn = a, avec a


constante, alors plim(Xn Yn ) = 0. Cette reciproque est intuitivement evidente puisquune
constante a une distribution degeneree.
Mentionnons quune meme distribution limite de Xn et de Yn nimplique pas que
plim(Xn Yn ) = 0, lorsque cette distribution limite nest pas degeneree. En eet, si
les Xn et les Yn possedent une distribution commune normale reduite, et que Xn est in-
dependante de Yn pour tout n, on a FXn Yn = N (0, 2) pour tout n. Par consequent,
dlim(Xn Yn ) N (0, 2). Mais ceci nimplique nullement que plim(Xn Yn ) = 0, puisque
pour tout  > 0, et pour tout n, P [| Xn Yn | > ] = 0.

10.6.2 Theoreme de Slutsky.

Ce theoreme etablit la preservation des limites en probabilite par les fonctions continues:

Enonce. Si plim Xn = a et g(Xn ) est continue en a, alors plim[g(Xn )] = g[plim(Xn )] =


g(a).

Il est important de noter que la fonction g ne peut dependre de n. Ce theoreme possede


les generalisations suivantes (on denit la limite en probabilite dune matrice comme la
matrice contenant les limites en probabilite des elements):
(1) Si (An ) et (Bn ) sont deux suites de matrices conformes pour laddition, alors
plim(An + Bn ) = plim(An ) + plim(Bn ) si plim(An ), plim(Bn ) existent.
SECONDE PARTIE, CHAPITRE X 137

(2) Si (An ), (Bn ) sont deux suites de matrices conformes pour la multiplication et si
plim(An ), plim(Bn ) existent, on a: plim(An Bn ) = plim(An ) plim(Bn ) .
(3) Si (An ) est une suite de matrices regulieres et si plim(An ) existe et est reguliere,
alors: plim(A1
n ) = (plim An )
1
.
10.6.3 Convergence en distribution de fonctions de variables aleatoires.
Enonce.
(1) Si g est continue et si dlim Xn = X, alors dlim g(Xn ) = g(X)
(2) Supposons que dlim Yn = Y et que plim Xn = a, avec a constante. Alors:

dlim(Xn + Yn ) = a + Y

dlim(Xn Yn ) = aY
Yn Y
dlim( )= si a = 0.
Xn a

Dans le cas de convergence en distribution vers une normale, on peut enoncer une gene-
ralisation multivariee de ce resultat. Nous admettrons quune suite de vecteurs aleatoires
(n) (n)
X (n) = (X1 , . . . , Xm ) converge en distribution vers un vecteur normal multivarie X =
m (n)
(X1 , . . . , Xm ) si toute combinaison lineaire i=1 i Xi converge en distribution vers
m

i=1 i i X . Supposons alors que lon ait une suite de matrices A(n) convergeant en pro-
babilite vers A et que la suite des vecteurs X (n) converge en distribution vers un vecteur
X N (0, I). La suite A(n)X (n) converge en distribution vers un vecteur ayant la distri-
bution N (0, AA ).

10.7 Fonction caracteristique et convergence en distribution

Nous aurons, lorsque nous verrons le theoreme central limite, a determiner la distribution
limite dune somme de variables aleatoires. Calculer la distribution dune somme X + Y ,
connaissant la distribution jointe de X et Y , est en regle generale un probleme tres dicile.
Le passage par les fonctions caracteristiques permet souvent de simplier les choses.
Si lon denote par i lunite imaginaire (i2 = 1), la fonction caracteristique dune
variable aleatoire X est denie comme:
 
X (t) = E eitX
= E [cos(tX)] + iE [sin(tX)] , en vertu des proprietes du
nombre complexe eitX .
Avant de donner un exemple de fonction caracteristique, mentionnons quatre de ses
proprietes:
(1) La fonction caracteristique dune variable aleatoire existe toujours.
En eet, cos(tX) et sin(tX) sont des fonctions periodiques, donc bornees pour toute
138 P. DESCHAMPS, COURS DECONOMETRIE

valeur de tX; lesperance mathematique dune fonction bornee existe toujours. Nous
ne pourrions en dire autant pour E(etX ) par exemple.
(2) La fonction caracteristique de X caracterise entierement la distribution de X.
(3) Si X et Y sont deux variables aleatoires independantes, alors: X+Y (t) =
X (t)Y (t) .
 
En eet, X+Y (t) = E eit(X+Y )
= E eitX eitY
   
= E eitX E eitY

par lhypothese dindependance.

Cette propriete facilite le calcul de la distribution de X + Y . Si le produit des


fonctions caracteristiques est la fonction caracteristique dune distribution connue,
cette distribution est celle de X + Y .
(4) Soit (Xn ) une suite de variables aleatoires, et soit (Xn ) la suite de leurs fonctions
caracteristiques. Supposons que:
(i) limn Xn (t) = (t)
(ii) (t) soit continue pour t = 0.
Alors (t) est une fonction caracteristique, celle de dlim Xn . Plus precisement:
a) dlim Xn = X , et
 
b) E eitX = (t).
Cette derniere propriete nous permettra de demontrer le theoreme central limite. Mais a
titre dexemple, nous allons tout dabord calculer la fonction caracteristique dune variable
normale.
     
Soit donc X N (, 2 ). On a E eitX = eit E eit(X) . Pour calculer E eit(X) ,
faisons le changement de variable y = x . On a dy = dx, et donc:

  % +
1 y2
E e it(X)
= eity e 22 dy
2

% +
1 1 2
22 ity)
= e 22 (y dy
2

% +
1 2 2 2 1 2
22 ity+i2 t2 4 )
= ei t /2 e 22 (y dy
2

% +
1 2 2 1 2 2
= et /2 e 22 (yit )
dy .
2
SECONDE PARTIE, CHAPITRE X 139

Faisons maintenant le changement de variable v = y it 2 . On a dv = dy, et donc:

  % +
t2 2 /2 1 v2
E eit(X) = e e 22 dv
2
t2 2 /2
= e
2
2 /2
Par consequent X (t) = eit et
2
2 /2
= eitt .

10.8 Versions du theoreme central limite

10.8.1 Variables independantes, identiquement distribuees.

Lenonce qui va suivre porte le nom de theoreme de Lindeberg-Levy. Il sapplique a des


variables aleatoires independantes et identiquement distribuees. Il permet notamment de
traiter le probleme de lapproximation dune binomiale par une normale.

Theoreme. Soit (Zi ) une suite de variables independantes et identiquement distribuees


avec E(Zi ) = et V (Zi ) = 2 . Soit:
Zi
Xi =

n
1  n(Z )
Sn = Xi =
n i=1

On a dlim Sn N (0, 1) .

Demonstration
Puisque, en general:

X2 X3
eX = 1 + X + + + ...,
2 3!
X
on a, en appliquant cette formule a Yj = j :
n

  (it)2
Yj (t) = E eitYj = 1 + itE(Yj ) + E(Yj2 ) + . . . .
2
1
Mais, puisque E(Yj ) = 0 et E(Yj2 ) = n
, ceci implique:

(it)2
Yj (t) = 1 + 0 + +....
2n
140 P. DESCHAMPS, COURS DECONOMETRIE

Si n est grand, on peut negliger les termes dordre superieur a 2, et donc:

t2
Yj (t) 1 .
2n
Puisque les Yj sont independantes, la fonction caracteristique de leur somme est le
produit des fonctions caracteristiques des Yj . Par consequent:

t2 n
Sn (t) (1 ) pour n grand .
2n
Pour pouvoir appliquer la quatrieme propriete des fonctions caracteristiques, nous cal-
culons maintenant:
t2 n
lim (1 ) .
n 2n
Comme:
t2 n (t2 /2) n
(1 ) = (1 + )
2n n
et comme:
X
lim (1 + )n = eX
n n
on a:
2
lim Sn (t) = et /2
n

qui est continue au point t = 0. Nous reconnaissons la fonction caracteristique dune


variable N (0, 1); par consequent dlim Sn N (0, 1).

Terminons cette section en montrant que ce theoreme permet dapprocher une binomiale
par une normale. Soit donc Y une variable aleatoire prenant comme valeur le nombre
de succes rencontre lors de n tirages eectues avec remise (et donc independants), la
probabilite dobtenir un
nsucces lors de lun quelconque de ces tirages etant egale a p. Nous
pouvons ecrire: Y = i=1 Zi , ou Zi est une variable aleatoire prenant la valeur 1 avec
la probabilite p, la valeur 0 avec la probabilite (1 p). On verie immediatement que
E(Zi ) = p et V (Zi ) = p(1 p). Par consequent, E(Y ) = np et V (Y ) = np(1 p). Donc,
si lon denit:
Zi p
Xi = #
p(1 p)
on a:

n
1  Y np
Sn = Xi = # .
n i=1 np(1 p)

Le theoreme central limite est applicable, et dlim Sn N (0, 1). Si n est susamment
grand, on peut alors approcher une binomiale de parametres n et p par une normale
desperance np et de variance np(1 p).
SECONDE PARTIE, CHAPITRE X 141

10.8.2 Variables independantes, non identiquement distribuees.

Cette seconde version sapplique a des variables independantes, mais de distributions


non identiques. Pour illustrer son importance, rappelons que dans le modele de regression
n xt x
simple yt = a + bxt + ut , nous avions demontre que b b = t=1 wt ut avec wt =  (x tx)
2.

Lestimateur de b par moindres carres est donc, a une constante pres, une somme de
variables aleatoires wt ut . Mais ces variables ne sont pas identiquement distribuees puisque
wt = ws pour t = s.
Le theoreme suivant, dont on trouvera lenonce dans Judge et al., The Theory and
Practice of Econometrics, 1985, p. 156, remplace lhypothese de distributions identiques
par une condition sur les troisiemes moments des variables. Nous nous bornerons par la
suite a faire lhypothese que cette condition est veriee, chaque fois que nous aurons besoin
du theoreme. Nous enoncerons ce theoreme sous sa forme vectorielle, sans le demontrer.

Theoreme.
Soit (Zt ) une suite de vecteurs aleatoires independants avec E(Zt ) = 0, et V (Zt ) =

E(Zt Zt ) = t . Supposons que les deux conditions suivantes soient veriees:
n
(1) limn n1 t=1 t = , avec denie positive
(2) E(Zit Zjt Zkt ) < pour tout i, j, k, t.
n
Alors, si Sn = 1
n t=1 Zt , on a dlim Sn N (0, ).

Exercice. Pour le modele de regression simple yt = a + bxt + ut sous les hypotheses



du chapitre I de la seconde partie, trouvez la distribution limite de n(b b), ou b est
lestimateur de b par moindres carres ordinaires. Comment interpreter ce resultat?

10.8.3 Dierences de martingales.

Lorsque nous etudierons les modeles dynamiques, nous aurons anexaminer la convergence
1
en distribution de suites de vecteurs aleatoires de la forme n t=1 Zt , ou les vecteurs Zt
sont dependants entre eux. Nous devrons alors utiliser une generalisation des theoremes
precedents. Une telle generalisation existe dans le cas ou la dependance prend une forme
particuliere, celle des dierences de martingales.

Denition:
Une suite (Zt )
t=1 de variables aleatoires, ou de vecteurs aleatoires, est une dierence de
martingale si:
E(Zt ) = 0 pour tout t;
E(Zt | Zt1 , Zt2 , . . . , Z1 ) = 0 pour tout t.
142 P. DESCHAMPS, COURS DECONOMETRIE

Exemple:
Dans le cadre des modeles a variables endogenes retardees, nous rencontrerons des suites
(Zt ) de la forme Zt = ut ut1 , ou les ut sont independantes, desperance nulle, et identique-
ment distribuees. Il est facile de verier que les Zt forment une dierence de martingale:

E(Zt ) = E(ut ut1 ) = E(ut )E(ut1 ) = 0

E(Zt | Zt1 , . . . , Z1 ) = E(Zt | Zt1 )


= E(ut ut1 | ut1 ut2 )
= Eut1 E(ut ut1 | ut1 ut2 , ut1 )
= Eut1 E(ut ut1 | ut1 , ut2 )
= Eut1 ut1 E(ut | ut1 , ut2 ) = 0

La troisieme egalite resulte de la loi des esperances iterees, et la quatrieme vient du fait
que la connaissance de ut1 ut2 et de ut1 est equivalente a celle de ut1 et de ut2 , sauf
si ut1 = 0; mais si ut1 = 0, lesperance est nulle et legalite est donc veriee.
Le theoreme suivant est enonce dans Hamilton, Time-Series Analysis, 1994, p. 194. Il
suppose lexistence des quatre (et non plus trois) premiers moments.

Theoreme.
Soit (Zt ) une dierence de martingale. Si:

(1) Les matrices de covariance V (Zt ) sont denies positives;

n
1
(2) lim V (Zt ) = , une matrice denie positive;
n n
t=1

(3) E(Zit Zjt Zlt Zmt ) < pour tout t,i,j,l,m;

1
n
(4) Zt Zt
n t=1 p

alors:
n
1 
dlim Zt N (0, )
n t=1

Exercice: On pose le modele yt = byt1 + ut ou les ut sont independantes, desperances


  2
nulles, et identiquement distribuees. Si b = 0 et si b = t yt1 yt / t yt1 , montrez que la

distribution limite de nb est normale reduite.
SECONDE PARTIE, CHAPITRE X 143

10.9 LInegalite de Rao-Cramer

Commencons par fournir le l directeur de cette section et de la suivante. Linegalite


de Rao-Cramer, que nous demontrerons, fournit une borne inferieure de la variance dun
estimateur sans biais. Une generalisation vectorielle de cette inegalite mene a la matrice
dinformation, dont linverse est la matrice de covariance asymptotique du vecteur des
estimateurs par maximum de vraisemblance. Cette matrice permet alors deectuer des
tests asymptotiques meme lorsque lon ne connat pas la distribution de petit echantillon
des estimateurs de maximum de vraisemblance, comme cest le cas dans beaucoup de
modeles non lineaires. La matrice dinformation possede donc un interet double, a la fois
theorique (ecacite asymptotique) et pratique (calcul de covariances asymptotiques).
Les demonstrations de cette section utiliseront lhypothese que les observations sont
independantes et identiquement distribuees; mais des resultats analogues peuvent etre
prouves sous des hypotheses plus generales.

Lemme.
Supposons que soit scalaire et soit (X1 , X2 , . . . , Xn ) un echantillon aleatoire de fonction
de vraisemblance:
& n
L(x, ) = f(xi |).
i=1

Supposons que L soit deux fois dierentiable, et que:


% %

L(x, )dx = L(x, )dx.
Rn Rn

Alors:    2  
log L(x, ) log L(x, ) 2 log L(x, )
V =E = E .
2

Demonstration
'Puisque L(x, ) peut etre consideree comme la densite jointe de lechantillon, on a
Rn L(x, )dx = 1. En derivant par rapport a , ceci donne:
% %

L(x, )dx = 0 = L(x, )dx.
Rn Rn

L log L
Mais
=
L. On a donc aussi:
%  
log L(x, ) log L(x, )
L(x, )dx = E = 0.
Rn

En derivant une nouvelle fois par rapport a , il vient:


144 P. DESCHAMPS, COURS DECONOMETRIE

%  
2 log L log L L
L + dx = 0,
Rn 2
% %  2
2 log L log L
ou encore: Ldx + Ldx = 0 .
Rn 2 Rn
 
log L
Soit aussi, puisque E =0:
   2  
log L log L 2 log L
V =E = E .
2

Inegalite de Rao-Cramer. Soit = (x) un estimateur sans biais de . On a line-


galite:
1
V ()  2 
log L
E
2

Demonstration
Comme est sans biais, on a:
%
= E() = L(x, )dx .
Rn

En derivant par rapport a , il vient:

% %
L log L
1 = dx = Ldx
Rn Rn
   
log L log L
= cov , puisque E = 0 .

Dautre part, en vertu de linegalite generale (cov(X, Y ))2 V (X)V (Y ) , nous avons:
   
log L log L
1 = cov , 2
V () V ,

ou, en vertu du lemme:
 
2 log L
1 V () E . Linegalite cherchee sensuit.
2
Pour illustrer ce resultat, reprenons le probleme de lestimation par maximum de vrai-
semblance de lesperance mathematique dune variable normale, discute a la section 3.3
de la premiere partie. Nous avions trouve:
SECONDE PARTIE, CHAPITRE X 145

log L 1 
= 2 (xi )

et donc

2 log L n
2
= 2 .

2
En vertu de linegalite precedente, on a alors V () n si E() = . Mais nous savons
2
que E(x) = et V (x) = n . Nous concluons que cet estimateur est ecace.
Notons quun estimateur peut etre ecace sans que sa variance atteigne cette borne
inferieure!

10.10 La matrice dinformation

Preoccupons-nous maintenant de lestimation dun vecteur aleatoire



1

.
= .
.

k

Soit un estimateur sans biais de .


Nous admettons sans demonstration les generalisations suivantes des resultats prece-
dents:

 
log L
E = 0 (un vecteur k 1)

   2 
log L log L
V = E (une matrice k k)

= R() .
def

La matrice R() sappelle matrice dinformation. Nous la supposerons reguliere.


 
En lieu et place de cov , log

L
= 1 , nous ecrivons:
 
log L
E =I (une matrice k k)

et par consequent:
146 P. DESCHAMPS, COURS DECONOMETRIE


V () I

V
log L
= .
I R()

Cette derniere matrice est denie non negative, etant une matrice de covariance. An
darriver a une generalisation vectorielle de linegalite de Rao-Cramer, considerons un
vecteur colonne arbitraire a. Comme la matrice est denie non negative, on a:

V () I a
a R1 () )
 
(a 0
1
I R() R ()a

soit en eectuant et en simpliant:


 
1
a V () R () a 0 .

Donc la matrice V () R1 () est denie non negative. On a en particulier


 
V (i ) R1 () ii pour tout i.
Illustrons maintenant ce resultat. Nous avons vu a la Section 5.8 que dans le modele
2
y = X + u avec u N (0, 2 I), la matrice
log L
 prenait la forme:

(X X) 1 
2 4X u
H =
1 
.
n 1 
4u X 6u u
2 4
Par consequent:

(X X)
2 Ok1 
R() = E(H) = puisque E(u u) = n 2 .
n
O1k
2 4

Donc R1 () est diagonale par blocs, et pour tout estimateur sans biais de , la

matrice V () 2 (X X)1 est denie non negative en vertu du resultat precedent, lorsque
 
les erreurs sont distribuees normalement. Mais si = (X X)1 X y, V () est precisement

egale a 2 (X X)1 .
La borne inferieure est atteinte par cette matrice: nous concluons que sous lhypothese
 
de normalite, = (X X)1 X y nest pas seulement le meilleur estimateur lineaire sans
biais. Cest aussi le meilleur estimateur sans biais parmi tous les estimateurs, quils soient
lineaires ou non.
SECONDE PARTIE, CHAPITRE X 147

10.11 Proprietes asymptotiques des


estimateurs par maximum de la vraisemblance

10.11.1 Cas scalaire.

Nous avons ici le cas de lestimation dun seul parametre . La vraisemblance secrit
(n
L(x, ) = i=1 f(xi |) comme precedemment, et lestimateur est une solution de lequa-
log L(x,)
tion = 0.
On demontre que sous des hypotheses assez generales, et qui nimpliquent pas la nor-
malite, lestimateur est convergent, asymptotiquement normal, asymptotiquement sans
biais, et asymptotiquement ecace. En eet, sous ces hypotheses:

plim =

n
dlim n( ) N 0, plim  
2 log L(x,)
E 2

La borne inferieure est donc atteinte par la variance asymptotique de .

10.11.2 Cas vectoriel.

Dans le cas ou est un vecteur, on demontre sous des hypotheses semblables aux
precedentes les generalisations suivantes. Soit le vecteur des estimateurs par maximum
de vraisemblance. Alors:

plim =

dlim n( ) N 0, plim nR1 ()

ou:  
2 log L(x, )
R() = E 

est la matrice dinformation vue precedemment.

10.12 Distribution asymptotique du rapport des vraisemblances

10.12.1 Introduction.

Rappelons que la methode du rapport des vraisemblances, vu a la section 5.3 de la


premiere partie, se resume ainsi: Dans le test H0 : = 0 contre H1 : = 0 , on calcule
148 P. DESCHAMPS, COURS DECONOMETRIE

maxH0 L(x, )
= .
max L(x, )
On a les inegalites 0 1.
On rejette H0 si < 0 , ou 0 est un nombre strictement compris entre 0 et 1 et choisi
en fonction dun niveau de signication .
Dans les cas que nous avons traites jusquici, cette methode nous a permis de trouver
une regle de decision valable pour de petits echantillons, et faisant appel a une statistique
possedant une distribution connue (Student, par exemple). Mais, il existe de nombreux
modeles non lineaires ou ceci nest pas le cas. On doit alors se contenter de tests asympto-
tiques. Il est donc interessant de connatre la distribution asymptotique dune fonction de
.

10.12.2 Cas scalaire.

Lorsque le vecteur na quune seule composante, nous allons montrer que sous H0 ,
dlim(2 loge ) 2(1) . Notre demonstration utilise lhypothese que les observations sont
independantes et identiquement distribuees, mais le resultat peut etre generalise.
Soit lestimateur de par maximum de vraisemblance. Nous commencons par faire
un developpement de log L(x, 0 ) autour de (theoreme de Taylor). Ceci donne:
)
log L(x, ) ))
log L(x, 0 ) log L(x, ) = (0 ) )
=
)
1 2
log L(x, ) ))
+ (0 )2 )
2 2 =

ou est un point de lintervalle ouvert reliant 0 et .


)
log L )
Comme ) = 0 par denition de , nous pouvons reecrire cette equation comme:
=
)
1
L(x, 0 ) 2 )
2 log L )
log = (0 ) 2 ) ,
L(x, ) 2 =
soit aussi:

 2  1   2 log L )) 
2 log = n( 0 ) )
n 2 )=

* ) +
 2 n
1  2 log f(xi |) ))
= n( 0 ) )
n 2 =
i=1

 2
= n( 0 ) k 2 .
def
SECONDE PARTIE, CHAPITRE X 149

Comme est convergent, on a, sous lhypothese H0 , plim = 0 . Comme est compris


entre 0 et , ceci implique:

* n ) +
1  2
log f(x |) )
plim k 2 = plim
i )
n 2 )
i=1 =0
 2 ) +
log f(xi |) ))
= E )
2 =0
)
2 )
sous lhypothese que les termes logf2(xi |) ) sont de variance nie (ils sont en eet
=0
identiquement distribues). Ceci est une consequence des resultats de la section 10.4. De
plus, comme nous lavons vu:

  1
dlim n( 0 ) N
0, plim  ) 

2 log L )
n1 E 2 )
=0

sous lhypothese H0 .
Comme:
  2 )  * ) +
1 log L )) 2 log f(xi |) ))
plim E ) = E ) = plim k 2 ,
n 2 =0 2
=0

ceci implique:  
  1
dlim n( 0 ) N 0, .
plim k 2
Alors, en vertu des resultats de la section 10.6:

 2
dlim(2 log ) = dlim n( 0 ) plim k 2
 
1
= X plim k ou X N 0,
2 2
.
plim k 2

Denissons maintenant Y = (plim k)X. Comme Y N (0, 1), Y 2 = (plim k 2 )X 2 =


dlim(2 log ) est 2(1), ce quil fallait demontrer.

10.12.3 Cas vectoriel.

Nous avons un vecteur de k parametres a estimer et nous voulons tester lhypothese


H0 : 1 = 1 contre H1 : 1 = 1 ou 1 est un sous-vecteur de de dimension q. On montre
alors que dlim(2 loge ) 2(q) .
150 P. DESCHAMPS, COURS DECONOMETRIE

10.13 Exemple dapplication dans un modele a erreurs autoregressives

Dans le modele de regression classique, nous avons vu, sous lhypothese de normalite des
erreurs, que mco est normal quelle que soit la taille de lechantillon. De plus, le rapport
des vraisemblances permet de deriver un test F dune hypothese lineaire; ce test est, lui
aussi, valable pour tout n. La distribution de Student permet de calculer des intervalles
de conance.
Dans le modele des moindres carres generalises ou E(uu ) = 2 , nous avons les memes
resultats lorsque est connue. Par contre, si est inconnue, nous navons plus de resultats
valables en petit echantillon. Mais si u est un vecteur normal, on peut deriver lestimateur
de par maximum de la vraisemblance. Cet estimateur nest pas normal car cest une fonc-
tion non lineaire des erreurs. Neanmoins, on peut en trouver la distribution asymptotique
a laide des resultats precedents.
Pour le modele a erreurs autoregressives:

y = X + u, avec ut = ut1 + t

ou les t sont independantes de distribution N (0, 2 ) et ou X est non aleatoire, lestimateur


par maximum de vraisemblance a ete etudie par Beach et MacKinnon, A maximum
likelihood procedure for regression with autocorrelated errors, Econometrica 46 (1978),
5158. Nous allons brievement discuter les resultats de ces auteurs.
Rappelons que E(uu ) = V = u2 , ou est la matrice de la section 9.2, et que
2 = (1 2 )u2 . En utilisant la denition de la densite normale multivariee, on peut
ecrire:

1 1
log L(, 2 , ) = K + log det V 1 (y X) V 1 (y X)
2 2
et, en utilisant les regles de derivation matricielle de la section 3.4:

log L
= X  V 1 X + X  V 1 y

En annulant ce vecteur de derivees, on obtient:

= (X  V 1 X)1 X  V 1 y

soit le meme resultat quen moindres carres generalises lorsque est connue.
Les derivees par rapport a et 2 sont plus compliquees. Il serait superu den donner
les details ici, puisque ces derniers ce trouvent dans larticle precedemment cite. Il nous
sura de mentionner que la maximisation de L par rapport a implique la solution dune
equation cubique, qui possede toujours une solution comprise entre 1 et +1.
SECONDE PARTIE, CHAPITRE X 151

Le but de cette section etant dillustrer les resultats du present chapitre, nous allons
enoncer la matrice dinformation et son utilite dans le contexte de ce modele. Appelons
= (, 2 , ). Beach et MacKinnon montrent que, si X est non stochastique:
 1
(X V X) Ok1 Ok1


R() = O1k A C

O1k C B
ou A, B, et C sont des scalaires. Alors:
 1 1
(X V X) Ok2
 1
R1 () =
A C
O2k
C B
et le theoreme vu a la section 10.10 implique:

dlim n( ) N (0, plim nR1 ()).

Comme tout sous-vecteur dun vecteur normal multivarie est normal multivarie, on peut
donc ecrire:

dlim n( ) N (0, plim n(X  V 1 X)1 ).

Nous avons vu que les estimateurs par maximum de vraisemblance sont convergents,
et que les limites en probabilite sont preservees par les fonctions continues. Donc, si on
remplace, dans la denition de V , et 2 par leurs estimateurs pour obtenir V , on obtient:

plim V = V

plim n(X  V 1 X)1 = plim n(X  V 1 X)1


et par consequent:

dlim n( ) N (0, plim n(X  V 1 X)1 ).

On peut donc approcher la distribution de par une normale N (, (X  V 1 X)1 ).


Pour tester H0 : = 0 contre H1 : = 0, on peut calculer le rapport des vraisemblances
en estimant deux fois le modele: une fois par MCO (ceci donne lestimation sous H0 ) et
une fois par la methode de Beach et MacKinnon (ceci donne lestimation sans contrainte).
est le rapport des vraisemblances maximisees. Le theoreme de la section 10.11 implique
alors que dlim 2 log 2(1) lorsque H0 est vraie, puisquil ny a quune seule contrainte
sous H0 . Ceci fournit des valeurs critiques approximatives. Ce test nest valable quen grand
echantillon mais ne presente pas les zones dincertitude de la statistique de Durbin-Watson.
Il faut bien noter que les resultats du chapitre X sont dune applicabilite tres generale;
cette section na presente quune illustration de ces resultats.
152 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE XI.

PROPRIETES ASYMPTOTIQUES DES ESTIMATEURS


DE MOINDRES CARRES ORDINAIRES

11.1 Convergence en probabilite

 
Nous montrerons dans cette section que = (X X)1 X y est un estimateur convergent
de dans le modele classique y = X + u, sous les hypotheses suivantes:

(H1) E(u) = 0


(H2) E(uu ) = 2 I

(H3) X est non stochastique de rang k < n

1 
(H4) lim X X = XX , une matrice denie positive.
n n

Comme X est non stochastique, on a:

 
E(X u) = X E(u) = 0
 n 
    n

2 2
V (X u)i = V Xti ut = Xti
t=1 t=1
   2
1  Xti
et V (X u)i = 2 .
n n2


X2
ti
Mais  n converge par lhypothese (H4) vers un nombre ni. Nous concluons que 
V n1 (X u)i tend vers zero quand n tend vers linni. Donc les composantes de n1 X u
SECONDE PARTIE, CHAPITRE XI 153
 
  

1 1
verient E n (X u)i = 0, et limn V n (X u)i = 0 . Ceci montre (section 10.4) que

plim( n1 X u) = 0. On a alors, en appliquant le theoreme de Slutsky:

  

1
plim = plim + (X X) X u
  

= + plim (X X)1 X u
 1 
1  1 
= + plim X X Xu
n n
 1  
1  1 
= + plim (X X) plim Xu
n n
= + 1
XX .Ok1 = .

11.2 Normalite asymptotique

Tous les tests dhypotheses exposes au chapitre VII lont ete en supposant la normalite
des erreurs. Quen est-il si lon ne fait pas dhypotheses speciques sur la distribution du
vecteur u? Nous allons voir quun theoreme central limite nous permet detablir la normalite
 
asymptotique de = (X X)1 X y. Si la taille de lechantillon est susamment grande,
on peut alors se baser sur la distribution normale pour faire des tests asymptotiques sur
le vecteur . On raisonne en pratique comme si la variance des erreurs etait connue: on
utilisera donc la loi normale au lieu de la loi de Student, la loi 2 au lieu de la loi F .

Theoreme.
Supposons que les hypotheses (H1) a (H4) soient veriees, et soit t la t-ieme colonne de
 n
la matrice X . Denissons les vecteurs Zt = ut t et supposons que 1n t=1 Zt verie
 
un theoreme central limite. Alors, pour = (X X)1 X y:


(a) dlim n( ) N (0, 2 1
XX ).
1  
(b) Si plim ( n u u) = , on a plim( n1 u u) = 2 avec u = y X
2
.

Demonstration


(a) Notons dabord que E(Zt ) = 0 et V (Zt ) = 2 t t .
Par consequent:
n n
1 2  2 
lim V (Zt ) = lim t t = lim X X = 2 XX ,
n n n n n n
t=1 t=1
154 P. DESCHAMPS, COURS DECONOMETRIE

qui est nie et denie positive par lhypothese (H4). En vertu du theoreme central
limite, on a:
n
1  1 
dlim X u = dlim Zt N (0, 2 XX ).
n n t=1

 
Notons ensuite que n( ) = ( n1 X X)1 1n X u et appliquons les resultats
de la section 10.6. Ceci donne:

 1  
1  1 
dlim n( ) = plim XX dlim Xu
n n

2  1 
N 0, 1
XX XX XX


N 0, 2 1
XX .

(b) Pour demontrer la seconde partie du theoreme, rappelons que:


 
  

u u = u I X(X X)1 X u.

Donc:
    1  
u u 1  1  1  1 
= u u Xu XX Xu , et:
n n n n n
* 
+  
u u 1 
plim = plim u u O1k .1
XX .Ok1 =
2
n n

en vertu du theoreme de Slutsky et de lhypothese faite dans lenonce.

Exercice. Calculez la distribution limite, sous lhypothese nulle H0 : R = r, de la


statistique de Wald vue a la section 7.4 de la seconde partie.
SECONDE PARTIE, CHAPITRE XII 155

CHAPITRE XII.

PROPRIETES ASYMPTOTIQUES DES ESTIMATEURS DAITKEN

Le theoreme que nous allons demontrer dans ce chapitre est un cas particulier dap-
plication au modele a erreurs autoregressives dun theoreme plus general, sappliquant a
tout estimateur Aitken-realisable. Il montre que si lon remplace par un estimateur
convergent de cette matrice dans la formule de mcg , on obtient un estimateur de qui a
la meme distribution limite que mcg .

Theoreme.
Soit le modele y = X + u avec E(u) = 0,

1 n1


1


2

 2
E(uu ) = = .. .. .. , et X non stochastique.
. . .



n1 1

Soit un estimateur convergent de et supposons que limn n1 (X  1 X) = Q


soit une matrice denie positive. Soit T la matrice de transformation de la section 9.3
(T  T = 1 ), soit [X  T  ]t la t-ieme colonne de X  T  , et supposons que les vecteurs Zt =
(T u)t [X  T  ]t verient un theoreme central limite.
Considerons les deux estimateurs:
= (X  1 X)1 X  1 y , et

= (X  1 X)1 X  1 y


1 n1


1

ou =
. .. ..
.. .
.

n1 1
156 P. DESCHAMPS, COURS DECONOMETRIE

Sous les hypotheses additionnelles que:

1 1
plim (X  1 X) = lim (X  1 X) = Q
n n
1
plim (X  1 u X  1 u) = 0
n
1
plim u u = 2
n
on a les resultats suivants:

(1) dlim n( ) = dlim n( ) N (0, 2 Q1 )
(2) plim s2 = 2 , avec:

1 
s2 = (y X ) 1 (y X ).
nk

Demonstration
 
Notons tout dabord que n( ) = ( n1 X 1 X)1 1n X 1 u et que:

n

  
X 1 u = X T T u = Zt .
t=1

n     
On a E(Zt ) = 0; dautre part, comme E(T u)2t = 2 et comme t=1 [X T ]t [X T ]t =

X 1 X,
n
1  2 
lim E(Zt Zt ) = lim (X 1 X) = 2 Q.
n t=1 n
n
Par consequent, en vertu du theoreme central limite, dlim 1n t=1 Zt N (0, 2 Q).
Donc:

 1  
  1  1 1 
1
dlim n = plim X X dlim X u
n n
 
N 0, Q1 ( 2 Q)Q1 = N 0, 2 Q1 .

Pour montrer que lestimateur Aitken-realisable a la meme distribution que lestima-


teur Aitken-pur, nous pouvons appliquer le resultat de la section 10.6.1. En eet:

1  1 
n( ) = ( X 1 X)1 X 1 u,
n n
SECONDE PARTIE, CHAPITRE XII 157

1 
dlim( X 1 u) N (0, 2 Q)
n
et donc:

dlim n( ) N (0, 2 Q1 ).

Pour demontrer la seconde partie du theoreme, notons que la limite en probabilite de:

1 
(y X ) 1 (y X )),
nk

est egale a 2 . La demonstration est exactement la meme que celle de la section 11.2:

il sut de remplacer y par T y et X par T X. Comme plim = plim = et comme
plim = , le theoreme de Slutsky implique plim s2 = 2 .

Ces resultats ont ete obtenus sans faire lhypothese de normalite des erreurs, puisque
nous avons utilise un theoreme central limite. Il est toutefois tres interessant de noter que
nous venons dobtenir la meme distribution limite que celle de la section 10.13, ou nous
avions fait lhypothese de normalite des erreurs pour deriver lestimateur par maximum de
vraisemblance; il est facile en eet de verier que:

2 Q1 = plim n(X  V 1 X)1

ou V = E(uu ). Les matrices de covariance asymptotiques sont donc les memes; puisquune
distribution normale est entierement caracterisee par les deux premiers moments, ceci
implique bien legalite des distributions limites.
Nous avons donc lequivalence asymptotique dune methode simple (celle dAitken) et
dune methode plus compliquee (celle du maximum de vraisemblance).
158 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE XIII.

REGRESSEURS STOCHASTIQUES

13.1 Introduction: types de regresseurs stochastiques

Dans tous les developpements precedents, X etait non stochastique par hypothese. Ceci
netant pas realiste, il nous faut maintenant examiner les proprietes de la methode des
moindres carres ordinaires dans le cas ou cette hypothese nest pas veriee.
Nous pourrons distinguer trois types de regresseurs stochastiques.
Dans le premier cas, la matrice X est independante du vecteur u. Les estimateurs MCO
sont alors convergents, sans biais, et ont la distribution limite vue au chapitre XI sous
lhypothese dun theoreme central limite. De plus, lorsque les erreurs sont normales, les
statistiques tobs et Fobs vues precedemment au chapitre VII ont les distributions t et F
sous lhypothese nulle, meme en petit echantillon.
Dans le second cas, X depend de u, mais les regresseurs ne sont pas correles avec
les erreurs contemporaines. Les estimateurs MCO ne sont pas sans biais, mais ils sont
convergents. Ils ont la distribution limite vue au chapitre XI sous lhypothese dun theoreme
central limite. Les distributions des statistiques tobs et Fobs vues precedemment au chapitre
VII ne sont t et F que si la taille de lechantillon tend vers linni. Nous nexaminerons
pas ce second cas dans le present chapitre, mais nous letudierons plus tard dans le cadre
des modeles a variables endogenes retardees.
Dans le troisieme cas, certains regresseurs sont correles avec lerreur contemporaine.
Alors les estimateurs MCO ne sont pas convergents, et on doit utiliser la methode des
variables instrumentales, qui sera vue dans le present chapitre.

13.2 Regresseurs stochastiques independants du vecteur des erreurs

Nous allons voir que si X est stochastique, mais independante de u, lestimateur de


par moindres carres ordinaires garde beaucoup de proprietes desirables. Il est toujours sans
biais, et convergent. De plus, toutes les proprietes asymptotiques demontrees precedem-
ment dans le cadre du modele classique restent valides.
SECONDE PARTIE, CHAPITRE XIII 159

Dans la premiere partie de cette section, nous nutiliserons que les hypotheses suivantes,
qui sont compatibles avec lindependance de X et de u, mais nimpliquent pas cette inde-
pendance:

(H1 ) E(u|X) = 0


(H2 ) E(uu |X) = 2 I


(H3 ) plim( n1 u u) = 2

  
(H4 ) plim( n1 X X) = lim E( n1 X X) = XX est denie positive .

Rappelons tout dabord la loi des esperances iterees (section 1.7) de la premiere partie:

Lemme 13.1.
E(X) = EY E(X|Y ) .

Ce resultat peut aussi etre applique aux vecteurs et matrices aleatoires. Nous demon-
trons maintenant une propriete fondamentale pour la suite.


Lemme 13.2. Sous les hypotheses (H1 ), (H2 ) et (H4 ), plim( n1 X u) = 0.

Demonstration:
En vertu de la section 10.4, il sut de montrer que:

1 1
E( Xti ut ) = 0 et V( Xti ut ) 0.
n n

Mais:
E(Xti ut ) = EXti E(Xti ut |Xti ) = EXti Xti E(ut |Xti ) = 0

par lhypothese (H1 ) et le lemme 13.1. Par ailleurs:

2 2
V (Xti ut ) = E(Xti 2 2
ut ) = EXti E(Xti ut |Xti ) = EXti Xti
2
E(u2t |Xti ) = 2 E(Xti
2
)

2
en vertu de lhypothese (H2 ). Lhypothese (H4 ) garantit que E(Xti ) < ; donc V (Xti ut ) <
 
1 
, et V ( n1
Xti ut ) 0 . Lestimateur = (X X) X y verie alors les proprietes
suivantes:
160 P. DESCHAMPS, COURS DECONOMETRIE

Theoreme 13.3. est un estimateur sans biais de .

Demonstration:

  

E() = + E (X X)1 X u
  

= + EX {E (X X)1 X u|X }
  

= + EX (X X)1 X E(u|X) = .

Theoreme 13.4. est un estimateur convergent de .


La demonstration est identique a celle donnee a la section 11.1, en vertu du lemme 13.2.

Theoreme 13.5. Soit t la t-ieme colonne de la matrice X (un vecteur k 1) et
supposons que les vecteurs Ct = ut t verient un theoreme central limite. Alors:
1
(1) dlim n( ) N (0, 2 XX )

(2) plim( n1 u u) = 2 .

Demonstration :
Notons que:
E(Ct ) = E(ut t ) = EX E(ut t |X) = EX t E(ut |X) = 0.
De meme:
    
E(Ct Ct ) = E(u2t t t ) = EX E(u2t t t |X) = EX (t t )E(u2t |X) = 2 E(t t ).
Par consequent:
n n
1 
2 1  1 
lim E(Ct Ct ) = lim E( t t ) = 2 lim E( X X) = 2 XX .
n t=1 n t=1 n
On a alors, comme auparavant (section 11.2):
n
1  1 
dlim X u = dlim Ct N (0, 2 XX )
n n t=1
1  1 
dlim n( ) = plim( X X)1 dlim( X u) N (0, 2 1 XX ).
n n
La demonstration du point (2) est identique a celle donnee precedemment.

Si nous faisons maintenant lhypothese dindependance f(X, u) = f1 (X)f2 (u), les dis-
tributions conditionnelles a X des statistiques tobs et Fobs vues au chapitre VII ne
dependront que des nombres de degres de liberte et seront donc les memes que les distri-
butions inconditionnelles. Les valeurs critiques des lois t et F leur seront donc applicables
quelle que soit la taille de lechantillon, lorsque les erreurs sont normales.
SECONDE PARTIE, CHAPITRE XIII 161

13.3 Regresseurs stochastiques dependants des erreurs contemporaines



Si plim( n1 X u) = 0, on verie aisement que plim mco = . Il est important de signaler

que la presence dune seule composante non nulle dans le vecteur plim( n1 X u) peut rendre
toutes les composantes de mco non convergentes. Supposons en eet que:

c
 
1  0
plim Xu =
... avec c = 0 .
n
0

On a alors:

s1
.
plim mco = + c ..
sk

ou les si sont les composantes de la premiere colonne de 1


XX . Comme, en general,
aucun des si nest nul, aucune composante de mco ne convergera vers la composante
correspondante de .

Exercice. Dans le modele yt = byt1 + ut avec ut = t + t1 , supposons que les t soient
desperance nulle, de variance constante, et non correles entre eux. Montrez que la cova-
riance entre yt1 et ut nest pas nulle. Quelles sont les consequences de cette constatation?

13.3.1 La methode des variables instrumentales.

Cette methode est un cas particulier de la methode des moments generalises (GMM);
voir Hamilton, Time Series Analysis, 1994, chapitre 14.

Supposons que plim( n1 X u) = 0. Nous construisons alors une matrice Z de dimensions
n r, avec r k, possedant les proprietes suivantes:

(H1 ) E(u|Z) = 0

(H2 ) E(uu |Z) = 2 I
1 
(H3 ) plim( Z X) = ZX est de rang k
n
1  1 
(H4 ) plim( Z Z) = lim E( Z Z) = ZZ est denie positive.
n n

Nous supposons en outre comme auparavant que:


162 P. DESCHAMPS, COURS DECONOMETRIE

1 
(H5 ) plim( u u) = 2
n
1  1 
(H6 ) plim( X X) et plim( X u) existent.
n n

Lidee de base est la suivante. Denissons PZ = Z(Z  Z)1 Z  ; cette matrice n n


est symetrique, idempotente, de rang r. Si lon applique la transformation PZ au modele
y = X + u et les moindres carres ordinaires au modele transforme, on obtient lestimateur
de par variables instrumentales:

V I = (X  PZ X)1 X  PZ y

Si lon a le meme nombre dinstruments et de regresseurs, r = k, et la matrice X  Z est


carree et en general reguliere. Alors:
   
1   
  1 
V I = (X Z)(Z Z)1 (Z X) (X Z)(Z Z)1 Z y = Z X Z y .

Pour simplier les demonstrations, nous supposerons dans le reste de cette section que
r = k. Mais les resultats qui vont suivre ne dependent pas de cette hypothese.

13.3.2 Convergence en probabilite.


Lemme 13.6. Sous les hypotheses (H1 ), (H2 ) et (H4 ), plim( n1 Z u) = 0.

La demonstration est identique a celle du Lemme 13.2.

Theoreme 13.7. V I est un estimateur convergent de .

Demonstration:
      
Comme (Z X)1 Z y = (Z X)1 (Z X + Z u) = + (Z X)1 Z u , plim V I = +
 
plim( n1 Z X)1 plim( n1 Z u) = + 1
ZX 0 = .

13.3.3 Convergence en distribution.

Theoreme 13.8.

Soit t la t-ieme colonne de Z et supposons que les vecteurs Ct = ut t verient un
theoreme central limite. Alors:
1 
(1) dlim n(V I ) N (0, 2 plim n(X  PZ X)1 ) = N (0, 2 1
ZX ZZ (ZX ) )
(2) plim( n1 u u) = 2 , avec u = y X V I .
SECONDE PARTIE, CHAPITRE XIII 163

Demonstration:
n 
Nous avons une fois de plus E(Ct ) = 0 et lim n1 t=1 E(Ct Ct ) = 2 ZZ (voir la demons-
 n
tration du theoreme 13.5). Donc, comme 1n Z u = 1n t=1 Ct , on a:

1 
dlim Z u N (0, 2 ZZ )
n

et par consequent:

1  1  1 
dlim n(V I ) = plim( Z X)1 dlim( Z u) N (0, 2 1
ZX ZZ (ZX ) ).
n n

Pour demontrer la seconde partie du theoreme, notons que:

 
  

u = y X(Z X)1 Z y = I X(Z X)1 Z u,

puisque y = X + u. Alors:

            
u u = u u u Z(X Z)1 X u u X(Z X)1 Z u + u Z(X Z)1 (X X)(Z X)1 Z u.


Les hypotheses H3 , H5 et H6 ainsi que le Lemme 13.6 impliquent alors plim( n1 u u) =

plim( n1 u u) = 2 . Ce theoreme permet donc, une fois de plus, de baser des tests asympto-
tiques sur la distribution normale ou 2 . La matrice de covariance asymptotique du vecteur
   
V I est estimee par unu (Z X)1 (Z Z)(X Z)1 .

Notons que si r > k, linverse de ZX nexiste pas car cette matrice nest pas carree;
mais lautre expression de la matrice de covariance asymptotique, a savoir:

2 plim n(X  PZ X)1

reste valable, puisque X  PZ X est dordre k et de rang min(k, r) = k. Par ailleurs, les deux
expressions sont bien equivalentes lorsque r = k, puisque:

 1
 1 1  1  1 1 
plim n(X PZ X) = plim ( X Z)( Z Z) ( Z X) .
n n n

Notons enn que la validite de la methode des variables instrumentales peut etre etablie
sous des hypotheses plus generales que celles de cette section.
164 P. DESCHAMPS, COURS DECONOMETRIE

13.3.4 Choix des variables instrumentales.

Il est tres important de noter quil existe en general une innite de matrices Z veriant
les hypotheses (H1 ) a (H4 ). Il y aura donc aussi une innite destimateurs par variables
instrumentales! Cet estimateur garantit la convergence, mais ne verie pas le theoreme
de Gauss-Markov; et le choix des variables instrumentales doit donc etre base sur des
criteres decacite asymptotique. On peut retenir, comme critere heuristique, celui qui
fait choisir une variable instrumentale (colonne de Z) fortement correlee avec la colonne

correspondante de X, tout en satisfaisant plim( n1 Z u) = 0. Nous utiliserons ce principe
lorsque nous etudierons les variables endogenes retardees.
On peut aussi souvent choisir Z de telle maniere que la distribution asymptotique du
theoreme 13.8 soit la meme que celle de lestimateur par maximum de vraisemblance. Ceci
est interessant car lestimateur par variables instrumentales (qui est lineaire) est souvent
plus facile a calculer que lestimateur par maximum de vraisemblance (voir par exemple la
section 10.13).
SECONDE PARTIE, CHAPITRE XIV 165

CHAPITRE XIV.

INTRODUCTION AUX MODELES DYNAMIQUES

14.1 Retards echelonnes

On a ici un modele de la forme suivante:

yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut

La variable dependante est donc une combinaison lineaire des valeurs presentes et pas-
sees de la variable explicative. Nous fournirons deux interpretations economiques de ce
modele:
(a) Dans le cadre dune fonction de consommation, il correspondrait a lhypothese que
la consommation presente depend du revenu espere. Ce dernier est une combinaison
lineaire des revenus observes, presents et passes. Il existe donc une sorte dinertie
dans le comportement du consommateur.
(b) Dans le cadre dun modele dinvestissement, faisons les hypotheses suivantes:
(i) La valeur desiree des stocks, yt , est proportionnelle a la valeur prevue des
ventes, xt , a un terme derreur vt pres. Donc:

(1) yt = xt + vt .

(ii) Linvestissement (variation de stock entre les periodes t et t 1) est regi par
le mecanisme suivant (ajustement partiel):

(2) yt yt1 = (yt yt1 ) avec 0 < < 1 .

On comble donc a la periode t une fraction de la dierence entre le stock


eectif precedent, yt1 , et le stock desire, yt .
(iii) La valeur prevue des ventes est regie par le mecanisme suivant (anticipations
adaptives):

(3) xt = xt1 + (xt1 xt1 ) avec 0 < < 1 .


166 P. DESCHAMPS, COURS DECONOMETRIE

On comble donc a la periode t un pourcentage de lerreur de prevision faite a


la periode t 1.
Nous allons montrer que les equations (1), (2) et (3) menent a un modele a
retards echelonnes.
Resolvons tout dabord lequation de recurrence (3). Ceci donne:

xt = xt1 + (1 )xt1
= xt1 + (1 )[xt2 + (1 )xt2 ]
= xt1 + (1 )xt2 + (1 )2 xt2

et lon obtient, apres une innite de substitutions, la regle de prevision suivante, dite
de lissage exponentiel:



(4) xt = (1 )i1 xti .
i=1

Si nous resolvons maintenant (2) en yt :

1
(5) yt = [yt (1 )yt1 ] .

Par ailleurs, (1) et (4) impliquent



(6) yt = (1 )i1 xti + vt .
j=1

En egalisant les membres de droite de (5) et de (6), on obtient nalement:



(7) yt = (1 )yt1 + (1 )i1 xti + ut .
i=1

Cette derniere equation est lineaire dans les variables explicatives, et ne comporte
plus que des variables observables. Elle comporte neanmoins une innite de regres-
seurs! On peut evidemment supprimer les xti pour i grand. Mais ceci ne resout que
partiellement le probleme, car il y a peu de degres de liberte: le nombre de parametres
a estimer reste grand, et lon perd une observation par variable retardee. De plus, les
xti risquent detre fortement colineaires.

Les methodes de Koyck et dAlmon on ete proposees pour resoudre ce probleme.


SECONDE PARTIE, CHAPITRE XIV 167

14.2 La methode de Koyck

Soit donc le modele general:

yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut .

On fait lhypothese que les poids bi sont geometriquement decroissants, soit bi = i b0


avec 0 < < 1. Par consequent:

yt = a + b0 xt + b0 xt1 + 2 b0 xt2 + . . . + k b0 xtk + ut


et yt1 = a + b0 xt1 + b0 xt2 + 2 b0 xt3 + . . . + k b0 xtk1 + ut1
yt1 = a + b0 xt1 + 2 b0 xt2 + . . . + k+1 b0 xtk1 + ut1

que nous soustrayons pour obtenir:

yt yt1 = (a a) + b0 xt k+1 b0 xtk1 + (ut ut1 ) .

Si k est susamment grand, k+1 0, et nous pouvons alors retenir comme modele:

yt = a + yt1 + b0 xt + ut .

Nous navons donc plus que deux regresseurs et une constante. Il faut noter:
(a) que cette transformation peut aussi sappliquer a un nombre inni de retards;
(b) que lon peut retrouver lequation de depart a partir destimations de et de b0
obtenues grace au modele transforme;
(c) que E(yt1 ut ) = 0. Nous sommes donc dans le cas traite a la section 13.3: les es-
timateurs par moindres carres ordinaires ne sont pas convergents. Ce probleme sera
examine plus bas, lorsque nous traiterons des variables endogenes retardees.
Appliquons la methode de Koyck a notre probleme dinvestissement. Nous avions:



yt = (1 )yt1 + (1 )i1 xti + ut .
i=1

Donc:



yt1 = (1 )yt2 + (1 )i1 xti1 + ut1
i=1

et:
168 P. DESCHAMPS, COURS DECONOMETRIE

yt (1 )yt1 = (1 )yt1 + xt1 (1 )(1 )yt2 + [ut (1 )ut1 ] ,

soit aussi:

yt = (2 )yt1 + xt1 (1 )(1 )yt2 + ut .

Appelons a1 , a2 , a3 les estimations des coecients de cette equation. Pour estimer les
parametres du modele de depart, il faudrait resoudre le systeme:

a1 = 2
a2 =
a3 = (1 )(1 ) = + 1

a2
peut etre obtenu comme . Il est dit identiable.
1 a1 a3
Mais et ne le sont pas. On ne peut determiner que leur somme et leur produit.

14.3 La methode dAlmon

Lhypothese faite par Koyck que les poids b0 . . . bk sont geometriquement decroissants
est tres restrictive. Lidee dAlmon est dutiliser une approximation polynomiale de la
fonction decrivant le comportement reel des bi . On choisit, en pratique, un polynome de
degre superieur dau moins une unite au nombre de points stationnaires de cette fonction.
Si, par exemple, lon pense que cette fonction a la forme dun U ou dun U renverse, on
choisira une approximation quadratique:

bi = 0 + 1 i + 2 i2

que lon substitue dans le modele precedent:

yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut

pour obtenir:

yt = a + 0 xt + (0 + 1 + 2 )xt1 + (0 + 21 + 42 )xt2
+ . . . + (0 + k1 + k 2 2 )xtk + ut
SECONDE PARTIE, CHAPITRE XIV 169
* k
+ * k + * k +
  
= a + 0 xti + 1 ixti + 2 i2 xti + ut
i=0 i=1 i=1
= a + 0 Z1t + 1 Z2t + 2 Z3t + ut .

Les parametres de cette equation peuvent alors etre estimes par moindres carres ordi-
naires, et les estimations des bi peuvent etre calculees a laide de lapproximation polyno-
miale. Notons aussi que cette technique se prete particulierement bien a lintroduction de
contraintes additionnelles sur les bi . Supposons que lon veuille imposer b1 = 1. On a donc
1 = 0 + 1 + 2 . En substituant, il vient:

yt = a + (1 1 2 )Z1t + 1 Z2t + 2 Z3t + ut

ou:

yt Z1t = a + 1 (Z2t Z1t ) + 2 (Z3t Z1t ) + ut .

Soit:

yt = a + 1 Z1t

+ 2 Z2t + ut .

14.4 Loperateur de retard

Loperateur de retard est deni par:

Lxt = xt1 .

Cet operateur peut etre traite comme une variable algebrique ordinaire. En eet:

Lj xt = L . . . Lxt = xtj
Lj Lk xt = Lj+k xt = xtjk
Lj (a1 x1t + a2 x2t ) = a1 Lj x1t + a2 Lj x2t

Nous pouvons alors ecrire:


 
j xtj = j Lj xt = (L)xt
j j

ou:

(L) = 0 + 1 L + 2 L2 + 3 L3 + . . . .
def
170 P. DESCHAMPS, COURS DECONOMETRIE

est traite comme un polynome algebrique en L. Si les racines de (L) = 0 sont stricte-
ment superieures a lunite en valeur absolue, on peut denir loperateur reciproque 1 (L)
comme:

yt = 1 (L)xt si (L)yt = xt .

Exercice: Soit (L) = 0 + 1 L, (L) = 0 + 1 L, et (L) = 1 L pour 1 < < 1.


Trouvez la forme des series chronologiques [(L) + (L)]xt , [(L)(L)]xt et [1 (L)]xt .

Linteret de la recherche dun tel operateur reciproque peut etre illustre par lexemple
suivant. Lequation:
yt = a + yt1 + bxt + ut
peut secrire comme:
(L)yt = a + bxt + ut
avec (L) = 1 L. Elle permet destimer lesperance de yt conditionnelle a ses valeurs
passees et a xt , a savoir E(yt | yt1 , xt ) = a+ yt1 + bxt . Il sagit donc dune modelisation
a court terme, car conditionnelle au passe immediat de yt . Mais dans le cas ou xt est un
instrument de politique economique, il peut etre plus interessant destimer:

E(yt | xt , xt1 , xt2 , . . . )

qui est conditionnelle aux seules valeurs presentes et passees de linstrument. Cette nouvelle
esperance peut etre calculee a laide de loperateur reciproque, car:

E(yt | xt , xt1 , xt2 , . . . ) = 1 (L)a + b1 (L)xt


a
= + b1 (L)xt
1
a
= + b(xt + xt1 + 2 xt2 + . . . )
1
Pour illustrer un autre emploi de loperateur de retard, appliquons-le a la transformation
de Koyck. Nous avons:

 
yt = a + b0 j xtj + ut = a + b0 j Lj xt + ut
j j
2 2
 3 3
= a + b0 1 + L + L + L + . . . xt + ut
b0
= a+ xt + ut ,
1 L
soit aussi:

(1 L)yt = (1 L)a + b0 xt + (1 L)ut


SECONDE PARTIE, CHAPITRE XIV 171

et

yt = yt1 + a + b0 xt + (ut ut1 ) .

14.5 Resolution dequations lineaires de recurrence stochastiques

Presentons maintenant une methode generale de resolution dune equation du type


(L)yt = (L)ut , ou ut est une erreur aleatoire. Il sagit de calculer les coecients du
(L)
polynome . Nous commencerons par un exemple.
(L)
Soit (L) = 2 + 3L + 4L2 et (L) = 1 0.75L + 0.125L2 . Comme les racines de (L)
sont 2 et 4, on a:
  
L L
(L) = 1 1
4 2
 
1 1 A 1 L4 + B 1 L
=   =   2
(L) 1 L4 1 L2 1 L4 1 L2
 
ou A et B sont determines par la condition A 1 L4 + B 1 L2 = 1 pour tout L.
Ceci implique A = 2 et B = 1, comme on le voit facilement en posant L = 0 et L = 1.
Par consequent:

1 2 1
= L

(L) 1 21 L4
    2      2 
1 1 1 1
= 2 1+ L + L +... 1 + L + L + ...
2 2 4 4
3 7 15
= 1 + L + L2 + L3 . . . .
4 16 64

et donc:

(L)
= (2 + 3L + 4L2 )(1 + .75L + .4375L2 + . . .) = 2 + 4.5L + 7.125L2 + . . . .
(L)

Ceci peut etre facilement generalise. Si le polynome normalise (L) = (1L)(1L) =


0 a deux racines reelles distinctes 1/ et 1/, on aura:

1 1 A(1 L) + B(1 L)
= =
(L) (1 L)(1 L) (1 L)(1 L)
172 P. DESCHAMPS, COURS DECONOMETRIE

ou A et B sont choisis tels que A(1 L) + B(1 L) = 1 pour tout L. Ceci implique:


A=


B=

et donc:

1 A B
= +
(L) 1 L 1 L
= A(1 + L + 2 L2 + . . . ) + B(1 + L + 2 L2 + . . . )
= (A + B) + (A + B)L + ( 2 A + 2 B)L2 + . . .

1  i
= ( i )Li1 .
i=1

Dans le cas dune racine reelle double 1/, on obtient:

1 1
=
(L) (1 L)2
= (1 + L + 2 L2 + . . . )(1 + L + 2 L2 + . . . )
= 1 + 2L + 32 L2 + 43 L3 + . . .


= (i + 1)i Li
i=0

Dans le cas de deux racines complexes conjuguees, on peut employer le premier develop-
pement en utilisant les proprietes des nombre complexes.
On peut aussi utiliser un developpement de Taylor autour de L = 0; la derivation
precedente a lavantage detre constructive, et de mettre en evidence le lien entre 1/(L)
et les racines de (L) = 0.

14.6 Distribution rationnelle des retards

Nous sommes maintenant prets a denir la distribution rationnelle des retards. On lecrit
sous la forme:

yt = a + (L)xt + ut

avec:
SECONDE PARTIE, CHAPITRE XIV 173

(L) 0 + 1 L + . . . + k Lk
(L) = = .
w(L) w 0 + w 1 L + . . . + w  L

On normalise en posant w0 = 1.
Cette formulation est tres generale, car toute structure des coecients peut etre ap-
prochee par ce rapport de deux polynomes. Nous pouvons en eet rendre lapproximation
plus ne en augmentant k, , ou k et .
On constate facilement que la structure des retards postulee par Almon correspond a
w(L) = 1 (donc  = 0), et i = a0 + a1 i + a2 i2 + . . . + as is . Celle de Koyck correspond a
(L) = b0 , et w(L) = 1 L (donc k = 0,  = 1).

14.7 Variables endogenes retardees

Lors de lapplication de la transformation de Koyck, nous avons fait apparatre des


variables endogenes retardees dans le membre de droite de lequation de regression. Il est
important de mettre en evidence les consequences de leur presence parmi les variables
explicatives dun modele.
Cette section netant quune introduction au probleme, nous nous contenterons ici detu-
dier un modele tres simple, qui est le suivant:

yt = byt1 + ut

avec 1 < b < 1 et diverses hypotheses sur lerreur ut .


Un modele beaucoup plus general sera etudie au chapitre XV. Les conclusions obte-
nues dans ce modele plus general, qui comprendra plusieurs regresseurs dont certains sont
des variables endogenes retardees, sont tres semblables et les methodes danalyse sont les
memes.
On obtient aisement, par substitutions successives, la forme suivante:



yt = ut + but1 + b2 ut2 + = bj utj .
j=0

14.7.1 Erreurs spheriques.


2
Supposons que E(u) = 0 et E(uu ) = I. On a alors E(yt1 ut ) = 0, et si V (yt1 ut )
1
existe, on a plim( n yt1 ut ) = 0. Lestimateur de b par moindres carres ordinaires est
n+1
alors convergent. Mais il nest pas sans biais puisque b = b + t=2 wt ut avec

yt1
wt = n+1
2
j=2 yj1
174 P. DESCHAMPS, COURS DECONOMETRIE

qui depend de ut via le denominateur.



La distribution limite de n(bmco b) est la distribution normale habituelle:

2
n(bmco b) N (0, 2
1
XX ) = N (0, n+1 )
d plim n1 t=2
2
yt1
pour autant que les hypotheses de la section 10.8.3 soient veriees. En particulier, la
suite (Zt ) = (yt1 ut ) doit etre une dierence de martingale. Tel est bien le cas ici sous
lhypothese dindependance des erreurs. En eet:

E(yt1 ut ) = Eyt1 yt1 E(ut | yt1 ) = 0

E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ) =


Eut1 ,ut2 ,... E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) =
 
Eut1 ,ut2 ,... yt1 E(ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) = 0

Il est facile de demontrer (voir Hamilton, Time Series Analysis, 1994, p. 122) que lesti-
mateur de b par maximum de vraisemblance est le meme que lestimateur de b par moindres
carres ordinaires lorsque les erreurs sont normales.

14.7.2 Erreurs a moyenne mobile.

Il sagit derreurs de la forme:


ut = t + t1 avec E() = 0, E( ) = 2 I .

Comme nous lavons vu, ces erreurs resultent dune transformation de Koyck appli-
quee a un modele a retards echelonnes. On verie immediatement que sous les hypotheses
habituelles,

 
1
plim yt1 ut = E (yt1 ut ) = E [(ut1 + but2 + . . .) ut ]
n
= E (ut ut1 ) = E [(t + t1 ) (t1 + t2 )] = 2 = 0 .


y y
Donc lestimateur b =  t 2t1 nest pas convergent. Calculons sa limite en probabilite.
yt1
Notons dabord que yt = byt1 + t + t1 , et donc:
   
2
yt yt1 = b yt1 + yt1 t + yt1 t1 .
SECONDE PARTIE, CHAPITRE XIV 175

Par consequent:
 
yt1 t /n yt1 t1 /n
b = b+  2 +  2 .
yt1 /n yt1 /n

Par ailleurs, yt = j=0 bj (tj + tj1 ), ce qui implique, sous les hypotheses habi-
 
tuelles, plim( n1 yt1 t ) = E(yt1 t ) = 0, et plim( n1 yt1 t1 ) = E(yt1 t1 ) = 2 .
De meme:


 
1 2  
) = E yt2 = E b2j (tj + tj1 )
2 2
plim yt1 = E(yt1
n j=0

 

+ 2E bj bk (tj + tj1 ) (tk + tk1 )
j=0 k=j+1



 (1 + 2 ) 2 2b 2 2 
= 1+ 2
2 2j
b + 2 2
bj bj+1 = + = 1 + 2 + 2b .
1b 2 1b 2 1b2
j=0 j=0

 
plim( n1 yt1 t ) plim( n1 yt1 t1 )
Alors plim b = b+  + 
plim( n1 2
yt1 ) plim( n1 2
yt1 )
(1 b2 )
= b+ .
1 + 2 + 2b

On remarque que plim b b a le signe de .


Montrons maintenant que lon peut estimer b de facon convergente en utilisant yt2
comme variable instrumentale. Il faut verier que:

  
1  1
plim ZX = plim yt1 yt2 est nie et non-nulle;
n n
    
1  1
plim Z u = plim yt2 ut = 0 .
n n

Tout dabord:

 
1 2 
plim yt1 yt2 = E (yt1 yt2 ) = E (ut1 ut2 ) + bE yt2 =
n
b  2  2
2 + 1 + 2
+ 2b = ( + b)(1 + b)
1 b2 1 b2
176 P. DESCHAMPS, COURS DECONOMETRIE
1  
est nie et non-nulle, sauf si = b ou
= 1b . Par ailleurs, plim n yt2 ut =
yt2 yt
E (yt2 ut ) = 0. Nous concluons que plim  yt1 yt2 = plim bV I = b.
Cette estimation par variables instrumentales ne resout pas le probleme dautocorrela-
tion des erreurs, qui se pose puisque E(ut ut1 ) = 2 . Ce probleme peut etre traite en
utilisant une methode robuste destimation de la variance de bV I , analogue a celle que nous
avons introduite a la section 9.10; voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Nous netudierons pas lestimation de ce modele par maximum de vraisemblance, car
ceci releve dun cours de matieres speciales. Il sagit dun cas particulier de modele ARMA
(Auto-Regressive Moving Average); ces modeles peuvent etre estimes a laide de logiciels
specialises.

14.7.3 Erreurs autoregressives.

Nous supposons cette fois que ut = ut1 + t avec || < 1, = 1b , et E() = 0,



E( ) = 2 I.
On a de nouveau:  
plim n1 yt1 ut
plim b = b +  2  .
plim n1 yt1

Rappelons que E(ut uts ) = s u2 . Nous avons cette fois:


u2
E(yt1 ut ) = E [(ut1 + but2 + . . .)ut ] = u2 (1 + b + b2 2 + . . .) = .
1 b
On a aussi:

 

  
E 2
yt1 = E yt2 = 2j
b E u2tj +2 bj bk E (utj utk )
j=0 j=0 k=j+1



u2
= + 2u2 kj bj bk
1 b2
j=0 k=j+1
 
u2 2 2j kj
= + 2u (b) b (b)
1b 2
j=0 k=j

u2 2bu2 u2 (1 + b)
= + = .
1 b2 (1 b2 )(1 b) (1 b2 )(1 b)

Par consequent:

u2 / (1 b)
plim b = b+
u2 (1 + b) / (1 b2 ) (1 b)

1 b2
= b+ .
1 + b
SECONDE PARTIE, CHAPITRE XIV 177

On remarque que plim b b a de nouveau le signe de .

Nous allons maintenant etudier lestimation de ce modele par maximum de vraisem-


blance. En combinant les equations:

yt = byt1 + ut
ut = ut1 + t
on obtient:
yt byt1 = (yt1 byt2 ) + t
soit aussi:

(1) yt = (b + )yt1 byt2 + t pour t = 3, . . . , n + 2

Ce modele est non lineaire dans les parametres. Si nous supposons que, conditionnelle-
ment a yt1 et yt2 , les t sont normales de distribution commune N (0, 2 ), nous avons
pour lobservation t:
 
2 1/2 1
f(yt | yt1 , yt2 ) = (2 ) exp 2 [yt (b + )yt1 + byt2 ]2
2

et la densite de (y3 , y4 , . . . , yn+2 ) conditionnelle aux deux premieres observations (y1 , y2 )


peut donc secrire:

f(y3 , y4 , . . . , yn+2 | y1 , y2 ) = f(y3 | y1 , y2 )f(y4 | y1 , y2 , y3 ) . . . f(yn+2 | y1 , y2 , . . . , yn+1 )


= f(y3 | y1 , y2 )f(y4 | y2 , y3 ) . . . f(yn+2 | yn+1 , yn )
 n+2

1 
= (2 2 )n/2 exp 2 [yt (b + )yt1 + byt2 ]2
2 t=3

En prenant le logarithme de lexpression precedente et en considerant le resultat comme


une fonction des parametres inconnus (b, , 2 ), on obtient la vraisemblance logarithmique:

n+2
n 1 
log L(b, , ) = constante log 2
2 2
[yt (b + )yt1 + byt2 ]2
2 2 t=3
n+2

= constante + Lt (b, , 2 )
t=3

ou:
1 1
Lt (b, , 2 ) = log 2 2 [yt (b + )yt1 + byt2 ]2 .
2 2
178 P. DESCHAMPS, COURS DECONOMETRIE

On peut facilement verier que:

Lt 1
= 2 (yt1 yt2 )t
b
Lt 1
= 2 (yt1 byt2 )t

Lt 1 1
2
= 2 + 4 2t
2 2
ou:
t = yt (b + )yt1 + byt2 .

Comme log L = k + Lt , ceci implique:

n+2
log L 1 
= 2 (yt1 yt2 )t
b t=3
n+2
log L 1 
= 2 (yt1 byt2 )t
t=3
n+2
log L n 1  2
= +  .
2 2 2 2 4 t=3 t

Pour annuler les deux premieres derivees de log L, il sut dappliquer, de maniere
alternee, les moindres carres ordinaires aux deux parametrisations lineaires pouvant etre
tirees de lequation (1), a savoir:

(yt yt1 ) = b(yt1 yt2 ) + t


(yt byt1 ) = (yt1 byt2 ) + t
jusqua la convergence de la somme des carres des residus t . On peut alors estimer 2 par:
n+2
1
2
= (yt (b + )yt1 + byt2 )2 .
n t=3

An de formuler les variances des estimateurs ainsi obtenus et denoncer un test dauto-
correlation des erreurs, nous allons tout dabord calculer lesperance et la matrice de co-
variance du vecteur:

Lt
b

Lt Lt
=

.



Lt
2
SECONDE PARTIE, CHAPITRE XIV 179

En vertu de la loi des esperances iterees, on a:


   ) 
Lt Lt )
E = Eyt1 ,yt2 E ) yt1 , yt2 = 0
)
car lesperance conditionnelle apparaissant dans cette expression est nulle.
De meme, en utilisant la normalite conditionnelle de t , on a E(3t | yt1 , yt2 ) = 0 et
E(4t | yt1 , yt2 ) = 3 4 ; il est alors facile de verier que:

 )   ) 
Lt )) Lt Lt ))
V yt1 , yt2 = E yt1 , yt2
)  )

(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0

1 (yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2

= 2
0


1
0 0
2 2
et donc, en vertu de la loi des esperances iterees:

 
Lt
V


(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0

1
(yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2

= 2E

0 .


1
0 0
2 2
On peut verier que les vecteurs Lt / ne sont pas
 correles
 entre eux. La moyenne de
1 log L
ces matrices est alors egale a n R(), ou R() = V est la matrice dinformation
introduite au chapitre X. Si une loi faible des grands nombres est applicable, on aura, par
exemple:

1 1
E(yt1 yt2 )2 = plim
lim (yt1 yt2 )2
n n

et on peut alors estimer la matrice de covariance de n( ) par linverse de:

Vn =
 
(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0

1  
(yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2 0
n 2

n
0 0
2 2
180 P. DESCHAMPS, COURS DECONOMETRIE

puisque plim Vn = plim n1 R(), et donc plim nR1 () = plim Vn1 .


De plus, la matrice nVn est une estimation de la matrice de covariance de log L/.
Ceci permet facilement dappliquer le principe des multiplicateurs de Lagrange pour tester
H0 : = 0 contre H1 : = 0.
Lemploi du critere LM est particulierement indique ici. Comme nous lavons vu, la
statistique LM ne necessite que lestimation du modele sous H0 . Dans le present contexte,
H0 signie absence dautocorrelation; et dans ce cas, lestimation du modele par maximum
de vraisemblance se reduit a lemploi des moindres carres ordinaires. En revanche, comme
nous lavons vu, lestimation sous H1 necessite une procedure iterative, qui est donc plus
compliquee.
Le multiplicateur de Lagrange associe a la contrainte H0 lors de la maximisation de
la vraisemblance est egal a log L
. On peut montrer (voir par exemple L.G. Godfrey, Miss-
pecication tests in econometrics: the Lagrange multiplier principle and other approaches,
Cambridge University Press, Cambridge 1988, pages 11 et 14) que la statistique LM prend
ici la forme:

  1 0
log L 1 0
LM = 0 ( 0 1 0 ) V0

0
ou 0 est la valeur de log L
evaluee aux estimations contraintes des parametres et ou
 
V0 log

L
est lestimation contrainte de la matrice de covariance de log L/. Comme
lestimation contrainte est identique a lestimation par MCO, denissons alors:

ut = yt bmco yt1 .
On verie aisement que:
1 
0 = ut1 ut
02
 2 
yt1 yt1 ut1 0
   
log L 1
V0 = 2 yt1 ut1 u2t1 0
0


n
0 0
202
et que, par consequent:
  2
1 ( ut1 ut )2 ( yt1 )
LM = 2   2  2  .
0 yt1 ut1 ( yt1 ut1 )2

Nous allons maintenant montrer que cette statistique est identique a la statistique de
Breusch-Godfrey denie a la section 9.8.2. Dans le present contexte, la statistique de
Breusch-Godfrey est la statistique LM utilisee pour tester H0 : = 0 dans lequation
de regression auxiliaire:
SECONDE PARTIE, CHAPITRE XIV 181

yt = byt1 + ut1 + t
ou ut1 = yt1 bmco yt2 .
Pour montrer ce resultat, notons que lestimateur des coecients de regression dans
lequation auxiliaire peut secrire:
    2  1   
b yt1 yt1 ut1  yt y t1
= =   2 = (X  X)1 X  y
yt1 ut1 ut1 yt ut1
et que la matrice des coecients de la restriction = 0 est egale a R = ( 0 1 ). Lexpression
du multiplicateur de Lagrange demontree a la section 6.1 prend alors la forme suivante:
= 0 = [R(X  X)1 R ]1 (r R)
1      
=  2 ( 2
yt1 )( yt ut1 ) + ( yt yt1 )( yt1 ut1 )
yt1
 
= yt ut1 + bmco yt1 ut1

= (yt bmco yt1 )ut1

= ut ut1 .

Par ailleurs, comme nous lavons montre a la section 7.5:

1
V01 () = [R(X  X)1 R ]
02
 2
1 yt1
= 2  2  2  .
0 yt1 ut1 ( yt1 ut1 )2

On voit alors facilement que la statistique du test de = 0 dans lequation de regression


auxiliaire, a savoir:
LM = 0 V01 ()0
est bien egale a la statistique LM denie plus haut.

Pour terminer cette section, notons que ce modele autoregressif a erreurs autoregressives
est restrictif. En eet, lequation (1) nest quun cas particulier du modele plus general
suivant:
yt = yt1 + yt2 + t
avec = b + et = b. Ces contraintes sappellent restrictions de facteurs communs,
et seront examinees au chapitre XV dans un cadre plus general. Elles sont implausibles.
Cest pour cette raison que nous ne poursuivrons pas letude du modele de cette section
14.7.3. La methodologie que nous venons denoncer est neanmoins indispensable pour la
justication du test de Breusch-Godfrey, que lon doit employer dans ce cas-ci puisque le
test de Durbin-Watson nest pas applicable.
182 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE XV

LE MODELE DYNAMIQUE GENERAL

15.1 Presentation et hypotheses

Dans ce chapitre, nous allons generaliser le modele autoregressif de la section 14.7. Une
generalisation dynamique naturelle du modele de regression multiple consiste a remplacer
les variables yt et x1t , . . . , xkt de ce modele par des combinaisons lineaires de leurs retards,
a savoir (L)yt et 1 (L)x1t , . . . , k (L)xkt . On obtient alors:

(L)yt = a + 1 (L)x1t + + k (L)xkt + t

ou (L) est un polynome normalise de degre p et i (L) est un polynome de degre qi :

(L) = 1 1 L p Lp
i (L) = 0i + 1i L + + qi i Lqi .

Nous supposons que, conditionnellement aux variables explicatives de ce modele, les


erreurs t sont normales et identiquement distribuees. Comme les variables explicatives
forment le vecteur zt = (yt1 , x1t , . . . , xkt ) et les retards de ce vecteur, nous avons:

E(t | zt , zt1 , . . . ) = 0

E(2t | zt , zt1 , . . . ) = 2 .

Comme a la section 14.7, ou nous avions suppose que 1 < b < 1, nous faisons aussi
lhypothese que (L) est inversible (ses racines doivent etre toutes strictement superieures
a lunite en valeur absolue).
On designe ce modele par AD(p, q1 , . . . , qk ).

Exemple:
Si p = 1, k = 1, et q1 = 1, le modele secrit:

yt = 1 yt1 + a + 01 x1t + 11 x1,t1 + t .


. /0 1 . /0 1
partie autoregressive partie retards echelonnes
SECONDE PARTIE, CHAPITRE XV 183

Notes:

(1) Il ne faut pas confondre ce modele avec le modele ARMA(p, q), qui senonce comme:

(L)yt = (L)t

ou (L) est de degre p, (L) est de degre q, et les t sont spheriques et inobservables.
Les erreurs ut = (L)t du modele ARMA suivent un processus a moyenne mobile,
alors que celles du modele AD sont spheriques.
(2) Contrairement au modele ARMA, le modele AD peut etre estime par MCO. Les
tests habituels sont asymptotiquement valides (F pour lordre des retards, LM
pour la sphericite des erreurs). Le modele AD presente donc une plus grande facilite
demploi. Pour cette raison, beaucoup dauteurs preconisent son utilisation.
(3) Insistons sur la generalite du modele AD, qui inclut comme cas particuliers:
le modele statique si p = q1 = = qk = 0 ;
le modele autoregressif pur (L)yt = a + t si i (L) = 0 pour tout i ;
le modele statique a erreurs autoregressives:

k


yt = a + j xjt + ut , (L)ut = t
j=1

sous des restrictions dites de facteurs communs, comme nous le verrons plus bas.

15.2 Les restrictions de facteurs communs

Ces restrictions impliquent que les polynomes de retards echelonnes i (L) ont le facteur
commun (L). Donc:

i (L) = (L)i (L).

Une forme particuliere de ces restrictions, que nous allons examiner plus en detail, est
la proportionnalite des polynomes de retards echelonnes au polynome autoregressif; cette
forme particuliere est donc:
i (L) = (L)i

Alors le modele AD secrit:

(L)yt = a + (L)1 x1t + + (L)k xkt + t

ce qui implique, en multipliant les deux membres par 1 (L):

yt = a + 1 x1t + + k xkt + ut

ou a = 1 (L)a = 1 (1)a et ut = 1 (L)t , soit aussi (L)ut = t .


184 P. DESCHAMPS, COURS DECONOMETRIE

Exemple:
Si p = k = q1 = 1, la restriction secrit:

1 (L) = (L)1
soit aussi:
01 + 11 L = (1 1 L)1 = 1 1 1 L.

En identiant les coecients de meme degre, on obtient:

1 = 01
11 = 11

ce qui peut secrire:


11 + 1 01 = 0.

Cette restriction est non lineaire, mais peut etre testee a laide dune generalisation
de la statistique de Wald (on utilise une approximation lineaire de la contrainte). Le test
sappelle test de facteurs communs (test COMFAC en abrege).

Exercice:
En substituant la restriction precedente dans le modele:

yt = a + 1 yt1 + 01 x1t + 11 x1,t1 + t

montrez que lon arrive a un modele statique a erreurs autoregressives.

15.3 Le modele AD et la relation dequilibre stationnaire

Le modele AD est un modele statistique qui ne decrit que le comportement a court terme
(cest-a-dire conditionnel au passe immediat) de yt . Pour obtenir une relation economique
interessante, il faut obtenir la solution statique (ou solution a long terme, ou encore: relation
dequilibre stationnaire) du modele. Une telle solution peut etre obtenue facilement si lon
suppose que les esperances de yt et des xjt sont constantes:

E(yt ) = E(y) et E(xjt ) = E(xj ).

Alors, en egalisant les esperances des deux membres de lequation du modele AD, on
obtient:
k

(1)E(y) = a + j (1)E(xj )
j=1

et en resolvant, il vient:
k

E(y) = a + j E(xj )
j=1
SECONDE PARTIE, CHAPITRE XV 185

ou a = 1 (1)a et j = 1 (1)j (1). Ceci est la relation entre les niveaux dequilibre des
variables, E(y) et E(xj ).

Commentaires:

(1) Ceci peut etre generalise au cas ou une tendance lineaire est incluse dans la liste
des xjt .
(2) Si lon impose les restrictions precedentes de facteurs communs j (L) = (L)j ,
on a vu que:
yt = a + 1 x1t + + k xkt + ut .
On a donc, a partir de cette relation:

yt
j =
xjt

mais aussi, en partant du modele AD general:

E(yt )
j = 1 (1)j (1) = .
E(xjt )

Ceci implique donc legalite des coecients a long terme et a court terme, et fait
apparatre que les restrictions de facteurs communs sont assez implausibles.

Exercice: On donne le modele autoregressif yt = 2 + 0.8yt1 + t , ou les erreurs t sont


independantes et de distribution commune N (0, 104 ). On demande de calculer lespe-
rance inconditionnelle E(yt ), la variance inconditionnelle V (yt ), et dexpliciter la relation
dequilibre stationnaire de ce modele. Illustrez vos resultats en simulant yt a partir du
modele precedent (ceci peut etre fait a laide dEXCEL ou dun logiciel econometrique) et
en interpretant le graphique chronologique et lhistogramme des realisations simulees.

15.4 Le modele AD et le modele de correction derreur

Nous allons maintenant reparametriser le modele AD en utilisant une identite alge-


brique. Le modele ainsi obtenu, qui porte le nom de modele de correction derreur (ECM),
aura pour interet de faire apparatre directement les coecients de la relation dequilibre
stationnaire, a savoir les 1 (1)j (1). Il est important de noter que le modele de correction
derreur est equivalent au modele AD: en particulier, les residus t obtenus par moindres
carres seront identiques dans les deux modeles. Neanmoins, le modele ECM est non lineaire
dans les parametres, tandis que le modele AD est lineaire. Lestimation du modele ECM
necessite donc lemploi de la methode des moindres carres non lineaires, qui est presente
comme option dans la plupart des logiciels econometriques.
Commencons par enoncer, sous forme de lemme, lidentite algebrique mentionnee au
debut de cette section.
186 P. DESCHAMPS, COURS DECONOMETRIE

Lemme 15.1.
Si A(L) = A0 + A1 L + A2 L2 + + An Ln alors:

A(L) = A(1)L + A (L)(1 L)

ou:
n1

A (L) = Aj Lj
j=0
n
avec A0 = A0 et Aj = s=j+1 As pour j = 1, . . . , n 1 et n > 1.

Exercice:
Veriez le lemme 15.1 pour n = 1, 2, 3, 4.

Derivation du modele de correction derreur:

On part du modele AD:

k

(L)yt = a + j (L)xjt + t
j=1

On applique le lemme aux polynomes (L) et j (L)


k


(1)yt1 + (L)yt = a + [j (1)xj,t1 + j (L)xjt ] + t
j=1
k
 k

1
(L)yt = a (1)[yt1 (1)j (1)xj,t1 ] + j (L)xjt + t
j=1 j=1
k
 k


(L)yt = a (1)[yt1 j xj,t1 ] + j (L)xjt + t
j=1 j=1

Les j sont les coecients de la relation dequilibre.

15.5 Exemple economique

Supposons que k = 1, et p = q1 = 1. Supposons de plus que:

yt = log de la consommation par tete a prix constants


xt = log du revenu disponible par tete a prix constants

Le modele:
(L)yt = a + (L)xt + t
SECONDE PARTIE, CHAPITRE XV 187

secrit alors comme:


yt 1 yt1 = a + 0 xt + 1 xt1 + t
ou encore comme:

(1 1 )yt1 + yt = a + (0 + 1 )xt1 + 0 xt + t

Si lon denit = (1 1 )1 (0 + 1 ) = 1 (1)(1), on peut ecrire:

yt = a (1 1 )yt1 + (1 1 )xt1 + 0 xt + t
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t

Linterpretation de yt = xt + ut est celle dune fonction de consommation a long


terme. Le terme entre crochets est lerreur ut1 de cette relation a long terme. Le terme
(1 1 )ut1 est la correction derreur qui est ajoutee a un modele lineaire dans les
dierences premieres des variables.
188 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE XVI

RACINES UNITAIRES ET COINTEGRATION

16.1 Processus stochastiques

Un processus stochastique discret peut etre considere comme une suite innie de va-
riables aleatoires, telle que {Yt }+
t= ou {Yt }t=0 .
+

Un processus stochastique continu peut etre considere comme une fonction aleatoire
dune variable continue t, telle que {Y (t), t R} ou {Y (t), t [0, 1]}.
En interpolant lineairement entre les points (ti , Yti ) et (ti+1 , Yti+1 ), on peut obtenir un
processus continu a partir dun processus discret. En posant ti+1 ti = n1 et en faisant
tendre n vers linni, on peut aussi obtenir la limite de ce processus, lorsque celle-ci existe.
Cette technique est illustree par le graphique suivant, ou les yti sont des realisations des
variables Yti et ou y(t) est une realisation dun processus continu Y (t), obtenu par passage
a la limite.

yt , y(t)
y(t)

.............................. ... ...... ...
... ....................
..
.........
............... .
.. .
..

.. .
. .
..................
.............
.

....................
.
....
.
. .
. ...........
....
.
...........
...
......
...
. .
.... 
.
.... (t3 , yt3 )
...
......
.. ..
.
.
... .
.
.. .
... ..
... ...
... .
.
.. ..
... ..
... ...
. ..
.
... ..
.. ...
.......
...................... ... ... ... ... ... ... ... ... .........................
.
.

..................................

t
t1 t2 t3 t4 t5
SECONDE PARTIE, CHAPITRE XVI 189

16.2 Stationnarite faible

Un processus discret {Yt } est faiblement stationnaire (covariance-stationary) si et


seulement si:
E(Yt ) = pour tout t
Cov(Yt , Ytj ) = j pour tout j, t.

Les esperances et variances sont donc constantes, et la covariance entre Yt et Ys ne


depend que de lintervalle separant t et s.

Exemples:
(1) Si les variables Yt sont N (0, 1), independantes, et identiquement distribuees pour
tout t, on a:
= 0,
0 = 1,
j = 0 pour tout j = 0 .
Le processus est donc stationnaire.

(2) Si Yt = Yt1 + t , ou les t sont N (0, 1) independantes et ou || < 1, on a:


= 0,
0 = (1 2 )1 ,
j = j (1 2 )1 .
Le processus est donc stationnaire.

(3) Un exemple de processus non stationnaire est fourni par une marche aleatoire:
Yt = Yt1 + t
ou les t N (0, 2 ) sont independantes et ou Y0 = 0. En eet:
Yt = Yt2 + t1 + t
= Yt3 + t2 + t1 + t
= ...
t

= Y0 + 1 + 2 + + t = i
i=1

On a:
E(Yt ) = 0, V (Yt ) = t 2 ,
E(Yt Ytj ) = (t j) 2 pour j 0.
La variance de Yt depend donc de t, de meme que la covariance entre Yt et Ytj .
190 P. DESCHAMPS, COURS DECONOMETRIE

16.3 Processus integre dordre d

Denition:
Un processus discret {Yt } est I(d) si et seulement si:

d Yt = + t + ut
(L)ut = (L)t

ou (L) et (L) sont inversibles et les t sont spheriques.

Interpretation dun processus I(d):


d est le nombre de fois quil faut dierencier Yt pour arriver a un processus stationnaire
apres soustraction de la tendance lineaire t . Si d 1 , on dit que le processus est
integre.

Cas particuliers dun processus I(d):


(1) d = 0 Yt suit un processus dit stationnaire a tendance (trend-stationary).
(2) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire (random
walk).
(3) d = 1, = 0, = 0, (L) = (L) = 1 Yt suit une marche aleatoire avec
derive (random walk with drift).

16.4 Le test de Dickey-Fuller augmente

Introduction

Soit {Yt } un processus stochastique discret. Quelle est la distribution limite de:

n
1 
Yt
n t=1

lorsque n ?

Au chapitre X, nous avons vu les cas suivants:

(a) Si les Yt sont independantes et identiquement distribuees desperance nulle et de


variance 2 , le theoreme de Lindeberg-Levy vu a la section 10.8.1 nous dit que:
n
1 
Yt N (0, 2 )
n t=1 d
SECONDE PARTIE, CHAPITRE XVI 191

(b) A la section 10.8.2, nous avons generalise ce resultat a des suites de variables
independantes, mais pas identiquement distribuees: Si les Yt sont independantes
desperance nulle et de variance t2 et si E(Yt3 ) < , alors:

n
1 
Yt N (0, 2 )
n t=1 d

n
ou 2 = lim n1 t=1 t2 .
(c) A la section 10.8.3, nous avons generalise ce resultat a des suites de variables Yt
dependantes du type Yt = ut ut1 , ou les ut sont independantes et identiquement
distribuees desperance nulle. Nous avons vu que dans ce cas, sous certaines hypo-
theses:
n
1 
Yt N (0, 2 )
n t=1 d

1
n
ou 2 = plim n
2
t=1 Yt .

Nous devons maintenant examiner un nouveau cas, celui de lexemple 3 de la section


16.2. On peut montrer que dans ce nouveau cas, a savoir:

Yt = Yt1 + t , Y0 = 0, t i.i.d, E(t ) = 0, V (t ) = 2 ,

nous avons les resultats suivants:


n
1 
Yt ne converge pas
n t=1

n
1  2
Yt N (0, ).
n n t=1 d 3

Donc, si lon a aaire a des processus integres, les resultats limites habituels ne seront,
en general, plus valables. Dou linteret dun test destine a la detection de variables I(1) .

La regression de Dickey-Fuller
Notre point de depart sera la formulation dun modele susamment general, decrivant
le comportement dune serie de realisations yt . Ce modele doit permettre lapplication de
la denition dun processus I(1) vue a la section 16.3. On suppose donc que:

(1) (L)yt = + t + t

avec:
(L) = 1 1 L p Lp .
192 P. DESCHAMPS, COURS DECONOMETRIE

Le degre p est choisi susamment eleve, de facon a ce que les t soient spheriques. Nous
appliquons maintenant a (L) le lemme 15.1 vu au chapitre precedent. Ceci donne:

(2) (L) = (1)L + (L)(1 L)

avec:
0 = 0 = 1
p

j = s pour j = 1, . . . , p 1 et p > 1
s=j+1

p1


(L) = j Lj .
j=0

Nous substituons enn lequation (2) dans lequation (1), pour obtenir:

p1

(1) yt1 + yt + j ytj = + t + t
./01
j=1
Lyt . /0 1
(L)(1L)yt

ou encore:
p1

(3) yt = + t + yt1 + j ytj + t
j=1

avec = 1 (1) et j = j .

Ceci est la regression de Dickey-Fuller. Si yt est I(1), j j ytj + t est I(0) . La
comparaison avec la denition dun processus I(1) montre que = 1 . Le test est celui de

H0 : = 1 contre
H1 : < 1.

La statistique de Dickey-Fuller est alors la statistique t pour le test de cette hypothese, a


savoir:
mco 1
TDF =
mco
Mais cette statistique na pas une distribution limite normale car est le coecient dun
regresseur I(1). Les valeurs critiques de la statistique TDF sont fournies par Hamilton,
Time Series Analysis, 1994, Table B6, Case 4, p. 763. Pour prendre un exemple, si n = 100
et = 0.05, on va rejeter H0 : = 1 si TDF< 3.45, alors que la valeur critique normale
est egale a 1.645.
SECONDE PARTIE, CHAPITRE XVI 193

Pour le test de la nullite dun ou de plusieurs j (coecients de ytj ), on peut utiliser


les tests habituels (t ou F , tables Student et Fisher).

Limite en distribution de TDF sous H0 .

Le resultat suivant est demontre par Hamilton, Time Series Analysis, 1994, pp. 499500.
Sous H0 : = 1, TDF converge en distribution vers la variable aleatoire suivante:

W (1)

[ 0 1 0 ] A1 [W 2 (1) 1]
1
2
'1
W (1) 0 W (r) dr

 0 1
2
[ 0 1 0 ] A1 1
0
ou: '1
1
1 0 W (r) dr 2
' 1 '1 '1
A=
0 W (r) dr 0 W 2 (r) dr 0 rW (r) dr

1
'1 1
2 0 rW (r) dr 3
et ou W (r) est un mouvement Brownien standard, qui est le processus stochastique continu
obtenu comme limite de:

1
Zt = Zt1 + t , Z0 = 0, t N (0, ) independantes,
n
lorsque t = 1, . . . , n et n .

An dexpliquer la nature de ce processus continu, nous allons en donner une interpre-


tation constructive, qui permettra notamment de simuler les distributions des integrales
apparaissant dans la variable limite precedente. Ces integrales sont des variables aleatoires:
le processus W (r) peut en eet etre considere come une fonction aleatoire de r (voir la
section 16.1) et lintegrale dune fonction est un nombre.
Considerons alors la suite des variables precedentes, qui peuvent secrire:
t

Zt = s pour t = 1, . . . , n.
s=1

Zt a la distribution N (0, nt ). Soit r nt ; comme une variable normale centree est entiere-
ment caracterisee par sa variance, r caracterise entierement Zt . Notre denition implique
donc que si n , {Zt } converge en distribution vers:

{W (r), 0 r 1}.
194 P. DESCHAMPS, COURS DECONOMETRIE

Generalisons maintenant ceci au cas ou lon a une suite de variables Yt caracterisees


par:

Yt = Yt1 + ut , Y0 = 0, ut N (0, 1) independantes.

On peut
se ramener au cas precedent en divisant les deux membres de legalite precedente
par n, et en denissant Zt = Yt / n, t = ut / n. On a alors:

Yt
{ } {W (r), 0 r 1}.
n d

On peut donc approcher une realisation de W (r) en engendrant un grand nombrede


realisations ut des innovations, et en engendrant par recurrence des realisations yt / n
pour t = 1, . . . , n.

Les variables W (1) et W 2 (1) qui apparaissent dans la variable limite sont faciles a
comprendre: W (1) est la valeur de W (r) au point r = 1, cest donc la variable normale
reduite Zn . W 2 (1) est le carre dune normale reduite, cest-a-dire une 2 a un degre de
liberte.
Interessons-nous maintenant aux integrales apparaissant dans la variable limite. On peut
approcher les integrales par des
sommes de surfaces de rectangles dont les bases sont de
longueur 1/n et les hauteurs Yt / n , donc:

% 1 
Yt
W (r) dr
0 n n
% 1  2  2
1 Yt Yt
W (r) dr
2
=
0 n n n2
% 1
1  t Yt 1 
rW (r) dr = 2 tYt
0 n n n n n

'1
Pour simuler, par exemple, 0
W (r) dr, on peut:
(1) engendrer n = 1000 realisations de variables ut normales reduites independantes;
(2) calculer par recurrence n = 1000 realisations yt ;
(3) calculer:
n
t=1 yt
.
n n
'1
On a alors une realisation simulee dune approximation de 0 W (r) dr.
Si lon refait cet exercice 10000 fois, on a alors 10000 realisations simulees de cette
variable aleatoire. Lhistogramme de ces 10000 realisations est une bonne approximation
'1
de la densite de 0 W (r) dr.
SECONDE PARTIE, CHAPITRE XVI 195

'1
En fait, Hamilton (Time Series Analysis, 1994, p.485) montre que 0 W (r) dr a la dis-
tribution N (0, 1/3). Dans des cas plus compliques, tels que la simulation de la distribution
limite de la statistique TDF, la methode de simulation est la seule possible. Il faut bien
noter que les variables aleatoires apparaissant dans la variable limite sont fonction dun
meme processus W (r).

Notes sur le test TDF:


(1) Si lon ninclut pas la constante ou la tendance lineaire dans la regression de Dickey-
Fuller, la distribution limite change (les tables a employer sont dierentes !). Voir
Hamilton, pp.528529, pour les details.
(2) Linclusion dune constante et dune tendance lineaire dans la regression de Dickey-
Fuller est conseillee dans linteret de la robustesse (il est plus grave domettre a
tort des regresseurs que de faire lerreur inverse).
(3) La variable limite precedente a ete obtenue sous lhypothese auxiliaire que = 0
(pas de tendance lineaire dans lequation (3) de cette section lorsque = 1, cest-a-
dire dans le modele en dierences premieres). Le test precedent nest donc approprie
que si les yt ne presentent pas de tendance quadratique manifeste. La meilleure
strategie a adopter dans le cas contraire reste une question ouverte.
(4) La technique de calcul des valeurs critiques illustre la puissance de la methodologie
de simulation stochastique.
(5) La variable limite reste inchangee si les erreurs de la regression de Dickey-Fuller
ne sont pas normales, pour autant quun theoreme central limite fonctionnel soit
applicable (voir Hamilton, p.479).

16.5 Variables cointegrees

On peut obtenir un processus I(0) a partir dun processus I(1) en prenant les dierences
premieres du processus I(1). Malheureusement, ceci supprime toutes les informations a long
terme. Pour cette raison, on a deni une autre approche permettant dobtenir un processus
I(0), celle de la cointegration.
Denition:
Soit Y1t , Y2t , . . . , Ykt des processus stochastiques I(1). Ces processus sont dits cointegres
sil existe un vecteur a = 0 tel que :

k

a Yt = ai Yit
i=1

soit un processus I(0).


Exemple:
Soit y1t une serie dobservations sur le logarithme de la consommation par tete a prix
constants, et soit y2t une serie dobservations sur le logarithme du revenu disponible par
196 P. DESCHAMPS, COURS DECONOMETRIE

tete a prix constants. On fait lhypothese que ces deux series sont des realisations de
processus I(1):

y1t = 1 + y1,t1 + 1t


y2t = 2 + y2,t1 + 2t

On aura cointegration si la serie y1t y2t = ut est une realisation dun processus I(0) .

Interpretation:
Le vecteur cointegrant est ici a = (1, ) . On a une relation de cointegration:

y1t = y2t + ut

ou ut est I(0) . On peut interpreter cette relation comme une fonction de consommation
a long terme, mais linterpretation est dierente de celle que lon avait dans le cas ou y1t
et y2t etaient stationnaires. En eet, les niveaux dequilibre de y1t et y2t nexistent pas,
car:

yit = i + yi,t1 + it


= i + i + yi,t2 + i,t1 + it
= ...
t

= ti + is + yi0 ;
s=1

donc E(yit ) nest pas bornee.


On ne peut donc pas avoir une relation entre les niveaux dequilibre des variables, mais
y1t = y2t peut etre consideree comme lequation dun attracteur.

Test de lhypothese de cointegration.

Lidee de base est la suivante. On va faire un test de racines unitaires sur les residus de
la relation de cointegration obtenus par la methode des moindres carres ordinaires (cette
methodologie est la plus ancienne et la plus simple).
Il faut neanmoins prendre garde au fait que les distributions limites sont dierentes de
celles des tests de Dickey-Fuller precedents, car lestimation par moindres carres repose
sur lhypothese de cointegration. La mise en oeuvre se deroule comme suit:
(1) On teste si yt , xt1 , . . . , xtk sont I(1), a laide du test TDF precedent applique a
chacune de ces variables.

(2) On estime par moindres carres ordinaires la relation de cointegration:

yt = + 1 xt1 + + k xtk + ut
SECONDE PARTIE, CHAPITRE XVI 197

Ceci donne des residus ut .

(3) On teste = 1 contre < 1 dans la regression:


p

ut = ut1 + utj + t .
j=1

La statistique TCO = ( 1)/ est a comparer avec les valeurs critiques fournies
par Hamilton, Table B9, Case 3, p.766. Ces valeurs critiques sont valables dans le
cas ou au moins lune des variables yt , x1t , . . . , xkt possede une derive non nulle.

16.6 Regressions de cointegration

Quelles sont les proprietes des estimateurs par moindres carres ordinaires des coecients
de la relation:
yt = + 1 xt1 + + k xtk + ut
ou toutes les variables yt , xt1 , . . . , xtk sont I(1) mais ou ut est I(0)? Stock (Econometrica
55, 1987, pp.10351056) montre que si = (1 , . . . , k ), alors:

n( ) 0 (on dit que lon a superconvergence);
p

n( ) vecteur non standard.


d

Le probleme ne se pose donc pas au niveau de lestimation ponctuelle, mais au niveau


des tests. Letude de ces derniers ne sera pas faite ici. Plusieurs methodologies possibles
sont decrites dans Hamilton, chap. 19 et 20.
On peut substituer dans un modele de correction derreur les residus dune relation
de cointegration estimee par moindres carres ordinaires. Pour reprendre lexemple de la
section 15.5, on peut estimer par moindres carres ordinaires dans la relation yt = xt +ut,
puis estimer, toujours par moindres carres ordinaires, a, 1 , et 0 dans le modele:

yt = a (1 1 )[yt1 xt1 ] + 0 xt + t .

16.7 Regressions factices (spurious regresssions)

Que se passe-t-il si lon estime par moindres carres la relation:

yt = + 1 xt1 + + k xtk + ut

ou toutes les variables yt , xt1 , . . . , xtk , et ut sont I(1)? Dans ce cas, on na pas de cointe-
gration.
198 P. DESCHAMPS, COURS DECONOMETRIE

Phillips (Journal of Econometrics 33, 1986, pp.311340) montre que:


(1) ( n , 1 , . . . , k ) vecteur non standard
d
(2) Pour le test = 0 contre = 0:

n1 Fobs variable non standard.


d

Donc et Fobs divergent et les i ne convergent pas en probabilite! Ceci meme si les
k + 1 variables yt , xt1 , . . . , xtk sont independantes entre elles. Pour tout c, on a que:

lim P [Fobs > c] = 1,


n

donc on rejettera toujours = 0 si n est assez grand.

16.8 Conclusions

(1) La modelisation econometrique des variables I(1) est un probleme dicile. Le do-
maine manque de maturite (plusieurs questions restent ouvertes).
(2) La notion de cointegration est recente et reste contestee. Elle presente notamment
deux dicultes:
Lequivalence observationnelle, en petit echantillon, dun processus I(1) et
dun processus presque non stationnaire, par exemple le suivant:

Yt = 0.9999Yt1 + t .

Le manque de puissance des tests de racines unitaires couramment utilises.


Donc la classication dune variable entre I(0) et I(1) reste un peu un jugement
de valeurs, or letude de la relation entre les variables depend crucialement dune
telle classication.
(3) Les distributions limites des statistiques de test et des estimateurs dependent cru-
cialement des hypotheses faites sur le modele vrai. On peut tester ces hypotheses,
mais ceci nelimine pas le risque dune inference incorrecte.
(4) La cointegration est donc une hypothese de travail, qui donne de bons resultats
dans certains cas, pas dans dautres. Ce nest pas une panacee.
(5) Il faut connatre les concepts de base car les problemes poses sont importants. Le
but de cette introduction etait precisement de rendre familiers ces concepts de base
(qui peuvent etre deroutants lorsquon les rencontre pour la premiere fois).
TROISIEME PARTIE

SYSTEMES DEQUATIONS SIMULTANEES

CHAPITRE I.

INTRODUCTION

1.1 Explication intuitive du biais du a la simultaneite

Il arrive souvent quun modele economique comprenne plusieurs equations simultanees.


Comme nous allons le voir, si lon ne tient pas compte de cette situation lors de lestimation
des parametres du modele, les estimateurs obtenus pourront presenter un biais de simul-
taneite, qui ne disparatra pas lorsque la taille de lechantillon tend vers linni (defaut de
convergence). En eet, certains regresseurs seront stochastiques, et seront correles avec le
terme derreur contemporain.
Nous illustrerons ce phenomene au moyen de deux exemples.

Exemple 1

Le modele suivant, dont lorigine remonte a Haavelmo, comporte deux equations: une
equation stochastique de comportement, et une denition (identite comptable):

Ct = a + bYt + u1t
Yt = C t + It

ou Ct est la consommation, Yt le revenu national, It linvestissement, et u1t est un terme



derreur formant un vecteur u1 avec E(u1 ) = 0, E(u1 u1 ) = 2 I.
En substituant la premiere equation dans la seconde, on obtient:

Yt = a + bYt + u1t + It ,

soit aussi:
a 1 u1t
Yt = + It + .
1b 1b 1b

199
200 P. DESCHAMPS, COURS DECONOMETRIE

Donc si E(It u1t ) = 0, on a:

u21t 2
E(Yt u1t ) = E( )= = 0,
1b 1b

et lapplication des moindres carres ordinaires a la premiere equation ne donne pas des
estimateurs convergents.
Si E(Yt u1t ) > 0, nous aurons, avec une probabilite relativement forte:

u1t > E(u1t ) = 0 lorsque Yt > E(Yt )


u1t < E(u1t ) = 0 lorsque Yt < E(Yt ) .

Si lon represente alors les deux droites Ct = a + bYt et Ct = a + bYt , la pente de cette
derniere droite est la plus forte, car a et b minimisent la somme des carres des residus:

Ct
8
a + bYt

...
......
.....
7 ...
........
.....
.....
......
.
......
.....
......
.
.....
..

......
.
6 .
......
.
..
.

......
......
.....
.
....
......
...

...
..
......
..... .............
...
5 ....
......
..... .............
.............

..
..
. ..
...
....................
..... ..............
.
a + bYt
...... .............
..... .............
....
.
.. ....
...... .........................
.
.................
...............

4 ......
............. .....
............. ..........
.
. .....
.............. ......
.............
..
.......
......
......
.....
......
3 .....
..
.........
.....
.....
.....
......
Yt
0.5 1.0 1.5 2.0
E(Yt )

Exemple 2

Nous avons ici deux equations de comportement, une loi dore et une loi de demande.
Les quantites demandees (qt ) dependent du prix (pt ) et du revenu (rt ). Le prix (pt ) depend
des quantites oertes (qt ) et du cout de production (ct ). Le systeme secrit:
TROISIEME PARTIE, CHAPITRE I 201

(i) qt = a1 + b1 rt + c1 pt + u1t

(ii) pt = a2 + b2 ct + c2 qt + u2t

Donc pt depend de qt dans (ii), qui depend de u1t dans (i): nous concluons que pt est
correlee avec u1t . Mais pt apparat comme regresseur dans (i): nous avons donc un probleme
de simultaneite comme auparavant.

1.2 Variables endogenes et predeterminees

Les variables pt et qt de lexemple precedent sont dites endogenes: elles sont determinees
par le modele, et dependent des termes derreur de chacune des equations. Les variables
ct et rt sont dites predeterminees: par hypothese, elles ne sont correlees avec aucun des
termes derreurs contemporains.
Comme on le verra par la suite, il est important de faire une distinction entre variables
exogenes et variables predeterminees. Les variables exogenes sont determinees par des
relations nappartenant pas au modele: elles ne sont donc correlees, ni avec les termes
derreurs contemporains, ni avec les autres termes derreur. En revanche, les variables
predeterminees comprennent, non seulement les variables exogenes, mais aussi les variables
endogenes retardees, pour autant que les erreurs ne soient pas correlees dans le temps.

1.3 Presentation matricielle et hypotheses

Nous pouvons ecrire le systeme dequations precedent sous la forme canonique suivante:

qt c1 pt a1 b1 rt 0ct = u1t

c2qt + pt a2 0rt b2 ct = u2t ,

ou, sous forme matricielle:



11 12 qt 11 12 13 1 u1t
+ rt =
21 22 pt 21 22 23 ct u2t

avec les restrictions 11 = 1, 22 = 1, 13 = 0, 22 = 0. En general donc, nous avons


le format suivant pour un systeme de g equations, comportant g variables endogenes et k
variables predeterminees:
202 P. DESCHAMPS, COURS DECONOMETRIE

Byt + xt = ut
ou B est une matrice g g de coecients des variables endogenes;
est une matrice g k de coecients des variables predeterminees;
yt est un vecteur g 1 de variables endogenes;
xt est un vecteur k 1 de variables predeterminees;
ut est un vecteur g 1 derreurs inobservables.
Les hypotheses de ce modele sont les suivantes:

(H1 ) E(ut ) = 0 pour tout t = 1, . . . , n



(H2 ) E(ut ut ) =

(H3 ) E(ut us ) = Ogg (t = s)

(H4 ) B est reguliere

(H5 ) rang (X) = k < n


 

1
(H6 ) plim nX U = Okg

 

1
(H7 ) plim nX X = XX est denie positive


x1


x2

ou X = est n k et
.
.
.


xn


u1


u2

U = est n g .
.
.
.


un
En reunissant toutes les observations t sur Byt + xt = ut , on peut aussi secrire
 
Y B + X = U, ou Y est n g.
TROISIEME PARTIE, CHAPITRE I 203

1.4 Forme structurelle et forme reduite

Le systeme Byt + xt = ut sappelle la forme structurelle du modele: cest la represen-


tation formelle dun modele economique et ce sont donc les parametres de ce systeme que
nous voulons estimer. Neanmoins, comme nous lavons vu, nous ne pouvons estimer ces
parametres par la methode des moindres carres ordinaires appliquee a chaque equation.
Nous allons donc transformer la forme structurelle en un systeme derive, dit forme
reduite, qui exprime chaque variable endogene en fonction de toutes les variables prede-
terminees du modele, et des erreurs.
Premultiplions les deux membres de Byt + xt = ut par B 1 . Il vient:

yt = xt + vt avec = B 1 et vt = B 1 ut .
Comme nous le verrons, les g equations de ce nouveau systeme peuvent etre estimees
par moindres carres ordinaires, sans probleme de simultaneite.
La forme reduite peut aussi secrire:
 
Y = X + V , ou V = U(B )1 .
Comme cas particuliers de la forme reduite, nous pouvons mentionner:
(1) Le modele MANOVA (multivariate analysis of variance) ou les variables exogenes
ne prennent que les valeurs 0 et 1.
(2) Le modele autoregressif vectoriel (VAR). Ce modele peut secrire:
(L)yt = 0 + vt
ou (L) est une matrice de polynomes:
(L) = I 1 L p Lp .
On a alors:
yt = 0 + 1 yt1 + + p ytp + vt
ce qui correspond bien a lequation yt = xt + vt , si lon denit:

1
yt1
xt =
..

.
ytp
= ( 0 1 2 . . . p ) .
(3) Le modele autoregressif a retards echelonnes vectoriel, ou lon a un nombre ar-
bitraire de variables exogenes formant un vecteur zt et un nombre arbitraire de
retards de ces variables. Il sagit dune generalisation du modele VAR precedent,
qui peut secrire comme:
(L)yt = (L)zt + vt .
Un cas particulier de ce type de modele sera etudie en detail a la section 1.7.
204 P. DESCHAMPS, COURS DECONOMETRIE

1.5 Proprietes statistiques de la forme reduite

Il est facile de verier que:

E(vt ) = 0
E(vt vt ) = B 1 (B  )1
E(vt vs ) = Ogg pour t = s

1 
plim X V = Okg .
n

Donc les erreurs de la forme reduite sont desperance nulle, homoscedastiques, non
correlees dans le temps, et non correlees avec les regresseurs contemporains.
On peut par consequent estimer les equations de la forme reduite par moindres carres
ordinaires. La colonne i de legalite matricielle Y = X + V peut secrire:

y i = X i + v i
ou i est la colonne i de la matrice  . Ceci est une equation de regression du type habituel,
et par consequent:
i = (X  X)1 X  y i

 = (X  X)1 X  Y.

On montrera plus loin (section 5.1) que cet estimateur est aussi lestimateur par maxi-
mum de vraisemblance lorsque les erreurs sont normales. En revanche, comme nous lavons
indique, la forme structurelle ne peut pas etre estimee par MCO.

1.6 Interpretation economique de la forme reduite

Reprenons le modele de la section 1.1:

Ct = a + bYt + u1t
Yt = C t + It

Lestimation des parametres de cette forme structurelle ne fournit que les propensions
marginales et moyennes a consommer. On pourrait aussi se demander quel est limpact sur
la consommation dune augmentation des depenses dinvestissement. Cet impact est bien
entendu mesure par le multiplicateur.
TROISIEME PARTIE, CHAPITRE I 205

Nous allons voir que ce multiplicateur nest autre que lun des coecients de la forme
reduite. Ces coecients mesurent donc leet sur les variables endogenes dun changement
des variables predeterminees, lorsque lon tient compte de la simultaneite du systeme.
La forme structurelle secrit Byt + xt = ut , avec


1 b a 0
B= , = ,
1 1 0 1

Ct 1 u1t
yt = , xt = , et ut = .
Yt It 0

Donc:

1 1 1 b a 0
= B =
1b 1 1 0 1

1 a b
= ,
1 b a 1

et la forme reduite secrit:

a b
Ct = + It + v1t
1b 1b
a 1
Yt = + It + v2t .
1b 1b

dCt b dYt 1
On obtient donc directement = et = .
dIt 1b dIt 1b

1.7 Forme reduite dynamique, forme nale, multiplicateurs

Certaines variables predeterminees sont ici des variables endogenes retardees. Dans le
cas particulier dun seul retard, nous pouvons ecrire la forme reduite comme:

yt = 1 yt1 + 2 zt + vt

ou yt est le vecteur des variables endogenes contemporaines, yt1 est le vecteur des
variables endogenes retardees, zt est le vecteur des variables exogenes et 1 , 2 sont des
sous-matrices de .
Nous allons, au moyen de substitutions successives, exprimer yt en fonction des seules
variables exogenes et des erreurs.
206 P. DESCHAMPS, COURS DECONOMETRIE

On a yt = 1 (1 yt2 + 2 zt1 + vt1 ) + 2 zt + vt


= 21 yt2 + 1 2 zt1 + 2 zt + 1 vt1 + vt

et, apres s substitutions:


s
s

yt = s+1
1 yts1 + j1 2 ztj + j1 vtj .
j=0 j=0

On fait alors lhypothese que lims s1 = O, et lon obtient en passant a la limite:




yt = Cj ztj + j1 vtj ,
j=0 j=0
avec:
Cj = j1 2 .
def

Cette derniere equation sappelle la forme nale du modele. Elle permet dobtenir, par
simple lecture, les multiplicateurs dynamiques. On distingue:
(1) Les multiplicateurs dimpact: ce sont les composantes de C0 = 2 .
(2) Les multiplicateurs de delai j: ce sont les composantes de Cj . Ils mesurent leet
sur les yt dune variation temporaire des variables exogenes a la periode t j.

(3) Les multiplicateurs cumules: ce sont les composantes de la matrice D = j=0 Cj .
Ils mesurent leet sur les yt dune variation prolongee des variables exogenes durant
les + 1 periodes t , t + 1, . . . , t.
(4) Les multiplicateurs dequilibre: ce sont les composantes de la matrice:

 1
D = Cj = I + 1 + 21 + . . . 2 = (I 1 ) 2 .
j=0

Ils mesurent leet dune variation des zt soutenue pendant une innite de periodes.
Le niveau dequilibre des variables endogenes est alors donne par E(y) = D z, ou
z est le nouveau niveau des variables exogenes.
A titre dexemple, considerons la forme structurelle suivante:

Ct = 0.25 + 0.5Yt + u1t


It = 0.15 + 0.1Yt + 0.3Yt1 + u2t
Yt = Ct + It + Gt .

Supposons qua partir dune situation dequilibre, le niveau G des depenses gouverne-
mentales augmente dune unite a la periode t 1, et revienne a la periode suivante a son
TROISIEME PARTIE, CHAPITRE I 207

niveau initial. On demande les eets de cette augmentation temporaire sur C, Y et I a la


periode t et a la periode t + 1.
Nous avons ici:


Ct
yt1 1


yt = Yt ; xt = ; zt =

zt Gt
It

et la forme structurelle Byt + xt = ut secrit:


Ct1


1 0.5 0 Ct 0 0 0 0.25 0 Yt1 u1t



0 0.1 1 Yt + 0 0.3 0 0.15 0 It1 = u2t .



1 1 1 It 0 0 0 0 1 1 0

Gt

On verie aisement que


0 0.375 0 0.75 1.25


= B 1 = 0 0.75 0 1 2.5

0 0.375 0 0.25 0.25

et la forme reduite secrit yt = 1 yt1 + 2 zt + vt , avec:


0 0.375 0 0.75 1.25


1 = 0 0.75 0 et 2 = 1 2.5 .

0 0.375 0 0.25 0.25

Les reponses aux questions posees sont donnees par les multiplicateurs de delai 1, et de
delai 2. On verie que:
208 P. DESCHAMPS, COURS DECONOMETRIE


0.375 0.9375


C1 = 1 2 = 0.75 1.875

0.375 0.9375


0.28125 0.703125


C2 = 21 2 = 0.5625 1.40625 .

0.28125 0.703125
Donc, si une situation dequilibre prevaut a la periode t 2 (soit si Gt2 = G) et si
Gt1 G = 1 tandis que Gs G = 0 pour s = t 1, on a, a un terme derreur pres:

Ct C = 0.9375 Ct+1 C = 0.703125


Yt Y = 1.875 Yt+1 Y = 1.40625
It I = 0.9375 It+1 I = 0.703125

En eet:

yt y = C0 (zt z) + C1 (zt1 z) + C2 (zt2 z) + . . . + t

yt+1 y = C0 (zt+1 z) + C1 (zt z) + C2 (zt1 z) + . . . + t+1 .


Si maintenant laugmentation des depenses gouvernementales se maintient pour un
nombre inni de periodes, la consommation augmentera, a lequilibre, de 5 unites; le revenu
national, de 10 unites; linvestissement, de 4 unites. En eet:

2.25 5

1
D = (I 1 ) 2 = 4 10 .

1.75 4

1.8 Relation entre la forme reduite dynamique et le modele AD

Le modele de la section precedente peut aussi secrire:


(L)yt = (L)zt + vt
ou (L) = I 1 L et (L) = 2 . On sapercoit que la matrice D des multiplicateurs
dequilibre nest autre que [(1)]1 (1). De maniere plus generale, tous les resultats du
chapitre XV de la seconde partie ont une generalisation vectorielle dans le present contexte.
TROISIEME PARTIE, CHAPITRE II 209

CHAPITRE II.

LE PROBLEME DE LIDENTIFICATION

2.1 Structures observationnellement equivalentes

Lorsque nous estimons les parametres de la forme reduite par la methode des moindres
carres ordinaires, le probleme suivant se pose. Comme nous lavons signale a la section
1.4, ce sont les composantes des matrices B et qui nous interessent en premier lieu.
Peut-on, alors, trouver des estimations convergentes uniques de ces composantes a partir
destimations convergentes des composantes de ? Ce probleme est celui de lidentication
de B et de .
Pour que B et puissent etre identiees, il faut quil existe une correspondance bi-
jective entre dune part, B et dautre part. Donc, il faut qua toute forme reduite
corresponde une et une seule forme structurelle et reciproquement. Il est facile de voir que
sans restrictions sur les coecients, ceci ne sera jamais le cas. A une forme reduite donnee
correspondrait une innite de formes structurelles; ces dernieres sont dites observationnel-
lement equivalentes (elles impliquent la meme forme reduite).
Considerons en eet les deux formes structurelles suivantes:

Byt + xt = ut , et (F B)yt + (F )xt = F ut


ou F est une matrice g g reguliere, dierente de la matrice unite. A la seconde forme
structurelle correspond la forme reduite yt = B 1 xt + B 1 ut , comme on le voit facile-
ment si lon premultiplie les deux membres par (F B)1 = B 1 F 1 . Cette forme reduite
est identique a la premiere. Les deux formes structurelles sont donc observationnellement
equivalentes. Or, il existe une innite de matrices F regulieres.
On verie que les deux formes structurelles conduisent a la meme fonction de vraisem-
blance. Le probleme du maximum de vraisemblance na donc pas de solution unique.
Comment, alors, estimer B et ? Nous ne pouvons le faire que grace aux restrictions
a priori que nous fournit la theorie economique sur les composantes de ces matrices. Le
probleme didentication est donc conceptuellement fort semblable au probleme de mul-
ticolinearite etudie a la section 5.7.1 de la deuxieme partie.
En particulier, certaines des composantes seront nulles: les variables correspondantes
apparatront dans certaines equations, mais pas dans les autres (voir la section 1.1 de cette
troisieme partie). Ces restrictions impliqueront alors des restrictions sur la matrice F , car
210 P. DESCHAMPS, COURS DECONOMETRIE

les matrices de coecients F B et F de la structure transformee doivent obeir aux memes


restrictions que la structure dorigine (dans le cas contraire, nous changerions le modele!)
Si ces restrictions impliquent une matrice de transformation unique, il y a correspondance
bijective entre forme structurelle et forme reduite: B et sont alors identiables.

2.2 Systemes recursifs

Un systeme recursif est caracterise par une matrice B triangulaire et une matrice =

E(ut ut ) diagonale. Un exemple dun tel systeme est donne par:

11 12 y1t 11 u1t
+ x1t =
21 22 y2t 21 u2t

avec les restrictions 11 = 22 = 1, 12 = 0, et E(u1t u2t) = 12 = 21 = 0. On peut


alors ecrire:

y1t = 11 x1t + u1t

y2t = 21 y1t 21 x1t + u2t .

Lapplication des moindres carres ordinaires a chaque equation donne des estimateurs
convergents. La propriete est evidente pour la premiere equation. En ce qui concerne la
seconde, il est immediat que E(y1t u2t ) = 0, puisque E(x1t u2t ) = 0 et E(u1tu2t ) = 0.
Nous allons illustrer la section precedente en veriant, par le biais de la matrice de
transformation F , que les deux equations du systeme sont identiables.
Les matrices de la forme structurelle transformee:


f11 f12 11 12 f11 11 + f12 21 f11 12 + f12 22
FB = =
f21 f22 21 22 f21 11 + f22 21 f21 12 + f22 22


f11 11 + f12 21
F =
f21 11 + f22 21

doivent obeir aux trois memes restrictions que les matrices B et . De meme, la matrice
de covariance de la forme structurelle transformee doit etre diagonale. Nous avons donc
les quatre restrictions suivantes (il faut bien noter que ce sont les seules):
TROISIEME PARTIE, CHAPITRE II 211

f11 11 + f12 21 = 1

f11 12 + f12 22 = 0

f21 12 + f22 22 = 1

f11 (11 f21 + 12 f22 ) + f12 (21 f21 + 22 f22 ) = 0

ou, en substituant les quatre restrictions sur les parametres de la forme structurelle
dorigine:

f11 + f12 21 = 1

f12 = 0

f22 = 1

f11 11 f21 + f12 22 f22 = 0 .

Comme 11 = 0, ces quatre equations ont comme solution unique f11 = 1, f12 = 0, f21 =
0, f22 = 1.
Donc les restrictions impliquent F = I, et nous ne pouvons avoir deux formes structu-
relles dierentes impliquant la meme forme reduite. Les deux equations sont identiables.

Exercice: Calculez la forme reduite du systeme precedent. Pourquoi ne peut-on pas iden-
tier les parametres de la seconde equation structurelle lorsque E(u1t u2t ) = 0?

2.3 La condition de rang

Lorsque les seules restrictions sont des restrictions lineaires homogenes portant sur les ij
et ij , jointes a des restrictions de normalisation (ij = 1 pour un seul j dans lequation i ),
nous allons voir quil nest pas necessaire de passer par lapproche de la section precedente.
Une condition necessaire et susante pour lidentiabilite dune equation peut en eet etre
enoncee en fonction du rang dune certaine matrice.
212 P. DESCHAMPS, COURS DECONOMETRIE

2.3.1 Formulation en fonction des coecients de la forme reduite.

Comme = B 1 , nous pouvons enoncer la relation suivante, qui lie les parametres
de la forme structurelle a ceux de la forme reduite:

B + = Ogk

soit aussi:

AW = Ogk

ou:
A = (B ) est g (g + k)


W = est (g + k) k .
Ik

Soit alors i la i-ieme ligne de A. Il sagit du vecteur des coecients de la i-ieme equation
structurelle. Le rang de W est egal a k. En eet, comme rang (Ik ) = k, rang (W ) k; mais
W na que k colonnes, donc rang (W ) k. Donc i W = O1k est un systeme homogene
de k equations independantes avec g + k inconnues. Lensemble des solutions est donc un
espace vectoriel de dimension (g + k) k = g.
Les restrictions homogenes devront ramener cette dimension a lunite pour que lequa-
tion i soit identiable. Le vecteur i sera alors determine a un facteur de proportionnalite
pres et la restriction de normalisation permettra de le determiner de facon unique.
Ces restrictions homogenes, au nombre de Ri , sont regroupees dans le systeme i i =
O1Ri . La matrice i a g + k lignes et Ri colonnes. Au total, le systeme dequations qui
devrait nous permettre de retrouver les parametres de la i-ieme equation structurelle a
partir des restrictions et des parametres de la forme reduite est le suivant:

i ( W i ) = O1(k+Ri )

et le rang de ( W i ) doit etre egal a g + k 1 pour que toutes les solutions soient
proportionnelles.

2.3.2 Formulation equivalente en fonction des coecients de la forme struc-


turelle.

Cette formulation est plus facile a utiliser que la precedente, car elle nimplique pas le
calcul de .
TROISIEME PARTIE, CHAPITRE II 213

Theoreme.
Le rang de ( W i ) est egal a g + k 1 si et seulement si le rang de Ai est egal a
g 1.

Demonstration:
Voir Judge et al., The Theory and Practice of Econometrics, 1985, p.577.

2.4 La condition dordre

Supposons maintenant que les seules restrictions homogenes soient des restrictions dex-
clusion (du type ij = 0 ou ij = 0). Nous pouvons alors enoncer un critere encore plus
simple que le precedent. Il faut neanmoins insister sur le fait que ce critere est une condition
necessaire, mais pas susante, pour lidentication dune equation. Si la condition dordre
nest pas veriee, lequation nest pas identiable; si la condition dordre est satisfaite, il
faut neanmoins verier la condition de rang.
Repartons de lequation rang ( W i ) = g + k 1. Comme ( W i ) a k + Ri colonnes
et g + k lignes, cette condition ne sera certainement pas veriee si Ri < g 1; en eet, dans
ce cas, rang ( W i ) k+Ri < k+g1. Une condition necessaire pour lidentication de
lequation i est donc Ri g 1. Comme les Ri restrictions sont des restrictions dexclusion,
on a:

R i = g g i + k ki

ou gi et ki sont les nombres de variables respectivement endogenes et predeterminees


incluses dans lequation i. Il faut donc que:

R i = g g i + k ki g 1

soit k ki g i 1 .

Cette derniere inegalite est la condition dordre.


Le nombre de variables predeterminees exclues ne peut etre inferieur au nombre de
variables endogenes incluses moins 1.
Si k ki = gi 1, lequation est dite juste-identiee.
Si k ki > gi 1, lequation est dite sur-identiee.

2.5 Exemple

Reprenons le systeme recursif de la section 2.2. Nous allons voir que sans la restriction
12 = 0, la premiere equation reste identiable, mais la seconde ne lest pas.
214 P. DESCHAMPS, COURS DECONOMETRIE

La matrice A secrit, en tenant compte des restrictions:



1 0 11
A= .
21 1 21

0

0
Pour la premiere equation, 1 = 1 . Donc A1 = , qui est de rang 1 = g 1.
1
0
La premiere equation est donc identiable. Comme k k1 = 0 = g1 1 = 0, elle est
juste-identiee.
Pour la seconde equation, k k2 = 0 < g2 1 = 1. Cette equation nest pas identiable.

Exercice: Discutez lidentication des deux equations de lexemple 2 de la section 1.1


TROISIEME PARTIE, CHAPITRE III 215

CHAPITRE III.

METHODES DESTIMATION A INFORMATION LIMITEE

3.1 Introduction

Nous verrons dans ce chapitre la methode des moindres carres indirects, qui nest appli-
cable qua une equation juste-identiee (k ki = gi 1); la methode des moindres carres
doubles, qui est applicable a toute equation identiable (k ki gi 1); et lestimateur
de classe k, qui generalise celui des moindres carres doubles et qui inclut aussi, comme cas
particulier, lestimateur par maximum de vraisemblance a information limitee. Le terme
information limitee signie que lon ne tient compte, lors de lestimation des coecients
de la i-ieme equation structurelle, que des restrictions a priori sur cette equation (indepen-
damment de la formulation des autres equations). Les methodes de cette classe ont donc
lavantage de la simplicite et de la robustesse. En revanche, les methodes a information
complete, que nous verrons au chapitre IV, sont potentiellement plus ecaces car elles
utilisent les restrictions a priori sur toutes les equations du systeme.
Lestimateur de moindres carres doubles, que nous verrons a la section 3.3, est lestima-
teur a information limitee le plus couramment utilise. Cest un estimateur par variables
instrumentales, qui est asymptotiquement equivalent a celui du maximum de vraisemblance
a information limitee.

3.2 Moindres carres indirects

3.2.1 Presentation de la methode.


Nous avons mentionne plus haut que les equations de la forme reduite yt = xt +
vt pouvaient etre estimees par moindres carres ordinaires: on regresse chaque variable
endogene sur toutes les variables predeterminees presentes dans le modele. Ceci fournit
une estimation convergente de la matrice , soit .
Si lequation i est juste-identiee, on peut en deduire des estimations convergentes des
composantes de i en resolvant le systeme


i ( W i ) = O1(k+Ri ) , ou W = ,
Ik
et en imposant la condition de normalisation.
216 P. DESCHAMPS, COURS DECONOMETRIE

3.2.2 Limitations.
Montrons que cette procedure nest pas applicable lorsque Ri = g 1. La matrice
( W i ) est de dimensions (g + k) (k + Ri ).
Si Ri > g 1, son rang sera de g + k en general, meme si rang ( W i ) = g + k 1.
Nous avons donc g + k equations independantes en g + k variables. La solution unique est
le vecteur nul, et cette solution est donc incompatible avec la condition de normalisation!
Si Ri < g 1, le rang de ( W i ) sera strictement inferieur a k + g 1, et nous aurons
une innite de solutions.
Illustrons ce qui precede au moyen de lexemple suivant:

St = a0 + a1 pt + a2 Et + u1t

pt = b0 + b1 St + b2 rt + b3 pt1 + u2t

ou St est le taux de variation des salaires; pt est le taux dination; Et est le taux de
chomage; rt est le taux dinteret.
Les deux variables endogenes sont pt et St ; les quatre variables predeterminees sont la
constante, Et , rt et pt1 .
La matrice A a la forme suivante:

1 a1 a0 a2 0 0
A= .
b1 1 b0 0 b2 b3

Les deux matrices 1 et 2 sont



0 0 0
0 0 0

0 0 0
1 = 2 = .
0 0 1

1 0 0
0 1 0

0 0 a2
Donc A1 = et A2 = .
b2 b3 0

Les deux matrices sont de rang 1, donc les deux equations sont identiables. Pour la
premiere equation, k k1 = 2 > g1 1 = 1. Pour la seconde, k k2 = 1 = g2 1 = 1.
Donc la premiere equation est sur-identiee, la seconde est juste-identiee.
Nous resumons les donnees de lechantillon dans la matrice des sommes de carres et de
produits suivante:
TROISIEME PARTIE, CHAPITRE III 217

St pt Constante Et rt pt1

St 361 100 10 20 80 80
pt 100 279 80 10 60 40
Constante 10 80 100 0 0 0
Et 20 10 0 20 0 0
rt 80 60 0 0 40 0
pt1 80 40 0 0 0 80

Les parametres de la forme reduite sont estimes par moindres carres ordinaires. Donc:

1
100 0 0 0

1


10 20 80 80 0 0 0

20
=
1
80 10 60 40 0 0 0
40

1
0 0 0 80


0.1 1 2 1
= .
0.8 0.5 1.5 0.5

Estimons les parametres de la seconde equation structurelle par la methode des moindres
carres indirects. Ces estimations sont obtenues en resolvant:


0.1 1 2 1


0.8 0.5 1.5 0.5



1 0 0 0


( b1 1 b0 0 b2 b3 ) = (0 0 0 0)
0 1 0 0



0 0 1 0



0 0 0 1

ce qui implique b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0.


Si nous tentons de faire la meme demarche pour la premiere equation, nous obtenons:
218 P. DESCHAMPS, COURS DECONOMETRIE


0.1 1 2 1


0.8 0.5 1.5 0.5



1 0 0 0


( 1 a1 a0 a2 0 0) = (0 0 0 0) .
0 1 0 0



0 0 1 0



0 0 0 1

La troisieme equation de ce systeme senonce comme 2 1.5 a1 = 0, la quatrieme


comme 1 0.5 a1 = 0. Ces deux equations sont incompatibles.

3.3 Moindres carres doubles

Contrairement a la precedente, cette methode peut etre appliquee a toute equation iden-
tiee. Nous fournirons deux interpretations de lestimateur par moindres carres doubles:
(1) une interpretation heuristique;
(2) une interpretation en termes de variables instrumentales;

3.3.1 Notation.

Supposons que nous voulions estimer les parametres de la i-ieme equation structurelle.
Celle-ci peut secrire:

yi = Yi i + Xi i + ui


i
ou yi = Ti i + ui avec Ti = ( Yi Xi ) et i = .
i

yi est le vecteur n 1 des observations sur la variable endogene dont le


coecient est normalise a lunite dans lequation i;
Yi est la matrice n (gi 1) des observations sur les variables endogenes qui
sont incluses comme regresseurs dans lequation i;
Xi est la matrice n ki des observations sur les variables predeterminees
incluses dans lequation i.
TROISIEME PARTIE, CHAPITRE III 219

3.3.2 Premier exemple dapplication.

Pour la forme structurelle de la section 1.1:

Ct = a + bYt + u1t

Yt = C t + I t
nous avons calcule la forme reduite:

Ct = 11 + 12 It + v1t

Yt = 21 + 22 It + v2t .

Si la matrice etait connue, on pourrait calculer:

Yt = 21 + 22 It .

Si It est non stochastique, Yt est non stochastique. On pourrait alors imaginer destimer
par MCO les parametres a et b dans lequation modiee:

Ct = a + bYt + wt .

En fait, est inconnue. Mais on peut lestimer de facon convergente par MCO, et
calculer:

Yt = 21 + 22 It .

Lestimateur de a et b par moindres carres doubles se calcule en appliquant les MCO a


lequation structurelle modiee:

Ct = a + bYt + et .

3.3.3 Presentation heuristique generale.

Cette presentation conduit aisement aux equations normales. Nous denirons lestima-
teur de i par moindres carres doubles comme le vecteur obtenu en:
regressant, par moindres carres ordinaires, chacune des variables de Yi sur toutes les
variables predeterminees du modele, an dobtenir une matrice de valeurs calculees
Yi ;
puis en remplacant Yi par Yi dans lequation yi = Yi i + Xi i + ui et en appliquant
une nouvelle fois les moindres carres ordinaires a lequation ainsi obtenue.
220 P. DESCHAMPS, COURS DECONOMETRIE

Lidee est donc la suivante:



Nous avons, en vertu de la forme reduite, legalite Y = X + V . Si etait une

matrice connue, le fait de remplacer la matrice Y par la matrice X purgerait donc
les variables endogenes de leur partie aleatoire. On pourrait alors appliquer les moindres
carres ordinaires a une equation structurelle ou lon aurait remplace les composantes de
Yi par ces valeurs purgees, puisque ce sont ces parties aleatoires qui sont responsables du
biais de simultaneite.
En pratique, bien sur, est une matrice inconnue. Mais nous pouvons lestimer de facon
convergente, en appliquant les moindres carres ordinaires a chaque equation de la forme
reduite. Soit lestimation obtenue.
Supposons, sans perte de generalite, que Yi forme les premieres colonnes de Y , et par-

tageons la matrice de la facon suivante:
  
= ( i 0 )
 
ou i est k (gi 1) et 0 est k (g (gi 1)).
 
On voit directement que Yi = X i . Par ailleurs, i , etant obtenue par regression
  
des colonnes de Yi sur celles de la matrice X, est egale a i = (X X)1 X Yi . Donc
 
Yi = X(X X)1 X Yi est la matrice obtenue lors de la premiere etape de la methode des
moindres carres doubles.
Pour la seconde etape, nous avons lequation de regression yi = Yi i + Xi i + i , que
nous pouvons aussi ecrire yi = Zi i + i avec Zi = ( Yi Xi ). Les equations normales
 
secrivent alors (Zi Zi )i = Zi yi , soit:
  
Yi Yi Yi Xi i Yi yi
(E.N.1) = .
  
Xi Yi Xi Xi i Xi yi

3.3.4 Justication par les variables instrumentales.

Supposons, sans perte de generalite, que la matrice Xi forme les premieres colonnes de
X, et denissons PX = X(X  X)1 X  . On a PX Xi = Xi , car (X  X)1 X  Xi forme les ki
premieres colonnes dune matrice unite dordre k. Dautre part PX Yi = Yi . On a alors:

Zi = ( Yi Xi ) = PX ( Yi Xi ) = PX Ti
et par consequent:

i = (Zi Zi )1 Zi yi
= [(PX Ti ) (PX Ti )]1 (PX Ti ) yi
= [Ti PX Ti ]1 Ti PX yi
= [Zi Ti ]1 Zi yi
TROISIEME PARTIE, CHAPITRE III 221

ou encore:

      
Yi X(X X)1 X Yi Yi Xi i Yi X(X X)1 X yi
(E.N.2) = .
  
Xi Yi Xi Xi i Xi yi

Lexpression [Ti PX Ti ]1 Ti PX yi montre que lon a bien un estimateur par variables
instrumentales: les observations sur ces variables forment la matrice X. La convergence en
probabilite de i vers i est garantie par lhypothese H6 de la section 1.3.
Il est interessant de noter que Ti PX Ti est dordre ki + gi 1 et de rang inferieur ou
egal a k. Donc si la condition dordre nest pas veriee (k ki < gi 1), la matrice des
coecients des equations normales sera singuliere.

3.3.5 Distribution asymptotique.

Puisque lestimateur des moindres carres doubles est un estimateur par variables ins-
trumentales, le theoreme 13.8 de la seconde partie lui est immediatement applicable. Nous
avons donc le resultat suivant.

Theoreme.
Soit i lestimateur de i par moindres carres doubles. Sous les hypotheses dun theoreme
central limite:
    
(1) dlim n(i i ) N (0, ii 1
ZZ ) ou ZZ = plim 1
n Zi Zi .

(2) Si ii = 1
n (yi Ti i ) (yi Ti i ), alors plim ii = ii .
Notons quil nest pas necessaire de calculer chaque residu pour calculer ii . On verie
en eet par simple substitution que:
  
1  
Y i yi 
Yi Yi Yi Xi
ii = yi yi 2i + i i .
n   
Xi yi Xi Yi Xi Xi

3.3.6 Exemple numerique.

Reprenons maintenant lexemple de la section 3.2.2. Pour la premiere equation, les


observations sur la variable pt forment la matrice Y1 ; celles sur la constante et sur la
variable Et forment la matrice X1 . Le vecteur y1 nest autre que ( St ).
Construisons les equations normales a partir de (E.N.2). On obtient par simple lecture:
222 P. DESCHAMPS, COURS DECONOMETRIE


80
100 0
 10 
X Y1 = X1 X1 =
60
0 20
40



10
 10  20
X1 y1 = X y1 =
20 80
80


100 0 0 0


0 20 0 0 80
 
X X = X1 Y1 = .

0 0 40 0 10

0 0 0 80

Par consequent, 1 et 1 sont la solution du systeme:



179 80 10 178
1

80 100 0 = 10 .

1
10 0 20 20
Nous obtenons comme solution:


200 160 100 178


1
1




= 160 348 80 10
22000
1
100 80 1150 20


32/22 a1


= 234/220 = a0 .

6/22 a2
En ce qui concerne maintenant la seconde equation, les observations sur St forment la
matrice Y2 ; celles sur la constante, rt et pt1 , forment la matrice X2 ; celles sur pt forment
le vecteur y2 . Nous avons alors:
TROISIEME PARTIE, CHAPITRE III 223


100 0 0
10

 20 
X Y2 = X2 X2 = 0 40 0
80
80
0 0 80


80
80
  10
X2 y2 = 60 X y2 =
60
40
40


10

X2 Y2 = 80
80

et les equations normales sont:


261 10 80 80 b1 178




10 100 0 0 b0 80

=

80 0 40 0 b2 60

80 0 0 80 b3 40

systeme dont la solution est b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0. Nous retombons sur
les memes resultats que ceux obtenus par moindres carres indirects! Ceci est du au fait que
lequation 2 soit juste-identiee. Cette propriete est generale, comme on peut le demontrer.
Estimons maintenant les variances asymptotiques des estimateurs a0 , a1 , a2 . On a:


100

1
11 = 361 2 ( 1.45 1.06 0.27 ) 10
100
20

279 80 10 1.45


+ ( 1.45 1.06 0.27 ) 80 100 0 1.06 = 5.4575

10 0 20 0.27
224 P. DESCHAMPS, COURS DECONOMETRIE

et les estimations des variances asymptotiques sont:


348
a20 = 5.4575 = 0.0863
22000

a21 = 0.0496

a22 = 0.2853.

Comme:
a2 6/22
= = 0.5106 < 1.96,
a2 0.2853
a2 nest pas signicativement dierent de zero.

3.4 Lestimateur de classe k


ik
Il fut deni par H. Theil comme la solution des equations normales suivantes:
ik
    
Yi Yi k Vi Vi Yi Xi ik Yi k Vi yi
=
.
 
Xi Yi Xi Xi ik 
Xi yi

ou Vi est une matrice de residus de la forme reduite, denie comme:

Vi = (I X(X  X)1 X  )Yi = MYi

Si k = 0, nous avons lestimateur obtenu par moindres carres ordinaires appliques a la


i-ieme equation structurelle.
Si k = 1, nous avons lestimateur de moindres carres doubles, comme on peut le voir
facilement a partir des equations normales (E.N.2) puisque PX Yi = Yi Vi et puisque
Yi Vi = Vi Vi .
Si k est aleatoire et plim k = 1, nous avons un estimateur convergent. Si, en particulier,
k est egal a la plus petite racine dune certaine equation determinantale, on obtient
lestimateur de maximum de vraisemblance a information limitee; on peut prouver que

plim n( 1) = 0 (voir Judge et al., The Theory and Practice of Econometrics, p. 602).
TROISIEME PARTIE, CHAPITRE IV 225

CHAPITRE IV.

METHODES DESTIMATION A INFORMATION COMPLETE

Nous estimons ici, globalement, les parametres dun systeme entier. Nous supposons que
toute equation non identiable, et toute identite, a ete supprimee du systeme (les identites
sont eliminees par substitution). Les methodes de ce chapitre permettent, dans certains
cas, un gain decacite asymptotique.

4.1 Le produit de Kronecker et certaines de ses proprietes

Cette operation permet, dans le cadre des systemes dequations, lelaboration dune
notation tres compacte.
Si A est une matrice m n et B est une matrice p q, A B est la matrice mp nq
suivante:

a11 B a12 B ... a1n B


a21 B a22 B ... a2n B

AB = .
. .. ..
.. .
. ...

am1 B am2 B ... amn B

Mentionnons quelques-unes des proprietes de ce produit.




BF C F
B C
4.1.1 Si A = , alors A F = .
D E
DF E F
Il ny a pas de propriete analogue lorsque cest la matrice F qui est partagee.
  
4.1.2 (A B) = A B
4.1.3 A (B + C) = A B + A C
4.1.4 (B + C) A = B A + C A
4.1.5 (A B) C = A (B C)
4.1.6 tr(A B) = (trA)(trB) si A et B sont carrees.
226 P. DESCHAMPS, COURS DECONOMETRIE

4.1.7 Si A est m m et B est n n:


det(A B) = (det A)n (det B)m
4.1.8 Si A et B sont regulieres:
(A B)1 = A1 B 1
4.1.9 Si les produits AC et BD sont denis:
(A B)(C D) = AC BD .

4.2 Loperateur de vectorisation et certaines de ses proprietes

Soit A une matrice m n dont les colonnes sont les vecteurs ai :

A = ( a1 a2 ... an )

on denit:
a1
a2
vec A =
...
an
Le vecteur vec A est donc mn 1.
Les proprietes les plus importantes de cet operateur sont les suivantes:
4.2.1 Si les matrices A, B, C sont conformes pour la multiplication, alors vec(ABC) =
(C  A) vec B;
4.2.2 Si les matrices A et B sont conformes pour la multiplication et si AB est carree, la
trace de (AB) est egale a (vec A ) vec B.
Pour une etude approfondie des operateurs et vec et dautres operations matricielles
avancees, on peut consulter Magnus et Neudecker, Matrix Dierential Calculus with Ap-
plications in Statistics and Econometrics, 1988.

4.3 Moindres carres generalises et forme reduite

Comme premier exemple dapplication des deux operateurs precedents, nous allons mon-
trer que dans le cas dune forme reduite, lemploi des moindres carres generalises est equi-
valent a lestimation par MCO de chaque equation individuelle.
Nous avons vu, a la section 1.4, que la forme reduite pouvait secrire:

Y = X + V.

Comme X = X Ig , lapplication de la regle 4.2.1 donne:

vec Y = (Ig X) vec  + vec V.


TROISIEME PARTIE, CHAPITRE IV 227

Cette equation peut aussi secrire comme:

Y = X + U

avec:
Y = vec Y
X = Ig X
U = vec V
= vec  .
On verie aisement que E(U) = Ong1 , et que la matrice de covariance E(UU  ) est egale a
= v In , ou v = B 1 (B  )1 est la matrice de covariance contemporaine des erreurs
de la forme reduite.
Mais v In nest pas diagonale. Nous avons un cas particulier du modele traite a
la section 8.2.3 de la seconde partie. Pourquoi, alors, peut-on estimer les equations de ce
modele par moindres carres ordinaires et non par moindres carres generalises? Ceci vient
du fait que les regresseurs soient les memes dans chaque equation (X = Ig X). Nous
allons verier, a laide des proprietes des deux sections precedentes, que la formule des
MCG se simplie:

vec  = = (X  1 X )1 X  1 Y

= [(Ig X) (v In )1 (Ig X)]1 [Ig X] (v In )1 Y

= [(Ig X) (1
v In )(Ig X)]
1
[Ig X] (1
v In )Y

= [1 
v (X X)]
1
[1 
v X ]Y

= [v (X  X)1 ][1 
v X ]Y

= [Ig (X  X)1 X  ]Y

(X  X)1 X 
O ... O y1
O (X X)1 X 

... O y2
=
.. .. .. .. .
.
. . . . .
O O ...  1 
(X X) X yg
228 P. DESCHAMPS, COURS DECONOMETRIE

4.4 Moindres carres triples

4.4.1 Presentation heuristique.



La methode des moindres carres doubles revient a estimer i dans lequation X yi =
 
(X Ti )i + X ui par moindres carres generalises. Si nous regroupons les g equations de ce
type, nous obtenons:
 
X y1 X T1 O ... O

1 X u1
 
X y2 O X T2 ... O
. .
.. + .
. = . .. .. .. . .
. .
. . . . .

Xug g
 
X yg O O ... X Tg
soit aussi:
Y = X + U
g
ou Y est gk 1, et X est gk i=1 (ki + gi 1).
En ce qui concerne les erreurs U, on a, sous lhypothese simplicatrice que X est non
stochastique, E(U) = 0, et:

 
E(UU ) = (X X)
  
11 (X X) 12 (X X) ... 1g (X X)
.. .. .. ..
= . . . . .
  
g1 (X X) g2 (X X) . . . gg (X X)

La methode des moindres carres triples senonce alors comme suit:


(1) On applique les moindres carres doubles a chaque equation individuelle. Ceci donne,
pour lequation i, un vecteur de residus ui = yi Ti i .

(2) Soit U = ( u1 . . . . . . ug ). La matrice est estimee par S = n1 U U.
(3) On applique enn la formule de Aitken au systeme precedent pour obtenir . Ceci
donne:
   
= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y .
Si lelement (i, j) de S 1 est note sij , on verie facilement que:
1 g 1j  
1 
s11 A11 ... s1g A1g j=1 s T1 X(X X) X yj

= ... ..
.
..
. ..
.
g   
sg1 Ag1 ... gg
s Agg gj
j=1 s Tg X(X X)
1
X yj
TROISIEME PARTIE, CHAPITRE IV 229

  
ou Aij = Ti X(X X)1 X Tj .

4.4.2 Justication par les variables instrumentales.

Denissons:
T1 O ... O
O T2 ... O
T =
... .. .. ..
. . .
O O ... Tg

y1
y2
z=
..

.
yg

1
2
=
...
g

u1
u2
u=
.. .
.
ug

Le systeme des g equations structurelles peut alors secrire:

z = T + u.

On verie aisement que la matrice X et le vecteur Y de la section 4.4.1 peuvent secrire:

X = (Ig X  )T

Y = (Ig X  )z

En substituant ces expressions dans:


   
= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y

on obtient apres simplication:

= [T  (S 1 PX )T ]1 T  (S 1 PX )z

avec PX = X(X  X)1 X  .


230 P. DESCHAMPS, COURS DECONOMETRIE

Nous avons donc bien un estimateur par variables instrumentales; les instruments for-
ment la matrice (S 1 PX )T .
Verions que ces instruments verient bien la propriete du lemme 13.6 de la seconde
partie. Le vecteur plim n1 Z  u prend ici la forme:

1
plim T  (S 1 PX )u
n
vecteur dont les sous-vecteurs prennent la forme:

1 ij 
plim s Ti X(X  X)1 X  uj =
n
j


1
ij 1  1  1 
plim s Ti X XX X uj =
n n n
j


1
ij 1  1  1
s plim Ti X plim X X plim X  uj = 0
n n n
j

en vertu de lhypothese H6 de la section 1.3.

4.4.3 Comparaison avec les moindres carres doubles.

Il est facile de verier que si lon applique les moindres carres doubles a chaque equation
du systeme, on obtient lestimateur:

0 = [T  (Ig PX )T ]1 T  (Ig PX )z

Donc, dans ce cas, les instruments forment la matrice (Ig PX )T , au lieu de (S 1


PX )T dans le cas des moindres carres triples. Si 1 nest pas diagonale, les moindres
carres triples utilisent plus dinformation que les moindres carres doubles, et sont donc
potentiellement plus ecaces.
Trois remarques peuvent etre faites:
(1) Si lon impose la contrainte ij = 0 , i = j , S et S 1 sont diagonales. est alors
identique a lestimateur obtenu en appliquant les moindres carres doubles a chaque
equation du systeme: il ny a aucun gain decacite.
(2) Si chaque equation du systeme est juste-identiee, est identique a lestimateur
obtenu en appliquant les moindres carres indirects a chaque equation. On obtiendra
aussi des resultats identiques en appliquant les moindres carres doubles a chaque
equation. Il ny a donc gain decacite que lorsque lune, au moins, des equations
est suridentiee.
(3) Enn, si le systeme ne comprend quune seule equation de comportement, les
moindres carres triples sont bien entendu equivalents aux moindres carres doubles.
TROISIEME PARTIE, CHAPITRE IV 231

4.4.4 Distribution asymptotique.

Lestimateur par moindres carres triples, nous lavons montre, est un estimateur par
variables instrumentales. Il est donc convergent, asymptotiquement sans biais, et asympto-
tiquement normal. A lencontre de lestimateur par moindres carres doubles, il est de plus
asymptotiquement ecace.

Theoreme. Soit lestimateur de par moindres carres triples, et soit 0 lestimateur


de obtenu en appliquant les moindres carres doubles a chaque equation.
Sous les hypothese dun theoreme central limite:
(1) plim =

(2) dlim n( ) N (0, Q) ou:

Q = plim n[T  (1 PX )T ]1

(3) plim S 1 = 1 , ou S a ete precedemment definie.



(4) Si Q0 est la matrice de covariance asymptotique de n( 0 ), alors:
Q0 = Q + B, ou B est definie non negative.

Nous allons justier ce theoreme au moyen dun argument par analogie. A la section
13.3.3 de la seconde partie, nous avions trouve la matrice de covariance asymptotique:

V = plim n 2 (Z  X)1 Z  Z(X  Z)1 .

Cette matrice peut aussi secrire:

V = plim n(Z  X)1 V (Z  u | Z)(X  Z)1 .

Dans le cas qui nous occupe, Z doit etre remplace par (1 PX )T , et X doit etre
remplace par T . De plus, nous avons E(uu | Z) = In au lieu de E(uu | Z) = 2 I.
Par consequent, V (Z  u | Z) devient:

E[T  (1 PX )uu (1 PX )T ) | Z] = T  (1 PX )( I)(1 PX )T


= T  (1 PX )T

En faisant ces remplacements dans lexpression de V et en simpliant, on obtient:

Q = plim n[T  (1 PX )T ]1

qui est identique a la matrice de covariance de lenonce.


232 P. DESCHAMPS, COURS DECONOMETRIE

4.4.5 Exemple numerique.

Appliquons la methode precedente au modele de la section 3.2. Il nous faut dabord


calculer

11 12
S=
12 22
La variance 11 a ete calculee a la section 3.3.6 (11 = 5.4575). On obtient de meme:


100


80
1
22 = 279 2 ( 0.5 0.75 0.5 0)
100
60

40

361 10 80 80 0.5


10 100 0 0 0.75 

+ ( 0.5 0.75 0.5 0 ) = 2.03

80 0 40 0 0.5

80 0 0 80 0

279

1
12 = 100 ( 1.45 1.06 0.27 ) 80
100
10

361


10

( 0.5 0.75 0.5 0 )

80

80

0.5

100 80 60 40

0.75

+ ( 1.45 1.06 0.27 ) 10 100 0 0 = 3.3018.

0.5

20 0 0 0
0
TROISIEME PARTIE, CHAPITRE IV 233

Les blocs:
           
T1 X(X X)1 X T1 , T2 X(X X)1 X T2 , T1 X(X X)1 X y1 T2 X(X X)1 X y2

ont egalement ete calcules a la section 3.3.6. Il reste a trouver:


        
T2 X(X X)1 X T1 , T1 X(X X)1 X y2 , T2 X(X X)1 X y1 .

Nous avons:



80 10 60 40
 Y1 X 100 0
T1 X =  = 0 0
X1 X
0 20 0 0



10 20 80 80

 Y2 X 100 0 0 0
T2 X =  =
X2 X 0 0 40 0
0 0 0 80


10 80
 20  10
X y1 = X y2 =
80 60
80 40

Il est facile alors de verier que:


178 10 20
   80 100 0
T2 X(X X)1 X T1 =
60 0 0
40 0 0


261
   10
T2 X(X X)1 X y1 =
80
80


  
179
T1 X(X X)1 X y2 = 80
10
234 P. DESCHAMPS, COURS DECONOMETRIE

Les equations normales des moindres carres triples secrivent alors:


a1
179 80 10 178 80 60 40


a
11.484 80 100 0 18.679 10 100 0 0 0


a
10 0 20 20 0 0 0 2

178 10 20 261 10 80 80
b1 =


80 100 0 10 100 0 0
b0
18.679 30.875

60 0 0 80 0 40 0
b2

40 0 0 80 0 0 80
b3

178 179


11.484 10 + 18.679 80



20 10

261 178



10 80

18.679 + 30.875

80 60

80 40
La solution de ce systeme, conduit au vecteur de parametres suivant:

1.4545


1.0636



0.2727



= 0.5



0.75



0.39

0.165
et a la matrice de covariance asymptotique estimee:
TROISIEME PARTIE, CHAPITRE IV 235


0.0496 0.0397 0.0248 0 0 0.045 0.015


0.0397 0.0863 0.0198 0 0.033 0.036 0.012



0.0248 0.0198 0.2853 0.1651 0.0165 0.3527 0.1726



0 0 0.1651 0.1015 0.0101 0.203 0.1015



0 0.033 0.0165 0.0101 0.0213 0.0203 0.0101



0.045 0.036 0.3527 0.203 0.0203 0.4477 0.2166

0.015 0.012 0.1726 0.1015 0.0101 0.2166 0.1064

4.5 Maximum de vraisemblance a information complete

Cette methode est la premiere en date de toutes celles que nous avons vues. Cest
aussi la plus couteuse a appliquer, et, pour cette raison, la moins employee. Son interet
theorique est neanmoins tres grand: en vertu des proprietes des estimateurs par maximum
de vraisemblance, les estimateurs obtenus sont convergents, asymptotiquement sans biais,
et asymptotiquement ecaces. En fait, en vertu dun theoreme dequivalence asymptotique,
nous pourrons justier rigoureusement lemploi de la methode des moindres carres triples
par le biais du maximum de vraisemblance.

4.5.1 La vraisemblance logarithmique.

La forme structurelle secrit:


 
Y B + X = U
 
et la t-ieme ligne ut de U est un vecteur aleatoire satisfaisant ut N (0, ). Les autres
hypotheses de ce chapitre restent inchangees.
La densite jointe de lun des vecteurs ut secrit:

g/2 1/2 1 
fu (ut ) = (2) (det ) exp ut 1 ut
2

Les yt et les ut sont lies par la relation Byt + xt = ut . Donc la matrice jacobienne
ut 

yt = B , et en vertu du theoreme de la section 2.2 de la premiere partie, nous pouvons


ecrire la densite de yt conditionnelle a xt comme:

ft (yt ) = fu (Byt + xt ) | det B | = fu (Byt + xt ) | det B | .
236 P. DESCHAMPS, COURS DECONOMETRIE

Par consequent, la densite des variables endogenes conditionnelle aux variables exogenes
secrit comme:

n

fY (y1 , . . . , yn ) = ft (yt ) =
t=1
 n

ng/2 n/2 1 
(2) (det ) | det B |n exp (Byt + xt ) 1 (Byt + xt )
2 t=1

ou, puisque:
n
  
ut 1 ut = tr U 1 U = tr 1 U U :
t=1

fY (y1 , . . . , yn ) =
    
ng/2 n/2 n 1 1    
(2) (det ) | det B | exp tr Y B + X Y B + X .
2

Pour obtenir la vraisemblance logarithmique, on prend le logarithme de cette expression


consideree comme fonction de B, , et :

log L(B, , ) =
n 1   
   

1
k log (det ) + n log (| det B |) tr Y B + X Y B + X
2 2
ou encore:
n 
log L = k + log det 1 + n log (| det B |)
2
1   1   1   1  
tr 1 BY Y B tr 1 X Y B tr 1 BY X tr 1 X X .
2 2 2 2

4.5.2 Les conditions de premier ordre.

Pour trouver les derivees, nous notons que:


1   1      
tr 1 X Y B + tr 1 BY X = tr BY X 1 = tr X Y B 1 .
2 2

et nous utilisons les formules suivantes (voir Magnus et Neudecker, Matrix Dierential
Calculus with Applications in Statistics and Econometrics, 1988):
TROISIEME PARTIE, CHAPITRE IV 237

log (| det A |)   1
= A
A


tr AC = C
A


tr DACA = 2DAC si D et C sont symetriques.
A

Par consequent:

log L n 1  
   

= Y B + X Y B + X = O
1 2 2

log L  
1  
= n B 1 BY Y 1 X Y = O
B

log L  
= 1 BY X 1 X X = O .

On peut ecrire ces expressions de maniere plus condensee comme:

1 
= U U
n

 
1 1 1 
B = U Y
n


1 U X = O

 
avec U = Y B + X .

Ce systeme est non lineaire, et doit etre resolu par des methodes numeriques. Pour quil
ait une solution unique, on doit lui ajouter les restrictions didentication. Il faut noter
que la formule de est precisement celle que nous avons employee en moindres carres

triples. Dautre part, la troisieme equation est impliquee par U X = O, equation que nous
pouvons mettre en parallele avec les equations normales du modele de regression classique,

qui peuvent secrire X u = 0.
238 P. DESCHAMPS, COURS DECONOMETRIE

CHAPITRE V.

ANALYSE STATISTIQUE DE LA FORME


REDUITE (REGRESSION MULTIVARIEE)

5.1 Estimation par maximum de vraisemblance

Il est facile, a partir des resultats de la section 4.5, de trouver les estimateurs par
maximum de vraisemblance des parametres de la forme reduite. En eet, la forme reduite
est un cas particulier de la forme structurelle lorsque lon impose B = Ig , et quil ny a
pas de restrictions a priori sur la matrice .
Les conditions de premier ordre de la section 4.5.2 secrivent alors:

1 U  X = Ogk
1 
= U U
n
Il est facile de verier que les estimateurs:

= = Y  X(X  X)1

1 
= (Y [I X(X  X)1 X  ]Y )
n
satisfont bien a ces conditions.
En eet, si nous denissons M = [I X(X  X)1 X  ], nous avons, en utilisant les esti-
mateurs de B et de , la matrice de residus suivante:

U = Y Ig + X  = Y X(X  X)1 X  Y = MY.

La matrice M est symetrique et idempotente, et verie M  X = O. Il sensuit donc que


U  X = O et que U  U = Y  MY , ce qui implique bien les conditions de premier ordre.

Nous allons maintenant estimer les variances des coecients de regression de la forme
reduite. Nous pouvons ecrire:

 = (X  X)1 X  Y = (X  X)1 X  (X + V ) =  + (X  X)1 X  V.


TROISIEME PARTIE, CHAPITRE V 239

Par consequent:

vec(  ) = vec[(X  X)1 X  V ] = [Ig (X  X)1 X  ] vec V.

Si nous supposons, pour simplier largument, que X est non stochastique, la matrice
de covariance de vec  secrit:

E{(vec[  ])(vec[  ]) } = [Ig (X  X)1 X  ]E(vec V vec V )[Ig X(X  X)1 ]
= [Ig (X  X)1 X  ][ In ][Ig X(X  X)1 ]
= [ (X  X)1 (X  X)(X  X)1 ]
= [ (X  X)1 ]

et lon peut donc estimer la matrice de covariance par:

V (vec  ) = (X  X)1 .

Si X est stochastique, on peut utiliser la meme regle destimation mais son interpretation
est asymptotique. La justication utilise les memes arguments quaux chapitres XIII et XIV
de la seconde partie.

Exercice: Soit la forme reduite suivante, ou lon a 2 equations et 3 variables predetermi-


nees:

y1t = 11 + 12 x1t + 13 x2t + v1t


y2t = 21 + 22 x1t + 23 x2t + v2t .

Formulez la statistique de Wald pour le test de H0 : 13 = 22 contre H1 : 13 = 22 .

Note:
Pour le calcul du rapport des vraisemblances, nous devrons, a la section suivante, diviser
par det . Il est donc interessant de connatre des conditions necessaires pour la regularite
de .
On a vu que = Y  MY /n avec M = I X(X  X)1 X  . est dordre g et M est
de rang n k. Donc si n k < g, est singuliere. Le nombre dobservations doit etre
superieur a la somme du nombre de regresseurs par equation et du nombre dequations.
240 P. DESCHAMPS, COURS DECONOMETRIE

5.2 Tests dhypotheses sur les coecients par le rapport des vraisemblances

Comme a la section precedente, nous pouvons formuler la vraisemblance de la forme


reduite comme un cas particulier de celle de la forme structurelle; cette derniere vraisem-
blance a ete vue a la section 4.5. Si nous posons  =  , B = I, et U = V , nous
obtenons:
1
L(, ) = (2)ng/2 (det )n/2 exp[ tr1 (Y X ) (Y X )].
2

Si nous denissons V = Y X  , la vraisemblance maximisee secrit:

1
L(, ) = (2)ng/2 (det )n/2 exp[ tr1 V  V ].
2

On peut simplier cette expression en notant que V  V = n, et que donc:

tr1 V  V = tr1 (n) = ng.


Par consequent:
 ng 
L(, ) = (2)ng/2 (det )n/2 exp .
2
Considerons alors la partition suivante des colonnes de :

= ( )

et le test de lhypothese:

H0 : = 0 contre H1 : = 0 .

Un exemple de ce test est celui ou 0 = O: dans ce cas, on teste lomission des premieres
variables explicatives de la forme reduite. Si nous designons par 0 et 0 les estimations
contraintes de et de , le rapport des vraisemblances peut secrire:

L(0 , 0 )
=
L(, )

(2)ng/2 (det 0 )n/2 exp ng
= 2
(2)ng/2 (det )n/2 exp ng
2
 n/2
det 0
= .
det
TROISIEME PARTIE, CHAPITRE V 241

Nous obtenons donc une generalisation de lexpression demontree a la section 7.2 de la


seconde partie: au lieu davoir des variances estimees, on a des determinants de matrices
de covariances (qui portent aussi le nom de variances generalisees).
En vertu du theoreme de la section 10.12 de la seconde partie, la distribution limite sous
H0 de 2 log est une 2(p), ou p est le nombre delements de . Mais dans ce cas-ci, on
na pas, en general, une transformation monotone de ayant une distribution F sous H0
en petit echantillon. La situation est donc dierente de celle que nous avons rencontree au
chapitre VII de la seconde partie.
On a constate, notamment a laide detudes de simulation, que lemploi des valeurs
critiques asymptotiques (celles de la 2 ) conduit, en petit echantillon, a un rejet trop
frequent de lhypothese nulle, meme si celle-ci est vraie. Ceci signie que les valeurs critiques
exactes de 2 log sont superieures a celles de la 2 si n est faible.
Anderson (An Introduction to Multivariate Statistical Analysis, 1984) propose la correc-
tion suivante, qui nest basee sur une argumentation theorique rigoureuse que lorsque X est
non stochastique. Mais des etudes de simulation ont montre que cette correction donnait
de bons resultats en general, meme lorsque le modele comporte des variables endogenes
retardees. Au lieu de 2 log , on utilise (2 log ), ou le facteur de correction est deni
comme:
n q2 12 (g + q1 + 1)
=
n
ou q1 est le nombre de colonnes de et ou q2 = k q1 . On compare cette statistique
a la valeur critique dune 2 ayant p = gq1 degres de liberte. Si X est non stochastique,
lerreur dapproximation est dordre n2 .
Il est possible de montrer que cette correction est analogue a celle qui consiste a utiliser,
dans la denition de la statistique t, lestimateur sans biais de la variance des erreurs au
lieu de lestimateur par maximum de vraisemblance.

5.3 Forme reduite derivee

Si, au lieu destimer par = Y  X(X  X)1 , on utilise:

= B 1

ou B et ont ete calculees par lune des methodes destimation de la forme structurelle
(MCD, MCT, MVIL, ou MVIC), on parle de forme reduite derivee. Si chaque equation est
juste-identiee, = ; mais si tel nest pas le cas, est potentiellement plus ecace que
car il tient compte de plus de restrictions.
Les methodes destimation de la forme structurelle permettent destimer les variances
asymptotiques des elements de B et , mais est une fonction non lineaire de ces ma-
trices. Dans cette section, nous allons donc enoncer un theoreme permettant destimer les
variances des elements de . Des versions de ce theoreme sont enoncees dans Monfort,
Cours de Probabilite, p. 166 et dans Hamilton, Time Series Analysis, p. 186. Il peut bien
242 P. DESCHAMPS, COURS DECONOMETRIE

sur aussi servir dans dautres contextes, chaque fois que lon veut faire un test dhypotheses
sur une fonction non lineaire de parametres; une application courante est le test des res-
trictions de facteurs communs, que nous avons rencontrees au chapitre XV de la seconde
partie.

Theoreme. Soit un vecteur de parametres inconnus et soit son estimateur.


Supposons que:
(1)

dlim n( 0 ) N (0, )
(2) La fonction g() Rm ait toutes ses derivees partielles continues
(3) La matrice jacobienne:
g1 g1
1 ... k
..
g = ... ..
. . soit de rang m
gm gm
1 ... k =0

alors:
dlim n(g() g(0 )) N (0, (g)(g) )

Comme exemple, nous allons estimer la variance asymptotique de lun des coecients
de la forme reduite du modele de Haavelmo. Nous avons vu a la section 1.6 que la premiere
equation de cette forme reduite pouvait secrire comme Ct = 11 + 12 It + v1t , avec
11 = a/(1 b). Supposons que a et b aient ete estimes par a et b, et que leurs variances
et leur covariance asymptotiques aient ete estimees par a2 , b2 , et ab . Lapplication du
theoreme precedent a 11 = a/(1 b) donne alors:

1 a2 a
V (11 ) = a2 + b2 + 2 ab .
(1 b)2 (1 b)4 (1 b)3

Exercice. Reprenez lexemple de la section 15.2 de la seconde partie, portant sur les
restrictions de facteurs communs. Comment testeriez-vous lhypothese H0 : 11 +1 01 = 0
contre H1 : 11 + 1 01 = 0?
TROISIEME PARTIE, CHAPITRE VI 243

CHAPITRE VI.

COMPARAISON DES MOINDRES CARRES TRIPLES ET DU


MAXIMUM DE VRAISEMBLANCE A INFORMATION COMPLETE

Nous allons montrer dans ce chapitre que les estimateurs MCT et MVIC ont la meme
distribution limite normale, et sont par consequent asymptotiquement equivalents. Lesti-
mateur MCT herite donc des proprietes decacite asymptotique de la methode du maxi-
mum de vraisemblance.
En fait, comme nous le verrons, lestimateur MVIC peut etre considere comme un
estimateur par variables instrumentales, mais ces variables sont construites a laide de la
forme reduite derivee au lieu de letre par la forme reduite directe.
Les developpements de ce chapitre sont dus a Hausman (An instrumental variable ap-
proach to full information estimators for linear and certain nonlinear econometric models,
Econometrica 43, 1975, pp. 727738).

6.1 Reformulation des equations normales des moindres carres triples

Nous avons vu, a la section 4.4.2, que si lon reunissait les n observations sur les g
equations de la forme structurelle, on pouvait ecrire, en tenant compte des restrictions de
normalisation et dexclusion:

z =T+u
ou T etait une matrice diagonale par blocs, avec des blocs diagonaux donnes par les
matrices Ti = ( Yi Xi ) denies a la section 3.3.1.
Lestimateur MCT pouvait secrire comme:

= (Z  T )1 Z  z
avec Z = (S 1 PX )T . PX etait egale a X(X  X)1 X  et S etait lestimateur de obtenu
en appliquant les moindres carres doubles a chaque equation separement.
La matrice Z peut etre obtenue en supprimant de la matrice suivante:

Z = (S 1 PX )[Ig ( Y X )]
1
=S PX ( Y X)

les colonnes qui correspondent aux restrictions dexclusion et de normalisation.


244 P. DESCHAMPS, COURS DECONOMETRIE

Considerons alors le systeme suivant:

(1) (Z T ) = Z z.

On peut ecrire ce systeme sous la forme:

(2) W  U S 1 = O(k+g)g

ou:
W = PX ( Y X)
et ou:
vec U = z T .
En eet, legalite (2) implique:

vec(W  U S 1 ) = (S 1 W  ) vec U = 0

ce qui est bien equivalent a legalite (1), en vertu de la denition de Z .


On peut obtenir lestimateur MCT en supprimant, dans le systeme (1), les equations
qui correspondent aux restrictions de normalisation et dexclusion (puisque les equations
de ce systeme correspondent a des colonnes de Z ). De meme, on peut obtenir lestimateur
MCT en selectionnant, dans legalite matricielle

(2), les elements qui correspondent aux
B
elements non contraints de la matrice .


6.2 Reformulation des conditions de premier ordre du


maximum de vraisemblance a information complete

La contribution fondamentale de Hausman a ete de noter que les conditions de premier


ordre du maximum de vraisemblance, que nous avons vues a la section 4.5.2, pouvaient
secrire sous une forme analogue a lequation (2) de la section precedente, a savoir:

W  U 1 = O(k+g)g
ce qui permet la comparaison des deux methodes destimation. Nous allons demontrer ce
resultat.
Tout dabord, la condition de premier ordre sur peut secrire:

(a) nIg = U  U 1 .

Ensuite, la condition de premier ordre sur B peut secrire:

(b) B 1 (nIg ) = Y  U 1 .
TROISIEME PARTIE, CHAPITRE VI 245

En combinant (a) et (b), il vient:

B 1 U  U 1 Y  U 1 = O
ce qui implique, puisque U  = BY  + X  :

B 1 (BY  + X  )U 1 Y  U 1 = O

soit aussi, en developpant:

B 1 BY  U 1 + B 1 X  U 1 Y  U 1 = O

et en simpliant:

(c) B 1 X  U 1 = O.

Enn, la condition de premier ordre sur implique:

(d) X  U 1 = O.

En regroupant (c) et (d) et en changeant de signe, il vient:


B 1 X 
U 1 = O
X

ce qui montre que lon a bien W  U 1 = O, avec:

W = ( X(B 1 ) X)

6.3 Comparaison des deux nouvelles formulations

La comparaison avec les MCT est alors immediate, si lon note que la matrice W de la
section 6.1 pouvait secrire comme:

W = PX ( Y X ) = ( PX Y X ) = ( X  X)

avec  = (X  X)1 X  Y , tandis que la matrice W de la section 6.2 peut secrire:

W = ( X  X)

avec = B 1 . Pour former les instruments, les MCT utilisent la forme reduite directe,
tandis que le MVIC utilise la forme reduite derivee.
246 P. DESCHAMPS, COURS DECONOMETRIE

En dautres termes, les MCT utilisent les instruments:



PX T1 O ... O
O PX T2 ... O
(S 1 In )
.. .. .. ..

. . . .
O O ... PX Tg

avec PX Ti = ( X i Xi ); tandis que le MVIC utilise les instruments:



T1 O ... O
O T2 ... O
(1 In )
.. .. .. ..

. . . .
O O ... Tg

avec Ti = ( X i Xi ).

6.4 Consequences

On peut deduire facilement de ce qui precede lequivalence asymptotique des MCT et


des MVIC. En eet, comme les estimateurs sont convergents:

plim i = plim i = i

plim S = plim =
et les matrices de covariance asymptotiques sont donc les memes en vertu du theoreme de
Slutsky.
Or, sous lhypothese dun theoreme central limite, les distributions limites des estima-
teurs MCT et MVIC sont normales multivariees. Elles sont donc entierement caracterisees
par leurs esperances et leurs matrices de covariance.
Donc les distributions limites sont les memes; ceci constitue la meilleure justication
theorique possible de la methode des MCT, qui est plus facile a mettre en oeuvre que celle
du MVIC.
TROISIEME PARTIE, CHAPITRE VII 247

CHAPITRE VII.

METHODES NUMERIQUES DE
MAXIMISATION DE LA VRAISEMBLANCE

Pour une excellente presentation de ces methodes, le lecteur pourra consulter larticle
de synthese de R. Quandt, Computational problems and methods, dans: Handbook of
Econometrics vol. I (1983), edite par Griliches et Intriligator, pp. 699764. Nous nous
bornerons ici a parler des methodes les plus courantes.

7.1 Methode de Newton-Raphson

Lidee de base de cette methode est de denir une suite dapproximations quadratiques
de la vraisemblance. En maximisant successivement chacune de ces approximations, on
espere converger vers un maximum de la vraisemblance. Lapproximation quadratique a
literation k se fait autour du maximum de lapproximation utilisee a literation k 1.
Soit donc un vecteur k 1 de parametres a estimer et soit 0 une valeur de . Soit
L() = log L() la vraisemblance logarithmique. Nous ecrivons le gradient de L comme:
L
g() =

et la matrice Hessienne de L comme:
2L
H() =

.
Une approximation quadratique de L() autour de 0 est donnee par:
1
L0 () = L(0 ) + g  (0 )( 0 ) + ( 0 ) H(0 )( 0 )
2
En vertu des regles de la section 3.4 de la seconde partie, les conditions de premier ordre
pour la maximisation de cette approximation sont donnees par:
L
= g(0 ) + H(0 )( 0 ) = 0

ce qui implique:
= 0 H 1 (0 )g(0 ).
La methode de Newton-Raphson est une application recurrente de cette regle, a savoir:
k+1 = k H 1 (k )g(k )
248 P. DESCHAMPS, COURS DECONOMETRIE

7.2 Methodes quasi-Newton

La methode precedente a plusieurs limitations. La matrice Hessienne H(k ) peut ne


pas etre denie negative pour certaines valeurs des parametres. Elle est souvent dicile a
calculer. Enn, la regle de la n de la section precedente implique souvent un deplacement
trop important, surtout lorsque lon est proche du maximum.
Pour ces raisons, il est utile de generaliser cette regle. Si lon denit Ak comme une
approximation de H 1 (k ), gk comme g(k ), est dk comme Ak gk , une telle generalisation
est la suivante:
k+1 = k + k dk
ou k est un scalaire positif qui maximise la fonction dune seule variable suivante:

F (k ) = L(k + k dk )

Le vecteur dk denit donc la direction dans laquelle on se deplace et k est lamplitude


du deplacement dans la direction dk .
On peut noter que gk dk est la derivee de L(k + k dk ) par rapport a k . Comme
gk dk = gk Ak gk , cette derivee sera positive si Ak est denie negative. Si Ak est linverse


de la Hessienne et si L est concave, un accroissement marginal de k aura donc pour eet


daugmenter la vraisemblance.
De nombreuses methodes empiriques ont ete proposees pour choisir Ak . Dans les sections
suivantes, nous passerons en revue celle du score et celle de Davidon-Fletcher-Powell, qui
sont parmi les plus employees.

7.3 Methode du score

On remplace ici la matrice Hessienne par son esperance, et denit donc:



1
2L
Ak = E .
 =k

Ak est donc lopposee de linverse de la matrice dinformation, que nous avions denie
a la section 10.10 de la seconde partie comme:

2L L L
R() = E =E
 
TROISIEME PARTIE, CHAPITRE VII 249

Les avantages de cette methode sont les suivants:


(1) La matrice dinformation est dordinaire dexpression plus simple que la Hessienne;
(2) Une matrice dinformation reguliere est denie positive, meme si la vraisemblance
nest pas localement concave; Ak est alors denie negative, ce qui est necessaire
pour la convergence de lalgorithme comme nous lavons vu;
(3) Au point stationnaire, la Hessienne de L est en general egale a R() (voir la
derivation de R() dans le modele de regression multiple, vue a la section 10.10
de la seconde partie); lorsque lon sapproche de loptimum, la methode du score
devient donc pratiquement equivalente a celle de Newton-Raphson;
(4) A la convergence de lalgorithme, la matrice Ak est une estimation de la matrice
de covariance asymptotique de (voir la section 10.11 de la seconde partie).

7.4 Methode de Davidon, Fletcher, Powell

On utilise ici la regle de recurrence suivante:

(k )(k ) 1
Ak+1 = Ak + [Ak (gk )(gk ) Ak ]
(k ) (gk ) (gk ) Ak (gk )
avec la condition initiale A0 = I et ou gk est le gradient de L evalue a literation
precedente.
On demontre que sous certaines conditions, la suite de matrices denie par cette regle
converge vers linverse de la Hessienne de L.
Cette methode ne necessite que le calcul des derivees premieres de L, et est donc
commode lorsque la matrice dinformation est dicile a calculer.

7.5 Choix de lamplitude du deplacement

On peut calculer k par balayage, mais la procedure est couteuse. Une solution plus
operationnelle est la suivante:
(1) On choisit un nombre  ]0, 12 [.
(2) On choisit k > 0 tel que:

L(k + k dk ) L(k )
 1 .
k gk dk

En dautres termes, on choisit une solution approchee de lequation:

L(k + k dk ) L(k ) 1
f(k ) = = .
k gk dk 2
250 P. DESCHAMPS, COURS DECONOMETRIE

Cette solution existe toujours, pour autant que gk dk soit strictement positif et que L
soit bornee superieurement. Il est en eet facile de montrer que:

lim f(k ) 0
k

et, a laide de la regle de LHopital, que:

lim f(k ) = 1.
k 0

La procedure que nous venons de decrire a deux avantages:


(1) Linegalite de gauche, qui implique f(k ) > 0, garantit un accroissement de L a
chaque iteration, car k gk dk > 0;
(2) Linegalite de droite, qui implique f(k ) < 1, empeche k de tendre vers 0, ce qui
impliquerait k+1 = k .