Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Edition 2006-2007
Universit de Fribourg
Sminaire d'Economtrie
Boulevard de Prolles 90
CH-1700 Fribourg, Suisse
Premire partie: Quelques notions de base du calcul des probabilits et de lanalyse statistique.
I. Vecteurs alatoires
V. Tests dhypothses
8.1. Introduction
8.2. Exemples
8.3. Lestimateur de Aitken et ses proprits
8.4. La prvision dans le modle de Aitken
10.1. Introduction
10.2. Convergence en probabilit
10.3. Ingalit de Chebychev
10.4. Loi faible des grands nombres
10.5. Convergence en distribution
10.6. Proprits des modes de convergence
10.7. Fonction caractristique et convergence en distribution
10.8. Versions du thorme central limite
10.9. Lingalit de Rao-Cramer
10.10. La matrice dinformation
10.11. Proprits asymptotiques des estimateurs par maximum de la vraisemblance
10.12. Distribution asymptotique du rapport des vraisemblances
10.13. Exemple dapplication dans un modle erreurs autorgressives: distributions limites
des estimateurs par maximum de la vraisemblance et de la statistique
dautocorrlation par le rapport des vraisemblances
XI. Proprits asymptotiques des estimateurs par moindres carrs ordinaires
I. Introduction
3.1. Introduction
3.2. Moindres carrs indirects
3.2.1. Prsentation de la mthode
3.2.2. Limitations
3.3. Moindres carrs doubles
3.3.1. Notation
3.3.2. Premier exemple dapplication
3.3.3. Prsentation heuristique gnrale
3.3.4. Justification par les variables instrumentales
3.3.5. Distribution asymptotique
3.3.6. Exemple numrique
3.4. Lestimateur de classe k
Ce cours deconometrie de second cycle est enseigne depuis 1981 aux etudiants de troi-
sieme et de quatrieme annee de licence en Sciences Economiques a lUniversite de Fribourg
(Suisse), et, depuis 1996, aux etudiants du diplome de Mathematiques appliquees a la
Finance de lUniversite de Neuchatel (dans le cadre des accords BENEFRI).
Les notes de ce cours peuvent etre imprimees et peuvent etre utilisees, en tout ou en
partie, comme support dun cours de niveau equivalent, a condition:
(1) den avertir lauteur a ladresse suivante:
philippe.deschamps@unifr.ch;
(2) den mentionner clairement lorigine.
Elles ne peuvent pas etre publiees sur un site dierent de leur site dorigine:
http://mypage.bluewin.ch/Philippe Deschamps.
Ces notes ont ete composees a laide des logiciels AMS TEX, PICTEX, et TABLE. Lau-
teur remercie Madame Edith Beck-Walser, qui a mene a bien, avec beaucoup de devoue-
ment, la saisie informatique dune version preliminaire du texte. Il remercie egalement
Monsieur Roberto Cerratti pour ses commentaires constructifs, Mademoiselle
Reanne Meyer pour la composition des formules des chapitres XV et XVI de la seconde
partie, et Mademoiselle Brigitte Sermier pour son assistance ecace lors de la correction
des epreuves.
Typeset by AMS-TEX
1
2 P. DESCHAMPS, COURS DECONOMETRIE
CONNAISSANCES PREREQUISES
Variance et proprietes
PREMIERE PARTIE
CHAPITRE I
VECTEURS ALEATOIRES
Denition
{ | Xi () xi , i = 1, . . . , k}
est un evenement dont on peut calculer la probabilite, la fonction X () est dite mesurable
et X porte le nom de vecteur aleatoire. Il est discret si X () prend ses valeurs dans un
ensemble denombrable, continu sinon.
Cas discret:
Cas continu: la fonction de densite est la fonction dont lintegrale donne la fonction
de distribution. Formellement, fX = fX1 ,...,Xk est la densite jointe du vecteur X =
(X1 , . . . , Xk ) si:
xk x1
FX (x1 , . . . , xk ) = ... fX (u1 , . . . , uk ) du1 . . . duk .
Note
Dans tout ce qui suit, nous supposerons pour alleger la notation que k = 2. La genera-
lisation a k > 2 est facile et les denitions pertinentes se trouvent dans la litterature. On
etudiera donc un vecteur (X, Y ).
Exemples
Cas discret: Le tableau suivant donne les valeurs de deux variables X et Y et les
probabilites que le couple (X, Y ) prenne la valeur (x, y):
X
0 1 2
0 0,20 0,20 0,10 0,5
Y
1 0,40 0,05 0,05 0,5
0,60 0,25 0,15
On obtient:
fX,Y (0, 0) = 0, 2 ; fX,Y (0, 1) = 0, 4 ; etc.
FX,Y (1, 0) = 0, 4 ; FX,Y (1, 1) = 0, 85 ; etc.
Cas continu:
1 x2 y2
fX,Y (x, y) = exp 2 2
21 2 21 22
En integrant cette densite sur [a, b] [c, d], on obtient P [(a X b) (c Y d)] .
PREMIERE PARTIE, CHAPITRE I 5
Cas discret:
fX (xi ) = fX,Y (xi , yj )
j
fY (yj ) = fX,Y (xi , yj )
i
Cas continu:
+
fX (x) = fX,Y (x, y) dy
+
fY (y) = fX,Y (x, y) dx
Exemple
Pour les densites jointes donnees precedemment a la section 1.2:
+ 2
1 x2 1 y
= exp 2 exp dy
1 2 21 2 2 222
=1
1 x2
= exp 2
1 2 21
1 y2
fY (y) = exp 2 .
2 2 22
6 P. DESCHAMPS, COURS DECONOMETRIE
fX,Y (xi , yj )
fX|Y (xi | yj ) =
fY (yj )
Cas continu:
fX,Y (x, y)
fX|Y (x | y) = si fY (y) = 0 .
fY (y)
Note: cette fonction depend dune realisation particuliere de Y . Cette fonction est donc
aleatoire car Y est aleatoire (on peut dire aussi quelle depend dun parametre aleatoire).
Exemple pour les densites jointes donnees precedemment (section 1.2):
(a) Cas discret:
fX|Y (0 | 0) = 0, 4
fX|Y (1 | 0) = 0, 4
fX|Y (2 | 0) = 0, 2
Les valeurs de fX|Y (x | 1) sont celles dune autre densite.
(b) Dans le cas continu, on avait fX,Y (x, y) = fX (x)fY (y). Donc fX|Y (x | y) =
fX (x)
1.5 Independance
Dans lexemple precedent (section 1.2, cas discret), X et Y ne sont pas independantes,
car:
1.6 Covariance
Denition
Exercice
X
1 0 +1
1 1
16
3
16
1
16
5
16
3 3 6
Y 0 16 0 16 16
1 3 1 5
+1 16 16 16 16
5 6 5
16 16 16
6 6
fX,Y (0, 0) = 0 = fX (0)fY (0) = .
16 16
8 P. DESCHAMPS, COURS DECONOMETRIE
1 3 1 3
E(XY ) = 1 +0 1 +0 +00
16 16 16 16
3 1 3 1
+0 1 +0 +1 =0
16 16 16 16
5 5
E(X) = +0+ =0
16 16
5 5
E(Y ) = +0+ =0
16 16
= Cov(X, Y ) = E(XY ) E(X)E(Y ) = 0 .
E (X | Y = 0) = 0, 4 0 + 0, 4 1 + 0, 2 2 = 0, 8
E (X | Y = 1) = 0, 8 0 + 0, 1 1 + 0, 1 2 = 0, 3 .
E(X) = EY [E (X | Y )] .
Cette propriete porte le nom de loi des esperances iterees (Law of Iterated Expecta-
tions). Elle est analogue au theoreme de la probabilite totale: une esperance incondition-
nelle, tout comme une probabilite inconditionnelle, peut etre evaluee a laide dun arbre.
PREMIERE PARTIE, CHAPITRE I 9
On a vu que E (X | Y = 0) = 0, 8 et E (X | Y = 1) = 0, 3.
EY [E (X | Y )] = E (X | Y = 0) P (Y = 0) + E (X | Y = 1) P (Y = 1)
= 0, 8 0, 5 + 0, 3 0, 5 = 0, 55 .
Il est facile de verier a laide de la densite marginale que 0, 55 est bien egale a E(X):
E(X) = xi P [X = xi ]
i
= 0 0, 6 + 1 0, 25 + 2 0, 15 = 0, 55 .
Denition
E (Y | Y a) = yj P (Y = yj | Y a) (cas discret)
j
+
= yf (y | Y a) dy (cas continu)
d
ou f (y | Y a) = P (Y y | Y a) .
dy
10 P. DESCHAMPS, COURS DECONOMETRIE
Propriete
P (Y = yj )
E (Y | Y a) = yj
P (Y a)
{j:yj a}
P (Y y Y a)
P (Y y | Y a) =
P (Y a)
FY (y) si y a
= FY (a)
1 si y > a
Donc:
d
f (y | Y a) = P (Y y | Y a)
dy
fY (y) si y a
= FY (a)
0 si y > a
+
a fY (y)
et
yf (y | Y a) dy =
y dy.
FY (a)
Cet exercice a pour but dillustrer linteret de la loi des esperances iterees, appliquee
aux esperances partielles.
Enonce
Un commercant a une demande journaliere aleatoire Y pour une denree vendue par
kilos. Y , mesuree en centaines de kilos, a la densite suivante:
fY (y) = 3y 2 si 0 y 1
= 0 sinon .
Solution
Le prot peut secrire comme:
Le prot est aleatoire. Mais son esperance ne depend que de la variable de decision k.
Il sagit donc de calculer cette esperance et de la maximiser par rapport a k.
La loi des esperances iterees donne:
E () = E ( | Y k) P (Y k) + E ( | Y > k) P (Y > k) .
k
y 3y 2
= dy
0 k3
k
3 y4 3
= = k .
4 k3 0 4
12 P. DESCHAMPS, COURS DECONOMETRIE
Alors:
E ( | Y k) = 1000E (Y | Y k) 600k
3
= 1000 k 600k = 150k
4
k 3 k
3y
P (Y k) = 2
3y dy = = k3
0 3 0
P (Y > k) = 1 k3
E ( | Y > k) = 1000k 600k = 400k .
En combinant:
E () = (150k) k 3 + (400k) 1 k 3
= 250k 4 + 400k .
En maximisant:
dE ()
= 1000k 3 + 400 = 0
dk
= k 3 = 0, 4 = k = (0, 4)1/3 0, 7368 .
d2 E ()
= 3000k 2 < 0 .
dk 2
PREMIERE PARTIE, CHAPITRE II 13
CHAPITRE II
Enonce du probleme
On connat une densite fY (y). Quelle est la densite dune fonction strictement monotone
(i.e. strictement croissante ou strictement decroissante) de Y ? Si U = h(Y ), alors, si h est
croissante:
P [U u] = P [h(Y ) u]
= P [Y h1 (u)]
Mais quelle est la densite qui donne bien cette probabilite lorsquon lintegre? La reponse
est donnee par le theoreme du changement de variables, dont on va voir la version univariee
et multivariee.
Theoreme.
Supposons que la variable aleatoire continue Y ait pour densite fY (y) et soit:
1
dy
fU (u) = fY h (u) pour u U
du
= 0 sinon .
14 P. DESCHAMPS, COURS DECONOMETRIE
Exemple
Soit
fY (y) = 2y si 0 y 1
= 0 sinon .
Theoreme.
Soit Y1 et Y2 deux variables aleatoires de densite jointe fY1 ,Y2 (y1 , y2 ). Soit:
alors:
Exemple
Densite de la somme et de la dierence de variables uniformes.
On peut ecrire:
u1 1 1 y1
=
u2 1 1 y2
y1 1 1 u1
= = 1
2
y2 1 1 u2
1 1 1
= J= + = =| J | .
4 4 2
1
Donc fU1 ,U2 (u1 , u2 ) = pour u U
2
= 0 sinon .
Mais quelle est la forme de U? Pour determiner la forme de U, il faut traduire les
conditions sur y1 , y2 en un systeme de conditions sur u1 , u2 .
16 P. DESCHAMPS, COURS DECONOMETRIE
On a y1 = 1
2 (u1 u2 ) et y2 = 1
2 (u1 + u2 ). Donc:
y1 0 = u2 u1
y1 1 = u2 2 + u1
y2 0 = u2 u1
y2 1 = u2 2 u1
et lensemble U prend la forme indiquee sur la gure suivante:
u2
...
....
2 .... ....
....
....
....
....
.. . . .....
....
....
.... . .....
..... u =u 2 1
.... . .
.... ...
.... . ......
.... ...
.... ....
.... .....
....
.... . ......
.... ..
.... ....
.... ....
.... .....
.... ....... ..
...... .....
1 ... ....
...........................
. ..
.............................. .....
........
.
.
......................................
...............................................
................................................................................................ .
.....
..... u2 = 2 + u1
. . .
................................................ ....
.............................................................................. .....
...................................................................................... ....
.................................................................................................................................................................. ....
.. .
U
..........................................................................
.................................................................................................................... ....
....
..
.
............................................................................................................................. ....
. . ................................................................................................................................................................................................................................... .
......
..................................................................................................................................................... ....
............................................................................................................................................................... ....
................................................................................................................ ....
......................................................................................................................................................................................................................................................................................................... u1
0 .................................................................................................................................................................... ....
.......................................................................................................................................................... ....
................................................................................................................................................... ....
1
.........................................................................................................................................
.........................................................................................
..........................................................................................................................
2 ....
....
....
3
................................................................................................................. ....
........................................................................................................ ....
................................................................... ....
........................................................................................ ....
................................................................................. ....
....................................................................... ....
............................................. ....
....................................................... ....
................................................ ....
......................................
.............................
....
.... u2 = 2 u1
1
................
..............
..
........
. .
.
....
....
....
....
. .... ..... ...
.. .. ....
... . . ....
.. .. ....
. . . . .....
..... ....
.... ....
.. . ..... ....
....
. .. . ....
.. .. ....
. . .. ....
.. . ....
.. ... ....
. .. .. . . . .. ....
....
.... u = u 2 1
2 . . .. . . .... .
....
....
....
....
Donc:
u1
u1
1 1
fU1 (u1) = du2 = u2 = u1 pour 0 u1 1
u1 2 2 u1
2u1 2u1
1 1
fU1 (u1) = du2 = u2
2+u1 2 2 2+u1
2 u1 2 + u1
= = 2 u1 pour 1 u1 2 .
2 2
PREMIERE PARTIE, CHAPITRE II 17
fU1 (u1 )
1
u1
1 0 1 2 3
Denition
Soit X une variable aleatoire. Si E etX existe pour t dans un voisinage ouvert de zero,
la fonction generatrice des moments de X est denie comme:
mX (t) = E etX
Utilite
mX (t) permet de calculer facilement les moments de X; la fonction generatrice des
moments permet en outre, dans certains cas, de calculer facilement la distribution dune
somme de variables aleatoires independantes.
Proprietes
dr
(1) mX (0) = E(X r )
dtr
En eet:
d tX d tX tX
E e =E e = E Xe = E (X) si t = 0 .
dt dt
De meme:
2
d2 tX d tX 2 tX
2
E e = E e = E X e = E X si t = 0 , etc.
dt2 dt2
(2) Si mX (t) = mY (t) pour tout t dans un voisinage ouvert de t = 0, alors
FX (x) = FY (y) pour x = y
(3) Si X et Y sont independantes, alors mX+Y (t) = mX (t)mY (t). En eet:
E[et(X+Y ) ] = E[etX etY ] = E etX E etY .
18 P. DESCHAMPS, COURS DECONOMETRIE
1 1
+
2
mX (t) = E e tX t
=e E e t(X)
et(x) e 22 (x) dx
=e t
2
+
t 1 1 2
=e exp 2 (x ) 2 t (x ) dx .
2
2 2
Noter que
2 2
(x ) 2 2 t (x ) = (x ) 2 2 t (x ) + 4 t2 4 t2
2
= x 2 t 4 t2 .
Donc:
+
t 2 t2 /2 1 1 2 2
mX (t) = e e e 22 (x t) dx
2
= 1 car integrale dune densite N (+2t,2 )
2 2
mX (t) = et+ t /2
.
Exemple dapplication: calcul des deux premiers moments E(X) et V (X) dune variable
normale.
2 t2
Si X N (, 2 ), on a vu que mX (t) = et+ 2 . Alors:
d 2 t2
mX (t) = + 2 t et+ 2 = mX (0) = = E(X)
dt
d2 2 t2 2 2 t2
mX (t) = 2 et+ 2 + + 2 t et+ 2
dt2
= 2 + 2 2 = 2 .
Note: il existe des tables des fonctions generatrices des moments des variables les plus cou-
rantes; voir lappendice B de Mood, Graybill, Boes, Introduction to the Theory of Statistics,
1974.
Exercice: Soit X une variable aleatoire ayant la distribution normale reduite N (0, 1).
Montrez que E(X 3 ) = 0 et que E(X 4 ) = 3.
aj constantes en probabilite (j = 1, . . . , n)
n
n
n
= aj Xj N aj j , a2j j2
j=1 j=1 j=1
Xj N (0, 1) independantes (j = 1, . . . , k)
k
= Y = Xj2 2k
j=1
20 P. DESCHAMPS, COURS DECONOMETRIE
X N (0, 1) ; Y 2k ; X et Y independantes
X
= Z= tk
Y /k
(4) Variable F de Fisher-Snedecor
X 2k ; Y 2r ; X et Y independantes
X/k
= Z= Fk,r .
Y /r
(3) Les expressions des densites 2 , Student, et Fisher peuvent etre trouvees dans la
litterature, notamment louvrage de Mood, Graybill, Boes (en tete des tables). Elles
sont compliquees et nous nen ferons pas usage dans la premiere partie du cours. Elles
sont obtenues a laide du theoreme de changement de variables vu precedemment.
(4) Nos denitions precedentes permettent dengendrer des realisations simulees des
variables en question.
Exercice. Supposons que vous disposiez dun logiciel permettant dengendrer des realisa-
tions simulees de variables aleatoires normales reduites independantes. Comment pourriez-
vous engendrer des realisations simulees dune variable ayant une distribution de Student
avec k degres de liberte?
PREMIERE PARTIE, CHAPITRE III 21
CHAPITRE III
ESTIMATION PONCTUELLE
Echantillon aleatoire
Suite de variables aleatoires independantes ayant la meme distribution (i.i.d.)
Exemple
Tailles de 100 etudiants de premiere annee, distribuees N (, 2 ) et independantes:
(Xi , i = 1, . . . , 100).
Estimateur
Fonction de variables aleatoires observables, ne dependant pas de parametres inconnus.
Exemple
100
i=1 Xi
=
100
100 2
i=1 (Xi )
2 =
100
Estimation
Valeur prise par une telle fonction pour des realisations particulieres des variables
aleatoires, soit x1 , x2 , . . .
Exemple
= 175, 2 = 25
22 P. DESCHAMPS, COURS DECONOMETRIE
L (1 , . . . , k ; x1 , . . . , xn ) ou plus simplement L (1 , . . . , k ) .
Note
Les observations xi sont ici des parametres de la vraisemblance; en dautres termes, la
vraisemblance nest denie quapres lobservation des realisations des variables! La vrai-
semblance est donc une notion statistique, tandis que la densite jointe est une notion
probabiliste.
Principe
On choisit comme estimations des i les valeurs de ces parametres qui maximisent
L (1 , . . . , k ).
Exemple 1
Une bote contient 3 boules, qui peuvent etre soit rouges, soit blanches. Le nombre de
boules rouges est inconnu. On tire deux boules sans remise. On obtient 2 boules rouges. On
demande destimer le nombre n de boules rouges que contient la bote a laide du principe
du maximum de vraisemblance.
Solution
La vraisemblance est donnee dans ce cas par la probabilite dobtenir le resultat experi-
mental observe (tirage de 2 boules rouges), consideree comme fonction des quatre valeurs
possibles du parametre inconnu (n = 0, 1, 2, 3).
PREMIERE PARTIE, CHAPITRE III 23
L(0) = P (R1 R2 | n = 0) = 0
L(1) = P (R1 R2 | n = 1) = 0
L(2) = P (R1 R2 | n = 2)
= P (R2 | R1 , n = 2) P (R1 | n = 2)
1 2 1
= =
2 3 3
L(3) = P (R1 R2 | n = 3) = 1 .
Exemple 2
On demande destimer par maximum de vraisemblance le parametre p dune loi bino-
miale Bi(n, p).
Rappel
Solution
On peut ecrire:
n
Y = Xi ou Xi = 1 si lessai i donne un succes
i=1
Xi = 0 sinon .
n
On observe les realisations (x1 , . . . , xn ). Le nombre de succes observe est r = i=1 xi
On a:
nr
f (x1 , . . . , xn | p) = pr (1 p) (car lordre des realisations est donne)
nr
L (p) = pr (1 p)
24 P. DESCHAMPS, COURS DECONOMETRIE
d2 log L r nr
= <0 .
dp2 p2 (1 p)2
Exemple 3
On demande destimer par maximum de vraisemblance les parametres et 2 dune
loi normale a partir dun echantillon aleatoire (Xi , i = 1, . . . , n).
On a, par denition de la densite normale:
2 1/2 1 2
fXi (xi ) = 2 exp 2 (xi ) .
2
En vertu de lindependance:
n
n/2 1 2
fX x1 , . . . , xn | , 2 = 2 2 exp 2 (xi ) .
2
i=1
n
2 n/2 1 2
L , 2
= 2 exp 2 (xi )
2 i=1
n
n n 1 2
log L = log (2) log 2 2 (xi )
2 2 2 i=1
n
n
i=1 xi
(1) = xi = n, donc = = x
i=1
n
n
1 2
(2) = n + 2 (xi ) = 0
i=1
n 2
2 i=1 (xi )
= =
n
n 2
2 i=1 (xi x)
= = en remplacant par .
n
Note: Par la suite, nous utiliserons toujours 2 pour designer lestimateur de 2 par
maximum de vraisemblance. Un autre estimateur, que nous designerons par s2 , sera vu au
debut du chapitre suivant.
26 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE IV
Denition:
Un estimateur de est dit sans biais si E() = .
Exemple:
Soit un echantillon aleatoire (Xi , i = 1, . . . , n) avec E(Xi ) = pour tout i et V (Xi ) = 2
pour tout i. On va montrer que:
n
i=1 Xi
= X =
n
et
n
1 2
2
s = Xi X
n1
i=1
Dautre part:
n
2
n n1 n
E Xi = E Xi2 +2 Xi Xj
i=1 i=1 i=1 j=i+1
n
n1
n
= E Xi2 +2 E (Xi Xj )
i=1 i=1 j=i+1
n(n1)/2 termes
Mais E Xi2 = 2 + 2 , et, par lindependance:
Donc:
n
2
2n(n 1)
E Xi = n 2 + 2 + 2
2
i=1
= n 2 + n2 + n2 2 n2 = n 2 + n2 .
E( Xi )2
Donc = 2 + n2 , et:
n
n n
2 E( Xi )2
E Xi X = E Xi2
n
i=1 i=1
= n + 2 2 n2 = (n 1) 2
2
.
Donc:
2
Xi X 1
E s2 = E = (n 1) 2
n1 n1
= 2 ,
Denition
Un estimateur n de est dit convergent si et seulement si:
lim P | n |> = 0 pour tout > 0; on ecrit plim n = .
n
28 P. DESCHAMPS, COURS DECONOMETRIE
Interpretation
Si n possede une densite f(n ), la probabilite P [| n |> ] est la zone hachuree de
la gure suivante:
.....
.... ....
.... ......
....
. ...
. ...
... ...
.
.... ...
..
. ...
...
.
.
..
. ..
...
.
. ...
.... ..
... ..
...
..
...
... f ( ) 2 n2
.
...
....
...
...
.
.
... ...
... ...
...
..
.... ..
...
.. ..
... ..
.. ..
.. ..
. ...
..... ...
...
... ...
... ...
.
..... ...
...
.. ...
.
... .
. ..
.........
...
..
. .... . .
... ............. ...
... . ...
.. . ....... .
. .
. . .. .. ....... ....
.. ........
. ...... ...
.. ........
. ..... ...
.
...... . ........
..... ....
.......
......... ... ....
.
... ... .. ....
..
.. .. ... ....
... ..
. ... ....
.
... ... ... ....
.. .. .
. ....
. ..... .. ...
. . .
. ... .
.
. ... ...........
. .
........ . ... .... ...
.
...
..
. . . .. ... .
. .. ...............
........... ..
. ... ............
. ... ... . . .....
.... . . . ... ... ... ................
............. ..
.......................... .....
. ... .................
... .. . . . . . ......
.
... . . . . . ... ..
.
... . . . . . . . .
..............................
........................ f ( ) 1 n1
. ..
.
..
..
........................
.
... . . . . . . . .........
...........................
.... . . . . . . . .......
...............................
.
..
. . . . . . . . . . .. . ..
... . . . . . . . . . .. ..
...... . . . . . . . . . .......... ..................................................
....... . . . . . . . . . ........... ................................................
............................................
.
...
..
.................................................................... ..................... . . . . . . . . . . ..........
. ............... . . . . . . . . . . . ......
....... . . . . . . . . . . . ............ ...................................................................................................................
............ . . . . . . . . . . . . ...............................
.......................................................................................................................... ................................................. . . . . . . . . . . . . .........................
............................... . . . . . . . . .................................... .. ................ ................................. ........................................ . . . . . . . . . . ...............
+
Cette probabilite doit tendre vers 0 lorsque n tend vers linni; ceci sera le cas si les
densites deviennent de plus en plus concentrees autour de .
Conditions susantes
Si limn E(n ) = et si limn V (n ) = 0, alors plim n = . Ceci sera demontre
au chapitre X de la deuxieme partie.
Exemple
Si (Xi , i = 1, . . . , n) est un echantillon aleatoire avec E (Xi ) = , V (Xi ) = 2 , alors
plim X = , car:
E X =
n
1 n 2 2
V X = 2
= = 0 .
n2 n2 n
i=1
PREMIERE PARTIE, CHAPITRE IV 29
Note
Contrairement a labsence de biais qui est une propriete de petit echantillon (valable
pour tout n), la convergence est une propriete asymptotique (valable si n ).
Un estimateur ecace est un estimateur sans biais, et de variance minimale parmi tous
les estimateurs sans biais.
Denition
E() =
est ecace: .
V () V () si E() =
Interpretation
La variance dun estimateur est une mesure de limprecision de notre estimation de la
vraie valeur du parametre. Un estimateur sans biais, mais de variance enorme, est inutile:
on ne se trompe pas en moyenne, mais on peut se tromper enormement dans des cas
individuels, c.a.d. pour certains echantillons. Il est donc important que la variance soit la
plus petite possible.
Exemple
Nous prouverons au chapitre X de la seconde partie que si les Xi sont normales i.i.d.,
alors X est ecace.
Que faire si lon doit choisir entre un estimateur sans biais mais de grande variance,
ou un estimateur un peu biaise mais de petite variance?
Reponse: on peut minimiser lerreur quadratique moyenne:
EQM() = E( )2
Si est sans biais, EQM() = V () .
EQM() = V () + Biais2 () .
30 P. DESCHAMPS, COURS DECONOMETRIE
En eet:
EQM() = E( )2
2
= E E() + E()
2 2
= E E() + E E() + 2E E() E() .
Mais E E() E() = E() E E()
= E() E() E E()
= E() E() E() = 0 .
Dautre part:
2
E E() = V ()
2 2
E E() = E() = Biais2 ().
Il est utile dillustrer ces proprietes a laide dechantillons ctifs, qui peuvent etre
obtenus par simulation.
Supposons donc que lon ait m echantillons de taille n, permettant de calculer m
estimations i (n):
echantillons
x11 x12 x1m
.. .. ..
. . ... .
xn1 xn2 xnm
m
1
lim i (n) = pour tout n .
m m
i=1
PREMIERE PARTIE, CHAPITRE IV 31
1 2
m
lim i (n) (n) minimale pour tout n .
m m
i=1
1 2
m
lim i (n) minimale pour tout n .
m m
i=1
Remarque: Dans ce contexte, les estimations i (n) sont des nombres pseudo-aleatoires,
car il sagit dune experience de simulation. La notation lim est par consequent plus
appropriee que la notation plim.
32 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE V
TESTS DHYPOTHESES
Cette methode est facile a appliquer lorsque lon possede un estimateur sans biais dun
parametre inconnu (soit cet estimateur), et que la densite de est symetrique autour
de (par exemple normale). On cherche alors un intervalle entre les bornes duquel la vraie
valeur du parametre inconnu a une certaine probabilite 1 de se situer.
x
P Z/2 Z/2 = 1 , donc:
/ n
P x Z/2 x + Z/2 =1 .
n n
On a une probabilite de 1 de ne pas se tromper lorsque lon arme que se situe
entre ces 2 bornes.
1 n
Si la variance 2 est inconnue, on peut lestimer par s2 = n1 i=1 (xi x) .
2
On peut ecrire:
x
n
x
n = !
s "
" (xi x)2
#
(n 1) 2
PREMIERE PARTIE, CHAPITRE V 33
(xi x)2
On demontrera plus loin (4.3 de la seconde partie) que est distribuee 2n1
2
x
et est independante de n
x
Alors n tn1 , et lintervalle de conance secrit:
s
s s
P x tn1; 2 x + tn1; 2
= 1
n n
On ne rejette pas une hypothese impliquant que soit interieure aux deux bornes, on
rejette une hypothese impliquant que soit exterieure aux deux bornes.
Note: rien nempeche detre une fonction dun autre vecteur de parametres plus
fondamentaux; exemple: k = 1 et 1 = 1 2 , H0 : 1 = 0 contre H1 : 1 = 0 .
Procedure de test
Elle doit conduire, soit au rejet de H0 en faveur de H1 , soit a labsence de rejet, en
tenant compte des deux types derreurs possibles:
tient compte de cet etat des choses: on va, des le depart, choisir une valeur faible
de (typiquement 0.01 ou 0.05), et, pour cette valeur de , choisir un test puissant
parmi les tests de taille .
Procedure de construction
Etape 2: on choisit une statistique s(, 0 ), a laide dun critere tel que ceux que nous
exposerons aux sections 5.3, 5.4, et 5.5. Ces criteres conduisent a des tests puissants.
RA () = {s | P (s RA () | H0 ) = 1 }
RC () = RA () .
Ces regions peuvent etre calculees a laide des resultats de letape 3, qui nous donne la
distribution de s = s(, 0 ) sous H0 !
Notes
(1) Par construction, est alors bien la probabilite de commettre une erreur de
type I (rejeter H0 si H0 est vraie) car on a suppose que H0 etait vraie en
calculant la distribution conditionnelle de s(, 0 ) a letape 3.
(3) Le fait de ne pas rejeter H0 ne signie pas demontrer H0 : cela veut seulement
dire que les donnees ne fournissent pas susamment dinformations pour
inrmer H0 ! Il est donc plus correct de dire on ne rejette pas H0 que on
accepte H0 .
PREMIERE PARTIE, CHAPITRE V 35
(4) Pour letape 2, il existe un assez grand nombre de criteres. Les trois criteres
que nous allons exposer sont tres employes, sont dune applicabilite generale,
et ont des proprietes doptimalite sur le plan de la puissance. Dans certains
cas les trois criteres conduisent a la meme statistique. Dans la plupart des
cas les trois criteres sont asymptotiquement equivalents.
Denition
Le rapport des vraisemblances est deni comme:
maxH0 L()
=
max L()
ou est le vecteur de parametres inconnus de vraisemblance L(). H0 designe ici len-
semble des valeurs de compatibles avec lhypothese nulle, et designe lensemble de
toutes les valeurs admissibles de .
Exemple
0
= ; H0 : |x>0 R
2 x
y
= | x > 0 R2 .
x
Interpretation
Comme la vraisemblance est une fonction positive, 0,
Comme un maximum contraint est inferieur a un maximum libre, 1
Donc 0 1 ; et:
si 0 , mauvais accord entre lobservation et lhypothese H0
si 1 , bon accord entre lobservation et lhypothese H0 .
2 n/2 1
max L() = 2 exp 2 (xi 0 ) 2
H0 2
2 n/2 1
max L() = 2 exp 2 (xi x)2
2
n/2
2 2 exp 21 2 (xi 0 )2
= n/2
(2 2 ) exp 21 2 (xi x)2
1 2
2
= exp 2 (xi 0 ) (xi x) .
2
Notons que (xi 0 )2 = (xi x)2 + n(x 0 )2 .
En eet:
(xi 0 )2 = (xi x+ x0 )2 = (xi x)2 +n(x0 )2 +2 (xi x)(x 0 )
=0
Donc:
1 2 2
2
= exp 2 (xi x) + n (x 0 ) (xi x)
2
n
= exp 2 (x 0 ) .
2
2
(x 0 )2
2 log = = LR
2 /n def
(LR = 2 log sappelle la statistique du rapport des vraisemblances)
Conclusion
(x 0 )2
On a: 2 log =
2 /n
(x 0 )
On denit: Zobs =
/ n
Si on decide de rejeter H0 : = 0 lorsque Zobs > Z/2 ou Zobs < Z/2 , sera
bien la probabilite dune erreur de type I puisque Zobs N (0, 1) sous H0 .
De facon equivalente, on rejetteH0 si < ou est deni implicitement par
2 log = Z/2
2
(soit = exp 12 Z/2
2
).
On a vu que:
2
2 2
(xi 0 ) = (xi x) + n (x 0 ) .
38 P. DESCHAMPS, COURS DECONOMETRIE
n/2
2
n (x 0 )
= 1+ 2 , donc :
(xi x)
(x )2 2
2/n 0 (xi x)
(n 1) 1 = avec s2
= .
s2 /n n1
Conclusion
(x 0 )
On denit tobs =
s/ n
n/2
t2obs
On a (n 1) 2/n 1 = t2obs , soit aussi: = 1 + n1
Si on decide de rejeter H0 lorsque tobs > tn1, 2 , ou tobs < tn1, 2 , sera bien la
probabilite de commettre une erreur de type I puisque tobs tn1 sous H0 .
De facon equivalente, on rejette H0 si < , ou:
$ %n/2
t2n1,
2
= 1 +
n1
Nous nenoncerons ici ce critere que pour le test dune seule hypothese, car la generalisa-
tion aux tests joints sera vue plus tard.
Denition
Soit L() = L(1 , , k ) la vraisemblance et soit = (1 , . . . , k ) lestimation de qui
maximise L(). On sinteresse au test:
H0 : i = 0 contre H1 : i = 0
(i est un element de , 0 est un nombre)
(i 0 )2
W= ,
V (i )
PREMIERE PARTIE, CHAPITRE V 39
Interpretation
Il sagit du carre dune distance entre lestimation de i sous H0 (a savoir 0 ) et lesti-
mation de i sous H1 (a savoir i ). On divise par la variance estimee pour tenir compte de
la precision de lestimation.
Exemple
Soit L(, 2 ) la vraisemblance precedente (population normale, variance inconnue).
Pour tester H0 : = 0 contre H1 : = 0 , on forme:
2 2
( 0 ) (x 0 )
W= =
V () 2 /n
n 2
ou 2 = 1
n i=1 (xi x) est lestimation de 2 par maximum de vraisemblance.
Comme precedemment, on peut transformer la statistique W en une autre statistique
possedant une distribution connue sous H0 , a laide dune transformation monotone.
En eet, comme 2 = n1n
s2 , on a:
2
(x 0 ) n
W= 2 = n1 t2obs
n1s
n n
et le critere de Wald conduit donc, dans ce cas-ci, au meme test que le critere du rapport
des vraisemblances (le test t).
De nouveau, nous enoncerons ce critere pour le test dune seule hypothese; la generalisa-
tion aux tests joints sera vue plus tard.
Soit L() = L(1 , . . . , k ) la vraisemblance logarithmique L = loge L. On sinteresse au
test:
H0 : i = 0 contre H1 : i = 0 .
(, ) = L() (i 0 ).
40 P. DESCHAMPS, COURS DECONOMETRIE
20
LM =
V0 ()
Interpretation
Lannulation de la derivee de par rapport a i implique:
L
=
i
Exemple
Soit L , 2 la vraisemblance logarithmique precedente:
n
n n 1 2
L , 2
= log 2 log 2
2
(xi ) .
2 2 2
i=1
On a vu que:
n
L 1 n (x )
= (xi ) =
2 2
i=1
Donc:
L n (x 0 )
0 = =
=0 ,2 =2 02
0
n
1 2
ou 02 = (xi 0 ) .
n
i=1
PREMIERE PARTIE, CHAPITRE V 41
Par ailleurs:
n
1 n 2 n n
V () = 4 V xi = = 2 , donc V0 () = .
i=1
4 02
2
n2 (x 0 )
2
04 n (x 0 )
Donc LM = n = .
02
02
n
1 2
02 = (xi 0 )
n
i=1
n
1 2 2
= (xi x) + n (x 0 )
n
i=1
2
= + (x 0 )
2
.
Donc:
2
1 02 2 + (x 0 )
= 2 = 2
LM n (x 0 ) n (x 0 )
n1 2
1 2 1 n s
= + 2 = +
n n (x 0 ) n n (x 0 )2
1 n1 1 t2obs + n 1
= + = .
n n t2obs nt2obs
Soit aussi:
nt2obs
LM = .
t2obs + n 1
on a etabli que:
n 2
W= t
n 1 obs
1 1 n1 1
= +
LM n n t2obs
2 n
n (x 0 ) t2obs
LR = n log 1 + 2 = log 1 + n 1 .
(xi x)
On a donc une relation bijective entre t2obs et chacune des trois statistiques, ce qui
veut dire que chacun des trois criteres conduit au meme test (le test t).
Il nen est pas toujours ainsi: dans des situations plus compliquees, les trois statis-
tiques W, LM, et LR ne seront pas des fonctions bijectives les unes des autres, et
leurs regions critiques seront dierentes en petit echantillon.
Quel est alors linteret de letude de ces trois statistiques? Il reside dans leur commo-
dite demploi. Celle-ci depend du contexte:
(a) W sera plus facile a employer chaque fois que le modele est plus facile a
estimer sans contraintes;
(b) LM sera plus facile a employer chaque fois que le modele est plus facile a
estimer sous H0 ;
(c) LR necessite lestimation du modele avec et sans contraintes; en revanche,
son calcul ne necessite que la connaissance des valeurs de la vraisemblance
maximisee. Aucun calcul analytique de derivees ni de variance nest neces-
saire.
SECONDE PARTIE
CHAPITRE I.
(1) Nous partons dune relation lineaire, speciee par un modele economique. Par
exemple :
La fonction de consommation :
C = a + bY
La loi de demande :
X = a bPX
La fonction de cout :
CT = a + bQ .
(2) Nous desirons estimer les parametres a, b de ces modeles a des ns danalyse ou de
prevision. Une telle estimation est plus elaboree quune simple etude de correlation.
Elle peut en eet servir a repondre a des questions de politique economique telles
que :
43
44 P. DESCHAMPS, COURS DECONOMETRIE
invendue) ou dun subside a ces producteurs? Les couts respectifs de ces deux
politiques alternatives dependront de lelasticite de la demande, qui peut etre
estimee par leconometre, a partir de donnees sur les variables X et PX .
Les egalites precedentes ne seront jamais veriees exactement par des donnees sur les
variables C, Y , X, PX , etc. En eet :
lon ne peut esperer quune relation lineaire exacte fournisse une description complete
du comportement des agents economiques. Il est trop complexe pour cela. Il est parfois
erratique.
des erreurs aleatoires de mesure, dagregation, etc., sont dordinaire presentes dans
tout echantillon. Ces erreurs ne peuvent etre expliquees par un modele deterministe.
On ajoutera donc aux fonctions precedentes un terme derreur aleatoire u, et lon ecrira:
C = a + bY + u
X = a bPX + u
CT = a + bQ + u.
yt = a + bxt + ut , t = 1, . . . , n .
Lindice t correspond a une observation particuliere, par exemple lannee 1960 dans un
echantillon de 20 observations annuelles.
Les estimateurs a et b vont dependre des yt , donc des ut : ce seront des variables
aleatoires, et nous aurons besoin des moments de leur distribution. Il nous faut donc
faire des hypotheses sur la distribution des ut .
Si cette hypothese netait pas satisfaite, le terme derreur aleatoire ut aurait une compo-
sante systematique, qui aurait du etre incluse dans la partie non aleatoire de lequation de
regression. Le modele serait alors mal specie.
Cette hypothese implique que chaque erreur ut ait la meme variance; si les ut ont une
distribution normale, chaque ut aura la meme distribution.
Comme exemple de modele ou cette hypothese nest pas veriee, on peut citer un
modele de regression dont les observations sont des moyennes calculees a partir de nombres
dobservations dierents: si le modele vrai est:
ys = a + bxs + us pour s = 1, . . . , T
H3 . Cov(ut , uh ) = 0 t = h .
Cette hypothese sera satisfaite si le fait que ut prenne une certaine valeur est indepen-
dant de la valeur prise par uh . Elle pourrait etre violee, par exemple, si yt etait la pro-
duction dun bien agricole dans une region geographique donnee t . Une autre observation,
faite dans une region voisine, pourrait etre inuencee par des conditions meteorologiques
communes.
Un autre exemple de viol de cette hypothese est le cas ou les ut sont engendrees par
lequation de recurrence ut = ut1 + t , ou les t sont desperance nulle, de variance
constante, et ne sont pas correlees entre elles. On verie aisement que la covariance entre
ut et ut1 depend de .
46 P. DESCHAMPS, COURS DECONOMETRIE
Cette hypothese est provisoire, destinee a simplier les arguments presentes. Nous
verrons plus loin quon pourrait la remplacer par lhypothese plus faible que E(xt ut ) = 0,
sans changer certains resultats. Par la loi des esperances iterees, on peut aussi supposer
que E(ut | xt ) = 0.
Lhypothese que la covariance entre le regresseur et le terme derreur contemporain est
nulle est violee dans le modele suivant:
Ct = a + bYt + ut
Yt = C t + I t
ou Ct est la consommation au temps t, Yt est le revenu national au temps t, It est lin-
vestissement au temps t, et ut est le terme derreur. En substituant la premiere equation
dans la seconde et en resolvant, on sapercoit aisement que E(Yt ut ) = 0.
H5 . xt prend au moins deux valeurs dierentes. Si cette hypothese netait pas satisfaite,
nous naurions pas un probleme de regression : en eet, a + bxt serait constante, et
yt = a + bxt + ut serait constante a un terme aleatoire pres. Nous aurions alors le
modele yt = + ut avec = E(yt ) .
Nous voulons trouver les parametres a, b de la droite a + bxt qui approche le mieux la
dependance des y sur les x, cest-a-dire qui secarte le moins du nuage de points (xt , yt ).
Quels criteres allons-nous employer?
Il faut, quen moyenne, la distance entre yt et a + bxt soit minimale. Il faut donc que la
valeur absolue de ut = yt a bxt soit petite, pour tout t. Nous pourrions retenir comme
criteres :
Pour des raisons de commodite, nous allons employer le troisieme critere : cest la me-
thode des moindres carres.
SECONDE PARTIE, CHAPITRE I 47
La dierence:
ut = yt a bxt
sappelle un residu, et est une estimation de lerreur ut . On peut ecrire indieremment:
yt = a + bxt + ut
yt = a + bxt + ut
mais la premiere de ces relations est une hypothese, tandis que lautre est une identite!
Lestimation par moindres carres du modele de regression simple sur la base dobservations
(xt , yt ) est illustree par la gure suivante.
yt , yt
8
yt = a + bxt
.....
.....
......
7 ..
......
.
......
......
.
.....
.....
.
.....
........
..... .
.
..
...... .....
6
.....
.
......
.
..
.
... u = yt yt t
......
......
...
..
.
....
......
..
.
.
.
.
.
..
......
......
5
.
......
.....
.
.....
..
.......
.
......
.
.....
......
......
...
....
4 ......
..... (x , y )
.
....... t t
..
.
....
..
..
.
.....
......
.
......
.....
3 ......
...
.......
...
......
.....
......
xt
0.5 1.0 1.5 2.0
S
= 2 yt a bxt = 0
a
S
= 2 yt a bxt xt = 0 .
b
48 P. DESCHAMPS, COURS DECONOMETRIE
(1) yt na b xt = 0
(2) xt yt a xt b x2t = 0 .
(y y)xt
b = t
(xt x)xt
(yt y)(xt x)
=
(xt x)2
x y nxy
= t 2t
x nx2
t
(x x)yt
= t = wt yt
(xt x)2
ou :
(xt x)
wt = .
(xt x)2
Il est facile de verier, de meme, que a = zt yt , avec:
1
zt = xwt
n
1
(2) wt2 =
(xt x)2
SECONDE PARTIE, CHAPITRE I 49
(3) wt xt = 1
(4) zt = 1
2
1 x2 xt
(5) zt2 = + =
n (xt x)2 n (xt x)2
(6) zt xt = 0
x
(7) wt zt = .
(xt x)2
yt xt
2 1
4 2
5 3
7 4
10 5
On a xt = 15 , yt = 28 , x2t = 55 , xt yt = 103 , yt2 = 194 .
103 (15)(28)/5
b = = 1.9
55 (15)2 /5
28 15
a = (1.9) = 0.1 .
5 5
50 P. DESCHAMPS, COURS DECONOMETRIE
a = zt yt = zt (a + bxt + ut )
= a zt + b zt xt + zt ut
= a+0+ zt ut
et E(a) = E(a) + zt E(ut ) = a
b = wt yt = wt (a + bxt + ut )
= a wt + b wt xt + wt u t
= 0+b+ wt u t
et E(b) = E(b) + wt E(ut ) = b.
1.4.2 Variances.
2
V (b) = E b E(b)
= E(b b)2 .
Mais b b = wt ut comme nous lavons montre. On a alors:
SECONDE PARTIE, CHAPITRE I 51
2
V (b) = E wt u t
n n1
n
= E wt2 u2t + 2 wi wj u i u j
t=1 i=1 j=i+1
n
n
2
= wt2 E u2t = 2
wt2 =
t=1 t=1
(xt x)2
On a par ailleurs
2
2
V (a) = E (a a) = E zt ut
= 2 zt2 par le meme argument que precedemment
2
1 x
= 2 + 2
n (xt x)
2
2 xt
= .
n (xt x)2
1.4.3 Covariance.
2
E b = b et V b = n 0
t=1 (xt x)
2 n
2
xt /n
E (a) = a et V (a) 0, car: V (a) = 2
0
n (xt x)2
x2t
sous la condition susante que limn n existe.
y1 1 x1 u1
y2 1 x2 u2
= a+ b+
. . . .
.. .. .. ..
yn 1 xn un
1 x1 u1
1 x2 a u
2
= +
. .. b .
.. . ..
1 xn un
ou: y = X + u.
ce qui implique:
n xta yt
=
2
xt xt b xt yt
1
(X X) = X y = = (X X) Xy .
1
La matrice (X X) peut secrire:
1
n xt x2t xt
1
=
n (xt x)2
xt x2t xt n
x2t /n x
1
= .
(xt x)2
x 1
Ceci peut etre generalise! En ajoutant des variables explicatives supplementaires (des
colonnes a la matrice X) on obtient le modele de regression multiple.
On note limportance de lhypothese H5 : si xt = pour tout t, (xt x)2 = 0,
det X X = 0 et les equations normales nont pas de solution unique.
Nous ne verrons ici quun cas particulier de ce theoreme (une version plus generale sera
vue en regression multiple).
Nous avons vu que les estimateurs de moindres carres sont sans biais et convergents.
Sont-ils de variance minimale? La reponse est: oui, dans la classe des estimateurs sans biais
et lineaires. Nous allons verier cette propriete dans le cas de b.
Un estimateur lineaire arbitraire de b peut secrire comme:
54 P. DESCHAMPS, COURS DECONOMETRIE
b = ct yt = ct (a + bxt + ut )
= a ct + b ct xt + ct ut ,
une condition necessaire et susante pour que E b = b pour tout (a, b) est ct = 0,
ct xt = 1. Alors:
2 2
V b = E b b = E ct ut
= 2 c2t .
On va minimiser cette variance sous la contrainte E b = b et montrer que la solution
est ct = wt .
Comme la minimisation de V (b) est equivalente a celle de V (b)/ 2 , le Lagrangien secrit:
= c2t + 1 ct + 2 ct xt 1
n n
n
= 2 ct + n1 + 2 xt = 0
t=1
ct t=1 t=1
n n n
n
xt = 2 ct xt + 1 xt + 2 x2t = 0 .
t=1
c t t=1 t=1 t=1
En utilisant les contraintes ct = 0, ct xt = 1:
n1 + 2 xt = 0
2 + 1 xt + 2 x2t = 0
n xt 1 0
= .
xt x2t 2 2
SECONDE PARTIE, CHAPITRE I 55
Linverse de la matrice des coecients a deja ete calculee ((X X)1 ). On peut donc
calculer la solution du systeme comme:
1 x2t xt 0
1
=
n (xt x)2
2 xt n 2
(xt x)2
2x/
= .
2/ (xt x)2
En substituant ces valeurs dans =0:
ct
x xt
2ct = 2 + 2
(xt x)2 (xt x)2
(x x)
ct = t = wt .
(xt x)2
Cette valeur de ct minimise donc bien la variance sous la contrainte que lestimateur
soit sans biais.
Les variances et la covariance calculees dans les sections 1.4.2 et 1.4.3 dependent du
parametre
inconnu 2 . Une procedure naturelle serait de calculer la variance dechantillon
1 2 , et de corriger un biais eventuel, pour arriver a un estimateur de 2 .
(ut u)
n
2 = u2
En fait, ut u t , car
ut = yt a bxt = yt na b xt = 0
en vertu de la premiere equation normale (Section 1.3). Nous allons prouver que
E u2t = (n 2) 2
1
et que donc s2 = n2
u2t est un estimateur sans biais de 2 .
56 P. DESCHAMPS, COURS DECONOMETRIE
Nous avons:
ut = yt a bxt
= a + bxt + ut (y bx) bxt
= a + bxt + ut a bx u + bx bxt
= ut u + (b b)(xt x) .
Alors
u2t = (ut u) + (b b) (xt x) + 2(b b)(xt x)(ut u)
2 2 2
= (ut u)2 + (b b)2 (xt x)2 + 2(b b) (xt x)(ut u) .
Mais
(xt x)(ut u) = (xt x) 2
wt (ut u)
= (b b) (xt x)2
puisque wt (ut u) = wt ut = b b.
Donc
u2t = (ut u)2 + (b b)2 (xt x)2 2(b b)2 (xt x)2
= (ut u)2 (b b)2 (xt x)2 .
1 2 n
E (ut u) 2
= E u2t ( ut ) = n 2 2 = (n 1) 2
n n
E (b b)2 (xt x)2 = 2 .
2
Et donc E ut = (n 2) 2 , Q.E.D.
On peut interpreter la division par n 2 de la maniere suivante. Precedemment (a la
section 4.1 de la premiere partie), nous avions vu que pour obtenir un estimateur sans biais
de la variance, on devait diviser par n 1 la somme des carres des deviations par rapport a
la moyenne. Cette division par n 1 etait en fait due a la presence dune condition liant les
SECONDE PARTIE, CHAPITRE I 57
deviations par rapport a la moyenne: la somme de ces deviations est identiquement nulle.
Dans le cas qui nous occupe, nous avons deux conditions liant les residus ut , a savoir:
n
ut = 0
t=1
n
ut xt = 0
t=1
Si nous connaissons n2 des residus, nous pouvons determiner les valeurs des deux derniers
a laide de ces conditions.
(yt y)2
Nous allons voir que la variance totale des y, soit , peut etre decomposee
n
en une somme de deux variances, celle des y (partie expliquee par la regression) et celle
des u (partie residuelle). Ceci nous permettra de denir le coecient de determination, qui
permet de mesurer la qualite de lajustement lineaire.
A cette n, nous prouverons que :
2
(yt y)2 = yt y + u2t
En guise detape preliminaire, demontrons une formule de calcul commode pour u2t .
2
Lemme ut = (yt y)2 b2 (xt x)2
Demonstration
ut = yt yt = yt a bxt
= (yt y) b(xt x) .
Donc
2
2
u2t = (yt y) 2b (xt x) (yt y) + b2 (xt x) .
2
Mais (xt x) (yt y) = b (xt x) , donc
58 P. DESCHAMPS, COURS DECONOMETRIE
2
2
u2t = (yt y) b2 (xt x) , Q.E.D.
Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
b2 (xt x)2 = (yt y)2 .
2=
(yt y) (a + bxt a bx)2 .
SCE SCR
R2 = = 1
SCT SCT
Poursuivons lexemple de la section 1.3. Nous avions trouve les valeurs a = 0.1 et
b = 1.9. On a de plus:
x = 3
y = 5.6
(xt x)2 = 10
(yt y)2 = 37.20
u2t = 37.20 (1.9)2 (10) = 1.10
1.10
s2 = = 0.37
3
0.37
s2b = = 0.037
10
1 9
s2a = 0.37 + = 0.403
5 10
(0.37)3
sab = = 0.11
10
1.10
R2 = 1 = 0.97 .
37.20
ou les nombres entre parentheses sont les estimations des ecarts-types des coecients
estimes. On peut aussi les presenter comme:
ou les nombres entre parentheses sont les rapports entre les coecients estimes et les
estimations de leurs ecarts-types. On appelle ces rapports les rapports t (t-ratios); ils nous
serviront dans le cadre des tests dhypotheses.
60 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE II.
H6 : ut N (0, 2 )
a = a + zt ut et b = b + wt ut seront normales, puisque ce sont alors des combinaisons
lineaires de variables normales independantes.
Quelles seront alors les formes de a, a, b et b?
Si 2 etait connue, nous aurions :
b b a a
N (0, 1) et N (0, 1)
b a
2 1 x2
avec b2 = , a2 = 2
+ .
(xt x)2 n (xt x)2
SECONDE PARTIE, CHAPITRE II 61
b = b z/2 b
et b = b + z/2 b .
En pratique, 2 est inconnue. Que se passe-t-il lorsquon la remplace par son estimation
sans biais
2 u2t
s = ?
n2
Pour reprendre lexemple de b :
b b b b
=
sb u2t 1
n 2 (xt x)2
b b
1
2
(xt x)2 N
= = .
u2t def D
2 (n 2)
N est une variable normale reduite. Nous prouverons rigoureusement plus loin que
u2t
2
62 P. DESCHAMPS, COURS DECONOMETRIE
P a tn2; 2 sa a a + tn2; 2 sa = 1 .
Pour tester :
H0 : b = b0 contre H1 : b = b0
Pour tester :
H0 : b = b0 contre H1 : b > b0
Pour tester :
H0 : b = b0 contre H1 : b < b0
H0 : a = a0 et b = b0
contre
H1 : a = a0 ou b = b0 , ou les deux.
SECONDE PARTIE, CHAPITRE II 63
Ce test nest pas equivalent a une juxtaposition des deux tests t sur chaque coecient
de regression. Une methode bivariee simpose, et nos intervalles de conance deviennent
des ellipses. En pratique, on passe par la variable F de Fisher-Snedecor.
La statistique a employer est:
Q/2
Fobs =
s2
avec Q = n(a a0 ) + 2nx(a a0 )(b b0 ) +
2
x2t (b b0 )
2
.
Q est toujours positive ou nulle; elle sera dautant plus grande que a et b dierent de
a0 et b0 . Or, ce sont bien les valeurs elevees dune statistique F qui conduisent a rejeter
lhypothese nulle. Par ailleurs, une valeur elevee de s2 reete une mauvaise qualite de
lajustement statistique; il est donc logique quelle nous fasse hesiter a rejeter lhypothese
H0 .
En regression multiple, nous demontrerons que si H0 est vraie, Fobs a la distribution
F2,n2 . On rejettera donc H0 si
Nous montrerons aussi que Fobs est egale a (n 2)/2n fois la statistique de Wald pour
tester lhypothese H0 : (a, b) = (a0 , b0 ) contre H1 : (a, b) = (a0 , b0 ). Ceci fournit une
premiere justication rigoureuse de lemploi de cette statistique.
= a + b.
2 ( x)2
= 2
+ .
n (xt x)2
64 P. DESCHAMPS, COURS DECONOMETRIE
a b
tn2
2 ( x)2
s +
n (xt x)2
2.4 Prevision
Que se passerait-il si nous voulions trouver un intervalle de conance sur une valeur
future y de y? On parlerait alors dintervalle de prevision. Supposons par exemple que
y = a+bx+u soit une fonction de consommation, que nous possedions des donnees annuelles
entre 1960 et 1981 sur la consommation et le revenu national, et que nous voulions predire
la consommation pour lannee 1982, conditionnellement a une projection x du revenu
national pour 1982.
Sous lhypothese que le modele reste inchange, nous aurons:
y = a + bx + u et
y = a + bx sera sans biais .
E(y y ) = 0
V (y y ) = E(y y )2
= E(u2 ) + E((a a) + (b b)x )2
Le premier terme de la somme est egal a 2 . Le second terme peut etre calcule a laide
des resultats de la section 2.3, en posant = 1 et = x . Nous avons donc:
1 (x x)2
E(y y ) 2
= 1+ +
2
n (xt x)2
SECONDE PARTIE, CHAPITRE II 65
1.9 (3.182) 0.037 , 1.9 + (3.182) 0.037 = [1.29 , 2.51] .
H0 : b = 1.2
mais on ne rejettera pas lhypothese:
H0 : b = 1.5.
Pour tester:
H0 : a = 0.15 et b = 2.5
contre H1 : a = 0.15 ou b = 2.5
on construit la statistique
1
Fobs = 5(0.10 + 0.15)2 + 2 5 3(0.10 + 0.15)(1.9 2.5)
2(0.37)
+ 55(1.9 2.5)2
18.9125/2
= = 25.79 .
0.37
1 (3.5 3)2
0.1 + (1.9)(3.5) (3.182)(0.61) + si = 0.05.
5 10
Ce qui donne [5.636 , 7.464].
Un intervalle de prevision sur y6 = a + b(6) + u6 au niveau de signication = 0.01
aura pour bornes:
1 (6 3)2
0.1 + (1.9)(6) (5.841)(0.61) 1 + +
5 10
ce qui donne [6.175 , 16.426].
SECONDE PARTIE, CHAPITRE III 67
CHAPITRE III
Soit x un vecteur n 1. Une forme quadratique est une expression du type x Ax, ou
A est une matrice symetrique n n. Elle est dite denie non negative si x Ax 0 pour
tout x; denie positive si x Ax > 0 pour tout x = 0; semi-denie positive si x Ax 0 pour
tout x et si rang (A) = n. La meme terminologie sapplique a la matrice A. Rappelons
sans autres commentaires quelques proprietes importantes des matrices symetriques et des
matrices denies.
Si A = A :
(1) Ses valeurs propres sont toutes reelles.
(2) A deux valeurs propres dierentes correspondent des vecteurs propres orthogonaux.
(3) On peut associer k vecteurs propres orthogonaux a une valeur propre de multiplicite
k.
(4) Il existe une matrice C orthogonale, dont les colonnes sont les vecteurs propres de
A, telle que:
C AC = diag(1 , 2 , . . . , n ) ou les i sont les valeurs propres de A.
(5) Le rang de A est egal au nombre de valeurs propres de A non nulles.
(1) Une matrice A dordre n est denie non negative si et seulement si (a) toutes ses
valeurs propres sont non negatives, ou (b) il existe une matrice B de dimensions
m n et de rang m telle que B B = A.
(2) Si A est denie non negative, alors (a) aii 0 pour tout i, et (b) B AB est denie
non negative pour toute matrice B de dimensions n m.
68 P. DESCHAMPS, COURS DECONOMETRIE
Demonstration
Si A est reguliere, premultiplions les deux membres de AA = A par A1 . Cela donne:
A1 AA = A1 A,
Demonstration
Si est une valeur propre de A, Ax = x pour un vecteur x = 0. En premultipliant les
deux membres par A:
AAx = Ax,
Demonstration
Evidente, car le determinant dune matrice est egal au produit de ses valeurs propres.
Demonstration
Comme A est symetrique, il existe une matrice orthogonale C telle que C AC =
diag(1 , 2 , . . . , n ).
On a alors:
tr A = tr CC A = tr C AC
= tr diag(1 , 2 , . . . , n )
= rang de A
De meme, si x est n 1:
/x1
..
= . .
x
/xn
De meme:
(x A)
=A .
x
Pour une forme quadratique, si A est n n et symetrique, on a:
(x Ax)
= 2Ax .
x
Par exemple, si A = 2 1
1 3
, on a x Ax = 2x21 + 2x1 x2 + 3x22 , et
4x1 + 2x2
(x Ax)
= = 2Ax .
x
2x1 + 6x2
SECONDE PARTIE, CHAPITRE IV 71
CHAPITRE IV
On a donc:
11 12 ... 1n
! " ..
22 .
= E (X )(X ) = .12 ..
.. .
1n ... nn
on ecrira X N (, ).
alors X1 N (1 , 11 ) et X2 N (2 , 22 ).
Demonstration
B = ( In 1 On1 (nn1) ) .
11 12 In 1
BB = ( In 1 On1 (nn1) )
21 22 O(nn1 )n1
= 11 .
Demonstration
Soit Y = C X. Nous avons Y N (0, C IC), cest-a-dire Y N (0, I). Par consequent:
74 P. DESCHAMPS, COURS DECONOMETRIE
X MX = X (CC )M(CC )X
= X C(C MC)C X
Ik O k
= Y Y = Yi2 2k .
O O i=1
Demonstration
Demonstration
ne depend que des n k derniers elements de Y , qui sont independants des k premiers;
k
comme X MX = i=1 Yi2 , la proposition est demontree.
Test: H0 : = 0 contre H1 : = 0
Echantillon: yi N (, 2 ) independantes.
On a vu au chapitre V de la premiere partie que la statistique a employer est:
y 0 1 2
tobs = avec s2 = (yi y) .
s/ n n1
Quelle est la distribution de tobs si H0 est vraie? On va montrer que tobs tn1 .
Solution: on peut ecrire:
y 0
/ n N
tobs = =
(yi y)
2 D
(n 1) 2
ou:
y 0 i
x=
1
B = i
n
1
M =I ii
n
i etant un vecteur n 1 dont tous les elements sont unitaires.
Si H0 est vraie, x N (0, I).
Nous montrerons au cours que M est symetrique, idempotente, de rang n 1; Nous
montrerons de plus que BM est un vecteur nul.
Alors le theoreme de la section 4.2.3 implique que D est la racine dune 2n1 divisee
par n 1 et le theoreme de la section 4.2.4 implique lindependance de N et de D.
Alors, par denition, tobs tn1 .
SECONDE PARTIE, CHAPITRE V 77
CHAPITRE V
Les notions presentees dans les deux chapitres precedents vont nous permettre de gene-
raliser les resultats des chapitres I et II a un modele econometrique possedant un nombre
arbitraire k de variables explicatives, soit:
Pour prendre un exemple, il est raisonnable de supposer quune loi de demande com-
prenne comme variable explicative non seulement le prix PY du bien demande, mais aussi
le prix PX dun substitut et le revenu R du consommateur. Nous aurions alors:
yt = 1 + 2 (PY )t + 3 (PX )t + 4 Rt + ut .
Une formulation matricielle du modele simpose. Il peut secrire sous la forme suivante:
y1 1 x12 ... x1k 1 u1
y2 1 x22 ... x2k 2 u2
. = . .. .. .. . + .
. .. . . . . ..
. .
yn 1 xn2 ... xnk k un
H1 : E(u) = 0
H2 : E(uu ) = 2 I
H3 : X est non aleatoire
H4 : rang(X) = k < n .
78 P. DESCHAMPS, COURS DECONOMETRIE
Lhypothese H2 implique que les erreurs sont de meme variance, et non correlees. Si
lhypothese H4 netait pas satisfaite, il existerait une relation lineaire exacte entre certaines
des colonnes de X: En substituant cette relation dans lequation de regression, on pourrait
alors supprimer un regresseur. Ceci revient a dire que le vecteur ne pourrait pas etre
estime de maniere unique.
Notons que nous ne faisons pas encore dhypotheses sur la forme fonctionnelle de la
distribution de u.
u u = (y X ) (y X )
= y y X y y X + X X
= y y 2 X y + X X .
Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque
u u
= 2X X ,
une matrice denie positive, ce qui montre que u u est convexe en .
SECONDE PARTIE, CHAPITRE V 79
5.3.1 Esperance de .
E() = E (X X)1 X (X + u)
= E + (X X)1 X u = + (X X)1 X E(u) = .
V () = E ( )( )
1 1
= E (X X) X uu X(X X)
= (X X)1 X E(uu )X(X X)1
= 2 (X X)1 (X X)(X X)1 = 2 (X X)1 .
Nous allons montrer que est le plus ecace des estimateurs lineaires de . Plus
precisement, si est un autre estimateur lineaire sans biais de , cest-a-dire si E() =
et = Ay, les variances de ses composantes ne peuvent etre inferieures a celles des
composantes de :
V (i ) V (i ) , pour i = 1, 2, . . . , k .
80 P. DESCHAMPS, COURS DECONOMETRIE
Demonstration
Soit donc = Ay un autre estimateur lineaire de . Nous pouvons supposer sans perte
de generalite que:
A = (X X)1 X + C.
Alors:
= (X X)1 X + C (X + u)
= + (X X)1 X u + CX + Cu = [I + CX] + Au
E ( )( ) = E Auu A
= 2 AA
= 2 (X X)1 X + C X(X X)1 + C
= 2 (X X)1 + (X X)1 X C + CX(X X)1 + CC
= 2 (X X)1 + CC puisque CX = O
= V () + 2 CC .
Mais les elements de la diagonale de CC sont des sommes de carres, donc non negatives.
Les variances des composantes de sont donc superieures ou egales aux variances des
composantes de .
SECONDE PARTIE, CHAPITRE V 81
Comme precedemment (section 1.5) notre estimateur sans biais sera base sur
2
2 =
(ut u) = 0. (En eet, la premiere ligne de la matrice (X X) est
ut puisque u
le vecteur i X avec i = [1, 1 . . . 1] ; la premiere composante du vecteur X y est i y. La
premiere equation normale secrit alors i X = i y, ou i (y X ) = i u = ut = 0). Pour
trouver, comme precedemment, un estimateur sans biais de 2 , calculons E(u u).
Nous avons
u = y X = X + u X(X X)1 X (X + u)
= X + u X X(X X)1 X u
= I X(X X)1 X u = Mu .
def
E(u u) = E(u Mu) = E(tr u Mu) puisque u Mu est un scalaire
= E(tr Muu ) puisque trAB = trBA
= trE(Muu ) puisque la trace est une somme
= trME(uu ) puisque M est non aleatoire
Mais trM = trIn trX(X X)1 X
= trIn tr(X X)(X X)1 = trIn trIk
= nk.
u u
Alors E(u u) = (n k) 2 et s2 = nk est un estimateur sans biais de 2 .
82 P. DESCHAMPS, COURS DECONOMETRIE
Nous commencons, comme a la section 1.9, par demontrer une formule de calcul de u u.
Lemme
u u = y y X y .
Demonstration
u u = (y X ) (y X )
= y y 2 X y + (X X)
= y y X y puisque (X X) = X y .
2
2
(yt y) = yt y + u2t , soit:
(i y)2
Pour demontrer cette identite, notons que (yt y)2 = y y n
(i X )2
et (yt y) 2
= (X ) (X )
n
(i y)2
= (X X)
n
(puisque i y = i X + i u et i u = 0)
(i y)2
= X y .
n
SECONDE PARTIE, CHAPITRE V 83
Par le lemme, nous avons y y = u u + X y,
(i y)2 (i y)2
donc y y = X y + u u ,
n n
SCR/n k n1 2 k1
R2 = 1 = R
SCT/n 1 nk nk
qui est, lui, base sur des estimateurs sans biais des variances. Si lon ajoute un regresseur,
R2 crotra toujours (non strictement); ceci nest pas le cas pour R2 .
Dans un modele sans terme constant, la somme des residus nest pas necessaire-
ment nulle et la decomposition precedente (SCT = SCR +SCE) nest donc plus valable.
Le R2 precedent nest donc pas necessairement compris entre 0 et 1. Neanmoins, on a
toujours, en vertu du lemme:
y y = X y + u u = y y + u u
avec y = X .
On peut alors denir:
y y u u
R2 = =1
yy yy
qui est, lui, toujours compris entre 0 et 1. Ce coecient R2 peut etre utilise dans tous
les cas, tant dans un modele sans constante que dans un modele avec constante. Mais son
interpretation est dierente de celle du R2 .
Comme precedemment, nous pouvons ajuster ce dernier coecient de determination
aux nombres de degres de liberte, comme suit:
u u/(n k) n1 2 k1
R2 = 1 = R .
y y/(n 1)
nk nk
84 P. DESCHAMPS, COURS DECONOMETRIE
5.7.1 Multicolinearite.
(1) Comme nous lavons deja mentionne, lexistence dune relation lineaire exacte entre
les colonnes de X nous empeche de determiner lestimateur de maniere unique. Ce
cas est un cas extreme de multicolinearite. Mais il arrive souvent que certaines des
colonnes de X presentent une dependance lineaire approximative. Les consequences
de ce phenomene sont les suivantes:
un manque de precision dans les estimations des i , se traduisant par de fortes
variances;
les estimations des i presenteront souvent des distortions importantes, dues a
des raisons numeriques. Le nombre de chires signicatifs des emplacements-
memoire dun ordinateur est en eet limite, ce qui se traduit par un manque
de stabilite des programmes dinversion matricielle, pour des matrices qui
sont presque singulieres.
Pour illustrer le premier point, reprenons le modele de regression simple
yt = a + bxt + ut . Nous avons vu que
2
V (b) = .
(xt x)2
les variables log Kt et log Lt soient fortement colineaires. Si lon sait que les
rendements dechelle sont constants ( + = 1), on peut transformer le modele
comme suit:
ce qui a donc pour eet de supprimer un regresseur. Ceci peut resoudre le pro-
bleme. Essentiellement, linformation a priori + = 1 supplee au defaut dinfor-
mation present dans lechantillon (tentative destimer trop de parametres avec trop
peu de donnees).
Cette information a priori peut egalement prendre une forme stochastique, non
deterministe. Nous etudierons ce point lorsque nous verrons les methodes baye-
siennes.
y = X + u = X1 1 + X2 2 + u , avec 2 = 0 et E(u) = 0
et que lon omette les colonnes de X2 de la liste des regresseurs. On estimerait alors par
moindres carres le modele
y = X1 1 + u avec u = X2 2 + u
1 = (X 1 X1 )1 X1 y = 1 + (X 1 X1 )1 X1 u
sera biaise.
86 P. DESCHAMPS, COURS DECONOMETRIE
Une variable muette, ou binaire (en anglais: dummy variable) est une variable du type
Dt = 1 si t T1
Dt = 0 si t T1
ou T1 {1, 2, . . . , n}.
Une telle variable, incluse dans la liste des regresseurs, pourrait par exemple indiquer
la presence ou labsence de guerre, ou classier des donnees selon un critere saisonnier.
Pour des donnees mensuelles, sil ny pas de variations saisonnieres a linterieur dun meme
trimestre, on pourrait poser:
D1t =1 si t est un mois du premier trimestre, 0 sinon
D2t =1 si t est un mois du second trimestre, 0 sinon
D3t =1 si t est un mois du troisieme trimestre, 0 sinon
D4t =1 si t est un mois du quatrieme trimestre, 0 sinon.
Les quatre colonnes des regresseurs D1 , D2 , D3 , D4 pour les 12 mois dune annee
auraient alors la forme suivante:
1 0 0 0
1 0 0 0
1 0 0 0
0 1 0 0
0 1 0 0
0 1 0 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 0 1
0 0 0 1
0 0 0 1
Nous ne pourrions pas inclure de constante dans ce modele, puisque la somme de ces
quatre vecteurs est un vecteur de uns. On aurait alors colinearite parfaite. Les coecients
des variables Di sont en fait des constantes speciques a chaque saison.
SECONDE PARTIE, CHAPITRE V 87
Une autre possibilite serait dinclure une constante, et de supprimer lune des variables
Di , par exemple D1 . Les coecients de D2 , D3 et D4 mesureraient alors leet relatif des
facteurs saisonniers: les constantes speciques seraient 1 , 1 + 2 , 1 + 3 , 1 + 4
plutot que 1 , 2 , 3 , 4 .
Notons aussi que les variables muettes permettent la specication de pentes variables.
Si Dt = 1 pour une periode de guerre, = 0 sinon, et que lon a des raisons de penser que
la propension marginale a consommer dans le modele:
Ct = + Yt + ut
est dierente en temps de paix et en temps de guerre, on pourra estimer les parametres
du modele:
H5 u N (0, 2 I) .
! "
2 n/2 1
2
L(, ) = (2 ) exp 2 (y X) (y X)
2
n n 1
et loge L = loge 2 loge 2 2 (y X) (y X) .
2 2 2
Nous avons alors les conditions de premier ordre suivantes:
loge L 1
= 2 (2X y + 2X X) = 0 (voir Section 5.2).
2
loge L n 1
= + (y X) (y X) = 0 .
2 2 2 2 4
La premiere condition implique = (X X)1 X y. En remplacant par dans la
u u
seconde condition et en la multipliant par 2 2 , on obtient 2 = n comme estimateur de
2 par maximum de vraisemblance.
88 P. DESCHAMPS, COURS DECONOMETRIE
ou ui est un terme derreur aleatoire satisfaisant nos hypotheses. Les donnees de lechan-
tillon sont resumees dans la matrice suivante:
(logY )2 logY logY logX1 logY logX2
logY n logX1 logX2
logY logX1 logX1 (logX1 )2 logX1 logX2
logX2 logY logX2 logX2 logX1 (logX2 )2
19.34 11.8 7.1 4.1
11.8 10 2 2
= .
7.1 2 7 1
4.1 2 1 7
On a:
10 2 2
(X X) = 2 7 1
2 1 7
11.8
Xy = 7.1 et yy = 19.34
4.1
90 P. DESCHAMPS, COURS DECONOMETRIE
48 12 12
1 1
(X X) = 12 66 6
432
12 6 66
1
1
= (X X) X y = 0.7
0.2
X y = 17.59
u u = 19.34 17.59 = 1.75
s2 = 0.25
1.75
R2 = 1 (11.8)2
= 0.677
19.34 10
9 2
R2 = (0.677) = 0.585 .
7 7
Les resultats peuvent etre resumes de la facon suivante (les estimations des ecarts-types
se trouvent entre parentheses):
CHAPITRE VI
Rc = r ,
R = (0 1 1) et r = 1 .
Notons que ce probleme pourrait aussi etre resolu par substitution; cest ce que nous
avons fait a la section 5.7.1 (3). Mais une presentation matricielle nous sera tres utile
lorsque nous verrons, au chapitre 7, le test de R = r.
Nous minimisons la somme des carres des residus sous les contraintes du systeme
Rc = r. A cette n, nous ecrivons ce systeme comme 2(Rc r) = 0, et nous formons le
Lagrangien:
= (y X c ) (y X c ) 2 (Rc r)
ou est un vecteur ligne de J multiplicateurs de Lagrange. Le systeme de conditions
de premier ordre peut secrire:
92 P. DESCHAMPS, COURS DECONOMETRIE
(1) = 2X y + 2(X X)c 2R = 0
c
(2) = 2(Rc r) = 0 .
En vertu de (1), on a:
(3) c = + (X X)1 R
En premultipliant par R:
Rc = R + R(X X)1 R
1
Ceci implique = R(X X)1 R [r R].
En substituant dans (3), il vient:
1 1
(4) c = + (X X) R R(X X)1 R [r R] .
Nous allons maintenant montrer que si les restrictions a priori sont veriees par le
vecteur (c.a.d. par les vraies valeurs des parametres a estimer), lestimateur c est au
moins aussi ecace que lestimateur ; en particulier,
1 1
c = + (X X) X u + (X X)1 R R(X X)1 R r R R(X X)1 X u
1 1
= + I (X X)1 R R(X X)1 R R (X X) X u
sous lhypothese R = r
= + A(X X)1 X u .
def
2 A(X X)1 A = V V R (RV R )1 RV
ou: V (c ) = V () V R (RV R )1 RV .
Comme la seconde matrice de la dierence est denie non negative, les elements de sa
diagonale sont non negatifs et V (ic ) V (i ), Q.E.D.
Exemple
Reprenons le modele et les donnees de la section 5.9. Nous voulons imposer la contrainte
que les rendements dechelle sont constants. On a:
r = 1, R = [0 1 1]
1 10
R(X X)1 R = (66 6 + 66 6) =
432 36
94 P. DESCHAMPS, COURS DECONOMETRIE
et donc:
1 48 12 12 0
36 1
c = 0.7 + (0.1) 12 66 6 1
10 432
0.2 12 6 66 1
1 0.02 0.98
= 0.7
+ 0.05
= 0.75 .
0.2 0.05 0.25
Nous allons voir dans cette section que la somme des carres des residus contraints est
toujours superieure ou egale a la somme des carres des residus non contraints. Ceci a une
consequence sur le R2 .
Soit uc = y X c le vecteur des residus contraints. On a:
uc uc = (y X c ) (y X c )
= (y X + X X c ) (y X + X X c )
= (u + X[ c ]) (u + X[ c ])
= u u + 2( c ) X u + ( c ) X X( c )
= u u + ( c ) X X( c ).
Mais le second terme de cette somme est positif ou nul, car X X est denie positive.
On a donc :
uc uc u u
et comme:
ucuc
R2c =1
(yt y)2
u u
R2 = 1
(yt y)2
ceci implique R2c R2 .
On peut aussi noter (ceci nous sera utile au chapitre suivant) que si u N (0, 2 I),
lestimateur c maximise la vraisemblance sous la contrainte Rc = r.
SECONDE PARTIE, CHAPITRE VII 95
CHAPITRE VII.
Nous allons tout dabord presenter la theorie generale du test de J contraintes indepen-
dantes de la forme discutee plus haut. Ce test inclut comme cas particulier tous les tests
mentionnes au chapitre II; nous reexaminerons ces tests a la section 7.2 dans le cadre de
la regression multiple. Soit donc a tester:
H0 : R = r
contre H1 : R = r ,
H5 : u N (0, 2 I) .
maxH0 L(, 2 )
= ;
max L(, 2 )
Lestimation du modele sous H0 et sous a deja ete traitee. On avait obtenu sous H0 :
1
c = + (X X)1 R R(X X)1 R r R
1 1
c2 = (y X c ) (y X c ) = uc uc ,
n n
et sous :
= (X X)1 X y
1 1
2 = (y X ) (y X ) = u u.
n n
Il sut de remplacer, dans lexpression de , et 2 par ces valeurs. En faisant les
substitutions, on obtient:
L(c , c2 )
=
L(, 2 )
n/2 nc2
(2) (c2 )n/2
exp 2
2c
=
n 2
(2) n/2 2
( ) n/2 exp 2
2
2 n/2
c
=
2
n/2
uc uc
=
u u
n/2
u u + uc uc u u
=
u u
n/2
Q
= 1+
u u
ou:
Q = uc uc u u.
Q = ( c ) X X( c ).
nk
F = (2/n 1) .
J
Nous invitons le lecteur a verier, a titre dexercice, que la matrice L denie a la section
precedente verie:
(1) L = L
(2) LL = L
.
Le fait que u Mu = u u et les resultats de la section 4.2 impliquent alors, puisque
u
N (0, I):
Q u u
2
= L 2J sous H0
u u u u
= M 2nk
2
et ces deux variables aleatoires sont independantes puisque LM = O.
Par consequent:
Q Q/J Q/[ 2 J ]
Fobs = = =
J s2 u u/(n k) u u/[ 2 (n k)]
est un rapport de deux 2 independantes divisees par leurs nombres de degres respectifs
et a la distribution FJ,nk sous H0 .
En utilisant:
n/2
Q
= 1+
u u
98 P. DESCHAMPS, COURS DECONOMETRIE
Donc pour calculer Fobs, il sut destimer les modeles contraints et non contraints et
de comparer les variances estimees.
A la section 5.4 de la premiere partie, nous avions enonce la statistique de Wald pour
le test dune hypothese portant sur un seul parametre inconnu i , et nous avions vu que
cette statistique:
(i 0 )2
W=
V (i )
pouvait etre interpretee comme le carre dune distance entre les estimations sous les hypo-
theses nulle et alternative.
Ici, nous avons un test joint de J hypotheses: celui de H0 : R = r contre H1 : R = r.
En posant R = , on peut considerer ce test comme celui dune hypothese nulle sur .
Lexpression precedente va devenir une forme quadratique, qui peut etre interpretee comme
le carre dune distance dans un espace a J dimensions. Lexpression precedente peut etre
generalisee comme suit:
W = (R r) [V (R)]1 (R r)
= (X X)1 X y
Jn
= Fobs.
nk
Donc:
nk
Fobs = W
Jn
est bien une fonction monotone de la statistique de Wald.
Donc:
ou 02 = uc uc /n.
En utilisant (1) et (2), il vient:
LM = 0 [V0 ()]1 0
(R r) [R(X X)1 R ]1 (R r)
=
02
Q
= 2.
0
1 2 2 + Q/n 1 2
= 0 = = +
LM Q Q n Q
nk 2
1 s
= + n
n Q
J
J
J Fobs + n k
=
nJ Fobs
et donc:
nJ Fobs
LM = .
J Fobs + n k
H0 : i = i0
contre H1 : i = i0
R = (0 0 ... 0 1 0 ... 0)
ou lunite apparait en ieme position. r est le scalaire i0 .
On obtient alors:
(i i0 )2
Fobs = F1;nk = t2nk
s2 [(X X)1 ]ii
et la statistique
(i i0 )
tobs = #
s [(X X)1 ]ii
H0 : = 0
contre H1 : = 0 .
La matrice R nest autre que la matrice unite dordre k. Le vecteur r est le vecteur nul (de
dimensions k 1).
On a alors:
(X X)/k
Fobs = Fk;nk sous H0 .
s2
Il est interessant detablir un lien entre cette statistique et le R2 , car ceci nous permettra
denoncer des valeurs critiques pour ce dernier. La statistique peut secrire:
y y nk
Fobs =
u u k
y y/y y nk
=
u u/y y k
R2 nk
= .
1 R2 k
Donc Fobs est bien une fonction monotone du R2 . Sa reciproque est donnee par:
kFobs
R2 =
n k + kFobs
102 P. DESCHAMPS, COURS DECONOMETRIE
kFk,nk,
R2 > .
n k + kFk,nk,
Ceci indique que le seuil critique de R2 tend vers zero lorsque le nombre dobservations n
tend vers linni. Par exemple, un R2 de 0, 10 sera signicatif au seuil = 0, 05 si n = 122
et k = 2; mais il ne le sera pas pour k = 2 et n = 22.
7.6.3 Test de nullite de tous les coecients sauf la constante; lien avec R2 .
Le vecteur des k 1 derniers coecients de regression peut secrire:
2
..
= . .
k
R = ( O(k1)1 Ik1 ) ,
r = 0.
(k 1)Fk1,nk,
R2 > .
n k + (k 1)Fk1,nk,
Par consequent:
Q = uc uc u u = (yt y)2 u u
Q
= 1 (1 R2 ) = R2
(yt y)2
u u
= 1 R2
(yt y)2
et donc:
uc uc u u nk R2 n k
Fobs = =
u u k1 1 R2 k 1
.
H0 : c = r
contre H1 : c = r
(c r)2
Fobs = F1;nk = t2nk
s2 (c (X X)1 c)
et la statistique:
c r
tobs = #
s c (X X)1 c
Supposons que nous observions k valeurs futures des k regresseurs a une periode
suivant la derniere periode de lechantillon. Ces valeurs forment un vecteur de dimension
1 k, soit x .
Nous desirons, comme precedemment (section 2.4), calculer un intervalle de prevision
centre sur la prevision y de la variable dependante.
Si le modele reste inchange a la periode , on a:
y = x + u
avec:
E(u u1 ) = = E(u un ) = 0
et:
y = x .
y y = u x ( ) .
E(y y ) = 0
V (y y ) = E(u2 ) + E(x ( ))2 2 Cov(u , x ( )) .
V (y y ) = 2 + E x ( )( ) x
= 2 + 2 x (X X)1 x .
y y
V = #
1 + x (X X)1 x
u u
et W = .
2 (n k)
106 P. DESCHAMPS, COURS DECONOMETRIE
V est une variable N (0, 1). u2u est une variable 2 avec n k degres de liberte, puisque
u
N (0, 1), u u = u Mu et rang M = n k (section 4.2).
Les deux sont independantes puisque V ne depend que de u et de:
( ) = (X X)1 X u
et que:
(X X)1 X I X(X X)1 X = O.
V y y
tobs = = # tnk
W s 1 + x (X X)1 x
Nous avons:
H0 : 3 = 0
H1 : 3 = 0 .
0.2
tobs = # = 1.023 .
0.5 66/432
Comme t7;0.025 = 2.365 > 1.023, nous ne rejetons pas H0 au seuil de signication
= 0.05.
SECONDE PARTIE, CHAPITRE VII 107
H0 : 1 = 1, 2 = 1, 3 = 0
contre H1 : 1 = 1 ou 2 = 1 ou 3 = 0 .
Ceci donne:
10 2 2 0
1
Fobs = (0 0.3 0.2 ) 2 7 1 0.3
3(0.25)
2 1 7 0.2
H0 : 1 = 0.5 et 2 = 0.5
H1 : 1 = 0.5 ou 2 = 0.5 .
On rejette donc H0 .
108 P. DESCHAMPS, COURS DECONOMETRIE
7.8.4 Si nous voulons tester lhypothese que la production de vin ne depend pas des facteurs
X1 et X2 , nous avons:
H0 : 2 = 0 et 3 = 0
H1 : 2 = 0 ou 3 = 0 .
Ceci donne:
R2 /2
Fobs = = 7.332 > 4.74 = F2;7;0.05 .
(1 R2 )/7
7.8.5 Enn, si nous voulons tester lhypothese que les rendements dechelle sont constants:
H0 : 2 + 3 = 1
H1 : 2 + 3 = 1 .
48 12 12
0
1
12 66
6
On a c (X X)1 c = (0 1 1) 1
432
12 6 66
1
120
= .
432
Ceci donne
1 0.7 0.2 0.1
tobs = # =
(0.5) 120/432 (0.5)(0.527)
7.8.6 Supposons quun onzieme vigneron vaudois engage 2 unites de main-doeuvre (X1 )
et emploie 3 unites dengrais (X2 ). Entre quelles bornes sa production de vin aura-t-elle
95 chances sur 100 de se situer? On a:
loge 2 = 0.69315
loge 3 = 1.09861
= 1.70493
CHAPITRE VIII
8.1 Introduction
Dans beaucoup de modeles econometriques, lhypothese que les erreurs sont de variance
constante et ne sont pas correlees entre elles ne peut pas etre faite. Cest ainsi que dans
notre exemple numerique precedent, la production de vin par hectare de deux agriculteurs
voisins pourrait fort bien etre inuencee par des conditions exogenes (meteorologiques ou
autres) communes, ce qui se traduirait par une correlation des erreurs.
Que se passerait-il si lon appliquait la methode des moindres carres ordinaires a un tel
modele? Nous verrons plus loin que les estimateurs i obtenus seraient toujours sans biais,
mais quils seraient inecaces; de plus, les estimateurs de leurs variances seraient biaises.
La methode de Aitken permet heureusement de remedier dans une large mesure a cet
etat de choses.
8.2 Exemples
Gy = GX + Gu
soit aussi:
y = X + u.
La matrice de covariance de u est donc:
yi = Xi i + ui pour i = 1, . . . , N
deux equations dierentes sont correlees a la meme periode). Si lon ecrit lequation de
regression precedente comme y = X + u, la matrice de covariance du vecteur u secrit:
u1 u1 ... u1 uN 11 IT ... 1N IT
.. = .. .. ..
E(uu ) = E ... ..
. . . . .
uN u1 ... uN uN 1N IT ... N N IT
et nest donc ni diagonale, ni scalaire.
y = X + u
avec E(u) = 0 et E(uu ) = 2 , ou est une matrice denie positive, supposee (tempo-
rairement) connue. Pour des raisons de commodite, nous utiliserons parfois la notation
V = 2 .
Nous allons voir quil existe une transformation lineaire du modele, soit une applica-
tion (y, X, u) (y , X , u ) telle que u verie les hypotheses du modele de regression
classique. On peut alors appliquer la methode des moindres carres ordinaires au modele
transforme.
Comme la matrice est symetrique, il existe une matrice orthogonale C telle que
C C = diag(1 , 2 , . . . , n ) = , ou les i sont les valeurs propres de . Comme est
def
denie positive, i > 0 pour tout i. Denissons alors
1/2 1 1
= diag ,..., .
1 n
mcg = (X T T X)1 X T T y
soit aussi:
mcg = (X 1 X)1 X 1 y
= (X V 1 X)1 X V 1 y
et lon a:
V () = E( )( ) = 2 (X T T X)1 = 2 (X 1 X)1 .
1
= (y X mcg ) (y X mcg )
nk
1
= (y X mcg ) T T (y X mcg )
nk
1
= (y X mcg ) 1 (y X mcg ) .
nk
= E (X X)1 X uu X(X X)1
y = x + u
p2 = E(y p)2
= c V c + 2 2c w.
L
= 2V c 2X 2w = 0 .
c
L
= 2X c + 2x = 0
secrit sous forme matricielle comme:
V X c w
=
X O x
c V 1 I X(X V 1 X)1 X V 1 V 1 X(X V 1 X)1 w
=
1 1 1 1 1
(X V X) XV (X V X) x
et
On sapercoit donc que le meilleur previseur lineaire sans biais sobtient en ajoutant a la
valeur calculee x mcg un terme correcteur w V 1 umcg , qui depend notamment du vecteur
w des covariances entre les erreurs passees et lerreur future, et du vecteur de residus umcg .
116 P. DESCHAMPS, COURS DECONOMETRIE
c = Mw + P Q1 x
avec:
P = X V 1
Q = X V 1 X
M = (V 1 P Q1 P ).
On verie par ailleurs par simple multiplication que:
Q1 P V P = I
Q1 P V M = O
M V M = M .
Alors:
c V c = w M V Mw + w M V P Q1 x + x Q1 P V Mw + x Q1 P V P Q1 x
= w Mw + x Q1 x .
De meme:
c w = w Mw + x Q1 P w
et donc, en substituant plus haut:
p2 = 2 w Mw + x Q1 x 2x Q1 P w .
p2 = 2 2c w + c V c
= 2 2x Q1 P w + x Q1 P V P Q1 x
= 2 2x Q1 P w + x Q1 x
= p2 + w Mw .
SECONDE PARTIE, CHAPITRE VIII 117
Nous allons montrer que la matrice M est denie non negative . Comme V 1 est denie
positive, il existe une matrice B reguliere telle que V 1 = B B (voir 3.1.3). Nous pouvons
alors ecrire:
M = V 1 P Q1 P
= V 1 V 1 X(X V 1 X)1 X V 1
= B I BX(X B BX)1 X B B
= B NB .
def
On verie par simple multiplication que N est symetrique et idempotente. Elle est alors
denie non negative, puisque ses valeurs propres sont 0 ou 1. Alors M = B NB est denie
non negative . Par consequent, w Mw 0, et p2 p2 .
118 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE IX
LAUTOCORRELATION ET LHETEROSCEDASTICITE
Cette hypothese a ete introduite pour remedier au probleme suivant. Il arrive frequem-
ment, dans les series chronologiques, que les residus presentent une allure cyclique: soit
un residu positif tend a etre suivi par un residu positif, et un residu negatif par un residu
negatif; soit les signes des residus successifs alternent. Le premier cas correspond a une
autocorrelation positive des erreurs; le second cas, a une autocorrelation negative.
Dans un modele de consommation par exemple, la presence dune autocorrelation po-
sitive des erreurs pourrait traduire une certaine inertie du comportement des agents: une
consommation superieure a la normale aurait tendance a se poursuivre durant plusieurs pe-
riodes successives. La presence dune autocorrelation negative pourrait traduire un pheno-
mene oscillatoire, lindividu compensant par une consommation moindre a la periode t un
exces de consommation a la periode t 1.
Dans un cas comme dans lautre, lhypothese de non correlation des erreurs est violee.
Il faut alors appliquer la methode de Aitken. Mais il est necessaire pour cela de decrire
formellement cette dependance des erreurs, cest-a-dire de postuler une forme explicite de
la matrice de covariance des erreurs. On fait donc les hypotheses suivantes:
ut = ut1 + t , avec:
|| < 1
E(t ) = 0 pour tout t,
E(t s ) = 2 (t = s)
= 0 (t = s) .
Lerreur ut possede donc une composante systematique ut1 et une composante pure-
ment aleatoire t .
SECONDE PARTIE, CHAPITRE IX 119
ut = (ut2 + t1 ) + t
= 2 ut2 + t1 + t
ut = i ti
i=0
ce qui implique:
E(ut ) = i E(ti ) = 0
i=0
= 2 (1 + 2 + 4 + . . . )
2
= .
1 2
De meme:
2
= E(u2t1 ) = = u2 .
1 2
120 P. DESCHAMPS, COURS DECONOMETRIE
= 2 E(u2t2 ) = 2 u2
E(ut uts ) = s u2 .
Comme nous lavons vu plus haut, il est avantageux de calculer mcg de la facon suivante:
On trouve dabord une matrice T telle que 1 = T T ; on applique ensuite les moindres
carres ordinaires a lequation T y = T X + T u. On verie egalement par multiplication
que T est donnee par:
SECONDE PARTIE, CHAPITRE IX 121
#
1 2 0 0 ... 0 0
1 0 ... 0 0
0 1 ... 0 0
1
T =# .
..
1 2 .. .. .. .. ..
. . . . . .
0 0 0 ... 1 0
0 0 0 ... 1
#
( 1 2 )z1
z2 z1
z = z3 z2
.
..
zn zn1
Cette methode est la plus employee. On commence par appliquer les moindres carres
ordinaires pour obtenir un vecteur u de residus, soit u = [I X(X X)1 X ]y. On obtient
ensuite en regressant ut sur ut1 . Ceci donne:
n
ut ut1
= t=2
n 2 .
t=2 ut1
On applique alors la formule des moindres carres generalises en remplacant par dans
lexpression de la matrice . Soit donc:
122 P. DESCHAMPS, COURS DECONOMETRIE
1 ... n2 n1
n3 n2
1 ...
. .. .. .. ..
=
.
. . . . .
.
n2 n3
... 1
n1 n2 ... 1
On calcule = (X 1 X)1 X 1 y. Ceci fournit un nouveau vecteur de residus u =
y X . Ce nouveau vecteur peut servir a calculer une nouvelle estimation de , soit .
Cette derniere peut servir a calculer une troisieme estimation de , et ainsi de suite. On
peut poursuivre cette procedure jusqua la convergence des estimations de .
k
yt = j Xjt + ut .
j=1
k
yt1 = (j )Xjt1 + ut1 .
j=1
k
k
yt = yt1 + j Xjt (j )Xjt1 + t
j=1 j=1
qui est une equation de regression comportant 2k + 1 regresseurs. Comme les t verient
les hypotheses du modele de regression classique, on applique la methode des moindres car-
res ordinaires pour estimer . (Son estimateur est celui du coecient de yt1 ). Comme yt1
est un regresseur stochastique (il depend de t1 ), nous verrons plus loin que lestimateur
ainsi obtenu nest pas sans biais.
On remplace alors, comme precedemment, par dans lexpression de , et applique
la formule des moindres carres generalises.
Notons que lestimateur = (X 1 X)1 X 1 y sappelle parfois lestimateur Aitken-
pur ; = (X 1 X)1 X 1 y sappelle alors lestimateur Aitken-realisable.
SECONDE PARTIE, CHAPITRE IX 123
Elle permet de tester lhypothese nulle que = 0, contre les hypotheses alternatives
= 0, ou > 0, ou < 0. Sa distribution na pas pu etre determinee independamment
de la forme de la matrice X. Il existe donc une zone de valeurs de cette statistique pour
lesquelles on ne pourra rejeter ni lhypothese nulle, ni lhypothese alternative.
La statistique de Durbin-Watson est denie comme:
n
(ut ut1 )2
t=2
dobs = n 2
t=1 ut
ou les ut sont les residus des moindres carres ordinaires.
Nous allons etudier ses proprietes lorsque n tend vers linni.
Plus precisement, nous montrerons que si n est susamment grand dobs est approxima-
tivement egale a 2 lorsque = 0; a 0 lorsque = 1; et a 4 lorsque = 1. En eet,
n n n
t=2 ut1 2
2 2
t=2 ut + t=2 ut ut1
dobs = n 2
t=1 ut
n n
2 2
t=2 ut 2 t=2 ut ut1
n 2 ,
t=2 ut
puisque:
n
n
u2t u2t1
t=2 t=2
n n
u2t u2t .
t=1 t=2
1
n 2
Il est raisonnable de supposer que lorsque n tend vers linni, n1 t=2 ut tend vers
1
n
u2 et n1 2
t=2 ut ut1 tend vers Cov(ut , ut1 ) = u . On a alors, en divisant numerateur
et denominateur par n 1:
2u2 2u2
dobs = 2(1 )
u2
ce quil fallait montrer.
Les valeurs de dobs qui sont proches de 2, nous conduisent donc a ne pas rejeter = 0;
celles qui sont proches de 0, a rejeter = 0 en faveur de > 0; celles qui sont proches de 4,
a rejeter = 0 en faveur de < 0. La table des valeurs critiques fournit deux valeurs, dU
et dL , pour chaque combinaison de nombres dobservations (n) et de nombres de variables
explicatives (k = k 1). La zone dL < dobs < dU est une zone dincertitude, de meme que
la zone 4 dU < dobs < 4 dL . Pour ces valeurs de dobs , on ne pourra rejeter ni = 0, ni
= 0.
124 P. DESCHAMPS, COURS DECONOMETRIE
Les regles de decision sont resumees dans le tableau suivant (lhypothese nulle est tou-
jours H0 : = 0):
Note importante: Le test de Durbin-Watson ne peut pas etre employe lorsque les
regresseurs incluent des variables endogenes retardees.
Nous avons vu a la Section 8.4 que le meilleur previseur lineaire sans biais dune valeur
future y de la variable dependante etait p = x mcg + w V 1 u, avec w = E(u u), V =
E(uu ) et u = y X mcg . Nous allons illustrer cette regle de prevision dans le modele a
erreurs autoregressives dordre un, en supposant = n + 1. Le vecteur w prend la forme:
E(u1 un+1) n n1
. .
E(u2 un+1) .. ..
w=
= u = u
2
2
.
.. 2
.
E(un un+1) 1
p = xn+1 mcg + un .
Linterpretation de cette formule est immediate. On ajoute a la valeur calculee xn+1 mcg
un terme correcteur qui aura le signe du dernier residu de lechantillon si le coecient de
correlation entre deux erreurs successives est positif, le signe contraire sinon.
SECONDE PARTIE, CHAPITRE IX 125
Nous avons deja rencontre ce probleme a la section 8.2.1. Lorsquil se rencontre sous
cette forme, il est tres facile a traiter: la matrice E(uu ) est en eet connue, egale a
2 diag(k1 , . . . , kn ) ou les ki sont des constantes positives connues.
La matrice de transformation a utiliser est alors bien entendu diag ( 1k , . . . , 1k ): Il
1 n
sut de multiplier les k + 1 donnees correspondant a la t-ieme observation par 1k pour
t
retrouver une matrice de covariance scalaire.
Il existe bien sur dautres formes dheteroscedasticite. Il peut etre raisonnable de suppo-
ser que la variance des erreurs augmente avec la valeur absolue de lun des regresseurs, soit,
par exemple, que E(u2t ) = 2 Xt2 . Il sut alors de multiplier les donnees correspondant a
la t-ieme observation par 1 2 .
Xt
Plus generalement, nous allons voir quune heteroscedasticite des erreurs peut etre in-
duite par des variations aleatoires des coecients de regression, en illustrant cette situation
a laide dun exemple simple. Soit donc le modele:
yt = a + bxt + ut
yt = a + (b + t )xt + ut
= a + b xt + (ut + t xt )
= a + b xt + vt
depend de lindice t.
Une solution possible, en grand echantillon, est de poser:
vt2 = + x2t + t
On denit les coecients dautocorrelation empiriques des residus ut des moindres carres
comme: n
ut uts
Rs = t=s+1 n 2 .
t=1 ut
V (ut ) = V (uts ) = u2
Cov(ut , uts ) = s u2 , et donc:
Cov(ut , uts )
rs = # = s .
V (ut )V (uts )
Le coecient dautocorrelation theorique decrot donc geometriquement avec s. Un tel
comportement de la fonction dautocorrelation empirique Rs est donc indicatif derreurs
autoregressives.
Pour un processus a moyenne mobile dordre un:
ut = t + t1
ou les t sont des erreurs fondamentales avec E(t ) = 0 pour tout t, E(2t ) = 2 pour tout
t, et E(t ts ) = 0 pour s > 0, on a:
Par consequent:
Cov(ut , uts )
rs = # = si s = 1;
V (ut )V (uts ) 1 + 2
= 0 si s > 1.
Ces observations peuvent etre generalisees a des processus dordre superieur au premier.
Plus generalement, un comportement du type:
Rs = 0 pour 1 s
Rs 0 pour s >
sera indicatif derreurs a moyenne mobile; tandis que la convergence vers zero sera graduelle
pour un processus autoregressif.
H0 : 1 = 2 = = p = 0
contre:
H1 : (1 , 2 , . . . , p ) = (0, 0, . . . , 0).
cette statistique est identique a la statistique LM utilisee pour tester la nullite jointe des
i dans lequation de regression auxiliaire:
Rappelons qua la section 9.7, nous avions vu que des variations aleatoires dun coe-
cient de regression pouvaient se traduire par une heteroscedasticite du type:
V (ut ) = + x2t
ou xt est une variable explicative du modele estime.
Si de telles variations aleatoires portent sur plusieurs coecients dun modele de regres-
sion multiple, ceci conduit naturellement a lhypothese:
u2t = + yt2 + t .
Cette statistique est basee sur des criteres heuristiques, et nest pas necessairement la
meilleure.
SECONDE PARTIE, CHAPITRE IX 129
Pour une variable normale Y N (0, 1), il est facile de montrer a laide de la fonction
generatrice des moments que:
E(Y 3 ) = 0 et E(Y 4 ) = 3.
E(X E(X))3
= 0,
3
E(X E(X))4
= 3.
4
La variance 2 peut etre estimee par:
n
1
m2 = (xt x)2 .
n t=1
Nous voulons trouver les meilleures estimations lineaires sans biais de a et de b dans le
modele:
yt xt
8 3
12 6
14 10
15 12
15 14
18 15
1 3
1 6
1 10
.
1 12
1 14
1 15
Nous transformons le vecteur y et les deux colonnes de cette matrice selon la regle
enoncee a la section 9.3. Ceci donne, puisque = 0.6:
SECONDE PARTIE, CHAPITRE IX 131
0.8 2.4 6.4
0.4 4.2 7.2
0.4 6.4 6.8
X = et y =
0.4 6.0 6.6
0.4 6.8 6.0
0.4 6.6 9.0
On verie que:
1.44 13.92
(X ) X =
13.92 190.16
19.36
(X ) y =
228.92
6.1817
1
et mcg = ( (X ) X ) (X ) y = .
0.7513
Calculons maintenant le previseur de y7 si x7 = [1 20]. On a:
Dans le second cas, on estime directement X V X (et non pas V ) par une methode spec-
trale. Pour une introduction, voir Hamilton, Time-Series Analysis, chapitre 10. La methode
necessite le choix dune fonction de ponderation (kernel function) et dun parametre de
troncation (window width).
En pratique ces methodes ne donnent de bons resultats que lorsque la taille de lechan-
tillon est assez grande. Par ailleurs lestimateur mco reste inecace.
SECONDE PARTIE, CHAPITRE X 133
CHAPITRE X.
10.1 Introduction
Les proprietes des estimateurs que nous avons rencontres lors de letude des moindres
carres ordinaires et lors de celle des moindres carres generalises si E(uu ) est une matrice
connue etaient toutes valables quelle que soit la taille n de lechantillon. Sous lhypothese
de normalite des erreurs, nous avons pu determiner leur distribution de facon exacte,
en fonction de n. Mais ces distributions exactes prennent vite une forme tres complexe
lorsque la methode destimation devient plus elaboree, comme cest le cas pour la methode
Aitken-realisable. Leur etude necessite des outils theoriques que nous ne pouvons passer en
revue ici; lapplication empirique de ces resultats dits de petit echantillon fait appel a des
techniques numeriques couteuses et complexes; de plus, les moments de ces distributions
de petit echantillon nexistent pas toujours!
Fort heureusement, la situation devient souvent beaucoup plus simple a la limite, lorsque
la taille de lechantillon tend vers linni. Cest ainsi que nous pourrons montrer que lorsque
la taille de lechantillon tend vers linni, la distribution de lestimateur Aitken-realisable
tend vers une loi normale. Nous pourrons alors nous baser sur cette loi pour eectuer des
tests approximatifs, dits tests asymptotiques.
La theorie que nous allons exposer dans ce chapitre sera aussi utilisee pour etudier
certains estimateurs proposes lorsque les regresseurs sont stochastiques, notamment dans
le cadre des modeles dynamiques et dans celui des systemes dequations simultanees.
Elle peut aussi etre employee pour faire des tests dhypotheses dans un modele de
regression lineaire dont les erreurs ne sont pas distribuees normalement, et pour lequel les
hypotheses du chapitre VII de cette seconde partie ne sont par consequent pas veriees.
Soit (Xn ) une suite de variables aleatoires. Cette suite converge en probabilite vers un
nombre a si et seulement si:
On ecrira alors:
plim Xn = a, ou Xn a
n p
.
Lorsque cette propriete est veriee, les densites des Xn tendent vers une densite dont
toute la masse est concentree au point a (distribution degeneree).
Lorsque a est un parametre inconnu et Xn un estimateur de a, lestimateur est dit
convergent si plimn Xn = a .
Si Xn est non aleatoire, la limite en probabilite se reduit a une limite habituelle.
Enonce.
Soit X une variable aleatoire continue avec E(X) = et V (X) = 2 < . Pour tout
nombre reel > 0 , X verie linegalite suivante, dite inegalite de Chebychev:
2
P [|X | > ] .
2
Demonstration
Si X est une variable continue de densite fX (x), on a par denition de sa variance:
%
2
= (x )2 fX (x)dx
%R %
= (x ) fX (x)dx +
2
(x )2 fX (x)dx
{x:|x|>} {x:|x|}
%
(x )2 fX (x)dx
{x:|x|>}
%
2
fX (x)dx = 2 P [|X | > ]
{x:|x|>}
Enonce. Soit (Yn ) une suite de variables aleatoires avec E(Yn ) = et limn V (Yn ) =
0. Alors plim Yn = .
V (Yn )
P [|Yn | > ] .
2
SECONDE PARTIE, CHAPITRE X 135
V (Yn )
lim P [|Yn | > ] lim = 0.
2
Comme une probabilite ne peut pas etre strictement negative, la limite de la probabilite
est nulle, ce qui implique le resultat.
alors plim Xn = .
Soit (Xn ) une suite de variables aleatoires, et soit (FXn ) la suite de leurs fonctions
de distribution. La suite (Xn ) converge en distribution vers la variable aleatoire X , de
distribution FX , si et seulement si:
dlim Xn = X , ou Xn X .
n d
Ce type de convergence est plus faible que le precedent. Sa principale application est le
theoreme central limite, que nous verrons plus loin.
Comme exemple, prenons la moyenne Xn de n observations Xi independantes, despe-
rances nulleset de variances unitaires. La loi faible des grands nombres implique plim Xn =
0. La suite nXn ne converge pas en probabilite, mais bien en distribution; on verra par
la suite que la distribution limite est normale.
Les moments de la distribution limite FX sappellent moments asymptotiques de Xn .
On parle en particulier de lesperance asymptotique dun estimateur, ou de sa variance
asymptotique; on peut parler de meme dun estimateur asymptotiquement sans biais, ou
asymptotiquement ecace. Il est tres important de noter que ces moments asymptotiques
136 P. DESCHAMPS, COURS DECONOMETRIE
ne sont pas denis comme les limites des moments des distributions FXn , mais bien comme
les moments de la distribution limite FX ! Ceci pour deux raisons: les moments des FXn
peuvent ne pas exister; et les FXn peuvent ne pas etre entierement caracterisees par leurs
moments. Nous pouvons illustrer la premiere raison en mentionnant que la variance dune
variable Student a un degre de liberte nexiste pas; la seconde en mentionnant que la
distribution lognormale (distribution de Y = eX avec X N (, 2 )) nest pas entierement
caracterisee par ses moments.
Exercice: Soit n = 10000 et m = 1000. Supposons que lon ait engendre par simulation nm
observations independantes xij de distribution uniforme sur lintervalle [1, 1], pour i =
n
1, . . . , n et j = 1, . . . , m. On calcule, pour j = 1, . . . , m, les moyennes xj = n1 i=1 xij .
A quoi ressemblera lhistogramme des xj ? A quoi ressemblera lhistogramme des nxj ?
Enonce. Soit (Xn , Yn ) une suite de paires de variables aleatoires. Si plim(Xn Yn) = 0
et dlim Yn = Y , alors dlim Xn = Y .
Ce theoreme etablit la preservation des limites en probabilite par les fonctions continues:
(2) Si (An ), (Bn ) sont deux suites de matrices conformes pour la multiplication et si
plim(An ), plim(Bn ) existent, on a: plim(An Bn ) = plim(An ) plim(Bn ) .
(3) Si (An ) est une suite de matrices regulieres et si plim(An ) existe et est reguliere,
alors: plim(A1
n ) = (plim An )
1
.
10.6.3 Convergence en distribution de fonctions de variables aleatoires.
Enonce.
(1) Si g est continue et si dlim Xn = X, alors dlim g(Xn ) = g(X)
(2) Supposons que dlim Yn = Y et que plim Xn = a, avec a constante. Alors:
dlim(Xn + Yn ) = a + Y
dlim(Xn Yn ) = aY
Yn Y
dlim( )= si a = 0.
Xn a
Dans le cas de convergence en distribution vers une normale, on peut enoncer une gene-
ralisation multivariee de ce resultat. Nous admettrons quune suite de vecteurs aleatoires
(n) (n)
X (n) = (X1 , . . . , Xm ) converge en distribution vers un vecteur normal multivarie X =
m (n)
(X1 , . . . , Xm ) si toute combinaison lineaire i=1 i Xi converge en distribution vers
m
i=1 i i X . Supposons alors que lon ait une suite de matrices A(n) convergeant en pro-
babilite vers A et que la suite des vecteurs X (n) converge en distribution vers un vecteur
X N (0, I). La suite A(n)X (n) converge en distribution vers un vecteur ayant la distri-
bution N (0, AA ).
Nous aurons, lorsque nous verrons le theoreme central limite, a determiner la distribution
limite dune somme de variables aleatoires. Calculer la distribution dune somme X + Y ,
connaissant la distribution jointe de X et Y , est en regle generale un probleme tres dicile.
Le passage par les fonctions caracteristiques permet souvent de simplier les choses.
Si lon denote par i lunite imaginaire (i2 = 1), la fonction caracteristique dune
variable aleatoire X est denie comme:
X (t) = E eitX
= E [cos(tX)] + iE [sin(tX)] , en vertu des proprietes du
nombre complexe eitX .
Avant de donner un exemple de fonction caracteristique, mentionnons quatre de ses
proprietes:
(1) La fonction caracteristique dune variable aleatoire existe toujours.
En eet, cos(tX) et sin(tX) sont des fonctions periodiques, donc bornees pour toute
138 P. DESCHAMPS, COURS DECONOMETRIE
valeur de tX; lesperance mathematique dune fonction bornee existe toujours. Nous
ne pourrions en dire autant pour E(etX ) par exemple.
(2) La fonction caracteristique de X caracterise entierement la distribution de X.
(3) Si X et Y sont deux variables aleatoires independantes, alors: X+Y (t) =
X (t)Y (t) .
En eet, X+Y (t) = E eit(X+Y )
= E eitX eitY
= E eitX E eitY
% +
1 y2
E e it(X)
= eity e 22 dy
2
% +
1 1 2
22 ity)
= e 22 (y dy
2
% +
1 2 2 2 1 2
22 ity+i2 t2 4 )
= ei t /2 e 22 (y dy
2
% +
1 2 2 1 2 2
= et /2 e 22 (yit )
dy .
2
SECONDE PARTIE, CHAPITRE X 139
% +
t2 2 /2 1 v2
E eit(X) = e e 22 dv
2
t2 2 /2
= e
2
2 /2
Par consequent X (t) = eit et
2
2 /2
= eitt .
On a dlim Sn N (0, 1) .
Demonstration
Puisque, en general:
X2 X3
eX = 1 + X + + + ...,
2 3!
X
on a, en appliquant cette formule a Yj = j :
n
(it)2
Yj (t) = E eitYj = 1 + itE(Yj ) + E(Yj2 ) + . . . .
2
1
Mais, puisque E(Yj ) = 0 et E(Yj2 ) = n
, ceci implique:
(it)2
Yj (t) = 1 + 0 + +....
2n
140 P. DESCHAMPS, COURS DECONOMETRIE
t2
Yj (t) 1 .
2n
Puisque les Yj sont independantes, la fonction caracteristique de leur somme est le
produit des fonctions caracteristiques des Yj . Par consequent:
t2 n
Sn (t) (1 ) pour n grand .
2n
Pour pouvoir appliquer la quatrieme propriete des fonctions caracteristiques, nous cal-
culons maintenant:
t2 n
lim (1 ) .
n 2n
Comme:
t2 n (t2 /2) n
(1 ) = (1 + )
2n n
et comme:
X
lim (1 + )n = eX
n n
on a:
2
lim Sn (t) = et /2
n
Terminons cette section en montrant que ce theoreme permet dapprocher une binomiale
par une normale. Soit donc Y une variable aleatoire prenant comme valeur le nombre
de succes rencontre lors de n tirages eectues avec remise (et donc independants), la
probabilite dobtenir un
nsucces lors de lun quelconque de ces tirages etant egale a p. Nous
pouvons ecrire: Y = i=1 Zi , ou Zi est une variable aleatoire prenant la valeur 1 avec
la probabilite p, la valeur 0 avec la probabilite (1 p). On verie immediatement que
E(Zi ) = p et V (Zi ) = p(1 p). Par consequent, E(Y ) = np et V (Y ) = np(1 p). Donc,
si lon denit:
Zi p
Xi = #
p(1 p)
on a:
n
1 Y np
Sn = Xi = # .
n i=1 np(1 p)
Le theoreme central limite est applicable, et dlim Sn N (0, 1). Si n est susamment
grand, on peut alors approcher une binomiale de parametres n et p par une normale
desperance np et de variance np(1 p).
SECONDE PARTIE, CHAPITRE X 141
Lestimateur de b par moindres carres est donc, a une constante pres, une somme de
variables aleatoires wt ut . Mais ces variables ne sont pas identiquement distribuees puisque
wt = ws pour t = s.
Le theoreme suivant, dont on trouvera lenonce dans Judge et al., The Theory and
Practice of Econometrics, 1985, p. 156, remplace lhypothese de distributions identiques
par une condition sur les troisiemes moments des variables. Nous nous bornerons par la
suite a faire lhypothese que cette condition est veriee, chaque fois que nous aurons besoin
du theoreme. Nous enoncerons ce theoreme sous sa forme vectorielle, sans le demontrer.
Theoreme.
Soit (Zt ) une suite de vecteurs aleatoires independants avec E(Zt ) = 0, et V (Zt ) =
E(Zt Zt ) = t . Supposons que les deux conditions suivantes soient veriees:
n
(1) limn n1 t=1 t = , avec denie positive
(2) E(Zit Zjt Zkt ) < pour tout i, j, k, t.
n
Alors, si Sn = 1
n t=1 Zt , on a dlim Sn N (0, ).
Lorsque nous etudierons les modeles dynamiques, nous aurons anexaminer la convergence
1
en distribution de suites de vecteurs aleatoires de la forme n t=1 Zt , ou les vecteurs Zt
sont dependants entre eux. Nous devrons alors utiliser une generalisation des theoremes
precedents. Une telle generalisation existe dans le cas ou la dependance prend une forme
particuliere, celle des dierences de martingales.
Denition:
Une suite (Zt )
t=1 de variables aleatoires, ou de vecteurs aleatoires, est une dierence de
martingale si:
E(Zt ) = 0 pour tout t;
E(Zt | Zt1 , Zt2 , . . . , Z1 ) = 0 pour tout t.
142 P. DESCHAMPS, COURS DECONOMETRIE
Exemple:
Dans le cadre des modeles a variables endogenes retardees, nous rencontrerons des suites
(Zt ) de la forme Zt = ut ut1 , ou les ut sont independantes, desperance nulle, et identique-
ment distribuees. Il est facile de verier que les Zt forment une dierence de martingale:
La troisieme egalite resulte de la loi des esperances iterees, et la quatrieme vient du fait
que la connaissance de ut1 ut2 et de ut1 est equivalente a celle de ut1 et de ut2 , sauf
si ut1 = 0; mais si ut1 = 0, lesperance est nulle et legalite est donc veriee.
Le theoreme suivant est enonce dans Hamilton, Time-Series Analysis, 1994, p. 194. Il
suppose lexistence des quatre (et non plus trois) premiers moments.
Theoreme.
Soit (Zt ) une dierence de martingale. Si:
n
1
(2) lim V (Zt ) = , une matrice denie positive;
n n
t=1
1
n
(4) Zt Zt
n t=1 p
alors:
n
1
dlim Zt N (0, )
n t=1
Lemme.
Supposons que soit scalaire et soit (X1 , X2 , . . . , Xn ) un echantillon aleatoire de fonction
de vraisemblance:
& n
L(x, ) = f(xi |).
i=1
Alors: 2
log L(x, ) log L(x, ) 2 log L(x, )
V =E = E .
2
Demonstration
'Puisque L(x, ) peut etre consideree comme la densite jointe de lechantillon, on a
Rn L(x, )dx = 1. En derivant par rapport a , ceci donne:
% %
L(x, )dx = 0 = L(x, )dx.
Rn Rn
L log L
Mais
=
L. On a donc aussi:
%
log L(x, ) log L(x, )
L(x, )dx = E = 0.
Rn
%
2 log L log L L
L + dx = 0,
Rn 2
% % 2
2 log L log L
ou encore: Ldx + Ldx = 0 .
Rn 2 Rn
log L
Soit aussi, puisque E =0:
2
log L log L 2 log L
V =E = E .
2
Demonstration
Comme est sans biais, on a:
%
= E() = L(x, )dx .
Rn
% %
L log L
1 = dx = Ldx
Rn Rn
log L log L
= cov , puisque E = 0 .
Dautre part, en vertu de linegalite generale (cov(X, Y ))2 V (X)V (Y ) , nous avons:
log L log L
1 = cov , 2
V () V ,
ou, en vertu du lemme:
2 log L
1 V () E . Linegalite cherchee sensuit.
2
Pour illustrer ce resultat, reprenons le probleme de lestimation par maximum de vrai-
semblance de lesperance mathematique dune variable normale, discute a la section 3.3
de la premiere partie. Nous avions trouve:
SECONDE PARTIE, CHAPITRE X 145
log L 1
= 2 (xi )
et donc
2 log L n
2
= 2 .
2
En vertu de linegalite precedente, on a alors V () n si E() = . Mais nous savons
2
que E(x) = et V (x) = n . Nous concluons que cet estimateur est ecace.
Notons quun estimateur peut etre ecace sans que sa variance atteigne cette borne
inferieure!
log L
E = 0 (un vecteur k 1)
2
log L log L
V = E (une matrice k k)
= R() .
def
V () I
V
log L
= .
I R()
Cette derniere matrice est denie non negative, etant une matrice de covariance. An
darriver a une generalisation vectorielle de linegalite de Rao-Cramer, considerons un
vecteur colonne arbitraire a. Comme la matrice est denie non negative, on a:
V () I a
a R1 () )
(a 0
1
I R() R ()a
1
a V () R () a 0 .
Donc R1 () est diagonale par blocs, et pour tout estimateur sans biais de , la
matrice V () 2 (X X)1 est denie non negative en vertu du resultat precedent, lorsque
les erreurs sont distribuees normalement. Mais si = (X X)1 X y, V () est precisement
egale a 2 (X X)1 .
La borne inferieure est atteinte par cette matrice: nous concluons que sous lhypothese
de normalite, = (X X)1 X y nest pas seulement le meilleur estimateur lineaire sans
biais. Cest aussi le meilleur estimateur sans biais parmi tous les estimateurs, quils soient
lineaires ou non.
SECONDE PARTIE, CHAPITRE X 147
Nous avons ici le cas de lestimation dun seul parametre . La vraisemblance secrit
(n
L(x, ) = i=1 f(xi |) comme precedemment, et lestimateur est une solution de lequa-
log L(x,)
tion = 0.
On demontre que sous des hypotheses assez generales, et qui nimpliquent pas la nor-
malite, lestimateur est convergent, asymptotiquement normal, asymptotiquement sans
biais, et asymptotiquement ecace. En eet, sous ces hypotheses:
plim =
n
dlim n( ) N 0, plim
2 log L(x,)
E 2
Dans le cas ou est un vecteur, on demontre sous des hypotheses semblables aux
precedentes les generalisations suivantes. Soit le vecteur des estimateurs par maximum
de vraisemblance. Alors:
plim =
dlim n( ) N 0, plim nR1 ()
ou:
2 log L(x, )
R() = E
est la matrice dinformation vue precedemment.
10.12.1 Introduction.
maxH0 L(x, )
= .
max L(x, )
On a les inegalites 0 1.
On rejette H0 si < 0 , ou 0 est un nombre strictement compris entre 0 et 1 et choisi
en fonction dun niveau de signication .
Dans les cas que nous avons traites jusquici, cette methode nous a permis de trouver
une regle de decision valable pour de petits echantillons, et faisant appel a une statistique
possedant une distribution connue (Student, par exemple). Mais, il existe de nombreux
modeles non lineaires ou ceci nest pas le cas. On doit alors se contenter de tests asympto-
tiques. Il est donc interessant de connatre la distribution asymptotique dune fonction de
.
Lorsque le vecteur na quune seule composante, nous allons montrer que sous H0 ,
dlim(2 loge ) 2(1) . Notre demonstration utilise lhypothese que les observations sont
independantes et identiquement distribuees, mais le resultat peut etre generalise.
Soit lestimateur de par maximum de vraisemblance. Nous commencons par faire
un developpement de log L(x, 0 ) autour de (theoreme de Taylor). Ceci donne:
)
log L(x, ) ))
log L(x, 0 ) log L(x, ) = (0 ) )
=
)
1 2
log L(x, ) ))
+ (0 )2 )
2 2 =
2 1 2 log L ))
2 log = n( 0 ) )
n 2 )=
* ) +
2 n
1 2 log f(xi |) ))
= n( 0 ) )
n 2 =
i=1
2
= n( 0 ) k 2 .
def
SECONDE PARTIE, CHAPITRE X 149
* n ) +
1 2
log f(x |) )
plim k 2 = plim
i )
n 2 )
i=1 =0
2 ) +
log f(xi |) ))
= E )
2 =0
)
2 )
sous lhypothese que les termes logf2(xi |) ) sont de variance nie (ils sont en eet
=0
identiquement distribues). Ceci est une consequence des resultats de la section 10.4. De
plus, comme nous lavons vu:
1
dlim n( 0 ) N
0, plim )
2 log L )
n1 E 2 )
=0
sous lhypothese H0 .
Comme:
2 ) * ) +
1 log L )) 2 log f(xi |) ))
plim E ) = E ) = plim k 2 ,
n 2 =0 2
=0
ceci implique:
1
dlim n( 0 ) N 0, .
plim k 2
Alors, en vertu des resultats de la section 10.6:
2
dlim(2 log ) = dlim n( 0 ) plim k 2
1
= X plim k ou X N 0,
2 2
.
plim k 2
Dans le modele de regression classique, nous avons vu, sous lhypothese de normalite des
erreurs, que mco est normal quelle que soit la taille de lechantillon. De plus, le rapport
des vraisemblances permet de deriver un test F dune hypothese lineaire; ce test est, lui
aussi, valable pour tout n. La distribution de Student permet de calculer des intervalles
de conance.
Dans le modele des moindres carres generalises ou E(uu ) = 2 , nous avons les memes
resultats lorsque est connue. Par contre, si est inconnue, nous navons plus de resultats
valables en petit echantillon. Mais si u est un vecteur normal, on peut deriver lestimateur
de par maximum de la vraisemblance. Cet estimateur nest pas normal car cest une fonc-
tion non lineaire des erreurs. Neanmoins, on peut en trouver la distribution asymptotique
a laide des resultats precedents.
Pour le modele a erreurs autoregressives:
y = X + u, avec ut = ut1 + t
1 1
log L(, 2 , ) = K + log det V 1 (y X) V 1 (y X)
2 2
et, en utilisant les regles de derivation matricielle de la section 3.4:
log L
= X V 1 X + X V 1 y
= (X V 1 X)1 X V 1 y
soit le meme resultat quen moindres carres generalises lorsque est connue.
Les derivees par rapport a et 2 sont plus compliquees. Il serait superu den donner
les details ici, puisque ces derniers ce trouvent dans larticle precedemment cite. Il nous
sura de mentionner que la maximisation de L par rapport a implique la solution dune
equation cubique, qui possede toujours une solution comprise entre 1 et +1.
SECONDE PARTIE, CHAPITRE X 151
Le but de cette section etant dillustrer les resultats du present chapitre, nous allons
enoncer la matrice dinformation et son utilite dans le contexte de ce modele. Appelons
= (, 2 , ). Beach et MacKinnon montrent que, si X est non stochastique:
1
(X V X) Ok1 Ok1
R() = O1k A C
O1k C B
ou A, B, et C sont des scalaires. Alors:
1 1
(X V X) Ok2
1
R1 () =
A C
O2k
C B
et le theoreme vu a la section 10.10 implique:
dlim n( ) N (0, plim nR1 ()).
Comme tout sous-vecteur dun vecteur normal multivarie est normal multivarie, on peut
donc ecrire:
dlim n( ) N (0, plim n(X V 1 X)1 ).
Nous avons vu que les estimateurs par maximum de vraisemblance sont convergents,
et que les limites en probabilite sont preservees par les fonctions continues. Donc, si on
remplace, dans la denition de V , et 2 par leurs estimateurs pour obtenir V , on obtient:
plim V = V
CHAPITRE XI.
Nous montrerons dans cette section que = (X X)1 X y est un estimateur convergent
de dans le modele classique y = X + u, sous les hypotheses suivantes:
(H1) E(u) = 0
(H2) E(uu ) = 2 I
1
(H4) lim X X = XX , une matrice denie positive.
n n
E(X u) = X E(u) = 0
n
n
2 2
V (X u)i = V Xti ut = Xti
t=1 t=1
2
1 Xti
et V (X u)i = 2 .
n n2
X2
ti
Mais n converge par lhypothese (H4) vers un nombre ni. Nous concluons que
V n1 (X u)i tend vers zero quand n tend vers linni. Donc les composantes de n1 X u
SECONDE PARTIE, CHAPITRE XI 153
1 1
verient E n (X u)i = 0, et limn V n (X u)i = 0 . Ceci montre (section 10.4) que
plim( n1 X u) = 0. On a alors, en appliquant le theoreme de Slutsky:
1
plim = plim + (X X) X u
= + plim (X X)1 X u
1
1 1
= + plim X X Xu
n n
1
1 1
= + plim (X X) plim Xu
n n
= + 1
XX .Ok1 = .
Tous les tests dhypotheses exposes au chapitre VII lont ete en supposant la normalite
des erreurs. Quen est-il si lon ne fait pas dhypotheses speciques sur la distribution du
vecteur u? Nous allons voir quun theoreme central limite nous permet detablir la normalite
asymptotique de = (X X)1 X y. Si la taille de lechantillon est susamment grande,
on peut alors se baser sur la distribution normale pour faire des tests asymptotiques sur
le vecteur . On raisonne en pratique comme si la variance des erreurs etait connue: on
utilisera donc la loi normale au lieu de la loi de Student, la loi 2 au lieu de la loi F .
Theoreme.
Supposons que les hypotheses (H1) a (H4) soient veriees, et soit t la t-ieme colonne de
n
la matrice X . Denissons les vecteurs Zt = ut t et supposons que 1n t=1 Zt verie
un theoreme central limite. Alors, pour = (X X)1 X y:
(a) dlim n( ) N (0, 2 1
XX ).
1
(b) Si plim ( n u u) = , on a plim( n1 u u) = 2 avec u = y X
2
.
Demonstration
(a) Notons dabord que E(Zt ) = 0 et V (Zt ) = 2 t t .
Par consequent:
n n
1 2 2
lim V (Zt ) = lim t t = lim X X = 2 XX ,
n n n n n n
t=1 t=1
154 P. DESCHAMPS, COURS DECONOMETRIE
qui est nie et denie positive par lhypothese (H4). En vertu du theoreme central
limite, on a:
n
1 1
dlim X u = dlim Zt N (0, 2 XX ).
n n t=1
Notons ensuite que n( ) = ( n1 X X)1 1n X u et appliquons les resultats
de la section 10.6. Ceci donne:
1
1 1
dlim n( ) = plim XX dlim Xu
n n
2 1
N 0, 1
XX XX XX
N 0, 2 1
XX .
Donc:
1
u u 1 1 1 1
= u u Xu XX Xu , et:
n n n n n
*
+
u u 1
plim = plim u u O1k .1
XX .Ok1 =
2
n n
CHAPITRE XII.
Le theoreme que nous allons demontrer dans ce chapitre est un cas particulier dap-
plication au modele a erreurs autoregressives dun theoreme plus general, sappliquant a
tout estimateur Aitken-realisable. Il montre que si lon remplace par un estimateur
convergent de cette matrice dans la formule de mcg , on obtient un estimateur de qui a
la meme distribution limite que mcg .
Theoreme.
Soit le modele y = X + u avec E(u) = 0,
1 n1
1
2
2
E(uu ) = = .. .. .. , et X non stochastique.
. . .
n1 1
1 n1
1
ou =
. .. ..
.. .
.
n1 1
156 P. DESCHAMPS, COURS DECONOMETRIE
1 1
plim (X 1 X) = lim (X 1 X) = Q
n n
1
plim (X 1 u X 1 u) = 0
n
1
plim u u = 2
n
on a les resultats suivants:
(1) dlim n( ) = dlim n( ) N (0, 2 Q1 )
(2) plim s2 = 2 , avec:
1
s2 = (y X ) 1 (y X ).
nk
Demonstration
Notons tout dabord que n( ) = ( n1 X 1 X)1 1n X 1 u et que:
n
X 1 u = X T T u = Zt .
t=1
n
On a E(Zt ) = 0; dautre part, comme E(T u)2t = 2 et comme t=1 [X T ]t [X T ]t =
X 1 X,
n
1 2
lim E(Zt Zt ) = lim (X 1 X) = 2 Q.
n t=1 n
n
Par consequent, en vertu du theoreme central limite, dlim 1n t=1 Zt N (0, 2 Q).
Donc:
1
1 1 1
1
dlim n = plim X X dlim X u
n n
N 0, Q1 ( 2 Q)Q1 = N 0, 2 Q1 .
1 1
n( ) = ( X 1 X)1 X 1 u,
n n
SECONDE PARTIE, CHAPITRE XII 157
1
dlim( X 1 u) N (0, 2 Q)
n
et donc:
dlim n( ) N (0, 2 Q1 ).
Pour demontrer la seconde partie du theoreme, notons que la limite en probabilite de:
1
(y X ) 1 (y X )),
nk
est egale a 2 . La demonstration est exactement la meme que celle de la section 11.2:
il sut de remplacer y par T y et X par T X. Comme plim = plim = et comme
plim = , le theoreme de Slutsky implique plim s2 = 2 .
Ces resultats ont ete obtenus sans faire lhypothese de normalite des erreurs, puisque
nous avons utilise un theoreme central limite. Il est toutefois tres interessant de noter que
nous venons dobtenir la meme distribution limite que celle de la section 10.13, ou nous
avions fait lhypothese de normalite des erreurs pour deriver lestimateur par maximum de
vraisemblance; il est facile en eet de verier que:
ou V = E(uu ). Les matrices de covariance asymptotiques sont donc les memes; puisquune
distribution normale est entierement caracterisee par les deux premiers moments, ceci
implique bien legalite des distributions limites.
Nous avons donc lequivalence asymptotique dune methode simple (celle dAitken) et
dune methode plus compliquee (celle du maximum de vraisemblance).
158 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE XIII.
REGRESSEURS STOCHASTIQUES
Dans tous les developpements precedents, X etait non stochastique par hypothese. Ceci
netant pas realiste, il nous faut maintenant examiner les proprietes de la methode des
moindres carres ordinaires dans le cas ou cette hypothese nest pas veriee.
Nous pourrons distinguer trois types de regresseurs stochastiques.
Dans le premier cas, la matrice X est independante du vecteur u. Les estimateurs MCO
sont alors convergents, sans biais, et ont la distribution limite vue au chapitre XI sous
lhypothese dun theoreme central limite. De plus, lorsque les erreurs sont normales, les
statistiques tobs et Fobs vues precedemment au chapitre VII ont les distributions t et F
sous lhypothese nulle, meme en petit echantillon.
Dans le second cas, X depend de u, mais les regresseurs ne sont pas correles avec
les erreurs contemporaines. Les estimateurs MCO ne sont pas sans biais, mais ils sont
convergents. Ils ont la distribution limite vue au chapitre XI sous lhypothese dun theoreme
central limite. Les distributions des statistiques tobs et Fobs vues precedemment au chapitre
VII ne sont t et F que si la taille de lechantillon tend vers linni. Nous nexaminerons
pas ce second cas dans le present chapitre, mais nous letudierons plus tard dans le cadre
des modeles a variables endogenes retardees.
Dans le troisieme cas, certains regresseurs sont correles avec lerreur contemporaine.
Alors les estimateurs MCO ne sont pas convergents, et on doit utiliser la methode des
variables instrumentales, qui sera vue dans le present chapitre.
Dans la premiere partie de cette section, nous nutiliserons que les hypotheses suivantes,
qui sont compatibles avec lindependance de X et de u, mais nimpliquent pas cette inde-
pendance:
(H1 ) E(u|X) = 0
(H2 ) E(uu |X) = 2 I
(H3 ) plim( n1 u u) = 2
(H4 ) plim( n1 X X) = lim E( n1 X X) = XX est denie positive .
Rappelons tout dabord la loi des esperances iterees (section 1.7) de la premiere partie:
Lemme 13.1.
E(X) = EY E(X|Y ) .
Ce resultat peut aussi etre applique aux vecteurs et matrices aleatoires. Nous demon-
trons maintenant une propriete fondamentale pour la suite.
Lemme 13.2. Sous les hypotheses (H1 ), (H2 ) et (H4 ), plim( n1 X u) = 0.
Demonstration:
En vertu de la section 10.4, il sut de montrer que:
1 1
E( Xti ut ) = 0 et V( Xti ut ) 0.
n n
Mais:
E(Xti ut ) = EXti E(Xti ut |Xti ) = EXti Xti E(ut |Xti ) = 0
2 2
V (Xti ut ) = E(Xti 2 2
ut ) = EXti E(Xti ut |Xti ) = EXti Xti
2
E(u2t |Xti ) = 2 E(Xti
2
)
2
en vertu de lhypothese (H2 ). Lhypothese (H4 ) garantit que E(Xti ) < ; donc V (Xti ut ) <
1
, et V ( n1
Xti ut ) 0 . Lestimateur = (X X) X y verie alors les proprietes
suivantes:
160 P. DESCHAMPS, COURS DECONOMETRIE
Demonstration:
E() = + E (X X)1 X u
= + EX {E (X X)1 X u|X }
= + EX (X X)1 X E(u|X) = .
Demonstration :
Notons que:
E(Ct ) = E(ut t ) = EX E(ut t |X) = EX t E(ut |X) = 0.
De meme:
E(Ct Ct ) = E(u2t t t ) = EX E(u2t t t |X) = EX (t t )E(u2t |X) = 2 E(t t ).
Par consequent:
n n
1
2 1 1
lim E(Ct Ct ) = lim E( t t ) = 2 lim E( X X) = 2 XX .
n t=1 n t=1 n
On a alors, comme auparavant (section 11.2):
n
1 1
dlim X u = dlim Ct N (0, 2 XX )
n n t=1
1 1
dlim n( ) = plim( X X)1 dlim( X u) N (0, 2 1 XX ).
n n
La demonstration du point (2) est identique a celle donnee precedemment.
Si nous faisons maintenant lhypothese dindependance f(X, u) = f1 (X)f2 (u), les dis-
tributions conditionnelles a X des statistiques tobs et Fobs vues au chapitre VII ne
dependront que des nombres de degres de liberte et seront donc les memes que les distri-
butions inconditionnelles. Les valeurs critiques des lois t et F leur seront donc applicables
quelle que soit la taille de lechantillon, lorsque les erreurs sont normales.
SECONDE PARTIE, CHAPITRE XIII 161
On a alors:
s1
.
plim mco = + c ..
sk
Exercice. Dans le modele yt = byt1 + ut avec ut = t + t1 , supposons que les t soient
desperance nulle, de variance constante, et non correles entre eux. Montrez que la cova-
riance entre yt1 et ut nest pas nulle. Quelles sont les consequences de cette constatation?
Cette methode est un cas particulier de la methode des moments generalises (GMM);
voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Supposons que plim( n1 X u) = 0. Nous construisons alors une matrice Z de dimensions
n r, avec r k, possedant les proprietes suivantes:
(H1 ) E(u|Z) = 0
(H2 ) E(uu |Z) = 2 I
1
(H3 ) plim( Z X) = ZX est de rang k
n
1 1
(H4 ) plim( Z Z) = lim E( Z Z) = ZZ est denie positive.
n n
1
(H5 ) plim( u u) = 2
n
1 1
(H6 ) plim( X X) et plim( X u) existent.
n n
V I = (X PZ X)1 X PZ y
Pour simplier les demonstrations, nous supposerons dans le reste de cette section que
r = k. Mais les resultats qui vont suivre ne dependent pas de cette hypothese.
Lemme 13.6. Sous les hypotheses (H1 ), (H2 ) et (H4 ), plim( n1 Z u) = 0.
Demonstration:
Comme (Z X)1 Z y = (Z X)1 (Z X + Z u) = + (Z X)1 Z u , plim V I = +
plim( n1 Z X)1 plim( n1 Z u) = + 1
ZX 0 = .
Theoreme 13.8.
Soit t la t-ieme colonne de Z et supposons que les vecteurs Ct = ut t verient un
theoreme central limite. Alors:
1
(1) dlim n(V I ) N (0, 2 plim n(X PZ X)1 ) = N (0, 2 1
ZX ZZ (ZX ) )
(2) plim( n1 u u) = 2 , avec u = y X V I .
SECONDE PARTIE, CHAPITRE XIII 163
Demonstration:
n
Nous avons une fois de plus E(Ct ) = 0 et lim n1 t=1 E(Ct Ct ) = 2 ZZ (voir la demons-
n
tration du theoreme 13.5). Donc, comme 1n Z u = 1n t=1 Ct , on a:
1
dlim Z u N (0, 2 ZZ )
n
et par consequent:
1 1 1
dlim n(V I ) = plim( Z X)1 dlim( Z u) N (0, 2 1
ZX ZZ (ZX ) ).
n n
u = y X(Z X)1 Z y = I X(Z X)1 Z u,
puisque y = X + u. Alors:
u u = u u u Z(X Z)1 X u u X(Z X)1 Z u + u Z(X Z)1 (X X)(Z X)1 Z u.
Les hypotheses H3 , H5 et H6 ainsi que le Lemme 13.6 impliquent alors plim( n1 u u) =
plim( n1 u u) = 2 . Ce theoreme permet donc, une fois de plus, de baser des tests asympto-
tiques sur la distribution normale ou 2 . La matrice de covariance asymptotique du vecteur
V I est estimee par unu (Z X)1 (Z Z)(X Z)1 .
Notons que si r > k, linverse de ZX nexiste pas car cette matrice nest pas carree;
mais lautre expression de la matrice de covariance asymptotique, a savoir:
reste valable, puisque X PZ X est dordre k et de rang min(k, r) = k. Par ailleurs, les deux
expressions sont bien equivalentes lorsque r = k, puisque:
1
1 1 1 1 1
plim n(X PZ X) = plim ( X Z)( Z Z) ( Z X) .
n n n
Notons enn que la validite de la methode des variables instrumentales peut etre etablie
sous des hypotheses plus generales que celles de cette section.
164 P. DESCHAMPS, COURS DECONOMETRIE
Il est tres important de noter quil existe en general une innite de matrices Z veriant
les hypotheses (H1 ) a (H4 ). Il y aura donc aussi une innite destimateurs par variables
instrumentales! Cet estimateur garantit la convergence, mais ne verie pas le theoreme
de Gauss-Markov; et le choix des variables instrumentales doit donc etre base sur des
criteres decacite asymptotique. On peut retenir, comme critere heuristique, celui qui
fait choisir une variable instrumentale (colonne de Z) fortement correlee avec la colonne
correspondante de X, tout en satisfaisant plim( n1 Z u) = 0. Nous utiliserons ce principe
lorsque nous etudierons les variables endogenes retardees.
On peut aussi souvent choisir Z de telle maniere que la distribution asymptotique du
theoreme 13.8 soit la meme que celle de lestimateur par maximum de vraisemblance. Ceci
est interessant car lestimateur par variables instrumentales (qui est lineaire) est souvent
plus facile a calculer que lestimateur par maximum de vraisemblance (voir par exemple la
section 10.13).
SECONDE PARTIE, CHAPITRE XIV 165
CHAPITRE XIV.
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
La variable dependante est donc une combinaison lineaire des valeurs presentes et pas-
sees de la variable explicative. Nous fournirons deux interpretations economiques de ce
modele:
(a) Dans le cadre dune fonction de consommation, il correspondrait a lhypothese que
la consommation presente depend du revenu espere. Ce dernier est une combinaison
lineaire des revenus observes, presents et passes. Il existe donc une sorte dinertie
dans le comportement du consommateur.
(b) Dans le cadre dun modele dinvestissement, faisons les hypotheses suivantes:
(i) La valeur desiree des stocks, yt , est proportionnelle a la valeur prevue des
ventes, xt , a un terme derreur vt pres. Donc:
(1) yt = xt + vt .
(ii) Linvestissement (variation de stock entre les periodes t et t 1) est regi par
le mecanisme suivant (ajustement partiel):
xt = xt1 + (1 )xt1
= xt1 + (1 )[xt2 + (1 )xt2 ]
= xt1 + (1 )xt2 + (1 )2 xt2
et lon obtient, apres une innite de substitutions, la regle de prevision suivante, dite
de lissage exponentiel:
(4) xt = (1 )i1 xti .
i=1
1
(5) yt = [yt (1 )yt1 ] .
(6) yt = (1 )i1 xti + vt .
j=1
(7) yt = (1 )yt1 + (1 )i1 xti + ut .
i=1
Cette derniere equation est lineaire dans les variables explicatives, et ne comporte
plus que des variables observables. Elle comporte neanmoins une innite de regres-
seurs! On peut evidemment supprimer les xti pour i grand. Mais ceci ne resout que
partiellement le probleme, car il y a peu de degres de liberte: le nombre de parametres
a estimer reste grand, et lon perd une observation par variable retardee. De plus, les
xti risquent detre fortement colineaires.
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut .
Si k est susamment grand, k+1 0, et nous pouvons alors retenir comme modele:
yt = a + yt1 + b0 xt + ut .
Nous navons donc plus que deux regresseurs et une constante. Il faut noter:
(a) que cette transformation peut aussi sappliquer a un nombre inni de retards;
(b) que lon peut retrouver lequation de depart a partir destimations de et de b0
obtenues grace au modele transforme;
(c) que E(yt1 ut ) = 0. Nous sommes donc dans le cas traite a la section 13.3: les es-
timateurs par moindres carres ordinaires ne sont pas convergents. Ce probleme sera
examine plus bas, lorsque nous traiterons des variables endogenes retardees.
Appliquons la methode de Koyck a notre probleme dinvestissement. Nous avions:
yt = (1 )yt1 + (1 )i1 xti + ut .
i=1
Donc:
yt1 = (1 )yt2 + (1 )i1 xti1 + ut1
i=1
et:
168 P. DESCHAMPS, COURS DECONOMETRIE
soit aussi:
Appelons a1 , a2 , a3 les estimations des coecients de cette equation. Pour estimer les
parametres du modele de depart, il faudrait resoudre le systeme:
a1 = 2
a2 =
a3 = (1 )(1 ) = + 1
a2
peut etre obtenu comme . Il est dit identiable.
1 a1 a3
Mais et ne le sont pas. On ne peut determiner que leur somme et leur produit.
Lhypothese faite par Koyck que les poids b0 . . . bk sont geometriquement decroissants
est tres restrictive. Lidee dAlmon est dutiliser une approximation polynomiale de la
fonction decrivant le comportement reel des bi . On choisit, en pratique, un polynome de
degre superieur dau moins une unite au nombre de points stationnaires de cette fonction.
Si, par exemple, lon pense que cette fonction a la forme dun U ou dun U renverse, on
choisira une approximation quadratique:
bi = 0 + 1 i + 2 i2
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
pour obtenir:
yt = a + 0 xt + (0 + 1 + 2 )xt1 + (0 + 21 + 42 )xt2
+ . . . + (0 + k1 + k 2 2 )xtk + ut
SECONDE PARTIE, CHAPITRE XIV 169
* k
+ * k + * k +
= a + 0 xti + 1 ixti + 2 i2 xti + ut
i=0 i=1 i=1
= a + 0 Z1t + 1 Z2t + 2 Z3t + ut .
Les parametres de cette equation peuvent alors etre estimes par moindres carres ordi-
naires, et les estimations des bi peuvent etre calculees a laide de lapproximation polyno-
miale. Notons aussi que cette technique se prete particulierement bien a lintroduction de
contraintes additionnelles sur les bi . Supposons que lon veuille imposer b1 = 1. On a donc
1 = 0 + 1 + 2 . En substituant, il vient:
ou:
Soit:
yt = a + 1 Z1t
+ 2 Z2t + ut .
Lxt = xt1 .
Cet operateur peut etre traite comme une variable algebrique ordinaire. En eet:
Lj xt = L . . . Lxt = xtj
Lj Lk xt = Lj+k xt = xtjk
Lj (a1 x1t + a2 x2t ) = a1 Lj x1t + a2 Lj x2t
ou:
(L) = 0 + 1 L + 2 L2 + 3 L3 + . . . .
def
170 P. DESCHAMPS, COURS DECONOMETRIE
est traite comme un polynome algebrique en L. Si les racines de (L) = 0 sont stricte-
ment superieures a lunite en valeur absolue, on peut denir loperateur reciproque 1 (L)
comme:
yt = 1 (L)xt si (L)yt = xt .
Linteret de la recherche dun tel operateur reciproque peut etre illustre par lexemple
suivant. Lequation:
yt = a + yt1 + bxt + ut
peut secrire comme:
(L)yt = a + bxt + ut
avec (L) = 1 L. Elle permet destimer lesperance de yt conditionnelle a ses valeurs
passees et a xt , a savoir E(yt | yt1 , xt ) = a+ yt1 + bxt . Il sagit donc dune modelisation
a court terme, car conditionnelle au passe immediat de yt . Mais dans le cas ou xt est un
instrument de politique economique, il peut etre plus interessant destimer:
qui est conditionnelle aux seules valeurs presentes et passees de linstrument. Cette nouvelle
esperance peut etre calculee a laide de loperateur reciproque, car:
yt = a + b0 j xtj + ut = a + b0 j Lj xt + ut
j j
2 2
3 3
= a + b0 1 + L + L + L + . . . xt + ut
b0
= a+ xt + ut ,
1 L
soit aussi:
et
1 2 1
= L
(L) 1 21 L4
2 2
1 1 1 1
= 2 1+ L + L +... 1 + L + L + ...
2 2 4 4
3 7 15
= 1 + L + L2 + L3 . . . .
4 16 64
et donc:
(L)
= (2 + 3L + 4L2 )(1 + .75L + .4375L2 + . . .) = 2 + 4.5L + 7.125L2 + . . . .
(L)
1 1 A(1 L) + B(1 L)
= =
(L) (1 L)(1 L) (1 L)(1 L)
172 P. DESCHAMPS, COURS DECONOMETRIE
ou A et B sont choisis tels que A(1 L) + B(1 L) = 1 pour tout L. Ceci implique:
A=
B=
et donc:
1 A B
= +
(L) 1 L 1 L
= A(1 + L + 2 L2 + . . . ) + B(1 + L + 2 L2 + . . . )
= (A + B) + (A + B)L + ( 2 A + 2 B)L2 + . . .
1 i
= ( i )Li1 .
i=1
1 1
=
(L) (1 L)2
= (1 + L + 2 L2 + . . . )(1 + L + 2 L2 + . . . )
= 1 + 2L + 32 L2 + 43 L3 + . . .
= (i + 1)i Li
i=0
Dans le cas de deux racines complexes conjuguees, on peut employer le premier develop-
pement en utilisant les proprietes des nombre complexes.
On peut aussi utiliser un developpement de Taylor autour de L = 0; la derivation
precedente a lavantage detre constructive, et de mettre en evidence le lien entre 1/(L)
et les racines de (L) = 0.
Nous sommes maintenant prets a denir la distribution rationnelle des retards. On lecrit
sous la forme:
yt = a + (L)xt + ut
avec:
SECONDE PARTIE, CHAPITRE XIV 173
(L) 0 + 1 L + . . . + k Lk
(L) = = .
w(L) w 0 + w 1 L + . . . + w L
On normalise en posant w0 = 1.
Cette formulation est tres generale, car toute structure des coecients peut etre ap-
prochee par ce rapport de deux polynomes. Nous pouvons en eet rendre lapproximation
plus ne en augmentant k, , ou k et .
On constate facilement que la structure des retards postulee par Almon correspond a
w(L) = 1 (donc = 0), et i = a0 + a1 i + a2 i2 + . . . + as is . Celle de Koyck correspond a
(L) = b0 , et w(L) = 1 L (donc k = 0, = 1).
yt = byt1 + ut
yt = ut + but1 + b2 ut2 + = bj utj .
j=0
2
Supposons que E(u) = 0 et E(uu ) = I. On a alors E(yt1 ut ) = 0, et si V (yt1 ut )
1
existe, on a plim( n yt1 ut ) = 0. Lestimateur de b par moindres carres ordinaires est
n+1
alors convergent. Mais il nest pas sans biais puisque b = b + t=2 wt ut avec
yt1
wt = n+1
2
j=2 yj1
174 P. DESCHAMPS, COURS DECONOMETRIE
2
n(bmco b) N (0, 2
1
XX ) = N (0, n+1 )
d plim n1 t=2
2
yt1
pour autant que les hypotheses de la section 10.8.3 soient veriees. En particulier, la
suite (Zt ) = (yt1 ut ) doit etre une dierence de martingale. Tel est bien le cas ici sous
lhypothese dindependance des erreurs. En eet:
Il est facile de demontrer (voir Hamilton, Time Series Analysis, 1994, p. 122) que lesti-
mateur de b par maximum de vraisemblance est le meme que lestimateur de b par moindres
carres ordinaires lorsque les erreurs sont normales.
ut = t + t1 avec E() = 0, E( ) = 2 I .
Comme nous lavons vu, ces erreurs resultent dune transformation de Koyck appli-
quee a un modele a retards echelonnes. On verie immediatement que sous les hypotheses
habituelles,
1
plim yt1 ut = E (yt1 ut ) = E [(ut1 + but2 + . . .) ut ]
n
= E (ut ut1 ) = E [(t + t1 ) (t1 + t2 )] = 2 = 0 .
y y
Donc lestimateur b = t 2t1 nest pas convergent. Calculons sa limite en probabilite.
yt1
Notons dabord que yt = byt1 + t + t1 , et donc:
2
yt yt1 = b yt1 + yt1 t + yt1 t1 .
SECONDE PARTIE, CHAPITRE XIV 175
Par consequent:
yt1 t /n yt1 t1 /n
b = b+ 2 + 2 .
yt1 /n yt1 /n
Par ailleurs, yt = j=0 bj (tj + tj1 ), ce qui implique, sous les hypotheses habi-
tuelles, plim( n1 yt1 t ) = E(yt1 t ) = 0, et plim( n1 yt1 t1 ) = E(yt1 t1 ) = 2 .
De meme:
1 2
) = E yt2 = E b2j (tj + tj1 )
2 2
plim yt1 = E(yt1
n j=0
+ 2E bj bk (tj + tj1 ) (tk + tk1 )
j=0 k=j+1
(1 + 2 ) 2 2b 2 2
= 1+ 2
2 2j
b + 2 2
bj bj+1 = + = 1 + 2 + 2b .
1b 2 1b 2 1b2
j=0 j=0
plim( n1 yt1 t ) plim( n1 yt1 t1 )
Alors plim b = b+ +
plim( n1 2
yt1 ) plim( n1 2
yt1 )
(1 b2 )
= b+ .
1 + 2 + 2b
1 1
plim ZX = plim yt1 yt2 est nie et non-nulle;
n n
1 1
plim Z u = plim yt2 ut = 0 .
n n
Tout dabord:
1
2
plim yt1 yt2 = E (yt1 yt2 ) = E (ut1 ut2 ) + bE yt2 =
n
b 2
2
2 + 1 + 2
+ 2b = ( + b)(1 + b)
1 b2 1 b2
176 P. DESCHAMPS, COURS DECONOMETRIE
1
est nie et non-nulle, sauf si = b ou
= 1b . Par ailleurs, plim n yt2 ut =
yt2 yt
E (yt2 ut ) = 0. Nous concluons que plim yt1 yt2 = plim bV I = b.
Cette estimation par variables instrumentales ne resout pas le probleme dautocorrela-
tion des erreurs, qui se pose puisque E(ut ut1 ) = 2 . Ce probleme peut etre traite en
utilisant une methode robuste destimation de la variance de bV I , analogue a celle que nous
avons introduite a la section 9.10; voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Nous netudierons pas lestimation de ce modele par maximum de vraisemblance, car
ceci releve dun cours de matieres speciales. Il sagit dun cas particulier de modele ARMA
(Auto-Regressive Moving Average); ces modeles peuvent etre estimes a laide de logiciels
specialises.
u2 2bu2 u2 (1 + b)
= + = .
1 b2 (1 b2 )(1 b) (1 b2 )(1 b)
Par consequent:
u2 / (1 b)
plim b = b+
u2 (1 + b) / (1 b2 ) (1 b)
1 b2
= b+ .
1 + b
SECONDE PARTIE, CHAPITRE XIV 177
yt = byt1 + ut
ut = ut1 + t
on obtient:
yt byt1 = (yt1 byt2 ) + t
soit aussi:
Ce modele est non lineaire dans les parametres. Si nous supposons que, conditionnelle-
ment a yt1 et yt2 , les t sont normales de distribution commune N (0, 2 ), nous avons
pour lobservation t:
2 1/2 1
f(yt | yt1 , yt2 ) = (2 ) exp 2 [yt (b + )yt1 + byt2 ]2
2
n+2
n 1
log L(b, , ) = constante log 2
2 2
[yt (b + )yt1 + byt2 ]2
2 2 t=3
n+2
= constante + Lt (b, , 2 )
t=3
ou:
1 1
Lt (b, , 2 ) = log 2 2 [yt (b + )yt1 + byt2 ]2 .
2 2
178 P. DESCHAMPS, COURS DECONOMETRIE
Lt 1
= 2 (yt1 yt2 )t
b
Lt 1
= 2 (yt1 byt2 )t
Lt 1 1
2
= 2 + 4 2t
2 2
ou:
t = yt (b + )yt1 + byt2 .
Comme log L = k + Lt , ceci implique:
n+2
log L 1
= 2 (yt1 yt2 )t
b t=3
n+2
log L 1
= 2 (yt1 byt2 )t
t=3
n+2
log L n 1 2
= + .
2 2 2 2 4 t=3 t
Pour annuler les deux premieres derivees de log L, il sut dappliquer, de maniere
alternee, les moindres carres ordinaires aux deux parametrisations lineaires pouvant etre
tirees de lequation (1), a savoir:
An de formuler les variances des estimateurs ainsi obtenus et denoncer un test dauto-
correlation des erreurs, nous allons tout dabord calculer lesperance et la matrice de co-
variance du vecteur:
Lt
b
Lt Lt
=
.
Lt
2
SECONDE PARTIE, CHAPITRE XIV 179
) )
Lt )) Lt Lt ))
V yt1 , yt2 = E yt1 , yt2
) )
(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0
1 (yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2
= 2
0
1
0 0
2 2
et donc, en vertu de la loi des esperances iterees:
Lt
V
(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0
1
(yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2
= 2E
0 .
1
0 0
2 2
On peut verier que les vecteurs Lt / ne sont pas
correles
entre eux. La moyenne de
1 log L
ces matrices est alors egale a n R(), ou R() = V est la matrice dinformation
introduite au chapitre X. Si une loi faible des grands nombres est applicable, on aura, par
exemple:
1 1
E(yt1 yt2 )2 = plim
lim (yt1 yt2 )2
n n
et on peut alors estimer la matrice de covariance de n( ) par linverse de:
Vn =
(yt1 yt2 )2 (yt1 yt2 )(yt1 byt2 ) 0
1
(yt1 yt2 )(yt1 byt2 ) (yt1 byt2 )2 0
n 2
n
0 0
2 2
180 P. DESCHAMPS, COURS DECONOMETRIE
ut = yt bmco yt1 .
On verie aisement que:
1
0 = ut1 ut
02
2
yt1 yt1 ut1 0
log L 1
V0 = 2 yt1 ut1 u2t1 0
0
n
0 0
202
et que, par consequent:
2
1 ( ut1 ut )2 ( yt1 )
LM = 2 2 2 .
0 yt1 ut1 ( yt1 ut1 )2
Nous allons maintenant montrer que cette statistique est identique a la statistique de
Breusch-Godfrey denie a la section 9.8.2. Dans le present contexte, la statistique de
Breusch-Godfrey est la statistique LM utilisee pour tester H0 : = 0 dans lequation
de regression auxiliaire:
SECONDE PARTIE, CHAPITRE XIV 181
yt = byt1 + ut1 + t
ou ut1 = yt1 bmco yt2 .
Pour montrer ce resultat, notons que lestimateur des coecients de regression dans
lequation auxiliaire peut secrire:
2 1
b yt1 yt1 ut1 yt y t1
= = 2 = (X X)1 X y
yt1 ut1 ut1 yt ut1
et que la matrice des coecients de la restriction = 0 est egale a R = ( 0 1 ). Lexpression
du multiplicateur de Lagrange demontree a la section 6.1 prend alors la forme suivante:
= 0 = [R(X X)1 R ]1 (r R)
1
= 2 ( 2
yt1 )( yt ut1 ) + ( yt yt1 )( yt1 ut1 )
yt1
= yt ut1 + bmco yt1 ut1
= (yt bmco yt1 )ut1
= ut ut1 .
1
V01 () = [R(X X)1 R ]
02
2
1 yt1
= 2 2 2 .
0 yt1 ut1 ( yt1 ut1 )2
Pour terminer cette section, notons que ce modele autoregressif a erreurs autoregressives
est restrictif. En eet, lequation (1) nest quun cas particulier du modele plus general
suivant:
yt = yt1 + yt2 + t
avec = b + et = b. Ces contraintes sappellent restrictions de facteurs communs,
et seront examinees au chapitre XV dans un cadre plus general. Elles sont implausibles.
Cest pour cette raison que nous ne poursuivrons pas letude du modele de cette section
14.7.3. La methodologie que nous venons denoncer est neanmoins indispensable pour la
justication du test de Breusch-Godfrey, que lon doit employer dans ce cas-ci puisque le
test de Durbin-Watson nest pas applicable.
182 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE XV
Dans ce chapitre, nous allons generaliser le modele autoregressif de la section 14.7. Une
generalisation dynamique naturelle du modele de regression multiple consiste a remplacer
les variables yt et x1t , . . . , xkt de ce modele par des combinaisons lineaires de leurs retards,
a savoir (L)yt et 1 (L)x1t , . . . , k (L)xkt . On obtient alors:
(L) = 1 1 L p Lp
i (L) = 0i + 1i L + + qi i Lqi .
E(t | zt , zt1 , . . . ) = 0
E(2t | zt , zt1 , . . . ) = 2 .
Comme a la section 14.7, ou nous avions suppose que 1 < b < 1, nous faisons aussi
lhypothese que (L) est inversible (ses racines doivent etre toutes strictement superieures
a lunite en valeur absolue).
On designe ce modele par AD(p, q1 , . . . , qk ).
Exemple:
Si p = 1, k = 1, et q1 = 1, le modele secrit:
Notes:
(1) Il ne faut pas confondre ce modele avec le modele ARMA(p, q), qui senonce comme:
(L)yt = (L)t
ou (L) est de degre p, (L) est de degre q, et les t sont spheriques et inobservables.
Les erreurs ut = (L)t du modele ARMA suivent un processus a moyenne mobile,
alors que celles du modele AD sont spheriques.
(2) Contrairement au modele ARMA, le modele AD peut etre estime par MCO. Les
tests habituels sont asymptotiquement valides (F pour lordre des retards, LM
pour la sphericite des erreurs). Le modele AD presente donc une plus grande facilite
demploi. Pour cette raison, beaucoup dauteurs preconisent son utilisation.
(3) Insistons sur la generalite du modele AD, qui inclut comme cas particuliers:
le modele statique si p = q1 = = qk = 0 ;
le modele autoregressif pur (L)yt = a + t si i (L) = 0 pour tout i ;
le modele statique a erreurs autoregressives:
k
yt = a + j xjt + ut , (L)ut = t
j=1
sous des restrictions dites de facteurs communs, comme nous le verrons plus bas.
Ces restrictions impliquent que les polynomes de retards echelonnes i (L) ont le facteur
commun (L). Donc:
Une forme particuliere de ces restrictions, que nous allons examiner plus en detail, est
la proportionnalite des polynomes de retards echelonnes au polynome autoregressif; cette
forme particuliere est donc:
i (L) = (L)i
yt = a + 1 x1t + + k xkt + ut
Exemple:
Si p = k = q1 = 1, la restriction secrit:
1 (L) = (L)1
soit aussi:
01 + 11 L = (1 1 L)1 = 1 1 1 L.
1 = 01
11 = 11
Cette restriction est non lineaire, mais peut etre testee a laide dune generalisation
de la statistique de Wald (on utilise une approximation lineaire de la contrainte). Le test
sappelle test de facteurs communs (test COMFAC en abrege).
Exercice:
En substituant la restriction precedente dans le modele:
Le modele AD est un modele statistique qui ne decrit que le comportement a court terme
(cest-a-dire conditionnel au passe immediat) de yt . Pour obtenir une relation economique
interessante, il faut obtenir la solution statique (ou solution a long terme, ou encore: relation
dequilibre stationnaire) du modele. Une telle solution peut etre obtenue facilement si lon
suppose que les esperances de yt et des xjt sont constantes:
Alors, en egalisant les esperances des deux membres de lequation du modele AD, on
obtient:
k
(1)E(y) = a + j (1)E(xj )
j=1
et en resolvant, il vient:
k
E(y) = a + j E(xj )
j=1
SECONDE PARTIE, CHAPITRE XV 185
ou a = 1 (1)a et j = 1 (1)j (1). Ceci est la relation entre les niveaux dequilibre des
variables, E(y) et E(xj ).
Commentaires:
(1) Ceci peut etre generalise au cas ou une tendance lineaire est incluse dans la liste
des xjt .
(2) Si lon impose les restrictions precedentes de facteurs communs j (L) = (L)j ,
on a vu que:
yt = a + 1 x1t + + k xkt + ut .
On a donc, a partir de cette relation:
yt
j =
xjt
E(yt )
j = 1 (1)j (1) = .
E(xjt )
Ceci implique donc legalite des coecients a long terme et a court terme, et fait
apparatre que les restrictions de facteurs communs sont assez implausibles.
Lemme 15.1.
Si A(L) = A0 + A1 L + A2 L2 + + An Ln alors:
ou:
n1
A (L) = Aj Lj
j=0
n
avec A0 = A0 et Aj = s=j+1 As pour j = 1, . . . , n 1 et n > 1.
Exercice:
Veriez le lemme 15.1 pour n = 1, 2, 3, 4.
k
(L)yt = a + j (L)xjt + t
j=1
Le modele:
(L)yt = a + (L)xt + t
SECONDE PARTIE, CHAPITRE XV 187
(1 1 )yt1 + yt = a + (0 + 1 )xt1 + 0 xt + t
yt = a (1 1 )yt1 + (1 1 )xt1 + 0 xt + t
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t
CHAPITRE XVI
Un processus stochastique discret peut etre considere comme une suite innie de va-
riables aleatoires, telle que {Yt }+
t= ou {Yt }t=0 .
+
Un processus stochastique continu peut etre considere comme une fonction aleatoire
dune variable continue t, telle que {Y (t), t R} ou {Y (t), t [0, 1]}.
En interpolant lineairement entre les points (ti , Yti ) et (ti+1 , Yti+1 ), on peut obtenir un
processus continu a partir dun processus discret. En posant ti+1 ti = n1 et en faisant
tendre n vers linni, on peut aussi obtenir la limite de ce processus, lorsque celle-ci existe.
Cette technique est illustree par le graphique suivant, ou les yti sont des realisations des
variables Yti et ou y(t) est une realisation dun processus continu Y (t), obtenu par passage
a la limite.
yt , y(t)
y(t)
.............................. ... ...... ...
... ....................
..
.........
............... .
.. .
..
.. .
. .
..................
.............
.
....................
.
....
.
. .
. ...........
....
.
...........
...
......
...
. .
....
.
.... (t3 , yt3 )
...
......
.. ..
.
.
... .
.
.. .
... ..
... ...
... .
.
.. ..
... ..
... ...
. ..
.
... ..
.. ...
.......
...................... ... ... ... ... ... ... ... ... .........................
.
.
..................................
t
t1 t2 t3 t4 t5
SECONDE PARTIE, CHAPITRE XVI 189
Exemples:
(1) Si les variables Yt sont N (0, 1), independantes, et identiquement distribuees pour
tout t, on a:
= 0,
0 = 1,
j = 0 pour tout j = 0 .
Le processus est donc stationnaire.
(3) Un exemple de processus non stationnaire est fourni par une marche aleatoire:
Yt = Yt1 + t
ou les t N (0, 2 ) sont independantes et ou Y0 = 0. En eet:
Yt = Yt2 + t1 + t
= Yt3 + t2 + t1 + t
= ...
t
= Y0 + 1 + 2 + + t = i
i=1
On a:
E(Yt ) = 0, V (Yt ) = t 2 ,
E(Yt Ytj ) = (t j) 2 pour j 0.
La variance de Yt depend donc de t, de meme que la covariance entre Yt et Ytj .
190 P. DESCHAMPS, COURS DECONOMETRIE
Denition:
Un processus discret {Yt } est I(d) si et seulement si:
d Yt = + t + ut
(L)ut = (L)t
Introduction
Soit {Yt } un processus stochastique discret. Quelle est la distribution limite de:
n
1
Yt
n t=1
lorsque n ?
(b) A la section 10.8.2, nous avons generalise ce resultat a des suites de variables
independantes, mais pas identiquement distribuees: Si les Yt sont independantes
desperance nulle et de variance t2 et si E(Yt3 ) < , alors:
n
1
Yt N (0, 2 )
n t=1 d
n
ou 2 = lim n1 t=1 t2 .
(c) A la section 10.8.3, nous avons generalise ce resultat a des suites de variables Yt
dependantes du type Yt = ut ut1 , ou les ut sont independantes et identiquement
distribuees desperance nulle. Nous avons vu que dans ce cas, sous certaines hypo-
theses:
n
1
Yt N (0, 2 )
n t=1 d
1
n
ou 2 = plim n
2
t=1 Yt .
n
1 2
Yt N (0, ).
n n t=1 d 3
Donc, si lon a aaire a des processus integres, les resultats limites habituels ne seront,
en general, plus valables. Dou linteret dun test destine a la detection de variables I(1) .
La regression de Dickey-Fuller
Notre point de depart sera la formulation dun modele susamment general, decrivant
le comportement dune serie de realisations yt . Ce modele doit permettre lapplication de
la denition dun processus I(1) vue a la section 16.3. On suppose donc que:
(1) (L)yt = + t + t
avec:
(L) = 1 1 L p Lp .
192 P. DESCHAMPS, COURS DECONOMETRIE
Le degre p est choisi susamment eleve, de facon a ce que les t soient spheriques. Nous
appliquons maintenant a (L) le lemme 15.1 vu au chapitre precedent. Ceci donne:
avec:
0 = 0 = 1
p
j = s pour j = 1, . . . , p 1 et p > 1
s=j+1
p1
(L) = j Lj .
j=0
Nous substituons enn lequation (2) dans lequation (1), pour obtenir:
p1
(1) yt1 + yt + j ytj = + t + t
./01
j=1
Lyt . /0 1
(L)(1L)yt
ou encore:
p1
(3) yt = + t + yt1 + j ytj + t
j=1
avec = 1 (1) et j = j .
Ceci est la regression de Dickey-Fuller. Si yt est I(1), j j ytj + t est I(0) . La
comparaison avec la denition dun processus I(1) montre que = 1 . Le test est celui de
H0 : = 1 contre
H1 : < 1.
Le resultat suivant est demontre par Hamilton, Time Series Analysis, 1994, pp. 499500.
Sous H0 : = 1, TDF converge en distribution vers la variable aleatoire suivante:
W (1)
[ 0 1 0 ] A1 [W 2 (1) 1]
1
2
'1
W (1) 0 W (r) dr
0 1
2
[ 0 1 0 ] A1 1
0
ou: '1
1
1 0 W (r) dr 2
' 1 '1 '1
A=
0 W (r) dr 0 W 2 (r) dr 0 rW (r) dr
1
'1 1
2 0 rW (r) dr 3
et ou W (r) est un mouvement Brownien standard, qui est le processus stochastique continu
obtenu comme limite de:
1
Zt = Zt1 + t , Z0 = 0, t N (0, ) independantes,
n
lorsque t = 1, . . . , n et n .
Zt a la distribution N (0, nt ). Soit r nt ; comme une variable normale centree est entiere-
ment caracterisee par sa variance, r caracterise entierement Zt . Notre denition implique
donc que si n , {Zt } converge en distribution vers:
{W (r), 0 r 1}.
194 P. DESCHAMPS, COURS DECONOMETRIE
On peut
se ramener au cas precedent en divisant les deux membres de legalite precedente
par n, et en denissant Zt = Yt / n, t = ut / n. On a alors:
Yt
{ } {W (r), 0 r 1}.
n d
Les variables W (1) et W 2 (1) qui apparaissent dans la variable limite sont faciles a
comprendre: W (1) est la valeur de W (r) au point r = 1, cest donc la variable normale
reduite Zn . W 2 (1) est le carre dune normale reduite, cest-a-dire une 2 a un degre de
liberte.
Interessons-nous maintenant aux integrales apparaissant dans la variable limite. On peut
approcher les integrales par des
sommes de surfaces de rectangles dont les bases sont de
longueur 1/n et les hauteurs Yt / n , donc:
% 1
Yt
W (r) dr
0 n n
% 1 2 2
1 Yt Yt
W (r) dr
2
=
0 n n n2
% 1
1 t Yt 1
rW (r) dr = 2 tYt
0 n n n n n
'1
Pour simuler, par exemple, 0
W (r) dr, on peut:
(1) engendrer n = 1000 realisations de variables ut normales reduites independantes;
(2) calculer par recurrence n = 1000 realisations yt ;
(3) calculer:
n
t=1 yt
.
n n
'1
On a alors une realisation simulee dune approximation de 0 W (r) dr.
Si lon refait cet exercice 10000 fois, on a alors 10000 realisations simulees de cette
variable aleatoire. Lhistogramme de ces 10000 realisations est une bonne approximation
'1
de la densite de 0 W (r) dr.
SECONDE PARTIE, CHAPITRE XVI 195
'1
En fait, Hamilton (Time Series Analysis, 1994, p.485) montre que 0 W (r) dr a la dis-
tribution N (0, 1/3). Dans des cas plus compliques, tels que la simulation de la distribution
limite de la statistique TDF, la methode de simulation est la seule possible. Il faut bien
noter que les variables aleatoires apparaissant dans la variable limite sont fonction dun
meme processus W (r).
On peut obtenir un processus I(0) a partir dun processus I(1) en prenant les dierences
premieres du processus I(1). Malheureusement, ceci supprime toutes les informations a long
terme. Pour cette raison, on a deni une autre approche permettant dobtenir un processus
I(0), celle de la cointegration.
Denition:
Soit Y1t , Y2t , . . . , Ykt des processus stochastiques I(1). Ces processus sont dits cointegres
sil existe un vecteur a = 0 tel que :
k
a Yt = ai Yit
i=1
tete a prix constants. On fait lhypothese que ces deux series sont des realisations de
processus I(1):
On aura cointegration si la serie y1t y2t = ut est une realisation dun processus I(0) .
Interpretation:
Le vecteur cointegrant est ici a = (1, ) . On a une relation de cointegration:
y1t = y2t + ut
ou ut est I(0) . On peut interpreter cette relation comme une fonction de consommation
a long terme, mais linterpretation est dierente de celle que lon avait dans le cas ou y1t
et y2t etaient stationnaires. En eet, les niveaux dequilibre de y1t et y2t nexistent pas,
car:
Lidee de base est la suivante. On va faire un test de racines unitaires sur les residus de
la relation de cointegration obtenus par la methode des moindres carres ordinaires (cette
methodologie est la plus ancienne et la plus simple).
Il faut neanmoins prendre garde au fait que les distributions limites sont dierentes de
celles des tests de Dickey-Fuller precedents, car lestimation par moindres carres repose
sur lhypothese de cointegration. La mise en oeuvre se deroule comme suit:
(1) On teste si yt , xt1 , . . . , xtk sont I(1), a laide du test TDF precedent applique a
chacune de ces variables.
yt = + 1 xt1 + + k xtk + ut
SECONDE PARTIE, CHAPITRE XVI 197
La statistique TCO = ( 1)/ est a comparer avec les valeurs critiques fournies
par Hamilton, Table B9, Case 3, p.766. Ces valeurs critiques sont valables dans le
cas ou au moins lune des variables yt , x1t , . . . , xkt possede une derive non nulle.
Quelles sont les proprietes des estimateurs par moindres carres ordinaires des coecients
de la relation:
yt = + 1 xt1 + + k xtk + ut
ou toutes les variables yt , xt1 , . . . , xtk sont I(1) mais ou ut est I(0)? Stock (Econometrica
55, 1987, pp.10351056) montre que si = (1 , . . . , k ), alors:
n( ) 0 (on dit que lon a superconvergence);
p
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t .
yt = + 1 xt1 + + k xtk + ut
ou toutes les variables yt , xt1 , . . . , xtk , et ut sont I(1)? Dans ce cas, on na pas de cointe-
gration.
198 P. DESCHAMPS, COURS DECONOMETRIE
Donc et Fobs divergent et les i ne convergent pas en probabilite! Ceci meme si les
k + 1 variables yt , xt1 , . . . , xtk sont independantes entre elles. Pour tout c, on a que:
16.8 Conclusions
(1) La modelisation econometrique des variables I(1) est un probleme dicile. Le do-
maine manque de maturite (plusieurs questions restent ouvertes).
(2) La notion de cointegration est recente et reste contestee. Elle presente notamment
deux dicultes:
Lequivalence observationnelle, en petit echantillon, dun processus I(1) et
dun processus presque non stationnaire, par exemple le suivant:
Yt = 0.9999Yt1 + t .
CHAPITRE I.
INTRODUCTION
Exemple 1
Le modele suivant, dont lorigine remonte a Haavelmo, comporte deux equations: une
equation stochastique de comportement, et une denition (identite comptable):
Ct = a + bYt + u1t
Yt = C t + It
Yt = a + bYt + u1t + It ,
soit aussi:
a 1 u1t
Yt = + It + .
1b 1b 1b
199
200 P. DESCHAMPS, COURS DECONOMETRIE
u21t 2
E(Yt u1t ) = E( )= = 0,
1b 1b
et lapplication des moindres carres ordinaires a la premiere equation ne donne pas des
estimateurs convergents.
Si E(Yt u1t ) > 0, nous aurons, avec une probabilite relativement forte:
Si lon represente alors les deux droites Ct = a + bYt et Ct = a + bYt , la pente de cette
derniere droite est la plus forte, car a et b minimisent la somme des carres des residus:
Ct
8
a + bYt
...
......
.....
7 ...
........
.....
.....
......
.
......
.....
......
.
.....
..
......
.
6 .
......
.
..
.
......
......
.....
.
....
......
...
...
..
......
..... .............
...
5 ....
......
..... .............
.............
..
..
. ..
...
....................
..... ..............
.
a + bYt
...... .............
..... .............
....
.
.. ....
...... .........................
.
.................
...............
4 ......
............. .....
............. ..........
.
. .....
.............. ......
.............
..
.......
......
......
.....
......
3 .....
..
.........
.....
.....
.....
......
Yt
0.5 1.0 1.5 2.0
E(Yt )
Exemple 2
Nous avons ici deux equations de comportement, une loi dore et une loi de demande.
Les quantites demandees (qt ) dependent du prix (pt ) et du revenu (rt ). Le prix (pt ) depend
des quantites oertes (qt ) et du cout de production (ct ). Le systeme secrit:
TROISIEME PARTIE, CHAPITRE I 201
(i) qt = a1 + b1 rt + c1 pt + u1t
(ii) pt = a2 + b2 ct + c2 qt + u2t
Donc pt depend de qt dans (ii), qui depend de u1t dans (i): nous concluons que pt est
correlee avec u1t . Mais pt apparat comme regresseur dans (i): nous avons donc un probleme
de simultaneite comme auparavant.
Les variables pt et qt de lexemple precedent sont dites endogenes: elles sont determinees
par le modele, et dependent des termes derreur de chacune des equations. Les variables
ct et rt sont dites predeterminees: par hypothese, elles ne sont correlees avec aucun des
termes derreurs contemporains.
Comme on le verra par la suite, il est important de faire une distinction entre variables
exogenes et variables predeterminees. Les variables exogenes sont determinees par des
relations nappartenant pas au modele: elles ne sont donc correlees, ni avec les termes
derreurs contemporains, ni avec les autres termes derreur. En revanche, les variables
predeterminees comprennent, non seulement les variables exogenes, mais aussi les variables
endogenes retardees, pour autant que les erreurs ne soient pas correlees dans le temps.
Nous pouvons ecrire le systeme dequations precedent sous la forme canonique suivante:
qt c1 pt a1 b1 rt 0ct = u1t
Byt + xt = ut
ou B est une matrice g g de coecients des variables endogenes;
est une matrice g k de coecients des variables predeterminees;
yt est un vecteur g 1 de variables endogenes;
xt est un vecteur k 1 de variables predeterminees;
ut est un vecteur g 1 derreurs inobservables.
Les hypotheses de ce modele sont les suivantes:
1
(H7 ) plim nX X = XX est denie positive
x1
x2
ou X = est n k et
.
.
.
xn
u1
u2
U = est n g .
.
.
.
un
En reunissant toutes les observations t sur Byt + xt = ut , on peut aussi secrire
Y B + X = U, ou Y est n g.
TROISIEME PARTIE, CHAPITRE I 203
yt = xt + vt avec = B 1 et vt = B 1 ut .
Comme nous le verrons, les g equations de ce nouveau systeme peuvent etre estimees
par moindres carres ordinaires, sans probleme de simultaneite.
La forme reduite peut aussi secrire:
Y = X + V , ou V = U(B )1 .
Comme cas particuliers de la forme reduite, nous pouvons mentionner:
(1) Le modele MANOVA (multivariate analysis of variance) ou les variables exogenes
ne prennent que les valeurs 0 et 1.
(2) Le modele autoregressif vectoriel (VAR). Ce modele peut secrire:
(L)yt = 0 + vt
ou (L) est une matrice de polynomes:
(L) = I 1 L p Lp .
On a alors:
yt = 0 + 1 yt1 + + p ytp + vt
ce qui correspond bien a lequation yt = xt + vt , si lon denit:
1
yt1
xt =
..
.
ytp
= ( 0 1 2 . . . p ) .
(3) Le modele autoregressif a retards echelonnes vectoriel, ou lon a un nombre ar-
bitraire de variables exogenes formant un vecteur zt et un nombre arbitraire de
retards de ces variables. Il sagit dune generalisation du modele VAR precedent,
qui peut secrire comme:
(L)yt = (L)zt + vt .
Un cas particulier de ce type de modele sera etudie en detail a la section 1.7.
204 P. DESCHAMPS, COURS DECONOMETRIE
E(vt ) = 0
E(vt vt ) = B 1 (B )1
E(vt vs ) = Ogg pour t = s
1
plim X V = Okg .
n
Donc les erreurs de la forme reduite sont desperance nulle, homoscedastiques, non
correlees dans le temps, et non correlees avec les regresseurs contemporains.
On peut par consequent estimer les equations de la forme reduite par moindres carres
ordinaires. La colonne i de legalite matricielle Y = X + V peut secrire:
y i = X i + v i
ou i est la colonne i de la matrice . Ceci est une equation de regression du type habituel,
et par consequent:
i = (X X)1 X y i
= (X X)1 X Y.
On montrera plus loin (section 5.1) que cet estimateur est aussi lestimateur par maxi-
mum de vraisemblance lorsque les erreurs sont normales. En revanche, comme nous lavons
indique, la forme structurelle ne peut pas etre estimee par MCO.
Ct = a + bYt + u1t
Yt = C t + It
Lestimation des parametres de cette forme structurelle ne fournit que les propensions
marginales et moyennes a consommer. On pourrait aussi se demander quel est limpact sur
la consommation dune augmentation des depenses dinvestissement. Cet impact est bien
entendu mesure par le multiplicateur.
TROISIEME PARTIE, CHAPITRE I 205
Nous allons voir que ce multiplicateur nest autre que lun des coecients de la forme
reduite. Ces coecients mesurent donc leet sur les variables endogenes dun changement
des variables predeterminees, lorsque lon tient compte de la simultaneite du systeme.
La forme structurelle secrit Byt + xt = ut , avec
1 b a 0
B= , = ,
1 1 0 1
Ct 1 u1t
yt = , xt = , et ut = .
Yt It 0
Donc:
1 1 1 b a 0
= B =
1b 1 1 0 1
1 a b
= ,
1 b a 1
a b
Ct = + It + v1t
1b 1b
a 1
Yt = + It + v2t .
1b 1b
dCt b dYt 1
On obtient donc directement = et = .
dIt 1b dIt 1b
Certaines variables predeterminees sont ici des variables endogenes retardees. Dans le
cas particulier dun seul retard, nous pouvons ecrire la forme reduite comme:
yt = 1 yt1 + 2 zt + vt
ou yt est le vecteur des variables endogenes contemporaines, yt1 est le vecteur des
variables endogenes retardees, zt est le vecteur des variables exogenes et 1 , 2 sont des
sous-matrices de .
Nous allons, au moyen de substitutions successives, exprimer yt en fonction des seules
variables exogenes et des erreurs.
206 P. DESCHAMPS, COURS DECONOMETRIE
yt = Cj ztj + j1 vtj ,
j=0 j=0
avec:
Cj = j1 2 .
def
Cette derniere equation sappelle la forme nale du modele. Elle permet dobtenir, par
simple lecture, les multiplicateurs dynamiques. On distingue:
(1) Les multiplicateurs dimpact: ce sont les composantes de C0 = 2 .
(2) Les multiplicateurs de delai j: ce sont les composantes de Cj . Ils mesurent leet
sur les yt dune variation temporaire des variables exogenes a la periode t j.
(3) Les multiplicateurs cumules: ce sont les composantes de la matrice D = j=0 Cj .
Ils mesurent leet sur les yt dune variation prolongee des variables exogenes durant
les + 1 periodes t , t + 1, . . . , t.
(4) Les multiplicateurs dequilibre: ce sont les composantes de la matrice:
1
D = Cj = I + 1 + 21 + . . . 2 = (I 1 ) 2 .
j=0
Ils mesurent leet dune variation des zt soutenue pendant une innite de periodes.
Le niveau dequilibre des variables endogenes est alors donne par E(y) = D z, ou
z est le nouveau niveau des variables exogenes.
A titre dexemple, considerons la forme structurelle suivante:
Supposons qua partir dune situation dequilibre, le niveau G des depenses gouverne-
mentales augmente dune unite a la periode t 1, et revienne a la periode suivante a son
TROISIEME PARTIE, CHAPITRE I 207
Ct
yt1 1
yt = Yt ; xt = ; zt =
zt Gt
It
Ct1
1 0.5 0 Ct 0 0 0 0.25 0 Yt1 u1t
0 0.1 1 Yt + 0 0.3 0 0.15 0 It1 = u2t .
1 1 1 It 0 0 0 0 1 1 0
Gt
0 0.375 0 0.75 1.25
= B 1 = 0 0.75 0 1 2.5
0 0.375 0 0.25 0.25
0 0.375 0 0.75 1.25
1 = 0 0.75 0 et 2 = 1 2.5 .
0 0.375 0 0.25 0.25
Les reponses aux questions posees sont donnees par les multiplicateurs de delai 1, et de
delai 2. On verie que:
208 P. DESCHAMPS, COURS DECONOMETRIE
0.375 0.9375
C1 = 1 2 = 0.75 1.875
0.375 0.9375
0.28125 0.703125
C2 = 21 2 = 0.5625 1.40625 .
0.28125 0.703125
Donc, si une situation dequilibre prevaut a la periode t 2 (soit si Gt2 = G) et si
Gt1 G = 1 tandis que Gs G = 0 pour s = t 1, on a, a un terme derreur pres:
En eet:
CHAPITRE II.
LE PROBLEME DE LIDENTIFICATION
Lorsque nous estimons les parametres de la forme reduite par la methode des moindres
carres ordinaires, le probleme suivant se pose. Comme nous lavons signale a la section
1.4, ce sont les composantes des matrices B et qui nous interessent en premier lieu.
Peut-on, alors, trouver des estimations convergentes uniques de ces composantes a partir
destimations convergentes des composantes de ? Ce probleme est celui de lidentication
de B et de .
Pour que B et puissent etre identiees, il faut quil existe une correspondance bi-
jective entre dune part, B et dautre part. Donc, il faut qua toute forme reduite
corresponde une et une seule forme structurelle et reciproquement. Il est facile de voir que
sans restrictions sur les coecients, ceci ne sera jamais le cas. A une forme reduite donnee
correspondrait une innite de formes structurelles; ces dernieres sont dites observationnel-
lement equivalentes (elles impliquent la meme forme reduite).
Considerons en eet les deux formes structurelles suivantes:
Un systeme recursif est caracterise par une matrice B triangulaire et une matrice =
E(ut ut ) diagonale. Un exemple dun tel systeme est donne par:
11 12 y1t 11 u1t
+ x1t =
21 22 y2t 21 u2t
Lapplication des moindres carres ordinaires a chaque equation donne des estimateurs
convergents. La propriete est evidente pour la premiere equation. En ce qui concerne la
seconde, il est immediat que E(y1t u2t ) = 0, puisque E(x1t u2t ) = 0 et E(u1tu2t ) = 0.
Nous allons illustrer la section precedente en veriant, par le biais de la matrice de
transformation F , que les deux equations du systeme sont identiables.
Les matrices de la forme structurelle transformee:
f11 f12 11 12 f11 11 + f12 21 f11 12 + f12 22
FB = =
f21 f22 21 22 f21 11 + f22 21 f21 12 + f22 22
f11 11 + f12 21
F =
f21 11 + f22 21
doivent obeir aux trois memes restrictions que les matrices B et . De meme, la matrice
de covariance de la forme structurelle transformee doit etre diagonale. Nous avons donc
les quatre restrictions suivantes (il faut bien noter que ce sont les seules):
TROISIEME PARTIE, CHAPITRE II 211
f11 11 + f12 21 = 1
f11 12 + f12 22 = 0
f21 12 + f22 22 = 1
ou, en substituant les quatre restrictions sur les parametres de la forme structurelle
dorigine:
f11 + f12 21 = 1
f12 = 0
f22 = 1
Comme 11 = 0, ces quatre equations ont comme solution unique f11 = 1, f12 = 0, f21 =
0, f22 = 1.
Donc les restrictions impliquent F = I, et nous ne pouvons avoir deux formes structu-
relles dierentes impliquant la meme forme reduite. Les deux equations sont identiables.
Exercice: Calculez la forme reduite du systeme precedent. Pourquoi ne peut-on pas iden-
tier les parametres de la seconde equation structurelle lorsque E(u1t u2t ) = 0?
Lorsque les seules restrictions sont des restrictions lineaires homogenes portant sur les ij
et ij , jointes a des restrictions de normalisation (ij = 1 pour un seul j dans lequation i ),
nous allons voir quil nest pas necessaire de passer par lapproche de la section precedente.
Une condition necessaire et susante pour lidentiabilite dune equation peut en eet etre
enoncee en fonction du rang dune certaine matrice.
212 P. DESCHAMPS, COURS DECONOMETRIE
Comme = B 1 , nous pouvons enoncer la relation suivante, qui lie les parametres
de la forme structurelle a ceux de la forme reduite:
B + = Ogk
soit aussi:
AW = Ogk
ou:
A = (B ) est g (g + k)
W = est (g + k) k .
Ik
Soit alors i la i-ieme ligne de A. Il sagit du vecteur des coecients de la i-ieme equation
structurelle. Le rang de W est egal a k. En eet, comme rang (Ik ) = k, rang (W ) k; mais
W na que k colonnes, donc rang (W ) k. Donc i W = O1k est un systeme homogene
de k equations independantes avec g + k inconnues. Lensemble des solutions est donc un
espace vectoriel de dimension (g + k) k = g.
Les restrictions homogenes devront ramener cette dimension a lunite pour que lequa-
tion i soit identiable. Le vecteur i sera alors determine a un facteur de proportionnalite
pres et la restriction de normalisation permettra de le determiner de facon unique.
Ces restrictions homogenes, au nombre de Ri , sont regroupees dans le systeme i i =
O1Ri . La matrice i a g + k lignes et Ri colonnes. Au total, le systeme dequations qui
devrait nous permettre de retrouver les parametres de la i-ieme equation structurelle a
partir des restrictions et des parametres de la forme reduite est le suivant:
i ( W i ) = O1(k+Ri )
et le rang de ( W i ) doit etre egal a g + k 1 pour que toutes les solutions soient
proportionnelles.
Cette formulation est plus facile a utiliser que la precedente, car elle nimplique pas le
calcul de .
TROISIEME PARTIE, CHAPITRE II 213
Theoreme.
Le rang de ( W i ) est egal a g + k 1 si et seulement si le rang de Ai est egal a
g 1.
Demonstration:
Voir Judge et al., The Theory and Practice of Econometrics, 1985, p.577.
Supposons maintenant que les seules restrictions homogenes soient des restrictions dex-
clusion (du type ij = 0 ou ij = 0). Nous pouvons alors enoncer un critere encore plus
simple que le precedent. Il faut neanmoins insister sur le fait que ce critere est une condition
necessaire, mais pas susante, pour lidentication dune equation. Si la condition dordre
nest pas veriee, lequation nest pas identiable; si la condition dordre est satisfaite, il
faut neanmoins verier la condition de rang.
Repartons de lequation rang ( W i ) = g + k 1. Comme ( W i ) a k + Ri colonnes
et g + k lignes, cette condition ne sera certainement pas veriee si Ri < g 1; en eet, dans
ce cas, rang ( W i ) k+Ri < k+g1. Une condition necessaire pour lidentication de
lequation i est donc Ri g 1. Comme les Ri restrictions sont des restrictions dexclusion,
on a:
R i = g g i + k ki
R i = g g i + k ki g 1
soit k ki g i 1 .
2.5 Exemple
Reprenons le systeme recursif de la section 2.2. Nous allons voir que sans la restriction
12 = 0, la premiere equation reste identiable, mais la seconde ne lest pas.
214 P. DESCHAMPS, COURS DECONOMETRIE
0
Pour la premiere equation, 1 = 1 . Donc A1 = , qui est de rang 1 = g 1.
1
0
La premiere equation est donc identiable. Comme k k1 = 0 = g1 1 = 0, elle est
juste-identiee.
Pour la seconde equation, k k2 = 0 < g2 1 = 1. Cette equation nest pas identiable.
CHAPITRE III.
3.1 Introduction
Nous verrons dans ce chapitre la methode des moindres carres indirects, qui nest appli-
cable qua une equation juste-identiee (k ki = gi 1); la methode des moindres carres
doubles, qui est applicable a toute equation identiable (k ki gi 1); et lestimateur
de classe k, qui generalise celui des moindres carres doubles et qui inclut aussi, comme cas
particulier, lestimateur par maximum de vraisemblance a information limitee. Le terme
information limitee signie que lon ne tient compte, lors de lestimation des coecients
de la i-ieme equation structurelle, que des restrictions a priori sur cette equation (indepen-
damment de la formulation des autres equations). Les methodes de cette classe ont donc
lavantage de la simplicite et de la robustesse. En revanche, les methodes a information
complete, que nous verrons au chapitre IV, sont potentiellement plus ecaces car elles
utilisent les restrictions a priori sur toutes les equations du systeme.
Lestimateur de moindres carres doubles, que nous verrons a la section 3.3, est lestima-
teur a information limitee le plus couramment utilise. Cest un estimateur par variables
instrumentales, qui est asymptotiquement equivalent a celui du maximum de vraisemblance
a information limitee.
3.2.2 Limitations.
Montrons que cette procedure nest pas applicable lorsque Ri = g 1. La matrice
( W i ) est de dimensions (g + k) (k + Ri ).
Si Ri > g 1, son rang sera de g + k en general, meme si rang ( W i ) = g + k 1.
Nous avons donc g + k equations independantes en g + k variables. La solution unique est
le vecteur nul, et cette solution est donc incompatible avec la condition de normalisation!
Si Ri < g 1, le rang de ( W i ) sera strictement inferieur a k + g 1, et nous aurons
une innite de solutions.
Illustrons ce qui precede au moyen de lexemple suivant:
St = a0 + a1 pt + a2 Et + u1t
pt = b0 + b1 St + b2 rt + b3 pt1 + u2t
ou St est le taux de variation des salaires; pt est le taux dination; Et est le taux de
chomage; rt est le taux dinteret.
Les deux variables endogenes sont pt et St ; les quatre variables predeterminees sont la
constante, Et , rt et pt1 .
La matrice A a la forme suivante:
1 a1 a0 a2 0 0
A= .
b1 1 b0 0 b2 b3
Les deux matrices sont de rang 1, donc les deux equations sont identiables. Pour la
premiere equation, k k1 = 2 > g1 1 = 1. Pour la seconde, k k2 = 1 = g2 1 = 1.
Donc la premiere equation est sur-identiee, la seconde est juste-identiee.
Nous resumons les donnees de lechantillon dans la matrice des sommes de carres et de
produits suivante:
TROISIEME PARTIE, CHAPITRE III 217
St pt Constante Et rt pt1
St 361 100 10 20 80 80
pt 100 279 80 10 60 40
Constante 10 80 100 0 0 0
Et 20 10 0 20 0 0
rt 80 60 0 0 40 0
pt1 80 40 0 0 0 80
Les parametres de la forme reduite sont estimes par moindres carres ordinaires. Donc:
1
100 0 0 0
1
10 20 80 80 0 0 0
20
=
1
80 10 60 40 0 0 0
40
1
0 0 0 80
0.1 1 2 1
= .
0.8 0.5 1.5 0.5
Estimons les parametres de la seconde equation structurelle par la methode des moindres
carres indirects. Ces estimations sont obtenues en resolvant:
0.1 1 2 1
0.8 0.5 1.5 0.5
1 0 0 0
( b1 1 b0 0 b2 b3 ) = (0 0 0 0)
0 1 0 0
0 0 1 0
0 0 0 1
0.1 1 2 1
0.8 0.5 1.5 0.5
1 0 0 0
( 1 a1 a0 a2 0 0) = (0 0 0 0) .
0 1 0 0
0 0 1 0
0 0 0 1
Contrairement a la precedente, cette methode peut etre appliquee a toute equation iden-
tiee. Nous fournirons deux interpretations de lestimateur par moindres carres doubles:
(1) une interpretation heuristique;
(2) une interpretation en termes de variables instrumentales;
3.3.1 Notation.
Supposons que nous voulions estimer les parametres de la i-ieme equation structurelle.
Celle-ci peut secrire:
yi = Yi i + Xi i + ui
i
ou yi = Ti i + ui avec Ti = ( Yi Xi ) et i = .
i
Ct = a + bYt + u1t
Yt = C t + I t
nous avons calcule la forme reduite:
Ct = 11 + 12 It + v1t
Yt = 21 + 22 It + v2t .
Yt = 21 + 22 It .
Si It est non stochastique, Yt est non stochastique. On pourrait alors imaginer destimer
par MCO les parametres a et b dans lequation modiee:
Ct = a + bYt + wt .
En fait, est inconnue. Mais on peut lestimer de facon convergente par MCO, et
calculer:
Yt = 21 + 22 It .
Ct = a + bYt + et .
Cette presentation conduit aisement aux equations normales. Nous denirons lestima-
teur de i par moindres carres doubles comme le vecteur obtenu en:
regressant, par moindres carres ordinaires, chacune des variables de Yi sur toutes les
variables predeterminees du modele, an dobtenir une matrice de valeurs calculees
Yi ;
puis en remplacant Yi par Yi dans lequation yi = Yi i + Xi i + ui et en appliquant
une nouvelle fois les moindres carres ordinaires a lequation ainsi obtenue.
220 P. DESCHAMPS, COURS DECONOMETRIE
Supposons, sans perte de generalite, que la matrice Xi forme les premieres colonnes de
X, et denissons PX = X(X X)1 X . On a PX Xi = Xi , car (X X)1 X Xi forme les ki
premieres colonnes dune matrice unite dordre k. Dautre part PX Yi = Yi . On a alors:
Zi = ( Yi Xi ) = PX ( Yi Xi ) = PX Ti
et par consequent:
i = (Zi Zi )1 Zi yi
= [(PX Ti ) (PX Ti )]1 (PX Ti ) yi
= [Ti PX Ti ]1 Ti PX yi
= [Zi Ti ]1 Zi yi
TROISIEME PARTIE, CHAPITRE III 221
ou encore:
Yi X(X X)1 X Yi Yi Xi i Yi X(X X)1 X yi
(E.N.2) = .
Xi Yi Xi Xi i Xi yi
Lexpression [Ti PX Ti ]1 Ti PX yi montre que lon a bien un estimateur par variables
instrumentales: les observations sur ces variables forment la matrice X. La convergence en
probabilite de i vers i est garantie par lhypothese H6 de la section 1.3.
Il est interessant de noter que Ti PX Ti est dordre ki + gi 1 et de rang inferieur ou
egal a k. Donc si la condition dordre nest pas veriee (k ki < gi 1), la matrice des
coecients des equations normales sera singuliere.
Puisque lestimateur des moindres carres doubles est un estimateur par variables ins-
trumentales, le theoreme 13.8 de la seconde partie lui est immediatement applicable. Nous
avons donc le resultat suivant.
Theoreme.
Soit i lestimateur de i par moindres carres doubles. Sous les hypotheses dun theoreme
central limite:
(1) dlim n(i i ) N (0, ii 1
ZZ ) ou ZZ = plim 1
n Zi Zi .
(2) Si ii = 1
n (yi Ti i ) (yi Ti i ), alors plim ii = ii .
Notons quil nest pas necessaire de calculer chaque residu pour calculer ii . On verie
en eet par simple substitution que:
1
Y i yi
Yi Yi Yi Xi
ii = yi yi 2i + i i .
n
Xi yi Xi Yi Xi Xi
80
100 0
10
X Y1 = X1 X1 =
60
0 20
40
10
10 20
X1 y1 = X y1 =
20 80
80
100 0 0 0
0 20 0 0 80
X X = X1 Y1 = .
0 0 40 0 10
0 0 0 80
200 160 100 178
1
1
= 160 348 80 10
22000
1
100 80 1150 20
32/22 a1
= 234/220 = a0 .
6/22 a2
En ce qui concerne maintenant la seconde equation, les observations sur St forment la
matrice Y2 ; celles sur la constante, rt et pt1 , forment la matrice X2 ; celles sur pt forment
le vecteur y2 . Nous avons alors:
TROISIEME PARTIE, CHAPITRE III 223
100 0 0
10
20
X Y2 = X2 X2 = 0 40 0
80
80
0 0 80
80
80
10
X2 y2 = 60 X y2 =
60
40
40
10
X2 Y2 = 80
80
261 10 80 80 b1 178
10 100 0 0 b0 80
=
80 0 40 0 b2 60
80 0 0 80 b3 40
systeme dont la solution est b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0. Nous retombons sur
les memes resultats que ceux obtenus par moindres carres indirects! Ceci est du au fait que
lequation 2 soit juste-identiee. Cette propriete est generale, comme on peut le demontrer.
Estimons maintenant les variances asymptotiques des estimateurs a0 , a1 , a2 . On a:
100
1
11 = 361 2 ( 1.45 1.06 0.27 ) 10
100
20
279 80 10 1.45
+ ( 1.45 1.06 0.27 ) 80 100 0 1.06 = 5.4575
10 0 20 0.27
224 P. DESCHAMPS, COURS DECONOMETRIE
348
a20 = 5.4575 = 0.0863
22000
a21 = 0.0496
a22 = 0.2853.
Comme:
a2 6/22
= = 0.5106 < 1.96,
a2 0.2853
a2 nest pas signicativement dierent de zero.
ik
Il fut deni par H. Theil comme la solution des equations normales suivantes:
ik
Yi Yi k Vi Vi Yi Xi ik Yi k Vi yi
=
.
Xi Yi Xi Xi ik
Xi yi
CHAPITRE IV.
Nous estimons ici, globalement, les parametres dun systeme entier. Nous supposons que
toute equation non identiable, et toute identite, a ete supprimee du systeme (les identites
sont eliminees par substitution). Les methodes de ce chapitre permettent, dans certains
cas, un gain decacite asymptotique.
Cette operation permet, dans le cadre des systemes dequations, lelaboration dune
notation tres compacte.
Si A est une matrice m n et B est une matrice p q, A B est la matrice mp nq
suivante:
a11 B a12 B ... a1n B
a21 B a22 B ... a2n B
AB = .
. .. ..
.. .
. ...
am1 B am2 B ... amn B
A = ( a1 a2 ... an )
on denit:
a1
a2
vec A =
...
an
Le vecteur vec A est donc mn 1.
Les proprietes les plus importantes de cet operateur sont les suivantes:
4.2.1 Si les matrices A, B, C sont conformes pour la multiplication, alors vec(ABC) =
(C A) vec B;
4.2.2 Si les matrices A et B sont conformes pour la multiplication et si AB est carree, la
trace de (AB) est egale a (vec A ) vec B.
Pour une etude approfondie des operateurs et vec et dautres operations matricielles
avancees, on peut consulter Magnus et Neudecker, Matrix Dierential Calculus with Ap-
plications in Statistics and Econometrics, 1988.
Comme premier exemple dapplication des deux operateurs precedents, nous allons mon-
trer que dans le cas dune forme reduite, lemploi des moindres carres generalises est equi-
valent a lestimation par MCO de chaque equation individuelle.
Nous avons vu, a la section 1.4, que la forme reduite pouvait secrire:
Y = X + V.
Y = X + U
avec:
Y = vec Y
X = Ig X
U = vec V
= vec .
On verie aisement que E(U) = Ong1 , et que la matrice de covariance E(UU ) est egale a
= v In , ou v = B 1 (B )1 est la matrice de covariance contemporaine des erreurs
de la forme reduite.
Mais v In nest pas diagonale. Nous avons un cas particulier du modele traite a
la section 8.2.3 de la seconde partie. Pourquoi, alors, peut-on estimer les equations de ce
modele par moindres carres ordinaires et non par moindres carres generalises? Ceci vient
du fait que les regresseurs soient les memes dans chaque equation (X = Ig X). Nous
allons verier, a laide des proprietes des deux sections precedentes, que la formule des
MCG se simplie:
vec = = (X 1 X )1 X 1 Y
= [(Ig X) (1
v In )(Ig X)]
1
[Ig X] (1
v In )Y
= [1
v (X X)]
1
[1
v X ]Y
= [v (X X)1 ][1
v X ]Y
= [Ig (X X)1 X ]Y
(X X)1 X
O ... O y1
O (X X)1 X
... O y2
=
.. .. .. .. .
.
. . . . .
O O ... 1
(X X) X yg
228 P. DESCHAMPS, COURS DECONOMETRIE
E(UU ) = (X X)
11 (X X) 12 (X X) ... 1g (X X)
.. .. .. ..
= . . . . .
g1 (X X) g2 (X X) . . . gg (X X)
ou Aij = Ti X(X X)1 X Tj .
Denissons:
T1 O ... O
O T2 ... O
T =
... .. .. ..
. . .
O O ... Tg
y1
y2
z=
..
.
yg
1
2
=
...
g
u1
u2
u=
.. .
.
ug
z = T + u.
X = (Ig X )T
Y = (Ig X )z
= [T (S 1 PX )T ]1 T (S 1 PX )z
Nous avons donc bien un estimateur par variables instrumentales; les instruments for-
ment la matrice (S 1 PX )T .
Verions que ces instruments verient bien la propriete du lemme 13.6 de la seconde
partie. Le vecteur plim n1 Z u prend ici la forme:
1
plim T (S 1 PX )u
n
vecteur dont les sous-vecteurs prennent la forme:
1 ij
plim s Ti X(X X)1 X uj =
n
j
1
ij 1 1 1
plim s Ti X XX X uj =
n n n
j
1
ij 1 1 1
s plim Ti X plim X X plim X uj = 0
n n n
j
Il est facile de verier que si lon applique les moindres carres doubles a chaque equation
du systeme, on obtient lestimateur:
0 = [T (Ig PX )T ]1 T (Ig PX )z
Lestimateur par moindres carres triples, nous lavons montre, est un estimateur par
variables instrumentales. Il est donc convergent, asymptotiquement sans biais, et asympto-
tiquement normal. A lencontre de lestimateur par moindres carres doubles, il est de plus
asymptotiquement ecace.
Q = plim n[T (1 PX )T ]1
Nous allons justier ce theoreme au moyen dun argument par analogie. A la section
13.3.3 de la seconde partie, nous avions trouve la matrice de covariance asymptotique:
Dans le cas qui nous occupe, Z doit etre remplace par (1 PX )T , et X doit etre
remplace par T . De plus, nous avons E(uu | Z) = In au lieu de E(uu | Z) = 2 I.
Par consequent, V (Z u | Z) devient:
Q = plim n[T (1 PX )T ]1
100
80
1
22 = 279 2 ( 0.5 0.75 0.5 0)
100
60
40
361 10 80 80 0.5
10 100 0 0 0.75
+ ( 0.5 0.75 0.5 0 ) = 2.03
80 0 40 0 0.5
80 0 0 80 0
279
1
12 = 100 ( 1.45 1.06 0.27 ) 80
100
10
361
10
( 0.5 0.75 0.5 0 )
80
80
0.5
100 80 60 40
0.75
+ ( 1.45 1.06 0.27 ) 10 100 0 0 = 3.3018.
0.5
20 0 0 0
0
TROISIEME PARTIE, CHAPITRE IV 233
Les blocs:
T1 X(X X)1 X T1 , T2 X(X X)1 X T2 , T1 X(X X)1 X y1 T2 X(X X)1 X y2
Nous avons:
80 10 60 40
Y1 X 100 0
T1 X = = 0 0
X1 X
0 20 0 0
10 20 80 80
Y2 X 100 0 0 0
T2 X = =
X2 X 0 0 40 0
0 0 0 80
10 80
20 10
X y1 = X y2 =
80 60
80 40
178 10 20
80 100 0
T2 X(X X)1 X T1 =
60 0 0
40 0 0
261
10
T2 X(X X)1 X y1 =
80
80
179
T1 X(X X)1 X y2 = 80
10
234 P. DESCHAMPS, COURS DECONOMETRIE
a1
179 80 10 178 80 60 40
a
11.484 80 100 0 18.679 10 100 0 0 0
a
10 0 20 20 0 0 0 2
178 10 20 261 10 80 80
b1 =
80 100 0 10 100 0 0
b0
18.679 30.875
60 0 0 80 0 40 0
b2
40 0 0 80 0 0 80
b3
178 179
11.484 10 + 18.679 80
20 10
261 178
10 80
18.679 + 30.875
80 60
80 40
La solution de ce systeme, conduit au vecteur de parametres suivant:
1.4545
1.0636
0.2727
= 0.5
0.75
0.39
0.165
et a la matrice de covariance asymptotique estimee:
TROISIEME PARTIE, CHAPITRE IV 235
0.0496 0.0397 0.0248 0 0 0.045 0.015
0.0397 0.0863 0.0198 0 0.033 0.036 0.012
0.0248 0.0198 0.2853 0.1651 0.0165 0.3527 0.1726
0 0 0.1651 0.1015 0.0101 0.203 0.1015
0 0.033 0.0165 0.0101 0.0213 0.0203 0.0101
0.045 0.036 0.3527 0.203 0.0203 0.4477 0.2166
0.015 0.012 0.1726 0.1015 0.0101 0.2166 0.1064
Cette methode est la premiere en date de toutes celles que nous avons vues. Cest
aussi la plus couteuse a appliquer, et, pour cette raison, la moins employee. Son interet
theorique est neanmoins tres grand: en vertu des proprietes des estimateurs par maximum
de vraisemblance, les estimateurs obtenus sont convergents, asymptotiquement sans biais,
et asymptotiquement ecaces. En fait, en vertu dun theoreme dequivalence asymptotique,
nous pourrons justier rigoureusement lemploi de la methode des moindres carres triples
par le biais du maximum de vraisemblance.
g/2 1/2 1
fu (ut ) = (2) (det ) exp ut 1 ut
2
Les yt et les ut sont lies par la relation Byt + xt = ut . Donc la matrice jacobienne
ut
Par consequent, la densite des variables endogenes conditionnelle aux variables exogenes
secrit comme:
n
fY (y1 , . . . , yn ) = ft (yt ) =
t=1
n
ng/2 n/2 1
(2) (det ) | det B |n exp (Byt + xt ) 1 (Byt + xt )
2 t=1
ou, puisque:
n
ut 1 ut = tr U 1 U = tr 1 U U :
t=1
fY (y1 , . . . , yn ) =
ng/2 n/2 n 1 1
(2) (det ) | det B | exp tr Y B + X Y B + X .
2
log L(B, , ) =
n 1
1
k log (det ) + n log (| det B |) tr Y B + X Y B + X
2 2
ou encore:
n
log L = k + log det 1 + n log (| det B |)
2
1 1 1 1
tr 1 BY Y B tr 1 X Y B tr 1 BY X tr 1 X X .
2 2 2 2
et nous utilisons les formules suivantes (voir Magnus et Neudecker, Matrix Dierential
Calculus with Applications in Statistics and Econometrics, 1988):
TROISIEME PARTIE, CHAPITRE IV 237
log (| det A |) 1
= A
A
tr AC = C
A
tr DACA = 2DAC si D et C sont symetriques.
A
Par consequent:
log L n 1
= Y B + X Y B + X = O
1 2 2
log L
1
= n B 1 BY Y 1 X Y = O
B
log L
= 1 BY X 1 X X = O .
1
= U U
n
1 1 1
B = U Y
n
1 U X = O
avec U = Y B + X .
Ce systeme est non lineaire, et doit etre resolu par des methodes numeriques. Pour quil
ait une solution unique, on doit lui ajouter les restrictions didentication. Il faut noter
que la formule de est precisement celle que nous avons employee en moindres carres
triples. Dautre part, la troisieme equation est impliquee par U X = O, equation que nous
pouvons mettre en parallele avec les equations normales du modele de regression classique,
qui peuvent secrire X u = 0.
238 P. DESCHAMPS, COURS DECONOMETRIE
CHAPITRE V.
Il est facile, a partir des resultats de la section 4.5, de trouver les estimateurs par
maximum de vraisemblance des parametres de la forme reduite. En eet, la forme reduite
est un cas particulier de la forme structurelle lorsque lon impose B = Ig , et quil ny a
pas de restrictions a priori sur la matrice .
Les conditions de premier ordre de la section 4.5.2 secrivent alors:
1 U X = Ogk
1
= U U
n
Il est facile de verier que les estimateurs:
= = Y X(X X)1
1
= (Y [I X(X X)1 X ]Y )
n
satisfont bien a ces conditions.
En eet, si nous denissons M = [I X(X X)1 X ], nous avons, en utilisant les esti-
mateurs de B et de , la matrice de residus suivante:
Nous allons maintenant estimer les variances des coecients de regression de la forme
reduite. Nous pouvons ecrire:
Par consequent:
Si nous supposons, pour simplier largument, que X est non stochastique, la matrice
de covariance de vec secrit:
E{(vec[ ])(vec[ ]) } = [Ig (X X)1 X ]E(vec V vec V )[Ig X(X X)1 ]
= [Ig (X X)1 X ][ In ][Ig X(X X)1 ]
= [ (X X)1 (X X)(X X)1 ]
= [ (X X)1 ]
V (vec ) = (X X)1 .
Si X est stochastique, on peut utiliser la meme regle destimation mais son interpretation
est asymptotique. La justication utilise les memes arguments quaux chapitres XIII et XIV
de la seconde partie.
Note:
Pour le calcul du rapport des vraisemblances, nous devrons, a la section suivante, diviser
par det . Il est donc interessant de connatre des conditions necessaires pour la regularite
de .
On a vu que = Y MY /n avec M = I X(X X)1 X . est dordre g et M est
de rang n k. Donc si n k < g, est singuliere. Le nombre dobservations doit etre
superieur a la somme du nombre de regresseurs par equation et du nombre dequations.
240 P. DESCHAMPS, COURS DECONOMETRIE
5.2 Tests dhypotheses sur les coecients par le rapport des vraisemblances
1
L(, ) = (2)ng/2 (det )n/2 exp[ tr1 V V ].
2
= ( )
et le test de lhypothese:
H0 : = 0 contre H1 : = 0 .
Un exemple de ce test est celui ou 0 = O: dans ce cas, on teste lomission des premieres
variables explicatives de la forme reduite. Si nous designons par 0 et 0 les estimations
contraintes de et de , le rapport des vraisemblances peut secrire:
L(0 , 0 )
=
L(, )
(2)ng/2 (det 0 )n/2 exp ng
=
2
(2)ng/2 (det )n/2 exp ng
2
n/2
det 0
= .
det
TROISIEME PARTIE, CHAPITRE V 241
= B 1
ou B et ont ete calculees par lune des methodes destimation de la forme structurelle
(MCD, MCT, MVIL, ou MVIC), on parle de forme reduite derivee. Si chaque equation est
juste-identiee, = ; mais si tel nest pas le cas, est potentiellement plus ecace que
car il tient compte de plus de restrictions.
Les methodes destimation de la forme structurelle permettent destimer les variances
asymptotiques des elements de B et , mais est une fonction non lineaire de ces ma-
trices. Dans cette section, nous allons donc enoncer un theoreme permettant destimer les
variances des elements de . Des versions de ce theoreme sont enoncees dans Monfort,
Cours de Probabilite, p. 166 et dans Hamilton, Time Series Analysis, p. 186. Il peut bien
242 P. DESCHAMPS, COURS DECONOMETRIE
sur aussi servir dans dautres contextes, chaque fois que lon veut faire un test dhypotheses
sur une fonction non lineaire de parametres; une application courante est le test des res-
trictions de facteurs communs, que nous avons rencontrees au chapitre XV de la seconde
partie.
alors:
dlim n(g() g(0 )) N (0, (g)(g) )
Comme exemple, nous allons estimer la variance asymptotique de lun des coecients
de la forme reduite du modele de Haavelmo. Nous avons vu a la section 1.6 que la premiere
equation de cette forme reduite pouvait secrire comme Ct = 11 + 12 It + v1t , avec
11 = a/(1 b). Supposons que a et b aient ete estimes par a et b, et que leurs variances
et leur covariance asymptotiques aient ete estimees par a2 , b2 , et ab . Lapplication du
theoreme precedent a 11 = a/(1 b) donne alors:
1 a2 a
V (11 ) = a2 + b2 + 2 ab .
(1 b)2 (1 b)4 (1 b)3
Exercice. Reprenez lexemple de la section 15.2 de la seconde partie, portant sur les
restrictions de facteurs communs. Comment testeriez-vous lhypothese H0 : 11 +1 01 = 0
contre H1 : 11 + 1 01 = 0?
TROISIEME PARTIE, CHAPITRE VI 243
CHAPITRE VI.
Nous allons montrer dans ce chapitre que les estimateurs MCT et MVIC ont la meme
distribution limite normale, et sont par consequent asymptotiquement equivalents. Lesti-
mateur MCT herite donc des proprietes decacite asymptotique de la methode du maxi-
mum de vraisemblance.
En fait, comme nous le verrons, lestimateur MVIC peut etre considere comme un
estimateur par variables instrumentales, mais ces variables sont construites a laide de la
forme reduite derivee au lieu de letre par la forme reduite directe.
Les developpements de ce chapitre sont dus a Hausman (An instrumental variable ap-
proach to full information estimators for linear and certain nonlinear econometric models,
Econometrica 43, 1975, pp. 727738).
Nous avons vu, a la section 4.4.2, que si lon reunissait les n observations sur les g
equations de la forme structurelle, on pouvait ecrire, en tenant compte des restrictions de
normalisation et dexclusion:
z =T+u
ou T etait une matrice diagonale par blocs, avec des blocs diagonaux donnes par les
matrices Ti = ( Yi Xi ) denies a la section 3.3.1.
Lestimateur MCT pouvait secrire comme:
= (Z T )1 Z z
avec Z = (S 1 PX )T . PX etait egale a X(X X)1 X et S etait lestimateur de obtenu
en appliquant les moindres carres doubles a chaque equation separement.
La matrice Z peut etre obtenue en supprimant de la matrice suivante:
Z = (S 1 PX )[Ig ( Y X )]
1
=S PX ( Y X)
(1) (Z T ) = Z z.
(2) W U S 1 = O(k+g)g
ou:
W = PX ( Y X)
et ou:
vec U = z T .
En eet, legalite (2) implique:
vec(W U S 1 ) = (S 1 W ) vec U = 0
W U 1 = O(k+g)g
ce qui permet la comparaison des deux methodes destimation. Nous allons demontrer ce
resultat.
Tout dabord, la condition de premier ordre sur peut secrire:
(a) nIg = U U 1 .
(b) B 1 (nIg ) = Y U 1 .
TROISIEME PARTIE, CHAPITRE VI 245
B 1 U U 1 Y U 1 = O
ce qui implique, puisque U = BY + X :
B 1 (BY + X )U 1 Y U 1 = O
B 1 BY U 1 + B 1 X U 1 Y U 1 = O
et en simpliant:
(c) B 1 X U 1 = O.
(d) X U 1 = O.
B 1 X
U 1 = O
X
W = ( X(B 1 ) X)
La comparaison avec les MCT est alors immediate, si lon note que la matrice W de la
section 6.1 pouvait secrire comme:
W = PX ( Y X ) = ( PX Y X ) = ( X X)
W = ( X X)
avec = B 1 . Pour former les instruments, les MCT utilisent la forme reduite directe,
tandis que le MVIC utilise la forme reduite derivee.
246 P. DESCHAMPS, COURS DECONOMETRIE
avec Ti = ( X i Xi ).
6.4 Consequences
plim i = plim i = i
plim S = plim =
et les matrices de covariance asymptotiques sont donc les memes en vertu du theoreme de
Slutsky.
Or, sous lhypothese dun theoreme central limite, les distributions limites des estima-
teurs MCT et MVIC sont normales multivariees. Elles sont donc entierement caracterisees
par leurs esperances et leurs matrices de covariance.
Donc les distributions limites sont les memes; ceci constitue la meilleure justication
theorique possible de la methode des MCT, qui est plus facile a mettre en oeuvre que celle
du MVIC.
TROISIEME PARTIE, CHAPITRE VII 247
CHAPITRE VII.
METHODES NUMERIQUES DE
MAXIMISATION DE LA VRAISEMBLANCE
Pour une excellente presentation de ces methodes, le lecteur pourra consulter larticle
de synthese de R. Quandt, Computational problems and methods, dans: Handbook of
Econometrics vol. I (1983), edite par Griliches et Intriligator, pp. 699764. Nous nous
bornerons ici a parler des methodes les plus courantes.
Lidee de base de cette methode est de denir une suite dapproximations quadratiques
de la vraisemblance. En maximisant successivement chacune de ces approximations, on
espere converger vers un maximum de la vraisemblance. Lapproximation quadratique a
literation k se fait autour du maximum de lapproximation utilisee a literation k 1.
Soit donc un vecteur k 1 de parametres a estimer et soit 0 une valeur de . Soit
L() = log L() la vraisemblance logarithmique. Nous ecrivons le gradient de L comme:
L
g() =
et la matrice Hessienne de L comme:
2L
H() =
.
Une approximation quadratique de L() autour de 0 est donnee par:
1
L0 () = L(0 ) + g (0 )( 0 ) + ( 0 ) H(0 )( 0 )
2
En vertu des regles de la section 3.4 de la seconde partie, les conditions de premier ordre
pour la maximisation de cette approximation sont donnees par:
L
= g(0 ) + H(0 )( 0 ) = 0
ce qui implique:
= 0 H 1 (0 )g(0 ).
La methode de Newton-Raphson est une application recurrente de cette regle, a savoir:
k+1 = k H 1 (k )g(k )
248 P. DESCHAMPS, COURS DECONOMETRIE
F (k ) = L(k + k dk )
Ak est donc lopposee de linverse de la matrice dinformation, que nous avions denie
a la section 10.10 de la seconde partie comme:
2L L L
R() = E =E
TROISIEME PARTIE, CHAPITRE VII 249
(k )(k ) 1
Ak+1 = Ak + [Ak (gk )(gk ) Ak ]
(k ) (gk ) (gk ) Ak (gk )
avec la condition initiale A0 = I et ou gk est le gradient de L evalue a literation
precedente.
On demontre que sous certaines conditions, la suite de matrices denie par cette regle
converge vers linverse de la Hessienne de L.
Cette methode ne necessite que le calcul des derivees premieres de L, et est donc
commode lorsque la matrice dinformation est dicile a calculer.
On peut calculer k par balayage, mais la procedure est couteuse. Une solution plus
operationnelle est la suivante:
(1) On choisit un nombre ]0, 12 [.
(2) On choisit k > 0 tel que:
L(k + k dk ) L(k )
1 .
k gk dk
L(k + k dk ) L(k ) 1
f(k ) = = .
k gk dk 2
250 P. DESCHAMPS, COURS DECONOMETRIE
Cette solution existe toujours, pour autant que gk dk soit strictement positif et que L
soit bornee superieurement. Il est en eet facile de montrer que:
lim f(k ) 0
k
lim f(k ) = 1.
k 0