Vous êtes sur la page 1sur 9

ECONOMETRIE BAYESIENNE

STEPHANE ADJEMIAN

1. Introduction
Dans cette note je dveloppe deux exemples destimation baysienne. Nous avons
e
e
dj` rencontr le premier exemple en cours, mais je navais pas donn les dtails des
ea
e
e
e
calculs ` lpoque. Il sagit destimer lesprance dune variable alatoire. Le second
a e
e
e
exemple est lui plus original par rapport au contenu du cours : il illustre lapproche
baysienne des mod`les VAR.
e
e

2. Estimation de lesperance
Le processus gnrateur des donnes est dni par :
e e
e
e
(1a)

yt = + t
2
t N 0,

(1b)

iid

2
a
o` t = 1, . . . , T . On suppose que la variance est connue, nous cherchons ` estimer
u
lesprance du processus {yt }.
e

Notre croyance a priori sur est caractrise par une loi normale centre en 0
e e
e
2
et de variance . La densit a priori est donc :
e
1

1
22 (0 )2

2
p0 () = (2 ) 2 e

(2)

La densit postrieure de est proportionnelle au produit de la vraisemblance et


e
e
de la densit a priori, nous devons donc commencer par crire la vraisemblance.
e
e
2.1. Vraisemblance. La vraisemblance est la densit jointe de lchantillon sae
e
2
chant les param`tres, et . Dapr`s le processus gnrateur des donnes (1) nous
e
e
e e
e
2
savons que yt est normalement distribu desprance et de variance . Comme
e
e
par hypoth`se yt est indpendant de ys pour tout s = t, la densit de lchantillon
e
e
e
e
YT = (y1 , . . . , yT ) est le produit des densits margianales :
e
T

2
2
p(YT |, ) = (2 ) 2 e

(3)

1
22

PT

t=1 (yt )

Notons que :
T

(yt )2 =
t=1

([yt ] [ ])2
t=1
T

(yt )2 +

=
t=1

( )2
t=1

(yt )( )
t=1

= s2 + T ( )2

yt T ( )
t=1

= s2 + T ( )2
1


STEPHANE ADJEMIAN

o` = T 1, s2 = (T 1)1 (yt )2 est un estimateur de la variance de {yt } et


u
T
= T 1 t=1 yt est lestimateur du maximum de vraisemblance de . Finalement,
nous pouvons crire la vraisemblance sous une forme quivalente :
e
e
T

2
2
p(YT |, ) = (2 ) 2 e

(4)

1
22 (s2 +T (b)2 )

2.2. Densit postrieure. On obtient la densit postrieure, ` une constante dine


e
e
e
a
tgration pr`s, en multipliant (2) par (4) :
e
e
1

2
1
1

22 (s2 +T (b)2 ) 22 (0 )

2
2
p(|YT ) (2 ) 2 (2 ) 2 e

En liminant les termes qui ne dpendent pas de , il vient :


e
e
p(|YT ) e

2
1
T
22 (b)2 22 (0 )

ou de faon quivalente :
c e
p(|YT ) exp

1
T
( )2 + 2 ( 0 )2
2

1
2

Nous allons maintenant rcrire cette quation de faon ` ne faire appara quune
ee
e
c a
tre
forme quadratique en . En dveloppant les carrs, et en notant A() le terme entre
e
e
(grandes) parenth`ses sous lexponentielle, il vient :
e
A() =

1
T
2 + 2 2 + 2 2 + 2 20
0
2

T
1
+ 2
2

T
1
+ 2
2

1
T
+ 2
2

1
T
+ 2 0
2

2 2
2

T
2

T
2

T
2

T
2

+
+

1
2
0

1
2
0
1
2

T 2
1
+ 2 2
2

1
2

T 2
1
+ 2 2
2

1
T 2
+ 2 2
2

T
2

T
2

1
2
0

1
2

En notant que les deux derniers termes ne dpendent pas de , il vient :


e
A()

1
T
+ 2
2

T
2

T
2

1
2
0

1
2

et nalement :
(5)

1
p(|YT ) exp
2

T
1
+ 2
2

T
2

T
2

+
+

1
2
0
1
2

On reconna ` une constante dintgration pr`s, la densit dune loi normale. Ainsi,
t, a
e
e
e
la distribution postrieure de est gaussienne desprance :
e
e
E [] =

T
2

T
2

et de variance :
V [] =

T
2

+
+
1
+

1
2
0
1
2

1
2

ECONOMETRIE BAYESIENNE

2
On voit que si le prior est non informatif, au sens o` la variance a priori, , tend
u
vers linni, alors la variance a posteriori est la variance de lestimateur du maxi2
mum de vraisemblance de , /T . D`s lors que lon apporte de linformation, la
e
variance postrieure est plus faible que la variance de lestimateur du MV. Lintrt
e
ee
pratique de lapproche baysienne est illustr par ce rsultat. Dans un environnee
e
e
ment o` nous disposons de peu de donnes, lchantillon est faiblement informatif,
u
e
e
la prise en compte de nos croyances a priori permet daccro la prcision de lestre
e
timation. En spciant un prior, avec une variance nie plus ou moins importante,
e
nous augmentons le degr de libert.
e
e
Lesprance postrieure est une combinaison linaire convexe de lesprance a priori
e
e
e
e
et de lestimateur du maximum de vraisemblance (ici la moyenne empirique). Le
mlange est dni par la variance a priori et la variance de lestimateur du MV.
e
e
Si linformation a priori est plus importante que linformation empirique (provenant de lchantillon) alors lesprance postrieure sera plus proche de lesprance
e
e
e
e
a priori que de lestimateur du MV. En raisonnant ` la limite :
a

(i) Lorsque 0 tend vers 0, cest-`-dire lorsque linformation a priori tend vers
a
linni, lesprance postrieure tend vers lesprance a priori. On note que
e
e
e
dans ce cas la variance postrieure tend vers zro. On peut interpr`ter ce
e
e
e
cas limite comme une calibration du mod`le.
e
(ii) Lorsque T tend vers linni, cest-`-dire lorsque linformation empirique
a
tend vers linni, lesprance postrieure tend vers lestimateur du MV.
e
e
Dans le mme temps la variance postrieure se rapproche de celle de lestie
e
mateur du MV et tend nalement vers zro. Plus gnralement nous poure
e e
rions montrer que la densit postrieure hrite des proprits de lestimateur
e
e
e
ee
du maximum de vraisemblance1).
La distribution postrieure est gaussienne tout comme la distribution a priori :
e
nous avons choisi un prior conjugu.
e
2.3. Estimation ponctuelle. Dans la section prcdante nous avons montr que
e e
e
la distribution postrieure de est gaussienne. Pour communiquer les rsultats sous
e
e
une forme plus synthtique on peut vouloir choisir un point dans la distribution a
e
posteriori, cest-`-dire proposer une estimation ponctuelle. Nous avons vu en cours
a
que cela sapparente ` un probl`me de choix en univers incertain. Il est alors naturel
a
e
de se donner une fonction de perte, L(a, ), qui spcie la perte occasionne par le
e
e
choix a alors que la vraie valeur est , et de minimiser lesprance postrieure de la
e
e
perte :
= arg min
a

L(a, )p(|YT )d
R

Si la fonction de perte est quadratique, L(a, ) = (a)2 alors on montre facilement


que lestimation ponctuelle, , est lesprance postrieure de donne plus haut.
e
e
e
On obtient la mme estimation ponctuelle avec la fonction de perte (a, ) = |a |,
e
car dans le cas dune distribution gaussienne il y a identit entre la mdiane et
e
e
lesprance.
e
3. Estimation dun VAR
Dans cette section, nous considrons un autre exemple o` les rsultats peuvent
e
u
e
tre obtenus  ` la main . Le mod`le VAR gaussien se prte, comme tout mod`le
e
a
e
e
e
linaire gaussien, ` cet exercice et a lavantage dtre un outil couramment utilis
e
a
e
e
1Nous avons vu en cours que, sous des conditions tr`s gnrales, la distribution postrieure est
e e e
e

normalement distribue lorsque la dimension de lchantillon tend vers linni (mme proprit
e
e
e
e e
que lestimateur du MV qui est asymptotiquement gaussien).


STEPHANE ADJEMIAN

en macro-conomie
e
Nous considrons un mod`le VAR(p) pour caractriser le vecteur 1 m de vae
e
e
riables endog`nes yt observes :
e
e
p

yt =

yti Ai + t
i=1

o` {Ai } est une squence de matrice m m et t est un bruit blanc gaussien, de


u
e
dimension 1 m desprance nulle et de variance V [t ] = . Nous pourrions come
plter le mod`le avec des variables exog`nes, une constante par exemple, mais nous
e
e
e
allons ` lessentiel en omettant cette possibilit.
a
e
On note YT {yt }T
e a
t=p+1 les donnes ` notre disposition et on note zt la concae
tnation horizontale des vecteurs lignes yt1 , yt2 , ..., ytp . En concatnant verticae
lement les vecteurs lignes yt , zt et t , pour t = 1, . . . , T , on obtient la reprsentation
e
matricielle suivante du mod`le VAR(p) :
e
Y = ZA + E
o` Y et E sont des matrices T m, Z est une matrice T (mp) et A = A1 , A2 , . . . , Ap
u
la matrice k m (avec k = mp) regroupant les coecients auto-rgressifs. La vraie
semblance associe ` ce mod`le linaire gaussien est donne par :
e a
e
e
e
L(A, ; YT ) =(2)

mT
2

||

T
2

e 2 tr{(Y ZA)

(Y ZA) }

Lestimateur du maximum de vraisemblance (MCO) est dni par :


e
A = (Z Z)1 Z Y
et
= T 1 (Y Z A) (Y Z A)
Nous verrons plus loin quil est protable de rcrire la vraisemblance en faisant
ee
appara lestimateur des MCO :
tre
L(A, ; YT ) = (2)
k
2

||

mT
2

e 2 tr{

T k
2

||

b
b
(AA) Z Z(AA)}

e 2 tr{
1

b
b
(Y Z A) (Y Z A)}

a
` des constantes dintgration pr`s on reconna les fonctions de densit de probae
e
t
e
bilit dune gaussienne matricielle et dune inverse Wishart (voir lannexe A). On
e
peut donc rcrire la vraisemblance sous la forme suivante :
ee
L(A, ; YT ) =(2)

mT
2

(2)

km
2

|Z Z|

m
2

fM Nk,m (A; A, (Z Z)1 , )

m
2

m(m1)
4

m
i=1

|S|

+1i
2

fiWm (; S, )
avec = T k m 1 les degrs de libert et S = T . Cette criture nous apprend
e
e
e
e
que la vraisemblance du VAR(p) est proportionnelle au produit de la densit dune

ECONOMETRIE BAYESIENNE

gaussienne matricielle et dune inverse Wishart :


(6)

L(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )


fiWm (; S, )

Cette proprit va nous aider ` poser une forme de la densit a priori telle que nous
ee
a
e
puissions obtenir une expression analytique de la densit postrieure.
e
e
3.0.1. A priori non informatif. Dans cette section nous allons nous supposons que
nos croyances sont non informatives en adoptant un a priori ` la Jerey :
a
(7)

p0 (A, ) = ||

m+1
2

On note que dans le cas scalaire, m = 1, on retrouve le prior suggr par Jerey
ee
(1/ 2 ) dcrit en cours. La densit a posteriori satisfait donc :
e
e
p (A, |YT ) (2)

mT
2

(2)

km
2

|Z Z|

m
2

fM Nk,m (A; A, (Z Z)1 , )


2

m
2

m(m1)
4

|S| 2

i=1

+1i
2

m+1
2

fiWm (; S, ) ||

La densit jointe postrieure est donc proportionnelle au produit dune gaussienne


e
e
multivarie et dune inverse Wishart :
e
(8)

p(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )


fiWm (; S, )

avec = T k. Ainsi, la densit postrieure peut scrire sous la forme suivante :

e
e
e
(9)

A|, YT M Nk,m A, , (Z Z)1


|YT iWm S,

Il nest pas surprenant de constater que la distribution postrieure de A (conditione


nelle ` la matrice de variance covariance) est centre sur lestimateur du maximum
a
e
de vraisemblance, puisque notre a priori est non informatif. Nous pourrions montrer, en intgrant par rapport ` , que la distribution postrieure de A est une
e
a
e
version matricielle de la loi de Student. La priori de Jerey naecte que le degr
e
de libert de la distribution postrieure de A. Dans cet exemple, nous pouvons cae
e
ractriser la distribution postrieure  ` la main . Notons nanmoins que mme si
e
e
a
e
e
nous connaissons lexpression analytique de la distribution de A et , la construction des densits prdictives ncessite une approche par simulations, puisque les
e
e
e
prvisions sont des fonctions non linaires des matrices auto-rgressives (dont nous
e
e
e
connaissons la loi postrieure). Lintrt pratique de lapproche baysienne pourrait
e
ee
e
para peu vident dans ce cas, dans la mesure o` la moyenne postrieure nest
tre
e
u
e
pas dirente de lestimateur du maximum de vraisemblance.
e
3.0.2. Un exemple da priori informatif. Nous considrons maintenant un prior plus
e
informatif qui va introduire un coin entre lesprance postrieure et lestimateur du
e
e
maximum de vraisemblance ; dans un mod`le linaire gaussien, lesprance poste
e
e
e
rieure est un mlange convexe de lestimateur du maximum de vraisemblance et de
e
lesprance a priori. An daller ` lessentiel, nous adoptons une densit a priori
e
a
e
dgnre pour la matrice de variance-covariance des erreurs, en supposant que la
e e ee


STEPHANE ADJEMIAN

matrice est connue (on posera = ). Enn nous spcions le prior sur A de la
e
faon suivante :
c
(10)

p0 (vec A) N (a0 , 0 )

o` 0 est une matrice symtrique dnie positive de dimension mp mp. En multiu


e
e
pliant la vraisemblance par (10), on tablit facilement que la distribution postrieure
e
e
de vec A est gaussienne centre en a1 et de variance 1 :
e
1 = 1 + 1 Z Z
0

(11a)

a1 = 1 1 a0 + 1 Z Z vecA
0

(11b)

Dmonstration. La densit postrieure est proportionnelle au produit de la densit


e
e
e
e
a priori et de la vraisemblance. Le noyau postrieur est donn par :
e
e

i
1h
b
b
K(A|YT ) = exp (vecA a0 ) 1 (vecA a0 ) + tr 1 (A A) Z Z(A A)
0
2
(2)

km
2

|0 | 2 (2)

mT
2

|| 2 e 2 tr

b
S

e
Notons a = vec A, a = vec A et B(a) le terme entre crochets sous la premi`re
exponentielle. En utilisant les proprits des oprateurs vec, tr et du produit de
ee
e
kronecker nous avons :
B(a) = (a a0 ) 1 (a a0 ) + (a a) 1 Z Z (a a)
0
En dveloppant, il vient :
e
B(a) =a 1 a + a0 1 a0 2a 1 a0
0
0
0
+ a 1 Z Z a + a 1 Z Z a 2a 1 Z Z a
de faon quivalente il vient :
c e
B(a) = a 1 + 1 Z Z a 2a 1 a0 + 1 Z Z a
0
0
+ a0 1 a0 + a 1 Z Z a
0
En factorisant on trouve :
B(a) = (a a1 ) 1 (a a1 ) a1 1 a1 + a0 1 a0 + a 1 Z Z a
0
1
1
Finalement, en substituant dans lexpression du noyau, on peut rcrire celui-ci sous
ee
la forme suivante :
1
K(A|YT ) = exp (a a1 ) 1 (a a1 )
1
2
1
exp a0 1 a0 + a 1 Z Z a a1 1 a1
0
1
2
(2)

km
2

|0 | 2 (2)

mT
2

|| 2 e 2 tr

b
S

le premier terme correspond bien ` lexpression (` une constante dintgration pr`s)


a
a
e
e
dune densit gaussienne pour a. En intgrant le noyau par rapport ` a on obtient
e
e
a
une expression analytique de la densit marginale :
e
p(YT ) =

K(A|YT )dA

= (2)

km
2

exp
(2)

|1 | 2
1
a 1 a0 + a 1 Z Z a a1 1 a1
1
2 0 0

km
2

|0 | 2 (2)

mT
2

|| 2 e 2 tr

b
S

ECONOMETRIE BAYESIENNE

La distribution postrieure de A est donc gaussienne N (a1 , 1 ). Linterprtation


e
e
de la distribution postrieure est directe. Linverse de la variance postrieure (que
e
e
lon peut interprter comme une quantication de linformation a posteriori) est
e
gal ` la somme de linverse de la variance a priori (linformation a priori) et de
e
a
linverse de la variance de lestimateur du maximum de vraisemblance de A (linformation apporte par les donnes). Ceteris paribus, quand linformation a priori est
e
e
importante, la matrice de variance-covariance 0 est petite, la variance a posteriori
est faible. Lesprance postrieure est un mlange de lesprance a priori, a0 , et de
e
e
e
e
lestimateur du maximum de vraisemblance, vec A. Les pondrations respectives
e
sont dnies par le contenu informatif des croyances a priori et de lchantillon.
e
e
Lorsque linformation a priori tend vers linni, ie 0 0, lesprance postrieure
e
e
tend vers lesprance a priori. Lorsque linformation amene par les donnes tend
e
e
e
vers linni, ie 1 Z Z 0, lesprance a posteriori tend vers lestimateur
e
du maximum de vraisemblance. On peut donc interprter le paradigme baysien
e
e
comme un pont entre la calibration et lestimation par maximum de vraisemblance.
En notant que Z Z est gnralement, si le mod`le est stationnaire2, un O(T ), lese e
e
prance postrieure tend vers lestimateur du maximum de vraisemblance lorsque
e
e
T tend vers linni.

`
Annexe A. Densites pour le modele BVAR
A.1. Distribution normale matricielle.
Dnition 1. La matrice p q alatoire X est distribue conformment ` une loi
e
e
e
e
a
normale matricielle
X M Np,q (M, Q, P)
o` M est une matrice p q, Q et P sont respectivement des matrices p p et q q
u
symtriques et dnies positives, si et seulement si vec(X) est distribu comme une
e
e
e
v.a. normale multivarie
e
vec(X) Npq (vec(M), Q P)
Ainsi, la fonction de densit associe ` X est donne par :
e
e a
e
fM Np,q (X; M, P, Q) =(2)

pq
2

e 2 tr{Q
1

|Q| 2 |P| 2
1

(XM) P1 (XM)}

A.2. Distributions de Wishart. La loi de Wishart est une version multivarie


e
de la loi du 2 . Soit {Xi } une suite de variables alatoires gaussiennes indpene
e
i=1
dantes et identiquement distribues N (0, Q), avec Q une matrice symtrique dnie
e
e
e

positive q q. Par dnition Y = i=1 Xi Xi est distribu selon une loi de Wishart.
e
e
Les dnitions suivantes caractrisent cette loi et la densit de linverse dune v.a.
e
e
e
de Wishart.
Dnition 2. La matrice alatoire, de dimension q q, symtrique et semi dnie
e
e
e
e
positive Y est distribue selon une loi de Wishart, Y Wq (Q, ), si et seulement
e
si sa densit est donne par
e
e

f (Y ; Q, ) =

|Q| 2 |Y |
2

q
2

q(q1)
4

q1
2

q
i=1

+1i
2

1
1
e 2 tr{Y Q }

pour Q une matrice symtrique semie dnie positive, et q le degr de libert.


e
e
e
e
2La prsence dune racine unitaire ne ferait quaccro
e
tre lordre de divergence, ce qui ne change
pas qualitativement la conclusion.


STEPHANE ADJEMIAN

Dnition 3. Une matrice alatoire, de dimension q q, X est distribue selon


e
e
e
une loi inverse Wishart,
X iWq (Q, )
1
1
si et seulement si X Wq (Q , ).
Ainsi la fonction de densit associe ` X est dnie par :
e
e a
e

fiWq (X; Q, ) =

|Q| 2 |X|
2

q
2

q(q1)
4

+q+1
2

q
i=1

e 2 tr{X
1

+1i
2

Q}

`
`
Annexe B. Rappels dalgebre pour le modele BVAR
B.1. Loprateur vec. Soit X une matrice m n forme en concatnant horizone
e
e
talement les vecteurs colonnes x1 , x2 , ..., xn de dimensions m 1 :
X = (x1 |x2 | . . . |xn )
Loprateur vec transforme une matrice en vecteur en concatnant verticalement
e
e
les vecteurs colonnes formant cette matrice. Nous avons donc :
vec X = (x1 , x2 , . . . , xn )
B.2. Loprateur tr. Soit X une matrice carre m m :
e
e

x1,1 x1,2 . . . . . . . . . x1,m


x2,1 x2,2
x2,m

.
.
.
.
.
.

X= .
.
.
.
.
.
.
.
.
.
.
.
xm,1 . . . . . . . . . . . . xm,m
La trace dune matrice carre est la somme des scalaires sur sa diagonale. Ainsi,
e
nous avons :
m

tr X =

xi,i
i=1

B.2.1. proprit. Si A est un scalaire alors tr A = A.


ee
B.2.2. proprit. Si A, B et C sont trois matrices de dimension m p, p q et
ee
q m alors tr ABC = tr CAB
B.3. Le produit de Kronecker. Soient A et B de matrices m p et n q

a1,1 a1,2 . . . a1,p


b1,1 b1,2 . . . b1,q
.
. , B = .
.
.
.
A= .
.
.
.
.
.
am,1 . . . . . . am,p
bn,1 . . . . . . bn,q
Le produit de kronecker de A par B est dni par :
e

a1,1 B a1,2 B . . .
.
AB =A= .
.
am,1 B

...

...

a1,p B
.
.
.
am,p B

A B est une matrice mn pq.


B.3.1. Proprit. Si A et B sont deux matrices carres de plein rang, et donc inee
e
versibles, alors (A B)1 = A1 B 1
B.3.2. Proprit. vec (ABC) = (C A)vec B.
ee

ECONOMETRIE BAYESIENNE

B.3.3. Proprit. Soient A, B, C et D, des matrices respectivement m n, m p,


ee
p q et n q. On a alors tr (A BCD ) = vec(A) (D B) vec (C).
B.3.4. Remarque. Pour appliquer la derni`re proprit, il est utile de noter que
e
ee
tr A BCD = tr D A BC = tr CD A B = tr BCD A et que tr A BCD =
tr (A BCD ) et donc que tr A BCD = tr DC B A = tr ADC B = tr B ADC =
tr C B AD.