Vous êtes sur la page 1sur 171

Econometrie de la Finance

Florian Ielpo
1
24 fevrier 2008
1
Dexia Group, 7/11 Quai Andre Citroen, 75015 Paris, Centre dEconomie de la Sorbonne
- Antenne de Cachan, Avenue du President Wilson, 94230 Cachan. E-mail : orian.ielpo@clf-
dexia.com
2
Table des mati`eres
0.1 Introduction de la deuxi`eme edition . . . . . . . . . . . . . . . . . . . . 7
0.2 Introduction de la premi`ere edition . . . . . . . . . . . . . . . . . . . . . 7
1 Rappels de mathematiques et probabilite 11
1.1 Des variables aleatoires et des hommes . . . . . . . . . . . . . . . . . . . 11
1.1.1 Lunivers... et au dela . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.2 A chacun sa tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3 Probabilites... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.4 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.5 Les moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.6 Distribution, fonction de repartition et densite . . . . . . . . . . 15
1.1.7 Loi conditionnelle et lemme des esperances iterees . . . . . . . . 16
1.1.8 Fonction generatrice des moments et fonction caracteristique . . 17
1.2 Le petit monde tres ferme des convergences . . . . . . . . . . . . . . . . 18
1.2.1 Convergence en probabilite et presque sure . . . . . . . . . . . . 18
1.2.2 Convergence en distribution et TCL . . . . . . . . . . . . . . . . 19
1.3 Vous reprendrez bien un petit peu de calcul matriciel ? . . . . . . . . . . 19
2 Retour sur le mod`ele lineaire : cas univarie et multivarie 21
2.1 Le mod`ele de regression lineaire simple . . . . . . . . . . . . . . . . . . . 21
2.1.1 Les hypoth`eses du mod`ele lineaire simple . . . . . . . . . . . . . 22
2.1.2 Les moindres carres . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Quelques tests lies aux MCO . . . . . . . . . . . . . . . . . . . . 27
2.1.4.1 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4.2 Test de Student . . . . . . . . . . . . . . . . . . . . . . 28
2.1.4.3 Test de Durbin et Watson . . . . . . . . . . . . . . . . . 28
2.1.4.4 Les tests dadequation des residus . . . . . . . . . . . . 29
2.2 Retour sur le maximum de vraisemblance . . . . . . . . . . . . . . . . . 30
2.2.1 Le principe du maximum de vraisemblance . . . . . . . . . . . . 31
2.2.2 Proprietes du maximum de vraisemblance . . . . . . . . . . . . . 33
2.2.3 EMV du mod`ele gaussien standard . . . . . . . . . . . . . . . . . 33
2.2.4 Les tests lies `a la vraisemblance . . . . . . . . . . . . . . . . . . . 35
2.3 Prevision `a partir du mod`ele lineraire multiple . . . . . . . . . . . . . . 36
2.4 Une calibration simple du CAPM . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 Lestimation de la relation du MEDAF par MCO . . . . . . . . . 37
2.4.2 Lien de lestimateur MCO avec le beta nancier . . . . . . . . . 38
2.4.3 Estimation de la SML . . . . . . . . . . . . . . . . . . . . . . . . 39
3
4 TABLE DES MATI
`
ERES
2.4.4 Calcul des alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.5 Le R
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.6 Code pour le CAPM . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Extensions du mod`ele de base 43
3.1 Mod`ele de regression non lineaire . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Les mod`eles `a syst`eme dequations . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Estimation par moindres carres generalises et quasi-generalises . 47
3.2.2 MCO contre MCG et MCQG . . . . . . . . . . . . . . . . . . . . 49
3.2.3 Estimation de syst`emes dequation par maximum de vraisemblance 50
3.2.4 Retour sur lestimation du MEDAF : implementation des MCQG 50
4 Optimisation de fonctions `a plusieurs variables par algorithme 55
4.1 Pour commencer... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Les methodes du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Quelques generalites pour commencer... . . . . . . . . . . . . . . 58
4.2.2 La methode de la plus grande pente . . . . . . . . . . . . . . . . 59
4.2.3 La methode de Newton-Raphson . . . . . . . . . . . . . . . . . . 60
4.2.4 Methode du score et matrice BHHH . . . . . . . . . . . . . . . . 63
4.3 Estimations par algorithme aleatoire . . . . . . . . . . . . . . . . . . . . 64
4.3.1 Faire jouer le hasard . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simule . . . 66
5 Introduction aux mod`eles de series temporelles 69
5.1 Quest-ce quune serie temporelle ? . . . . . . . . . . . . . . . . . . . . . 69
5.2 Les mod`eles ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 Au commencement : le bruit blanc . . . . . . . . . . . . . . . . . 70
5.2.2 Les mod`eles ARMA de base . . . . . . . . . . . . . . . . . . . . . 71
5.2.3 Loperateur retard . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.4 Manipulation les processus ARMA avec L . . . . . . . . . . . . . 72
5.2.5 AR(1) et MA() par recursion . . . . . . . . . . . . . . . . . . . 73
5.2.6 AR(1) et MA() avec L . . . . . . . . . . . . . . . . . . . . . . 73
5.2.7 Resume des manipulations possibles de loperateur retard . . . . 73
5.2.8 La fonction dautocorrelation . . . . . . . . . . . . . . . . . . . . 74
5.2.8.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.8.2 ACF des mod`eles MA(q) . . . . . . . . . . . . . . . . . 74
5.2.8.2.1 Bruit blanc . . . . . . . . . . . . . . . . . . . . 74
5.2.8.2.2 MA(1) . . . . . . . . . . . . . . . . . . . . . . 74
5.2.9 ACF des mod`eles AR(p) . . . . . . . . . . . . . . . . . . . . . . . 75
5.2.10 La fonction dautocorrelation partielle . . . . . . . . . . . . . . . 76
5.2.11 Estimation et test des ACF et PACF . . . . . . . . . . . . . . . . 77
5.2.11.1 Fonction dAutocorrelation . . . . . . . . . . . . . . . . 77
5.2.11.2 Fonction dautocorrelation partielle . . . . . . . . . . . 79
5.2.12 Stationnarite des processus et theor`eme de Wold . . . . . . . . . 80
5.2.13 Estimation des processus ARMA . . . . . . . . . . . . . . . . . . 85
5.2.13.1 Estimation dun AR(1) . . . . . . . . . . . . . . . . . . 85
5.2.13.2 Estimation dun AR(p) . . . . . . . . . . . . . . . . . . 87
5.2.13.3 Estimation dun MA(1) . . . . . . . . . . . . . . . . . . 88
TABLE DES MATI
`
ERES 5
5.2.13.4 Estimation dun MA(q) . . . . . . . . . . . . . . . . . . 93
5.2.13.5 Estimation dun ARMA(p,q) . . . . . . . . . . . . . . . 94
5.2.14 Crit`eres de selection de lordre des processus ARMA . . . . . . . 95
5.2.14.1 Tests sur les residus . . . . . . . . . . . . . . . . . . . . 95
5.2.15 Tests sur les residus ARMA . . . . . . . . . . . . . . . . . . . . . 97
5.2.15.1 Tests sur les residus . . . . . . . . . . . . . . . . . . . . 98
5.2.16 La prevision `a laide des mod`eles ARMA . . . . . . . . . . . . . 99
5.2.17 A vrai dire... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.18 Quelques applications de mod`eles ARMA . . . . . . . . . . . . . 102
5.2.18.1 Modelisation de lination . . . . . . . . . . . . . . . . . 102
5.2.18.2 Modelisation du taux cible de la BCE . . . . . . . . . . 105
5.2.18.3 Modelisation de la volatilite implicite doptions sur DAX107
5.3 Les mod`eles ARCH-GARCH . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.1 Presentation des faits stylises en nance . . . . . . . . . . . . . . 112
5.3.2 Quelques mesures preliminaires de la variance . . . . . . . . . . . 113
5.3.2.1 La mesure high-low . . . . . . . . . . . . . . . . . . . . 113
5.3.2.2 Le carre des rendements comme mesure de variance . . 114
5.3.3 Presentation des mod`eles ARCH-GARCH . . . . . . . . . . . . . 116
5.3.3.1 Pour commencer... . . . . . . . . . . . . . . . . . . . . . 116
5.3.3.2 Introduction aux mod`eles ARCH-GARCH . . . . . . . 118
5.3.3.2.1 La cas dun ARCH(1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.3.3.2.2 Les mod`eles ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3.3.2.3 Leptokurticite des processus ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3.3.2.4 Quid de lasymetrie ?
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.3.3 Les mod`eles GARCH . . . . . . . . . . . . . . . . . . . 123
5.3.3.3.1 Le cas dun GARCH(1,1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.3.3.2 Les processus GARCH(p,q)
. . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.3.4 Inference des mod`eles ARCH-GARCH . . . . . . . . . . . . . . . 125
5.3.4.1 Le cas dun ARCH(1) . . . . . . . . . . . . . . . . . . . 125
5.3.4.2 Le cas dun GARCH(1,1) . . . . . . . . . . . . . . . . . 128
5.3.5 Premi`eres Applications . . . . . . . . . . . . . . . . . . . . . . . 129
5.3.5.1 Etude de la volatilite sous-jacente de lindice DAX . . . 129
5.3.5.2 Formule de Black Scholes avec processus GARCH : ver-
sion ad-hoc . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.3.5.3 Prevision de la volatilite et ses usages . . . . . . . . . . 133
5.3.5.3.1 La VaR
. . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.3.5.3.2 Calcul de la VaR `a laide de mod`eles GARCH 137
5.3.5.3.2.1 VaR dans le cas univarie
. . . . . . . . . . . . . . . . . . . . . . 138
6 TABLE DES MATI
`
ERES
5.3.5.3.2.2 VaR dans le cas bivarie : VaR par simu-
lation
. . . . . . . . . . . . . . . . . . . . . . 141
5.3.6 Bestiaire des GARCH . . . . . . . . . . . . . . . . . . . . . . . . 144
5.3.6.1 GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.3.6.2 GARCH integres . . . . . . . . . . . . . . . . . . . . . . 148
5.3.6.3 GARCH asymetriques . . . . . . . . . . . . . . . . . . . 152
5.3.6.4 Mod`ele GARCH de Heston . . . . . . . . . . . . . . . . 154
5.3.7 Mod`eles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.3.7.1 Le mod`ele EGARCH . . . . . . . . . . . . . . . . . . . 156
5.3.7.2 Les mod`eles `a volatilite stochastique . . . . . . . . . . . 157
6 Boite `a outils statistiques 159
6.1 Methodes non-parametriques et application . . . . . . . . . . . . . . . . 159
6.1.1 Introduction aux methodes non parametriques . . . . . . . . . . 159
6.1.2 Estimateurs `a noyau . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.2 Analyse des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 Analyse en composante principales . . . . . . . . . . . . . . . . . 162
6.2.2 Applications : les facteurs de la courbe des taux . . . . . . . . . 166
Bibliographie 171
Introductions
So if you do not accept the Gaussian distribution (i.e. if you have some ethics) AND do not
value options in a axiomatized top-down fashion (i.e. only price them as some informed and
temporary guess), then YOU ARE NOT USING THE BLACK SCHOLES FORMULA, but one
of the modications of the one started by Bachelier (the latest contributer being Ed Thorps).
They did not ground their formula in the Gaussian.
Nassim Nicholas Taleb
1
0.1 Introduction de la deuxi`eme edition
Voici donc la deuxi`eme annee que jenseigne ce cours, et de nombreuses choses ont
change dans ma comprehension de la nance et de leconometrie. Ces changements ont
mene `a un remaniement complet du present polycopier et `a lapparition de TD associes
`a ce cours.
Un chap de rappels, reference.
Praise to Cochrane et Singleton. Ajout des GMM.
Chapitre sur les tests dhypoth`ese, peut etre
Chapitre sur les ARMA/GARCH : modelling the rst two moments + asymetrie.
Chapitre special GMM sur un mod`ele dequilibre tire du livre sur les GMM ou de
Cochrane.
ACP et multivarie.
Calibration dun mod`ele `a vol stochastique ou dun CIR par fonction caracteristique.
A ceci sajoute le memoire `a rendre.
0.2 Introduction de la premi`ere edition
Ce cours sinscrit dans le prolongement de lU.V. MF 231 [Statistiques I : inference et
estimation]. Il a pour but de presenter certains approfondissements autour des princi-
paux th`emes de leconometrie nanci`ere.
Il sagit dans un premier temps de revenir sur le mod`ele lineaire gaussien, dans sa ver-
sion univariee et multivariee. On presentera quelques questions simples liees `a linference
statistique de ces mod`eles ainsi qu`a lusage qui peut en etre fait : expliquer la dynam-
qiue des series economiques/nanci`eres et permettre la mise en oeuvre de previsions
1
http://www.wilmott.com/blogs/kurtosis/index.cfm/General
7
8 TABLE DES MATI
`
ERES
encadrees par des intervalles de conance.
Il sagit ensuite de presenter la base de la theorie des series temporelles : mod`ele ARMA,
GARCH et mod`eles `a facteurs. L`a encore, la principale motivation sera linference ef-
cace ainsi que la prevision.
La philosophie de ce cours se veut naturellement pratique : par la comprehension des
modelisations et de linference, il sagit de permettre la mise en oeuvre de ces mod`eles
dans le cadre dactivites de marche sur la base de nimporte quel logiciel de program-
mation. Une fois la programmation des procedures destimation comprise, il est relati-
vement simple de mettre en place des estimations sous nimporte quel environnement.
Il sera propose tout au long de ce cours des exemples de code R permettant de realiser
les estimations proposees. R est certainement lun des meilleurs logiciels de statistique
disponibles sur le marche actuellement. Il sagit dun logiciel open-source : il est gra-
tuitement telechargeable sur le site de ses developpeurs
2
. Le site fourni une series de
manuels permettant une prise en main rapide et ecace du logiciel : il est conseille
de se procurer Paradis (2005) ainsi Faraway (2002) sur le site (section manual puis
contributed documentation).
Ces notes de cours sappuient sur un certain nombre douvrages de statistiques bien
connus ainsi que sur dautres notes de cours, qui seront citees `a chaque fois. Nous y
renvoyons un lecteur soucieux de depasser le niveau de cette introduction. La partie
consacree au mod`ele lineaire gaussien est grandement inspiree de Greene (2002). La par-
tie consacree `a letude des series temporelles est principalement inspiree de Cochrane
(2005).
La lecture de ces notes de cours ce necessitent pas de connaissance mathematiques
etendue : les seules connaissances necessaires sont des connaissances de base en alg`ebre
matricielle ainsi quen analyse (derivee et formule de Taylor pour la partie consacree `a
loptimimsation). Quand des elements plus pousses sont necessaires, ils sont en general
rappele avant utilisation. Dans cette mesure, ce cours tente de se sure `a lui-meme et ne
requiere pas de lectures annexes. A chaque fois que cela est necessaire, le lecteur soucieux
dapprofondissements qui sont juges inutiles `a ce niveau est renvoye `a un certain nombre
de references, citees en annexes. La plupart des references fournies sont par ailleurs
des references gratuitement disponibles sur internet : un nombre croissant de profes-
seurs/cherheurs proposent leurs notes de cours sur internet. Les liens sont generalement
fournis sur la page web de mes enseignements (www.mora.ens-cachan.fr/ielpo). Ces
notes de cours ne sont bien entendu pas developpees integralement en cours : le chapitre
1 est notamment laisse de cote lors mes interventions. Il sagit davantage de rappels
que delements developpes en cours. Il en va de meme de certains passage du chapitre
2 : les el`eves sont censes connaitre un certain nombre de resultats tires de leconometrie
basique (mco). Ces elements prennent la forme de rapides rappels en cours : il est
necessaire de combler deventuelles lacunes par une lecture plus approfondies des pas-
sages evoques.
Enn, ces notes de cours sont certainement entachees dinexactitudes ou derreurs.
2
http://www.r-project.org/
0.2. INTRODUCTION DE LA PREMI
`
ERE

EDITION 9
Celles-ci sont enti`erement miennes : tout commentaires/signalement derreurs sont bien
evidement les bienvenus. La qualite de ce polycopier ira croissante au l des ans :
lamelioration est naturellement un processus lent, lie aux reactions des el`eves ainsi qu`a
la croissance de mes propres connaissances en statistiques et en econometrie. Jesp`ere
ainsi que ces modestes notes de cours seront un jour susament propres et documentees
pour fournir in ne un manuel de base susament rigoureux pour servir de base aux
el`eves de lESILV.
10 TABLE DES MATI
`
ERES
Chapitre 1
Rappels de mathematiques et
probabilite
Cette premi`ere partie a pour but de revenir sur un certain nombre de concepts et
techniques necessaires pour comprendre et implementer les dierentes methodes de
leconometrie de la nance. Il sagit principalement de revenir sur un certain nombre
de concepts de probabilites dans un premier temps (denition dune variable aleatoire,
de ses moments et des distributions quil est possible de lui aecter). Il sera ensuite
question de revenir sur les concepts de convergence (presque sure, en probabilite et
en loi), an dintroduire la Loi des Grands Nombres (LGN hereafter) et le Theor`eme
Central Limite (TCL). Enn, on nira par quelques elements de calculs matriciel.
1.1 Des variables aleatoires et des hommes
1.1.1 Lunivers... et au dela
Soit = {
1
,
2
, ...,
n
} un espace ni detats, representant les dierents etats possibles
de la nature `a un instant donne. On appelle cet espace lunivers des possibles. Cet es-
pace est ni : il nexiste quun nombre limite detat atteignable par le cours du monde
(du moins dans notre facon de le concevoir). Chaque evenement quil est possible de
voir se realiser
i
est appele evenement elementaire. Ces evenements elementaires sont
incompatibles deux `a deux. Tout sous-ensemble de est egalement appele evenement :
il sagit dun evenement compose. On note par exemple A = {
2
,
3
,
10
}, un sous
ensemble devenement de . Il sagit dun evenement compose et A .
1.1.2 A chacun sa tribu
Parmi lensemble des sous-ensemble P(), on sinteresse seulement `a ceux qui sont
dotes dune certaine structure.
Denition 1.1.1 (Notion de tribu). On dit quune partie A de P() est une tribu si
et seulement si elle verie les trois proprietes suivantes :
1. A.
11
12 CHAPITRE 1. RAPPELS DE MATH

EMATIQUES ET PROBABILIT

E
2. Pour toute partie A de A, A A.
3. Pour toute famille denombrable (A
i
)
iI
de A alors
iI
A
i
est aussi un element
de A.
En pratique, le concept de tribu est essentiel en nance : il permet de rendre compte
de la facon dont linformation sorganise au fur et `a mesure que le secoule. Il existe
dautres denominations pour les tribu : -alg`ebre ou ltration (une ltration est une
sigma-alg`ebre). Le concept de ltration est utilise courament dans le cadre de mod`ele
stochastiques, tel que celui de Black and Scholes (1973). Un developpement remar-
quable sur ce point peut etre trouve dans M unk (2004). On reviendra sur ce point une
fois que lon sera revenu sur les espaces probabilises.
Les exemples les plus courants de sigma-alg`ebre sont :
A = {, } est la tribu grossiere.
A = {, A, A, } o` u A est une partie de , est la tribu de Bernouilli.
A = P() est la tribu compl`ete ou triviale.
Globalement, deux types de tribu peuvent nous interesser :
A
0
la tribu engendree la famille des singletons {} de . Cette tribu est utile lors de
la determination dune loi de probabilite.
La tribu compl`ete P().
Dans le cas o` u est ni ou inni denombrable (ce qui sera toujours le cas dans ce qui
suit), alors ces deux tribus sont identiques.
Denition 1.1.2 (Espace probabilisable). Le couple (, A) est appele espace probabi-
lisable. Dans le cas o` u est ni denombrable, A = P().
1.1.3 Probabilites...
Maintenant que lon a deni la structure de lunivers dans lequel se deroule lexperience
aleatoire qui nous interesse, reste `a donner une forme au hasard. Cest ce quon appelle
probabiliser lespace probabilisable. Il sagit simplement de denir la probabilite quun
evenement A A survienne.
Denition 1.1.3 (Probabilite). P est une probabilite denie sur lespace probabilisable
(, A) si et seulement si P est une application de A vers R qui verie les proprietes
suivantes :
1. 0 P(A) 1, A A.
2. P() = 1 (Axiome de normalisation).
3. Pour toute famille nie (A
i
)
0in
devenements de A, deux `a deux incompatibles,
on a :
P
_
n
_
i=1
A
i
_
=
n

i=1
P(A
i
)
(Axiome de simple additivite).
1.1. DES VARIABLES AL

EATOIRES ET DES HOMMES 13


4. Pour toute famille denombrable (A
i
)
iN
devenements de A, deux `a deux incom-
patibles, on a :
P
_

_
i=1
A
i
_
=

i=1
P(A
i
)
(Axiome de -additivite).
Le nombre reel du second membre est la somme de la serie de terme general P(A
i
).
Dans la mesure o` u les termes de cette serie sont positifs et que la probabilite de lunion
de n A
i
est majoree par 1, cette serie est toujours convergente.
Denition 1.1.4. Lespace (, A, P) est appele espace probabilise.
Ajoutons les deux denitions suivantes :
Denition 1.1.5. On sait que P() = 1, mais on peut trouver des evenements A =
et tels que P(A) = 1. On dit que ces evenements sont quasi-certains ou presque s urs.
On sait que P() = 0, mais on peut trouver des evenements A = et tels que P(A) =
0. On dit que ces evenements sont quasi-impossibles ou negligeables.
Denition 1.1.6. Deux distributions P et P

sont dites equivalentes si elles ont les


memes negligeables.
Denition 1.1.7 (Espace probabilise). Le couple (, A, P) est appele espace probabi-
lise.
Notons nalement que la donnee dune probabilite P sur un espace probabilisable est
equivalent `a la donnee dune distribution de probabilite sur .
1.1.4 Variables aleatoires
Avec lensemble des elements precedents en tete, il est alors possible de tourner notre
attention vers ce qui fera lobjet de ce cours : les variables aleatoires.
Denition 1.1.8. Toute application X telle que :
X : R
est appelee variable aleatoire, ou plus precisement variable aleatoire reelle.
Il est possible de generaliser le concept de variable aleatoire `a celui de vecteur aleatoire :
il sagit dune application quelconque de dans R
k
. On denit alors la distribution
jointe du vecteur, au lieu de denir la distribution dune seule variable aleatoire. Notons
que lon note generalement X cette variable aleatoire et {x
1
, x
2
, ..., x
n
} n realisations
de cette variable aleatoire.
14 CHAPITRE 1. RAPPELS DE MATH

EMATIQUES ET PROBABILIT

E
1.1.5 Les moments
Avant de sinteresser `a la distribution dune variable aleatoire, il existe dautres quan-
tites utiles `a connaitre : les moments.
Denition 1.1.9. Le moment dordre k dune variable aleatoire X est la quantite
E
_
X
k
_
=
_

x
k
f
x
(x)dx
Le moment centre dordre k peut se calculer comme suit :
E
_
(X E[X])
k
_
=
_

(x E[x])
k
f
x
(x)dx
o` u f
x
est la densite de probabilite de la variable aleatoire X. Cette densite est telle
que :
P(i

< X < i
+
) =
_
i
+
i

f(x)dx (1.1)
On reviendra plus tard sur la denition dune densite. Le moment dordre 1 est lesperance :
E[X] =
_

xf
x
(x)dx (1.2)
Le moment centre dordre 2 est la variance :
V[X] = E
_
(X E[X])
2

=
_

(x E[x])
2
f
x
(x)dx (1.3)
La variance mesure letalement de la distribution autour de lesperance. En nance,
cest donc un indicateur de risque - risque de perdre autant que risque de gagner.
Le moment dordre 3 norme est la skewness ou coecient dasymetrie :
Sk[X] =
E
_
(X E[X])
3

E[(X E[X])
2
]
3/2
(1.4)
Elle mesure lasymetrie `a gauche (negative) ou `a droite (positive) dune distribution.
Enn, le moment centre et norme dordre 4 est la kurtosis :
Ku[X] =
E
_
(X E[X])
4

E[(X E[X])
2
]
4/2
(1.5)
Elle mesure lepaisseur des queues de distribution, et donc la possibilite de surve-
nance devenements dits extremes. Ces quatre moments fournissent une information
considerable sur la forme de la distribution dune variable aleatoire. Il est egalement
possible de calculer des moments entre variables aleatoires, ou dun vecteur aleatoire.
La covariance est une mesure de dependance entre deux variables aleatoires. Soit deux
variables aleatoires X et Y :
Cov(X, Y ) =
_
X()
_
Y ()
(x E[x]) (y E[y]) f(x, y)dx, dy (1.6)
1.1. DES VARIABLES AL

EATOIRES ET DES HOMMES 15


o` u f(x, y) est la densite de la loi jointe de X et Y . Elle mesure la chance quon deux
series devoluer de concert. Il est aise dinterpreter son signe, mais pas son amplitude.
En normant la covariance par le produit des ecart-types de X et Y , on obtient une
mesure dont il est aise dinterpreter la valeur : le coecient de correlation. Il se calcule
comme suit :
(X, Y ) =
Cov(X, Y )

Y
(1.7)
(X, Y ) [1; 1], ce qui rend son interpretation aisee.
1.1.6 Distribution, fonction de repartition et densite
Ces moments napportent cependant quune information partielle sur les distributions
des variables aleatoires. Celles ci sont complement denies par la distributions de proba-
bilites. On ne revient pas ici sur les probabilites attachees `a des univers ni (cas discret) :
il ne sera ici question uniquement des univers inni denombrables. Les distributions de
variables aleatoires dans ce cadre sont approchees par la fonction de repartition et la
densite des distributions.
Denition 1.1.10 (Fonction de repartition). Soit X une variable aleatoire denie
sur lespace probabilise (, A, P). La fonction de repartition notee F de cette variable
aleatoire X est la fonction de R dans R denie par :
a R, F(a) = P(X a)
Une fonction de repartition a les caracteristiques suivantes :
1. F est monotone croissante sur R.
2. F est une fonction continue `a droite en tout point de R.
3. lim
x
F(x) = 0 et lim
x
F(x) = 1
Denition 1.1.11. Une fonction f est une densite de probabilite si et seulement si
elle poss`ede les trois proprietes suivantes :
1. f est positive sur R.
2. f est continue sur R, sauf peut etre sur un ensemble ni de points D.
3.
_

f(x)dx = 1.
Notons quune densite nest pas une probabilite : les conditions precedentes ne stipulent
par exemple pas que f(x) [0; 1], mais que f(x) est positive et que lintegrale sur
lunivers est egale `a 1. En revanche, la densite est liee `a la distribution par la fonction
de repartition, dans la mesure o` u :
P(X a) = F(a) =
_
a

f(x)dx,
o` u f est une densite de X. En eet, tout autre fonction g de R dans R, qui coincide
avec f sauf sur un ensemble ni de points de R est aussi une densite de probabilite de X.
On ne propose pas revue des principales distributions, dans la mesure o` u il est aise de
trouver ces informations sur Wikipedia.
16 CHAPITRE 1. RAPPELS DE MATH

EMATIQUES ET PROBABILIT

E
1.1.7 Loi conditionnelle et lemme des esperances iterees
Un aspect particuli`erement important des distributions est la dierence entre une distir-
bution non conditionnelle et conditionnelle. Tr`es classiquement, on presente rapidement
le cas discret avant de passer au cas continu.
Supposons que lon ait aaire `a un groupe dindividu compose dhommes et de femmes,
de bons et de mauvais el`eves. On peut sinteresser `a la probabilite de tirer au hasard un
bon eleve au sein de cette population, mais on peut aussi sinteresser au fait de tirer un
bon eleve parmi les hommes. Il sagit ici de la probabilite de tirer un bon eleve, sachant
que lon tire parmi les hommes. On parle dans ce cas de probabilite conditionnelle. On
note :
P(X = {tirer un bon eleve}|il sagit dun homme)
La r`egle de Bayes permet de faire le lien entre les probabilites conditionnelles et non
conditionnelles :
Denition 1.1.12 (Probabilite conditionnelle). P(A|B) =
P(A

B)
P(B)
.
Denition 1.1.13 (R`egle de Bayes). P(A|B) =
P(B|A)P(A)
P(B)
Dans le cas continu, il est possible dobtenir une densite conditionnelle. Soit un couple
de variables aleatoires (X, Y ) denies sur un espace probabilise (, A, P). Alors la
densite de X sachant Y secrit :
f
X|Y
=
f
X,Y
f
Y
A ceci sajoute une propriete importante : la loi des esperances iterees.
Denition 1.1.14 (Esperances iterees). Soit une variable aleatoire X sur un espace
probabilise. Alors sont esperance peut etre calculee comme suit :
E[X] = E
Y
[E[X|Y ]] (1.8)
o` u Y est une autre variable aleatoire par rapport `a laquelle on conditionne.
Ceci vient du fait que :
E[X] =
_

xf(x)dx (1.9)
=
_

x
_

f
X,Y
(x, y)dydx (1.10)
=
_

x
_

f
X|Y
(x)f
Y
(y)dydx (1.11)
=
_

f
Y
(y)
_

xf
X|Y
(x)dxdy (1.12)
= E
Y
[E[X|Y ]] (1.13)
Ajoutons un petit theor`eme tr`es utile : le theor`eme de changement de variable.
1.1. DES VARIABLES AL

EATOIRES ET DES HOMMES 17


Theor`eme 1.1.1. Soit une variable aleatoire continue X, ayant f
X
(.) pour densite et
soit le support de X suivant :
X = {x|f
X
(x) 0} (1.14)
Si h(.) est une fonction derivable et strictement monotone de domaine X et dimage
U, alors U = h(X) a pour densite :
f
U
(u) = f
X
(h
1
(u))

dx
du

, u U (1.15)
= 0 sinon (1.16)
1.1.8 Fonction generatrice des moments et fonction caracteristique
Une autre facon de caracteriser les distributions est dutiliser la fonction caracteristique
et/ou la fonction generatrice des moments.
Denition 1.1.15. La fonction caracteristique dune variable aleatoire X est la fonc-
tion suivante :
(t) = E[e
itX
] (1.17)
= E[cos(tX)] +iE[sin(tX)] (1.18)
Cette fonction est existe toujours. Elle caracterise enti`erement la distribution de X, ce
qui en fait une contrepartie aux densites. Il sera ainsi possible de travailler `a la fois en
terme de densite ou de fonction caracteristique. De plus, il existe un lien entre ces deux
fonctions :
Proposition 1.1.1. Soit X une variable aleatoire de densite f
X
(.). Alors :
f
X
(x) =
_

e
itx
(t)dt (1.19)
Notons ensuite que si X et Y sont deux variables aleatoires independantes, i.e. telles
que f
X,Y
= f
X
f
Y
, alors E[e
it(Y +X)
] =
X
(t)
Y
(t).
Exercice : determiner la fonction caracteristique dune loi normale.
Il existe enn une version reelle de cette fonction caracteristique que lon appelle fonc-
tion generatrice des moments.
Denition 1.1.16. La fonction caracteristique dune variable aleatoire X est la fonc-
tion suivante :
(t) = E[e
tX
] (1.20)
On lappelle fonction generatrice des moments du fait de la propriete suivante :
Proposition 1.1.2. Soit une variable aleatoire X de fonction generatrice des moments
(t). Alors on a :
E[X
k
] =

k
(t)
t
k

t=0
(1.21)
Exercice : determiner les deux premiers moments dune loi normale `a partir de la
fonction generatrice des moments..
18 CHAPITRE 1. RAPPELS DE MATH

EMATIQUES ET PROBABILIT

E
1.2 Le petit monde tres ferme des convergences
Cette section a pour but de presenter un certain nombre de rappels (appels ?) concer-
nant les dierents types de convergence probabilistes. Lidee est ici de fournir les princi-
pales intuitions necessaire `a letablissement des dierentes versions de la loi des grands
nombres ainsi que du theor`eme central limite.
1.2.1 Convergence en probabilite et presque sure
Denition 1.2.1 (Convergence en probabilite). La variable aleatoire X
n
converge en
probabilite vers une constante c si
lim
n
P(|X
n
c| > ) = 0, > 0. (1.22)
On note plimX
n
= c.
Denition 1.2.2 (Convergence presque sure). Soit (X
n
)
n1
une suite de variables
aleatoires et X une v.a. denies sur le meme espace probabilise (, A, P). On dit que
X
n
converge presque s urement vers X si lensemble des tels que X
n
() converge vers
X() a pour probabilite 1. On note :
Xn
p.s.
X. (1.23)
La dierence entre ces deux convergences est que la convergence presque sure implique
une convergence par , sauf pour une poignee de qui sont negligeables. La conver-
gence presque sure implique naturellement la convergence en probabilite (correspond
au cas o` u i = n).
La convergence en probabilite permet detablir dierentes versions de la loi faible des
grands nombres.
Theor`eme 1.2.1 (Loi faible des grands nombres de Khinchine). Si x
1
, x
2
, ..., x
n
est
un echantillon aleatoire de n realisations i.i.d. issu dune distribution de moyenne nie
E[x
i
] = , i, alors :
plim
1
n
n

i=1
x
i
= (1.24)
Ce theor`eme est particuli`erement important, dans la mesure o` u il permet lestimation
des moments dune distribution, pourvu que les conditions dapplicabilite du theor`eme
soient respectees. Une version plus forte de ce theor`eme existe egalement, utilisant une
convergence p.s. :
Theor`eme 1.2.2 (Loi forte des grands nombres de Kolmogorov). Si x
1
, x
2
, ..., x
n
est
un echantillon aleatoire de n realisations independantes tel que E[X
i
] =
i
< et
V[X
i
] =
2
i
< et

i=1

2
i
i
2
< lorsque n alors
1
n
n

i=1
x
i

1
n
n

i=1

i
p.s.
0 (1.25)
Denition 1.2.3 (Estimateur convergent/coherent). Un estimateur

n
dun param`etre
est un estimateur convergent ssi
plim

n
= (1.26)
1.3. VOUS REPRENDREZ BIEN UN PETIT PEU DE CALCUL MATRICIEL? 19
1.2.2 Convergence en distribution et TCL
Denition 1.2.4 (Convergence en distribution). On dit quune suite de variables
aleatoires X
n
converge en loi vers une variable aleatoire X, si la suite {F
n
(x)} converge
en tout point x o` u F est continue. On ecrit alors :
X
n
L
X (1.27)
Theor`eme 1.2.3 (Theor`eme central limite). Soit (X
i
)
iN
une suite de variables aleatoires
independantes et identiquement distribuees, avec i, E[X
i
] = m, V[X
i
] =
2
. On a
alors :
1
n

n
i=1
X
i
m

n
L
N(0, 1) (1.28)
1.3 Vous reprendrez bien un petit peu de calcul matri-
ciel ?
Pour terminer cette section introductive, voici quelques rappels de calcul matriciel. On
rappelle quune matrice M M(n p) est matrice telle que :
M =
_
_
_
_
_
m
1,1
m
1,2
. . . m
1,p
m
2,1
. . . . . . m
2,p
.
.
.
.
.
.
.
.
.
.
.
.
m
n,1
m
n,2
. . . m
n,p
_
_
_
_
_
(1.29)
Une matrice carree est telle que n = p. Une matrice symetrique est une matrice carree
telle que m
i,j
= m
j,i
, i = j.
Le rang (colonne) dune matrice M(np) est le nombre maximum de colonnes qui sont
lineairement independantes les unes des autres. En notant r(A) le rang dune matrice
A qui soit une M(n p), il vient naturellement que :
r(A) min(n, p). (1.30)
Une matrice carre dordre n est non singuli`ere si son rang est egal `a n (par exemple
une matrice diagonale).
Denition 1.3.1 (Matrice inverse). Soit A une matrice carree dordre n. Son inverse,
notee A
1
si elle existe, est la matrice de meme dimension telle que :
AA
1
= A
1
A = I, (1.31)
o` u I est la matrice identite.
Si la matrice A
1
existe, alors on dit que la matrice A est inversible. Cette matrice
existe si et seulement si la matrice A est plein rang, autrement dit si la matrice A est
non singuli`ere.
20 CHAPITRE 1. RAPPELS DE MATH

EMATIQUES ET PROBABILIT

E
Dans ce qui suit, on suppose acquit les elements suivants : la somme de deux matrices,
le produit de deux matrices, la trace dune matrice ainsi que le determinant dune ma-
trice. On rappelle en revanche dierentes operations de dierenciation de matrices.
Soit le produit matriciel suivant :
y = Ax (1.32)
avec A une matrice n p et x une matrice colonne n 1. Si A ne depend pas de x,
alors on a :
y
x
= A. (1.33)
Soit le produit matriciel suivant :
y = x
T
A (1.34)
alors on a :
y
x
= A
T
. (1.35)
Soit maintenant :
y = x
T
Ax (1.36)
avec A une matrice p p et x une matrice colonne de taille p. Alors, on a :
y
x
= x
T
(A+A
T
). (1.37)
Si A est symetrique, alors :
y
x
= 2x
T
A. (1.38)
Chapitre 2
Retour sur le mod`ele lineaire :
cas univarie et multivarie
On presente dans ce qui suit :
Quelques rappels sur le mod`ele de regression lineaire multiple : specication, inference
et test.
Le mod`eles `a equation multiples : specication, inference et tests.
2.1 Le mod`ele de regression lineaire simple
Le mod`ele de regression lineraire multiple etudie la relation entre une variable dependante
et une ou plusieurs variables independantes. Sa forme est alors :
y = f(x
1
, x
2
, ..., x
n
) + (2.1)
= x
1

1
+x
2

2
+... +x
n

n
+ (2.2)
On dit que y est la variable expliquee ou endog`ene et {x
1
, x
2
, ..., x
n
} sont les variables
explicatives ou exog`enes. est une perturbation aleatoire : il vient perturber une re-
lation qui, sans lui, resterait stable. Ce terme re coit de nombreuses denominations,
selon les champs dapplication de leconometrie ainsi que les series etudiees. Quelques
exemples : il est possible de qualier les de bruit (artefact statistique qui ne comporte
pas dinformation particuli`ere), derreur de mesure (erreur sur la comprehension de y
que permet de le mod`ele), de choc exog`ene (un choc qui ne transite pas par les variables
du mod`ele)...
An destimer cette relation, on utilise un echantillon de lensemble des variables. On
note y
i
la i`eme valeur de lechantillon des y et x
i,j
la i`eme valeur de lechantillon de la
j`eme variable. La valeur observee de y
i
est alors la somme de deux composantes : lune
deterministe (les x
i,j
, j) et lautre aleatoire,
i
.
y
i
=
1
x
i,1
+
2
x
i,2
+... +
n
x
i,n
+
i
(2.3)
Lobjectif est destimer les param`etres inconnus du mod`ele, dutiliser les donnees pour
etudier la validite de certaines propositions theoriques, et eventuellement de former une
21
22CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
prevision de y. On sappuie dans cette demarche sur un corpus statistique bien connu :
les estimateurs du maximum de vraisemblance.
2.1.1 Les hypoth`eses du mod`ele lineaire simple
Le mod`ele lineaire simple sappuie sur un nombre important dhypoth`eses que lon
precise ici.
H 1 (Linearite). La relation entre y et les x
j
est lineaire.
H 2 (Plein rang). Il nexiste pas de relation lineaire entre les variables independantes.
Si X est la matrice des observations, on aura notamment X

X de plein rang, et donc


inversible.
H 3 (Exogeneite des variables independantes). E[
i
|x
i,1
, x
i,2
, ..., x
i,n
] = 0. Lesperance
de la perturbation conditionnellement aux variables exog`enes est nulle : les variables
exog`enes napportent plus aucune information sur la perturbation.
H 4 (Homoscedasticite et absence dautocorrelation). V[] =
2
est stable au cours du
temps. E[
i

j
] = 0, i = j, autrement dit la correlation entre
i
et
j
est nulle.
H 5 (Donnees generees de mani`ere exog`ene). Les observations de {x
1
, x
2
, ..., x
n
} peuvent
etre un melange de constantes et de variables aleatoires. Les processus ayant genere ces
donnees sont independants de (il sagit dune extension de H3.
H 6 (Distribution normale). La perturbation suit une loi normale, en generale centree
et variance constante.
Une fois ces hypoth`eses mises `a jour, on revient sur lecriture du mod`ele. On preferera
travailler avec des matrices, plutot quavec un indicage couteux en place et en patience
(la mienne). Mieux, la plupart des logiciels de statistique/econometrie ont le bon go ut
de fonctionner egalement en matriciel. Cette demarche simplie grandement les calculs,
comme on le verra par la suite.
Soit x
:k
le vecteur colonne de T observations de la variable x
k
, k = 1, .., n. Soit X un
matrice M
T,n
constituee par la concatenation des dierents vecteurs colonnes. Dans la
plupart des cas, la premi`ere colonne de X est constituee par un vecteur colonne unitaire
(1, 1, ..., 1)

, de fa con `a ce que
1
soit la constante du mod`ele.
Sur la base de ces elements, il est possible de reecrire 2.2 sous forme matricielle :
y
..
M
T,1
= X
..
M
T,n

..
M
n,1
+
..
M
T,1
(2.4)
On notera ici que est le vecteur ligne des param`etres :
= (
1
,
2
, ...,
n
) (2.5)
Quelques remarques generales sur les hypoth`ese citees plus haut :
2.1. LE MOD
`
ELE DE R

EGRESSION LIN

EAIRE SIMPLE 23
Lhypoth`ese de linearite (H1) implique egalement ladditivite du terme derreur.
Lhypoth`ese H2 rappelle quil ne peut exister de relation lineaire entre les variables
explicatives. X est une matrice M
T,n
: elle doit donc etre de rang n, i.e. de plein
rang colonne. Deux conditions sont `a remplir pour cela :
une condition didentication : il est necessaire de disposer de n observations au
moins ;
la non-colinearite entre vecteurs colonne.
Rajoutons egalement quau moins un regresseur doit varier (et par consequent etre
non constant). Dans le cas contraire, la condition de plein rang nest pas veree (deux
colonnes sont identiques `a une constante mutliplicative pr`es).
La nullite de lesperance conditionnelle des implique egalement la nullite de lesperance
non conditionnelle. Ceci se montre tr`es simplement en conditionnant proprement :
E[] = E
x
[E[|x
1
, x
2
, ...x
n
]] (2.6)
= E
x
[0] (2.7)
= 0 (2.8)
Lhypoth`ese de nullite de lesperance des erreurs nest pas une hypoth`ese contraigante
(voir Greene (2002), page 15).
Hypoth`ese H4 : la variance des erreurs est constante. On parle dhomoscedasticite.
Dans le cas o` u elle varie selon les observations, on parle dheteroscedasticite. En
ajoutant lhypoth`ese dabsence dautocorrelation, on a alors :
E[

|X] =
_
_
_
_
_
E[
1

1
|X] E[
1

2
|X] ... E[
1

n
|X]
E[
2

1
|X] E[
2

2
|X] ... E[
2

n
|X]
.
.
.
.
.
.
.
.
.
.
.
.
E[
n

1
|X] E[
n

2
|X] ... E[
n

n
|X]
_
_
_
_
_
(2.9)
=
_
_
_
_
_

2
0 ... 0
0
2
... 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 ...
2
_
_
_
_
_
(2.10)
=
2
_
_
_
_
_
1 0 ... 0
0 1 ... 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 ... 1
_
_
_
_
_
(2.11)
=
2
I (2.12)
Ceci resume lhypoth`ese H4 : la matrice de variance/covariance des perturbations
est une matrice bloc diagonal, avec diag(E[

|X]) =
2
. Comme precedement, il
est possible dutiliser lexpression de la variance conditionnelle des erreurs, an den
inferer la variance non conditionnelle (formule de decomposition de la variance) :
24CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
V[] = E[V[|X]] +V[E[|X]] (2.13)
=
2
I (2.14)
Notons nalement que les perturbations satisfaisant `a la fois lhypoth`ese dabsence
dautocorrelation et dhomoscedasticite sont parfois appelees perturbations spheriques.
Notons enn que les perturbations sont supposees suivre une loi normale desperance
nulle et de variance egale `a
2
I. Il sagit dune hypoth`ese bien fondee etant donne la
structure de (les perturbations sont formees dune suite de chocs, de meme loi et
de memes moments 1 et 2 : le theor`eme central limit sapplique sans restriction).
2.1.2 Les moindres carres
Les param`etres de la relation y = X

+ sont `a estimer. Les moindres carres ordinaires


forment une methode simple et tr`es utilisee, meme si elle nest pas toujours la meilleure.
Dans ce qui suit, on cherche

, un estimateur de , la vraie valeur. Cet estimateur se
doit de verier un certain nombre de bonnes proprietes que lon detaillera par la suite.
Dans ce qui suit, on appellera les erreurs produites par le mod`ele estime. La methode
des MCO se propose de minimiser lerreur quadratique produite par le mod`ele.
Le programme resolu pour les MCO est alors le suivant :
Min (Y X

)
2
(2.15)
La resolution est simple. Il sut de deriver lexpression `a minimiser par rapport `a et
de chercher la valeur de (unique avec nos conditions) lannulant :
2X

(Y X

) = 0 (2.16)
X

Y = X

(2.17)

= (X

X)
1
X

Y (2.18)
Lestimateur des param`etres du mod`ele par la methode MCO est alors :

= (X

X)
1
X

Y (2.19)
Il est alors possible de montrer que cet estimateur est sans biais et de calculer sa
variance :
E[

] = E[(X

X)
1
X

Y ] = (X

X)
1
X

X +E[(X

X)
1
X

] =
V[

] = V[(X

X)
1
X

Y ] = V[(X

X)
1
X

] = (X

X)
1

La distribution de lestimateur est par consequent la suivante :

N(

, (X

X)
1

2
) (2.20)
Le fait de connaitre cette distribution permet delaborer un certain nombre de tests.
On ajoute le theor`eme suivant :
2.1. LE MOD
`
ELE DE R

EGRESSION LIN

EAIRE SIMPLE 25
Theor`eme 2.1.1 (Regression orthogonale). Si les variables dans une regression mut-
liple ne sont pas correlees (autrement dit, si elles sont orthogonales), alors les esti-
mations obtenues sont les memes que celles obtenues dans les regressions individuelles
simples.
Ce theor`eme est dune importance capitale : lorsque la condition de non colinearite
entre variables explicatives est veriee, il est alors identique de proceder `a lestimation
des param`etres les uns `a la suite des autres ou dun seul bloc. Ceci m`ene naturellement
au theor`eme de Frisch-Waugh. On lillustre comme suit :
Supposons que la regression `a mener implique deux sous-ensembles de variables :
y = X

+ = X
1

1
+X
2

2
+ (2.21)
Quelle est alors la solution pour
2
? Les equations normales (i.e. lequation obtenue
apr`es derivation de lerreur quadratique telle quelle est denie par le mod`ele) sont alors
les suivantes :
_
X

1
X
1
X

1
X
2
X

2
X
1
X

2
X
2
_ _

2
_
=
_
X

1
y
X

2
y
_
(2.22)
Ce probl`eme peut etre resolu de deux facons possibles : soit en utilisant les r`egles
connues sur les matrices partionnees, soit en developpant lexpression matricielle.
Rappel 1. Pour la matrice partitionnee de type 2 2, on a linverse partitionnee
suivante :
_
A
11
A
12
A
21
A
22
_
=
_
A
1
11
(I +A
12
F
2
A
21
A
1
11
A
1
11
A
12
F
2
F
2
A
21
A
1
11
F
2
_
(2.23)
Avec :
F
2
= (A
22
A
21
A
1
11
A
12
)
1
(2.24)
F
1
= (A
11
A
12
A
1
22
A
21
)
1
(2.25)
Quelle que soit la methode, on a le resultat suivant :

1
= (X

1
X
1
)
1
X

1
y (X

1
X
1
)
1
X

1
X
2

2
(2.26)
= (X

1
X
1
)
1
X

1
(y X
2

2
) (2.27)
Ce premier resultat est un debut dillustration du theor`eme de Firsch-Waugh : lestima-
tion de
1
peut donc se faire, non sur y, mais sur y net de linformation sur y contenue
dans X
2
. En eet, y X
2

2
est le residus de la regression de y sur X
2
. On note y
2
ce
residus. En utilisant ce resultat, et en rempla cant dans la seconde equation, on trouve :
26CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
X

2
X
1
(X

1
X
1
)
1
X

1
y
2
+X

2
X
2

2
= X

2
y (2.28)

2
= (X

2
X
2
)
1
(X

2
y X

2
X
1
(X

1
X
1
)
1
X

1
y
2
) (2.29)

2
= (X

2
X
2
)
1
X

2
(y X
1
(X

1
X
1
)
1
X

1
y
2
) (2.30)
X
1
(X

1
X
1
)
1
X

1
= P
1
: il sagit du projecteur dans lespace des X
1
. Il sagit dune
matrice symetrique et idempotente [i.e. P
2
= P]. On remarque :
y = X
1

1
+ (2.31)
= X
1
(X

1
X
1
)
1
X

1
y + (2.32)
= P
1
y + (2.33)
y = P
1
y (2.34)
La formule suivante fournit donc lexpression de

1
par estimation iterative :

2
= (X

2
X
2
)
1
X

2
(y P
1
y
2
) (2.35)
Lintuition de ces dierents calculs est la suivante : il est identique de proceder `a la
regression de y sur X, ou de partitionner X entre X
1
et X
2
, puis de regresser de facon
iterative y sur X
1
et X
2
. Ceci est resume dans les theor`eme suivant :
Theor`eme 2.1.2 (Theor`eme de Frisch-Waugh modie). Dans la regression lineaire des
moindres carres du vecteur y sur deux ensembles de variables X
1
et X
2
, le sous-vecteur
des coecients

2
est obtenu en regressant y P
1
y
2
sur X
2
.
Theor`eme 2.1.3 (Theor`eme de Frisch-Waugh). Dans la regression lineaire des moindres
carres du vecteur y sur deux ensembles de variables X
1
et X
2
, le sous-vecteur des co-
ecients

2
est obtenu lorsque les residus de la regression de y sur X
1
sont regresses
sur lensemble des residus de la regression de chaque colonne de X
2
sur X
1
.
Ajoutons un dernier theor`eme, dont on trouvera la demonstration dans Crepon (2005)
ainsi quun peu plus dexplicitations : le theor`eme de Gauss-Markov. Il sagit simplement
dun theor`eme doptimalite des estimateurs MCO (optimalite du point de vue de la
variance des estimateurs).
Theor`eme 2.1.4 (Gauss Markov). Sous les hypoth`eses du mod`ele lineaire, lestima-
teur des moindres carres ordinaire dun mod`ele lineaire est optimal dans la classe des
estimateurs sans biais, conditionnellement aux regresseurs.
2.1.3 Analyse de la variance
Une fois lestimation accomplie, on dispose de param`etres estimes ainsi que de residus
- les erreurs produites par le mod`ele, en principe minimales. On est alors en mesure de
determiner par une analyse de la variance la part de la variance de Y qui se trouve
expliquee par le mod`ele. On construit ainsi un R
2
, ou coecient de determination,
explicitant lidee precedente. La formule est la suivante :
2.1. LE MOD
`
ELE DE R

EGRESSION LIN

EAIRE SIMPLE 27
R
2
=
SCE
SCT
(2.36)
=
SCT SCR
SCT
(2.37)
=

n
i=1
(Y
i


Y )
2

n
i=1
(Y
i


Y
i
)
2

n
i=1
(Y
i


Y
i
)
2
(2.38)
Dans le precedent calcul, SCT represente la somme des carres totaux, SCR, la somme
des carres residuels et SCE, la dierence entre les deux, cest `a dire la somme des
carres expliques.

Y est la moyenne empirique de Y . Le R
2
se denit donc comme le
rapport de la somme des carres expliques sur la somme des carres totaux. Lidee est en
fait de decomposer la variance de Y en une variance expliquee par le mod`ele estime et
une variance qui na pas pu etre expliquee. Naturellement, plus R
2
est grand et plus -
en principe - le mod`ele peut etre soupconne detre explicatif de la variable endog`ene.
Cet indicateur, par construction est toujours compris entre 0 et 1. Ainsi plus le R
2
est
proche de 1 (de 0) et plus (moins) le mod`ele est explicatif de Y .
Une mise en garde simpose ici : dans une regression multiple, le R
2
augmente natu-
rellement lorsquune variable supplementaire (veriant certaines conditions qui ne sont
pas detaillees ici) est ajoutee. Ceci signie donc que lintoduction dun grand nombre
de variable peut naturellement conduire `a obtenir un R
2
important, quand bien meme
le pouvoir explicatif du mod`ele est mediocre.
2.1.4 Quelques tests lies aux MCO
On presente rapidement les tests les plus connus utiles lors de la mise en oeuvre desti-
mations basees sur les MCO : test de Fisher, test de Student, test de Durbin et Watson
et tests dadequation.
2.1.4.1 Test de Fisher
Dans le mod`ele lineaire simple - et `a fortiori dans un mod`ele MCO - le R
2
est utilise dans
le cadre du test de Fisher. Il sagit dun test de nullite des param`etres du mod`ele. Lidee
est la suivante : on fait lhypoth`ese que lensemble des param`etres ont une valeur egale
`a 0 et on compare la vraisemblance de cette hypoth`ese `a lhypoth`ese alternative dans
le cadre de laquelle les param`etres ont la valeur obtenue apr`es estimation. On retient
naturellement lhypoth`ese la plus vraisemblable - sur la base dun test statistique.
La statistique de test est la suivante :
F
test
=
R
2
1 R
2
N P 1
P
F(P, N P 1) (2.39)
Si la valeur de la statistique de test est superieure au quantile de la loi de Fisher, on
rej`ete lhypoth`ese de nullite de lensemble des param`etres - autrement dit, le mod`ele a
de bonne chances daccroitre notre connaissance de Y .
28CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
2.1.4.2 Test de Student
Une fois lensemble des param`etres testes, il peut etre interessant de tester les pa-
ram`etres les uns apr`es les autres. Pour cela, on utilise un test de Student. L`a encore,
on fait lhypoth`ese initiale que le param`etre
i
est nul et on compare cette hypoth`ese
`a lalternative de
i
=
i
. Dans le cas dun mod`ele avec bruits gaussiens, on connait la
distribution des estimateurs MCO :

N(, (X

X)
1

2
) (2.40)
On en deduit aisement :

_
(X

X)
1

T
np1
(2.41)
Pour n p 1 grand (superieur `a 30), on a T
np1
N(0, 1). L`a encore, lorsque la
valeur de la statistique de test est superieure `a la valeur critique pour un niveau de
risque deni, on rejette lhypoth`ese nulle de nullite du coecient du param`etre. Ainsi,
si le quantile de la loi de Student `a 95% et np 1 degres de liberte est plus petit que
la valeur de la statistique calculee (

(X

X)
1

), on est conduit `a rejeter lhypoth`ese


de nullite du param`etre. Le param`etre est alors signicativement dierent de 0. En
pratique, on compare la valeur de cette statistique `a 2 : il sagit de la valeur la plus
courante du quantile dune loi de Student. La r`egle est donc : si la valeur de la statistique
calculee est inferieure `a 2, alors
i
= 0 ; dans le cas contraire,
i
=
i
. Lintuition est
donc : on conduit un test de Student pour etre bien s ur que la valeur estimee par MCO
soit bien dierente de 0. Il sagit de verier la qualite de lestimation.
Nota Bene : 1. Intuitivement, plus la variance des residus est importante (autrement
dit, moins le mod`ele semble etre explicatif du comportement de Y ) et plus lerreur
possible lors de lestimation des param`etres est potentiellement importante.
2.1.4.3 Test de Durbin et Watson
Une autre probl`eme peut aecter les residus : la presence dautocorrelation entre les
erreurs. Le residu specie dans le mod`ele est un bruit blanc : il sagit dune innovation
pure. Une hypoth`ese du mod`ele qui napparait pas en premi`ere lecture est la suivante :
E[
i

i1
] = 0. Dans le cas contraire, la loi des erreurs nest pas celle speciee et les
estimations simples par MCO ne sont pas bonnes. Durbin et Watson ont propose un
test astucieux, bati sur une mesure de distance entre les erreurs en i et en i 1 :
d =

n
i=1
(
i

i1
)
2

n
i=1

i
2
(2.42)
Cette statistique peut sexprimer approximativement en fonction du coecient dauto-
correlation des residus :
2.1. LE MOD
`
ELE DE R

EGRESSION LIN

EAIRE SIMPLE 29
d 2(1 ) (2.43)
Cette intuition simplie grandement la lecture du test :
Si est nul (pas dautocorrelation), alors d se situe au voisinage de 2.
Si est egal `a 1 (autocorrelation positive), alors d se situe au voisinage de 0.
Si est egal `a -1 (autocorrelation negative), alors d se situe au voisinage de 4.
Dans les deux derniers cas, lestimation par les moindres carres ordinaires nest pas sa-
tisfaisante. Il est alors necessaire de developper des methodes plus avancees permettant
dintegrer lexistence de cette autocorrelation.
2.1.4.4 Les tests dadequation des residus
Lhypoth`ese de normalite des residus est `a conrmer `a laide de dierents tests. On
presente ici deux dentre eux : le test de Jarque et Berra ainsi que les qqplots.
Le test de Jarque et Berra
Le test utilise les estimateurs empiriques de la kurtosis et de la skewness, ainsi que
leur distribution an de juger de la normalite dune variable aleatoire. Lestimateur
empirique du moment centre dordre k est le suivant :

k
=
1
T
T

i=1
(X
i


X)
k
(2.44)
La skweness sestime donc par
3
/
3
2
et la kurtosis par
4
/
2
2
. La statistique de Jarque
et Berra vaut donc :
s =
T
6
S
2
k
+
T
24
(K
u
3)
2

2
(2) (2.45)
Le qqplot
Le qqplot compare quantiles empiriques et quantiles theoriques dune loi donnee. Il
permet de se faire une idee de ladequation eventuelle de nos donnees `a une loi pa-
rametrique particuli`ere.
Tests dadequation parametrique
Il est egalement possible de proceder `a un test dadequation des residus `a une loi
parametrique quelconque. On se reportera au chapitre 1 pour la methodologie.
30CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
2.2 Retour sur le maximum de vraisemblance
Il est possible de retrouver lensemble des resultats obtenus jusqu`a maintenant sur la
base dune approche utilisant le maximum de vraisemblance. On rappelle ici les bases
de la methode ainsi que son application au mod`ele lineaire multivarie gaussien.
La fonction de densite de probabilite dune variable aleatoire y conditionnellement `a
un ensemble de param`etres est note f(y, ). Cette fonction identie le processus
generant les donnees qui sous-tend lechantillon de donnees, et, en meme temps, fournit
une description mathematique des donnees que le processus gen`ere. La densite jointe de
n observations independantes et distribuees de facon identique (i.i.d.) de ce processus
est le produit des densites individuelles :
f(y
1
, ..., y
n
|) =
n

i=1
f(y
i
|) = L(, y) (2.46)
Cette densite jointe est la fonction de vraisemblance, denie comme une fonction du
vecteur de param`etres inconnus (), o` u y indique les donnees observees (qui ne sont
donc pas une inconnue). On remarque que lon note la densite jointe comme une fonc-
tion des donnees conditionnellement aux param`etres alors que, lorsque lon forme la
fonction de vraisemblance, on note cette fonction en sens inverse, comme une fonction
de param`etres conditionnellement aux donnees observees. Dans ce qui suit, on suppose
que les param`etres sont constants et inconnus : lenjeux de la methode est dexploi-
ter linformation disponible dans lechantillon an den inferer une valeur probable des
param`etres.
Il est generalement plus simple de travailler avec le logarithme de la fonction de vrai-
semblance :
lnL(|y) =
n

i=1
lnf(y
i
|) (2.47)
On parle dans ce cas de log-vraisemblance. Ajoutons quil est courant de travailler sur
la densite dun processus conditionnellement `a un autre processus. Cest du moins ce
qui se passe dans le mod`ele lineraire : les erreurs sont bien i.i.d., ce qui fait que y|x est
aussi un processus iid. Soit le mod`ele lineaire gaussien suivant :
y = X

+ (2.48)
y
i
=
1
+
2
x
1,i
+... +
p
x
p1,i
+
i
(2.49)
On suppose que les perturbations sont gaussiennes : conditionnellement `a x
:,i
, y
i
est
distribue normalement, moyenne
i
= x
:,i

et de variance
2
. Cela signie que les
variables aleatoires observees ne sont pas i.i.d. : elles sont de moyenne dierentes. Tou-
tefois, les observations sont conditionnelement independantes, permettant de travailler
sur la vraisemblance conditionnelle. Dans notre cas, elle a la forme suivante :
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 31
lnL(|y,X) =
n

i=1
lnf(y
i
|X
i
, ) (2.50)
=
1
2
n

i=1
_
ln
2
+ln(2) +
(y
i
x
:,i

)
2

2
_
(2.51)
=
1
2
nln
2
nln(2)
1
2
n

i=1
_
(y
i
x
:,i

)
2

2
_
(2.52)
La methode du maximum de vraisemblance propose de determiner

de fa con `a ce
que la log-vraisemblance soit maximale. Cependant, avant dexposer la methode, il est
necessaire de verier que cette estimation est realisable/possible : il sagit detudier ce
que lon appelle les conditions didentication.
Denition 2.2.1 (Identication). Le vecteur de param`etres est identie (i.e. suscep-
tible detre estime) si, pour nimporte quel autre vecteur de param`etre

tel que =

,
on a pour les donnees y : L(

|y) = L(|y).
Il est parfois impossible dobtenir une valeur unique pour le param`etre , rendant toute
estimation par maximum de vraisemblance impossible.
2.2.1 Le principe du maximum de vraisemblance
Le principe du maximum de vraisemblance fournit un moyen de choisir un estima-
teur asymptotiquement ecient (cf. chapitre 1) pour un param`etre ou un ensemble
de param`etres. Il est aise dillustrer la logique de cette technique dans le cas dune
distribution discr`ete.
On consid`ere un echantillon aleatoire de 10 observations tirees dune distribution de
Poisson : 5,0,1,1,0,3,2,3,4,1. La densite de chaque obersvation est alors :
f(y
i
|) =
e

y
i
y
i
!
(2.53)
Puisque les observations sont i.i.d., leur densite jointe, qui est la vraisemblance de cet
echantillon, est :
f(y
1
, ..., y
1
0|) =
1

i=1
0f(y
i
|) =
e
10

1
i=1
0y
i

1
i=1
0y
i
!
=
e
10

20
207, 360
(2.54)
Ce dernier resultat donne la probabilite dobserver cet echantillon particulier, en sup-
posant quune distribution de Poisson de param`etre encore inconnu , a genere les
donnees. Quelle est alors la valeur de qui rendrait cet echantillon plus probable ?
La reponse est fournie par la methode du maximum de vraisemblance : il sagit de la
valeur qui rend la vraisemblance maximum, i.e. la probabilite jointe la plus importante
possible. Cest ce quon represent en gure (2.2.1).
Sur la gure, on remarque que la vraisemblance a un mode unique pour = 2, qui est
lestimation du maximum de vraisemblance ou EMV de .
32CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
Fig. 2.1 Representation graphique du maximum de vraisemblance
On consid`ere la maximisation de L(|y) par rapport `a . Puisque la fonction loga-
rithme crot de mani`ere monotone et quelle est plus simple `a utiliser, on maximise
generalement lnL(|y) `a la place. Dans notre exemple :
lnL(|y) = n +ln
n

i=1
y
i

i=1
ln(y
i
!) (2.55)
lnL(|y)

= n +
1

i=1
y
i
= 0

EMV
= y
n
(2.56)
Ainsi, an de determiner la maximum de vraisemblance, il sut de deriver la log-
vraisemblance par rapport `a et de lannuler (comme on le fait tr`es classiquement pour
un fonction `a une variable). Dans le cas dune loi de Poisson, on trouve un EMV pour
egal `a la moyenne empirique. Ceci nest pas vraiment surprenant, dans la mesure o` u
si X P(), alors E[X] = .
Annuler la derive premi`ere ne sut cependant pas `a sassurer quil sagit dun maxi-
mum : encore faut il prouver quen ce point (le pretendant au titre de maximum), la
derivee seconde est negative (fonction concave). En general, la vraisemblance est na-
turellement strictement concave, ce qui fait que la solution de la derivee premi`ere est
toujours un maximum.
La reference `a la probabilite dobserver un echantillon donne nest pas exacte dans une
distribution continue, puisquun echantillon particulier `a un probabilite detre observe
nulle. La principe reste neanmoins le meme. Les valeurs des param`etres qui maximisent
L(|y) ou son logarithme sont les estimations du maximum de vraisemblance, notees

.
Puisque le logarithme est une fonction monotone, les valeurs qui maximisent L(|y) sont
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 33
les memes que celles qui maximisent lnL(|y). La condition necessaire pour maximiser
lnL(|y) est :
lnL(|y)

= 0 (2.57)
Il sagit de lequation de vraisemblance. Le resultat general est que lEMV est une racine
de lequation de vraisemblance. Lapplication aux param`etres du processus generant les
donnees dune variable aleatoire discr`ete sugg`erent que le maximum de vraisemblance
est une bonne utilisation des donnees. Cette intuition reste `a generaliser dans ce qui
suit.
2.2.2 Proprietes du maximum de vraisemblance
On introduit dans ce qui suit quelques dentions et proprietes qui ne sont pas demontrees.
On lira les preuves avec prot dans Greene (2002).
Denition 2.2.2 (Ecience asymptotique). Un estimateur est asymptotiquement e-
cient sil est convergent, distribue normalement asymptotiquement et sil a une matrice
de covariances asymptotiques qui nest pas plus grande que celle de nimporte quel autre
estimateur convergent distribue normalement asymptotiquement.
Proposition 2.2.1 (Proprietes dun EMV). 1. Convergence :
EMV

0
(conver-
gence en probabilite), o` u
0
est la vraie valeur du param`etre.
2. Normalite asymptotique :
EMV
N
_

0
, {I(
0
)}
1
_
, o` u I(
0
) = E[

2
lnL

0
].
3. Ecience asymptotique :
EMV
est asymptotiquement ecient et atteint la borne
inferieure de Frechet-Darmois-Cramer-Rao des estimateurs convergents.
4. Invariance : lestimateur du maximum de vraisemblance de
0
= c(
0
) est c(
EMV
)
si c(
0
) est une fonction continue et continuellement dierenciable.
Ces proprietes reposent principalement sur les conditions de regularites, principalement
au nombre de trois, que le lecteur trouvera (avec la demonstration des proprietes du
maximum de vraisemblance) dans Greene (2002) (page 457 et suivantes). Il sagit prin-
cipalement detre en presence dune vraisemblance triplement continument derivables,
avec les derivees dordre un et deux appartenant `a L
1
et celle dordre majorable par une
fonction appartenant `a L
1
. Il sagit ici de simples rappels de resultats statistiques de
base, nous laisserons le soin au lecteur daller faire les lectures adequates pour remedier
`a la maigre presentation qui en est faite.
2.2.3 EMV du mod`ele gaussien standard
On rappelle que le mod`ele de regression lineaire standard est :
y
i
= x
i

+
i
(2.58)
La vraisemblance dun processus gaussien x de n observations secrit naturellement :
34CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
lnL(|x) = nln()
n
2
ln(2)
1
2
n

i=1
_
x
i

_
2
(2.59)
Dans le cas de , on a :
lnL(|x) = nln()
n
2
ln(2)
1
2
n

i=1
_

_
2
(2.60)
Il est alors necessaire de savoir passer de la loi de `a celle de y, lorsque lon a specie
le mod`ele. Pour cela, on utilise un changement de variable qui est rappele ici :
Proposition 2.2.2 (Changement de variable). Si x est une variable aleatoire de fonc-
tion de repartition f
x
(.) et si y = g(x), alors la densite de y sexprime comme suit :
f
y
(y) = f
x
(g
1
(y))|g
1
(y)| (2.61)
Cette proposition sera particuli`erement importante pour lanalyse des series temporelles
(troisi`eme partie de cet opus). Ici, la transformation de `a y est = y X

, donc la
jacobienne (matrice des derivees premi`eres) est egale `a lunite (

y
= 1). On en deduit
naturellement la vraisemblance associee `a y :
lnL(|x) = nln()
n
2
ln(2)
1
2
n

i=1
_
y
i
x
i

_
2
(2.62)
Les conditions necessaires (equations normales ou de la vraisemblance) sont alors :
_
lnL

lnL

_
=
_
1

n
i=1
x
i
(y x
i

n
2
2
+
1
2

n
i=1
(y
i
x
i

)
2

4
_
=
_
0
0
_
(2.63)
On en deduit aisement, en passant en forme matricielle :

EMV
= (X

X)
1
X

y (2.64)

2
=

n
(2.65)
On retrouve lestimateur MCO du mod`ele de regression lineaire. Dernier calcul, la borne
de Cramer-Rao : on calcule tout dabord pour cela la matrice des derivees secondes du
maximum de vraisemblance, puis en on prend lesperance. Les calculs sont les suivants :
_

2
lnL

2
lnL

2
lnL

2
lnL

_
=
_

n
i=1
x
2
i

n
i=1
x
i

n
i=1
x
i

4
n
2
4

n
i=1

2
i

6
_
(2.66)
Lesperance de la precedente matrice fournit alors la matrice dinformation de Fisher :
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 35
I() =
_
X

2
0
0
n
2
4
_
(2.67)
Do` u la matrice de variance/covariance des estimateurs :
V[] = I()
1
=
_

2
(X

X)
1
0
0
2
4
n
_
(2.68)
Estimateurs du maximum de vraisemblance et des moindres carres coincident en tout
point
1
. Par consequent, lestimateur MCO herite de toutes les bonnes proprietes asymp-
totiques souhaitables des estimateurs du maximum de vraisemblance.
2.2.4 Les tests lies `a la vraisemblance
Lun des avantages de proceder `a des estimations par maximum de vraisemblance est
que lon peut par la suite en proceder `a un certain nombre de tests simples. Trois de ces
tests sont generalement developpes : le test de Wald, le test du ratiode vraisemblance
et enn le test du multiplicateur de Lagrange. On ne presentera ici que celui dont
limplementation est immediate une fois les estimations EMV produites : le test du
ratio de vraisemblance. Pour les autres, voir Greene (2002), pages 479 et suivantes.
Lors de lestimation dun mod`ele donne, il est possible de devoir operer un choix sur le
nombre de variables `a utiliser pour un mod`ele donne. Soit les param`etres du mod`ele
incluant le maximum de param`etres (dit mod`ele non contraint) et

les param`etres
dun mod`ele dit contraint, i.e. excluant volontairement certaines variables. Le test du
ratio de vraisemblance propose une statistique simple an de discriminer entre mod`ele
contraint et non contraint. Soit lnL(|y) la log-vraisemblance associee `a et lnL(

|y)
celle associee

. La statistique est alors egale `a :


LR = 2[lnL(

) lnL()] (2.69)
On parle de rapport de vraisemblance car il sagit en fait de calculer le rapport de
vraisemblance, dont on prend ensuite le logarithme : ceci explique que lon ait une
dierence. Cette statistique a sous H
0
(

est une parametrisation plus raisonnable


que )la distribution asymptotique suivante :
LR
2
(J) (2.70)
O` u J est le nombre de contraite pesant sur les param`etres .
1
A peu de choses pret en fait, dans la mesure o` u lestimateur des moindres carres de la variance
des erreurs est corriges dans sa version MCO des degres de libertes. Un estimateur du maximum de
vraisemblance nest jamais corrige. L` a encore, voir Greene (2002), chapitre 17.
36CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
2.3 Prevision `a partir du mod`ele lineraire multiple
Une fois un mod`ele robuste degage des precedentes estimations, il est possible de passer
`a la prediction des valeurs de y `a partir de celle de x. On suppose que lon souhaite
predire la valeur de y
0
associee au regresseur x
0
. Cette valeur est :
y
0
= x
0

+
0
(2.71)
Par le theor`eme de Gauss Markov, on a :
E[y
0
|x
0
] = y
0
= x
0

(2.72)
est lestimateur sans biais de variance minimale de E[y
0
|x
0
]. Lerreur de prevision est
alors :
e
0
= y
0
y
0
(2.73)
= x
0
(

) +
0
(2.74)
O` u est la vraie valeur du param`etre et

son estimateur. On en deduit alors aisement
la variance de la prediction :
V[e
0
|X, x
0
] = V[x
0
(

)|X, x
0
] +
2
(2.75)
= x
0
V[

|X, x
0
]x
0
+
2
(2.76)
= x
0

2
(X

X)
1
x
0
+
2
(2.77)
=
2
_
1 +
1
n
+ x
0
(

X


X)
1
x
0
_
(2.78)
La derni`ere equation est obtenue dans le cas o` u le mod`ele contient un terme constante.
On note alors `a laide dun tilde la matrice des donnees dont on a supprime la premi`ere
colonne contenant le terme constant. Ce resultat montre que lintervalle depend du
rapport entre une version approchee de la variance de x
0
et X. Plus x
0
a une variance
approchee importante, et plus la prevision sera incertaine.
Il est alors possible dinferer un intervalle de conance pour la prediction (voir le cha-
pitre 1 sur la construction dun intervalle de conance pour la moyenne) :
IC

=
_
y
0
t
/2
_

V[e
0
|X, x
0
]
_
(2.79)
An de determiner la qualite dune prevision, on utilise en general les deux statistiques
suivantes :
RMSE =

1
n
0

i
(y
i
y
i
)
2
(2.80)
MAE =
1
n
0

i
|y
i
y
i
| (2.81)
2.4. UNE CALIBRATION SIMPLE DU CAPM 37
On parle de Root Mean Square Error et de Mean Absolute Error. n
0
designe le nombre
de periodes de previsions.
2.4 Une calibration simple du CAPM
Suite `a lensemble de ces elements theoriques, on propose dans ce qui suit un exemple
simple de calibration du CAPM. Cette methode repose, comme nous le verrons, sur
lhypoth`ese principale selon laquelle les prix sont des martingales. On montre que le
beta coincide exactement avec lestimateur des moindres carres ordinaires. On proc`ede
de meme pour estimer le alpha, apr`es avoir estimer la Security Market Line (SML).
Enn, on montre quil est aise dobtenir le R
2
du mod`ele, sur la base du calcul du beta.
2.4.1 Lestimation de la relation du MEDAF par MCO
On cherche `a calibrer un mod`ele de la forme :
r
i
= r
f
+
i
(r
m
r
f
) (2.82)
Une approche classique en econometrie pour resoudre ce type de probl`eme revient `a
se donner , une erreur destimation, puis `a chercher `a minimiser cette erreur. On fait
apparaitre comme suit dans la precedente relation :
r
i
= r
f
+
i
(r
m
r
f
) + (2.83)
Il sagit bien dune erreur : si r
f
+
i
(r
m
r
f
) correspond `a lapproximation (ou es-
timation) de la rentabilite du titre i, celle ci nest pas parfaite. est precisement la
dierence entre le vrai r
i
et son estimation, que lon peut noter r
i
. On a donc :
= r
i
r
i
(2.84)
= r
i
r
f
+
i
(r
m
r
f
) (2.85)
Ceci est vrai dapr`es la relation precedente (equation 2.83). La methode des moindres
carres ordinaires vise `a determiner une valeur pour (que lon ne connait pour linstant
pas), qui rende la somme des erreurs au carres la plus petite possible. Lidee est donc
de trouver un beta qui permette de rendre lerreur la plus petite possible, autrement
dit, qui rende le mod`ele le meilleur possible.
On cherche donc `a minimiser la somme des erreurs commises pour chacune des obser-
vations de la rentabilite du titre i, elevees au carre. On cherche donc :
Min

2
i
(2.86)

(r
i
r
f
(r
m
r
f
))
2
(2.87)
Pour trouver un minimum sur une fonction convexe, il sut degaler la derivee `a 0. Ici,
on :
SSR()

(r
m
r
f
)(r
i
r
f

i
(r
m
r
f
)) (2.88)
=

(r
m
r
f
)
2
(r
i
r
f
)(r
m
r
f
) (2.89)
=

(r
m
r
f
)
2

(r
i
r
f
)(r
m
r
f
) (2.90)
38CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
En egalant la derivee `a 0, il vient :

(r
m
r
f
)
2

(r
i
r
f
)(r
m
r
f
) = 0 (2.91)

(r
m
r
f
)
2
=

(r
i
r
f
)(r
m
r
f
) (2.92)
=

(r
i
r
f
)(r
m
r
f
)

(r
m
r
f
)
2
(2.93)
En notant r
i
et r
m
les rentabilites du titre i ainsi que du marche dont on a retrancher
le taux sans risque, il vient une ecriture simple de lestimateur des MCO, qui peut se
reecrire de fa con matricielle aisement :
=

r
i
r
m

( r
m
)
2
(2.94)
En notant R
i
la matrice n1 contenant les n observations de rentabilites du titre (dont
on a retranche le taux sans risque) i et R
m
de meme taille, celle contenant celles du
marche, il est alors possible de reecrire ces sommes de fa con matricielle (faire les calculs
pour sen convaincre) :
= (R
T
m
R
m
)
1
Rm
T
R
i
(2.95)
Cet estimateur est lestimateur MCO de . On admettra quil poss`ede la distribution
suivante :

N(, (R
T
m
R
m
)
1

) (2.96)

est la variance du terme derreur et la vraie valeur du param`etre `a estimer. On


est ainsi en mesure de construire un test de Student permettant de tester sur lestima-
tion de est dierente de 0 avec une probabilite importante. On se borne ici `a fournir
la methodologie generale permettant de construire ce test : il sagit pour nous dune
recette de cuisine nanci`ere dont les fondements ne sont pas demontres.
Pour conduire ce test, il sut de comparer

V[

]
`a 1,96 (le quantile `a 95% dune loi
normale). Si la valeur est superieure, alors

= 0.
2.4.2 Lien de lestimateur MCO avec le beta nancier
On a vu que le beta nancier pouvait etre estimer par :
=
cov(r
i
, r
m
)

2
m
(2.97)
au terme de la demonstration de Sharpe. Il est facile de demontrer que lestimateur
MCO et cette expression du beta coincident exactement, `a la condition que les prix
soient martingale. Quelle est la contrepartie empirique de la covariance et de la va-
riance ? En remplacant dans lexpression precedentes les moments par leur estimation,
il vient :
=
1
n

(r
i
E[r
i
])(r
m
E[r
m
])
1
n

(r
m
E[r
m
])
2
(2.98)
=

(r
i
E[r
i
])(r
m
E[r
m
])

(r
m
E[r
m
])
2
(2.99)
2.4. UNE CALIBRATION SIMPLE DU CAPM 39
Dans le cas o` u les prix sont martingale, on sait que :
E[P
t
] = P
t1
(2.100)
E[P
t
P
t1
] = 0 (2.101)
E
_
P
t
P
t1
P
t1
_
= 0 (2.102)
E[r
t
] = 0 (2.103)
Ainsi, lensemble des actifs doivent avoir une esperance de rentabilite nulle si le marche
est martingale. Lintroduction de la nullite des esperances de rendement permet de
retrouver (`a r
f
pret), la formule des MCO :
=

r
i
r
m

r
2
m
(2.104)
2.4.3 Estimation de la SML
Une fois lensemble des des titres estimes, il est possible destimer la SML. L`a encore
le recours aux MCO permet dobtenir des resultats simples. On cherche `a estimer une
relation du type :
E[r
i
] =
i
(2.105)
Lestimateur MCO est alors le suivant :
=

2
i
(2.106)
On propose `a la n de ce chapitre une fonction R permettant de realiser ces estimations.
La gure 2.2 est le resultat de cette fonction.
2.4.4 Calcul des alpha
Il est possible destimer les surrentabilites eventuelles degagees par le marche : les
alpha. Il sagit simplement dintroduire une constante dans le mod`ele du CAPM et de
lestimer par MCO. On note R
i
la matrice consituee de deux colonnes : lune comportant
exclusivement des 1 et lautre lensemble des observations des r
i
. On fait de meme pour
R
m
. On est alors en mesure dutiliser l`a encore la formule des MCO pour estimer le
beta et le alpha en un seul coup.
2.4.5 Le R
2
Le R
2
ou coecient de determination est une mesure de la qualite globale du mod`ele
propose. Il sagit du rapport entre la variance de lestimation de lon donne du mod`ele
et la variance de la variable expliquee. Il sagit donc du rapport :
R
2
=
V[
i
r
m
]
V[r
i
]
(2.107)
Dans le cas du MEDAF, il est aise de calculer ce R
2
`a partir du :
R
2
=

2
i

2
m

2
i
=
i,m
(2.108)
On aboutit donc `a une expression simple de ce R
2
.
40CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
2.4.6 Code pour le CAPM
################################################################################
# Estimation et test du CAPM #
################################################################################
# Dans ce programme, on estime les beta du CAPM par MCO. On teste lexistence de
# alpha. Enfin, on estime la SML par MCO.
capm<-function(x,Rf){
# Formattage de la base de donnees
x=as.matrix(x)
x.beta=x
x=x-Rf
SP=cbind(matrix(1,nrow(x),1),x[,1])
titres=x[,2:ncol(x)]
xx=solve(t(SP)%*%SP)
theta=xx%*%(t(SP)%*%titres)
res=titres-SP%*%theta
var.res=apply(res,2,var)
test=cbind(diag(xx)[1]*as.matrix(var.res),diag(xx)[2]*as.matrix(var.res))
test=sqrt(test)
test=t(theta)/test
ptest=pnorm(test)
#Calcul de la SML
beta.capm=t(theta)[,2]
renta.moy=as.matrix(apply(x.beta[,2:ncol(x.beta)],2,mean))
pente=sum(renta.moy*beta.capm)/sum(beta.capm^2)
beta.sort=(beta.capm)
renta.est=beta.sort*pente
par(bg="lightyellow")
plot(beta.capm,renta.est,type="l",col="red",ylab="Rentabilite",xlab="Beta",
main="Estimation de la SML")
lines(beta.capm,renta.moy,type="p",col="blue")
# Calcul des R2
R2=as.matrix(beta.capm^2)*var(SP[,2])/apply(titres,2,var)
return(list(theta=theta, R2=R2, test=test, ptest=ptest))
}
2.4. UNE CALIBRATION SIMPLE DU CAPM 41
0.6 0.8 1.0 1.2 1.4
0
.
0
1
0
0
.
0
1
2
0
.
0
1
4
0
.
0
1
6
0
.
0
1
8
0
.
0
2
0
Estimation de la SML
Beta
R
e
n
t
a
b
i
l
i
t

Fig. 2.2 Security Market Line


42CHAPITRE 2. RETOUR SUR LE MOD
`
ELE LIN

EAIRE : CAS UNIVARI

E ET MULTIVARI

E
Chapitre 3
Extensions du mod`ele de base
On propose dans ce qui suit quelques extensions du mod`ele lineraire standard : les
mod`eles non lineaires et les mod`eles `a equations multiples. Lexpose sappuie `a la fois sur
Greene (2002) et Davidson and MacKinnon (1993). Il est `a noter quil existe une version
fran caise de ce dernier ouvrage librement accessible sur le site de Russel Davidson
(voir lurl fournie en bibliographie). Il sagit dune introduction succinte : tout lecteur
soucieux de depasser ce stade se reportera avec prot aux deux references qui sont
fournies plus haut.
3.1 Mod`ele de regression non lineaire
On se contente ici de presenter le mod`ele de regression non lineaire dans le cas univarie :
il est aise de generaliser les resultats presentes ici au cas multivarie. Classiquement, un
mod`ele non lineaire sexprime sous forme fonctionnelle comme suit :
y = x() + (3.1)
avec x() une forme fonctionnelle liant les variables exog`enes x et le vecteur des pa-
ram`etres . est une perturbation i.i.d. de moyenne nulle et de variance egale `a
2
.
La fonction scalaire x() est une fonction de regression (non lineaire) qui determine
lesperance de y conditionnellement `a et `a x. Ici encore, un mod`ele de regression non
lineaire doit etre identie si lon desire obtenir des estimations uniques des param`etres.
Classiquement, lestimation peut se faire par moindres carres. La fonction objectif est
alors :
Min
n

i=1
(y
i
x
i
())
2
(3.2)
Dans le cas multivarie, ceci secrit matriciellement comme suit :
Min (y x())

(y x()) (3.3)
43
44 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
o` u y designe une matrice M(n 1) compose des dierentes valeurs de y
i
et x() une
matrice M(np) compose des n fonctions de regression x
i
(), i = 1, ...p. Cette somme
des carres peut etre explicite comme suit :
Min y

y 2y

x() +x()

x() (3.4)
En derivant cette expression par rapport `a et en lannulant, il vient :
2y
x()

+ 2
x()

x() = 0 (3.5)
Ceci est equivalent `a :
x()

(y x()) = 0 (3.6)
On retrouve ici la condition dorthogonalite entre les residus et la derivee des regresseurs,
une version modiee de la condition dorthogonalite entre regresseurs et residus dans le
cas MCO. Le probl`eme est quil nexiste pas formule analytique permettant dobtenir
lexpression des estimateurs comme dans le cas MCO : il est alors necessaire dutiliser
des algorithmes doptimisation permettant de trouver le minimum du programme men-
tionne plus haut. Nous reviendrons sur ces algorithme plus loin : il seront egalement
utiles pour lestimation des mod`eles de series temporelles.
Un dernier point reste `a noter dans ce bref expose des moindres carres non lineaires :
les conditions de premier ordre sont necessaire, mais pas susante pour garantir le fait
que

soit un minimum. Il peut exister plusieurs valeurs de qui verient les conditions
de premier ordre, mais qui soient des minima lcaux, des points stationnaires ou meme
des maxima locaux. En denitive, rien ne garantit que la fonction `a minimiser soit
globalement convexe, i.e. :
H
ij
() =

2
SSR()

j
(3.7)
soit denie positive en .
Rappel 2. Une matrice M M(nn) est dite denie positive si x, une matrice colonne
composee de n elements reels on a :
x

Mx > 0 (3.8)
Une autre facon de prouver le caract`ere deni positif dune matrice est de montrer
que lensemble de ses valeurs propres est strictement positif. Enn, si lensemble des
sous matrices dune matrice carre admet un determinant positif, alors cette matrice est
denie positive. Il sagit de la generalisation matricielle de la postivite dun scalaire.
Une matrice denie negative est une matrice dont loppose est denie positive.
3.1. MOD
`
ELE DE R

EGRESSION NON LIN

EAIRE 45
Cette condition nest assuree que pour quelques cas particuliers, dont les MCO :
H
ij
() =

2
SSR()

j
= x

x (3.9)
Il est aise de prouver dapr`es ce qui vient detre rappele que cette matrice est bien
denie positive.
Terminon enn par une courte discussion des conditions didentication de ce type
de mod`ele. On distingue deux srotes didentication, lidentication locale et liden-
tication globale. Les estimation des moindres carres non lineaire ne seront identies
localement qu`a la condition que pour tout modication innitesimale de

, la valeur
de la fonction objectif sel`eve. Ceci revient `a supposer que la matrice hessienne est
strictement convexe en , de sorte que :
SSR(

) < SSR(

+) (3.10)
Pour une petite variation . Cette condition est analogue au caract`ere deni positif
de la matrice hessienne. La stricte convexite implique que SSR() soit incurvee dans
toutes les directions ; aucun plat nest autorise quelle que soit la direction. Si SSR()
etait plate dans une direction donnee au voisinage de

, il serait possible de seloigner
de

dans cette direction, sans jamais modier la valeur de la somme des residus au
carre (du fait des conditions du premier ordre). Par consequent,

ne sera pas lunique
estimateur des moindres carres non lineaires.
Lidentication locale nest cependant pas susante. Une condition plus generale est
lidentication globale :
SSR(

) < SSR(),

= (3.11)
Il sagit dune simple reformulation de la condition didentication etablit au precedent
chapitre : lestimateur doit etre unique. Remarquons que meme si un mod`ele est identie
localement, il est toujours possible quily ait deux (ou davantage) estimations distinctes
garantissant une meme valeur minimale de la fonction objectif. A titre dexemple :
y = +
2
x
t
+ (3.12)
Il apparait clairement que si (

beta, ) minimise la fonction objectif des MCO pour ce
mod`ele, (

beta,

) en fera autant. Donc le mod`ele est globalement non identie par
quelque ensemble de donnees que ce soit, bien que les conditions du premier et second
ordre soient remplies.
Dans la pratique, notons quil est egalement possible quun mod`ele non lineaire puisse
etre linearise au moyen dun passage au logarithme, notamment dans le cas de mod`eles
multiplicatifs. Lexemple le plus courant est la fonction de production de type Cobb-
Douglas :
y = AK

1
L

2
(3.13)
46 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
qui redevient un mod`ele lineaire dans le cas o` u lon passe au log :
y = ln(A) +
1
ln(K) +
2
ln(L) +ln() (3.14)
En parametrisant de fa con `a ce quil suive une loi log-normale, on retrouve N(
2
).
Ceci evite davoir recours `a des procedures destimation complexes et consommatrices
de temps.
3.2 Les mod`eles `a syst`eme dequations
On introduit bri`evement une methode econometrique utile pour lun des principaux
mod`eles nanciers (le MEDAF ou CAPM) : les syst`emes dequations de regression. L`a
encore, le lecteur se reportera avec prot `a
Les mod`eles decrits dans les chapitres precedents peuvent sappliquer `a des groupes de
variables. Dans ce cas, on examine les mod`eles de mani`ere jointe. Lun des principaux
exemple pour leconometrie de la nance est le MEDAF. Ce type de modelisation
proc`ede comme suit :
y
1
= X
1

1
+
1
(3.15)
y
2
= X
2

2
+
2
(3.16)
... (3.17)
y
m
= X
m

m
+
m
(3.18)
lorsque lon dispose de m equations et de n observations. On se bornera ici `a letude
dun cas particulier de ces regressions : le mod`ele SUR (seemingly unrelated regressions
ou mod`ele de regressions apparament independantes). Le mod`ele se presente comme
suit :
y
i
= X
i

i
+
i
, i = 1, ..., m (3.19)
= [
1
, ...,
m
] (3.20)
E[|X
1
, ..., X
m
] = 0 (3.21)
E[

|X
1
, ..., X
m
] = (3.22)
On suppose que n observations sont utilisees pour lestimation des param`etres des m
equations. Chaque equation a K
m
regresseurs, pour un total de K =

m
i=1
K
j
. On pose
T > K
i
. On suppose que les perturbations ne sont pas correlees entre observations. En
consequence,
E[
it

js
|X
1
, ..., X
m
] =
ij
, si t = s, 0 sinon (3.23)
La structure de perturbation est donc :
E[

j
|X
1
, ..., X
m
] =
ij
I
n
(3.24)
3.2. LES MOD
`
ELES
`
A SYST
`
EME D

EQUATIONS 47
Do` u on en deduit naturellement :
E[

|X
1
, ..., X
m
] = =
_

11
I
n

12
I
n
...
1m
I
n

21
I
n

22
I
n
...
2m
I
n
.
.
.

m1
I
n

m2
I
n
...
mm
I
n
_

_
= I
n
(3.25)
Chaque equation est une regression classique. Les param`etres peuvent donc etre estimes
de mani`ere convergent par la methode MCO. La regression generalisee sapplique aux
donnees dites empilees :
_

_
y
11
.
.
.
y
1n
y
21
.
.
.
y
2n
.
.
.
y
mn
_

_
=
_

_
X
1
0
n,k
2
... 0
n,k
m
0
n,k
1
X
2
... 0
n,k
m
.
.
.
.
.
. ...
.
.
.
0
n,k
1
0
n,k
2
... X
m
_

_
_

1,1

1,2
.
.
.

1,k
1

2,1
.
.
.

m,k
m
_

_
(3.26)
+
_

1,1

1,2
.
.
.

1,n

2,1
.
.
.

m,n
_

_
(3.27)
Il est alors possible de reecrire ce mod`ele de fa con matricielle :
Y = X

+ (3.28)
O` u Y est une matrice M(nm, 1), X une matrice M(nm, K),

une matrice M(K, 1)


et une matrice M(nm, 1). Une fois ce travail preliminaire accompli, tournons nous
vers lestimation de ce type de mod`ele.
A ce stade plusieurs strategies dinference sont envisageables. On montre dans ce qui suit
que lestimation par maximum de vraisemblance ou par Moindres Carres Generalises
(MCG), comme dans le cas simple des MCO, coincident exactement. On sinteresse
nalement au cas o` u est bloc diagonal.
3.2.1 Estimation par moindres carres generalises et quasi-generalises
Quelques rappels sur les MCG et MCQG sont ici necessaires. Lestimation ecace de
dans le mod`ele de regression generalise requiert . On suppose pour commencer que
est une matrice connues, symetrique et denie positive. Il arrive que ce soit le cas,
48 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
mais le plus souvent il est necessaire de proceder `a lestimation de avant de mettre
en oeuvre la methode (on parle alors de moindres carres quasi generalises).
Lidee de base consiste `a minimiser la somme des carres des residus, ponderes par
la variance des residus. Cette somme est appelee mesure de Mahalanobis (utile pour
lanalyse en terme de vraisemblance). Les MCG se propose de determiner un estimateur
qui minimise cette distance.
Min(Y X

1
(Y X

) (3.29)
O` u
1
=
1
I
n
. En developpant lexpression, il vient :
(Y

)
1
I
n
(Y X

) (3.30)
=Y

1
I
n
Y X

1
I
n
Y Y

1
I
n
X

+X

1
I
n
X

(3.31)
En derivant la precedente expression, on obtient :
2X

1
I
n
Y +X

1
I
n

= 0 (3.32)
(X

1
I
n
X)

= X

1
I
n
Y (3.33)

= (X

1
I
n
X)
1
X

1
I
n
Y (3.34)
On obtient ainsi lexpression de lestimateur des MCG. On obtient bien un

de bonne
dimension : M(K, 1). Il est `a note que est le produit Kronecker. On en rappelle
bri`evement les proprietes :
Denition 3.2.1 (Produit de Kronecker). Soit A une matrice M(m n) constituee
delements [a
ij
]. Soit B une matrice M(p q). Alors on a le produit de Kronecker
suivant :
AB =
_
_
a
11
B a
12
B ...
a
21
B ... ...
... ... a
mn
B
_
_
(3.35)
Il sagit donc dune matrice M((mp) (n q))
Proposition 3.2.1 (Produit de Kronecker). On a les proprietes suivantes :
(AB)(C D) = AC BD
(AB)

= A

A(B +C) = AB +AC


(B +C) A = B A+C A
A(B C) = (AB) C
La matrice de covariance asymptotique de lestimateur des MCQ est la matrice inverse
dans la precedente equation. On rappelle quelques proprietes des estimateurs MCG.
On detail le precedent resultat de fa con sen convaincre pleinement. En notant
ij
la
contrepartie de
ij
dans
1
, il vient :

=
_

11
X

1
X
1

12
X

1
X
2
...
1m
X

1
X
m

21
X

2
X
1

22
X

2
X
2
...
2m
X

2
X
m
.
.
.
.
.
.
.
.
.
.
.
.

m1
X

m
X
1

m2
X

m
X
2
...
mm
X

m
X
m
_

_
1
_

m
j=1

1j
X

1
y
j
.
.
.

m
j=1

mj
X

m
y
j
_

_
(3.36)
3.2. LES MOD
`
ELES
`
A SYST
`
EME D

EQUATIONS 49
Il est aise de sen convaincre sur un exemple de faible dimensions, par exemple pour
m = 2, K = 2. Autre remarque : en speciant = I
m
, on retrouve exactement
lestimateur des moindres carres. On detaille quelques proprietes des estimateurs MCG :
Proposition 3.2.2 (Estimateur sans biais). Lestimateur MCG est un estimateur sans
biais de .
Proposition 3.2.3 (Estimateur ecace). Lestimateur MCG est un estimateur ecace
de .
Proposition 3.2.4 (Gauss Markov). Lestimateur MCG

est lestimateur lineaire
sans biais de variance minimale pour la regression generalisee. Il sagit du theor`eme de
Aitken[1935], et dune generalisation de Gauss Markov.
Pour nir, on a suppose que jusque ici que etait connue. Ceci nest generalement pas
le cas. On proc`ede donc `a une estimation preliminaire de : les residus des moindres
carres peuvent etre utilisees pour estimer la matrice de variance-covariance des residus.
En note les residus des MCO, lestimation de est alors :

=
1
n

(3.37)
On parle alors destimateur des moindres carres quasi-generalises pour

estime par
MCG, une fois lestimation de accomplie. Les proprietes asymptotiques de lestima-
teur MCQG ne proviennent pas de lestimateur sans biais de ; seule la convergence
est necessaire. Lestimateur a les memes proprietes que lestimateur MCG.
3.2.2 MCO contre MCG et MCQG
Lestimateur MCG di`ere bien evidemment de lestimateur MCO. Pour linstant, les
equations sont seulement liees par leurs perturbations, do` u le terme de regressions
apparament independantes. Il est alors necessaire de sinterroger sur le gain decacite
provenant de lestimateur MCO `a la place de lestimateur MCG. Lestimateur MCO
est ici un estimateur equation par equation, laissant de cote lecriture fastidieuse du
mod`ele MCG. On detaille quelques cas particuliers :
Si les equations sont independantes - i.e. si
ij
= 0, i = j - alors il ny a aucun
avantage `a utiliser les MCG pour estimer le syst`eme dequation. En eet, les MCG
reviennent aux MCO equation par equation.
Si les equations ont les memes variables explicatives, alors MCO et MCG sont iden-
tiques.
Si les regresseurs dans un bloc dequations sont un sous-ensemble des regresseurs
dans dun autre , alors MCG napporte aucun gain decacite par rapport aux MCO
dans lestimation de lensemble de lensemble plus petit dequation; ainsi MCO et
MCG sont de nouveau identiques.
50 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
3.2.3 Estimation de syst`emes dequation par maximum de vraisem-
blance
Il est possible, comme pour le cas des MCO, destimer le mod`ele par maximum de
vraisemblance. On rappelle quune loi gaussienne multivariee se note comme suit :
f(X
1
, ..., X
m
) = (2)

m
2
||

1
2
exp
_

1
2
(Y X

1
(Y X

)
_
(3.38)
Sur la base des notations introduites plus haut, la vraisemblance concentree du mod`ele
SURE secrit :
lnL =
n
2
ln(||)
1
2
(Y X

1
(Y X

) (3.39)
En derivant par rapport `a

, il vient :
X

1
(Y X

) = 0 (3.40)
X

1
Y = X

1
X

(3.41)

= (X

1
X)
1
X

1
Y (3.42)
On retrouve bien lestimateur des MCG : celui prote donc de lensemble des proprietes
des estimateurs du maximum, developpees plus haut. Lestimateur de la variance se
deduit des proprietes suivantes :
Proposition 3.2.5 (Derivation matricielle 1). Soit A une matrice carree, inversible et
de determinant positif. Alors :
ln(|A|)
A
= (A

)
1
(3.43)
Proposition 3.2.6 (Derivation matricielle 2).
ln(|A|) = ln(|A
1
|)
1
= log(|A
1
|) (3.44)
Une fois que lon connait ces proprietes, il est aise de voir que :
lnL

1
=
n
2

1
2
(Y X

)(Y X

(3.45)
En egalisant la derni`ere derivee `a 0, il vient :
=
1
n

(3.46)
o` u = Y X

. On retrouve bien un estimateur habituel de la variance.


3.2.4 Retour sur lestimation du MEDAF : implementation des MCQG
On se propose de calibrer le MEDAF `a laide des Moindres Carres Quasi Generalises.
Comme expose plus haut, il est tout dabord necessaire dobtenir une estimation de
la matrice de covariance des residus. On utilise pour cela la matrice des residus issus
des estimations produites par les moindres carres dans la fonction capm.R, fournies
3.2. LES MOD
`
ELES
`
A SYST
`
EME D

EQUATIONS 51
precedement. Il est ensuite necessaire de reecrire le syst`eme dequation sous la forme
presentee plus haut : la nouvelle matrice des variables explicatives doit etre de la forme
M(n m, m2), dans la mesure o` u lon a ici uniquement deux variables explicatives
pour lensemble des equations du syst`emes (la constante et lindex de marche).
On commence donc par reecrire lensemble des matrices de facon appropriee. Avec
lestimation de , on fournit une estimation de :
= I
n
(3.47)
Il ne reste alors plus qu`a estimer la matrice , qui comporte (si tout se passe bien)
n m elements en colonne. Lestimateur

est alors :

= (X
T

1
X)
1
(X
T

1
Y ) (3.48)
La fonction capm.R a ete completee pour prendre en compte lestimation par MCQG : le
code est fournit ci-apr`es. Une mise en garde simpose : le calcul de conduit `a construire
une matrice aux dimensions imposantes. Il est par consequent possible que de nombreux
PC ne puisse pas permettre lestimation par MCQG dun syst`eme dequations o` u m est
grand. Dans notre cas, pour 30 titres et 250 dates, la matrice est de taille 75007500 :
elle comporte donc... 56 250 000 elements ! Il est par consequent necessaire de disposer
dune memoire vive... tr`es importante.
Les resultats retournes par la procedure sont fournis dans la table 3.2.4 et compares `a
ceux obtenus par MCO. Le constat principal est la suivant : les MCQG napporte rien
en comparaison des MCO lors de lestimation du CAPM. Ceci tient `a la matrice de
variance-covariance des erreurs MCO qui est une matrice diagonale presque surement.
Pour tester la valeur dune correlation , on rappelle que la statistique de test est :
T

n 2

_
1
2
(3.49)
Cette statistique suit, sous H
0
: = 0, une loi de student `a n 2 degres de liberte (o` u
n est le nombre de donnees disponibles). On compare donc T

`a 1,96, comme on la fait


pour les tests de Student.
Finalement, ceci ne sert qu`a montrer que dans de nombreux cas pour lesquels la struc-
ture de correlation se reduit aux simples variances, il nest pas necessairement utile de
recourir aux MCG/MCQG : les MCO susent amplement. Pour refaire ces estimations
vous-memes, il sut dajouter `a la fonction capm.R les quelques lignes qui suivent, ainsi
que de modier return, comme cest ici le cas :
# Calcul de lestimateur des MCQG
# Mise en forme des donnees
titres.new=matrix(titres,length(titres),1)
n=nrow(titres)
X.new=matrix(0,length(titres),2*ncol(titres))
52 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
for (i in 1:ncol(titres)){
X.new[(n*(i-1)+1):(i*n),(2*(i-1)+1):(2*i)]=SP
}
# Calcul de la matrice de variance covariance des residus MCO
var.res=var(res)
omega=solve(kronecker(var.res,diag(1,nrow(titres),nrow(titres))))
# Estimation des param`etres
beta.mcqg=t(solve(t(X.new)%*%omega%*%X.new)%*%(t(X.new)%*%omega%*%titres.new))
return(list(theta=theta, R2=R2, test=test, ptest=ptest, beta.mcqg=beta.mcqg))
3.2. LES MOD
`
ELES
`
A SYST
`
EME D

EQUATIONS 53
A
l
c
o
a
A
T
.
T
B
o
e
i
n
g
C
a
t
e
r
p
i
l
a
r
C
h
e
v
r
o
n
C
o
c
a
.
C
o
l
a
D
i
s
n
e
y
D
u
P
o
n
t
E
a
s
t
m
a
n
.
K
o
d
a
k
M
C
O
a
l
p
h
a
0
.
0
0
3
0
2
4
4
3
9
-
0
.
0
1
3
3
0
9
9
3
0
.
0
0
4
9
2
7
2
7
5
-
0
.
0
0
1
9
9
5
6
7
9
-
0
.
0
0
6
3
2
1
1
5
5
-
0
.
0
0
1
5
9
9
2
0
3
0
.
0
0
8
4
8
7
3
0
.
0
0
1
1
5
0
4
7
1
-
0
.
0
1
8
9
9
0
7
5
b
e
t
a
1
.
0
2
9
7
9
1
3
4
2
0
.
7
4
6
9
2
3
0
0
1
.
1
4
3
2
0
1
9
9
2
1
.
0
5
4
3
7
0
3
0
9
0
.
8
4
0
4
6
8
3
5
4
0
.
8
0
2
6
5
5
3
0
8
1
.
1
2
2
6
1
1
2
1
.
0
1
6
8
2
1
7
8
0
0
.
5
9
0
1
3
3
8
1
M
C
Q
G
a
l
p
h
a
0
.
0
0
3
0
2
4
4
3
9
-
0
.
0
1
3
3
0
9
9
3
0
.
0
0
4
9
2
7
2
7
5
-
0
.
0
0
1
9
9
5
6
7
9
-
0
.
0
0
6
3
2
1
1
5
5
-
0
.
0
0
1
5
9
9
2
0
3
0
.
0
0
8
4
8
7
3
0
.
0
0
1
1
5
0
4
7
1
-
0
.
0
1
8
9
9
0
7
5
b
e
t
a
1
.
0
2
9
7
9
1
0
.
7
4
6
9
2
3
1
.
1
4
3
2
0
2
1
.
0
5
4
3
7
0
0
.
8
4
0
4
6
8
4
0
.
8
0
2
6
5
5
3
1
.
1
2
2
6
1
1
1
.
0
1
6
8
2
2
0
.
5
9
0
1
3
3
8
T
a
b
.
3
.
1

E
s
t
i
m
a
t
i
o
n
s
d
u
C
A
P
M
p
a
r
M
C
Q
G
54 CHAPITRE 3. EXTENSIONS DU MOD
`
ELE DE BASE
Chapitre 4
Optimisation de fonctions `a
plusieurs variables par algorithme
On presente dans ce qui suit quelques bases necessaires `a lapproximation numerique de
fonctions de plusieurs variables. Comme on la vu dans la partie consacree aux mod`eles
non lineaires, il arrive (assez souvent) lorsque lon cherche `a maximiser une vraisem-
blance ou des SSR quil nexiste pas de forme analytique pour les estimateurs. Il est
alors necessaire dapproximer ce maximum de fa con numerique, i.e. determiner une va-
leur approchee des param`etres assurant que la vraisemblance soit maximale.
Ne le cachons pas, proposer ce type de chapitre nest pas monnaie courante : rares sont
les cours de statistique `a insister sur de tels aspects computationnels. Je suis intime-
ment convaincu que de trop nombreux econom`etres ne programment pas leurs propres
procedures destimation, et ceci est extrement dommageable. Des generations del`eves
sont formes dans lidee que leconometrie se fait simplement en lancant des procedures
SAS ou pire : Eviews. Il existe un certain illetrisme econometrique parmis beaucoup
del`eves : il est possible de programmer ses propres procedures destimation (notamment
en R) et ce sans faire deorts incroyables. Je propose dans ce qui suit les principales
intuitions necessaires `a la programmation de fonction permettant doptimiser un fonc-
tion de p variables. Bien evidemment, on ne propose ici pas lombre dune preuve des
methodes proposees : il sagit bien plutot dune chapitre de cuisine econometrique. Il
existe de nombreuses references proposant les preuves de ce qui va suivre, mais je doute
quun el`eve de M1 en tire un quelconque prot.
Les dierentes recettes proposees ont ete tirees pelle-melle de : Harvey (1990), Des-
champs (2004) Quinn (2001) et Greene (2002). Notez que ce chapitre du Green est li-
brement telechargeable sur le site de Pearson Education (et en Francais !)
1
. On propose
trois types de methodes : une premi`ere approche intuitive vise `a determiner graphique-
ment (methode de recherche par quadrillage) les fonctions de un ou deux variables. Ce
type de methode laisse ensuite la place `a lensemble des methodes basees sur le gra-
dient : plus grande pente, Newton Raphson, methode du score et BHHH. Ces methodes
se heurtent cependant aux probl`emes liees aux multimodalites du maximum de vrai-
semblance : les methodes de type recuit simule sont bri`evement presentees.
1
www.pearsoneducation.fr
55
56CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
4.1 Pour commencer...
Dans ce qui va suivre, on sinteresse `a un probl`eme tr`es simple : soit {x
1
, x
2
, ..., x
n
}
un echantillon que lon suppose tire dune loi normale de param`etres inconnus. On
souhait determiner les estimateurs du maximum de vraisemblance de ces param`etres.
[Ce probl`eme se traite aisement sans tout ce qui va suivre, mais autant prendre un
probl`eme simple pour introduire des elements plus complexes.] La vraisemblance as-
sociee `a lechantillon est :
L =
n

i=1
1

2
exp
_

1
2
_
x
i
m

_
2
_
(4.1)
La log-vraisemblance associee est naturellement :
lnL =
n
2
ln(2) nln()
1
2
n

i=1
_
x
i
m

_
2
(4.2)
On cherche `a present `a determiner les param`etres = (m, ) qui maximisent cette
expression. La premi`ere idee que lon peut proposer est de representer cette vraisem-
blance en deux dimensions en fonction dun grid ou quadrillage. On determine une
valeur minimum ainsi quune valeur maximum pour lensemble des valeurs que m peut
prendre. On fait de meme pour . Ceci nous fournit alors un damier compose des deux
grid ainsi formes (les deux supports de nos param`etres). Lidee est alors de calculer la
log-vraisemblance associee `a lensemble des points dintersection des lignes composant
le damier. Lalgorithme `a coder pour determiner le maximum de vraisemblance est
alors :
1. Determiner le support des param`etres
2. Pour chaque valeur de ce support (une boucle for par param`etre), on calcule la
log-vraisemblance
3. On entamme ensuite une nouvelle boucle (possibilite de la combiner avec la
precedente) pour determiner le max sur les logvraisemblance pour le support.
4. On recup`ere nalement la valeur des param`etres garantissant cette valeur maxi-
male de la log-vraisemblance.
Cest ce qui est fait par le code suivant (`a ceci pret que la fonction proposee represente
egalement la logvraisemblance en 3D).
grid<-function(x,n){
mu<-seq(1,3,length=n)
sigma<-seq(1,3,length=n)
T=nrow(x);
lnL=matrix(0,n,n);
for (i in 1:n){
for (j in 1:n){
mm2=sum((x-mu[i])^2);
4.1. POUR COMMENCER... 57
lnL[i,j]=-T*log(sigma[j])-1/2*(mm2/(sigma[j]^2));
}}
persp(mu,sigma,lnL, theta = 50, phi = 30, expand = 0.5, col = "lightblue");
max=min(lnL);
for (i in 1:n){
for (j in 1:n){
if(max<lnL[i,j]){max=lnL[i,j]; indexi=i;indexj=j}
}}
mumax=mu[indexi];
sigmamax=sigma[indexj];
return(list(mu=mu,sigma=sigma,lnL=lnL,sol=cbind(max,mumax,sigmamax)))
}
On obtient alors les graphiques presentes en gure 4.1 et 4.2, en utilisant les fonction
persp et contour de R. On en deduit alors lestimation de nos param`etres. Lidee est
essentiellement de se construire une representation mentale de ce quest une vraisem-
blance (ca existe !), avant de passer `a des methodes plus avancees.
m
u
s
i
g
m
a
l
n
L
Logvraisemblance en 3D
Fig. 4.1 Log-vraisemblance en 3D
58CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
1.0 1.5 2.0 2.5 3.0
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Logvraisemblance en courbes de niveau
Fig. 4.2 Log-vraisemblance en 2D
4.2 Les methodes du gradient
Les methodes les plus utilisees en econometrie/statistique sont generalement basees
sur un calcul approche du gradient [matrice des derivees premi`eres de la fonction `a
maximiser]. Il existe dierentes methodes, qui ont chacune leurs qualites et defauts. On
les presente ici de facon tr`es pratique : il sagit de permettre une programmation aisee
de ces methodes de maximisation.
4.2.1 Quelques generalites pour commencer...
Lensemble des methodes ci-apr`es partent toutes plus ou moins du meme point de
depart. On cherche `a determiner le optimal, i.e. lensemble des param`etres qui maxi-
mise une fonction f(). On part dun point initial note
0
, si possible le plus proche des
vraies valeurs de

(les param`etres optimaux). On cherche ensuite `a modier la valeur


des ces param`etres selon une certain pas
t
et une certaine direction
t
, de facon `a
former une suite de valeur
t
qui converge vers la vraie valeur de

. La chane des
t
est alors formee de la fa con suivante :

t+1
=
t
+
t

t
(4.3)
4.2. LES M

ETHODES DU GRADIENT 59
Tout lart de la maximisation vient alors du fait de specier
t
et
t
de facon optimale,
i.e. :
de facon `a ce que lalgorithme aboutisse eectivement `a la valeur optimale (une valeur
approchee du moins),
et de fa con `a ce quon latteigne ce point le plus vite possible, cest `a dire :
1. que lalgorithme necessite le moins de calculs complexes possibles,
2. que lalgorithme consomme le moins de ressource machine possible.
On developpe ici quelques methodes bien connues : methode de la plus grande pente,
methode de Newton Raphson et methode du score par BHHH. Lensemble de ces
methodes sont dires methodes du gradient dans la mesure o` u
t
est systematiquement
de la forme :

t
= W
t
G
t
(4.4)
o` u W
t
est une matrice denie positive et G le gradient de f :
G =
_
f

_
(4.5)
4.2.2 La methode de la plus grande pente
Il sagit de la methode la plus simple. On utilise G, le gradient de f, comme direction :
on a donc W
t
= I et
t
= G
t
. On dirige ainsi lestimateur du cote de la plus grande
pente, i.e. de la plus grande derivee. On montre que le pas optimal est alors de la forme :

t
=
G

G
G

t
H
t
G
t
(4.6)
o` u H est la matrice hessienne, i.e. la matrice des derivees secondes de f. On a donc :
H =

2
f

(4.7)
Ainsi literation de la plus grande pente est alors :

t+1
=
t

G
G

t
H
t
G
t
G
t
(4.8)
En supposant que lon a p param`etres `a estimer, est alors une M(p, 1), G est egalement
une M(p, 1) et H est une M(p, p). On verie donc que les dimensions des matrices cor-
respondent bien.
Lalgorithme est des plus simples `a programmer :
1. Etablir un
0
2. Determiner G
0
et H
0
3. Determiner
t
et
t
60CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
4. Determiner
1
5. Tester

G
2
< . Si oui, stop. Si non, on continue la boucle...
Le code R est fourni ici :
steep<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
check=matrix(0,2,1)
i=1;
while(sum(G^2)>0.0000001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=theta-as.numeric((t(G)%*%G)/(t(G)%*%H%*%G))*G;
i=i+1
}
return(list(theta=theta,check=check))
}
Ici, on a xe `a 0.0000001, de facon arbitraire. On illustre les resultats de cette methode
sur notre probl`eme initial de vraisemblance gaussienne en gure 4.3. On a xe volon-
tairement
0
loin de la vraie valeur des param`etres : on observe une certain nombre de
sauts, meme si on trouve au nal la bonne valeur approchee des param`etres.
Deux mises en gardes cependant :
Le calcul des derivees secondes peut etre long et penible.
Dautre part, si
t
est loin de la vraie valeur du maximum, il est possible que H
t
ne
soit pas denie negative, et que lalgorithme diverge.
4.2.3 La methode de Newton-Raphson
Il sagit dune methode classique doptimisation numerique. Lorigine de la methode
est la suivante : supposons que lon veuille trouver x R
k
qui maximise la fonction
f : R
k
R, qui est deux fois continuement derivable. Il est possible de donner le
developpement de Taylor suivant de la fonction f :
f(x +h) f(x) +G

h +
1
2
h

Hh (4.9)
4.2. LES M

ETHODES DU GRADIENT 61
0 10 20 30 40

2
0
0
0

1
0
0
0
0
1
0
0
0
Index
d
$
c
h
[
1
,

]
Convergence mthode de la plus grande pente
Fig. 4.3 Convergence de la methode de la plus grande pente
avec les notations precedentes pour G et H. Ceci implique naturellement que :
f(x +h)
h
= G+Hh (4.10)
La condition de premier ordre pour un maximum est alors :
0 = G+Hh (4.11)
h = H
1
G (4.12)
En dautres termes, la direction optimale pour optimiser f (retour sur notre probl`eme)
est de choisir
t+1
tel que :

t+1
=
t
H
1
G (4.13)
On notera quavec Newton-Raphson, on a :
t
= 1t. L`a encore, la programmation de
ce type dalgorithme est tr`es simple :
1. Etablir un
0
2. Determiner G
0
et H
0
3. Determiner
t
et
t
4. Determiner
1
5. Tester

G
2
< . Si oui, stop. Si non, on continue la boucle...
newton<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
62CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=theta-solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}
On applique egalement cette methode `a notre probl`eme, en partant encore dun point
eloigne du veritable maximum. L`a, lalgorithme de Newton Raphson diverge et aboutit
`a la solution m = 1182571474 et = 168165462, soit des valeurs abherantes. Ceci
est represente sur la gure 4.4.
5 10 15 20

1
.
2
e
+
0
9

8
.
0
e
+
0
8

4
.
0
e
+
0
8
0
.
0

e
+
0
0
Index
d
$
c
h
[
1
,

]
Convergence mthode de Newton Raphson
Fig. 4.4 Convergence de la methode de Newton Raphson
Cette methode converge cependant dans de nombreux cas. Si la fonction est quadra-
tique, elle atteint loptimum en une iteration depuis nimporte quel point de depart.
Si la fonction est globalement concave, cette methode reste probablement la meilleure.
Elle est particuli`erement adaptee `a lestimation du maximum de vraisemblance.
4.2. LES M

ETHODES DU GRADIENT 63
4.2.4 Methode du score et matrice BHHH
Il nest parfois pas possible ou simplement trop couteux de calculer la matrice hessienne
directement. On la remplace alors par un estimateur, en sappuyant sur la propriete
bien connue :
E
_

2
lnL

_
= E
_
lnL

lnL

_
(4.14)
L`a encore, il peut etre parfois plus simple dapproximer cette esperance `a laide de
lestimateur BHHH (Berndt et al. (1974)) :
H =
n

i=1
G

G (4.15)
Le calcul de
t+1
se fait alors comme suit :

t+1
=
t
+BHHH
1
t
G
t
(4.16)
Lalgorithme est alors :
1. Etablir un
0
2. Determiner G
0
et BHHH
0
3. Determiner
t
et
t
4. Determiner
1
5. Tester

G
2
< . Si oui, stop. Si non, on continue la boucle...
Dans notre cas, le code R peut etre ecrit comme suit :
HHH<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
BHHH=cbind((x-theta[1,1])/(theta[2,1]^2),-1/theta[2,1]+((x-theta[1,1])^2)/(theta[2,1]^3));
H=(t(BHHH)%*%BHHH);
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}
64CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
On presente en gure 4.5 une application de ce code `a notre probl`eme. La convergence
est rapide, et lalgorithme fonction (quasiment) toujours (du moins pour les essais que
jai fait). Mieux, la matrice BHHH
1
fournit `a loptimum une estimation de la variance
des estimateurs (i.e. de linverse de la matrice dinformation de Fisher).
2 4 6 8 10 12 14
0
5
1
0
1
5
Index
d
$
c
h
[
1
,

]
Convergence mthode de scoring BHHH
Fig. 4.5 Convergence de la methode de scoring par BHHH
4.3 Estimations par algorithme aleatoire
Une autre facon de voir les choses est de compter sur le hasard : lorsque le nombre de
param`etres est grand, il nest pas possible dutiliser la methode du quadrillage. Pire,
dans un tel cas, il est rarement aise de sassurer de la globale concavite de f. Lexis-
tence de maximum locaux met en danger les estimations. Une solution peut etre de
lancer des algorithmes de type gradient en partant de dierents points de depart. Il
est egalement possible dutiliser des methodes de type recuit simule, telles que lal-
gorithme de Metropolis-Hastings. Encore une fois, on en fournit ici une presentation
de type cuisine econometrique. Le lecteur soucieux daller plus loin est renvoye aux
references cites dans la partie consacree `a ces methodes.
4.3.1 Faire jouer le hasard
Lidee de ce type de methode est de remplacer un grid search par une recherche dop-
timum aleatoire. Au lieu de construire une suite de param`etre de facon deterministe
(type methode du gradient), on rend cette suite aleatoire. On a donc :

t+1
=
t
+
t
(4.17)
o` u
t
est tire dune loi particuli`ere (uniforme, normale...). A ce stade,

t+1
nest pas
encore le param`etre retenu `a literation t + 1. A chaque iteration, on compare la
log-vraisemblance associee `a
t
et `a

t+1
. On conserve le param`etre qui rend la log-
vraisemblance maximale. Il sagit donc dun algorithme iteratif : il est necessaire de
4.3. ESTIMATIONS PAR ALGORITHME AL

EATOIRE 65
determiner un crit`ere darret pour lalgorithme. Deux possibilites : il est possible de
xer un nombre diterations ex ante, ou de dutiliser un crit`ere de type gradient, comme
il en a ete question dans les methodes precedentes.
Lalgorithme est donc :
1. Choisir
0
2. Tirer autant de que de param`etres
3. Determiner
1
4. Comparer lnL(
0
) et lnL(
1
)
5. Conserver le
i
rendant la log-vraisemblance maximale
6. Recommencer la boucle
Le code R dans le cadre de notre probl`eme est le suivant :
random<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){
for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)/2}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew}
cat(i,"\n")
thetachain=cbind(thetachain,theta)
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}
Applique `a notre probl`eme, ce code fournit une estimation correcte de nos param`etres.
En partant dun point eloigne de maximum, lalgorithme converge cependant lentement.
Cest ce quon observe sur la gure 4.6.
Il est possible de converger plus rapidement, en eectuant des saut dans les param`etres
plus importants. Cependant, ce faisant, on diminue egalement la probabilite de trouver
un point qui maximise la vraisemblance. Notons que lalgorithme salourdit considerablement
en presence dun grand nombre de param`etres. En eet, on travaille `a chaque iteration
autour du voisinage du dernier maximum trouve par lalgorithme : un voisinage `a n
param`etres est bien plus grand quun voisinage `a deux param`etres. Pour nir, il est
possible de coupler les methodes basees sur le gradient (denissant la direction) avec un
algorithme construit pour generer des nombres positifs aleatoirement : on gen`ere alors
une taille de pas aleatoire. Lideal est de generer au debut de lalgorithme des taille de
pas importantes, et de diminuer ces tailles au fur et `a mesure de lalgorithme. Ceci est
dailleurs proche de ce quon appelle la temperature dans lAlgorithme de Metropolis
Hastings.
66CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
0 200 400 600 800 1000
0
2
0
4
0
6
0
8
0
1
0
0
Index
d
$
t
h
e
t
a
c
h
[
1
,

]
Chroniques des estimateurs avec algorithme itratif
Fig. 4.6 Convergence de la methode aleatoire
4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simule
On presente ici rapidement une fa con de resoudre des probl`emes de maximisation en
presence de maxima locaux et dun unique maximum global. On utilise pour cela lal-
gorithme de Metropolis Hastings. Cet algorithme a ete introduit par Metropolis et al.
(1953) pour minimiser un crit`ere sur un espace detats ni de grande taille. Cette
presentation est inspiree de Robert (1996) et Duo (1996).
Soit une fonction f `a maximiser en . La fonction f est souvent appelee fonction
denergie, dans le cadre de cette methode. On part de
0
et on xe un param`etre
T dit de temperature : ce param`etre va determiner la probabilite dechapper `a un
maximum local au fur et `a mesure des iteration. On determine
t+1
de la meme fa con
que precedement :

t+1
=
t
+
t
(4.18)
Ce qui change par rapport `a la precedente methode est le mode de selection entre

t+1
et
t
. On compare la log-vraisemblance associee `a chacun deux :
si lnL(

t+1
) > lnL(
t
), alors on retient
t+1
=

t+1
.
sinon, on ne rejette pas necessairement

t+1
. On laccepte avec une probabilite de
la forme : min(exp(
lnL(

1
)lnL(
0
)
T
), 1). Dans la pratique, on proc`ede `a un tirage
dune loi uniforme, puis on compare ce tirage avec le precedent calcul. Si le tirage est
inferieur, on choisit

t+1
, sinon, on conserve
t
. La temperature T du syst`eme permet
daugmenter cette probabilite daccepter

t+1
. En general, il sagit dune fonction du
nombre diterations de lalgorithme.
Lalgorithme est alors le suivant :
4.3. ESTIMATIONS PAR ALGORITHME AL

EATOIRE 67
1. Determiner
0
2. Tirer et determiner

1
3. Comparaison de la lnL associee aux deux param`etres
4. Si lnL(

1
) > lnL(
0
)
1
=

1
5. Sinon : on tire u selon une loi uniforme.
6. On calcule min(exp(
lnL(

1
)lnL(
0
)
T
), 1) et on compare `a u
7. Si u < min(exp(
lnL(

1
)lnL(
0
)
T
), 1), alors
1
=

1
.
8. Sinon
1
=
0
9. On recommence la boucle...
Le code R peut etre le suivant :
randommh<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){thetanew[2,1]=-1;
while(thetanew[2,1]<0.1){for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)}}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew; cat("-","\n")}
if (logv(x,thetanew)$lnL<logv(x,theta)$lnL){u=runif(1);
if(u<min(exp((logv(x,thetanew)$lnL-logv(x,theta)$lnL))*exp(1+i^(1/100)),1)){theta=thetanew; cat("+","\n");}
}
cat(i,"\n")
thetachain=cbind(thetachain,theta);
plot(thetachain[1,],type="l",col="blue")
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}
Il existe des facons bien plus complexe de controler la temperature du syst`eme que celle
proposee ici qui est deterministe. Graphiquement, sur un probl`eme aussi simple que le
notre, il ny a pas grande dierence entre la precedente methode et celle-ci (cf. gure
4.7).
68CHAPITRE 4. OPTIMISATIONDE FONCTIONS
`
APLUSIEURS VARIABLES PAR ALGORITHME
0 200 400 600 800 1000
1
0
2
0
3
0
4
0
5
0
Index
t
h
e
t
a
c
h
a
i
n
[
1
,

]
Mthode MH pour convergence
Fig. 4.7 Convergence de la methode MH
Chapitre 5
Introduction aux mod`eles de
series temporelles
5.1 Quest-ce quune serie temporelle ?
La plupart des donnes macroeconomiques et nanci`eres prennent la forme de series
temporelles, un jeu dobservations repetees dune meme variable, telle que le PIB ou le
rendement dun titre donne. Dans ce qui suit, on note un serie temporelle de la facon
suivante :
{x
1
, x
2
, ..., x
T
} ou {x
t
}, t = 1, 2, ..., T (5.1)
x
t
est appele variable aleatoire. En principe, il nexiste pas ou peu de dierence entre
les series temporelles et leconometrie, sinon que les variables sont indicees par t plutot
que par i. Par exemple, si y
t
est genere par :
y
t
= x
t
+
t
, E[
t
|x
t
] = 0 (5.2)
alors une estimation par MCO permet dobtenir des estimateurs consistants, de la meme
facon que dans le cas classique (i.e. indexe par i).
Le terme de series temporelles est utilise de fa con interchangeable pour designer `a la
fois un echantillon de donnees {x
t
} et un mod`ele probabiliste pour cet echantillon. Un
exemple de mod`ele probabiliste peut etre le suivant :
x
t
=
t
,
t
i.i.d.N(0, ) (5.3)
Heureusement pour nous, il est tr`es rare que des series temporelles soient i.i.d. (independantes
et identiquement distribuees) : il sagit precisement de ce qui les rend interessantes. Le
PIB en donnee trimestrielle constitue un bon exemple de cette dependance temporelle :
en general, quand le PIB est anormalement haut en t (i.e. au-dessus de sa moyenne
historique ou non-conditionnelle), il y a de tr`es fortes chances pour que la prochaine
valeur de ce meme PIB soit elle aussi anormalement haute.
Lidee est donc de parvenir `a caracteriser la loi jointe de {..., x
t1
, x
t
, x
t+1
, ...}. Evi-
dement, il serait interessant de mettre en oeuvre des methodes non parametriques
69
70CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
(histogrammes, kernels...) an dembrasser toute la dependance existante. Le probl`eme
est que les series temporelles - du moins les series economiques - sont souvent reduites
`a (au plus) 300 `a 400 points. Il nen va pas de meme des series nanci`eres, qui peuvent
etre plus consequente (centaines de milliers de points) : cependant, la forme de la
dependance sur ce type dactif est tout sauf stable. Do` u le recours `a des procedures
parametriques, cadre inniment plus souple, aise et agreable `a manier. L`a encore, le
marketing est essentiel.
Dans ce qui suit, on presente deux classes de mod`eles : lune sattachant `a modeliser la
moyenne conditionnelle des processus (les mod`eles ARMA) et lautre sinteressant `a la
modelisation de la variance conditionnelle (les mod`eles ARCH GARCH).
5.2 Les mod`eles ARMA
5.2.1 Au commencement : le bruit blanc
Le fondement de lensemble des methodes de series temporelles est le bruit blanc (white
noise), que lon note dans ce qui suit
t
. Dans un cas general, on a :

t
i.i.d.N(0,

) (5.4)
Cette formulation a trois implications :
E[
t
] = E[
t
|
t1
,
t2
, ...] = E[
t
|toute linformation disponible en date t 1]
E[
t

tj
] = Cov[
t

tj
] = 0
var[
t
] = var[
t
|
t1
,
t2
, ...] = var[
t
|toute linformation disponible en date t 1] =

Les premi`eres et deuxi`eme proprietes supposent labsence dune correlation serielle


ou dune predictibilite quelconques. La troisi`eme propriete stipule lhomoscedasticite
conditionnelle du processus bruit blanc. Ces proprietes seront peu `a peu relachees au
fur et `a mesure des mod`eles evoques ci-apr`es.
En lui-meme,
t
est un processus plutot ennuyeux : si
t
atteint une valeur surpre-
nament haute,
t+1
ne sera pas necessairement plus eleve. Il ne sagit donc pas dun
processus persistant, alors que la plupart des series chronologiques presentent ce type
de persistance.
Notons neanmoins que la theorie nanci`ere repose neanmoins sur une hypoth`ese proche
du bruit blanc. Le mod`ele de Black-Scholes repose sur lhypoth`ese dune diusion sui-
vant un brownien geometrique pour le prix des actifs. On rappelle que si S
t
est le cours
du sous-jacent dans le mod`ele de Black-Scholes, alors sa diusion est de la forme :
dS
t
= S
t
dt +S
t
dW
t
(5.5)
o` u W
t
est un mouvement brownien standard. En applicant la formule d

Ito, on parvient
`a determiner une expression integrale permettant dobtenir la dynamique des prix :
dlog(S
t
) = (

2
2
)dt +dW
t
(5.6)
5.2. LES MOD
`
ELES ARMA 71
On en deduit aisement :
_
t+1
t
dlog(S
s
) =
_
t+1
t
(

2
2
)ds +
_
t+1
t
dW
s
(5.7)
log
_
S
t+1
S
t
_
=

2
2
+(W
t+1
W
t
) (5.8)
Sachant que (W
t+1
W
t
) N(0, 1) (lintervalle de temps est lunite), on retrouve donc
bien un processus pour les rendements qui est `a peu de choses pret un bruit blanc.
La seule dierence entre les deux processus tient au drift obtenu apr`es application de
la formule d

Ito. Malheureusement, le cours des actifs est rarement bruit blanc, ce qui
ne va pas sans poser quelques probl`emes lors de lutilisation de la formule de Black
et Scholes. Elle constitue neanmoins un benchmark interessant pour levaluation des
options.
La discretisation de la diusion a ete accomplie ici rapidement et sans precautions :
nous reviendrons plus loin sur la discretisation des diusions, en rappellant la methode
dEuler. Cette maigre digression a uniquement pour but de mettre `a jour quelques
liens evidents entre lanalyse des series temporelles ... et la nance. Tournons nous tout
dabord vers lanalyse des premiers mod`eles de series temporelles : les processus ARMA.
5.2.2 Les mod`eles ARMA de base
La plupart du temps, on etudie une classe de mod`eles crees par combinaisons lineaires
de bruits blancs. Ces mod`eles sont les suivants :
AR(1) : x
t
= x
t1
+
t
(5.9)
MA(1) : x
t
=
t1
+
t
(5.10)
AR(p) : x
t
=
1
x
t1
+
2
x
t2
+... +
p
x
tp
+
t
(5.11)
MA(q) : x
t
=
1

t1
+
2

t2
+... +
q

tq
+
t
(5.12)
ARMA(p,q) : x
t
=
1
x
t1
+
2
x
t2
+... +
p
x
tp
+
1

t1
+
2

t2
+... +
q

tq
+
t
(5.13)
Comme on peut le constater, il sagit `a chaque fois dune recette `a base de bruits blancs
passes et de valeurs de depart pour x
t
. Lensemble de ces mod`eles ont une moyenne
nulle, et sont utilises pour representer lecart des series `a leur moyenne. Par exemple,
si une serie {x
t
} a une moyenne egale `a x et suit un processus AR(1), alors :
(x
t
x) = (x
t1
x) +
t
(5.14)
est equivalent `a :
x
t
= (1 ) x +x
t1
+
t
(5.15)
x
t
= c +x
t1
+
t
(5.16)
Ainsi, la constante c absorbe leet moyen. On travaille dans ce qui suit principalement
`a laide de mod`ele excluant la constante : elle est aisement estimable.
72CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5.2.3 Loperateur retard
Il est aise de representer et de manipuler les processus ARMA en utilisant loperateur
retard L. Cet operateur retarde les donnees dune unite de temps :
Lx
t
= x
t1
(5.17)
De fa con plus formelle, loperateur retard est un operateur qui produit une nouvelle serie
de donnee (retardee) `a partir dune serie {x
t
}. A partir de cette denition sommaire,
il est aise de voir que :
L
2
x
t
= LLx
t
= Lx
t1
= x
t2
(5.18)
On a donc :
L
j
x
t
= x
tj
L
j
x
t
= x
t+j
(5.19)
Il est egalement possible de denir des polynomes de loperateur retard. On a alors :
a(L)x
t
= (
0
L
0
+
1
L
1
+
2
L
2
+... +
p
L
p
)x
t
=
0
x
t
+
1
x
t1
+
2
x
t2
+... +
p
x
tp
(5.20)
En utilisant ces notations, il est alors possible de reecrire des mod`eles ARMA comme
suit :
AR(1) : (1 L)x
t
=
t
(5.21)
MA(1) : x
t
= (1 +L)
t
(5.22)
AR(p) : (1
1
L
1

2
L
2
...
p
L
p
)x
t
=
t
(5.23)
MA(q) : x
t
= (1 +
1
L
1
+
2
L
2
+... +
p
L
p
)
t
(5.24)
ARMA(p,q) : (1
1
L
1

2
L
2
...
p
L
p
)x
t
= (1 +
1
L
1
+
2
L
2
+... +
p
L
p
)
t
(5.25)
ou plus simplement :
AR : a(L)x
t
=
t
(5.26)
MA : x
t
= b(L)
t
(5.27)
ARMA(p,q) : a(L)x
t
= b(L)
t
(5.28)
5.2.4 Manipulation les processus ARMA avec L
Un mod`ele ARMA nest pas unique. La loi jointe de {x
0
, x
1
, ..., x
n
} peut etre modelisee
par dierents processus ARMA. Il est cependant important davoir toujours en tete :
une representation `a laide dun polynome retard le plus petit possible est toujours
plus aise ;
les mod`eles AR sont les plus aises `a estimer par MCO;
les MA representent x
t
en fonction de variables independantes : dans de nombreux
cas, ceci facilitera les calculs de variance et de covariance, comme on le verra plus loin.
5.2. LES MOD
`
ELES ARMA 73
5.2.5 AR(1) et MA() par recursion
Il est possible dans de nombreux cas de fournir une representation MA() `a partir
dun AR(1). Ceci se montre aisement comme suit :
x
t
= x
t1
+
t
(5.29)
x
t
= (x
t2
+
t1
) +
t
=
2
x
t2
+
t1
+
t
(5.30)
x
t
=
k
x
tk
+
k1

tk+1
+... +
2

t2
+
t1
+
t
(5.31)
Ainsi, `a la condition que || < 1, on peut ecrire :
x
t
=

j=0

tj
(5.32)
Ainsi un AR(1) peut etre exprime comme MA().
5.2.6 AR(1) et MA() avec L
Les manipulations proposees plus haut sont plus aisees en utilisant le polynome retard :
(1 L)x
t
=
t
(5.33)
x
t
= (1 L)
1

t
(5.34)
Quel sens peut on donner `a (1L)
1
? Une facon dexpliciter les choses est la suivante :
(1 z)
1
= 1 +z +z
2
+z
3
+..., pour |z| < 1 (5.35)
Ceci peut etre prouve en utilisant un developpement de Taylor. Ce developpement, en
supposant que || < 1 implique |L| < 1 sugg`ere la chose suivante :
x
t
= (1 L)
1

t
= (1 +L +
2
L
2
+...)
t
=

j=0

tj
(5.36)
On retrouve donc le resultat precedent. On a suppose que |L| < 1. Tous les processus
ARMA nont pas de representation inversible (on parle dinversibilite des processus ou
de processus inversible) de x
t
en fonction du passe de
t
.
Il est possible detendre les resultats, en montrant sous quelle condition un AR(p) peut
admettre une representation MA(). Les calculs sont cependant un peu plus longs et
fastidieux. Un lecteur interesse lira avec interet Cochrane (2005), page 14 et suivantes.
5.2.7 Resume des manipulations possibles de loperateur retard
Les r`egles de calcul pour L sont les suivantes :
a(L)b(L) = (a
0
+a
1
L +...)(b
0
+b
1
L +...) = a
0
b
0
+ (a
0
b
1
+b
0
a
1
)L +...
a(L)b(L) = b(L)a(L)
a(L)
2
= a(L)a(L)
Il existe dautres r`egles de calculs, developpee dans Cochrane (2005), page 17. [Les
ajouter un jour ?]
74CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5.2.8 La fonction dautocorrelation
5.2.8.1 Denitions
La fonction dautocovariance dune serie x
t
est denie par :

j
= cov(x
t
, x
tj
) = E[x
t
E[x
t
]][x
tj
E[x
tj
]] (5.37)
Dans un cas o` u E[x
t
] = 0, t, alors
j
= cov(x
t
, x
tj
) = E[x
t
x
tj
]. On a de plus

0
= V[x
t
].
On en deduit aisement lexpression du coecient de correlation :

j
=

j

0
=

j
V[x
t
]
(5.38)
Remarque 1 (Autocorrelation et ARMA). Les processus ARMA sont construits de
facon `a fournir une modelisation de la loi jointe de {x
1
, ...x
n
}. Les fonctions dau-
tocorrelation et dautocovariance sont un moyen interessant de caracteriser cette loi
jointe : la correlation entre x
t
et x
tj
est un moyen interessant (mais imparfait) de
mesurer notamment la persistance dune serie. Si on observe une valeur importante
pour x
tj
, on sera capable de dire si la valeur en x
t
sera plus ou moins importante elle
aussi.
5.2.8.2 ACF des mod`eles MA(q)
5.2.8.2.1 Bruit blanc Un bruit blanc
t
iidN(0,
2

) a les caracteristiques sui-


vantes :

0
=
2

(5.39)

j
= 0, j = 0 (5.40)

0
= 1 (5.41)

j
= 0, j = 0 (5.42)
5.2.8.2.2 MA(1) Le mod`ele secrit : x
t
=
t1
+
t
. On a les proprietes suivantes :

0
= V[x
t
] = V[
t
+
t1
] = (1 +
2
)
2

(5.43)

1
= E[x
t
x
t1
] = E[(
t
+
t1
)(
t1
+
t2
)] =
2

(5.44)

2
= E[x
t
x
t2
] = E[(
t
+
t1
)(
t2
+
t3
)] = 0 (5.45)

j
= 0, j 2 (5.46)
Lautocorrelation se deduit des precedents calculs :

1
=

1 +
2
(5.47)

i
= 0, i > 1 (5.48)
On observe ainsi que les autocorrelations dun MA(1) sannulent `a partir de lordre 1.
Cest ce quon observe sur les gure 5.2. Notons que la gure 5.1 presente lallure dun
processus bruit blanc, MA(1), AR(1) et ARMA(1,1).
5.2. LES MOD
`
ELES ARMA 75
Le cas dun MA(2) se traite aisement de la meme fa con. Le mod`ele secrit :
x
t
=
1

t1
+
2

t2
+
t
(5.49)
Comme precedement, les covariances se determinent comme suit :

0
= V[x
t
] = V[
1

t1
+
2

t2
+
t
] = (1 +
2
1
+
2
2
)
2

(5.50)

1
= E[x
t
x
t1
] = E[(
t
+
1

t1
+
2

t2
)(
t1
+
1

t2
+
2

t3
)] = (
1
+
1

2
)
2

(5.51)

2
= E[x
t
x
t2
] = E[(
t
+
1

t1
+
2

t2
)(
t2
+
1

t3
+
2

t4
)] =
2

(5.52)

i
= 0, i > 3 (5.53)
On en deduit la fonction dautocorrelation suivante :

0
= 1 (5.54)

1
=

1
+
1

2
1 +
2
1
+
2
2
(5.55)

2
=

2
1 +
2
1
+
2
2
(5.56)

i
= 0, i > 2 (5.57)
On deduit aisement les autocorrelations dun processus MA(q). Le mod`ele secrit :
x
t
= (L)
t
=
q

i=0
(
i
L
i
)
t
(5.58)
On a alors :

0
= V[x
t
] = V
_
q

i=0
(
i
L
i
)
t
_
=
_
q

i=0

2
j
_

(5.59)

k
= E[x
t
x
tk
] = E
_
q

i=0
(
i
L
i
)
t
q

i=0
(
i
L
i
)
tk
_
=
q

i=0

i+k

, k q (5.60)

k
= 0, k > q (5.61)
Remarque 2. Il y a une le con importante `a retenir de tout ceci : les calculs de co-
variance pour les processus MA est simple dans la mesure o` u les termes en E[
j

k
]
deviennent rapidement nuls quand j et k sont eloignes. Il nen va pas de meme des
processus AR.
5.2.9 ACF des mod`eles AR(p)
Il existe deux facons de calculer lACF dun processus AR(p). La premi`ere dentre elles
est de travailler sur la representation MA() dun processus AR(p). En utilisant les
formules obtenues plus haut, il est aise de montrer quavec un mod`ele de la forme :
(1 L)x
t
=
t
x
t
= (1 L)
1

t
=

i=0

ti
(5.62)
76CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
On obtient des covariances de la forme :

0
=
_

i=0

2i
_

=
1
1
2

2
x
;
0
= 1 (5.63)

1
=
_

i=0

i+1
_

=
_

i=0

i
_

=

1
2

2
x
;
1
= (5.64)
En continuant ainsi, on trouve :

k
=

k
1
2

,
k
=
k
(5.65)
Lautre facon de retrouver ces resultats est de travailler directement sur x
t
, sans utiliser
lastuce de linversion. Pour le meme mod`ele AR(1) que precedement, on a :

1
= E[x
t
x
t1
] = E[(x
t1
+
t
)x
t1
] =
2
x
, = (5.66)

2
= E[x
t
x
t2
] = E[(
2
x
t2
+
t1
+
t
)x
t1
] =
2

2
x
, =
2
(5.67)
. . . (5.68)

k
= E[x
t
x
tk
] = E[(
k
x
tk
+
t
+. . .)x
tk
] =
k

2
x
, =
k
(5.69)
(5.70)
Ainsi lACF dun mod`ele AR est general un melange entre une sinusoide et une expo-
nentielle, selon les signes de coecient du mod`ele AR. Si les signes sont negatifs, les
autocorrelations paires seront positives, et celles impaires seront negatives. Quoi quil
arrive, || < 1, do` u lim
k0

k
= 0. Une decroissance relativement lente vers zero se
traduit par un convergence en forme dexponentiele de lACF vers 0.
5.2.10 La fonction dautocorrelation partielle
Denition 5.2.1 (Autocorrelation partielle). Lautocorrelation partielle dordre k designe
la correlation entre x
t
et x
tk
obtenue lorsque linuence des variables x
tki
, i < k a
ete retiree.
Une denition plus formelle est la suivante :
Denition 5.2.2 (Denition plus formelle). Lautocorrelation partielle dordre k dun
processus (x
t
)
tZ
, de moyenne m, notee p(k) est denie par le dernier coecient de la
projection lineaire de x
t+1
sur ces k precedentes valeurs. k Z :
x
t+1
m = c
1
(x
t
m) +c
2
(x
t1
m) +... +c
k1
(x
tk
m) +p(k)(x
tk+1
m)
(5.71)
ou de facon equivalente par :
_
_
_
_
_
c
1
c
2
.
.
.
p
k
_
_
_
_
_
=
_
_
_
_
_

0

1
. . .
k1

1

0
. . .
k2
.
.
.
.
.
.
.
.
.
.
.
.

k1

k2
. . .
0
_
_
_
_
_
1
_
_
_
_
_

2
.
.
.

k
_
_
_
_
_
=
_
_
_
_
_
1
1
. . .
k1

1
1 . . .
k2
.
.
.
.
.
.
.
.
.
.
.
.

k1

k2
. . . 1
_
_
_
_
_
1
_
_
_
_
_

2
.
.
.

k
_
_
_
_
_
(5.72)
5.2. LES MOD
`
ELES ARMA 77
Ceci tient donc pour m = 0. Dans un tel cas, p(k) [1; 1]. On ajoute la propriete
suivante :
Proposition 5.2.1. De facon generale, la fonction dautocorrelation partielle dun
processus (x
t
)
tZ
satisfait la relation :
p(k) =
|P

k
|
|P
k
|
(5.73)
avec
P
k
=
_
_
_
_
_
1
1
. . .
k1

1
1 . . .
k2
.
.
.
.
.
.
.
.
.
.
.
.

k1
. . . . . . 1
_
_
_
_
_
(5.74)
et
P
k
=
_
_
_
_
_
1
1
. . .
1

1
1 . . .
2
.
.
.
.
.
.
.
.
.
.
.
.

k1
. . . . . .
k
_
_
_
_
_
(5.75)
Lidee est donc de caracteriser la dependance entre les dierents retards en eliminant
limpact `a chaque fois des retards intermediaires. La solution la plus simple consiste a
utilisee la denition avancee plus haut utilisant les moindres carres de fa con iterative,
pour les dierents ordres de lautocorrelation partielle. On en deduit (intuitivement)
que la PACF dun AR(p) devrait etre egale `a 0 pour les autocorrelations partielles dun
ordre superieur `a p.
Sans en faire la preuve formelle, on retrouve (theoriquement) dans le cas dun processus
MA(q) un fonction dautocorrelation partielle qui est un melange dune fonction expo-
nentielle et dune sinusode. Il sagit donc dun cas symetrique de lACF pour les AR(p).
5.2.11 Estimation et test des ACF et PACF
Il est essentiel de pouvoir disposer dune ACF et dune PACF estimees correctement.
On fournit ici lestimateur empirique ainsi que la region de conance pour une hy-
poth`ese nulle de nullite de la correlation et de la correlation partielle.
5.2.11.1 Fonction dAutocorrelation
Lestimation dune fonction dautocorrelation par la biais de son estimateur empirique,
grace `a la loi des grands nombres. Pour un processus non centre, de moyenne m, on a :
Cov[x
t
, x
tk
] = E[(x
t
m)(x
tk
m)] (5.76)
78CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Son estimateur est alors :

Cov[x
t
, x
tk
] =
1
N
N

t=k+1
(x
t
x)(x
tk
x) (5.77)
o` u x est la moyenne empirique. Lestimateur de lautocorrelation
k
est alors :

k
=

Cov[x
t
, x
tk
]

Cov[x
t
, x
t
]
(5.78)
Dapr`es le theor`eme central limite, la variable centree t

k
suit une loi normale centree
reduite :
t

k
=

k

k
_
V[
k
]
L
N(O, 1) (5.79)
o` u V[
k
] designe la variance de lestimateur. Elle est egale `a :
V[
k
] =
1
N k
K

i=K

2
i
, avec K < k (5.80)
Par symetrie de la fonction dautocorrelation, on a :
V[
k
] =
1
N k
_
1 + 2
K

i=1

2
i
_
, avec K < k (5.81)
On en deduit aisement la region de conance pour une hypoth`ese nulle
k
= 0 :
IC = [1.96
_
V[
k
]] (5.82)
On fournit un exemple de code R permettant de calculer cette fonction dautocorrelation
ainsi que les bornes du test :
autocorrel<-function(x,lag,series){
# This function computes the ACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
#Computation of the correlations from lag 1 to lag "lag"
correl=t(data[,1])%*%data[,1]
for (i in 1:lag){
correl=cbind(correl,t(data[,1])%*%data[,(i+1)])
}
5.2. LES MOD
`
ELES ARMA 79
correl=t(as.matrix(correl))
#Normalization to obtain the ACF
correl=correl/correl[1,1]
#Computation of the variance of the estimates
variance=matrix(1/N,nrow(correl),1)
for (i in 1:lag){variance[(i+1),1]=1/N*(1+2*sum(correl[1:i,1]^2))}
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*sqrt(variance);
intervalledown=-1.96*sqrt(variance);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}
5.2.11.2 Fonction dautocorrelation partielle
On a susament develope delements relatifs `a lestimation des PACF. Pour determiner
la variance de lestimateur, plusieurs strategies sont possibles. Dans le cas dun AR(p),
les coecients p(k), k > p sont distribues selon une loi normale de moyenne nulle et de
variance :
V[ p(k)] =
1
T
, k > p (5.83)
Une autre fa con de traiter le probl`eme consiste `a determiner de fa con iterative les va-
riances des estimateurs MCO permettant dobtenir les coecients de correlation par-
tielle. La methode fonctionne quel que soit le mod`ele sous-jacent. Cest qui est propose
dans le code suivant :
pautocorrel<-function(x,lag,series){
# This function computes the PACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
80CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
#Computation of the partial autocorrelations from lag 1 to lag "lag"
correl=matrix(0,lag,1)
var1=matrix(0,lag,1)
for (i in 1:lag){
X=data[,2:(i+1)]; Y=data[,1];
coeff=solve(t(X)%*%X)%*%(t(X)%*%Y)
res=sqrt(var(Y-X%*%coeff));
correl[i,1]=coeff[nrow(coeff),1];
var2=solve(t(X)%*%X);
var1[i,1]=res*sqrt(var2[nrow(var2),ncol(var2)])
}
correl=t(as.matrix(correl))
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*(var1);
intervalledown=-1.96*(var1);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
correl=t(correl)
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}
5.2.12 Stationnarite des processus et theor`eme de Wold
Avant de passer `a lestimation des processus ARMA, il est important de revenir sur
certains aspects de ces processus. Il na ete question jusquici que dune presentation
relativement intuitive des processus ARMA, sans avoir souligne le fait que ces pro-
cessus sont stationnaires par hypoth`ese. On distingue generalement deux formes de
stationnarite : forte (stricte) ou faible. Soit x
t
un processus temporel aleatoire :
Denition 5.2.3 (Stationnarite stricte). Le processus x
t
est dit strictement station-
naire si quel que soit t
i
et t
i
+h la suite {x
t
1
, ..., x
t
n
} a la meme loi que {x
t
1
+h
, ..., x
t
n
+h
}, h.
Dans la pratique, on se limite generalement `a supposer la stationnarite faible, qui se
denit comme suit :
Denition 5.2.4 (Stationnarite faible). Le processus x
t
est dit stationnaire au second
ordre si les trois conditions suivantes sont satisfaites :
t N, E[x
2
t
] < (5.84)
t N, E[x
t
] = m (5.85)
(t, h) Z
2
, Cov[(x
t+h
m)(x
t
m)] =
h
, independant de t (5.86)
5.2. LES MOD
`
ELES ARMA 81
Lidee derri`ere tout ceci est de travailler sur des processus dont la moyenne et la variance
sont constante au cours du temps. Notez que si la loi du processus est gaussienne, il y
a equivalence entre les deux denitions de la stationnarite. Detaillons les conditions :
la premi`ere de ces conditions suppose lexistence ou la convergence du moment dordre
2 (la variance pour un processus centre) ; les deux conditions suivantes supposent que
lesperance et la covariance du processus sont constantes au cours du temps. Il ny a
donc ni rupture dans la moyenne, ni rupture dans la structure de dependance au cours
du temps.
Dernier point dans cet errata theorique, le theor`eme de Wold est le theor`eme fonda-
mental de lanalyse des series temporelles stationnaires.
Theor`eme 5.2.1 (Theor`eme de Wold). Tout processus stationnaire dordre deux (x
t
)
peut etre represente sous la forme :
x
t
=

j=0

tj
+
t
(5.87)
o` u les param`etres
j
satisfont
0
= 1,
j
Rj N

et

j=0

2
j
< et o` u
t
est un
bruit blanc i.i.d..
On dit que la somme des chocs passes correspond `a la composante lineaire stochastique
de x
t
. Le terme
t
designe la composante lineaire deterministe telle que Cov[
t
,
t
] =
0, j Z. Il sagit par consequent dune formalisation de ce qui a ete dej`a ete dit sur
la transformation dun processus AR en un MA(). On nen fournit pas la preuve.
82CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
2 1 0 1 2
B
r
u
i
t

b
l
a
n
c
I
n
d
e
x
w n
M
A
(
1
)
T
i
m
e
m a
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3 1 0 1 2 3
A
R
(
1
)
T
i
m
e
a r
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
4 2 0 2 4 6
A
R
M
A
(
1
,
1
)
T
i
m
e
a r m a
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
4 2 0 2 4
F
i
g
.
5
.
1

C
h
r
o
n
i
q
u
e
s
d
e
p
r
o
c
e
s
s
u
s
5.2. LES MOD
`
ELES ARMA 83
0
5
1
0
1
5
2
0
0 . 0 0 . 4 0 . 8
L
a
g
A C F
B
r
u
i
t

b
l
a
n
c
0
5
1
0
1
5
2
0
0 . 2 0 . 2 0 . 6 1 . 0
L
a
g
A C F
M
A
(
1
)
0
5
1
0
1
5
2
0
0 . 0 0 . 4 0 . 8
L
a
g
A C F
A
R
(
1
)
0
5
1
0
1
5
2
0
0 . 0 0 . 4 0 . 8
L
a
g
A C F
A
R
M
A
(
1
,
1
)
F
i
g
.
5
.
2

C
h
r
o
n
i
q
u
e
s
d
e
p
r
o
c
e
s
s
u
s
84CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5
1
0
1
5
2
0
0 . 1 0 0 . 0 0 0 . 1 0
L
a
g
P a r t i a l A C F
B
r
u
i
t

b
l
a
n
c
5
1
0
1
5
2
0
0 . 3 0 . 1 0 . 0 0 . 1
L
a
g
P a r t i a l A C F
M
A
(
1
)
5
1
0
1
5
2
0
0 . 0 0 . 2 0 . 4 0 . 6 0 . 8
L
a
g
P a r t i a l A C F
A
R
(
1
)
5
1
0
1
5
2
0
0 . 2 0 . 2 0 . 4 0 . 6 0 . 8
L
a
g
P a r t i a l A C F
A
R
M
A
(
1
,
1
)
F
i
g
.
5
.
3

C
h
r
o
n
i
q
u
e
s
d
e
p
r
o
c
e
s
s
u
s
5.2. LES MOD
`
ELES ARMA 85
5.2.13 Estimation des processus ARMA
Il existe dierentes methodes pour estimer les processus ARMA. Les processus AR
sestiment notamment par la methode de Yule Walker, qui nest pas presentee ici :
la methode devient tr`es vite complexe lorsque lon ajoute une composante MA dans
le processus. On se bornera `a presenter lestimation par maximum de vraisemblance
(conditionnelle) des processus AR,MA et enn ARMA.
Lestimation par maximum de vraisemblance requiert un background theorique qui
nest pas presente ici : la preuve de lecience des estimateurs du maximum de vraisem-
blance est notamment developpe dans Harvey (1990)[chapitre 3]. Une autre reference
bien connue sur la question est Hamilton (1994). Le lecteur soucieux de revenir sur le
detail de ces preuves sy reportera.
On presente rapidement les principes generaux de lestimation par maximum de vrai-
semblance des mod`eles MA, AR et ARMA.
5.2.13.1 Estimation dun AR(1)
Lestimation par maximum de vraisemblance dans le cas dun AR(1) est leg`erement
plus complexe que dans le cas dun mod`ele lineaire gaussien, tel quil en a ete question
dans le chapitre 2 de cet opus. Ceci tient au fait que le processus AR(1) non conditionnel
nest pas i.i.d. On rappelle quun mod`ele AR(1) est de la forme :
x
t
= x
t1
+
t
,
t
N(0,

) (5.88)
Il est aise de montrer que les moments conditionnels et non-conditionnels ne coincident
pas, notamment lorsque le processus x
t
nest pas centre. Soit le mod`ele AR(1) suivant :
x
t
= +x
t1
+
t
,
t
N(0,

) (5.89)
Il sut pour montrer cette divergence de calculer lesperance conditionnelle et non
conditionnelle et de faire de meme pour la variance. Pour determiner lesperance non
conditionnelle, il est utile de recourir `a la representation MA() du processus AR(1).
Ceci est possible si || < 1. On a alors :
x
t
= (1 L)
1
( +
t
) (5.90)
= +
t
+( +
t1
) +
2
( +
t2
) +... (5.91)
=

i=0

i
+

i=0

ti
(5.92)
=

1
+

i=0

ti
(5.93)
En prenant lesperance de la precedente expression, on obtient :
E[x
t
] =

1
(5.94)
86CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Dans le cas o` u le processus est centre, on obtient :
E[x
t
] = 0 (5.95)
ce qui nest bien sur pas surprenant. Lesperance conditionnelle `a x
t1
est dierente de
cette derni`ere expression :
E[x
t
|x
t1
] = x
t1
= 0 (5.96)
Ainsi conditionellement `a x
t1
, lesperance dun AR(1) est dierente de lesperance non
conditionnelle. Il est possible de derouler les memes calculs pour la variance condition-
nelle et non conditionnelle :
V[x
t
] = V[

1
+

i=0

ti
] (5.97)
=

2

1
2
(5.98)
V[x
t
|x
t1
] = V[ +x
t1
+
t
] (5.99)
=
2

(5.100)
L`a encore, les moments conditionnels et non conditionnels ne coincident pas. Lestima-
tion de ce type de processus necessite de travailler non plus sur la vraisemblance mais
sur la vraisemblance non-conditionnelle. Harvey (1990) en rappelle le principe general :
dans le cas de la vraisemblance non conditionnelle avec observations i.i.d., il est pos-
sible decrire la loi jointe du processus comme le produit des lois pour chacune des
observations, du fait de la propriete dindependance des observations. Ici, on travaille
en relachant cette hypoth`ese. On utilise alors le fait que conditionnellement `a lobser-
vation du passe, les observations sont i.i.d.. Pour se faire, on applique la r`egle de Bayes
rappelee dans le chapitre 1, de fa con `a reproduire la decomposition proposee dans le
cas de la vraisemblance. Dans le cas o` u lon dispose de trois observations {x
1
, x
2
, x
3
} il
est alors possible decrire :
f(x
1
, x
2
, x
3
) = f(x
1
)f(x
2
|x
1
)f(x
3
|x
2
, x
1
) (5.101)
On en deduit alors la logvraisemblance :
lnL = ln(f(x
1
)) +ln(f(x
2
|x
1
)) +ln(f(x
3
|x
2
, x
1
)) (5.102)
Il est alors possible destimer les param`etres en utilisant les methodes proposees au
chapitre 4. On presente la methode dans le cadre dun mod`ele AR(1). Si
t
N(0,
2
),
alors, en utilisant les calculs precedents des moments conditionnels, le processus x
t
=
x
t1
+
t
suit une loi normale desperance conditionnelle x
t1
et de variance
2

. Sa
log-vraisemblance secrit alors comme suit :
lnL(x, ,
2

) =
n 1
2
ln(2) (n 1)ln()
1
2
2

t=2
(x
t
x
t1
)
2
+ln(f(x
1
))
(5.103)
5.2. LES MOD
`
ELES ARMA 87
Dans la plupart des cas, on neglige le terme ln(f(x
1
)) : dans le cas dechantillons
importants, son inuence est minime. Ceci peut se reecrire sous forme concentree et
matricielle :
lnL(x, ,
2

) = (n 1)ln(

)
1
2
2

(X
t
X
t1
)

(X
t
X
t1
) (5.104)
o` u X
t
et X
t1
sont des matrices M(n 1 1) contenant les observations du processus
(x
t
)
tZ
. Les equations normales sont alors :
lnL

=
1

t1
(X
t
X
t1
) = 0 (5.105)
lnL

=
n 1

+
1

(X
t
X
t1
)

(X
t
X
t1
) = 0 (5.106)
(5.107)
Ce syst`eme admet la solution suivante :
= (X

t1
X
t1
)
1
X

t1
X
t
(5.108)

=
_
1
n 1

t
(5.109)
On retrouve donc exactement la meme solution que dans le cas des MCO. Tout ce qui
a ete dit precedement sur ces estimateurs est donc valable : on ny reviendra pas.
5.2.13.2 Estimation dun AR(p)
La generalisation au cas dun AR(p) se fait aisement une fois la precedente etape en
tete. Soit le processus AR(p) suivant :
x
t
=
p

i=1

i
x
ti
+
t
(5.110)
utilisant les memes conditions que celles evoquees precedement. Conditionnellement `a
linformation passee, la loi de ce processus est la suivante :
x
t
|x
t1
, x
t2
, ..., x
tp
N(
p

i=1

i
x
ti
,
2

) (5.111)
Tout ceci se reecrit naturellement sous forme matricielle :
x
t
= X
t1:tp

+
t
(5.112)
x
t
|X
t1:tp
N(X
t1:tp

,
2

) (5.113)
o` u est la matrice M(1 p) des p coecients `a estimer et X
t1:tp
est la matrice
M(n p p) des series de donnees retardees.
Il est alors aise de determiner la log-vraisemblance conditionnelle et de retrouver les
estimateurs du maximum de vraisemblance, qui, l`a encore, coincident avec ceux des
MCO :
lnL(x, ,
2

) = (n 1)ln(

)
1
2
2

(X
t
X
t1:tp

(X
t
X
t1:tp

) (5.114)
88CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Les equations normales sont alors :
lnL

=
1

X
t1:tp

(X
t
X
t1:tp

) = 0 (5.115)
lnL

=
n 1

+
1

(X
t
X
t1:tp

(X
t
X
t1:tp

) = 0 (5.116)
(5.117)
Les estimateurs sont alors :
= (X
t1:tp

X
t1:tp
)
1
X
t1:tp

X
t
(5.118)

=
_
1
n 1

t
(5.119)
On retrouve donc bien les estimateurs MCO du mod`ele. Les processus AR sont ainsi
tr`es simple `a estimer : il sut de regresser x
t
sur son passe par MCO pour obtenir des
estimateurs sans biais et ecaces. Lestimation des MA est bien plus complexe comme
nous allons le voir.
5.2.13.3 Estimation dun MA(1)
La diculte de lestimation dun MA(1) tient au fait que lon observe pas directement
les residus passes : il nest pas possible de regresser x
t
sur
t1
car ce dernier nest pas
directement observe. Il est alors necessaire de proceder de fa con iterative pour parvenir
`a ecrire la vraisemblance. Soit le processus MA(1) suivant :
x
t
= x
t1
+
t
,
t
N(0,
2

) (5.120)
On commence comme precedement par constater que les moments dordre 1 et 2 condi-
tionnels et non conditionnels ne sont pas les memes :
E[x
t
|
t1
] =
t1
(5.121)
E[x
t
] = 0 (5.122)
V[x
t
|
t1
] =
2

(5.123)
V[x
t
] =
2

(1 +
2
) (5.124)
L`a encore les moments conditionnels et non conditionnels ne coincident pas. On rai-
sonnera l`a encore en terme de vraisemblance conditionnelle. On sait que :
x
t
|
t1
N(
t1
,
2

) (5.125)
La vraisemblance conditionnelle secrit donc :
lnL(x, ,
2

) =
n 1
2
ln(2) (n 1)ln(
2

)
1
2
2

t=2
(x
t

t1
)
2
+ln(f(x
1
))
(5.126)
La encore, on ne tient pas compte de ln(f(x
1
)). Le probl`eme est alors le suivant : il
nest pas possible de calculer la vraisemblance directement. Il est necessaire pour un
theta

donne de calculer les residus de facon recursive. Lalgorithme serait par exemple :
5.2. LES MOD
`
ELES ARMA 89
1. On connait x
2
. On est alors en mesure de calculer
2
= x
1

1
. Il sut de
donner une valeur de depart `a
1
pour pouvoir debuter lalgorithme. La solution
generalement consideree est de choisir
1
= E[
t
] = 0
2
= x
2
.
2. Une fois que lon connait epsilon
2
, il est possible de calculer
3
= x
3

2
...
3. Et ainsi de suite : on parvient `a determiner lensemble des valeurs de
t
pour
xe ex ante.
On comprend bien quil nest pas possible dappliquer une methode standard (i.e. MCO)
destimation. Il est necessaire davoir recours aux methodes presentees au chapitre 4.
On presente `a titre dexemple un code permettant de simuler un processus MA(1), ainsi
quun code permettant destimer les param`etres de ce mod`ele.
simul.ma<-function(n,theta){
epsilon=as.matrix(rnorm(n));
x=matrix(0,n,1);
for (i in 2:n){
x[i,1]=theta*epsilon[(i-1),1]+epsilon[i,1]
}
x[1,1]=epsilon[1,1]
return(list(x=x))
}
estim.ma<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
epsilon=matrix(0,n,1);
while(sum(G^2)>0.0001){
for (i in 2:n){epsilon[i,1]=x[i,1]-theta[1,1]*epsilon[i-1,1]}
BHHH=cbind((1/theta[2,1])*epsilon[1:(n-1),1]*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])
,-1/theta[2,1]+(1/theta[2,1]^3)*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
plot(check[1,],type="l",col="blue",ylim=c(min(check),max(check)))
lines(check[2,],col="red")
return(list(theta=theta,check=check))
}
Lutilisation de ce code permet dobtenir des estimations de processus MA(1). Le gra-
phique 5.2.13.3 presente la chronique dun processus MA(1) simule. Le graphe 5.2.13.3
represente les ACF et PACF de ce processus, en utilisant le code fournit plus haut.
90CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Enn, la gure 5.2.13.3 fournit la trajectoire pour dierents points de depart des pa-
ram`etres estimes.
5 10 15 20

0
.
1
5

0
.
1
0

0
.
0
5
0
.
0
0
0
.
0
5
Partial Autocorrelation Function
Lag
M
A
(
1
)

s
i
m
u
l

5 10 15 20

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Autocorrelation Function
Lag
M
A
(
1
)

s
i
m
u
l

Fig. 5.4 ACF et PACF du processus MA(1) simule


5.2. LES MOD
`
ELES ARMA 91
0
2
0
0
4
0
0
6
0
0
8
0
0
1
0
0
0
3 2 1 0 1 2 3
I
n
d
e
x
x
M
A
(
1
)

s
i
m
u
l

F
i
g
.
5
.
5

T
r
a
j
e
c
t
o
i
r
e
d

u
n
p
r
o
c
e
s
s
u
s
M
A
(
1
)
92CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5
1
0
1
5
0 . 2 0 . 2 0 . 6 1 . 0
I
n
d
e
x
c h e c k [ 1 , ]
0
5
0
1
0
0
1
5
0
0 . 5 0 . 0 0 . 5 1 . 0
I
n
d
e
x
c h e c k [ 1 , ]
0
1
0
2
0
3
0
4
0
5
0
6
0
0 . 0 0 . 5 1 . 0 1 . 5 2 . 0
I
n
d
e
x
c h e c k [ 1 , ]
1
2
3
4
5
6
7
0 . 2 0 . 2 0 . 6 1 . 0
I
n
d
e
x
c h e c k [ 1 , ]
F
i
g
.
5
.
6

t
r
a
j
e
c
t
o
i
r
e
d
e
s
e
s
t
i
m
a
t
e
u
r
s
p
o
u
r
d
i

e
r
e
n
t
e
s
v
a
l
e
u
r
s
d
e
d
e
p
a
r
t
5.2. LES MOD
`
ELES ARMA 93
5.2.13.4 Estimation dun MA(q)
On generalise ce qui vient detre dit dans le cas dun MA(1) au cas dun MA(q), comme
on lai fait pour les AR(p). Le mod`ele secrit :
x
t
=
q

i=1

ti
+
t
,
t
N(0,
2

) (5.127)
L`a encore les
t
ne sont pas observables : il est necessaire de proceder `a leur estimation
`a = {
1
, ...,
p
} xe. Il est alors possible decrire la vraisemblance associee `a ainsi
quaux observations. On determine les
t
comme suit :
1. On suppose que les
i
pour i = {1, ..., q} sont nuls (esperance du processus bruit
blanc).
2. On determine alors
q+1
= x
q+1
.
3. On peut alors determiner
q+2
= x
q+2

q+1
.
4. Puis
q+3
= x
q+3

q+2
+
2

q+1
.
5. On poursuit ainsi jusqu`a
2q+1
= x
2q+1

q
i=1

i
2q i.
6. On poursuit ensuit lalgorithme jusqu`a ce quon lon obtenue lintegralite de la
chronique des
t
en utilisant la formule :
t
= x
t

q
i=1

ti
.
Une fois ceci fait, il est aise de calculer la vraisemblance puis de la maximiser en utilisant
les methodes proposees au chapitre 4. La loi conditionnelle de x
t
est :
x
t
|
t1
, ...,
tq
N(
q

i=1

ti
,
2

) (5.128)
On en deduit la vraisemblance du mod`ele :
L(, x) =
n

i=q+1
1

exp{
1
2
(x
t

q
i=1

ti
)
2

} (5.129)
La log-vraisemblance est alors :
lnL(, x) =
n q
2
ln(2) (n q)ln()
1
2
n

i=q+1
_
(x
t

q
i=1

ti
)
2

_
(5.130)
On en deduit alors les equations normales :
lnL

k
=
n

i=q+1

tk
(x
t

q
i=1

ti
)

(5.131)
lnL

=
n q

+
1

i=q+1
_
x
t

i=1

ti
_
2
(5.132)
L`a encore, pour maximiser la vraisemblance, il sut de mettre en oeuvre lune des
methodes presentees au cours du chapitre 4. On pref`erera naturellement utiliser des
methodes de type scoring qui ont le bon gout de converger `a tous les coups (en theorie).
Lutilisation de la matrice BHHH simplie considerablement le calcul de la matrice
dinformation de Fisher.
94CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Remarque 3 (Esperance et variances conditionnelles). On remarque quau cours des
calculs des esperances et des variances conditionnelles qui ont ete menes on observe que
pour un processus AR ou MA, lesperance conditionnelle varie au cours du temps, alors
que la variance conditionnelle, elle, ne change pas. Cest en relachant cette derni`ere
hypoth`ese que lon passera au mod`eles GARCH dans la section suivante. Quoi quil en
soit, les esperances et variances non conditionnelles sont toujours constantes au cours
du temps : les processus MA et AR sont des processus stationnaires au second ordre.
Ceci nest donc pas surprenant.
5.2.13.5 Estimation dun ARMA(p,q)
On termine cette section consacree ` a lestimation des ARMA par une methode desti-
mation pour les mod`eles ARMA(p,q). On presente les moments conditionnels et non
conditionnels, la loi conditionnelle ainsi que la vraisemblance dun tel mod`ele, accom-
pagnee de ses equations normales.
Un mod`ele ARMA(p,q) secrit comme suit :
x
t
=
p

i=1
x
ti
+
q

i=1

ti
+
t
(5.133)
Il est aise de retrouver lensemble des moments :
E[x
t
|x
t1
, ..., x
tp
,
t1
, ...,
tq
] =
p

i=1
x
ti
+
q

i=1

ti
(5.134)
E[x
t
] = 0, il existe plusieurs facons de le montrer ! (5.135)
V[x
t
|x
t1
, ..., x
tp
,
t1
, ...,
tq
] =
2

(5.136)
V[x
t
] =

2

q
i=1

2
i
1

p
i=1

2
i
(5.137)
On en deduit la loi de x
t
conditionnellement au passe des observations :
x
t
|x
t1
, ..., x
tp
,
t1
, ...,
tq
N(
p

i=1
x
ti
+
q

i=1

ti
,
2

) (5.138)
L`a encore, la diculte tient au calcul des
ti
lies `a lintroduction dune composante
MA(q). Lalgorithme peut etre de la forme :
1. On xe
t
= 0, t (1, max(p, q)).
2. Puis, `a partir de t = max(p, q) + 1 et `a {
1
, ...,
q
,
1
, ...,
p
} xes, on determine

t
de la fa con suivante :

t
= x
t

i=1
x
ti
+
q

i=1

ti
(5.139)
3. on rep`ete la procedure jusqu`a lobtention de lensemble de la chronique des
t
.
5.2. LES MOD
`
ELES ARMA 95
La log vraisemblance concentree du processus est alors :
lnL = (n max(p, q))ln(

)
1
2
n

t=max(p,q)+1
(x
t

p
i=1

i
x
ti
+

q
i=1

ti
)
2

(5.140)
Les equations normales sont alors :
lnL

k
=
n

i=max(p,q)+1

tk
(x
t

p
i=1

i
x
ti

q
i=1

ti
)

(5.141)
lnL

=
n max(p, q)

+
1

i=max(p,q)+1
_
x
t

i=1

i
x
ti

i=1

ti
_
2
(5.142)
Il sut alors dappliquer les methodes presentees au chapitre 4 pour obtenir une esti-
mation des param`etres. Le code `a developper est bien entendu plus complexe que ce
qui a ete developpe jusquici. Les concepteurs de R proposent par defaut une fonction
permettant destimer les param`etres dun mod`ele ARMA. Il sagit de la fonction arima
qui utilise la synthaxe suivante
1
:
arima(x, order = c(0, 0, 0),
seasonal = list(order = c(0, 0, 0), period = NA),
xreg = NULL, include.mean = TRUE, transform.pars = TRUE,
fixed = NULL, init = NULL, method = c("CSS-ML", "ML", "CSS"),
n.cond, optim.control = list(), kappa = 1e6)
[Ajouter un code generaliste qui permet destimer un ARMA(p,q), un jour... du cou-
rage...]
5.2.14 Crit`eres de selection de lordre des processus ARMA
Une fois les estimations conduites, deux questions restent `a traiter : 1. les estimations
violent-elles les hypoth`eses du mod`ele ? 2. quel ordre retenir pour p et q ? Il est `a noter
que la methode de Box et Jenkins visant `a retenir p et q au vu des ACF et PACF nest
plus utilisee. Au mieux, il sagit dun guide dans la selection des p et q maximaux `a
tester.
5.2.14.1 Tests sur les residus
Le premier element `a verier est que les residus ne violent pas les hypoth`eses du mod`ele.
De facon generale, on verie la valeur moyenne des residus, leur autocorrelation, la sta-
bilite de la variance ainsi que leur normalite. Il est `a noter que si les residus ne sont pas
normaux, mais que lestimation a ete conduite en utilisant une hypoth`ese de normalite
des residus, les estimations des param`etres du mod`ele reste bonne. Il sagit en fait dune
estimation par pseudo-maximum de vraisemblance, introduite pas Gourieroux, Mon-
fort et Trognon dans deux articles fameux dEconometrica. Lestimation par BHHH
1
Il est toujours possible dobtenir de laide sur une fonction, en tapant help(nom de la fontion)"
96CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
de la matrice dinformation de Fisher est particuli`erement appropriee `a ce cas. Cette
approche sera tr`es utile pour lestimation des processus GARCH.
Test de nullite des residus
Lorsque le processus est bien estime, les residus entre valeurs estimees et reelles par
le mod`ele doivent se comporter comme un bruit blanc. Lune des hypoth`eses de bruit
blanc est que lesperance des residus (et la moyenne empirique par consequent) est
nulle. Si le processus (
t
) est i.i.d., on doit alors :

t
=
1
n
n

t=1

t
0 (5.143)
On se ref`ere au chapitre 1 o` u un test de nullite de la moyenne est developpe. La
statistique de test est alors (sous H
0
:
t
= 0) :

t

n
T
n1
(5.144)
La loi de Student convergent rapidement vers une loi normale centree reduite. Ainsi, il
est possible de calculer la statistique de test et de la comparer `a 2 pour obtenir un test
`a 95% de la nullite de la moyenne. Il est egalement possible de construire un intervalle
de conance autour de la moyenne en utilisant la loi de cette statistique :
IC
95%
= [
t
t
n1

n
] (5.145)
Test dautocorrelation des residus
Les processus ARMA peuvent etre vu comme une fa con de stationnariser les series,
abus de langage pour designer le fait que lon se debarrasse de la correlation existant
dans les series. Il est donc necessaire de tester lexistence dautocorrelation dans les
residus. Si ce test conduit au constat que les residus sont correles, cest certainement
que le mod`ele est mal specie. Il existe dierents tests dautocorrelation :
Test de Durbin et Watson : ce test a dej`a ete brievement presente au chapitre 2. On
ny revient pas ici.
Etude des ACF et PACF : si le mod`ele est bien specie, lensemble des autocorrelations
simples et partielles doivent etre nulles.
Cette derni`ere etude est completee par letude de la statistique dite du porte-
manteau. Ce test repose sur lidee que la FAC dun bruit blanc ne doit pas reveler
dautocorrelations non nulles. En pratique ce test presente deux variantes :
Test de Box et Pierce : lidee de ce test est simple. Il est base sur une somme des
carres de autocorrelations pour un horizon allant de 1 `a K. La statistique est la
suivante :
Q
BP
= n
K

k=1

2
k

2
Kpq
(5.146)
5.2. LES MOD
`
ELES ARMA 97
Lhypoth`ese H
0
est ici :
1
= ... =
K
= 0 contre H
1
: j [1, K],
j
= 0. Il sut
de comparer la valeur de la statistique de test au quantile de la loi du
2
.
Test de Ljung-Box : lhypoth`ese nulle du test est H
0
:
j
= 0, j < K. On construit
la statistique de test suivante :
Q
K
= n(n 2)
K

k=1

2
k
n k

2
Kpq
(5.147)
L`a encore, il sut de determiner la valeur de la statistique et de la comparer au
quantile dune loi du
2
.
5.2.15 Tests sur les residus ARMA
Dans la mesure o` u lestimation suppose que les residus sont gaussiens, il est souvent
conseille de mener un certain nombre de tests an de verier leur gaussiannite dans les
faits. On utilise en general des tests simples (tests dadequation ou test de Kolmogorov)
an de sen assurer.
On rappelle ici le test de Jarque et Berra explicite plus haut. Celui-ci repose sur deux
statistiques connues pour la loi normale. La premi`ere est la skewness ou coecient
dasymetrie. Son expression est :
S
k
=
E[(X E[X])
3
]

3
X
(5.148)
Cette statistique est une mesure de lasymetrie de la distribution, i.e. de la facon dont
la densite setale de part et dautre de son esperance. Dans le cas dune loi normale,
cette statistique vaut 0 : la loi est parfaitement centree.
La seconde statistique sur laquelle sappuie le test de Jarque et Berra est la kurtosis
ou coecient dapplatissement. Cette statistique mesure lapplatissement des queues
de distribution : plus celles-ci sont epaisses et moins le processus a de chances detre
gaussien. Un loi normale a theoriquement une kurtosis egale `a 3. On mesure cet index
`a laide de la statistique suivante :
K
u
=
E[(X E[X])
4
]

4
X
(5.149)
La statistique de Jarque et Berra est en fait une mesure de la distance de chacune de
ces statistiques aux resultats theoriques connus pour la loi normale. Elle est neanmoins
ponderee par les ecarts types des lois asymptotiques des estimateurs de la skewness et
de la kurtosis :
JB =
T
6
(S
k
0)
2
+
T
24
(K
u
3)
3
(5.150)
o` u T est le nombre dobservation. Cette statistique a pour distribution asymptotique
une loi du chi-deux `a 2 degres de liberte.
98CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Attention cependant `a la philosophie de la demarche : on ne verie pas ladequation `a
une loi gaussienne an de sassurer de la justesse des estimations. Depuis Gourieroux
et alii (1984), on sait qu`a partir du moment o` u lestimation est conduite en supposant
que les innovations ((
t
)
tZ
) suivent une loi appartenant `a la famille des lois expo-
nentielles (dont la loi normale fait partie), les estimateurs utilises dans le cadre dune
demarche basee sur le maximum de vraisemblance sont des estimateurs consistents !
Finalement, peut importe la loi, pourvu quil ne subsiste ni autocorrelation des erreurs,
ni heteroscedasticite (la variance nest pas constante au cours du temps), alors les es-
timateurs du maximum de vraisemblance utilisant la gaussiannite des innovations sont
convergents.
La methode destimation utilisant une loi des erreurs possiblement dierente de la vraie
loi de celle-ci, mais appartenant `a la famille des lois exponentielles est appelee Pseudo
Maximum de Vraisemblance. Lestimation de la matrice de variance covariance des esti-
mateurs peut naturellement se faire en utilisant la matrice BHHH presentee au chapitre
precedent. Il sagit dune methode particuli`erement utile pour lestimation des proces-
sus ARCH/GARCH que lon verra par la suite.
5.2.15.1 Tests sur les residus
Avant de passer `a la prevision, il convient neanmoins de sinterroger sur la methodologie
permettant de selectionner lordre p et q des processus. Plusieurs methodologies sont
applicables, et reste plus complementaires que substituables.
1. La premi`ere demarche est celle exposee plus haut et fut la demarche fondatrice
de ces mod`eles, telles quelle fut proposee par Box et Jenkins. Il sagit simplement
de selectionner les ordres pour le processus AR et le processus MA au vu des au-
tocorrelogrammes du processus utilise pour lestimation. Il sagit simplement du
prolongement naturel de ce qui a ete dit lors de lintroduction du present chapitre.
Letude de lACF permet de selectionner lordre du processus MA et letude la
PACF permet de selectionner lordre du processus AR. Cependant, comme il la
ete mentionne plus haut, un processus AR(1) presente une ACF avec une forte
persistance, ce qui nest d u qu`a la contagion de lautoregressivite sur les er-
reurs du processus. Autrement dit, un AR(1) presente certes une ACF qui decroit
lentement, mais il sagit simplement dune persistance nee de lunique retard de
lAR(1), perceptible sur la PACF. Moralite : si cette methode fournie un point
de depart, elle est loin detre susante.
2. Une seconde approche possible, dans le prolongement de la precedente, consiste
`a utiliser les statistiques de student des estimations par maximum de vraisem-
blance (estimees generalement par approximation BHHH ou forme analytique)
pour juger de la signicativite des param`etres associes `a chacun des retards. Pour
un param`etre
i
donne, le test est de la forme :

N(0, 1) (5.151)
5.2. LES MOD
`
ELES ARMA 99
Ce type de test a dej`a fait lobjet de developpements lors de lexpose des methodes
du maximum de vraisemblance.
3. La derni`ere methode sappuie sur des statistiques composes `a partir de la log-
vraisemblance, permettant de juger de la distance entre la loi du mod`ele estime
et celle du processus. On parle de crit`eres dinformation pour manifester ce der-
nier trait associe `a ces statistiques. On en detaille quelques unes :
Le crit`ere dAkaike (AIC) : le meilleur des mod`eles ARMA est celui qui minimise
la statistique :
AIC(p, q) = Tlog(
2

) + 2(p +q) (5.152)


Le crit`ere bayesien (BIC) : le meilleur des mod`eles ARMA est celui qui minimise
la statistique :
BIC(p, q) =Tlog(
2

) (n p q)log
_
1
p +q
T
_
(5.153)
+ (p +q)log(T) +log
_
(p +q)
1

2
x

1
_
(5.154)
Le crit`ere de Hanan et Quinn : le meilleur des mod`eles ARMA est celui qui
minimise la statistique :
HQ(p, q) = Tlog(
2

) + (p +q)log
_
log(T)
T
_
(5.155)
Au nal, lors de lestimation de processus ARMA, lensemble de ces crit`eres sont `a
utiliser pour lestimation des ordres p et q : on commence en general par letude de
lACF et de la PACF pour se faire un ordre didee sur le processus latent. On denit
en general un ordre maximum pour p et q, puis on proc`ede de facon descendante : on
elimine progressivement (on parle dapproche stepwise) les param`etres non signicatifs,
tout en conservant un oeil sur les crit`eres dinformation.
5.2.16 La prevision `a laide des mod`eles ARMA
Le principal avantage des mod`eles ARMA tient au fait quil permettent de fournir des
previsions pour des echeances eloignees (du moins pour une echeance plus eloignee dans
le temps que la prochaine date). Comme dans le cas des mod`eles lineaires presentes plus
haut, la prevision se fait en utilisant lesperance : en supposant que lon se situe `a une
date t, la prevision du processus (x
t
)
tZ
est obtenue comme sa projection dans lespace
engendre par le passe de ce processus et de ses erreurs.
Plus simplement, dans le cas dun processus AR(1) :
x
t
= x
t1
+
t
,
t
N(0,
2

) (5.156)
sa prevision `a la date t + 1 sera :
x
t+1
= E[x
t+1
|x
t
] (5.157)
= x
t
(5.158)
100CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Les previsions suivantes sobtiennent de facon recursives. Par exemple pour t + 2 :
x
t+2
= E[x
t+2
|x
t
] (5.159)
= E[x
t+1
|x
t
] (5.160)
=
2
x
t
(5.161)
Dune facon plus generale, une prevision `a lordre k pour un processus AR(1) sobtient
de la fa con suivante :
x
t+k
=
k
x
t
(5.162)
On remarque evidement que pour un k susament grand, on a :
x
t+k
0 (5.163)
qui est la moyenne non conditionnelle du processus. Autrement dit, pour un ordre k
eleve, le mod`ele AR(1) se contente de fournir comme prevision la moyenne (historique)
du processus.
La simplicite de ces processus les a rendu tr`es attrayants : il est possible de prevoir
nimporte quelle serie autoregressive pour un ordre important, `a partir de la seule
connaissance de son passe. Dans le cas dun AR, lestimation se fait tr`es simplement,
par MCO. On montre encore quil est aise dobtenir un intervalle de conance pour la
prevision, en utilisant le theor`eme de Wold.
Si le processus etudie est stationnaire, alors il admet une representation MA() de la
forme :
x
t
=

i=0

ti
, avec
0
= 1 (5.164)
en faisant abstraction de la composante deterministe. La prevision precedente peut
aussi etre obtenue de la fa con suivante :
x
t+1
= E[x
t+1
|x
t
, ..., x
0
] (5.165)
= E[x
t+1
|
t
, ...,
0
] (5.166)
=

i=1

t+1i
(5.167)
La precedente egalite est obtenue en remarquant que :
x
t+1
=

i=0

t+1
i
(5.168)
=
t+1
+

i=1

t+1
i
(5.169)
Dune facon plus generale, on a :
x
t+k
=

i=k

ti
(5.170)
5.2. LES MOD
`
ELES ARMA 101
On en deduis lerreur de prevision :
x
t+k
x
t+k
=

i=0

t+ki

i=k

t+ki
(5.171)
=
k1

i=0

t+ki
(5.172)
On en deduis sans probl`eme la variance des erreurs de prevision :
V[x
t+k
x
t+k
] =
k1

i=0

2
i

(5.173)
Premi`ere remarque : non, le theor`eme de Wold ne sert pas `a rien. Il permet de determiner
lintervalle de conance de la prevision simplement en sappuyant sur la representation
MA des processus stationnaires. Deuxi`eme remarque : lerreur de prevision va gran-
dissante au fur et `a mesure que lon seloigne de la date t. Trois`eme remarque : il
est toujours possible dobtenir cet intervalle de conance en estimant un mod`ele MA
avec un ordre important an dobtenir les
i
necessaire `a lestimation de lintervalle de
conance.
Dapr`es ce qui vient detre dit, il est evident quil est possible de construire un intervalle
de conance de la forme :
IC

=
_
x
t+k
t
/2
k1

i=0

2
i

_
(5.174)
Ceci tient naturellement au fait que la loi asymptotique de lestimateur du maximum
de vraisemblance est gaussienne (cf. chapitres precedents). On a donc naturellement :
x
t+k
x
t+k
_

k1
i=0

2
i

N(0, 1) (5.175)
o` u x
t+k
est la vraie valeur du processus `a la date t +k.
5.2.17 A vrai dire...
Arrive `a ce stade, il est evident que la clef du succ`es des mod`eles de series temporelles
univaries et lineaires reside dans leur simplicite et linterpretation des resultats fournis.
Malheureusement, qui dit simplicite dit egalement pauvrete de la prevision. Les mod`eles
ARMA sont incapables de percevoir un retournement de tendance, puisquon ne fait
que multiplier la tendance actuelle. Pour remedier `a ceci, des mod`eles `a seuil ont ete
introduits. Il en sera question plus tard lors dune simple application. Pire, les mouve-
ments de prix, de rentabilite ou bien encore les evolutions des chires de leconomie sont
le resultats dune mutlitude de chocs, de dependances conditionnnelles entre series...
Bref, x
t
ne contient certainement pas assez dinformation pour parvenir `a construire
une prevision robuste de son avenir ! L`a encore, pour remedier `a ceci, des mod`eles mul-
tivaries ont ete introduits. On traitera de ces mod`eles dans la section consacree `a la
prise en compte des liens entre variables macroeconomiques.
102CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5.2.18 Quelques applications de mod`eles ARMA
5.2.18.1 Modelisation de lination
Lination est lune des variables macroeconomiques les plus suivies par les marches,
et notamment les marches de taux. La raison `a cela est simple : il sagit dune variable
suivie par les Banques Centrales an detablir leur politique. On parle dinstrument de
la politique monetaire : les Banques Centrales sont censees reagir par une montee des
taux `a tout accroissement de lination, de fa con mecanique. En realite, la veritable
variable cible des banquiers centraux est lination quil anticipent `a moyen terme.
Celle-ci nest malheureusement pas mesurable : on a recourt en France et en Europe `a
LIndice des Prix `a la Consommation ou IPC pour mesurer cette ination.
La mesure dination suivie par les Banques Centrales est en realite le glissement men-
suel de lindice des prix `a la consommation. En notant P
t
lindice des prix `a la consom-
mation en date t, le glissement mensuel se note comme suit :

t
=
P
t
P
t12
P
t12
(5.176)
La chronique de lination est presentee en gure 5.7. Sa trajectoire ressemble furieu-
sement `a une marche aleatoire : on sattend `a trouver un mod`ele de type AR, avec un
premier param`etre proche de 1.
IPC Europen depuis 1997
Time
I
n
d
i
c
e

d
e
s

p
r
i
x


l
a

c
o
n
s
o
m
m
a
t
i
o
n
1998 2000 2002 2004 2006
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Fig. 5.7 IPC europeen depuis 1997
Cette intuition est conrmee par letude des ACF/PACF qui exhibent naturellement
une persistance importante, pour des ordres de retard eux-memes importants. Ces gra-
phiques sont representes en gure 5.8.
Finalement, lestimation du mod`ele ARMA optimal conduit aux param`etres suivants :
5.2. LES MOD
`
ELES ARMA 103
0.0 0.5 1.0 1.5

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
ACF de l'IPC
0.5 1.0 1.5

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Lag
P
a
r
t
i
a
l

A
C
F
PACF de l'IPC
Fig. 5.8 ACF et PACF de lIPC europeen
ar1 ma1 intercept
Estimation 0,89 0,23 1,92
Ecart type 0,04 0,11 0,19
T-stat 19,96 2,15 10,06
Conclusion de cette courte etude : lindice des prix `a la consommation semble se com-
porter comme une marche aleatoire. La meilleure prevision de lination de demain
devrait ainsi etre celle daujourdhui. En oubliant la composante ma1, et en posant
= 1, on a alors :

t
=
t+1
+
t
(5.177)
On a donc tr`es naturellement :
E[
t+h
|I
t
] =
t
(5.178)
o` u I
t
est linformation disponible `a la date t. Il sagit dun fait qui commence `a etre
bien connu dans le monde de leconomie monetaire.
Dernier point de remarque : il est possible dinterpreter le param`etre de la composante
MA comme un param`etre de retour `a la moyenne/autoexcitation de lination. On
remarque tout dabord que lon a approximativement :

t1
=
t1
( +
t2
) (5.179)
Le param`etre associe `a la composante MA est positif : lination a ainsi tendance `a
se surexciter. Si lination secarte de sa moyenne de long terme (ici 1,92%), elle aura
tendance `a rester au dessus de cette moyenne pour quelques periodes.
Notons enn que la constante du mod`ele correspond `a la cible dination de la BCE.
La gure 5.9 presente une prevision tiree du mod`ele ARMA estime.
104CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Time
I
P
C
1998 2000 2002 2004 2006
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Prvision l'horizon d'un an
Fig. 5.9 Prevision de lIPC europeen
Quoiquil en soit, il nest pas certain que lination soit tout `a fait une marche aleatoire
pour ce qui est de la zone euro depuis 2000. En eet, on remarque visuellement que
la moyenne pour la periode 1997-2000 ne semble pas etre la meme que celle pour la
periode 2000-2006 (cf gure 5.7). Conrmons cette intuition : etudions la structure de
la serie de lIPC depuis 2000. La serie est presentee en gure 5.10.
Zoom depuis 2000
Time
I
P
C
2001 2002 2003 2004 2005 2006
2
.
0
2
.
5
3
.
0
Fig. 5.10 Zoom sur lIPC depuis 2000
Etudions les ACF/PACF de la serie sur la gure 5.11.
Elle semble assez dierente de celle etudiee pour le meme processus, avec une fenetre
de temps plus large. La serie semble se rapprocher dune serie nettement moins proche
de la marche aleatoire : il sagit simplement dun AR(2), generant dans lACF un com-
portement de melange entre sinusoide et exponentielle. Lestimation dun AR(2) sur la
serie conrme les resultats :
5.2. LES MOD
`
ELES ARMA 105
0.0 0.5 1.0 1.5

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
ACF IPC
0.2 0.4 0.6 0.8 1.0 1.2 1.4

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
Lag
P
a
r
t
i
a
l

A
C
F
PACF IPC
Fig. 5.11 ACF et PACF de lIPC depuis 2000
ar1 ma1 intercept
Estimation 0,8808 -0,3499 2,2105
Ecart type 0,1123 0,1121 0,048
T-stat 7,84 -3,12 46,05
Finalement, les resultats obtenus sont reellements dierents des precedents : lination
moyenne est plus importante que dans le cas precedent et le mod`ele est globalement un
mod`ele autoregressif qui nest plus marche aleatoire (le terme en AR(2) vient corriger
limportance du 0,88. Au nal, notre petite estimation souligne que la zone euro est ac-
tuellement dans un regime inationniste plus important que son regime de long terme.
Ceci est certainement d u `a leet Balassa-Samuelson : lors de la formation dunions
monetaires, un eet rattrapage par le haut du niveau des prix se produit. Lintegration
de nouveaux pays `a bas niveau de vie conduit `a chaque fois `a laccroissement du niveau
general des prix en Europe (il sagit dun index prix en glissement annuel).
La gure 5.12 presente la prevision associee au mod`ele.
5.2.18.2 Modelisation du taux cible de la BCE
Le taux directeur de la Banque Centrale Europeenne est deni chaque mois lors de la
reunion du conseil des gouverneurs. Ce taux constitue une cible permettant de guider le
taux court (journalier) sur les marches obligataires europeens. La plupart des mod`eles
de taux font de la politique monetaire le premier facteur de la courbe des taux : la
comprehension du processus latent au taux cible est essentiel pour la gestion obliga-
taire. Est-il possible dutiliser les mod`eles ARMA `a cette n?
La gure 5.13 presente levolution (sur une base mensuelle) de ces taux depuis 2000.
Premier constat : il existe un nombre important de dates pour lesquelles le taux ne
change pas. En notant r
t
le taux cible `a la date t, il existe de nombreuses dates pour
lesquelles on a :
r
t
= r
t1
(5.180)
106CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Time
I
P
C
2001 2002 2003 2004 2005 2006 2007
2
.
0
2
.
5
3
.
0
Prvision l'horizon d'un an
Fig. 5.12 Prevision de lIPC
0 20 40 60 80
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
temps
T
a
u
x

B
C
E
Evolution des taux BCE depuis 2000
Fig. 5.13 Chronique des taux BCE depuis 2000
5.2. LES MOD
`
ELES ARMA 107
Ceci risque bel-et-bien de faire apparaitre une correlation persistante dans lACF du
processus. On observe ceci en gure 5.14. En eet, on observe tout dabord un phenom`ene
de contagion evident entre les dierentes dates sur lACF qui decroit lentement vers
0. Au contraire, la PACF admet un unique pic, proche de 1, suggerant que lon peut
ecrire pour le taux BCE un mod`ele de la forme :
r
t
= r
t1
+
t
(5.181)
avec proche de 1. Dans le cas o` u = 1, on retrouverai naturellement une marche
aleatoire pour le taux BCE : le processus ne serait ainsi pas stationnaire. Faisons lhy-
poth`ese que tel nest pas le cas. Deux strategies sont alors implementables :
Il est tout dabord possible destimer un mod`ele MA avec un lag important. Ceci
signierai que chaque taux BCE peut secrire comme la somme des chocs passes sur
ces taux (une sorte de representation MA() dun processus AR(1). Apr`es estima-
tion, un mod`ele MA(15) semble convenir : il minimise le crit`ere BIC. Les coecients
estimes sont les suivantes :
Estimations T-stats
ma1 0,9115 6,80731889
ma2 0,8645 3,92954545
ma3 1,0792 5,96902655
ma4 1,4888 7,61145194
ma5 1,5917 6,49408405
ma6 1,783 4,97766611
ma7 1,5166 5,9732178
ma8 1,5969 6,67600334
ma9 1,6871 5,59568823
ma10 1,3082 4,19698428
ma11 0,9441 4,30506156
ma12 0,6917 3,56546392
ma13 1,0329 4,61116071
ma14 0,7159 3,71124935
ma15 0,2105 1,72258592
Constante 2,9544 12,8788143
La seconde strategie, qui est la plus naturelle, consiste `a estimer un AR(1), tout
en se doutant que les taux suivent probablement un processus proche de la marche
aleatoire. Lestimation dun simple AR(1) donne des resultats similaires au MA(15).
Les estimations sont :
AR(1) Constante
Estimations 0,9772 2,8363
T-stats 59,5853659 5,11229272
5.2.18.3 Modelisation de la volatilite implicite doptions sur DAX
Parmi les processus connus pour etre autoregressifs, les processus de volatilite presentent
des comportements modelisables `a laide de processus ARMA. Nous verrons plus loin
108CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
0 5 10 15

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
ACF des taux BCE
5 10 15

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
P
a
r
t
i
a
l

A
C
F
PACF des taux BCE
Fig. 5.14 ACF et PACF des taux BCE depuis 2000
une raison `a cette situation.
On presente en gure 5.15 les prix black scholes calibres sur volatilite historique, im-
plicite globale et implicite locale.
0 50 100 150
0
2
0
4
0
6
0
8
0
1
0
0
Index
o
p
t
i
o
n
Prix BS
Fig. 5.15 Prix BS dune option sur DAX de strike 5000
La volatitile implicite extraite en inversant numeriquement la formule de BS presente
la dynamique presentee en gure 5.16.
Letude de lACF/PACF de la serie des volatilites implicites ainsi obtenues permet de
se convaincre de lexistence de pattern ARMA dans la serie (cf. gure 5.17).
Lestimation dun mod`ele ARMA permet de conclure `a un mod`ele ARMA(1,1) dont
les estimations sont fournies dans le tableau suivant :
5.2. LES MOD
`
ELES ARMA 109
0 50 100 150
0
.
0
0
0
0
.
0
0
2
0
.
0
0
4
0
.
0
0
6
0
.
0
0
8
Index
s
i
g
m
a
.
i
m
p
l
Processus de volatilit implicite
Fig. 5.16 Volatilite implicite
0 5 10 15 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
Series 1
5 10 15 20
0
.
0
0
.
2
0
.
4
0
.
6
Lag
P
a
r
t
i
a
l

A
C
F
Series sigma.impl
Fig. 5.17 ACF de la volatilite implicite
110CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
ar1 ma1 intercept
Estimation 0,9169 -0,5431 0,0072
Ecart type 0,0483 0,1042 0,0002
T-stat 18,9834 -5,2121 36,0000
La non constance de la volatilite a des implications particuli`eres pour la gestion de
portefeuille doption, au nombre desquelles la courverture. La simple couverture dun
portefeuille de sous-jacent `a laide du vega traditionnel pose probl`eme : la couverture
est statique alors que la volatilite, elle, est dynamique. On proposera lutilisation des
mod`eles ARCH/GARCH pour permettre de prendre cet element en compte.
Poussons tout de meme lanalyse un peu plus loin. Les prix doptions gen`erent en general
ce que lon appelle un smile : la volatilite est une fonction non lineaire du strike. On
represente cette surface de volatilite en gure 5.18.
T
i
m
e

t
o

m
a
t
u
r
i
t
y
S
tr
ik
e
s
g
[
1
0
0
:
1
2
0
,

1
:
8
]
Volatilit implicite
Fig. 5.18 Surface de volatilite implicite
Une piste dexplication possible pour rendre compte de cette relation est detudier les
composantes AR et MA de chacune des volatilite implicites. Cest ce quon represente
en gures 5.19 et gures 5.20 : on retrouve une relation non lineaire entre strike et
composante.
5.2. LES MOD
`
ELES ARMA 111
4000 4200 4400 4600 4800 5000
0
.
8
6
0
.
8
8
0
.
9
0
0
.
9
2
0
.
9
4
0
.
9
6
K
a
r
(
1
)
Composante ar en fonction du strike
Fig. 5.19 Relation entre strike et composante AR
4000 4200 4400 4600 4800 5000

0
.
7

0
.
6

0
.
5

0
.
4

0
.
3
K
m
a
(
1
)
Composante ma en fonction du strike
Fig. 5.20 Relation entre strike et composante MA
112CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5.3 Les mod`eles ARCH-GARCH
Lensemble des notes qui suivent visent `a introduire un certain nombre de concepts
simples relatifs `a la modelisation de la volatilite en nance. Il sagit dune problematique
essentielle, pour de nombreux champs detude de la nance contemporaine. Le simple
fait que la gestion de portefeuille sappuie le plus souvent sur des algorithme esperance-
variance souligne limportance de la construction dindicateurs de variance correcte-
ment species. La gestion des options sappuie egalement sur une etude rigoureuse de
levolution de la variance.
Ces dix derni`eres annees furent loccasion de developpements importants, conduisant
`a une apprehension plus claire et dans un meme temps plus complexe de ce quest
reellement la variance du rendement dun actif. Le lecteur soucieux daccroitre sa culture
dans ce domaine (au del`a de ces maigres notes) lira avec interet Poon (2005), Gourie-
roux (1992), Gourieroux and Jasiak (2001) et Wang (2003). Une revue de litterature
en fran cais tournant autour des applications des mod`eles de volatilite appliques aux
options est disponible dans Aboura (2005).
La suite du cours est constuite de la fa con suivante : on sattarde dans un premier
temps sur quelques faits stylises en nance ainsi que sur la mesure de la volatilite des
rendements. Puis, dans un second temps, on presente simplement les mod`eles dedies `a
la volatilite historique des titres (mod`eles ARCH-GARCH). Ceci est suivi dun retour
sur linference et la prediction de la variance sur la base dun mod`ele GARCH, avant
de conclure cette section par letude des mod`eles de Duan et de Heston et Nandi visant
`a evaluer des actifs contingent sur la base dun processus de variance GARCH.
5.3.1 Presentation des faits stylises en nance
Les series nanci`eres presentent un certain nombre de traits caracteristiques quil est
necessaire de souligner avant de passer `a leur modelisation. Ces principaux faits sont
les suivants (on suit ici ce qui en est dit dans Poon (2005)[page 7-8] :
1. Les rendements ne sont pas autocorreles, ce qui semble conrmer lhypoth`ese
faible decience des marches nanciers.
2. Les autocorrelations du carre et de la valeur absolue des rendements sont signi-
catives et decroissent lentement vers 0.
3. On remarque quen general, la suppression des valeurs extremes dune serie de
rendements accroit la signicativite de lautocorrelation des rendements eleves au
carre ou pris en valeur absolue.
4. Lautocorrelation la plus forte touche les valeurs absolues des rendements : celles
relatives aux rendements eleves `a une puissance quelconque sont moindres, mais
signicatives. Il sagit de leet de Taylor, dapr`es Taylor (1986).
5. Lasymetrie de la volatilite : en general, la volatilite dun actif saccroit lorsque le
rendements qui prec`edent sont negatifs. On parle dans ce cas deet levier.
6. Rentabilite et volatilite pour une classe dactif semble evoluer de pair.
5.3. LES MOD
`
ELES ARCH-GARCH 113
7. La volatilite dun actif manifeste en general des periodes de de volatilite impor-
tante et dautres periodes de volatilite faibles (correspondant `a ce quon appelle
des bear and bull market.
Cette liste est bien evidement non exhaustive. Elle a cependant le merite de mettre en
lumi`ere le fait que d`es lors que lon souhaite sextraire des standards de la nance (la
marche aleatoire des theories de lecience et de levaluation doption), il est necessaire
de considerer lensemble de ces proprietes avec beaucoup dattention.
Dans la suite de cette section, on consid`ere un certain nombre de mod`eles visant `a
prendre en compte (dun point de vue purement statistique) certains de ces faits sty-
lises de la nance.
5.3.2 Quelques mesures preliminaires de la variance
Par essence, la volatilite est un phenom`ene inobservable : un actif vanille (une action
par exemple) nest cotee qu`a laide de son prix. Il est alors necessaire de construire
un certain nombre de statistiques permettant de juger de la volatilite des rendements :
celle-ci, pourtant essentielle `a tout mod`ele nancier, ne sobserve pas naturellement. Il
est `a noter que certaines classes dactifs sont cotes en volatilite implicite (pour certaines
classes doptions) et quil existe des index de volatilite pour certains marches : Poon
(2005) consacre ainsi son avant dernier chapitre `a quelques precisions relatives au Vix,
un indice de volatilite compile par le Chicago Board of Option Exchange. Il sagit dun
indice visant `a capturer la volatilite du S&P 500, et `a permettre un prevision de la
volatilite future de ce meme indice de marche. Le mode de calcul est simple : il sagit
dune moyenne ponderee de la volatilite implicite des contrats doptions sur S&P500
(contre S&P100 pour son predecesseur, le Vxo) qui presentent la specicite detre out
of the money. Ce nouvel index de volatilite commen ca a etre publie en 2003 (lancien
fut lance en 1993).
Le fait que ce type dindex connaissent un succ`es evident ne fait que souligner le besoin
quon les marches nanciers de disposer dintruments de mesure de la volatilite. Ce
index est lune des tentatives detablissement de ces mesures et semblent relativement
robuste (cf. revue de litterature de Poon (2005)). Il ne sagit pas de la seule facon de
faire : on propose ici deux autres tentatives plus ou moins interessantes : lindex high-
low et le carre des rendements.
5.3.2.1 La mesure high-low
La mesure high-low de la volatilite constitue une methode simple et relativement robuste
de mesure la volatilite : high et low designent naturellement le plus haut et le plus bas du
cours dun titre sur une journee de cotation. L`a encore, on suppose que les rendements
sont gaussiens : on mesure la volatilite journali`ere `a laide de lestimateur suivant :

2
t
=
(lnH
t
lnL
t
)
2
4ln2
(5.182)
114CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Cet estimateur est celui propose par Bollen and Inder (2002) dans le cadre de rendement
suivant un brownien geometrique. Il sagit dune application dune mesure initiallement
proposee par Parkinson (1980). Garman and Klass (1980) propose une amelioration de
la mesure de Parkinson qui prend la forme suivante :

2
t
= 0.5
_
ln
H
t
L
t
_
2
0.39
_
ln
p
t
p
t1
_
2
(5.183)
Ces estimateurs de la volatilite sont assez sensibles aux valeurs extremes, cest `a dire
aux rendements anormalement importants (quil sagissent de rendement negatifs ou
positifs). Limportance de la probabilite doccurence des evenements extr`emes rend le
processus eectivement suivi par les rendements incompatibles avec la loi normale. Dans
cette mesure, les mesures H-L constitue une approximation interessante de la variance
des rendements.
Notons nalement que ces indices H-L modelisent dune certaine facon la variance
conditionnelle du processus des rendements : celle-ci change chaque jour. Il nest par
consequent pas question dutiliser ces resultats pour modeliser la variance de lensemble
de la serie des rendements dun titre donnee, ce qui naurait de toute fa con pas grand
sens.
Time
M
e
s
u
r
e

H
i
g
h

L
o
w
1995 2000 2005
0
.
0
0
0
0
.
0
1
5
0
.
0
3
0
Mesure HighLow sur S&P500
Time
C
a
r
r


d
e
s

r
e
n
d
e
m
e
n
t
s
1995 2000 2005
0
.
0
0
0
0
.
0
0
2
0
.
0
0
4
Carr des rendements sur S&P500
Time
V
I
X

m
e
a
s
u
r
e
1995 2000 2005
0
.
0
1
0
.
0
3
Index VIX
Fig. 5.21 Dierentes mesures de la volatilite appliquees au S&P 500
5.3.2.2 Le carre des rendements comme mesure de variance
Avant lintroduction de larges banques de donnees contenant des donnees intraday, de
nombreux chercheurs se sont penches sur lutilisation dun certain nombre de mesures
5.3. LES MOD
`
ELES ARCH-GARCH 115
0.00 0.05 0.10 0.15 0.20
0
.
0
0
.
4
0
.
8
Lag
A
C
F
Autocorrlations de High Low
0.00 0.05 0.10 0.15 0.20
0
.
0
0
.
4
0
.
8
Lag
A
C
F
Autocorrlations des rendements au carr
0.00 0.05 0.10 0.15 0.20
0
.
0
0
.
4
0
.
8
Lag
A
C
F
Autocorrlations du VIX
Fig. 5.22 ACF des dierentes mesures de la volatilite appliquees au S&P 500
de la volatilite des rendements sur la base de donnees journali`eres. Par exemple, Lopez
(2001) propose le mod`ele suivant pour les rendements :
r
t
= +
t

t
(5.184)
avec
t
N(0, 1). On a alors :
E[r
2
t
|F
t1
] =
2
t
(5.185)
Dans ce cas, le carre des rendements (en negligeant le drift) permet de mesurer la
volatilite de ces memes rendements. Cependant,
2
t
suit naturellement une loi du
2
`a
un degre de liberte, dont la mediane est 0,455 : il sen suit que
2
t
est inferieur `a

2
t
2
dans plus de la moitie des cas. En eet, on a :
P
_
r
2
t
<

2
t
2
_
= P
_

2
t

2
t
<

2
t
2
_
(5.186)
= P
_

2
t
<
1
2
_
(5.187)
= 0.52 (5.188)
Autrement dit, le carre des rendements (en labsence de drift) est un estimateur sans
biais de la variance des rendements. Cependant, dans plus de la moitie des cas, il sous-
estime la variance des residus. Ce resultat semble saaiblir lorsquon utilise le carre
des rendements toutes les 5 minutes plutot que le carre des rendements journaliers.
116CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
5.3.3 Presentation des mod`eles ARCH-GARCH
Les processus ARCH visent egalement `a rendre compte du fait que la variance condi-
tionnelle nest pas constante et proposent une facon de lestimer basee sur le carre des
rendements. Dapr`es ce qui vient detre dit, on traitera cette classe de mod`ele avec
meance : il est possible que la volatilite soit non constante au cours du temps, mais
quun mod`ele ARCH - ou leur generalisation GARCH - ne captent pas cet eet, voire
concluent dans certains cas `a labsence de dependance temporelle dans les rendements.
On presente dans ce qui suit les mod`eles ARCH et GARCH ainsi que leurs principales
proprietes.
5.3.3.1 Pour commencer...
On a modelise jusqu`a present lesperance conditionnelle dans le cadre de mod`eles
lineaires simples (les mod`eles ARMA). Ces mod`eles ne sont gu`eres applicables en -
nance car :
La theorie nanci`ere repose sur la martingalite des prix : lautocorrelation entre le
rendement `a la date t et `a la date t 1 est une abheration nanci`ere, qui disparait
peu `a peu des rendements, `a mesure que les marches se liqueent. Certains marches
comme les commodities (IPE BRENT par exemple) continuent dexhiber de lauto-
correlation dans les rendements.
Ces mod`eles reposent sur lhypoth`ese de constance de la variance conditionnelle : dans
les series nanci`eres, la volatilite est generalement une fonction du temps. Il sut
detudier le processus de volatilite implicite dune option pour se rendre compte de
sa dependance temporelle. Cest ce quon a observe `a la n de la section precedente.
Une facon simple dillustrer les dangers lies `a lutilisation des rendements au carre pour
mesurer la volatilite consiste `a simuler un AR(1) et `a representer le carre du processus,
en le confrontant `a une serie nanci`ere. Lillusion est parfaite : on aurait presque lim-
pression que les deux series sont issues du meme processus. Cest ce quon observe sur
la gure 5.23.
Enn, on est egalement `a la recherche de mod`eles statistiques pour les rendements qui
permettent de generer de la leptokurticite, i.e. des distributions `a queues epaisses. On
remarque en general que les series nanci`eres presentent une kurtosis superieure `a 3,
signiant simplement que les queues de distribution de ces series sont en general plus
epaisses que celles de la loi normale.
Ce dernier fait a des implications importantes en terme de Risk Management, notam-
ment au travers du calcul tr`es simple de la Value at Risk. La VaR est simplement le
quantile de la loi des rendements `a x% : il sut de calculer ce quantile pour dierents x
et sur dierentes lois pour se rendre compte de limportance des queues de distribution.
Le tableau 5.1 propose trois type de lois : la loi normale, qui nest ni leptokutique, ni
asymetrique ; la loi de Student qui est leptokutique, mais symetrique ; la loi de Laplace
qui dans ce cas precis est `a la fois leptokurtique et asymetrique (la queue basse est plus
5.3. LES MOD
`
ELES ARCH-GARCH 117
0 50 100 150
0



e
+
0
0
4



e

0
4
Temps
c
a
r
r

Rendements du DAX au carr


Temps
c
a
r
r

0 50 100 150
0
4
8
1
2
ARMA au carr
Fig. 5.23 Rendements au carre et erreurs de mesure
0% 5% 10% 50% 90% 95% 100%
Loi normale -2,95 -1,62 -1,25 0,01 1,31 1,69 3,16
Loi de Student -4,26 -1,76 -1,37 0,02 1,30 1,75 4,73
Loi Laplace -13,89 -4,18 -3,15 0,08 1,79 2,42 5,27
Tab. 5.1 Quantiles de dierentes loi de moyenne nulle
epaisse que la queue haute). Les densites empiriques de ces trois lois sont presentees
en gure 5.24. La VaR calculee pour dierents seuils permet de se faire une idee plus
precise des risques lies `a calculer une VaR sur une hypoth`ese de gaussiannite des ren-
dements, quand ceux-ci admettent des queues epaisses et/ou asymetriques.
La table 5.2 fournit une autre illustration de ces proprietes des series nanci`eres : on
presente esperance, ecart type (volatilite), skewness et kurtosis des rendements de lin-
dice DAX ainsi que de divers call europeens de strike dierents, ayant tous le DAX
pour sous-jacent. On remarque tout `a fait lexistence de queues epaisses ainsi que dune
asymetrie.
Esperance Variance Skewness Kurtosis
DAX 0,001 0,007 -0,394 3,924
Option strike 4800 -0,001 0,173 -0,19 3,485
Option strike 4600 0,003 0,124 -0,131 3,599
Option strike 4400 0,004 0,09 -0,149 3,95
Option strike 4000 0,003 0,052 -0,268 4,241
Tab. 5.2 Statistiques des rendements
118CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Notons pour terminer cette section fourre-tout que ce qui vient detre dit na pas que des
implications pour le risk-management, mais aussi pour lasset pricing. A peu de choses
pret, comme le souligne tr`es justement Cochrane (2002), le prix dun actif est toujours
et partout une esperance sous loi risque neutre actualisee. Dans le cas o` u les rendements
sont gaussiens, la formule de Black Scholes semble tenir et est largement utilisee dans
de nombreux domaines, dont les options sur action et les produits de taux. Cependant,
lexistence des faits stylies qui viennent detre mis en avant peut conduire `a dimpor-
tantes erreurs de pricing : le mod`ele BS avec rendements GARCH introduit par Duan
et par Heston et Nandi semble conduire `a des prix doption plus proche de la realite que
les prix BS standards. Ceci a dimportantes implications en terme dasset management.
15 10 5 0 5 10
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
Densits
N = 1000 Bandwidth = 0.348
D
e
n
s
i
t
y
Fig. 5.24 Densite de la loi de Laplace (rouge), normale (bleu) et Student (vert)
5.3.3.2 Introduction aux mod`eles ARCH-GARCH
5.3.3.2.1 La cas dun ARCH(1)
Les mod`eles furent initiallement proposes par Engle (1982) et Bollerslev (1986), Tim
Bollerslev etant le thesard de Robert Engle. Le premier mod`ele fut celui de Engle,
et visait `a obtenir une modelisation de la variance conditionnelle de lination (en
glissement mensuel) de la Grande Bretagne. Un mod`ele ARCH(1) est de la forme :
_
x
t
=

h
t

t
h
t
=
0
+
1
x
2
t1
(5.189)
avec
t
N(0, 1). h
t
represente la variance conditionnelle du processus x
t
. Les moments
conditionnels sont les suivants :
E[x
t
|h
t
] = E[
_
h
t

t
|h
t
] (5.190)
=
_
h
t
E[
t
|h
t
] (5.191)
= 0 (5.192)
5.3. LES MOD
`
ELES ARCH-GARCH 119
Il sagit donc encore de processus applicables `a des series prealablement centrees, comme
dans le cas des ARMA. Notons que les series des rendements sont theoriquement na-
turellement centrees : il sagit simplement dune consequence de la martingalite des prix.
La variance conditionnelle na plus rien `a voir avec celle des ARMA :
V[x
t
|h
t
] = V[
_
h
t

t
|h
t
] (5.193)
= h
t
V[
t
|h
t
] (5.194)
= h
t
E[
2
t
|h
t
]
. .
=1 par hypoth`ese
(5.195)
= h
t
(5.196)
Ainsi, contrairement aux mod`eles ARMA, la variance conditionnelle dun processus
ARCH nest pas constante au cours du temps. Cest ce qui fait tout linteret de ces
processus, notamment pour les series nanci`eres. Gardons cependant `a lesprit que ces
mod`eles sappuie sur une mesure de la variance proche de x
2
t
. En eet, on a :
E[x
2
t
|h
t
] = E[h
t

2
t
|h
t
] = h
t
(5.197)
Ceci tient simplement au fait que x
t
soit naturellement un processus centre. Si ces
mod`eles semblent dun abord pratiques, il nen reste pas moins quil produisent natu-
rellement des erreurs de mesure sur la volatilite.
Le calcul des moments non conditionnels permet de determiner quelques conditions `a
remplir an de sassurer de la stationnarite du processus. On determine lesperance `a
laide de la loi des esperances iterees :
E[x
t
] = E[E[x
t
|h
t
]] (5.198)
= E[0] (5.199)
= 0 (5.200)
Pour ce qui de la variance, il est possible de proceder par recurrence. Utilisons tout
dabord la loi de la decomposition de la variance :
V[x
t
] = E[V[x
t
|h
t
]] +V[E[x
t
|h
t
]] (5.201)
= E[h
t
] + 0 (5.202)
On en deduit alors lequation suivante :
V[x
t
] = E[h
t
] (5.203)
= E[
0
+
1
x
2
t1
] (5.204)
=
0
+
1
E[x
2
t1
] (5.205)
=
0
+
1
V[x
t1
] (5.206)
On obtient ainsi une formule de recurrence permettant de determiner la variance non
conditionnelle du processus. Il sut, pour y parvenir, diterer la formule n fois, puis,
120CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
comme dans le cas des ARMA, de passer `a la limite. On sait que :
V[x
t
] =
0
+
1
V[x
t1
] (5.207)
V[x
t1
] =
0
+
1
V[x
t2
] (5.208)
V[x
t2
] =
0
+
1
V[x
t3
] (5.209)
Do` u :
V[x
t
] =
0
+
1
(
0
+
1
(
0
+
1
V[x
t3
])) (5.210)
=
0
(1 +
1
+
2
1
) +
3
1
V[x
t3
] (5.211)
Do` u la formule generale :
V[x
t
] =
0
_
1 +
n

i=1

i
1
_
+
n+1
1
V[x
t(n+1)
] (5.212)
=
0
_
n

i=0

i
1
_
+
n+1
1
V[x
t(n+1)
] (5.213)
Do` u si |
1
| < 1, on a, lorsque n :
V[x
t
] =

0
1
1
(5.214)
Cette derni`ere condition est necessaire pour assurer lexistence de la variance, cest `a
dire :
V[x
t
] < (5.215)
Cette condition est necessaire pour obtenir un processus stationnaire (variance nie et
independante du temps). Il est necessaire dimposer une seconde condition : la variance
conditionnelle et non conditionnelle doivent etre naturellement positives (la variance
est le carre de lecart type). La positivite de la variance conditionelle implique naturel-
lement que :

0
> 0 (5.216)

1
> 0 (5.217)
Ces deux conditions impliquent naturellement que la variance non conditionnelle, dotee
de la condition |
1
| < 1, soit positive. Remarquons nalement que, dans le cadre dun
processus ARCH, la variance conditionnelle ne coincide pas avec la variance non condi-
tionnelle, ce qui est precisement ce que nous recherchions.
Ultime propriete dun processus ARCH(1), il est possible de montrer que le carre du
processus admet une representation AR(1). On suit ici ce qui en est dit dans Poon
(2005)[Chapitre 4]. Notons
t
la dierence entre x
2
t
et h
t
. On a alors :
h
t
=
0
+
1
x
2
t1
(5.218)
x
2
t

t
=
0
+
1
x
2
t1
(5.219)
x
2
t
=
0
+
1
x
2
t1
+
t
(5.220)
On retrouve ainsi un processus AR(1) sur les carres des residus. Ceci a plusieurs impli-
cations pratiques :
5.3. LES MOD
`
ELES ARCH-GARCH 121
Dune part, un processus ARCH(1) ne semble pas saisir de facon adequate les proces-
sus de volatilite nanci`ere : on a vu lors des applications des processus ARMA que
la volatilite de certains actifs semble presenter une structure plus proche des ARMA
(retour `a la moyenne en cas de choc importants) que des AR. Il sera donc necessaire
de complexier leg`erement la chose, an daccomoder cette caracteristique empirique.
Seconde implications pratique, lidentication dun ARCH(1) ne doit pas poser de
probl`eme, si lon sappuie sur ce qui a ete dit plus haut au sujet des AR : il sut
detudier les fonctions dautocorrelations simple et partielle pour se faire une idee de
lordre du processus `a retenir. On etudiera ceci au cours des applications empiriques
proposees plus loin.
5.3.3.2.2 Les mod`eles ARCH(p)
Ce qui vient detre dit au sujet des ARCH(1) peut se generaliser aisement au cas des
processus ARCH(p). Un processus ARCH(p) est un processus x
t
qui est de la forme :
x
t
=
_
h
t

t
(5.221)
h
t
=
0
+
p

i=1

1,i
x
2
ti
(5.222)
avec N(O, 1).
Comme prececement, on fournit les moments conditionnels :
E[x
t
|x
t1
] = 0 (5.223)
V[x
t
|x
t1
] = h
t
(5.224)
Conditionnellement `a linformation disponible `a la date t, un processus GARCH est
un processus de moyenne (conditionnelle) nulle et de variance egale `a h
t
. Quen est il
des moments non-conditionnels ? Lesperance ne pose pas de probl`eme, `a la condition
dutiliser la loi des esperances iterees :
E[x
t
] = 0 (5.225)
Pour ce qui est la variance, il est ici necessaire de determiner, comme precedement,
une formule de recurrence pour parvenir nalement `a exprimer la variance en passant
`a la limite. On ne refait pas ici les calculs : on se contente de fournir le resultat. Si
|

p
i=1

1,i
| < 1, alors la variance du processus existe et est de la forme :
V[x
t
] =

0
1

p
i=1

1,i
(5.226)
5.3.3.2.3 Leptokurticite des processus ARCH(p)
Une propriete essentielle des processus ARCH est quils gen`erent des series leptokur-
tiques. Il sagit dune propriete interessante dans la mesure o` u conditionnellement, un
processus ARCH est gaussien! Ceci signie quil nest pas forcement necessaire daller
chercher des lois complexes ou meconnues pour rendre compte de la leptokurticite des
122CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
series.
Il sut donc de prouver que la kurtosis dun processus ARCH est superieure `a 3. La
preuve est simplissime et sappuie sur le lemme de Jensen.
Rappel 3. Soit f(x) une fonction convexe en x. On a alors :
E[f(x)] > f (E[x]) (5.227)
La preuve detablit comme suit, en se souvenant que f(x) = x
2
est bien convexe : soit
x
t
un processus ARCH(p) donne. Sa kurtosis est alors :
K
u
(x) =
E[x
4
t
]
E[x
2
t
]
2
(5.228)
car x
t
est un processus centre. En appliquant le lemme des esperances iterees au
numerateur, il vient :
E[x
4
t
] = E
_
E[x
4
t
|x
t1
]

(5.229)
= E
_
E[h
2
t

4
t
|x
t1
]

(5.230)
= E
_
h
2
t
E[
4
t
|x
t1
]

(5.231)
= E
_
3h
2
t

(5.232)
= 3E
_
h
2
t

(5.233)
Cette derni`ere egalite tient au fait que
t
suit une N(0, 1) donc la kurtosis est egale `a 3.
Dans la mesure o` u sa variance est egale `a 1, constatons simplement que le denominateur
de la kurtosis est toujours egal `a 1 pour une N(0, 1). Do` u le resultat propose. En
utilisant Jensen, on a alors :
E[x
4
t
] = 3E
_
h
2
t

> 3E[h
t
]
2
(5.234)
La preuve sach`eve en remarquant que :
E[x
2
t
]
2
= E[h
t

2
t
]
2
(5.235)
= E
_
E[h
t

2
t
|x
t1
]

2
(5.236)
= E
_
h
t
E[
2
t
|x
t1
]

2
(5.237)
= E[h
t
]
2
(5.238)
En reinjectant ceci dans lexpression de la kurtosis, on prouve nalement :
K
u
(x) =
E[x
4
t
]
E[x
2
t
]
2
> 3
E[h
t
]
2
E[h
t
]
2
= 3 (5.239)
CQFD.
5.3. LES MOD
`
ELES ARCH-GARCH 123
5.3.3.2.4 Quid de lasymetrie ?
Les processus ARCH seraient parfaitement adaptes `a la nance si ils etaient de plus
capable de generer de lasymetrie. On mesure dordinaire lasymetrie `a laide de la
skweness :
S
k
=
E[x
3
t
]
V[x
t
]
3/2
(5.240)
Ceci est bien evidement vrai dans le cas o` u les series sont centrees, comme cest le
cas pour les processus ARCH. Pour montrer que les processus GARCH ne sont pas
asymetriques, il sut de montrer que le numerateur est nul dans le cas dun ARCH(p) :
E[x
3
t
] = E[E[x
3
t
|x
t1
, x
t2
, ...]] (5.241)
= E[E[h
3/2
t

3
t
|x
t1
, x
t2
, ...]] (5.242)
= E[h
3/2
t
E[
3
t
|x
t1
, x
t2
, ...]] (5.243)
= E[h
3/2
t
0] (5.244)
= 0 (5.245)
Non, les processus ARCH ne permettent pas de prendre en compte tous les faits stylises
de la nance : seule la leptokurticite est prise en compte.
5.3.3.3 Les mod`eles GARCH
Les mod`eles GARCH forment un leg`ere complexication des mod`eles ARCH : on ajoute
au processus de la variance les q valeurs passees de la variance, telle quelle est estimee
par le mod`ele.
5.3.3.3.1 Le cas dun GARCH(1,1)
Un mod`ele GARCH(1,1) secrit de la facon suivante :
x
t
=
_
h
t

t
(5.246)
h
t
=
0
+
1
x
2
t1
+
2
h
t1
(5.247)
o` u
t
N(0, 1). Comme precedement, on donne les moments conditionnels, `a partir des-
quels on fournira nalement les moments non conditionnels par iteration. Lesperance
conditionnelle du processus est la suivante :
E[x
t
|F
t
] = 0 (5.248)
o` u F
t
est la ltration engendree par les valeurs passees de x
t
, de x
2
t
et de h
t
. La variance
conditionnelle est alors :
V[x
t
|F
t
] = V[
_
h
t

t
|F
t
] (5.249)
=
_
h
t
V[
t
|F
t
] (5.250)
= h
t
(5.251)
124CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
h
t
etant F
t
mesurable. On determine `a present les deux premiers moments conditionnels
du processus. Lesperance sobtient simplement `a partir de la loi des esperances iterees :
E[x
t
] = E[E[x
t
|F
t
]] (5.252)
= 0 (5.253)
Pour ce qui est de la variance non conditionnelle, on proc`ede comme precedement, par
iteration. On sait que :
E[x
2
t
] = E[h
t
] (5.254)
= E[
0
+
1
x
2
t1
+
2
h
t1
] (5.255)
=
0
+
1
E[x
2
t1
] +
2
E[h
t1
] (5.256)
Or, on sait que E[x
2
t1
] = E[h
t1
]. On peut donc reecrire la precedente egalite de la
facon suivante :
E[x
2
t
] =
0
+ (
1
+
2
)E[x
2
t1
] (5.257)
Comme precedement, on ecrit cette formule de recurrence pour dierents ordres :
E[x
2
t
] =
0
+ (
1
+
2
)E[x
2
t1
] (5.258)
E[x
2
t1
] =
0
+ (
1
+
2
)E[x
2
t2
] (5.259)
E[x
2
t2
] =
0
+ (
1
+
2
)E[x
2
t3
] (5.260)
On trouve donc une formule de recurrence `a lordre n suivante :
E[x
2
t
] =
0
+ (
1
+
2
)E[x
2
t1
] (5.261)
=
0
+ (
1
+
2
)(
0
+ (
1
+
2
)(
0
+ (
1
+
2
)E[x
2
t3
])) (5.262)
=
0
+ (
1
+
2
)
0
+ (
1
+
2
)
2

0
+ (
1
+
2
)
3
E[x
2
t3
] (5.263)
do` u pour n iteration, on a la formule suivante :
E[x
2
t
] =
0
[1 + (
1
+
2
) + (
1
+
2
)
2
+...] + (
1
+
2
)
n
E[x
2
tn
] (5.264)
=
0
n1

i=0
(
1
+
2
)
i
+ (
1
+
2
)
n
E[x
2
tn
] (5.265)
Comme precedement, `a la condition que |
1
+
2
| < 1, la serie engendree admet une
limite (la variance existe) conduit `a :
E[x
2
t
] =

0
1 (
1
+
2
)
(5.266)
La positivite de la variance est assuree si
0
est du meme signe que 1 (
1
+
2
).
On retrouve les memes proprietes de leptokurticite que pour les processus ARCH. On
le montre de la meme fa con que precedement, en utilisant le lemme de Jensen. En
5.3. LES MOD
`
ELES ARCH-GARCH 125
travaillant avec le quatri`eme moment du processus, il vient :
E[x
4
t
] = E[E[x
4
t
|h
t
]] (5.267)
= E[E[h
2
t

4
t
|h
t
]] (5.268)
= E[h
2
t
E[
4
t
|h
t
]] (5.269)
= E[3h
2
t
] (5.270)
= 3E[h
2
t
] 3E[h
t
]
2
(5.271)
En divisant la derni`ere inegalite par E[h
t
]
2
, on retrouve la kurtosis `a gauche, et le
resultat souhaite `a droite. On a alors :
E[x
4
t
]
E[h
t
]
2
3 (5.272)
Si les GARCH sont `a meme de generer de la leptokurticite, ils sont en revanche incapable
de generer de lasymetrie. On le montre de la meme facon que precedement, en utilisant
la loi des esperances iterees :
E[x
3
t
] = E[(
_
h
t

t
)
3
] (5.273)
= E[
_
h
t
3
E[
3
t
|h
t
]] (5.274)
= E[
_
h
t
3
0] (5.275)
= 0 (5.276)
5.3.3.3.2 Les processus GARCH(p,q)
Un processus GARCH(p,q) se note de la facon suivante :
x
t
=
_
h
t

t
(5.277)
h
t
=
0
+
p

i=1

i
x
2
ti
+
q

i=1
(5.278)
avec
t
N(0, 1). Cette generalisation des GARCH(1,1) ne sera pas utilisee par la
suite : le lecteur soucieux daller jusquau bout des calculs pourra appliquer ce qui a
ete fait precedement pour les ARCH(p).
5.3.4 Inference des mod`eles ARCH-GARCH
5.3.4.1 Le cas dun ARCH(1)
Comme precedement (pour les processus ARMA), on montre ici quelques rudiments
necessaires `a lestimation des ARCH(1). Il est essentiel de presenter les methodes des-
timations, et de ne pas sen remettre au fait que les logiciels de statistiques permettent
une implementation des ARCH sans connaissances particuli`eres : linterpretation des
resultats ou la comprehension meme des probl`emes de convergence des estimateurs
nont rien de trivial, comme de trop nombreux utilisateurs le pensent.
126CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Sur le plan technique, lestimation des ARCH nest gu`ere plus complexe que les ARMA :
l`a encore, le processus x
t
nest pas i.i.d. et il est necessaire de travailler conditionnel-
lement au passe de x
t
et de h
t
, an dobtenir un processus i.i.d.. On connait les mo-
ments conditionnels dun processus ARCH : celui-ci est conditionnellement gaussien,
desperance nulle et de variance egale `a h
t
. Le probl`eme ici, comme dans le cas des
MA, est que la variance est inobservable : on a besoin des param`etres du proces-
sus ARCH pour obtenir la variance conditionnelle du processus. Comme precedement,
la seule fa con destimer ce type de processus est decrire la log-vraisemblance, puis
de determiner lensemble des derivees dont on a besoin pour limplementation des
methodes numeriques decrites au chapitre 5.
La loi conditionnelle de x
t
conduit `a la vraisemblance suivante :
L
i
=
1

2h
t
exp
_

x
2
t
2h
t
_
(5.279)
La vraisemblance sobtient en faisant le produit des dierents L
i
:
L =
n

i=1
1

2h
t
exp
_

x
2
t
2h
t
_
(5.280)
et la log-vraisemblance concentree est alors :
lnL =
1
2
n

i=1
log(h
t
)
1
2
n

i=1
x
2
t
h
t
(5.281)
La methode de Newton-Raphson sappuie sur les derivees premi`eres qui sobtiennent
comme suit, pour un param`etre donne :
lnL

=
1
2
n

i=1
h
t
/
h
t

h
t

x
2
t
h
2
t
(5.282)
=
1
2
n

i=1
h
t

1
h
t
_
1
x
2
t
h
t
_
(5.283)
En remarquant dans le precedent rearrangement que
x
2
t
h
t
=
2
t
, on trouve alors qu`a
loptimum, le score est nul. On rappelle que le score est lesperance de la derivee de la
log-vraisemblance. En eet, on a, dapr`es ce qui vient detre dit :
E
_
x
2
t
h
t
_
= E[
2
t
] = 1 (5.284)
An dobtenir les derivees de la log-vraisemblance, il ne reste qu`a obtenir les derivees
de la variance conditionnelle par rapport `a chacun des param`etres. Elles se calculent
aisement :
ht

0
= 1 (5.285)
ht

1
= x
2
t1
(5.286)
5.3. LES MOD
`
ELES ARCH-GARCH 127
On trouve donc nalement les derivees de la log-vraisemblance suivantes :
lnL

0
=
1
2
n

i=1
1
h
t
_
1
x
2
t
h
t
_
(5.287)
lnL

=
1
2
n

i=1
x
2
t1
h
t
_
1
x
2
t
h
t
_
(5.288)
On est alors en mesure de mettre en oeuvre ce qui a ete presente dans le cadre du cha-
pitre 5 : lestimation se fait generalement par Newton-Raphson, en utilisant la matrice
BHHH comme approximation de la variance de lestimateur des param`etres. Il est ce-
pendant necessaire den dire un peu plus : on a fait lhypoth`ese que lerreur du mod`ele
(
t
)suivait une loi normale. Quen est il si tel nest pas le cas ? Greene (2002)[Cha-
pitre 11] revient sur les implications de cette hypoth`ese : comme on la dej`a precise
precedement, lestimation par maximum de vraisemblance conditionel avec bruit gaus-
sien conduit `a lobtention destimateurs consistent (i.e. qui converge presque surement
vers les vraies valeurs des param`etres). Dans ce cas, on parle de Pseudo Maximum de
Vraisemblance. Gourieroux et al. (1984) remarquent cependant que lestimation de la
matrice de variance/covariance des estimateurs par linverse de la matrice dinformation
de Fisher nest pas bonne. Il est necessaire duiliser lapproximation suivante :
V[] = H
1
FH
1
(5.289)
avec :
H = E
_

2
lnL

T
_
(5.290)
F = E
_
lnL

lnL

T
_
(5.291)
On remarque que la matrice 2 2 F est lestimateur BHHH presente au chapitre 5.
La matrice F est en general tr`es simple `a calculer, puisque prise en esperance. Il sut
pour cela de determiner les derivees secondes de la log-vraisemblance. Dans le cas dun
ARCH(1), les calculs conduisent generalement aux resultats suivants :

2
lnL

2
0
=
1
2
n

i=1
1
h
2
t
_
2
x
2
t
h
t
1
_
(5.292)

2
lnL

1
=
1
2
n

i=1
x
2
t1
h
2
t
_
2
x
2
t
h
t
1
_
(5.293)

2
lnL

2
1
=
1
2
n

i=1
x
4
t1
h
2
t
_
2
x
2
t
h
t
1
_
(5.294)
On ne calcule que lune des derivees croisees, dans la mesure o` u le lemme de Monge
sapplique sans probl`eme. En prenant lesperance de ces derni`eres derivees, et en re-
marquant encore une fois que E[
x
2
t
h
t
] = 1, on obtient la matrice F :
F =
_
_

1
2

n
i=1
1
h
2
t

1
2

n
i=1
x
2
t
h
2
t

1
2

n
i=1
x
2
t
h
2
t

1
2

n
i=1
x
4
t
h
2
t
_
_
(5.295)
128CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
On sait de plus calculer la matrice BHHH `a partir des derivees premi`eres : on est alors
en mesure destimer un mod`ele ARCH sans trop de diculte. Dans la realite (et dans
R), lestimation ne passe pas par Newton Raphson, mais par une methode plus complexe
garantissant de meilleurs resultats : la methode BFGS. Celle-ci nest pas developpee ici.
5.3.4.2 Le cas dun GARCH(1,1)
Tout ce qui vient detre dit precedement au sujet de lestimation des ARCH sapplique
de la meme fa con aux mod`eles GARCH. La vraisemblance conditionnelle secrit encore
une fois en constatant que la loi conditionnelle de x
t
sachant h
t
est connue :
x
t
|
h
t
N(0, h
t
) (5.296)
Il sagit donc du meme point de depart quon mod`ele ARCH(1). Lestimation dun
mod`ele GARCH(1,1) necessite cependant le calcul dune derivee premi`ere supplementaire :
h
t

2
= h
t1
(5.297)
On obtient alors les derivees de la vraisemblance suivantes :
lnL

0
=
1
2
n

i=1
1
h
t
_
1
x
2
t
h
t
_
(5.298)
lnL

1
=
1
2
n

i=1
x
2
t1
h
t
_
1
x
2
t
h
t
_
(5.299)
lnL

2
=
1
2
n

i=1
h
t1
h
t
_
1
x
2
t
h
t
_
(5.300)
On laisse `a titre dexercice le calcul des derivees secondes. On renvoie `a VonSachs and
VanBellegem (2002) pour plus de precisions au sujet de lestimation des GARCH. On
propose le code R suivant, stricte application de ce qui vient detre dit : il sagit dun
code permettant destimer un GARCH(1,1) par Newton Raphson, avec matrice BHHH.
estim.garch<-function(theta,x){
G=matrix(1,3,1)
n=nrow(x)
check=theta
j=1;
while(sum(G^2)>0.0001){
# Computation of sigma2
sigma2=matrix(theta[1,1],n,1);
for (i in 2:n){sigma2[i,1]=theta[1,1]+theta[2,1]*sigma2[(i-1),1]+theta[3,1]*x[(i-1),1]^2}
comp=as.matrix((x^2-sigma2)/sigma2^2);
BHHH=cbind(comp[2:n,1],comp[2:n,1]*sigma2[1:(n-1),1],comp[2:n,1]*x[1:(n-1),1]^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
5.3. LES MOD
`
ELES ARCH-GARCH 129
G[3,1]=sum(BHHH[,3]);
cat(j,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
j=j+1
}
var=sqrt(diag(solve(H)));
test=theta/var
return(list(theta=theta,check=check, test=test))
}
5.3.5 Premi`eres Applications
Avant de se lancer dans des applications plus complexes utilisant quelques ranements
des mod`eles GARCH, on presente une application simple, visant `a estimer un mod`ele
GARCH sur les rentabilites mensuelles de lindice DAX.
5.3.5.1 Etude de la volatilite sous-jacente de lindice DAX
La gure 5.25 presente levolution de la rentabilite journli`eres du DAX depuis 2000,
avec ses ACF et PACF. On remarque les quelques faits stylises presentes plus haut :
existence dagregats de volatilite et faiblesse de lautocorrelation dans les rendements.
Ce dernier point appelle `a commentaire : lexistence dune leg`ere autocorrelation est en
general le fait des series longues. Celle-ci disparait aisement `a mesure que lon reduit la
taille de lechantillon et/ou que lon utilise des donnees plus recentes. Quoiquil arrive,
les prix des actifs sont en general martingale, et rien dautre.
On etudie naturellement les ACF et PACF des rendements eleves au carre sur la -
gure 5.26. On remarque ce qui a ete dit plus haut : lautocorrelation dans les rende-
ments au carre decroit lentement et la PACF admet quelques valeurs signicativement
dierentes de 0. Ceci sugg`ere naturellement lestimation dun mod`ele GARCH avec un
ordre faible. On choisit ici deliberement un GARCH(1,1), en utilisant la fonction R
fournie precedement.
La table 5.3.5.1 fournit les estimations dun mod`ele GARCH(1,1) sur nos donnees. On
remarque lensemble des param`etres est signicatif `a 95%. La gure 5.27 presente les
residus du mod`ele GARCH. On rappelle que les residus dun GARCH sont donnees
par
x
t

h
t
et non par lecart entre le mod`ele et les residus. On constate que ces residus
ne presentent presque plus de phenom`enes de cluster de volatilite. En revanche letude
de la PACF et de lACF du carre des residus (gure 5.28) conclue naturellement `a
linsusance de lordre du GARCH choisit : il subsiste encore de la correlation.
La gure 5.29 fournit levolution de la variance conditionnelle du DAX : encore une
fois, la volatilite est une composante inobservable et les mod`eles GARCH constituent
une approxiamtion permettant de la mettre `a jour.
130CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Time
R
e
n
d
e
m
e
n
t
s

D
A
X
2000 2001 2002 2003 2004 2005 2006

0
.
0
5
0
.
0
5
Rendements du DAX depuis 2000
0.00 0.02 0.04 0.06 0.08 0.10 0.12
0
.
0
0
.
4
0
.
8
Lag
A
C
F
ACF des rendements du DAX
0.00 0.02 0.04 0.06 0.08 0.10 0.12

0
.
0
5
0
.
0
5
Lag
P
a
r
t
i
a
l

A
C
F
PACF des rendements du DAX
Fig. 5.25 Rendements du DAX depuis 2000 : chronique, ACF et PACF
0 5 10 15 20 25 30
0
.
0
0
.
4
0
.
8
Lag
A
C
F
ACF des rendements du DAX au carr
0 5 10 15 20 25 30

0
.
0
5
0
.
0
5
0
.
1
5
Lag
P
a
r
t
i
a
l

A
C
F
PACF des rendements du DAX au carr
Fig. 5.26 ACF et PACF des rendements du DAX eleves au carre
5.3. LES MOD
`
ELES ARCH-GARCH 131
0 500 1000 1500

0
.
0
5
0
.
0
5
rend
Index
S
e
r
i
e
s
0 500 1000 1500

4
0
2
Residuals
Index
S
e
r
i
e
s
Fig. 5.27 Rendements et residus GARCH
0 5 10 15 20 25 30
0
.
0
0
.
4
0
.
8
Lag
A
C
F
ACF of Squared rend
0 5 10 15 20 25 30
0
.
0
0
.
4
0
.
8
Lag
A
C
F
ACF of Squared Residuals
Fig. 5.28 ACF et PACF des rendements du DAX et des residus GARCH
132CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Estimate Std.Error t-value Pr(> |t|)

0
1.154e-06 3.047e-07 3.788 0.000152

1
7.166e-02 8.113e-03 8.832 2,00E-16

2
9.208e-01 8.827e-03 104.324 2,00E-16
Tab. 5.3 Estimation dun GARCH(1,1) sur donnees historiques du DAX
Time
V
a
r
i
a
n
c
e

c
o
n
d
i
t
i
o
n
n
e
l
l
e
2000 2001 2002 2003 2004 2005 2006
0
.
0
0
5
0
.
0
1
0
0
.
0
1
5
0
.
0
2
0
0
.
0
2
5
0
.
0
3
0
0
.
0
3
5
Variance estime par processus GARCH(1,1)
Fig. 5.29 Volatilite estimee par processus GARCH sur DAX
5.3.5.2 Formule de Black Scholes avec processus GARCH : version ad-hoc
On propose parfois dutiliser la volatilite conditionnelle dans le cadre de la formule de
Black Schole : il sagit dune version ad-hoc de ranements proposes par Heston et
Nandi plus tard.
A laide dun processus GARCH, on obtient

h
t
la volatilite conditionnelle pour chaque
date dexistence de loption etudiee. On sinterroge alors : lerreur generee, i.e. lecart
entre prix de marche et prix Black Scholes, est elle moindre lorsque lon utilise la
lecart type des rendements comme mesure de la volatilie ou la racine de la variance
conditionnelle obtenue dans le cadre dun mod`ele GARCH? Pour repondre `a cette
question, on utilise generalement comme crit`ere le Root Mean Square Error, cest `a dire
la racine de lerreur au carre moyenne. En notant P
t
le prix reel de loption et

P
t
le
prix tel que la formule de Black Schole le propose, le RMSE est alors :
RMSE =

_
1
n
n

i=1
(P
i


P
i
)
2
(5.301)
5.3. LES MOD
`
ELES ARCH-GARCH 133
Le tableau suivant fourni les erreurs des versions standards et GARCH ad-hoc generees
par la formule de Black-Scholes.
Strike Erreur GARCH Erreur BS standard
4000 116,3457 115,7618
4300 25,5418 22,20917
4400 24,40097 20,82484
4500 21,94736 18,3525
4600 19,0568 15,68696
4700 16,8634 14,15297
4800 16,16095 14,37239
4900 15,71973 13,48666
5000 11,66557 9,937144
Le mod`ele BS standard semble surperformer nettement le mod`ele GARCH ad-hoc. Si
cet avis est sans appel `a la lecture de la table, lobservation du graphique 5.30 conduit `a
un tout autre jugement. On observe que le prix avec volatilite GARCH suit globalement
bien mieux le vrai prix de loption, sauf dans quelques rares cas pour lesquels il sen
ecarte singuli`erement, conduisant aux resultats donnes dans la table. Lexplication `a ce
phenom`ene est simple : la formule de BS est tr`es sensible `a la volatilite. Pour les dates
presentant ces ecarts importants, la volatilite GARCH connait un saut, conduisant le
prix BS `a secarter du vrai prix de loption.
5.3.5.3 Prevision de la volatilite et ses usages
Une fois un mod`ele GARCH calibre, il est possible de proceder `a une analyse plus ne
de la volatilite dun sous-jacent. La volatilite est principalement utilisee dans le cadre de
la Value at Risk et dans le cadre des mod`eles doption. Lavantage dun mod`ele GARCH
est quil permet de construire une prevision nave de la volatilite future du marche, sur
une periode courte. On presente ici quelques questions relatives `a la prevision de la
volatilite du rendement dun actif.
Dans le cadre dun mod`ele GARCH(1,1), de la forme suivante :
x
t
=
_
h
t

t
(5.302)
h
t
=
0
+
1
x
2
t1
+
2
h
t1
(5.303)
avec
t
N(0, 1), il est aise dobtenir une prevision en date t de la variance condition-
nelle en date t + 1 :
E[h
t+1
|h
t
] =
0
+
1
E[x
2
t
|h
t
] +
2
h
t
(5.304)
=
0
+ (
1
+
2
)h
t
(5.305)
134CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
0 50 100 150
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
Index
P
r
i
x

o
p
t
i
o
n
Fig. 5.30 Prix du call DAX (rouge), prix BS standard (vert) et prix GARCH BS
ad-hoc
0 50 100 150
0
.
0
0
7
0
.
0
0
9
Index
V
o
l
a
t
i
l
i
t

Volatilit conditionnelle GARCH


0 50 100 150
0
1
0
3
0
5
0
Index
P
r
i
x

B
S
Prix BS GARCH Ad hoc
Fig. 5.31 Prix theorique contre volatilite conditionnelle pour une option hors de la
monnaie.
5.3. LES MOD
`
ELES ARCH-GARCH 135
On deduit de fa con recursive la suite des variances conditionnelles :
E[h
t+2
|h
t
] =
0
+
1
E[x
2
t+1
|h
t
] +
2
E[h
t+1
|h
t
] (5.306)
=
0
+
1
E[h
t+1
|h
t
] +
2
E[h
t+1
|h
t
] (5.307)
=
0
+ (
1
+
2
)E[h
t+1
|h
t
] (5.308)
=
0
+ (
1
+
2
)(
0
+ (
1
+
2
)h
t
) (5.309)
=
0
(1 + (
1
+
2
)) + (
1
+
2
)
2
h
t
) (5.310)
(5.311)
Comme on la montre lors du calcul da variance non conditionnelle, en procedant par
recursion, on trouve la formule generale suivante :
E[h
t+h
|h
t
] =
0
h1

i=0
(
1
+
2
)
i
+ (
1
+
2
)
h
h
t
) (5.312)
(5.313)
Comme dans le cas des ARMA, la prevision secrase rapidement contre la variance non
conditionnelle. Ainsi lhorizon predictif des mod`eles GARCH est limite : ces mod`eles
sont bien mieux adaptes pour fournir une mesure de la volatilite, qui, rappelons le, est
par essence inobservable.
Une des utilisations possibles de lalgorithme de prevision de la volatilite qui vient
detre developpe conduit naturellement `a une prevision de la Value at Risk. On rap-
pelle brievement le sens et le mode de calcul de cette mesure de risque, sur la base de
ce qui en est dit dans Tsay (2002).
5.3.5.3.1 La VaR
La VaR est le benchmark le plus utilise quand il sagit de juger de lexposition maxi-
male au risque de marche produit par une position donnee sur le marche. Le risque de
marche est un terme generique permettant de decrire plusieurs situations possibles sur
le marche, selon le montant des engagements produits. Une position conduisant `a in-
vestir dans un seul et unique actif ninduit pas la meme exposition au risque de marche
quune position prise sur dierents actifs simultanement. Dans le cas o` u lon detient
un portefeuille dactifs, et en depis des mecanismes bien connus de la diversication, la
dependance existant entre les dierents actifs du portefeuille fait peser sur sa rentabilite
une menace particuli`ere, souvent presente sous le titre de risque de correlation.
La VaR peut etre simplement denie comme la perte maximale liee `a une position de
marche, sur une fenetre de temps particuli`ere et pour un niveau de probabilite donne :
en supposant que lon connaisse la loi du rendement du portefeuille, on est en mesure
de donne le montant maximal de perte que lon peut realiser, dans le cadre dune pro-
babilite egale `a 95%. Cela signie simplement que dans 95% des cas, la perte ne devrait
pas depenser cette mesure de risque. Evidement, la perte ne se juge pas en terme de
rentabilite ! Il est donc necessaire de passer de la perte en terme de rentabilite `a celle
en terme de prix, en passant `a lexponentielle.
136CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Lidee est donc : connaissant la loi de
t
r
t+h
, i.e. des rendements sur la periode de temps
allant de t `a t + h (la fenetre de temps), on cherche la chutte maximale que peut
connaitre le rendement du portefeuille sur ce meme intervalle, avec une probabilite
egale `a 90% ou 95%. Plus formellement, ceci revient `a chercher :
P (
t
r
t+h
V aR) = 95% (5.314)
Il est indierent de rechercher la valeur VaR dans le cadre de la precedement formule
ou dans le cas suivant :
P (
t
r
t+h
V aR) = 5% (5.315)
Ceci vient simplement du fait que :
P (
t
r
t+h
V aR) = 1 P (
t
r
t+h
V aR) (5.316)
En travaillant en terme de densites, les inegalites strictes et large ne produisent aucune
dierence de calcul. La VaR correspond simplement au quantile `a 5% de la loi des
rendements. A la dierence des tests statistiques comme le test de Student qui sont des
tests bilateraux, il sagit ici dun quantile unilateral : il nest donc pas necessaire de
calculer un quantile `a x%/2, comme on le fait pour un test de Student.
Une fois ce quantile obtenu (sous R, la function quantile permet dobtenir une esti-
mation non parametrique de ce quantile), il est alors possible dobtenir une estimation
de la VaR en terme de prix, i.e. en terme de perte nette :
P (
t
r
t+h
V aR) = 5% (5.317)
P (exp{
t
r
t+h
} exp{V aR}) = 5% (5.318)
P (P
t
exp{
t
r
t+h
} P
t
exp{V aR}) = 5% (5.319)
P (P
t+h
} P
t
exp{V aR}) = 5% (5.320)
On obtient ainsi la perte nette maximale obtenue pour une probabilite egale `a 95%.
Ceci am`ene plusieurs commentaires :
est ici un coecient multiplicatif traduisant le montant de lengagement dans le
titre.
Cette probabilite est en realite une probabilite conditionnelle : sachant P
t
, le mon-
tant net de lengagement `a la date t dans lactif etudie, quel serait la perte maximale
rencontree dans 95% des cas pour un horizon h.
Il sagit dune VaR dans le cas dune position courte : on a ici achete le titre, et
seule une baisse de son cours (un enchainement de rentabilite negatives) peut nous
conduire `a perdre de largent. On op`ere le raisonnement inverse dans le cas o` u lon est
place dans le cadre dune position longue (vendeur `a decouvert) dans le titre etudie.
La perte dans ce cas viendra naturellement dune montee du cours de lactif. Il est
alors necessaire de calculer la hausse maximale que le titre peut enregistrer dans 95%
des cas.
5.3. LES MOD
`
ELES ARCH-GARCH 137
On rappelle simplement que la fonction quantile pour une variable aleatoire x est la
fonction telle que :
x
p
= inf{x|F(x) p} (5.321)
o` u p est une probabilite donnee.
Comme presente dans Tsay (2002), le calcul de VaR est loin detre aise. Il necessite de
nombreux inputs :
La probabilite utilisee : en general 5% ou 1%.
Lhorizon de calcul : une VaR `a un mois na souvent rien `a voir avec une VaR `a 1
jours.
La frequence des donnees utilisees : travaille-t-on sur des rendements journaliers,
hebdomadaires, mensuels ?
La fonction de repartition des rendements : la fonction de repartition non condi-
tionnelle peut etre obtenue `a laide dune estimation non parametrique alors quun
fonction parametrique peut etre obtenue plus directement.
Le montant et le sens de la position dans lactif etudie.
Dans le cas o` u il sagit dun portefeuille, il est necessaire de determiner la structure
de dependance liant les dierents actifs en portefeuille.
Nombre de ces items sont en general xes par le regulateur (accords Bale II par
exemple). Notons que le calcul de la VaR sert aux comptables pour determiner le
montant de provisions `a passer pour couvrir le risque de marche. Il sagit dun montant
place dans les capitaux propres (Provisions pour risques et charges) an de faire face
`a un decrochage violent mais temporaire du marche. Inutile de rappeler quun retour-
nement puissant et durable du marche conduit `a des eets systemiques dune ampleur
telle quil est impossible dy faire face avec ce simple montant en poche. Ainsi, dun
point de vu pratique, on xe en general de fa con institutionnelle un montant de VaR
qui sera passe en provision pour lannee `a venir. Il sert ensuite `a piloter le montant et le
sens des engagements dans les actifs en portefeuille : on determine la VaR de lensemble
des titres detenus, et on verie que celle-ci ne depasse pas le montant conventionnel-
lement xe. Dans le cas o` u la banque est engagee dans dierents marches, et poss`ede
donc dierents desks, il est alors necessaire dallouer une part de la VaR conventionnelle
`a chacun de ces desks.
5.3.5.3.2 Calcul de la VaR `a laide de mod`eles GARCH Comme le fait tr`es
justement remarque Tsay (2002), la VaR est une prevision de la perte possible pour
un horizon donne. Elle devrait toujours et partout calculee `a laide dune distribu-
tion predictive (predictive distribution) du futur des rendements du portefeuille. Par
exemple, une VaR pour un horizon dun jour utilisant des rendements journaliers r
t
devrait normalement etre calculee en utilisant la distribution predictive du rendements
r
t+1
, sachant linformation disponible `a la date t. On imagine alors quil serait alors
necessaire de tenir compte de lerreur possible destimation, comme on le fait `a chaque
fois que lon travaille dun point de vue econometrique. Dans la realite, les methodes
utilises ne se base pas sur ces distributions predictives, et ne tiennent pas compte des
138CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
erreurs destimation. On propose neanmoins de montrer comment les mod`eles GARCH
peuvent etre utilises an de determiner une VaR.
On reviendra plus loin sur la methodologie proposees par RiskMetrics (methode EWMA),
dans la mesure o` u elle corresond `a un mod`ele GARCH rane (mod`ele GARCH
integre).
5.3.5.3.2.1 VaR dans le cas univarie
Il est tr`es aise de determiner une VaR pour un unique sous-jacent `a laide dun mod`ele
GARCH. On prend encore ici le cas simple dun GARCH(1,1), applique au CAC40 (les
donnees sous tirees de la base EuStockMarkets, disponible dans R). On estime sur les
rendements du CAC le mod`ele suivant :
r
CAC
t
=
_
h
CAC
t

CAC
t
(5.322)
h
CAC
t
=
CAC
0
+
CAC
1
r
CAC
t1
+
CAC
2
h
CAC
t1
(5.323)
Avec
CAC
N(0, 1). Les estimations obtenues sont les suivantes :
Estimate Std. Error t-value p-value

0
0,00001178 2,675E-06 4,406 0

1
0,05916 0,01124 5,261 0

2
0,8439 0,0315 26,791 0
A laide de ces resultats, on peut determiner une VaR pour lhorizon souhaite. Pour
une la VaR `a un jour, on cherche :
P
_
r
CAC
t+1
V aR
CAC
1
_
= 5% (5.324)
P
_
_
h
CAC
t+1

CAC
t+1
V aR
CAC
1
_
= 5% (5.325)
P
_
_

CAC
t+1

V aR
CAC
1
_
h
CAC
t+1
_
_
= 5% (5.326)
suivant une loi normale centree reduite, on connait le quantile `a 5% : il vaut -1,64.
On en deduit donc :

V aR
CAC
1
_
h
CAC
t+1
= 1, 64 (5.327)
V aR
CAC
1
= 1, 64
_
h
CAC
t+1
(5.328)
5.3. LES MOD
`
ELES ARCH-GARCH 139
On en deduit alors la VaR en terme de pertes :
P
_
r
CAC
t+1
1, 64
_
h
CAC
t+1
_
= P
_
exp{r
CAC
t+1
} exp{1, 64
_
h
CAC
t+1
}
_
(5.329)
= P
_
P
CAC
t
exp{r
CAC
t+1
} P
CAC
t
exp{1, 64
_
h
CAC
t+1
}
_
(5.330)
= P
_
P
CAC
t+1
P
CAC
t
exp{1, 64
_
h
CAC
t+1
}
_
(5.331)
La n des calculs sappuie sur des donnees numeriques : on a besoin du prix du CAC en
date t ainsi que la prevision de la volatilite `a la date t +1. On a procede `a ces quelques
calculs sous R. On presente le resultat des operations : on a calcule pour toutes les dates
la VaR `a un jour. Elle est presentee en gure 5.32.
0 200 400 600 800
1
2
0
0
1
4
0
0
1
6
0
0
1
8
0
0
2
0
0
0
2
2
0
0
2
4
0
0
2
6
0
0
Index
P
r
i
x
VaR pour CAC
Fig. 5.32 Value at Risk `a un jour
Dans le cas o` u lon souhaite obtenir une VaR pour un horizon t + h quelconque, les
choses se complexient leg`erement. On cherche `a denir une borne basse pour P
t+h
.
On travaille en rendements, i.e. sur :
r
t+h
= ln
P
t+h
P
t
(5.332)
Il est alors necessaire de travailler sur la distribution conditionnelle predictive, i.e. sur
140CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
la loi de r
t+h
. Pour cela, on remarque que :
ln
P
t+h
P
t
= ln
_
P
t+1
P
t
P
t+2
P
t+1
...
P
t+h
P
t+h1
_
(5.333)
=
h

i=1
ln
_
P
t+i
P
t+i1
_
(5.334)
=
h

i=1
r
t+i
(5.335)
On peut determiner la loi conditionnelle de cette somme de rendements :
E
_
h

i=1
r
t+i
_
=
h

i=1
E[r
t+i
] (5.336)
V
_
h

i=1
r
t+i
_
=
h

i=1
V[r
t+i
] (5.337)
=
h

i=1
E[h
t+i
] (5.338)
Lensemble de ces precedents calculs sont en realite conditionnellement `a linformation
disponible `a la date t. Pour alleger les notations, on a elimine les notations condi-
tionnelles. Il ne reste plus qu`a utiliser ce qui a ete dit sur la prevision des variances
au debut de cette section pour etre capable de determiner la VaR sur les rendements
futurs, conditionnellement `a linformation disponible `a la date t. On sait que :
r
t+h
N
_
0,
h

i=1
E[h
t+i
]
_
(5.339)
On en deduit `a la VaR en constatant que :
r
t+h
_

h
i=1
E[h
t+i
]
N(0, 1) (5.340)
Do` u la VaR `a 5% est egale `a :
V aR = 1, 64

_
h

i=1
E[h
t+i
] (5.341)
Comme precedement, on en deduit la VaR en terme de pertes nettes :
V aR
P
t+h
= P
t
exp{1, 64

_
h

i=1
E[h
t+i
]} (5.342)
Il sut donc de calculer la somme des variances conditionnelles pour determiner ensuite
une VaR forward pour un horizon h. On represente la VaR et les moments o` u celle-ci
5.3. LES MOD
`
ELES ARCH-GARCH 141
0 200 400 600 800
1
2
0
0
1
4
0
0
1
6
0
0
1
8
0
0
2
0
0
0
2
2
0
0
2
4
0
0
2
6
0
0
Index
P
r
i
x
VaR pour CAC
Fig. 5.33 Value at Risk `a dix jour
est violee sur la gure 5.33.
Les performances de lapproche `a un jour et `a dix jours appellent un simple commen-
taire. Dans le cas dun VaR `a un jour, le pourcentage de depassement de la VaR est
de 0,036 alors que dans le cas `a 10 jours ce pourcentage est de 0,1168, ce qui est large-
ment superieur aux 5% autorises. Ceci sexplique simplement par le fait que la prevision
de la variance pour les mod`eles GARCH converge rapidement vers la la variance non
conditionnelle, appauvrissant limpact de la metode utilisee. Les mod`eles GARCH sont
consideres comme des mod`eles `a memoire courte, i.e. quil retourne rapidement `a la
distribution non conditionnelle du processus. La methode EWMA de Riskmetricks re-
pose sur un mod`ele dit integre, permettant de prendre en compte cet aspect memoire
longue de la volatilite.
5.3.5.3.2.2 VaR dans le cas bivarie : VaR par simulation
On se preocuppe `a present dintroduire un certain nombre didees concernant le cal-
cul de la VaR dun portefeuille de titre. Ces questions sont essentielles : ce sont elles
qui sont en general utiles au quotidien des risks managers, dans la mesure o` u lactivite
dune banque ne se limite jamais `a un seul et unique actif.
Avant toute chose, il est important de remarque que la VaR dun portefeuille, i.e. dune
somme dactifs ponderes, nest pas jamais la sommes ponderee des VaR des dierents
acifs. Ce qui rend le calcul de VaR dun portefeuille complexe est la dependance exis-
tante entre les dierents actifs composant le portefeuille. Dans le cadre dun mod`ele
142CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
conditionnellement gaussien comme cest le cas pour un processus GARCH, cette
dependance est simplement mesuree par le coecient de correlation entre les deux
termes derreurs. Soit deux actifs de rendement r
1
et r
2
suivant des processus GARCH(1,1) :
_
r
1,t
=
_
h
1,t

1,t
h
1,t
=
1,0
+
1,1
r
2
1,t1
+
1,2
h
1,t1
(5.343)
_
r
2,t
=
_
h
2,t

2,t
h
2,t
=
2,0
+
2,1
r
2
2,t1
+
2,2
h
2,t1
(5.344)
avec (
i,t
)
i=1,2
N(0, 1) et corr(
1,t
,
2,t
) = .
On se propose de determiner la VaR de la somme de ces actifs, non par calcul direct,
mais par simulation. Connaissant , on est en mesure de simuler des correles, puis
de simuler les processus r
1
et r
2
conditionnellement `a linformation disponible en t.
Enn, on est en mesure de retrouver la VaR en terme de perte nette, comme on la fait
precedement, en prenant lexponentielle de chaque rendements.
On applique cette methode `a un portefeuille constitue dune unite de DAX et dune
unite de CAC. On estime un GARCH(1,1) sur les rendements de ces actifs. Les resultats
sont presentes dans la table suivante :
Estimate Std. Error t-value p-value
CAC
0
0,00001178 0,000002675 4,406 0

1
0,05916 0,01124 5,261 0

2
0,8439 0,0315 26,791 0
DAX
0
0,000004639 0,000000756 6,137 0

1
0,06833 0,01125 6,073 0

2
0,8891 0,01652 53,817 0
Une fois ceci fait, on estime la correlation entre les residus, en supposant que celle-ci
nest dierente de 0 quinstantanement (pas de correlation entre les residus pour un
retard quelconque). On commence alors les simulations :
1. En partant dun point donne dans le temps, on simule h
1
et h
2
, pour linstant
decorreles.
2. On transforme ces deux vecteurs de residus, de facon `a ce quils soient correles.
En notant M la matrice de correlation entre ces deux residus que lon souhaite
obtenir, on a :
M =
_
1
1
_
(5.345)
On utilise alors une decomposition de Choleski : il sagit de determiner une matrice
F, telle que F
T
F = M. Pour obtenir deux series dinnovations correles, il sut
5.3. LES MOD
`
ELES ARCH-GARCH 143
de multiplier la matrice composee de deux colonnes contenant les residus simules
et pour linstant decorreles par F. En notant la matrice suivante :
=
_
_
_
_
_

1,1

1,2

2,1

2,2
.
.
.
.
.
.

h,1

h,2
_
_
_
_
_
(5.346)
On calcule donc le produit F.
3. On calcule ensuite de facon recursive les dierentes valeurs de r
1
et r
2
, en calculant
au prealable la valeur de la variance conditionnelle.
4. Finalement, on calcule r
1
et r
2
, la somme des rentabilites calculee pour le titre 1
et 2.
On rep`ete ces simulations pour un nombre raisonnable de fois (un millier de fois conduit
`a des estimations precises). Enn, on determine la VaR de r
1
et r
2
`a 5% de facon non
parametrique (commande quantile sous R). Une fois ces VaR univariees determinees,
on est en mesure de calculer la VaR en terme de perte nette du portefeuille detenu. Il
sut de calculer :
V aR
P
= P
CAC
t
exp{V aR
CAC
} +P
DAX
t
exp{V aR
DAX
} (5.347)
o` u V aR
i
est la VaR calculee sur la somme des rendements du titre i. On rep`ete len-
semble des operations pour toutes les dates dinteret dans une approche backtesting.
On a procede `a une application sur le portefeuille CAC+DAX pour une VaR `a 10 jours.
On presente les resultats obtenus en gure 5.34. Les resultats semblent interessants. Le
principal probl`eme reposant sur le fait que lorsque lon observe une chutte brutale du
prix, on est conduit `a surestimer la VaR 10 jours apr`es. Ce resultat est naturelle dans la
mesure o` u la VaR `a 10 jours est, `a un coecient multiplicatif pret, le prix daujourdhui.
Linteret principal dune demarche basee sur des simulations est quelle permet, en
travaillant sur des series univariees, dincorporer la dependance existant entre actifs.
Mieux, comme on le detaillera dans la section sur les GARCH, on est implicitement
amene `a faire varier la covariance conditionnelle entre les deux actifs, en depis du fait
que lon ai xe la correlation/covariance entre les residus une fois pour toute. Le prin-
cipal inconvenient est que, comme `a chaque fois que lon recourt `a des simulations, le
temps de calcul est plus long que dans le cas univarie simple, presente plus haut.
Notons pour terminer quil est possible deectuer lensemble de ce qui vient detre dit
sur la base de calculs explicites. Dans la mesure o` u les deux actifs ont des rendements
conditionnellement gaussiens, et en constatant que :
V(X +Y ) = V(X) +V(Y ) + 2Cov(X, Y ) (5.348)
on est en mesure de decrire la loi conditionnelle de lensemble des deux rendements. En
eet, on sait que :
E[r
1,t
+r
2,t
|h
t
] = 0 (5.349)
V[r
1,t
+r
2,t
|h
t
] = h
1,t
+h
2,t
+ 2
_
h
1,t
_
h
2,t
(5.350)
(5.351)
144CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
0 50 100 150 200 250 300
3
0
0
0
3
2
0
0
3
4
0
0
3
6
0
0
3
8
0
0
Index
P
o
r
t
e
f
e
u
i
l
l
e
Fig. 5.34 Value at Risk multivariee `a dix jour
Il est alors possible decrire la VaR pour lhorizon souhaite, sans trop de probl`emes
(theoriques). Il evident que dun point de vue pratique, lutilisation de la correlation
comme mesure de dependance est plus quun pari risque ! On rappelle simplement que
la correlation nest quune mesure de lexistance dun lien lineaire entre actifs. Ces
questions sont `a mon sens - pour linstant - bien trop avancees pour etre integrees dans
ce cours. Les probl`emes de mesure de dependance sont abordees dans Embrechts et al.
(1999) et Embrechts et al. (2001). Lune des reponses actuelles (quoique ceci commence
`a dater) `a ces question de correlations passe par les copules, outil statistique permettant
de travailler de facon plus aisee avec des fonctions de repartition multidimensionelles.
Le lecteur interesse par les applications en nance de ce type doutils lira Cherubini
et al. (2005) avec interet.
5.3.6 Bestiaire des GARCH
Il existe de nombreux processus GARCH, existant pour des raisons diverses : prise en
compte de la lente decroissance de lautocorrelation du processus de volatilite, prise
en compte du lien risque/rentabilite, prise en compte de lasymetrie observee dans les
rendements ou liens avec des processus continus. On presente ici trois extensions pos-
sibles des processus GARCH : les mod`eles GARCH integres, les mod`eles GARCH-M,
les mod`eles GARCH asymetriques ainsi que le mod`ele GARCH de Heston.
5.3. LES MOD
`
ELES ARCH-GARCH 145
5.3.6.1 GARCH-M
Les mod`eles GARCH-M furent initialement introduits par Engle et al. (1987) : lambi-
tion de larticle est de presenter un mod`ele permettant de retablir le lien entre rentabilite
et rendement, cher `a la nance de marche. Lidee est donc de faire dependre la renta-
bilite conditionnelle du risque conditionnel lui-meme, de facon lineaire le plus souvent.
Le mod`ele GARCH-M(1,1) est le suivant :
x
t
= h
t
+
_
h
t

t
(5.352)
h
t
=
0
+
1
x
2
t1
+
2
h
t1
(5.353)
avec
t
N(0, 1). Seule la premi`ere equation est modiee par rapport `a un GARCH
classique : on ajoute un terme multiplicatif de la variance, h
t
, que lon appelle prime
de risque. On donne les moments conditionnels :
E[x
t
|h
t
] = h
t
(5.354)
V[x
t
|h
t
] = V[h
t
+
_
h
t

t
|h
t
] = h
t
(5.355)
Lintroduction de la prime de risque na conduit qu`a la modication de lesperance
conditionnelle, laissant la variance conditionnelle inchangee. Cette modication ne mo-
diant que la valeur de lesperance, ce processus recu donc le nom de GARCH in mean,
ou GARCH-M. Le calcul des moments non conditionnels est ici passe sous silence :
ceux-ci sont naturellement plus complexes que ceux proposes dans le cadre des simples
GARCH.
Les restrictions habituelles sappliquent aux param`etres de la variance conditionnelle.
Linference de ce type de processus ne pose pas de probl`eme : on applique les memes
methodes que celles presentees plus haut, dans le cas des processus ARCH/GARCH.
L`a encore, on estime ces mod`eles par maximum de vraisemblance conditionnel, sachant
que :
x
t
|
h
t
N (h
t
, h
t
) (5.356)
Il est alors aise de determiner la log-vraisemblance conditionnelle du processus, pour n
observations :
lnL =
n
2
ln(2)
1
2
_
n

i=1
ln(h
t
) +
(x
t
h
t
)
2
h
t
_
(5.357)
Ajoutons que les GARCH-M sont naturellement leptokurtiques, tout comme les GARCH.
Quen est il cependant de lasymetrie du processus ? Plutot que de se lancer dans des
calculs longs et complexes, on a simplement proceder `a des simulations : on simule
des GARCH-M avec des param`etres egaux pour toutes les simulations et on calcule `a
chaque fois la skewness de la simulation. La gure 5.35 presente la densite estimee par
noyau de lestimateur de la skewness. Les simulations ont ete eectuees `a laide dun
negatif : on remarque que la serie a de bonnes chances detre asymetrique `a gauche.
Linteret de ces mod`eles est de permettre une mesure `a chaque date de lesperance
et de la variance des rendements. Naturellement, ceci fait penser aux mod`eles de type
146CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
8 6 4 2 0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Densit estime de la skewness d'un GARCHM
N = 2000 Bandwidth = 0.03208
D
e
n
s
i
t
y
Fig. 5.35 Densite non parametrique de lestimateur de la skewness
esperance/variance. On propose ici une application du mod`ele GARCH-M `a la fronti`ere
de Markowitz. Soit r
1
et r
2
, les rendements du titre 1 et du titre 2. Chacun de ses
rendements est suppose suivre un mod`ele GARCH-M qui lui est propre. On a donc :
_
r
1,t
=
1
h
1,t
+
_
h
1,t

1,t
h
1,t
=
1,0
+
1,1
r
2
1,t1
+
1,2
h
1,t1
(5.358)
_
r
2,t
=
2
h
2,t
+
_
h
2,t

2,t
h
2,t
=
2,0
+
2,1
r
2
2,t1
+
2,2
h
2,t1
(5.359)
Toute la question est alors de proprement parametrer le lien entre
1
et
2
. On propose
simplement de supposer quils sont instantanement correles et que cette correlation est
constante. On a :
cor(
1
,
2
) = (5.360)
On connait dej`a les deux premiers moments conditionnels univaries, pour chacun des
deux actifs. Il ne reste plus qu`a determiner la covariance conditionnelle entre r
1
et r
2
.
Il sut de la calculer directement :
Cov(r
1,t
, r
2,t
|h
1,t
, h
2,t
) = Cov(
1
h
1,t
+
_
h
1,t

1,t
,
2
h
2,t
+
_
h
2,t

2,t
|h
1,t
, h
2,t
) (5.361)
= Cov(
_
h
1,t

1,t
,
_
h
2,t

2,t
|h
1,t
, h
2,t
) (5.362)
=
_
h
1,t
_
h
2,t
Cov(
1,t
,
2,t
|h
1,t
, h
2,t
) (5.363)
=
_
h
1,t
_
h
2,t
(5.364)
On obtient ainsi la correlation conditionnelle de deux titres. On remarque que meme
si la correlation entre les deux bruits est constante au cours du temps (autrement dit,
les deux titres subissent les memes chocs et y repondent de facon similaire), la cova-
riance conditionnelle, elle, varie au cours du temps. On a donc `a disposition esperance,
5.3. LES MOD
`
ELES ARCH-GARCH 147
variance et covariance conditionnelle pour chaque titre. La correlation entre les titres,
conditionnelle ou pas, reste la meme :
cor(r
1,t
, r
2,t
|h
1,t
, h
2,t
) =
Cov(r
1,t
, r
2,t
|h
1,t
, h
2,t
)
h
1,t
h
2,t
= (5.365)
Les rendements etant de plus conditionnellement gaussiens, il est possible de mettre en
oeuvre la methodologie de Markowitz sans probl`eme. On proposer ici de travailler sur
des simulations. On simule des processus GARCH-M, lies entre eux par la correlation
entre les innovations. Puis on represente la fronti`ere eciente, basee sur les moments
non conditionnels ainis que celles basees sur les moments conditionnels, evoluant au
cours du temps. On observe le resultat de ces simulations en gure 5.36.
0.0 0.2 0.4 0.6 0.8 1.0

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Frontire efficiente
Risque
R
e
n
t
a
b
i
l
i
t

0.0 0.2 0.4 0.6 0.8 1.0

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Frontire efficiente
Risque
R
e
n
t
a
b
i
l
i
t

0.0 0.2 0.4 0.6 0.8 1.0

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Frontire efficiente
Risque
R
e
n
t
a
b
i
l
i
t

0.0 0.2 0.4 0.6 0.8 1.0

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Frontire efficiente
Risque
R
e
n
t
a
b
i
l
i
t

Fig. 5.36 Fronti`ere eciente GARCH-M


Il est `a noter ici que lon a pas procede `a lestimation de ces mod`eles sur des series reelles,
et ce pour plusieurs raisons. Lune des principales est que le lien rentabilite/risque est
loin detre stable selon les actifs etudies. Il serait faux de croire que le lien esperance
variance est toujours et partout valide. Il existe dierents eets microstructurels qui
peuvent expliquer ces phenom`enes, au nombre desquels limpact de la liquidite sur la
formation du prix du risque. Ce type de consideration depasse cependant largement
lobjet de ce cours.
Notons simplement que sur les donnees etudiees dans le cadre de la VaR, il est interessant
de remarquer que le lien risque/rentabilite existe et semble robuste. On calcule la
correlation entre les rendements et la variance conditionnelle telle quon lobtient en
estimant un mod`ele GARCH(1,1). En notant cette correlation, la statistique de test
148CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
permettant de tester que est bel et bien signicativement dierent de 0 est la suivante :

=

_
1
2

n T
n1
(5.366)
o` u T
n1
est une distribution de Student `a n 1 degres de liberte. En calculant le coef-
cient de correlation ainsi que la statistique de test presentee, on obtient les resultats
suivants :
CAC DAX
0,07229244 0,04553088

t 3,125987 1,965682
Sur ces series, il semble exister une correlation signicative et positive entre rendement
et volatilite. En reprenant les estimations obtenues au cours de letude sur la VaR, on
propose une estimation naive du param`etre pour les rendements du CAC et du DAX :
on estime par MCO lequation de la moyenne du GARCH-M, `a equation de la variance
connue. La table suivant fournit les resultats de lestimation :
Estimate Estimate Std. Error t-value p-value
CAC
0
0,00001178 0,000002675 4,406 0,0000105

1
0,05916 0,01124 5,261 0,000000143

2
0,8439 0,0315 26,791 0
0.582470 0.186532 3.123 0.00182
Constante -0,005926 0,002056 -2,882 0,00399
DAX
0
0,00001178 0,000002675 4,406 0,0000105

1
0,05916 0,01124 5,261 0,000000143

2
0,8439 0,0315 26,791 0
0.191232 0.097390 1.964 0.0497
Constante -0.001263 0.001007 -1.254 0.2099
5.3.6.2 GARCH integres
On aborde dans cette section lun des principaux faits stylises tires des mod`eles GARCH :
le fait que la volatilite soit un processus integre, plus particuli`erement un processus
I(1). Quest ce quun processus I(1) ? Il sagit dune notion tiree des series temporelles
que nous navons pas encore abordee, bien quelle occupe une place centrale de nos
jours. Une litterature abondante sest developpee autour de cette notion de processus
integres, dont lensemble des tests de racines unitaires, qui orent davantage de portee
academique que pratique.
Un processus integre dordre 1 ou I(1) est un processus non-stationnaire (cf. n de la
section sur les ARMA), et dont la dierence dordre 1 est, elle, stationnaire. Il sagit
donc dun processus x
t
, dont la moyenne, la variance ou lautocovariance depend du
temps (nest pas stable) mais dont la dierence dordre 1, elle, ne depend pas du temps.
Cette dierence est evidement x
t
= x
t
x
t1
(juste pour Pepino, pour le cas o` u).
Un bon exemple de processus non stationnaire en nance est le prix dun actif nan-
cier (hors electricite) : on sait que le prix du CAC nest pas stationnaire, mais que le
5.3. LES MOD
`
ELES ARCH-GARCH 149
DAX SMI CAC FTSE

1
0,07 0,75 0,88 0,94

2
0,89 0,11 0,05 0,05
Somme 0,96 0,86 0,93 0,99
Tab. 5.4 Estimation de GARCH sur des indices europeens
rendement (pas tr`es loin de la dierence dordre 1) est lui stationnaire (bruit blanc en
general).
On a pu constater lors de lestimation des mod`eles GARCH(1,1) que la condition de sta-
tionnarite netait pas toujours remplie. On rappelle que pour un mod`ele GARCH(1,1)
de la forme :
x
t
=
_
h
t

t
(5.367)
h
t
=
0
+
1
x
2
t1

2
h
t1
(5.368)
ce processus nest stationnaire (sa variance nexplose pas) que si
1
+
2
< 1. Dans
de nombreuses estimations de GARCH, on observe en general que la somme de
1
et

2
tr`es proche de 1, sans toutefois lui etre superieur. La table 5.4 presente lestimation
de mod`eles GARCH(1,1) sur les dierents indices europeens contenus dans la base de
donnee EuStockMarkets disponible sous R. On remarque que la somme des coecients
est tr`es souvent proche de 1 : on parle souvent de processus integre pour la volatilite.
Ceci fait au passage remarque que la volatilite dune actif nancier nest ni constante,
ni une variable lisse : il sagit dun processus agite, sujet `a des changements de regime
le plus souvent. Il existe des mod`eles `a changement de regime en series temporelles, qui
ne sont pas developpes dans le cadre de ce maigre cours. Un lecteur interesse trouvera
une breve introduction dans Wang (2003)[Chapitre 5].
Ce qui suit sinspire largement de Poon (2005)[Chapitre 4]. Un processus GARCH pour
lequel on a
1
+
2
= 1 est un processus non stationnaire en variance, dans la mesure
o` u sa variance non conditionnelle tend vers +. Le processus r
t
(les rendements) reste
cependant stationnaire au sens stricte. On dit que la volatilite conditionnelle suit un
processus IGARCH(1,1), et ni le moment dordre 2 ni le moments dordre 4 nexistent :
ils divergent tous vers +.
Lun des mod`eles de volatilite les plus utilises en Risk Management est le mod`ele
EWMA de RiskMetrics. EWMA signie Exponentially Weighted Moving Average : il
sagit simplement dun mod`ele speciant la volatilite comme une moyenne ponderee des
volatilites passees, avec des ponderations decroissant exponentiellement dans le temps.
Dune facon generale, le mod`ele secrit :

2
t+1
=

i=0

2
ti1

i=0

i
(5.369)
est appele param`etre de lissage. Il sagit dune approche visant `a la prevision : le
param`etre de lissage est estime en minimisant lerreur de prevision dans lechantillon.
150CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
est lhorizon de memoire du mod`ele. Ce mod`ele, outre le fait quil soit utilise dans de
nombreuses applications de RiskMetrics, a la particularite detre proche dun mod`ele
GARCH integre. Pour prouver cette propriete, il sut de faire une petit coup de pont
dAvignon : on commence par retravailler lexpression dun GARCH(1,1), puis on re-
vient sur le mod`ele EWMA pour etudier la similarite.
Dans le cadre dun GARCH(1,1), on a :
h
t+1
=
0
+
1
x
2
t1
+
2
h
t
(5.370)
=
0
+
2

0
+
1
x
2
t1
+
2

1
x
2
t1
+
2
2
h
t1
(5.371)
En poursuivant les iterations, on trouve nalement :
h
t+1
=
0

i=1

i1
1
+
0

i=1

i1
1
x
2
ti
+

2
h
t
(5.372)
Alors, si
2
< 1, lorsque , on a :
h
t+1
=

0
1
2
+
0

i=1

i1
1
x
2
ti
(5.373)
Ceci est vrai, meme dans le cas o` u
1
+
2
= 1. Limportant est que
2
< 1, ce qui
semble vraisemblablement etre le cas sur de nombreuses series nanci`eres. On obtient
alors une forme interessante de volatilite. Comparons ceci au mod`eles EWMA :

2
t+1
=

i=0

2
ti1

i=0

i
(5.374)
Ici aussi, pour peu que < 1, il est possible de passer `a la limite pour trouver une
forme analytique `a la variance :

2
t+1
= (1 )

i=0

2
ti1
(5.375)
A une constante pret, on retrouve notre dynamique de variance GARCH(1,1). Le
mod`ele EWMA peut etre vu `a bien des egards comme un simple mod`ele GARCH(1,1)
integre. Lune des proprietes remarquable de ce type de processus est quil ne sont pas
victimes de mean-reverting rapide comme cest le cas pour un GARCH(1,1). Il ont au
contraire tendance `a conserver et `a amplier les chocs temporaires de volatilite : ils
ont ainsi une memoire plus longue que les simples mod`eles GARCH. On parle ainsi
souvent de memoire longue de la volatilite pour designer ce fait stylise. Il existe des
processus de series temporelles permettant de prendre en compte de facon statisfaisante
cette memoire longue (dit processus `a memoire longue). Il nest cependant pas certain
que leur application se justie pleinement : de nombreux processus `a memoire courte
(tel que les mod`eles `a changement de regime) gen`erent eux-aussi des faits stylises de
memoire longue, sans etre philosophiquement responsables. Il sagit dun terrain de
recherche empirique depuis les annees 2000.
5.3. LES MOD
`
ELES ARCH-GARCH 151
Pour terminer, revenons sur le calcul de la VaR dans la perspective dune volatilite
integree. Tsay (2002)[chapitre 7] propose une ecriture alternative au mod`ele RiskMe-
trics. La presentation di`ere leg`erement de celle qui en est fournie dans Poon (2005),
meme reste globalement la meme. Le mod`ele EWMA repose sur lhypoth`ese que la
distribution conditionelle des rendements soit normale, desperance nulle et de variance

t
. La dynamique de la variance est decrite de la fa con suivante :

2
t
=
2
t1
+ (1 )r
2
t1
(5.376)
o` u < 1. On retrouve donc bien un mod`ele integre, avec une variance non conditionnelle
qui nest pas denie, dans la mesure o` u la somme des deux param`etres de la dynamique
de la variance est egale `a 1 par construction. Il sagit par consequent dun mod`ele
IGARCH(1,1), sans drift. Il est possible de fournir une prevision de la variance, comme
on la fait dans le cas dun processus GARCH classique. On construit ces previsions de
facon recursive, en rappelant que :
r
t
=
t

t
(5.377)
avec
t
N(0, 1). On a alors :

2
t+1
=
2
t
+ (1 )(
2
t

2
t
) (5.378)
=
2
t

2
t
+
2
t
+ (1 )(
2
t

2
t
) (5.379)
=
2
t
+ (1 )
2
t
(
2
t
1) (5.380)
On sait que :
E[
2
t
|
t
] = 1 (5.381)
On en deduit donc que :
E[
2
t+1
|
t
] = E[
2
t
|
t
] (5.382)
Dans un mod`ele integre, la meilleure prevision de la volatilite que lon puisse formuler,
sachant que linformation dont on dispose en t est reduite `a la seule la volatilite dau-
jourdhui est
t
. Une autre propriete remarquable decoulant de ce qui vient detre dit
est la suivante :
E[
2
t+h
|
t
] = E[
2
t+h1
+ (1 )
2
t+h1
(
2
t+h1
1)|
t
] (5.383)
= E[
2
t+h1
|
t
] (5.384)
En iterant la derni`ere equation, on trouve donc que la meilleure prevision que lon
puisse formuler de la volatilite future pour un horizon t + h est la prevision que lon
pourrait faire `a un jour.
Dans le cas o` u la ltration ne se reduit pas `a
t
, mais peut etre etendue `a {
t
, r
t
}, alors
la prevision `a un jour di`ere de la volatilite daujourdhui :
E[
2
t+1
|
t
, r
t
] =
2
t
+ (1 )r
2
t
(5.385)
152CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
On constate alors quun mod`ele integre ne conduit pas `a un retour de la prevision vers
le niveau moyen de lechantillon : la volatilite prevue `a long terme nest ni plus moins
que celle daujourdhui. Ceci est globalement en desaccord avec ce quon observe sur le
marche. En general, une phase de forte volatilite (bull market) est suivie dune retour
au calme (bear market). Neanmoins, comme la table precedente le montrait, la volati-
lite, sans etre compl`etement integree, nest pas loin de letre.
Fort de ces deux elements (E[
2
t+h
|
t
, r
t
] =
2
t+1
et
2
t+1
=
2
t
+(1)r
2
t
), on est alors
en mesure de determiner une VaR pour un horizon h quelconque, en reprenant ce qui a
ete dit au cours des sections precedentes. On cherche la loi conditionnelle de

h
i=1
r
t+i
,
comme precedement. Sait faire de calcul, on sait quelle est gaussienne, desperance
nulle et de variance egale `a la somme des variances, du fait de lhypoth`ese dabsence
de correlation serielle dans les rendements. On a donc :
V
_
h

i=1
r
t+i
|
t
, r
t
_
=
h

i=1
V[r
t+i
|
t
, r
t
] (5.386)
=
h

i=1

2
t+1
(5.387)
= h
2
t+1
(5.388)
(5.389)
Ainsi, la variance des rendements `a h jours correspond simplement `a h fois la variance
`a un jour. La VaR se calcule ensuite de fa con evidente :
P
_
h

i=1
r
t+i
V aR
_
= 5% (5.390)
P
_
_

h
i=1
r
t+i
_
h
2
t+1

V aR
_
h
2
t+1
_
_
= 5% (5.391)
(5.392)
On trouve naturellement :
V aR
h
= 1, 64

h
t+1
(5.393)
Il sagit dun r`egle bien connue par les risk managers et acceptee par Bale II : la VaR `a h
jours est egale `a

h fois la VaR `a un jour. Cette methodologie repose bien evidement sur


la gaussianite conditionnelle des rendements, et conduit naturellement `a sous-estimer
reguli`erement la VaR veritable. Mais quand les chires doivent tomber au quotidien,
il nen reste pas moins que la methode est seduisante.
5.3.6.3 GARCH asymetriques
Dans cette section, on introduit bri`evement les mod`eles GARCH asymetriques. Ceux-ci
ont ete introduits de facon `a rendre compte du fait que les series de rendements aient
5.3. LES MOD
`
ELES ARCH-GARCH 153
en general un skewness inferieure `a 0. On a vu quun mod`ele GARCH standard ne
permettait pas dobtenir une skewness dierente de 0. Une abondante litterature sest
alors developpee, proposant des mod`eles permettant de generer sous certaines condi-
tions ce fait stylise.
Linteret dune distribution skewed vient de la presence de ce que la theorie nanci`ere
a baptise eet levier. Il sagit dun fait stylise conduisant `a lobservation (dans le cas
deet levier au sens strict) dun accroissement de la volatilite lorsque les rendements
eux-meme decroissent. Ceci sinterpr`ete souvent en expliquant quune mauvaise nou-
velle (rendements negatifs) a un impact positif important sur la volatilite future dun
titre. Gourieroux and Jasiak (2001)[chapitre 6] presente cette hypoth`ese en terme de
correlation, dans le cadre dun mod`ele ARCH(1). Il sagit de determiner `a quelle condi-
tion un ARCH(1) peut generer un eet levier. Le mod`ele general secrit :
r
t
= (
0
+
1
r
2
t1
)
1/2

t
(5.394)
avec
t
suivant une loi inconnue, mais de variance egale `a 1. On sinteresse alors `a la
covariance suivante :
Cov(r
t
r
t1
, h
t+1
h
t
|r
t1
) (5.395)
Leet de levier correspond `a une covariance negative. On se demande `a quelle condition
on peut observer ce type de comportement dans le cadre dun ARCH(1). Pour cela, il
sut de developper un tant soit peu les calculs :
Cov(r
t
r
t1
, h
t+1
h
t
|r
t1
) = Cov(r
t
, h
t+1
|r
t1
) (5.396)
= Cov(r
t
,
0
+
1
r
2
t
|r
t1
) (5.397)
=
1
Cov(r
t
, r
2
t
|r
t1
) (5.398)
=
1
Cov(
_
h
t

t
, h
t

2
t
|r
t1
) (5.399)
=
1
h
3/2
t
Cov(
t
,
2
t
|r
t1
) (5.400)
=
1
h
3/2
t
E[
3
t
] (5.401)
Ainsi, un mod`ele ARCH(1) gen`ere un eet levier `a la condition que ses innovations
soient asymetriques vers la gauche. Autrement dit, Cov(r
t
r
t1
, h
t+1
h
t
|r
t1
) < 0
dans le cadre dun ARCH(1) si E[
3
t
] < 0, le reste des param`etres etants positifs.
On comprend alors mieux linteret de travailler sur des mod`eles permettant de generer
de lasymetrie. Ils permettent de rendre compte dun fait stylise important en nance,
i.e. leet levier.
Il existe plusieurs mod`eles permettant de generer cet eet asymetrique. Ils reposent en
general sur lintroduction dune variable indicatrice (i.e. valant soit 0, soit 1) qui prend
la valeur 1 dans le cas o` u les rendements sont negatifs. Lun des mod`eles les plus connus
est le mod`ele GARCH de Glosten, Jagannathan et Runkle (Glosten et al. (1993)), dit
GJR-GARCH. Il secrit de la facon suivante :
r
t
=
_
h
t

t
(5.402)
h
t
=
0
+
1
r
2
t1
+
2
h
t1
+1
r
t1
<0
r
2
t1
(5.403)
154CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES

t
N(0, 1). 1
r
t1
<0
est une variable qui prend la valeur 1 lorsque les rendements en
date t 1 sont negatifs. Dans ce cas l`a, on observe une volatilite h
t
`a la date suivante
qui est plus importante que dans le cas o` u les rendements sont positifs, pourvu que
>. On a encore un processus pour les rendements qui est conditionnellement centre.
La variance conditionnelle quant `a elle depend des rendements `a la date passe :
E[h
t
|r
t1
> 0] =
0
+
1
r
2
t1
+
2
h
t1
(5.404)
E[h
t
|r
t1
< 0] =
0
+ (
1
+)r
2
t1
+
2
h
t1
(5.405)
Ce type de mod`ele se rapproche peu `a peu de mod`eles `a changement de regime, avec
une specication naive du seuil sur les rendements `a depasser. Ces mod`eles ne sont
encore une fois pas traites ici, bien quils revetent un interet certain en econometrie de
la nance. Ils restent un sujet trop avance pour etre aborde ici.
5.3.6.4 Mod`ele GARCH de Heston
Lobjet de cette section est de montrer les liens existants entre les processus GARCH(1,1)
et les processus continus classiquement utilises en nance. Cette section sinspire gran-
dement de Aboura (2005) ainsi que de Gourieroux (1992).
Lune des utilisations que lon on aurait envie de faire de ces processus GARCH est bien
evidement de les utiliser an de valoriser des actifs nanciers. Plus particuli`erement, on
sait que les options sont des actifs dont le prix est particuli`erement sensible aux varia-
tions de la volatilite. Un certain nombres darticles de recherche se sont ainsi tournes
vers des methodes permettant de valoriser des options vanilles (typiquement un call) en
utilisant des dynamiques GARCH pour les rendements du sous-jacent. Dans le cadre
de ce type de demarche, on butte sur deux types de dicultes :
Il sagit tout dabord de determiner un processus continu dont la discretisation corres-
pond bien `a un processus GARCH. En general, on est souvent capable de passer dun
processus continu sa contrepartie discr`ete. On se souvient de la petit application du
lemme dIto permettant de montrer que dans le cadre de Black-Scholes, la diusion
discretisee correspond exactement `a un bruit blanc. En revanche, lorsque lon veut
passer dune dynamique discr`ete `a sa version continue, rien nest gagne davance.
Il sagit encore dun sujet actuel de recherche : inutile daborder cette question en
profondeur ici.
Le second probl`eme rencontre est de passer de la dynamique historique (celle que
lon observe) `a la dynamique risque neutre. Un certain nombre de methodes ont ete
proposes et nous aborderons bri`evement celle proposee par Heston.
Commencons par nous interesse `a la la limite possible dun processus GARCH. Bien
evidement, il sagit de la limite au sens nancier du terme, i.e. pour un pas de temps
innitesimal. Il ne faut surtout pas confondre la limite en nance, avec une limite
vers linni, souvent utilisee en statistique (par exemple dans lenonce de la loi des
grands nombres). Engle et Ishida (2002) montrent comment trouver les diusions cor-
respondants `a certains processus GARCH. On propose ici de developper le cas dun
GARCH(1,1).
5.3. LES MOD
`
ELES ARCH-GARCH 155
On a le mod`ele suivant pour les rendements :
r
t
=
_
h
t

t
(5.406)
h
t
=
0
+
1
r
2
t1
+
2
h
t1
(5.407)
avec les hypoth`eses habituelles. On travaille ici sur la dynamique de la variance condi-
tionnelle, h
t
. Il sagit dune serie dastuces permettant de trouver par passage `a la
limite le processus eectivement suivi par la variance conditionnelle. On commence par
reecrire la variance comme suit :
h
t
=
0
+ (
1
+
2
)h
t1
+
1
(r
t1
h
t1
) (5.408)
En posant alors =
1
+
2
et en rempla cant r
2
t
par son expression, il vient :
h
t
=
0
+h
t1
+
1
(h
t1

2
t1
h
t1
) (5.409)
=
0
+h
t1
+
1
h
t1
(
2
t1
1) (5.410)
On note alors
t
=
2
t1
1, un bruit de loi chi-deux, centre. On remplace :
h
t
=
0
+h
t1
+
1
h
t1

t
(5.411)
Nouvelle astuce : on reecrie le processus en travaillant sur les dierences de variance
conditionnelle :
h
t
h
t1
=
0
h
t1
+h
t1
+
1
h
t1

t
(5.412)
=
0
(1 )h
t1
+
1
h
t1

t
(5.413)
On note `a present k = (1 ). On remplace :
h
t
h
t1
=
0
kh
t1
+
1
h
t1

t
(5.414)
= k
_

0
k
h
t1
_
+
1
h
t1

t
(5.415)
On note =

0
k
=

0
1
1
. On naura pas manque de remarquer que cette constante
ressemble furieusement `a la lesperance non conditionnelle de la variance dun processus
GARCH(1,1). En reintroduisant, on obtient :
h
t
h
t1
= k ( h
t1
) +
1
h
t1

t
(5.416)
Cette derni`ere expression correspond `a un cas particulier dun processus general developpe
par Engle et Ishida, nomme CEV-GARCH, par analogie avec les mod`eles CEV (Constant
Elasticity Variance) developpes par la nance en temps continu. La version discr`ete dun
CEV-GARCH est :
h
t
h
t1
= k( h
t1
) +
1
h

t1

t
(5.417)
et semble converger vers :
dh
t
= k( h
t
) +
1
h

t
dW
t
(5.418)
156CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
o` u W
t
est un mouvement brownien standard. Dans notre cas, on trouve naturellement
comme limite dun GARCH(1,1) la diusion suivante :
dh
t
= k( h
t
) +
1
h
t
dW
t
(5.419)
La question suivante, et qui nest pas abordee ici, est de parvenir `a determiner la dyna-
mique risque neutre des rendements. Heston[1993] propose le principe de Neutralisation
Locale au Risque. Un lecteur soucieux den savoir plus lira avec interet le dernier cha-
pitre de Aboura (2005), ainsi que le papier de Heston. Ce point nest pas developpe
dans la mesure o` u il sappuie sur des mod`eles `a volatilite stochastique qui nont pas
encore ete abordes.
5.3.7 Mod`eles exponentiels
Cette courte section a pour objectif dintroduire bri`evement lusage des mod`eles expo-
nentiels et `a volatilite stochastiques en series temporelles. Les deux types de mod`eles
peuvent etre vus comme appartenant `a la meme famille, dans la mesure o` u ils reposent
tous deux sur une parametrisation de la volatilite sous la forme de lexponentielle dun
processus, an de garantir sa positivite.
5.3.7.1 Le mod`ele EGARCH
Les mod`eles EGARCH furent introduits par Nelson (1991) an dameliorer et dassou-
plir les processus GARCH tel quon les a presente jusqu`a present. Il sagit tout dabord
de trouver une facon deviter lensemble des contraintes pesant sur les param`etres des
mod`eles GARCH : on a vu quil etait necessaire dajouter ces contraintes pour garan-
tir la positivite et lexistence de la variance non conditionnelle. Nelson propose une
methode permettant deviter ces contraintes, et permettant de plus degenerer de la
skewness negative.
On se borne ici `a presenter le mod`ele, sans evoquer ni linference, ni la prevision en
utilisant ce mod`ele. Comme dans le cadre dun GARCH classique, on a :
r
t
=
_
h
t

t
(5.420)
Ce qui change cette fois-ci, cest la fa con decrire lequation de la variance. Celle-ci est
ecrite en terme de logarithme :
ln(h
t
) =
0
+
1
ln(h
t1
) +
2
(|
t1
|
_
2/)
t1
(5.421)
avec
t
N(0, 1). Dans ce cas E[|
t
|] =
_
2/, do` u le fait que lon retire cette quantite
dans le terme
2
(|
t1
|
_
2/) : on travaille sur une variable centree. est suppose
etre positif (mais precede dun signe negatif), an de permettre les eets levier tels
quon les a evoque plus haut. On a ainsi :
E[ln(h
t
)|h
t1
,
t1
> 0] = (
0

2
_
2/) +
1
ln(h
t1
) + (
2
)
t1
(5.422)
E[ln(h
t
)|h
t1
,
t1
< 0] = (
0

2
_
2/) +
1
ln(h
t1
) ( +
2
)
t1
(5.423)
5.3. LES MOD
`
ELES ARCH-GARCH 157
Ainsi, selon les valeurs des param`etres, la reponse de la volatilite `a des chocs positifs ou
negatifs peut dierer, autorisant la mod`elisation des fameux eets leviers. On se forge
rapidement lintuition que lorsque
t1
< 0, on a alors une volatilite conditionnelle
plus importante que dans le cas contraire. On nen dira pas davantage au sujet de ces
mod`eles, ce qui reste etant trop avance.
5.3.7.2 Les mod`eles `a volatilite stochastique
On presente encore plus brievement les mod`eles `a volatilite stochastique, sur la base de
ce qui en est dit dans Wang (2003)[chapitre 3 et 7]. Jusqu`a present, on a suppose que
la loi de la variance conditionnelle etait integralement dictee par la loi des r
t
et quelle
navait par consequent pas de loi propre. On rappelle que dapr`es ce qui a ete dit, la
loi de la volatilite historique dans le cadre dun GARCH ne devrait pas etre loin dun
processus
2
decentre.
Les mod`eles de volatilte stochastique se presentent dans un cas particulier simple de la
facon suivante :
r
t
=
t

t
(5.424)

t
N(0,

) (5.425)
h
t
= ln
2
t
(5.426)
A la dierence des EGARCH, on propose une dynamique propre `a la variance, avec une
loi propre. Wang (2003) propose simplement de donner `a ln
2
t
un pattern ARMA(p,q).
On a alors dans le cas dun ARMA(1,1), la volatilite suivante :
h
t
= +h
t1
+
t
+
t1
(5.427)

t
N(0,

) (5.428)
Au nal, on a donc deux bruits dierents : un premier bruit lie `a lequation des ren-
dements eux-meme, et un second bruit venant de la volatilite elle-meme. Dans ce cas
precis, la loi de la volatilite est une loi log-normale, `a support positif, tout comme le

2
que lon obtient dans le cas dun ARCH(1). On retrouve un processus proche dun
ARCH(1) dans le cas o` u = 0.
Linference de ce type de processus repose sur des methodes particuli`erement avancees
(ltres de Kalman) et il nest pas question daborder ces questions ici. On remarque
cependant que les mod`eles ARMA estimes sur les volatilite implicites presentees dans
le cadre de la section consacree aux ARMA peuvent etre vu comme une fa con de se
rapprocher de ce type de mod`eles.
Terminons ce chapitre en remarquant quil est possible de fournir dierentes parametrisations
pour la correlation entre les deux bruits, et que cette parametrisation permet de rendre
compte de forme de smile assez variees. Cf. Aboura (2005)[Chapitre 2].
158CHAPITRE 5. INTRODUCTION AUX MOD
`
ELES DE S

ERIES TEMPORELLES
Chapitre 6
Boite `a outils statistiques
Ce dernier chapitre presente quelques applications statistiques utiles `a la nance :
lanalyse en composantes principales, utile pour lanalyse des series mutlivariees et des
bases de donnees consequentes ; les methodes non-parametriques, rarement utiles (elles
consomment enormement de donnees), mais souvent utilisees dans les logiciels de sta-
tistique.
Il sagit dun chapitre relativement leger : on fournit `a chaque fois un certain nombre de
references pour tout lecteur soucieux dapprofondir ses connaissances (comme Pepino
par exemple).
6.1 Methodes non-parametriques et application
Dans tout ce qui a ete developpe jusqu`a present, on a specie une forme functionnelle
intuitee `a partir de dierents elements, tel que lACF du carre des rendements pour
former lintuition des mod`eles ARCH. Il nest pas toujours possible de specier cette
forme ex ante, et cest precisement l`a quinterviennent les methodes non parametriques.
6.1.1 Introduction aux methodes non parametriques
Lessence des mod`eles non parametriques est le lissage, i.e. le fait dutiliser des esti-
mateurs permettant de lisser en quelques sortes les relations entre dierentes variables.
Supposons par exemple que lon observe deux variables X et Y , liees par la relation
suivante :
Y
t
= m(X
t
) +
t
(6.1)
o` u
t
est un bruit blanc, desperance nulle. m(.) est une fonction arbitraire mais lisse
de x
t
. Placons nous en une date t, et supposons alors que X = x. Supposons egalement
que pour cette date, lon dispose de n observations pour Y
t
. On peut alors ecrire :
1
n
n

i=1
y
i
= m(x) +
1
n
n

i=1

i
(6.2)
159
160 CHAPITRE 6. BOITE
`
A OUTILS STATISTIQUES
On sait que par la loi des grands nombres, on a :
1
n
n

i=1

i
0 (6.3)
On trouve donc que
1
n

n
i=1
y
i
est un estimateur consistant de m(x). Evidement, en
nance, on dispose rarement (jamais) de ces n observations. En general, on a `a dispo-
sition un processus joint {y
t
, x
t
}. Dans ces cas l`a, on propose dutiliser un compromis,
base sur une moyenne ponderee des y
t
`a la place dune simple moyenne. On propose
alors une relation de la forme :
m(x) =
1
n
n

i=1

i
(x)y
i
(6.4)
o` u
t
(x) est un poids qui est plus important pour les y
t
pour lesquels on a des x
t
proche
de x. Lestimation est ainsi determinee `a la fois par la distance entre x
t
et x et `a la fois
par le poids accorde `a cette distance.
Tout ceci peut sembler plutot abscond, et est principalement utilise lors de lestimation
des densites par noyau.
6.1.2 Estimateurs `a noyau
Il est possible dapprocher lestimation dune densite, `a laide dun histogramme. Mais
il est egalement possible, pour peu que lon dispose de susament de donnees, de lisser
cet histogramme `a laide dun noyau. Le noyau est une forme de fonction de lissage.
On note K(x) ce noyau. Comme il sagit de poids, il est necessaire davoir la propriete
suivante :
_
K(z)dz = 1 (6.5)
En general, on ajoute un param`etre dechelle, appele bandwidth et note h, que lon
incorpore comme suit :
K
h
(x) =
1
h
K
_
x
h
_
,
_
K
h
(z)dz = 1 (6.6)
La fonction de poids est alors denie comme suit :

t
(x) =
K
h
(x x
t
)
1
n

n
t=1
K
h
(x x
t
)
(6.7)
Cette parametrisation permet evidement dobtenir des poids dont la somme soit egale
`a n. On obtient alors lestimateur `a noyau de Nadaraya-Watson, qui prend la forme
suivante :
m(x) =

n
t=1
K
h
(x x
t
)y
t

n
t=1
K
h
(x x
t
)
(6.8)
6.1. M

ETHODES NON-PARAM

ETRIQUES ET APPLICATION 161


Dans la pratique, il est necessaire de specier une forme pour le noyau. On utilise dans
le cas le plus courant un noyau gaussien qui est deni par :
K
h
(x) =
1
h

2
exp
_

x
2
2h
2
_
(6.9)
Tout lart de lestimation par noyau consiste alors `a determiner un h optimal. Tsay
(2002) presente quelques intuitions dans le cas dun noyau dEpanechnikov. On donne
ici simplement la r`egle que lon se forge rapidement en utilisant ce type destimation :
un h trop faible conduit `a ne pas assez lisser lhistogramme. Au contraire, un h trop
important lisse plus que de raison lhistogramme empirique.
Le choix de h ne donc si etre trop petit, ni trop grand. La fonction density de R
determine ce h de facon optimale, `a laide de methodes qui sont trop avancees pour
etre presentees ici. Notons pour conclure que ces methodes non parametriques ne sont
applicables qu`a partir du moment o` u lon dispose dun nombre de donnees susantes
(i.e. au moins 1000 observations). On presente un exemple en gure 6.1.
4 2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
density.default(x = x)
N = 10000 Bandwidth = 0.1423
D
e
n
s
i
t
y
Fig. 6.1 Densite estimee par methode des noyaux
Voici un exemple de fonction R permettant dappliquer la methode des noyaux. Elle est
relativement simple et necessite doptimiser le h `a taton.
kernel<-function(X,n,h,min,max){
k=length(X);
support<-seq(min,max,length=n);
fonct.rep<-numeric(n);
for (i in 1:n){fonct.rep[i]=1/(k*h)*sum(1/sqrt(2*pi)*exp(-((X-support[i])/h)^2))};
return(list(fonct.rep=fonct.rep, t=support))
}
162 CHAPITRE 6. BOITE
`
A OUTILS STATISTIQUES
La gure 6.2 presente lestimation de la densite dune loi normale centree reduite dans
le cas o` u h est mal choisi. On a utilise le code precedent pour construire ces graphiques.
3 2 1 0 1 2 3
0
.
0
5
5
0
.
0
6
0
0
.
0
6
5
0
.
0
7
0
0
.
0
7
5
h=5
Support
L
o
i

n
o
r
m
a
l
e

c
e
n
t
r

e

r

d
u
i
t
e
3 2 1 0 1 2 3
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0
.
3
5
h=0.05
Support
L
o
i

n
o
r
m
a
l
e

c
e
n
t
r

e

r

d
u
i
t
e
Fig. 6.2 Densite estimee par methode des noyaux
6.2 Analyse des donnees
Lanalyse des donnees fournit un spectre de methodes robustes permettant de faire du
data-mining, i.e. de lexploration de donnees. Il arrive assez souvent que lon se retrouve
face `a un nombre important de series de donnees, dont on se sait pas grand chose, sinon
quelles son liees. Lanalyse en composantes principales permet de passer dune base de
donnees contenant un grand nombre de variables, `a une base de donnees resumee par un
nombre de facteurs limite. Il est alors nettement plus facile danalyser ce nombre reduit
de facteurs que de travailler sur lensemble des series de donnees. On presente dans ce
qui suit la methode de lACP, ainsi quune application bien connue `a la courbe des taux.
6.2.1 Analyse en composante principales
Nous avons jusquici accorde peu dattention aux series mutlivariees, i.e. `a letude de p
series de donnees simultanement. LACP permet dexplorer ces p series de donnees, en
formant des facteurs orthogonaux `a partir de la matrice de correlation des p series.
On travaille `a present sur une matrice X de taille M(n, p), contenant les n observa-
tions des p series que lon souhaite etudier. Une ACP propose de determiner un nombre
reduit de facteurs qui sont des combinaisons lineaires des elements de la matrice X, de
facon `a expliquer les liens existants entre les dierentes series. Ce faisant, on parvient
en quelques sortes `a expliquer la matrice de correlations de ces p series. Limportant
dans cette methode est de permettre la construction dun nombre de facteurs qui soit
6.2. ANALYSE DES DONN

EES 163
inferieur `a p. Lidee est donc de reduire la dimensionalite du probl`eme.
Il existe un certain nombre de bonnes references, plus ou moins avancees, permettant
de comprendre lACP ou dapprofondir ce qui va etre presente. On pourra se reporter
par exemple `a Tsay (2002)[chapitre 8], Pag`es (2005) et Saporta (1988). Ce sont les
ouvrages utilises lors de lelaboration de ces notes de cours.
On travaille `a present sur notre matrice X qui est telle que :
X =
_
_
_
_
_
_
x
1,1
x
1,2
. . . x
1,p
x
2,1
.
.
.
.
.
. x
1,p
.
.
.
.
.
.
.
.
.
.
.
.
x
n,1
x
n,2
. . . x
n,p
_
_
_
_
_
_
(6.10)
On commence par un petit peu de calcul matriciel. On appelle centre de gravite le
vecteur compose des moyennes empiriques, variable par variable. On le note :
g
T
=
_
x
.,1
x
.,2
. . . x
.,p
_
=
1
n
X
T
1
n
(6.11)
Avec 1
n
un vecteur colonne compose de 1. On note que ceci revient `a accorder autant
dimportance `a toutes les observations. Il est possible dutiliser des poids dierents
de
1
n
, permettant daccorder plus ou moins dimportance aux observations, selon, par
exemple, leur ecart `a la moyenne (metrique inverse variance).
On en deduit Y , la matrice des p observations centrees :
Y = X 1
n
g
T
(6.12)
Il est alors aise dobtenir la matrice de variance/covariance des series. Il sagit simple-
ment de :
V =
1
n
X
T
X gg
T
(6.13)
=
1
n
Y
T
Y (6.14)
La matrice des observations centrees reduites secrit donc naturellement :
Z = Y D
1/s
, avec D
1/s
=
_
_
_
_
_
1
s
1
0 . . . 0
0
1
s
1
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 0
1
s
p
_
_
_
_
_
(6.15)
o` u D
1/s
est la racine de linverse de la premi`ere diagonale de la matrice V, i.e. une ma-
trice composee de linverse des ecart-types de chaque variable. La matrice de correlation
des variables sobtient alors de facon aisee :
R =
1
n
Z
T
Z (6.16)
164 CHAPITRE 6. BOITE
`
A OUTILS STATISTIQUES
Il est possible de proceder `a une ACP sur la matrice V ou sur la matrice R. Cepen-
dant, lutilisation de V presente le desavantage de ne pas fournir des facteurs stables `a
toute combinaison lineraire de chaque variable. En clair : si on modie de facon lineaire
une variable particuli`ere, lACP sur V ne fournira pas ex-post les memes facteurs. On
preferera alors utiliser R pour lACP : R est insensible `a toute transformation lineaire
variable par variable. Ceci revient en realite `a realiser une ACP sur V, en utilisant une
metrique particuli`ere, i.e. une mesure de distance entre observations, i.e. la metrique
denie par D
1/s
. On en dira pas plus sur ce point plus theorique que pratique.
On appelle intertie totale de X la moyenne ponderee des carres des distances des
observations au centre de gravite. On a donc :
I
g
=
1
n
n

i=1
_
X
i,.
g
T
_
D
1/s
_
X
i,.
g
T
_
T
(6.17)
=
1
n
n

i=1
Z
i,.
Z
T
i,.
(6.18)
Linertie peut etre vue comme une sorte de variance totale de X : il sagit de lecart entre
chaque observation et le centre de gravite. Cette notion presente un certain nombre de
proprietes interessantes. On commence par reecrire linertie de la facon suivante :
I
g
=
1
n
n

i=1
p

j=1
Z
2
i,j
(6.19)
=
p

j=1
1
n
n

i=1
Z
2
i,j
(6.20)
=
p

j=1
1
n
n

i=1
(X
i,j
g
j
)
2
s
2
j
(6.21)
=
p

j=1
1
s
2
j
1
n
n

i=1
(X
i,j
g
j
)
2
. .
s
2
j
(6.22)
=
p

j=1
s
2
j
s
2
j
(6.23)
= Tr(R) (6.24)
= p (6.25)
Avec la metrique utilisee, linertie totale est toujours la meme : elle est egale au nombre
de variables presentes dans X. Lidee sous-jacente `a lACP est de proposer une methode
permettant de resumer un grand nombre de variables en un nombre reduit de facteurs,
ces facteurs ayant ete composes suivant une r`egle basee sur linertie. Le crit`ere pour
former les facteurs est simple : on cherche k facteurs orthogonaux, de facon `a former
une nouvelle base orthogonalisee permettant de representer nos p variables. On cherche
ces facteurs de facon `a ce que linertie de X dans cette nouvelle base soit la plus im-
portante possible.
6.2. ANALYSE DES DONN

EES 165
En general, on presente ceci sous la forme de projections : on cherche un projecteur
P, i.e. une matrice permettant de transformer des variables dans X pour en faire des
variables dans la nouvelle base. Un projecteur presente un certain nombre de proprietes,
telles que :
P
2
= P (6.26)
P
T
D
1/s
2 = D
1/s
2P (6.27)
On determine alors linertie de X
T
P, i.e. de X dans la nouvelle base. En travaillant sur
les variables centrees (i.e. Y ), on a :
V

=
_
Y P
T
_
T
D
1/s
_
Y P
T
_
(6.28)
= PV P
T
(6.29)
Comme precedement, linertie du nuage vaut :
Tr(PV PD
1/s
2) = Tr(PV D
1/s
2P) (6.30)
= Tr(V D
1/s
2P
2
) (6.31)
= Tr(V D
1/s
2P) (6.32)
(6.33)
Le probl`eme de lACP est donc de trouver P de facon `a ce que linertie de Y P
T
soit
maximale. On ne detaille pas la solution `a ce probl`eme, on se contente du resultat
suivant : les k facteurs realisant cette condition ont pour coordonnees les k premiers
vecteurs propres de V D
1/s
2, cest `a dire de R. Si le i
`eme
vecteur propre est u
i
, alors le
i
`eme
facteur est egal `a :
f
i
= Zu
i
(6.34)
On appelle egalement ces facteurs composantes principales. Elles presentent la particu-
larite suivante :
V (f
i
) =
1
n
(Zu
i
)
T
(Zu
i
) (6.35)
=
1
n
u
T
i
Z
T
Zu
i
(6.36)
= u
T
i
1
n
Z
T
Zu
i
(6.37)
= u
T
i
Ru
i
(6.38)
=
i
u
T
i
u
i
(6.39)
=
i
(6.40)
o` u
i
est la valeur propre associee au vecteur propre u
i
. On obtient ces derniers resultats
car par denition, une valeur propre est telle que :
Ru
i
=
i
u
i
(6.41)
166 CHAPITRE 6. BOITE
`
A OUTILS STATISTIQUES
On a de plus par construction :
u
T
i
u
i
= 1 (6.42)
Terminons par quelques remarques : on a vu tout dabord que la variance dun facteur
est egale `a la valeur propre associee au vecteur propre permettant dobtenir ce facteur.
Ces facteur etant orthogonaux, la variance de la somme des facteurs est la somme de
la variance des facteurs, autrement dit la somme des valeurs propres. On a donc :
V
_
k

i=1
f
i
_
=
k

i=1
V (f
i
) (6.43)
=
k

i=1

i
(6.44)
Un autre resultat classique de lalg`ebre lineaire, la trace dune matrice carre est egale
`a la somme de ses valeurs propres. Dans notre cas, on a donc :
Tr(R) =
k

i=1

i
(6.45)
On trouve donc que linertie associee `a X (du moins `a sa version centree reduite) est
exactement egale `a linertie dans la nouvelle base. La dierence tient au fait que dans
la nouvelle base, les facteurs sont ordonnes par part dinertie decroissante : du fait
de lalogorithme de maximisation permettant de trouver la solution `a notre probl`eme
(alogrithme qui na pas ete presente ici), les vecteurs propres que lon determine arrive
par valeurs propres decroissantes. Autrement dit, le facteur 1 est associe au vecteur
propre pour lequel on a la plus grande valeur propre.
Pour resumer, lACP revient `a remplacer les variables composant X qui sont correlees,
par de nouvelles variables, les composantes principales qui sont combinaisons lineaires
des variables composant X, non correlees entre elles, de variance maximale et les plus
liees en un certain sens aux variables composant X. LACP est ce quon appelle une
methode factorielle lineaire.
6.2.2 Applications : les facteurs de la courbe des taux
On presente une courte application aux taux dinteret de la methode de lACP. On dis-
pose dans une matrice X de n observations pour des taux swap de maturite constante,
allant de 1 an `a 30 ans. On obtient la matrice de correlation suivante :
6.2. ANALYSE DES DONN

EES 167
1
a
n
2
a
n
3
a
n
4
a
n
5
a
n
6
a
n
7
a
n
8
a
n
9
a
n
1
0
a
n
1
5
a
n
s
2
0
a
n
s
3
0
a
n
s
1
a
n
1
,
0
0
0
,
2
1
0
,
2
4
0
,
2
7
0
,
2
7
0
,
2
3
0
,
2
5
0
,
2
5
0
,
2
6
0
,
2
3
0
,
2
4
0
,
2
2
0
,
2
4
2
a
n
0
,
2
1
1
,
0
0
0
,
9
2
0
,
8
9
0
,
8
6
0
,
8
3
0
,
8
1
0
,
7
9
0
,
7
7
0
,
8
0
0
,
7
7
0
,
7
4
0
,
7
0
3
a
n
0
,
2
4
0
,
9
2
1
,
0
0
0
,
9
3
0
,
9
0
0
,
8
8
0
,
8
6
0
,
8
4
0
,
8
3
0
,
8
5
0
,
8
1
0
,
7
9
0
,
7
5
4
a
n
0
,
2
7
0
,
8
9
0
,
9
3
1
,
0
0
0
,
9
5
0
,
9
1
0
,
9
1
0
,
8
9
0
,
8
8
0
,
8
8
0
,
8
5
0
,
8
3
0
,
7
9
5
a
n
0
,
2
7
0
,
8
6
0
,
9
0
0
,
9
5
1
,
0
0
0
,
9
4
0
,
9
4
0
,
9
2
0
,
9
1
0
,
9
0
0
,
8
7
0
,
8
5
0
,
8
1
6
a
n
0
,
2
3
0
,
8
3
0
,
8
8
0
,
9
1
0
,
9
4
1
,
0
0
0
,
9
6
0
,
9
7
0
,
9
7
0
,
9
0
0
,
8
8
0
,
8
6
0
,
8
3
7
a
n
0
,
2
5
0
,
8
1
0
,
8
6
0
,
9
1
0
,
9
4
0
,
9
6
1
,
0
0
0
,
9
5
0
,
9
5
0
,
9
1
0
,
8
6
0
,
8
4
0
,
8
2
8
a
n
0
,
2
5
0
,
7
9
0
,
8
4
0
,
8
9
0
,
9
2
0
,
9
7
0
,
9
5
1
,
0
0
0
,
9
8
0
,
9
0
0
,
8
9
0
,
8
7
0
,
8
5
9
a
n
0
,
2
6
0
,
7
7
0
,
8
3
0
,
8
8
0
,
9
1
0
,
9
7
0
,
9
5
0
,
9
8
1
,
0
0
0
,
9
1
0
,
9
0
0
,
8
8
0
,
8
6
1
0
a
n
0
,
2
3
0
,
8
0
0
,
8
5
0
,
8
8
0
,
9
0
0
,
9
0
0
,
9
1
0
,
9
0
0
,
9
1
1
,
0
0
0
,
9
0
0
,
8
8
0
,
8
6
1
5
a
n
s
0
,
2
4
0
,
7
7
0
,
8
1
0
,
8
5
0
,
8
7
0
,
8
8
0
,
8
6
0
,
8
9
0
,
9
0
0
,
9
0
1
,
0
0
0
,
9
8
0
,
9
4
2
0
a
n
s
0
,
2
2
0
,
7
4
0
,
7
9
0
,
8
3
0
,
8
5
0
,
8
6
0
,
8
4
0
,
8
7
0
,
8
8
0
,
8
8
0
,
9
8
1
,
0
0
0
,
9
4
3
0
a
n
s
0
,
2
4
0
,
7
0
0
,
7
5
0
,
7
9
0
,
8
1
0
,
8
3
0
,
8
2
0
,
8
5
0
,
8
6
0
,
8
6
0
,
9
4
0
,
9
4
1
,
0
0
168 CHAPITRE 6. BOITE
`
A OUTILS STATISTIQUES
Les deux graphiques suivantes presentent les valeurs propres et les vecteurs propres
extraits de la base de donnees. Idealement, on ne souhaite retenir que quelques uns de
ces facteurs pour decrire le comportement de la courbe des taux. La methode usuelles
est la methode du coude : on ne retient que les valeurs propres precedant la formation
dun coude sur le graphique. Ici, on ne retiendrait que 3 ou 4 facteurs. On consid`ere
en general que la courbe des taux est guidee par trois facteurs, dont le premier etant
la source principale de ses mouvements. Ce facteur est en general identie comme la
politique monetaire.
q
q
q
q
q q q q q q q q q
0 5 10 15 20 25 30
0
2
4
6
8
1
0
Valeurs propres
maturities
v
a
l
e
u
r
Fig. 6.3 Valeurs propres
0 5 10 15 20 25 30

1
.
0

0
.
5
0
.
0
0
.
5
1
.
0
Maturities
C
o
r
r
e
l
a
t
i
o
n
s
q
q
q
q
q
q
q
q
q
q
q
q
q
Factor 1
Factor 2
q
Factor 3
Factor 4
Fig. 6.4 Vecteurs propres
Bibliographie
Aboura, S. (2005). Les mod`eles de volatilite et doptions. Publibook.
Berndt, E. K., Hall, R. E., Hall, B., and Hausman, J. A. (1974). Estimation and infe-
rence in nonlinear structural models. Annals of Economic and Social Measurement,
3 :653665.
Black, F. and Scholes, M. (1973). The Pricing of Options and Corporate Liabilities.
Journal of Political Economy, (81) :637654.
Bollen, B. and Inder, B. (2002). Estimating Daily Volatility in Financial Market Utili-
zing Intra Day Data. Journal of Empirical Finance, 9 :551562.
Bollerslev, T. (1986). Generalized Autoregressive Conditional Heteroscedasticity. Jour-
nal of Econometrics, 31 :307328.
Cherubini, U., Luciano, E., and Vecchiato, W. (2005). Copula Methods in Finance.
Wiley.
Cochrane, J. (2002). Asset Pricing. Princeton University Press.
Cochrane, J. (2005). Time series for macroeconomics and nance - Manuscrit.
http ://gsbwww.uchicago.edu/fac/john.cochrane/research/Papers/time series book.pdf.
Crepon, B. (2005). Econometrie lineaire. Cours ENSAE deuxi`eme annee,
http ://www.crest.fr/pageperso/crepon/poly052005.pdf.
Davidson, R. and MacKinnon, J. (1993). Estimation et inference en

Econometrie.
Oxford University Press. http ://russell.vcharite.univ-mrs.fr/EIE/.
Deschamps, P. (2004). Cours deconometrie. Universite de Neuchatel.
http ://mypage.bluewin.ch/Philippe Deschamps/Notes0405.pdf.
Duo, M. (1996). Algorithmes stochastiques. Springer, Berlin, Heidelberg, New York.
Embrechts, P., Lindskog, F., and McNeil, A. (2001). Modelling dependance with copulas
and applications to risk management. Preprint ETZH.
Embrechts, P., McNeil, A., and Straumann, D. (1999). Correlation and dependency
in risk management : properties and pitfalls. Departement of Mathematik , ETHZ,
Z urich, Working Paper.
Engle, R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the
Variance of United Kingdom Ination. Econometrica, 50 :9871007.
169
170 BIBLIOGRAPHIE
Engle, R., Lilien, D., and Robbins, R. (1987). Estimating Time Varying Risk Premia
in the Term Structure : the ARCH-M Model. Econometrica, 55 :391407.
Faraway, J. (2002). Practical regression and anova using R. http ://cran.r-
project.org/doc/contrib/Faraway-PRA.pdf.
Garman, M. and Klass, M. (1980). On the Estimation of Security Price Volatilities
from Historical Data. Journal of Business, 53 :6778.
Glosten, L., Jagannathan, R., and Runkle, D. (1993). On the Relation between the
Expected Value and the Volatility of the Nominal Excess Return on Stocks. Journal
of Finance, 48 :17791801.
Gourieroux, C. (1992). Mod`eles ARCH et applications nanci`eres. Economica.
Gourieroux, C. and Jasiak, J. (2001). Econometrics of Finance. Princeton University.
Gourieroux, C., Montfort, A., and Trognon, A. (1984). Pseudo Maximum Likelihood
Methods : Applications to Poisson Models. Econometrica, 52 :701720.
Greene, W. H. (2002). Econometric analysis. Prentice Hall.
Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.
Harvey, A. C. (1990). The econometric analysis of time series. LSE Handbooks in
economics.
Lopez, J. (2001). Evaluating the Predictive Accuracy of Volatility Models. Journal of
Forecasting, 20 :87109.
Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, M., and Teller, E. (1953). Equa-
tions of state calculations by fast computing machines. Journal of Chemical Physics,
21 :10871092.
M unk, C. (2004). Asset Pricing Theory. Lectures Notes for PhD Students.
Nelson, D. (1991). Conditional Heteroscedasticity in Asset Returns : a New Approach.
Econometrica, 59 :347370.
Pag`es, J. (2005). Statistiques Generales pour Utilisateurs - Tome 1 & 2. Presses
Universitaires de Rennes.
Paradis, E. (2005). R pour les debutants. http ://cran.r-
project.org/doc/contrib/Paradis-rdebuts fr.pdf.
Parkinson, M. (1980). The Extreme Value Method for Estimating the Variance of the
Rate of Return. Journal of Business, 53 :6165.
Poon, S.-H. (2005). A Practical Guide to Forecasting Financial Market Volatility. Wiley
Finance.
Quinn, K. (2001). The newton raphson algorithm for function optimization.
http ://www.stat.washington.edu/quinn/classes/536/notes/Newton.pdf.
BIBLIOGRAPHIE 171
Robert, C. (1996). Methodes de Monte Carlo par Chanes de Markov. Economica.
Saporta, G. (1988). Probabilites, Analyse des Donnees et Statistiques. Technip.
Taylor, S. (1986). Modelling Financial Time Series. Wiley.
Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.
VonSachs, R. and VanBellegem, S. (2002). Methodes stochastiques appliquees
`a la prevision, series chronologiques. Universite Catholique de Louvain,
http ://www.stat.ucl.ac.be/cours/stat2414/syllabus.pdf.
Wang, P. (2003). Financial Econometrics. Routledge.