Chapitre1 Intro Nanterre Cours

Faits stylisés Rappel - modèles linéaires Méthodes d’estimation Conclusions Références
Économétrie non-linéaire
Chapitre 1: Introduction
Gilles de Truchis, Elena Dumitrescu
Master 2 BMM - EIPMC - GDA
Septembre 2016
NON LIN2ARIT2 : on rejette l’hyptohèse de linéarité => éventail très large
chap 1 modèles à effets de seuil : si une variable discrete devient continue
CHAP 2 Modèles où le determinants est un facteur latent => état de la nature qui est plus complexe qu’une simple modélisation linéaire
CHAP 3 Non linéarité en variance
Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 1/63

Les chapitres du cours
Méthode du Maximum de
1 Faits stylisés
Vraisemblance
2 Rappel - modèles linéaires 4 Conclusions
3 Méthodes d’estimation 5 Références

1. FAITS STYLISES

Introduction
Pourquoi s’intéresser aux modèles non-linéaires ?
Quelles sont les limites des modèles linéaires ?
Quelles caractéristiques des données ne peuvent pas être modélisées

par les méthodes linéaires ?
Quels instruments de diagnostique (visuels et statistiques) peuvent

indiquer une incompatibilité entre les données et un modèle li-
néaire ?

Introduction
Vaste ensemble de données en séries temporelles (macroéconomie,

finance, microéconomie, etc.)
Différentes techniques d’analyse de ces donnés ont été proposées

(par exemple, les modèles de régression linéaire, ARMA, ARCH /
GARCH, VAR, etc.)

Introduction
Definition (Processus stochastique)

Un processus stochastique (une série temporelle) est une séquence de
variables aléatoires {Yt , t 2 ⌦} indicées par le symbole t, où t appartient
à un ensemble ordonné (noté ici ⌦) qui correspond au temps.
Si l’indice t prend des valeurs réelles, c’est-à-dire ⌦ 2 R+ , {Yt , t 2

⌦} est qualifié de processus stochastique continu.
Dans le cas contraire où les valeurs prises par t sont discrètes,

⌦ 2 N, alors {Yt , t 2 ⌦} est un processus stochastique discret.
Exemples : produit intérieur brut, taux de chômage, taux d’inflation,

etc.

Introduction
Par définition, un processus stochastique
{Yt , t 2 ⌦}
est une variable aléatoire pour laquelle il existe un mécanisme gé-

nérateur des données, dont les réalisations successives conduisent
à un échantillon (ou trajectoire) d’observations dans le temps, à
savoir
{yt , t 2 ⌦}

Introduction
Objectifs : révéler la distribution probabiliste qui décrit le pro-

cessus sous-jacent dans le but de comprendre et d’interpréter les
mécanismes générateurs de données, de prévoir les événements fu-
turs et de contrôler la survenue des événements futurs à travers
une intervention régulatrice
Sur la base des objectifs fixés ex-ante et des faits stylisés identifiés
sur les données observées, le modèle probabiliste le plus approprié
est choisi

Introduction
Remark
La caractérisation complète de la dynamique du processus stochastique
est impossible si on ne recourt pas à des hypothèses simplificatrices.
hypothèse de normalité des résidus
Exemple : si ⌦ est fini et t 2 1; 2; · · · ; T et qu’on se limite aux deux

seuls premiers moments du processus stochastique, il faudrait estimer
E(Y1 ), E(Y2 ), · · · , E(YT ), soit T éléments, ainsi que les T (T + 1)/2
éléments de la matrice de variance-covariance résumant la dépendance
temporelle.
Hypothèse simplificatrice standard : stationnarité (au sens

faible) du processus stochastique comme les données sont stationnaires chaque donné suit la même distribution

Dépendance linéaire ou non-linéaire ?
2.0
•
•
•
•
•
•• Moins évident à voir à l’oeil nu
• • •• •
•
••• • • •
• • • • •
1.5
• • •
•
• • • • • •
• • • • • • • • ••
• • ••
•
•• •
• •• • •
• • • • • • • •
• •
1.0
• •
• ••• • • • • •• • •
• ••
• • • •
• • •
• •
•
• •• ••
•
•
0.5
•
• • •
•
• •
• •
• •
0.0
•
•
0 50 100 150 200
•
• •
• • •• • •
• •• •• •
• • •
• • • •
• ••
• • • • •
•••
3.5
• • • •• • •••
••
• • • • •• • • •
• • • • • •
• •
• • •• •
•••• •
• •• • • • •
• • • ••• • • • •• • • • • • • ••
• • • • • • •• • • •
• • ••
• • •• •• • • •
• • • • •• • •• •• ••• •
• •• • • • •
2.5
• • • • •
••
• • •• • • •
•• • • • •
• • • • •• • • •
• • •
• • • ••• •
••• • • • • • ••
• • •
1.5
• •• •
•
0 50 100 150 200


Si on génere les processus on sait si elles sont sont linéaires ou pas
2.0
•
•
• ••
• • •
• • •• •
••• • • •
• • • • •
1.5
• • •
•
• • • • • •
• •
• • • • • • • ••
• • ••
•• •
• •• • •
• • • • • • • •
• •
1.0
• •
• ••• • • • • •• • •
• ••
• • • • • •
• Ce modèle est linéaire
• •
•
• •• ••
•
•
0.5
•
• • •
•
• •
• •
• •
0.0
•
•
Les paramètres des deux modèles 0 50 100 150 200

sont obtenus en modélisant en AR A length of 114 time series from the AR(2) model
et en TAR
Xt = 1 .07 +1 .35Xt 1 0.72Xt 2 + t with { t } i.i.d. N (0 , 0.242 ).
The parameters are taken from the AR(2) fit to the lynx data.
•
• •
• • •• • •
• •• •• •
• • •
• • • •
• ••
• • • • •
•••
3.5
• • • •• • •••
••
• • • • •• • • •
• • • • • •
• •
• • •• •
•••• •
• •• • • • • Non linéaire
• • • ••• • • • •• • • • • • • ••
• • • • • • •• • • • Linéaire par partie
• • ••
• • •• •• • • •
• • • • •• • •• •• ••• •
• •• • • • •
2.5
• • • • •
••
• • •• • • •
•• • • • •
• • • • •• • • •
• • •
• • • ••• •
••• • • • • • ••
• • •
1.5
• •• •
•
0 50 100 150 200
The parameters are taken from a two regime TAR �it to the lynx data.
Tresial auto regressive

AR(2)
Xt = 1.07 + 1.35Xt 1 0.72Xt 2 + ✏t , ✏t ⇠ iidN (0, 0.242 )
TAR(2)
Deux modèles linéaires => deux dynamiques pour différents régimes
(
Xt = 0.62 + 1.25Xt 1 0.43Xt 2 + ✏ t , Xt 2  3.25
2.25 + 1.52Xt 1 1.24Xt 2 + ✏ t 0 , Xt 2 3.25
les lynx arrivent à maturité à 2 ans => treshold
avec ✏t ⇠ iidN (0, 0.22 ) et ✏t0 ⇠ iidN (0, 0.252 ).

Remark (Limite de la modélisation linéaire)

la SCR qui correspond aux valeurs de Xt inférieures à la moyenne est
de 4.007 alors que la SCR associée aux valeurs de Xt supérieures à la
moyenne est de 1.781.
SCRXt <X̄t
= 2.25 rejet de la linéartié
SCRXt >X̄t
significatif pour un seuil de risque de 1% (F-test dont H0 est que les
deux sous-ensembles de résidus sont des tirages aléatoires de la même
population gaussienne)

Dépendance linéaire ou non-linéaire ? Intuition graphique I

le cycle n’est pas symétrique à la hausse il dure pas pareil qu’a la baisse
(a) Time plot of lynx data

•• • ••
•• •
3.5
•• • •• • • •••••
•••• •• ••
• • •••• •• • ••• ••
• • •
• • • • • • • ••
•• • • • • • • • ••• •
•
•
• • •• • •
• •••
•• •• • ••• •• ••• • ••
•• • • • • •
••
2.0
• • •• •••
•• •
0 20 40 60 80 100
(b) Reversed-time plot of lynx data

•• • •
•• ••
3.5
•• ••• ••••• • • •• • • ••
• • • • • • •• •
• •• • •••• •• • •• •
•• • • • • ••
• • • • • • • • •
•• • •• • • • • • •••
•
• •• • • •• • ••
• •• • ••• ••• • • • •
2.0
••• •
•••• ••
0 20 40 60 80 100
graphique pas de grosses différences
fluctuations périodiques, cycles asymétriques chaque cycle dure autour de 9-10 ans
l’irréversibilité temporelle indique la présence de non-linéarités ?

c’est pas la même chose d’analyser un processus dans la linéarité du temps que dans l’inverse

Dépendance linéaire ou non-linéaire ? Intuition graphique II
1.0
1.0
0.8
deux régimes
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
1.5 2.0 2.5 3.0 3.5 4.0 1.5 2.0 2.5 3.0 3.5 4.0
Two histograms of Canadian lynx data with different bin-sizes,

together with the estimated density function (solid curve).
si on rejette la linéarité
Distribution marginale bimodale

deux modes, on a une distribution bimodale

Dépendance linéaire ou non-linéaire ? Intuition graphique II

(a) Scatter plot at lag 1 (b) Scatter plot at lag 2 (e) Residual against X(t-1)
•• • • • • •• des résidus qu’on a obtenu
• •• • •• •
••
• ••••• • •
•
• • • • •••• ••• • • • avec une regression AR 1
3.5
3.5
•••• ••• • • •• ••
0.5
•
• • •• • • •• • • •• • • • • • • • • ••
xt dépend linéairement de y • •••• • • • •• • •• • • • •• • • • • •• ••• • il y a pas de corrélation entre
•• • •• • •• • ••• •••• • •••• • •• • ••••••
les résidus et la variable retardée
3.0
3.0
•• • • • • • • •• • • • • •• • • •
•• •• • • • •• •• •• • •
residual
• • • •• • ••• • •
• •
0.0
•• • C’est normal on a un AR (1°
X(t)
X(t)
•••• • • • • • • •• • • • •• • • • • • •• • • • • ••
•
• • •• •• •• • • •• • • •• •• • • • • • •• • • • • • • •
2.5
2.5
• • • •• • • • • • •
• • • • • •• • • • • • •• • • • •
•• • •• •
-0.5
• • • • • •
• • •• •
2.0
2.0
• •• • • • • • • •
•• • • • • • • • ••
• • •
• ••
-1.0
• •
2.0 2.5 3.0 3.5 2.0 2.5 3.0 3.5 2.0 2.5 3.0 3.5
X(t-1) X(t-2) X(t-1)
(c) Scatter plot at lag 3 (d) Scatter plot at lag 4 (f) Residual against X(t-2)
• • •• • • ••
• • • •
• •• • • Pour des valeurs élevés ya
• ••• • • ••• • • •• • • •• • ••• • • • •• •
3.5
3.5
0.5
• • • •• ••• • • • une corrélation entre les
• ••• • •• • • • • •• • •• • • • • • •
• •• • •• •• • •
• ••• •• •• • • • • résidus et Xt-2
• •
•• ••• • • • • • • •• • • • ••• ••• • • ••• • •• • • ••
• • • • • • • • • • ••
3.0
3.0
• • • • • • • • •
• •• • •• ••
residual
• •• • •• • • •• • • • • • • •
0.0
•• • •
•• • • ••• •• •
X(t)
X(t)
• • •
•• ••• • • •
• • ••
• •• • • • ••
• ••
• •• • •• • ••• • • • • ••• • • •• • • • •• • •
2.5
2.5
• • • • • • •• • •
• • • • • • • • • •• • • • • • • •• •
-0.5
• • • • • •
• • •
• ••• • •
2.0
2.0
• • • • •
• • • •• • •••
•
•• •
•
• • • • •
• •
-1.0
• •
2.0 2.5 3.0 3.5 2.0 2.5 3.0 3.5 2.0 2.5 3.0 3.5
X(t-3) X(t-4) X(t-2)
Scatter plots of Xt against (a)Xt 1, (b)Xt 2, (c)Xt 3, and (d)Xt 4 for Canadian lynx data together with kernel
regression estimators (solid curves) for E(Xt|Xt k=x) and scatter plots of the residual from the linear regression
Xt= 0.620 +0.788Xt 1 against (e)Xt 1 and (f)Xt 2. Solid curvesare nonparametric regression estimators.
utiliser des voisinage pour essayer de trouver la regression qui nous permettra d’être bien fitted
Les graphiques montre que mm si x montre que il semble y avorir une relation linéaire, si on va un peu plus loin dans le passé on s’aperçoit de l’existance d’une certaine non linéarité
dépendance nonlinéaire entre Xt et ses retard d’ordre supérieur à

1
dépendance nonlinéaire entre les résidus de l’AR(1) et Xt 2
Dépendance linéaire ou non-linéaire ? SP500

(a) Returns of the S&P 500 Index
variance pas constante
5
0
-10
-20
0 2000 4000 6000

t
(b) Estimated conditional STD ET conditionels
8
On a une non linéarité en variance

6
4
2
0 2000 4000 6000

t
(c) Residuals
5
0
-10
-20
0 2000 4000 6000

t
Time plots of (a) the S&P 500 returns {Xt }, (b) the estimated conditional
standard deviations { t } , and (c) the residual { t=Xt/ t}
The estimates were derived based on a GARCH(1, 3) model with t N(0,1).
les queues indiques des écarts à la normalité
10
0.5
••••••
5
0.4
•••••
•••••••
quantile of returns
•••
•
•• •
••
•
••
• •
•
••
• •
••••••••••••••
•
•••
•• •••
••
•••••
•• •••
••
•••• •• •••
••
••••••
•••••• ••
••••••••••
•••
•••
••
•••
••••
•••••
••• •••
•••
•••
•••••
••• •••
•••
•••
•• •• •••
•••
••••
•••
•••
••• •• ••
•••
•••
••
•••••
••
0
•• ••
•••
••••••• •• •••
••
•••
•••
••••••••
0.3
•••
•••
•••••••••••••
•••
•••
••
••• •••
••
••••
••••••••••
••••••••••••••••••
••••••••
••••••••
••
••••••••
•
-5
••
0.2
•
•••
•
-10
0.1
-15
0.0
-20 -15 -10 -5 0 5 10 -4 -2 0 2 4

normal quantile
Histogram of the S&P 500 returns and a normal density function with the same mean and variance.
QQ plot of S&P 500 returns against quantiles of N(0,1).
Une valeur extrême négative

Non-normalité

(a) ACF of returns (b) ACF of squared returns

1.0
1.0
mais dans les carrés des
re n d e m e n t s : e x i s t a n c e
d’autocorrélation dans les
STD de la série
0.8
0.8
Ya pas
0.6
0.6
d’autoccorélation
dans les
ACF
ACF
rendament
0.4
0.4
0.2
0.2
0.0
0.0
0 20 40 60 80 100 0 20 40 60 80 100
Lag Lag
Correlogram of (a) the S&P 500 returns, and (b) the squared returns.
Présence de l’autocorrélation dans les carrés de la série

Qu’est-ce qu’une série non-linéaire ?
Definition (Formelle)
Un processus non-linéaire est tout processus stochastique qui n’est pas
linéaire. Or, pour cela, un processus linéaire doit être défini.
Definition (Intuitive)
Les séries temporelles non-linéaires sont générés par des équations dy-
namiques non-linéaires. Elles présentent des caractéristiques qui ne
peuvent pas être modélisées par les processus linéaires : variance qui
varie dans le temps, cycles asymétriques, dépendance dans les moments
d’ordre supérieur à 1, seuils et ruptures.

2. RAPPEL - MODELES LINEAIRES

Définition d’un processus linéaire

Definition
Dans ce cours, un processus stochastique {Yt , t 2 Z} est un processus
linéaire s’il est linéaire dans les paramètres
Par exemple le processus suivant est linéaire :
Y t = ↵ + Xt + u t
Le processus suivant est également linéaire malgré une non-linéarité

dans les paramètres :
Yt = ↵ + Xt2 + ut
A l’inverse, les modèle suivants ne sont pas linéaires dans les pa-
ramètres
2
Yt = ↵ + Xt + ut , Yt = ↵ + Xt + ut
↵
Théorème de Wold
Definition
Un processus stochastique stationnaire au sens faible {Yt , t 2 Z} peut
s’écrire comme une somme pondérée de chocs aléatoires orthogonaux
centrés et de même variance, éventuellement augmenté d’une compo-
sante déterministe
1
X
Yt = ct + i ut i , 8t 2 Z,
i=0
avec { i }1
i=0 un ensemble de coefficients réels non aléatoires vérifiant
la condition suivante :
X1
2
i 1
i=0
et une séquence de variables aléatoires iid, bruits blancs comme

{ut i }1
i=0
précédemment.
Le théorème de Wold fait sens si on a un processus linéaire, sinon il s’agit que d’une approximation qui dépendra totalement du degré de linéarité
Décomposition de Woltera

Rappel sur la stationnarité

Definition
Le processus stochastique {Yt , t 2 Z} est stationnaire au sens faible ssi
Son espérance est constante dans le temps :
Z 1
E(Yt ) = yt f (yt )dyt = µ, 8t avec µ constant, fini
1
Sa variance est constante dans le temps :

Z 1
V ar(Yt ) = (yt µ)2 f (yt )dyt = 2 8t avec 2
constant
1
Sa fonction d’autocovariance ne dépend pas du temps mais de l’in-

tervalle séparant les deux variables aléatoires considérées :
Cov(Yt ; Yt k) = E[(Yt µ)(Yt k µ)] = (k),
avec (k) ne dépendant pas de t.

Rappel sur la stationnarité II
Definition
Le processus stochastique {Yt , t 2 Z} est stationnaire au sens strict ssi
{Y1 , Y2 , · · · , Yn } et {Y1+k , Y2+k , · · · , Yn+k } ont la même distribu-
tion quel que soit n 1 et n, k 2 Z.
Remark
Pour les séries non-linéaires, le plus souvent la stationnarité au sens
stricte s’avère plus pertinente.
se focaliser que sur les deux premiers moments ne permet pas

Processus linéaire et théorème de Wold
Il y a de nombreux processus stationnaires qui ne sont pas linéaires
Ils ont souvent une représentation de Wold qui semble linéaire.

C’est une représentation incomplète, car elle porte uniquement sur
la structure d’autocovariance du processus.
variance => espérence du carré des résidus
Si E(u2t )  1 n’est pas respectée, Yt est un processus linéaire à

variance infinie (↵ stable) qui ne fait pas l’objet de cette analyse

Modèles ARMA
Ainsi, dans la pratique, une fois qu’on est assuré de la stationnarité au

sens faible d’un processus stochastique, on dispose grâce au théorème
de Wold d’une représentation linéaire utile pour l’estimation.
On distingue entre trois spécifications généralement retenues dans le

cadre de la modélisation linéaire de la moyenne des processus
stochastiques
La spécification moyennes mobiles (Moving Average)

q
X
Yt = c + ✓i ut i
i=0
avec ✓i = i, ✓q 6= 0.

Modèles ARMA
q
X
Yt = c + ✓i ut i
i=0
avec ✓i = i, ✓q 6= 0.
La spécification autoregressive (AR)
p
X
Yt = µ + i Yt i + ut
i=0
Demo : On suppose i = i
) Yt = c + ut + ut 1 + 2 ut 2 + · · ·
De cette spécification on a Yt (1 L 2 2
L 3 3
L · · · ) = µ + ut
et Yt = µ + Yt 1 + Yt 2 + Yt 3 + · · · + ut
2 3
avec µ = (1 )c.
La spécification autoregressive moyennes mobiles (ARMA)
Modèles ARMA
q
X
Yt = c + ✓i ut i
i=0
avec ✓i = i, ✓q 6= 0.
La spécification autoregressive (AR)
un processus MA est tjrs stationnaire et un processus
p
X
Yt = µ + i Yt i + ut
i=0
La spécification autoregressive moyennes mobiles (ARMA)

Yt = µ + Yt 1 + 2 Yt 2 + 3
Yt 3 +···+ p
Yt p + ut + ✓1 ut 1 +
✓2 ut 2 + · · · + ✓q ut q
De façon équivalente, (L)Yt = ✓(L)ut ,
où (z) et ✓(z) sont de polynômes en (z) et L est l’opérateur retard
(Lk Yt = Yt k ).

Stationnarité et inversibilité
Theorem
Le processus ARMA(p,q) est stationnaire si les racines du polynôme
(z) 6= 0, possiblement à valeur dans C, sont à l’extérieur du cercle
unitaire
Conséquence : un processus MA est toujours stationnaire
Theorem
Le processus ARMA(p,q) est inversible si les racines du polynôme ✓(z) 6=
0, possiblement à valeur dans C, sont à l’extérieur du cercle unitaire
Conséquence : un processus AR est toujours inversible

Autocovariance et autocorrélation
Definition (ACVF)
La fonction d’autocovariance (ACVF) d’un processus stationnaire Yt
est
(k) = cov(Yt+k , Yt ), 8k in Z.
Definition (ACF)
La fonction d’autocorrélation (ACF) de Yt est
⇢(k) = (k)/ (0) = corr(Yt k , Yt ), 8k in Z.

variance
Par ailleurs, (k) = ( k) et ⇢(k) = ⇢( k)

Autocovariance et autocorrélation
Partons de la représentation MA(1) d’un modèle ARMA stochastique

q
X
Yt = ✓i ut i ,
i=0
P1
avec i=0 |✓i |  1.
On peut montrer que

1
X P1
2 i=0 ✓i ✓i+k
(k) = ✓i ✓i+k , ⇢(k) = P 1 2 .
i=0 i=0 ✓i
Remarque : Dans le cas d’un modèle MA(q), dés lors que k q,

(k) = ⇢(k) = 0.

Inconvénients des modèles ARMA
ils ne permettent pas de prendre en compte les phénomènes d’asy-

métrie, ni les ruptures de fortes amplitude
exploitation incomplète de l’information contenue dans la série (au-
tocovariance)

Généralisations du modèle AR(1) linéaire
1 Yt = Yt 1 + "t

1 Yt = Yt 1 + "t
2 Yt = g(Yt 1 , ✓) + "t

1 Yt = Yt 1 + "t
2 Yt = g(Yt 1 , ✓) + "t
3 Yt = g(Zt , ✓) + "t


Non linéarité en variance
1 Yt = Yt 1 + "t linéaire forcément
G peut être une focntion non linéaire, dépends des variables et des tetas
2 Yt = g(Yt 1 , ✓) + "t
non linéarité en moyenne conditionnelle E(Yt/ Ft-1) = E(g(Yt-1, teta) / Ft-1)
Dans Zt on peut avoir soit du passé de Y soit des variables X t-j

3 Yt = g(Zt , ✓) + "t voir page suiv
4 Yt = Yt 1 + h(Yt 1 , ✓)"t

1 Yt = Yt 1 + "t
2 Yt = g(Yt 1 , ✓) + "t
3 Yt = g(Zt , ✓) + "t
4 Yt = Yt 1 + h(Yt 1 , ✓)"t
• 2 et 3 : non-linearité en moyenne (Chapitres 2 et 3)
• 4 : non-linearité en variance (Chapitre 4)

Plan
Méthode du Maximum de Vraisemblance

1 Faits stylisés
2 Rappel - modèles linéaires
4 Conclusions
3 Méthodes d’estimation 5 Références

Méthode du Maximum de Vraisemblance

Partons d’un exemple : soit un échantillon Xt = X1 , · · · , Xn ⇠
P (✓)
P (✓) dénote la distribution de Poisson dont la fonction de masse
est
exp( ✓)✓x
Pr(Xi = x) = , ✓ > 0, 8x 2 N
x!
Soit une réalisation de l’échantillon xt = x1 , · · · , xn
La probabilité d’observer cette réalisation est
Pr (X1 = x1 )\, · · · , \(Xn = xn )
L’indépendance des tirages donne l’équivalence avec le produit des

probabilités marginales
n
Y
Pr (X1 = x1 )\, · · · , \(Xn = xn ) = Pr(Xi = xi )
i=1

L’estimateur du Maximum de Vraisemblance

En remplaçant par la fonction de masse de la loi de Poisson on
obtient
n Pn
Y e ✓ xi
✓ ✓ i=1 xi
n✓
Pr (X1 = x1 )\, · · · , \(Xn = xn ) = =e Qn
i=1
xi ! i=1 xi !
Il s’agit donc d’une fonction dépendant de x1 , · · · , xn et de ✓

✓ est un paramètre inconnu mais on observe x1 , · · · , xn
Par la suite on notera :
Ln (✓; x1 , · · · , xn ) = Pr (X1 = x1 )\, · · · , \(Xn = xn )
Le principe du maximum de vraisemblance est le suivant :

Trouver le ✓ qui maximise la probabilité d’apparition de x1 , · · · , xn
L’estimateur du maximum de vraisemblance est donc :
✓ˆ = arg max Ln (✓; x1 , · · · , xn )

✓2R+

L’estimateur du Maximum de la log-Vraisemblance

Dans le cas de l’exemple reposant sur la loi de Poisson on a
Pn
✓ i=1 xi
✓ˆ = arg max+ e n✓
Qn
✓2R i=1 xi !
La formule est complexe et la présence d’un produit n’arrange rien
Simplifions le programme de maximisation en considérant la log-

vraisemblance
✓ˆ = arg max ln Ln (✓; x1 , · · · , xn )

✓2R+
Dans le cadre de notre exemple la log-vraisemblance est

n n
!
X Y
ln Ln (✓; x1 , · · · , xn ) = n✓ + ln(✓) xi ln xi !
i=1 i=1

Conditions nécessaire et suffisante

La condition nécessaire répond à la question
Le problème admet-il une solution ?
) Pour répondre on annule la dérivée première par rapport à ✓
n
X n
X
@ ln Ln (✓; x1 , · · · , xn )
= n + ✓ˆ 1
xi = 0 () ✓ˆ = n 1
xi
@✓ ✓ˆ i=1 i=1
Ici, la log vraisemblance est maximisée par la moyenne empirique
La condition suffisante répond à la question

Cette solution est-elle un maximum ?
) Pour répondre on regarde le signe de la dérivée seconde par rapport
à✓
Xn
@ 2 ln Ln (✓; x1 , · · · , xn ) ˆ 2
= ✓ xi < 0
@✓2 ✓ˆ i=1
Négatif donc bien un maximum

Log-Vraisemblance Gaussienne
Dans l’exemple, il s’agissait de variables aléatoires discrètes
Dans le cas de variables aléatoires continues, l’intuition est la même
Néanmoins, on raisonnera sur la densité de la loi jointe des variables

Ln (✓; x1 , · · · , xn ) = fX1 ,··· ,Xn (x1 , · · · , xn ; ✓)
Soit une séquence Xn ⇠ i. i. d. (µ, 2
) selon une loi normale
La densité de la loi normale implique 2 paramètres ✓ = (µ, 2 0

)
n
Y p 1
(xi µ)2
2
Ln (✓; x1 , · · · , xn ) = ( " 2⇡) e 2 "
i=1
✓ Pn ◆
2 n/2 i=1 (xi µ)2
= (2⇡ ") exp
2 "2
n
n 2 n 1 X
ln Ln (✓; x1 , · · · , xn ) = ln( ") ln(2⇡) 2
(xi µ)2
2 2 2 " i=1

L’estimateur du Maximum de Vraisemblance

Estimateur du maximum de vraisemblance
✓ˆ = arg max+ ln Ln (✓; x1 , · · · , xn )

✓2R
Hypothèses
✓ = (µ, 2 )0 est identifiable : 8✓⇤ , ✓ avec ✓⇤ 6= ✓, les lois jointes de
x1 , · · · , xn sont différentes
Condition nécessaire du gradient :
ˆ x1 , · · · , x n ) = @ ln Ln (✓; x1 , · · · , xn )
gn (✓; =0
@✓ ✓ˆ
Condition suffisante de la hessienne :

2
ˆ x1 , · · · , xn ) = @ ln Ln (✓; x1 , · · · , xn )
Hn (✓; <0
@✓2 ✓ˆ

Condition nécessaire du MLE gaussien

Notons ln Ln (✓; x1 , · · · , xn ) = `n (✓; x) et commençons par le gra-
dient :

Condition nécessaire du MLE gaussien

Notons ln Ln (✓; x1 , · · · , xn ) = `n (✓; x) et commençons par le gra-
dient :
0 @`n (✓;x) 1 0 1
Pn 1
2 i=1 (xi m)
@`n (✓; x) @ @m
A=@ A
= Pn
@✓ @`n (✓;x) n 1 2
2 2 + 2 4 (x
i=1 i m)
@ 2
0 Pn 1
✓ ◆ m̂ = n 1
i=1 xi = x̄
@`n (✓; x) 0
) = ) ✓ˆ = @ Pn
A
@✓ ✓ˆ
0 2 1 2
ˆ =n i=1 (xi x̄)
le terme de n ormalisation est différent que l’esti OLS
Le programme de maximisation a donc une solution

P Pn
Les réalisations du ML sont m̂ = n 1 ni=1 xi = x̄ et ˆ = n
2 1
i=1 (xi
x̄) (variance empirique non-corrigée)
2
Pn
Les P
estimateurs du ML sont m̂ = n 1
i=1 Xi = X̄ et ˆ 2 =
n 1 n i=1 (Xi X̄)2

Condition suffisante du MLE gaussien

La solution est-elle bien un maximum ?


!
@ 2 `n (✓;x) @ 2 `n (✓;x)
@ 2 `n (✓; x) @m2 @m@ 2
= @ 2 `n (✓;x) @ 2 `n (✓;x)
@✓@✓0
@m@ 2 @ 4
On obtient alors


!
@ 2 `n (✓;x) @ 2 `n (✓;x)
@ 2 `n (✓; x) @m2 @m@ 2
= @ 2 `n (✓;x) @ 2 `n (✓;x)
@✓@✓0
@m@ 2 @ 4
On obtient alors
✓ Pn ◆
@ 2 `n (✓; x) n
i=1 (xi m̂) 1
= 1
Pn ˆ2 P n
ˆ4
@✓@✓0 ✓ˆ ˆ4 i=1 (xi m̂) 2ˆn4 1
ˆ6 i=1 (xi m̂)2
Pn
D’après l’étude du gradient, on sait que n ⇥ m̂ = i=1 xi et donc
n n n n
1 X 1 X 1 1 X 1 X
(xi m̂) = x i + n⇥ m̂ = xi xi = 0
ˆ 4 i=1 ˆ 4 i=1 ˆ4 ˆ 4 i=1 ˆ 4 i=1
Pn
De plus, n ⇥ ˆ 2 = i=1 (xi m̂)2 , ce qui donne
✓ n ◆ ✓ n ◆
@ 2 `n (✓; x) ˆ2 0 ˆ2 0
= n nˆ 2 = n
@✓@✓0 ✓ˆ 0 2ˆ 4 ˆ 6 0 2ˆ 4


Pour conclure, il faut montrer que la hessienne est définie négative
✓ n ◆
@ 2 `n (✓; x) ˆ2 0
= n
@✓@✓0 ✓ˆ 0 2ˆ 4
Pour cela on s’intéresse aux mineurs principaux, 1 et 2. Le

premier mineur est


✓ n ◆
@ 2 `n (✓; x) ˆ2 0
= n
@✓@✓0 ✓ˆ 0 2ˆ 4

premier mineur est
n
1 = <0
ˆ2
Le second mineur est


✓ n ◆
@ 2 `n (✓; x) ˆ2 0
= n
@✓@✓0 ✓ˆ 0 2ˆ 4

premier mineur est
n
1 = <0
ˆ2
Le second mineur est
✓ n ◆
ˆ2 0 n n
2 = det n = ⇥ 0>0
0 2ˆ 4 ˆ 2 2ˆ 4
Les mineurs principaux étant de signes opposés, la hessienne est

bien définie négative et la solution du programme est bien un maxi-
mum

Le score
Le score ressemble au gradient mais en diffère pour la raison sui-
vante :
Le gradient est déterministe car basé sur les réalisations :
@`n (✓; x1 , · · · , xn )
@✓
Le score est une version stochastique du gradient car basé sur les
variables aléatoires :
@`n (✓; X1 , · · · , Xn )
Sn (✓; X) =
@✓
Le score étant une variable aléatoire, il convient de s’intéresser à
ces moments et notamment son espérance
L’espérance nous intéresse afin de calculer la variance
La variance nous intéresse car elle permet de calculer la matrice

d’information de Fisher

La hessienne stochastique
De même que pour le gradient, on peut considérer une version

stochastique de la hessienne
La hessienne déterministe est basée sur les réalisations :
@ 2 `n (✓; x1 , · · · , xn )
Hn (✓, x) =
@✓@✓0
La hessienne stochastique est basés sur les variables aléatoires :
@ 2 `n (✓; X1 , · · · , Xn )
Hn (✓, X) =
@✓@✓0
La hessienne stochastique étant une variable aléatoire elle a des
moments :
l’espérance de la hessienne nous permet de calculer la matrice

d’information de Fisher

L’information de Fisher
La matrice d’information de Fisher peut se calculer de plusieurs

manières
Remark
La quantité d’information de Fisher associée à l’échantillon est une
constante définie par la variance du score ou l’espérance de l’opposée
de la hessienne stochastique :
In (✓) = V(Sn (✓; X)) = E(Sn2 (✓; X)) E(Sn (✓; X))2
ou
In (✓) = E( Hn (✓, X))

L’information de Fisher et MLE Gaussien
Repartons du MLE Gaussien et calculons l’information de Fisher :

Repartons du MLE Gaussien et calculons l’information de Fisher :

0 Pn 1
✓ ◆ 1
2 i=1 (Xi m)
0
Sn (✓; X) = ) ✓ˆ = @ Pn
A
0 n 1 2
2 2 + 2 4 i=1 (Xi m)
✓ n 1
Pn ◆
Hn (✓; X) = Pn 2 4 i=1 (Xi
P m)
1 n 1 n
4 i=1 (Xi m) 2 4 6 i=1 (Xi m)2
Les deux méthodes peuvent être utilisée. Par exemple :
In (✓) = E( Hn (✓, X))

✓ n 1
Pn ◆
(X i m)
= E 1 Pn 2 n
4
Pn
i=1
4 i=1 (Xi m) 2 4 + 16 i=1 (Xi m)2


Les quantités déterministe n’étant pas affectées par l’espérance on
obtient


obtient
✓ Pn ◆
n 1
E(Xi m)
In (✓) = 1 Pn 2 4
P
i=1
n
i=1 E(Xi i=1 E((Xi
n 1
4 m) 2 4 + 6 m)2 )
Or, E(Xi ) = m donc E(Xi m) = 0

De plus, par définition, E (Xi m)2 = 2 ce qui nous donne
✓n ◆
2 0
In (✓) =
0 2n4
La borne informationnelle de Cramer-Rao définissant l’efficacité

du MLE Gaussien est donc :


obtient
✓ Pn ◆
n 1
E(Xi m)
In (✓) = 1 Pn 2 4
P
i=1
n
i=1 E(Xi i=1 E((Xi
n 1
4 m) 2 4 + 6 m)2 )
Or, E(Xi ) = m donc E(Xi m) = 0

De plus, par définition, E (Xi m)2 = 2 ce qui nous donne
✓n ◆
2 0
In (✓) =
0 2n4
La borne informationnelle de Cramer-Rao définissant l’efficacité

du MLE Gaussien est donc :
2
!
1 n
0
0
In (✓0 ) = 2 04
0 n

Propriétés de maximum de vraisemblance
Commençons par poser 3 hypothèses dites de régularité
Hypothèse 1 : la fonction de densité fX (✓; xi ) est trois fois différen-

tiable par rapport à ✓ et ses dérivées sont continues et finies 8x, ✓
Hypothèse 2 : les espérances des dérivées première et seconde de

ln fX (✓; Xi ) par rapport à ✓ existent
Hypothèse 3 : la vraie valeur de ✓, i.e. ✓0 , appartient à un ensemble

compact ⇥
Par ensemble compact il faut comprendre un ensemble fermé et

petit dont on ne peut pas s’échapper

Propriétés de maximum de vraisemblance

LA BASE A SAVOIR
Sous cet ensemble d’hypothèses il est possible de montrer
que le MLE est convergent

p
✓ˆ ! ✓0
que le MLE est asymptotiquement efficace

ˆ = In 1 (✓0 )
V(✓)
que le MLE est asymptotiquement normalement distribué

p d
n(✓ˆ ✓0 ) ! N (0, In 1 (✓0 ))

Maximum de vraisemblance conditionnelle

Soit un modèle économétrique du type Yt = g(✓; Xt ) + "t
Une approche par MLE nécessite de considérer la distribution

conditionnelle de Y sachant les réalisations de X
fY |X (y|x; ✓)
Remark (Vraisemblance conditionnelle)

Les fonctions de vraisemblance et log-vraisemblance conditionnelle
d’un échantillon {yt , xt }nt=1 sont définies par
n
Y n
X
Ln (✓; y|x) = fY |X (yt |xt ; ✓), et `n (✓; y|x) = ln fY |X (yt |xt ; ✓)
t=1 t=1

MLE et modèle de régression linéaire

Dans le cadre simple du modèle Yt = Xt + "t ⇠ i. i. d.
En supposant la normalité des erreurs, i.e. "t ⇠ N (0, 2

), si Xi =
xi , on obtient que Yi |xi ⇠ N ( xi , 2 )
On obtient alors la densité conditionnelle de Yi suivante

!2
1 yi xi 2 0
fY |X (yt |xt ; ✓) = p exp , ✓=( , )
2⇡ 2
Les fonctions de ML et log-ML conditionnelles sont alors

!2
1 yi xi
Ln (✓; y|x) = p exp
2⇡ 2
et
n
n 2 n 1 X
`n (✓; y|x) = ln( ") ln(2⇡) 2
(yi xi ) 2
2 2 2 " i=1

Exercice type
Soit un échantillon (X1 , · · · , Xn ) ⇠ i. i. d. selon une distribution
exponentielle de paramètre ✓ 1
La fonction de densité d’une loi exponentielle est ✓ 1
exp( ✓ 1
X)
La log-vraisemblance de l’échantillon (x1 , · · · , xn ) est alors

Exercice type
exp( ✓ 1
X)

n
X
1
`n (✓; x) = n ln(✓) ✓ xt
t=1
L’estimateur du log-ML est alors

Exercice type
exp( ✓ 1
X)

n
X
1
`n (✓; x) = n ln(✓) ✓ xt
t=1

n n
@`n (✓; x) n 1 X X
= + 2 Xt = 0 ) ✓ˆ = n 1
Xt
@✓ ✓ ✓ t=1 t=1
Sachant que la loi exponentielle de paramètre a pour espérance

1
et pour variance 2
, E(Xt ) et V(Xt ) sont données par

Exercice type
exp( ✓ 1
X)

n
X
1
`n (✓; x) = n ln(✓) ✓ xt
t=1

n n
@`n (✓; x) n 1 X X
= + 2 Xt = 0 ) ✓ˆ = n 1
Xt
@✓ ✓ ✓ t=1 t=1
Sachant que la loi exponentielle de paramètre a pour espérance

1
et pour variance 2
, E(Xt ) et V(Xt ) sont données par
E(Xt ) = ✓0 , V(Xt ) = ✓02

Exercice type
ˆ
Calculez E(✓)

Exercice type
ˆ
Calculez E(✓)
⇣ n
X ⌘ n
X n ⇥ ✓0
ˆ =E n
E(✓) 1
Xt = n 1
E(Xt ) = = ✓0
t=1 t=1
n
ˆ
Calculez V(✓)

Exercice type
ˆ
Calculez E(✓)
⇣ n
X ⌘ n
X n ⇥ ✓0
ˆ =E n
E(✓) 1
Xt = n 1
E(Xt ) = = ✓0
t=1 t=1
n
ˆ
Calculez V(✓)
⇣ n
X ⌘ n
X n ⇥ ✓02 ✓02
ˆ =V n
V(✓) 1
Xt = n 2
V(Xt ) = =
t=1 t=1
n2 n
Que pouvez-vous conclure ?

Exercice type
ˆ
Calculez E(✓)
⇣ n
X ⌘ n
X n ⇥ ✓0
ˆ =E n
E(✓) 1
Xt = n 1
E(Xt ) = = ✓0
t=1 t=1
n
ˆ
Calculez V(✓)
⇣ n
X ⌘ n
X n ⇥ ✓02 ✓02
ˆ =V n
V(✓) 1
Xt = n 2
V(Xt ) = =
t=1 t=1
n2 n
Que pouvez-vous conclure ?

L’estimateur est sans biais et asymptotiquement convergent car
ˆ = 0 et donc
lim V(✓)
n!1
p
✓ˆ ! ✓0

Estimateur de Pseudo maximum de vraisemblance (QMLE)
Remark (Limite du MLE)

En cas d’erreur sur la distribution postulée, l’estimateur MLE n’a pas
de fondement.
Proposition (L’idée générale des estimateurs du QMLE)

Cela consiste à démontrer que si l’on commet une erreur sur la distribu-
tion conditionnelle des résidus en utilisant à tort une log-vraisemblance
fondée sur une loi normale, l’estimateur du MV ainsi obtenu peut tout
de même être convergent si la vraie loi des résidus appartient à la même
classe de loi que la loi normale (Gourieroux, Montfort, 1989)

Propriétés de l’estimateur QMLE
Sous certaines conditions de régularité, il est possible de montrer
que le QMLE est convergent

p
✓ˆ ! ✓0
que le QMLE est asymptotiquement normalement distribué

p d
n(✓ˆQM LE ✓0 ) ! N (0, V )

où la matrice de variance covariance asymptotique de l’estimateur

QML est
V = In (✓) 1 Jn (✓)In (✓) 1
avec
@ 2 `n (✓; X1 , · · · , Xn )
In (✓) = E( Hn (✓, X)) = E0 ( )
@✓@✓0
et
@`n (✓; X1 , · · · , Xn ) @`n (✓; X1 , · · · , Xn )

Jn (✓) = V(Sn (✓; X)) = E0 ( )
@✓ @✓0
où E0 désigne l’espérance prise par rapport à la vraie loi.

Remark (1)
Dans la pratique les matrice In (✓) et Jn (✓) sont directement estimées
en remplaçant l’espérance E0 par la moyenne empirique et le paramètre
inconnu ✓ par son estimateur convergent ✓ˆQM LE
Remark (2)
Dans le cas où la vraie loi sous-jacente est normale (Maximum de Vrai-
semblance), la matrice de variance covariance asymptotique se réduit
à
V (✓ˆQM LE ✓0 ) = In (✓) 1
puisque In (✓) = Jn (✓)

Optimisation numérique de la vraisemblance
On cherche
✓ˆ = arg max+ `n (✓; x1 , · · · , xn )
✓2R
La plupart du temps une solution analytique n’est pas disponible.
) On utilise des algorithmes d’optimisation numérique (algorithmes

itératifs) :
i) condition initiale
ii) règle de passage
iii) règle d’arrêt

Optimisation numérique de la vraisemblance

Conclusions
Modèle linéaire = modèle de base, fondé sur la normalité
Vaste classe de modèles non-linéaires, adaptées aux propriétés des

séries économiques
On distingue notamment la non-linéarité en moyenne et en va-

riance
NB : en prévision il est toujours difficile de faire mieux que le

meilleur modèle linéaire !

Bibliographie générale :
Gourieroux, C., Monfort, A., 1989, Statistics and Econometric Models, Volume 2,
Cambridge University Press.
Tong, H., 1990. Non-Linear Time Series : A Dynamical Systems Approach,
Oxford : Oxford University Press
Teräsvirta, T., Tjøstheim, D., et Granger, C. W. J. (2010), Modelling nonlinear
economic time series, Oxford University Press.

Chapitre1 Intro Nanterre Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre1 Intro Nanterre Cours

Transféré par

Droits d'auteur :

Formats disponibles

Faits stylisés Rappel - modèles linéaires Méthodes d’estimation Conclusions Références

Gilles de Truchis, Elena Dumitrescu

Master 2 BMM - EIPMC - GDA

chap 1 modèles à eﬀets de seuil : si une variable discrete devient continue

CHAP 3 Non linéarité en variance

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 1/63

Les chapitres du cours

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 2/63

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 3/63

Pourquoi s’intéresser aux modèles non-linéaires ?

Quelles sont les limites des modèles linéaires ?

Quelles caractéristiques des données ne peuvent pas être modélisées

Quels instruments de diagnostique (visuels et statistiques) peuvent

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 4/63

Vaste ensemble de données en séries temporelles (macroéconomie,

Diﬀérentes techniques d’analyse de ces donnés ont été proposées

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 5/63

Definition (Processus stochastique)

Si l’indice t prend des valeurs réelles, c’est-à-dire ⌦ 2 R+ , {Yt , t 2

Dans le cas contraire où les valeurs prises par t sont discrètes,

Exemples : produit intérieur brut, taux de chômage, taux d’inflation,

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 6/63

Par définition, un processus stochastique

est une variable aléatoire pour laquelle il existe un mécanisme gé-

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 7/63

Objectifs : révéler la distribution probabiliste qui décrit le pro-

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 8/63

Exemple : si ⌦ est fini et t 2 1; 2; · · · ; T et qu’on se limite aux deux

Hypothèse simplificatrice standard : stationnarité (au sens

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 9/63

Dépendance linéaire ou non-linéaire ?

0 50 100 150 200

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 10/63

Dépendance linéaire ou non-linéaire ?

Les paramètres des deux modèles 0 50 100 150 200

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 11/63

Dépendance linéaire ou non-linéaire ?

Xt = 1.07 + 1.35Xt 1 0.72Xt 2 + ✏t , ✏t ⇠ iidN (0, 0.242 )

avec ✏t ⇠ iidN (0, 0.22 ) et ✏t0 ⇠ iidN (0, 0.252 ).

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 12/63

Dépendance linéaire ou non-linéaire ?

Remark (Limite de la modélisation linéaire)

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 13/63

Dépendance linéaire ou non-linéaire ? Intuition graphique I

(a) Time plot of lynx data

(b) Reversed-time plot of lynx data

graphique pas de grosses diﬀérences

l’irréversibilité temporelle indique la présence de non-linéarités ?

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 14/63

Dépendance linéaire ou non-linéaire ? Intuition graphique II

Two histograms of Canadian lynx data with different bin-sizes,

Distribution marginale bimodale

Gilles de Truchis, Elena Dumitrescu Économétrie non-linéaire 15/63

Dépendance linéaire ou non-linéaire ? Intuition graphique II

dépendance nonlinéaire entre Xt et ses retard d’ordre supérieur à

Dépendance linéaire ou non-linéaire ? SP500

0 2000 4000 6000

On a une non linéarité en variance

0 2000 4000 6000

0 2000 4000 6000

Dépendance linéaire ou non-linéaire ? SP500

les queues indiques des écarts à la normalité

-20 -15 -10 -5 0 5 10 -4 -2 0 2 4