Econo Me Trie

République Algérienne Démocratique et Populaire
Ministère de l‟Enseignement Supérieur et de la Recherche Scientifique

Université des Sciences et de la Technologie Houari Boumediene
Faculté de Mathématiques
Département de Probabilité et Statistique
Projet de fin d‟études

En vue de l‟obtention du diplôme de Master en
Ingénierie Statistique Modélisation et Traitement Informatique des
Données (ISMTID)
Thème
Modèles linéaires et non linéaires pour

des séries de taux de change et
estimation non paramétrique de
densité
Encadreur: Présenté par :
 Mme GUERBYENNE Hafida  MOUSSAOUI Youcef

REMERCIEMENT
Au terme de ce modeste travail, je tiens à remercier :
Dieux tout puissant de m‟avoir donné la patience, la Santé et le courage pour réaliser ce
travail, Mme GUERBYENNE Hafida pour son encadrement pour son aide précieuse et ses
conseils judicieux et pour l‟intérêt qu‟elle a accordé à mon travail.
Un grand remercîment au membre du jury ; Mme Saggou Hafida l‟examinatrice et
Mme Seddiki-Merad la présidente d‟avoir accepté d‟évaluer mon travail.
Je tiens à remercier mes chers parents pour leurs efforts et encouragements ainsi que mes
frères et ma petite sœur, et aussi ma future épouse pour son soutien et aide, et tous les
personnes qu‟ont participer du prés comme de Loing à la réalisation de ce travail.
Youcef
SOMMAIRE
INTRODUCTION GENERALE
I. CHAPITRE I : modélisation de séries temporelles
1. Processus aléatoires stationnaires ………………………………. 08
1 .1 Variables aléatoires réelles de carré intégrable ……………. 08
1.2 La stationnarité ……………………………………………... 09
2. Autocorrélations simple et partielle ……………………………. 10
2.1.La fonction d‟autocovariance et d‟autocorrélation ..……….. 10
2.2.La fonction d‟autocorrélation partielle ……………………... 12
3. Représentation de Wold ………………………………………… 14
3.1 Présentation ………………………………………………… 14
3.2 Prévision à partir de la représentation de Wold ……...……. 16
3.3 Opérateur retard ……………………………………………. 16
4. Modèles ARMA et représentations canoniques ……………….. 17
4.1 Processus MA ……………………………………………… 19
4.2 Processus AR ………………………………………………. 21
4 .3 Processus ARMA ………………………………………….. 23
4.4 Modèles ARIMA et SARIMA ……………………………… 24
5. Identification, estimation, validation, prévision …………………26
5.1 Identification du processus ARMA ………………………….26
5.2 Estimation ………………………………………………….. 26
5 .3 Validation …………………………………………………. 28
5 .4 Prévision …………………………………………………… 31
II. CHAPITRE II : les modèles non linéaires
1. Test généraux de linéarité ………………………………………….34
1.1 Test de Keenan et de Tsay ………………………………….. 34
1.2 Test de Granger et Newblod ……………………………….. 35
1.3 Test de BDS ………………………………………………… 35
2. Chaines de Markov ………………………………………...………37
2.1. Définition d‟une chaine de Markov …………………………37
2 .2. L‟irréductibilité ……………………………………………. 38
2.3. La périodicité ……………………………………………….38
2.4. L‟ergodicité ………………………………………………... 38
2.5. La distribution stationnaire d‟une chaine de Markov ……….38
3. Les modèles de régression issues de l‟économétrie…………...……39
4. Présentation générale du modèle MS-AR ………………………….40
5. . Relation du modèle MS-AR avec d‟autres modèles de séries
chronologiques …………………………………………………..... 42
5.1. Relation avec un modèle autorégressif classique (AR) ……..42
5.2. Relation avec un modèle TAR……………………………….42
5.3. Relation avec le modèle chaine de Markov cachée (HMM) .. 44
5.4. Relation avec le modèle espace d‟état ………………………45
5.5. Relation avec le modèle de volatilité stochastique ………….46
6. Structure probabiliste du modèle MS-AR ………………………….47
6.1. Existence d‟une solution stationnaire stricte…………………47
6.2. Existence d‟une solution stationnaire au second ordre ……...48
6.3. Propriétés d‟ergodicité géométrique et de -mélange……….48
6.4. Structure d‟autocovariance ………………………………….49
6.5. Structure ARMA des autocovariances d‟un MS-AR……….. 52
6.6. Critère d‟existence des solutions stationnaires………………52
7. Estimation du modèle……………………………………………….54
7.1. Fonction de vraisemblance conditionnelle d‟un MS-AR…….54
7.2. Estimateur du maximum de vraisemblance …………..….….57
III. chapitre III : représentation var et cointégration
1. Séries temporelles multivariées stationnaires et non stationnaires ...69
1.1. Stationnarité dans un cadre multivarié………………………..69
2. Représentation VAR………………………………………………..70
3. Représentation générale…………………………………………….72
4. Conditions de stationnarité………………………………………… 73
5. Ecriture VAR(1) d‟un VAR(p)……………………………………..74
6. Estimation des paramètres………………………………………..…75
6.1.Maximum de Vraisemblance…………………………………...75
6.2.Détermination du nombre de retards…………………………...76
6.3.Prévisions………………………………………………….…...77
7. La causalité…………………………………………………………79
7.1.Causalité au sens de Granger……………………………….….79
8. Cointégration et Modèle à Correction d‟Erreur………………….…81
8.1.Cointégration……………………………………………..…….81
8.2.Représentation VECM………………………………………....82
IV. CHAPITRE IV : estimation non-parametrique d’une
fonction de repartition et d’une densite
1. La fonction de répartition empirique ……………………………………87
2. Estimation non-paramétrique d‟une densité de probabilité …………….88
2.1. Histogramme de la densité……………………………………….88
2.2. L‟estimateur à noyau …………………………………………… .89
V. Application …………………………………………………………….102
CONCLUSION GENERALE
INTRODUCTION GENERALE
Le marché de change est le lieu où les monnaies des nations s‟échangent les unes contre les
autres. Le taux de change est le système mis en place pour régir ces transactions. Il constitue
le prix de la monnaie et représente du même coup la quantité de monnaie nationale nécessaire
à l‟acquisition d‟une unité d‟une devise. Lors de la conversion d‟une monnaie nationale
contre une devise étrangère, cette opération est régie par le taux de change. Cette conversion a
une importance capitale du fait qu‟elle permet les échanges commerciaux et financiers entre
nations et confère un pouvoir libératoire aux monnaies de leurs partenaires commerciaux.
Le travail qui nous a été confié est la modélisation des séries de taux change. Dans le but de
répondre à cette attente, nous avons regroupé un ensemble de techniques et de méthodes
permettant de détecter la structure de corrélation (dépendance) entre les composantes d‟un
processus générateur, qu‟on induit à travers une série sous étude.
Nous avons été amenés à structurer notre travail comme suit :
Avant d‟aborder l‟analyse, nous avions jugé nécessaire d‟exposer quelques notions
fondamentales relatives aux séries chronologiques. Une série chronologique, ou série
temporelle, est une série d'observations ordonnées chronologiquement. Elles se rencontrent
naturellement dans une grande variété de domaines. On peut citer : l'économie (taux de
chômage, …), la finance (cours d'action, taux d'intérêt, …), l'écologie (pollution à l'ozone, au
CO2, …), le transport (avec l'exemple célèbre du trafic aérien international), la démographie.
Le but du premier chapitre est d‟introduire la notion de processus temporel et plus

particulièrement la classe des processus ARMA qui sont particulièrement utiles pour décrire
le comportement des séries temporelles univariées linéaires. Cette présentation suppose que
l‟on définisse au préalable un certains nombre de notions essentielles à l‟analyse des séries
temporelles, et en particulier la notion de stationnarité. L‟étude des séries temporelles suppose
que l‟on fasse au préalable un certains nombre de rappels en probabilité et en statistique. Les
modèles AR, ARMA ou ARIMA permettent de modéliser des processus stationnaires i.e.,
ceux dont les caractéristiques (moyenne, variance, etc.) ne varient pas avec le temps.
Dans certaines situations, ces modèles ne sont pas suffisants. On doit alors utiliser d‟autres
approches. Les modèles à changement de régime markovien sont classiquement utilisés pour
modéliser un processus aléatoire ayant des paramètres qui changent au cours du temps. Nous
verrons dans le deuxième chapitre que ces modèles sont très flexibles et permettent de
modéliser des séries temporelles complexes, dans un cadre univarié.
Une autre approche est la modélisation vectorielle ou multivariée qui permet d'étudier
la dynamique jointe de plusieurs séries, lorsque celles-ci sont stationnaires. Il s‟agit d‟une
généralisation de l‟étude des processus autorégressifs. La popularité des modèles vectoriels
autorégressifs (VAR) est liée à leur souplesse d‟utilisation et à leur capacité à tester des
hypothèses économiques. C‟est l‟objet du troisième chapitre. Une remarque est que les
résidus (les innovations) forment souvent un bruit blanc non gaussien.
Le problème est donc : comment estimer la fonction de répartition F ou bien la

densité f (qui sont complètement inconnues) à partir de ces observations (les
innovations).Pour cela, l‟estimation non paramétrique de la fonction de répartition et de la
densité, font l‟objet du quatrième chapitre.
Nous nous sommes intéressés aux séries USD, JPY, GBP et DDZ.
Chapitre I
Modélisation de séries temporelles

Introduction
Quand on cherche à modéliser une série temporelle, on a généralement recours à la classe
des modèles ARMA, qui permet de rendre compte d‟un assez grand nombre de cas
économiques. Dans cette classe de modèle, on distingue :
• les modèles AR(p) :
• les modèles MA(q) :
• les modèles :
Où est un bruit blanc centré de variance
Depuis les travaux de Box et Jenkins en 1970 dans le cas univarié ( correspond à une seule
variable), la méthodologie utilisée pour modéliser une série économique repose sur
l‟algorithme de Box et Jenkins, qui consiste à:
 Transformer la série afin d‟éliminer d‟éventuelles non-stationnarités (tendance,

saisonnalité).
 Identifier, sur la base des caractéristiques temporelles de la série étudiée, le modèle ARMA
pertinent : il s‟agit de choisir un modèle dans la classe des modèles ARMA, ainsi que de
déterminer p et q, en comparant les caractéristiques temporelles de la série observée avec les
caractéristiques théoriques des modèles ARMA
 Estimer les paramètres
 Tester la validité et l‟adéquation du modèle aux données
 Re-spécifier le modèle si besoin est et faire de la prévision
L‟objectif de ce chapitre est de présenter précisément les modèles ARMA et leur

caractéristiques, ainsi que la méthodologie adoptée pour spécifier ces modèles, cela dans le
cadre univarié. Nous supposerons que la série étudiée est stationnaire (ou qu‟elle a été rendue
stationnaire).
7
1 Processus aléatoires stationnaires
On utilise le terme de processus aléatoire pour décrire une variable dont le comportement ne
peut pas être exprimé entièrement par une relation déterministe.
Un processus aléatoire est une suite de variables aléatoires indexées dans le temps et définies
sur un espace des états de la nature. Ainsi, pour chaque instant du temps, la valeur de la
quantité étudiée est appelée variable aléatoire et l‟ensemble des valeurs quand varie
est appelé processus aléatoire.
L‟indice ( appartenant à un ensemble ) s‟interprète comme la date à laquelle est faite

l‟observation ou comme la période sur laquelle elle porte. Les observations étant en nombre
fini, il pourrait paraître naturel de choisir pour un ensemble fini. On préfère cependant
retenir ou . Prolonger l‟ensemble des indices vers +∞ permet en effet de
prendre en compte la possibilité d‟observations nouvelles et d‟étudier les propriétés
asymptotiques des diverses procédures statistiques. L‟intérêt du prolongement vers −∞ est
principalement mathématique : il permet en effet dans certains cas des écritures et des
résultats plus simples.
Une réalisation du processus d´écrit une histoire possible du processus. Il faut bien remarquer
qu‟une série chronologique observée, comme par exemple la suite des valeurs de l‟indice des
prix du pétrole entre 1970 et 1990, est relative à une réalisation et une seule du processus.
L‟une des difficultés de l‟étude des séries temporelles est de reconstituer, au moins
partiellement, la loi du processus à partir de l‟observation d‟une seule de ses réalisations.
Pour que ceci soit possible, il faut bien entendu imposer certaines conditions sur la loi de
probabilité de .
1.1 Variables aléatoires réelles de carré intégrable

On se placera dans l‟ensemble des variables aléatoires réelles ( .) admettant un
moment d‟ordre 2 et où 2 variables X et Y sont considérées comme égales si
L‟ensemble des v.a.r. de carré intégrable est un espace vectoriel
normé sur , la norme étant et le produit scalaire est
On dit qu‟il a une structure d‟espace de Hilbert, généralisation en dimension infinie de

l‟espace euclidien muni du produit scalaire usuel ∑ .
Ainsi, pour deux , il est possible de calculer l‟espérance de leur
Produit sont dites orthogonales si et seulement si .
8
L‟existence sur d‟une notion d‟orthogonalité et d‟une notion de convergence permet
d‟introduire la notion de projection orthogonale. Ainsi, on peut trouver un sous espace fermé
de variables de carré intégrable contenant toutes les combinaisons linéaires de variables
de .
On se restreindra dans la suite aux variables de . On parlera aussi de processus du second

ordre.
Les calculs des moyennes , des variances et des covariances ont alors un sens. La
loi d‟un processus du 2nd ordre peut donc être partiellement résumée par :
 la suite des moyennes

 la suite des covariances temporelles (évolution moyenne, liaisons dans le temps)
Pour chaque instant du temps, a une distribution de probabilité. Si on ne fait aucune

hypothèse particulière sur la nature du processus aléatoire, alors la fonction de densité de
probabilité de dépend du temps. Ainsi, la moyenne et la variance varient donc également :
et sont des fonctions du temps. Il faudrait alors étudier la distribution de probabilité de

pour chaque valeur de sachant qu‟on ne disposera (en économie) que d‟une seule
observation de .
On étudie donc une classe particulière de processus aléatoires appelés processus aléatoires
stationnaires. Ces processus sont caractérisés par le fait que leurs propriétés ne changent pas
au cours du temps.
1.2 La stationnarité
La stationnarité au sens strict
On dit que le processus est stationnaire au sens strict (ou fortement tationnaire) si la
loi de est la même que la loi de pour tout , tout , pour
et pour tout avec .
Ainsi, un processus aléatoire est strictement stationnaire si toutes ces caractéristiques, c‟est-à-
dire tous ces moments sont invariants pour tout changement de l‟origine du temps.
Mais la stationnarité au sens strict est trop restrictive et on assouplit cette condition en
définissant la stationnarité du second ordre.
9
La stationnarité du second ordre
Un processus est dit stationnaire ou second ordre (ou faiblement stationnaire) si

est du 2nd ordre et si les deux premiers moments sont invariants dans le temps :



En résumé, un processus est dit stationnaire du second ordre si sa moyenne, sa variance et

sa covariance sont indépendantes du temps et si sa variance est finie. Un tel processus est
sans tendance en moyenne et sans tendance en variance.
Un tel processus admet donc une loi, qui pour ses deux premiers moments, est invariante par
changement de l‟origine des temps. En particulier, les variables ont une même variance
égale à : propriété d‟homoscédasticité.
L‟exemple le plus connu de processus stationnaire est le processus bruit blanc (noté BB, ou
White noise). Un Bruit Blanc est une suite de telle que :
Il s‟agit d‟une suite de homoscédastiques et non autocorrélées (pourtant être

indépendantes, c‟est pourquoi on parle aussi de processus pour identiquement et
indépendamment distribué).
2. Autocorrélations simple et partielle

Les principales caractéristiques temporelles d‟un processus sont données par l‟autocorrélation
(simple) et l‟autocorrélation partielle.
2.1 La fonction d’autocovariance et d’autocorrélation
La fonction d‟autocovariance mesure la covariance entre une variable et cette

même variable à des dates différentes, pour un délai :
Ainsi
Elle fournit une information sur la variabilité de la série et sur les liaisons temporelles
10
qui existent entre les diverses composantes de la série .
La fonction d‟autocovariance d‟un processus stationnaire est une fonction :
* paire :
* semi-définie positive :
∑∑ ( )
Puisque cette quantité est égale à ∑ ).
La fonction d’autocorrélation est définie par :
Avec et (donc )
On appelle coefficient d‟autocorrélation d‟ordre 1 (resp. d‟ordre ) le coefficient de

corrélation linéaire (resp. ) calculé entre la série et cette série décalée d‟une période
(resp. périodes).
On définit la matrice de corrélation (de dimension de la manière suivante:
( ,
Puisque la fonction est de type positif, on a la propriété suivante:
Ainsi, on a les contraintes suivantes :
Ainsi, comme , on a . Si la corrélation d‟ordre est élevée, il

en est de même de la corrélation d‟ordre 2. Il ne peut donc y avoir de chute brutale de valeur
entre et lorsque est grand.
L‟équivalent empirique de la fonction d‟autocorrélation, noté ̂ , est obtenu à partir de

l‟estimateur suivant pour l‟autocovariance ̂ à l‟ordre :
11
̂ ∑ ̅ ̅
où
̅ ∑
Afin de tester la nullité du coefficient d‟autocorrélation d‟ordre , on calcule la variance de ce

coefficient. On peut montrer qu‟elle est donnée par :
̂( ̂ ) ∑ ̂
soit en utilisant la symétrie des , on obtient:
̂( ̂ ) 4 ∑̂ 5
La statistique de test de nullité du coefficient d‟autocorrélation est :
√ ̂( ̂ )
Elle suit une loi de Student. La variance dépendant de , l‟intervalle de confiance associé au
corrélogramme (ensemble des coefficients d‟autocorrélation quand varie) augmente avec .
2.2 La fonction d’autocorrélation partielle
Elle mesure la liaison (linéaire) entre une fois retirés les liens transitant par les
variables intermédiaires .
Le coefficient d‟autocorrélation partielle d‟ordre , noté , est le coefficient de
corrélation entre :
On a donc :
12
C‟est donc le coefficient de dans la régression de sur ,
Si est un processus stationnaire centré, la prédiction optimale de sachant son
Passé jusqu‟ à est donnée par :
que l‟on peut réécrire matriciellement : en utilisant les équations de Yule-Walker
( , ( , 4 5 ( , 4 5
Le coefficient d‟autocorrélation partielle d‟ordre d‟un processus stationnaire est alors
et se calcule de la manière suivante :
Avec
( ,
Et la matrice dans laquelle on a remplacé la colonne h par 4 5, soit :
( ,
Ainsi,
De manière empirique, les autocorrélations partielles s‟estiment soit :
 à partir de la régression MCO de sur les retards et en prenant le dernier

coefficient,
 en estimant les autocorrélations simples et en calculant ̂ à partir de la formule ci-
dessus,
13
 à partir de l‟algorithme de Durbin : il permet de calculer récursivement les divers
coefficients de régression en évitant l’inversion des matrices de corrélation . Il est
basé sur une formule de calcul des coefficients à partir des et
.
Afin de tester la nullité du coefficient d‟autocorrélation partielle d‟ordre h, on donne la

variance de l‟autocorrélation partielle estimée :
Ainsi, l‟intervalle de confiance du corrélogramme partiel est le même pour tout .
3. Représentation de Wold
3.1 Présentation
Propriété: Si est un processus stationnaire, et si est une suite de nombres

réels absolument sommable ∑ , alors :
Est un nouveau processus stationnaire. On parle de représentation moyenne mobile infinie,

noté
En effet, la série ∑ est convergente dans car :
⁄
∑‖ ‖ ∑ ‖ ‖ ∑
L‟écriture ∑ a alors un sens dans et la variable est de carré intégrable.
Les moments de sont :
(∑ + ∑ ∑
4∑ ∑ 5 ∑ ∑ ( )
∑ ∑
14
L‟exemple le plus simple de processus stationnaire est fourni par le processus bruit
blanc . Ainsi, tout processus de la forme :
∑ ∑
est stationnaire du 2nd ordre, avec :
∑ ∑
Les processus pouvant s‟écrire comme moyennes mobiles infinies de bruits blancs sont
appelés processus linéaires. Le théorème qui suit justifie l‟utilisation des représentations
moyennes mobiles infinies dites unilatérales vers le passé, c‟est-à-dire dans lesquelles
pour tout .
Le Théorème de Wold (ou décomposition de Wold) :
Tout processus stationnaire du second ordre peut être représenté sous la forme :
où les paramètres satisfont ∑ et où est un bruit

blanc
La somme des chocs passés correspond à la composante linéaire stochastique de . Ainsi,

tout processus stationnaire peut s‟écrire comme une somme pondérée infinie de chocs passés,
ces chocs étant représentés par un bruit blanc de variance finie.
La condition ∑ est très importante! Elle assure l‟existence des moments d‟ordre
2.
On montre que le processus bruit blanc est le processus d‟innovation de .
On appelle innovation d‟un processus du 2nd ordre , la variable:
est la prévision optimale de fonction de son passé (meilleure approximation linéaire au

sens de l‟erreur quadratique moyenne) et l‟erreur de prévision correspondante à 1 pas est
appelée innovation.
Ainsi, l‟innovation est la partie de non corrélée au passé de la série.
En effet, d‟après l‟équation (1), dépend de non corrélés à ;

dépend de (non corrélés à ). Donc est non corrélé à le passé
de , c‟est donc le processus d‟innovation de
15
On peut aussi montrer que le processus d‟innovation constitue un bruit blanc lorsque est
stationnaire.
3.2 Prévision à partir de la représentation de Wold
A partir de la représentation de Wold, on peut prévoir les valeurs futures de jusqu‟en

sachant l‟ensemble d‟information jusqu‟en , prévision notée ̂ .
La meilleure prévision possible de la réalisation de connaissant les valeurs jusqu‟en

est donnée par l‟espérance conditionnelle :
Or d‟après le théorème de Wold, la connaissance des valeurs passées de est équivalente à

la connaissance des valeurs passées des chocs
Ainsi, on peut considérer la représentation de Wold pour calculer la prévision optimale
̂ 4∑ | 5
On constate alors que l‟erreur de prévision à un pas est
Il s‟agit de l‟innovation. Elle a de bonnes propriétés puisque cette erreur de prévision est
indépendante de l‟erreur de prévision que l‟on a pu commettre aux dates précédentes
puisque .
L‟erreur de prévision quand on prévoit à périodes est donnée par :
̂ ∑
3.3 Opérateur retard
On introduit un opérateur, opérateur retard, afin d‟écrire de manière plus synthétique les
processus et la forme
L‟opérateur retard L (pour ou parfois noté aussi B pour Backward) est tel que:
16
Cet opérateur permet de définir une application qui à toute variable associe la variable
retardée. Cet opérateur a les propriétés suivantes :
Ainsi, la forme peut s‟écrire :
∑ ∑
et la représentation de Wold (pout tout processus stationnaire) :
∑ ∑
4. Modèles ARMA et représentations canoniques

On s‟intéresse aux processus ARMA, ceux-ci donnant des représentations plus
parcimonieuses que la représentation de Wold (qui nécessite un nombre infini de paramètres!)
:
∑ ∑
( ∑ + ( ∑ +
17
On ne s‟intéressera qu‟aux représentations canoniques, c‟est-à-dire aux écritures des modèles
ARMA telles que soit le processus d‟innovation de la prédiction optimale est ̂
et l‟erreur de prévision à 1 pas est l‟innovation i.e., que l‟on ne peut pas
faire mieux que la prédiction optimale.
Il s‟agit donc de trouver des contraintes sur les paramètres des modèles ARMA.
Quelles sont ces conditions?
• il faut que la représentation soit stationnaire, donc que admette une inverse et donc que le
module des racines de diffèrent de 1) :
∑ ∑| |
• il faut que la représentation soit inversible, c‟est-à-dire que la forme soit
tournée vers le passé (dans ce cas module des racines de est strictement supérieur à 1):
peut s‟écrire en fonction de son passé et de
• il faut que la représentation soit causale, c‟est-à-dire que la forme soit
tournée vers le passé ( module des racines de strictement supérieur à 1):
non corrélé à
Alors, est le processus d‟innovation de .
Remarques préliminaires: inversion d’un polynôme
Soit le polynôme . Comment calculer son inverse ?
• Si , donc si la racine de est supérieure à 1 en valeur absolue
, alors l‟inverse est donnée par :
puisque
18
∑ ∑ ∑
• Si , donc si la racine de est inférieure à 1 en valeur absolue
, alors l‟inverse est donnée par :
puisque
∑ ∑ ∑
4.1 Processus MA
4.1.1 Définition : On appelle processus moyenne mobile d‟ordre q, noté pour Moving
Average, un processus défini par :
où les sont des réels, et est un processus bruit blanc de variance .
4.1.2 Représentation stationnaire et causale
La définition d‟un est explicite et ne pose donc pas de problème : le processus est
parfaitement défini et est automatiquement stationnaire.
La représentation est causale par définition.
4.1.3 Représentation inversible
est un polynôme en de degré , que l‟on peut factoriser en ayant calculé ses racines
Si ’ à t ’ , qui est
alors donnée par :
( )
( )
19
si toutes les racines de ’ t-à-dire ) sont distinctes et où
sont des paramètres qui dépendent de ,..., .
O bt t ’ x t
π tf t èt et on peut montrer que ∑
•S z tt t à t t Q π
t ’ t èt ’ t O t t
inversible.
•S t f à ’ ’
de module égal à 1, on peut inverser les racines, quitte à changer de bruit blanc, et
supposer que le processus est inversible.
On a alors la forme suivante:
∑ ∑
π ’ bt t t π
Ainsi, dépend de et de son passé, donc dépend de et de son passé, cet

ensemble étant indépendant de (puisque est un bruit blanc), donc le passé de
est indépendant de , donc t ’ t .
Exemple du MA(1) : avec
La racine de est .
• S alors la forme ’ x t t t t t t
causale mais non inversible, donc non canonique.
•S et donc alors:
∑ ∑
et la forme ’ t
20
La représentation est alors inversible, en plus d‟être stationnaire et causale elle est donc
canonique.
• Si et donc alors:
∑ ( *
Dans ce cas, on peut toujours (tant que ) se ramener à une représentation

canonique quitte à changer la représentation et surtout à changer de bruit blanc et à
inverser les racines.
Conclusion : la représentation est canonique si les racines de sont

supérieures à 1 en module.
4.2 Processus AR
4 D fi t
O t f ’ t , un processus stationnaire
fi t t t
où les sont des réels, et est un bruit blanc de variance .
4.2.2 Représentation stationnaire
Ce processus est pour l‟instant défini sous forme implicite et en particulier il n‟est pas certain
que cette dernière équation admette toujours une solution stationnaire.
Si le polynôme a toutes ses racines de module différent de 1, on peut inverser

l‟opérateur . On en de‟duit que l‟équation admet une solution unique, avec une écriture
On peut alors montrer que l‟on a ∑ | | et donc que la représentation est

stationnaire.
4.2.3 Représentation inversible
La représentation est inversible par définition.
21
4.2.4 Représentation causale
Si le polynôme a toutes ses racines de module strictement supérieur à 1, l‟opérateur

inverse admet un développement ne faisant intervenir que les puissances
positives de L. On a alors :
Dans ce cas, on montre que l‟on a
∑| |
Dans ce cas, sont fonctions linéaires de et en particulier sont non

corrélés avec .
Projetant la relation AR sur le passé de , on obtient:
ainsi, le bruit blanc est aussi l‟innovation puisque :
Lorsque les racines de sont de module différent de 1, on peut montrer que, quitte à
changer de bruit blanc, on peut toujours supposer que ces racines sont de module
supérieur à 1.
Mais si certaines racines de sont de module inférieur à 1, alors n‟est pas
l‟innovation, puisque la forme sera tourné vers le futur (et peut-être aussi vers le
passé si certaines racines étaient bien supérieur à 1 en module). Dans ce cas, le passé de
dépend du passé et du futur de : on ne peut plus dire qu‟il n‟y a pas de corrélation entre le
passé de et ! Ainsi, ce n‟est pas qui est l‟innovation du processus.
Exemple de l‟AR(1):
La racine de .
 Si et donc , par exemple , alors:
et la variance dépend de t ! Donc il n‟existe pas de solution stationnaire.
Il s‟agit d‟un processus non stationnaire de type stochastique, appelé marche aléatoire.
22
 Si et donc alors la forme est donnée par :
∑ ∑
La représentation est alors causale, en plus d‟être stationnaire et inversible elle est donc
canonique. est le processus d‟innovation de , puisque le passé de dépend du passé de
et donc n‟est pas corrélé à .
 Si et donc alors:
∑ ( *
La forme n‟est pas tournée vers le passé et la représentation n‟est donc pas
canonique. Cependant, dans ce cas, on peut toujours (tant que ) se ramener à une
représentation canonique, en changeant la représentation, c‟est-à-dire en changeant de BB et
en inversant les racines.
Conclusion : la représentation est canonique si les racines de sont

supérieures à 1 en module.
4.3 Processus ARMA
4.3.1 Définition
Les processus ARMA généralisent simultanément les modèles AR purs et les MA purs. Ces
modèles présentent l‟avantage d‟être plus souples d‟utilisation et de fournir généralement de
bonnes approximations des séries réelles avec moins de paramètres que les modèles AR ou
MA purs.
Définition : Un processus stationnaire admet une représentation minimale :
∑ ∑
s‟il satisfait les conditions suivantes :
(i)
(ii) Les polynômes ont toutes leurs racines de module strictement supérieur à 1
(iii) n‟ont pas de racine commune
23
(iv) est un bruit blanc, de variance
Remarquons qu‟on aurait pu définir une représentation plus générale permettant de considérer
des processus stationnaires non centrés. Par exemple :
∑ ∑
On se ramène directement au cas défini précédemment en remplaçant
par ∑
.
La condition (ii) assure tout d‟abord que la représentation ARMA admet une solution
stationnaire (si les racines de sont de module différent de 1), que cette solution stationnaire
fait intervenir que des valeurs passées du bruit (les racines de sont à l‟extérieur du
disque unité), que la représentation ne fait intervenir que des valeurs présentes et
passées de (les racines de sont de module strictement supérieur à 1). Ainsi, est le
processus d‟innovation du processus .
La condition (iii) assure que la représentation est unique, sinon il y aurait des simplifications
possibles.
4.3.2 Propriété
Si est un processus stationnaire de représentation minimale
, alors:
(i) admet la représentation :
∑ ∑| |
(ii) admet la représentation :
∑ ∑
4.4 Modèles ARIMA et SARIMA
La condition de stationnarité des modèles présentés ici n‟est évidemment pas toujours
convenable. On peut intégrer certains types de non-stationnarités en élargissant le modèle
ARMA. Ces élargissements consistent en une série d‟opérations préalables visant à éliminer
la tendance ou la saisonnalité.
24
Modèle ARIMA: un processus admet une tendance polynomiale de degré d, le processus
différencié d fois est stationnaire:
Le modèle ARIMA revient à appliquer un modèle ARMA sur le processus différencié:
L‟équation d‟un modèle est donc donnée par
où et sont deux polynômes de degrés respectifs et .
Le ‟I‟ de ARIMA signifie ‟integrated‟ comme réciproque de la différenciation. Evidemment,

le degré d n‟est généralement pas connu. Pour le déterminer on peut agir par tâtonnements ou
avoir recours à des tests de stationnarité: puisqu‟un processus est stationnaire, on
cherche d tel qu‟on puisse accepter l‟hypothèse de stationnarité pour le processus
. De façon générale, on se réfère à un principe de parcimonie et cherche la valeur
satisfaisante minimale de d. Cette discussion sera menée plus en détail dans le chapitre
concernant le choix de modèles.
Modèle SARIMA: La saisonnalité est un autre facteur de non-stationnarité. On a vu qu‟une

façon simple d‟éliminer une saisonnalité de période ω consiste à appliquer l‟opérateur .
De façon général, on peut supposer que l‟influence des chocs se transmet entre dates distantes
d‟un nombre entier de périodes selon un processus :
et que ces chocs eux-mêmes suivent un modèle
est un bruit blanc.
Un tel modèle est noté et son équation générale est
où sont des polynômes de degrés respectifs .
25
5 Identification, estimation, validation, prévision
5.1 Identification du processus ARMA
La méthode d‟identification d‟un processus ARMA (choix entre AR, MA et ARMA, et choix
de p et q) de Box et Jenkins est basée sur la comparaison de caractéristiques théoriques des
processus ARMA à leurs équivalents empiriques (c‟est-à-dire calculées sur la série
observée). Les caractéristiques utilisées sont les autocorrélations simple et partielle.
On peut aussi utiliser des critères de choix de modèle, couramment appelé critères
d‟information. Les plus couramment utilisés sont le critère de Akaїke :
et le critère de Schwarz:
Où log L est la log-vraisemblance du modèle estimé et est le nombre

d‟observations.
On choisit alors le modèle et p et q qui minimisent ces critères.
5.2 Estimation
Etant donné le processus admettant une représentation :
∑ ∑
le problème est d‟estimer les paramètres et à partir

d‟observations .
5.2.1 Maximum de vraisemblance
Si le processus est gaussien , alors . Ainsi, la

vraisemblance (densité du vecteur est donnée par :
( *
26
La log-vraisemblance est alors donnée par :
Le problème est que cette log-vraisemblance est difficile à calculer et donc à maximiser à
cause de et de (matrice T× T). De plus, il faut se donner des valeurs préliminaires
pour les paramètres, puisque la maximisation de la log-vraisemblance utilise des algorithmes
de maximisation itératifs.
5.2.2 Estimation de Yule-Walker
Dans le cas d‟un AR(p), on utilise les équations de Yule-Walker :
4 5 ( ,( ,
pour déterminer ̂ p en fonction de ̂ estimés. On utilise la formule
∑ pour déterminer une estimation de .
Cette méthode est appelée estimation de Yule-Walker.
5.2.3 Estimation par l’algorithme de Durbin-Levinson
Dans le cas général d‟un , on utilise la représentation
Prenons l‟exemple d‟un ARMA(1,1) :
Alors la forme est donnée par :
∑ ∑
27
∑ ∑
Par identification, on obtient :
Les j sont estimés à partir d‟un algorithme récursif appelé algorithme de Durbin- Levinson
ou algorithme des innovations. A partir de ces estimations, on peut alors obtenir des
estimations de et de .
Ceci se généralise au cas de p et q quelconques.
5.3 Validation
Il s‟agit de vérifier notamment que les résidus du modèle ARMA estimé, résidus notés ̂ ,
vérifient les propriétés requises pour que l‟estimation soit valide, à savoir qu‟ils suivent un
processus BB, non autocorrélé et de même variance, et qu‟ils suivent une loi normale. Si ces
hypothèses ne sont pas rejetées, on peut alors mener des tests sur les paramètres.
5.3.1 Tests sur les résidus
• Regarder le graphique des résidus estimés pour voir s‟il apparaît des points aberrants, une
tendance, une rupture, de l‟autocorrélation, etc. Ceci n‟est évidemment qu‟indicatif.
• Regarder les autocorrélations simples et partielles. Elles doivent être significativement nulles
si les résidus sont un bruit blanc.
28
• Test du portemanteau
Afin de tester que les résidus estimés suivent un BB, on teste l‟hypothèse d‟absence
d‟autocorrélation jusqu‟à l‟ordre m. On utilise la statistique de Ljung-Box, donnée par :
̂
∑
où les coefficients d‟autocorrélation ̂ sont calculés sur les résidus estimés ̂ . Cette
statistique, sous l‟hypothèse que les résidus suivent un BB, suit une loi du
• Test d‟homoscédasticité
Un test couramment utilisé en séries temporelles est le test d‟homoscédasticité contre une
alternative ARCH (hétéroscédasticité conditionnelle dans la variance). On teste alors la nullité
des paramètres dans le modèle :
̂ ̂ ̂
La statistique de test est étant le nombre d‟observations et le coefficient de

détermination du modèle ci-dessus. Cette statistique suit, sous l‟hypothèse nulle
d‟homoscédasticité une loi du .
• Test de normalité
Il s‟agit de tester que les résidus estimés ̂ . suivent une loi normale, c‟est–à–dire ne
présentent pas d‟asymétrie (Skewness) ni d‟applatissement (kurtosis).
Le coefficient de Skewness est donné par:
et le coefficient de kurtosis est donné par:
Où
∑ ̂ ̅̅̅̅
̂
est le moment centré d‟ordre k de la variable ̂ .
29
Si la distribution est normale et le nombre d‟observations grand, alors :
4 √ 5 ( √ 4 )
On construit alors les statistiques :
et qui suive chacune une N(0,1).

√ √
Le test de Jarque Bera permet de tester simultanément l‟absence d‟asymétrie et l‟absence

d‟applatissement. La statistique de test est donnée par :
Cette statistique suit, sous l‟hypothèse nulle de normalité, une loi du .
5.3.2 Tests sur les paramètres
On vérifie tout d‟abord que les racines des polynômes AR et MA ne sont pas égales à 1. Si les
hypothèses testées sur les résidus ne sont pas rejetées, on teste la significativité des retards du
modèle ARMA par des tests de Student.
5.3.3 Choix d’un modèle parmi plusieurs
Si, à la suite de ces étapes, il reste plusieurs modèles valides, on peut choisir parmi ces
modèles, soit celui qui donne les meilleurs critères d‟ajustement, soit celui qui donne les
meilleurs performances en prévision.
Concernant les critères d‟ajustement, on retient le modèle qui minimisent les critères
d‟information AIC et BIC.
Concernant les performances en prévision des modèles, on utilise couramment les critères
suivants (que l‟on cherche bien entendu à minimiser) :
√ ∑( ̂ )
∑| ̂ |
Où K est le nombre d‟observations minimales pour mener une estimation du modèle.
On peut calculer ces critères, soit sur la base de prévisions in-sample (toutes les observations
ont été utilisées pour estimer le modèle et on calcule les prévisions sur cet même ensemble
30
d‟observations), soit sur la base de prévisions out-of-sample (on estime le modèle sur un
ensemble d‟observations et on mène la prévision sur le reste)
5.4 Prévision
Il s‟agit de calculer les prévisions optimales du modèle ARMA estimé, à savoir ̂ la

prévision de sachant l‟ensemble d‟information disponible en t, noté
, , } où ={ }:
31
Chapitre II
Les Modèle non linéaires

Introduction
Il existe des séries temporelles, particulièrement dans la finance (par exemple : les indices des
prix, les indices boursiers, l‟inflation, taux de change, …) dont la modélisation des différentes
caractéristiques est difficile a obtenir par des modèles linéaires de type ARMA, car ces modèles
sont incapables de capter toutes les asymétries cycliques, les variations instantanées alors un
grand intérêt est accordé aux spécifications non linéaires ; ces modèles introduisent une
distribution significative entre les phases d‟expansion et les phases de récession. Ils sont alors
suffisamment flexibles et permettent de tenir compte des différentes spécifications et des
relations correspondant à chaque phase.
Parmi les modèles non linéaires, on peut citer les modèles (Bollerslev, 1986),
les modèles autoregressives a seuil (tong, 1978), les modèles (Terasvirta et
Anderson, 1992), et les modèles à changement de régimes (Markov
Switching Model, Hamilton 1989).
Dans ce mémoire de fin d‟études, nous nous sommes intéressés à la famille des modèles à
changement de régimes markovien.
Nous avons toutefois appliqué un test de non linéarité pour justifier ce choix, et montré
qu‟effectivement ces séries sont non linéaires.
33
1. Test généraux de linéarité
Avant de construire un modèle non linéaire, il est recommandé de vérifier qu‟un modèle
linéaire ne suffit pas à modéliser correctement la série. Il peut arriver (surtout si les séries
temporelles sont courtes) que l‟on estime -avec succès – un modèle non linéaire
On teste alors : {
1.1. Test de Keenan et de Tsay

Le test élaboré par Keenan (1985) a pour objet de tester contre . La mise en œuvre de ce
test peut être décrite en quatre étapes :
-Etape1 : on estime le modèle sur la série étudieé est l‟on récupère les
résidus estimés ̂
-Etape2 : On estime par les MCO le modèle suivant :
Et l‟on récupéré les résidus estimés ̂
-Etape 3 : on estime la relation suivante :
̂ ̂
-Etape 4 : On calcule la statistique de :
∑ ̂ ̂
Où ̂= ̂ ∑ ̂
Sous l‟hypothèse nulle de linéarité,
Notons que se test a été amélioré par Tsay (1986). Cette nouvelle version conduit également à
une stratégie en quatre étapes :
-Etape 1 : Elle est identique à la première étape du test de Keenan (1985) on note ̂ le
prédicateur de
-Etape 2 : On construit le vecteur :
̂ ̂ ̂ ̂ ̂ ̂ ̂
Que l‟on régresse sur une constante et sur . On note ̂ les résidus estimés
associés à cette régression.
34
-Etape 3 : On régresse ̂ sur ̂ .
-Etape 4 : On calcule la statistique précédente
Sous l‟hypothèse nulle de linéarité,
Remarque : ces deux tests ne sont valables que pour des modèles incluant des termes
quadratiques. En l’absence de tels termes, leur puissance est faible. Pour pallier cette
difficulté, Tsay (1989) a proposé une généralisation du test consistant à remplacer les termes
quadratiques par des fonctions non linéaires quelconques
1.2. Test de Granger et Newblod

Le test de Granger et Newblod (1976) utilise certaines propriétés spécifiques à la loi normale.
Granger et Newblod (1976) ont ainsi montré que si est un processus linéaire gaussien, alors :
Où , désigne la fonction d‟autocorrélation.
Cette propriété est également valable pour les résidus estimés ̂ d‟un processus , par
exemple. Le test est alors très simple à mettre en œuvre. Il suffit de représenter graphiquement
(̂ )
le rapport : ̂
Si la normalité des ̂ est vérifiée, ce rapport doit être égale à 1 et les valeurs du rapport doivent
donc graphiquement situer sur la première bissectrice. Si la normalité est vérifiée et si les
valeurs prises par le rapport sont différentes de 1, alors c‟est une indication de non linéarité.
1.3. Test de BDS

Brock, Dechert et Scheinkman (1987) ont développé un test non paramétrique basé sur
l‟intégrale de corrélation appelé, BDS. La statistique BDS teste l‟hypothèse nulle d‟une série
indépendamment et identiquement distribuée ( ) contre une alternative non spécifiée et peut
être utilisée -sous certaines conditions- en tant que test de non linéarité.
Soit une série temporelle et . Le principe du test consiste dans un premier

temps à former les -historiques (dimensions) dont les composantes sont les valeurs
consécutives de la série étudiée :
avec .
est la dimension de plongement : c‟est la dimension de l‟espace des phases dans lequel
l‟attracteur est reconstruit. En d‟autres termes, la dimension de plongement est le nombre
d‟axes nécessaire pour représenter l‟attracteur.
On calcule ensuite l‟intégrale de corrélation :
35
∑ | |
Où est la fonction de Heaviside :
| |
( | |) {
Et . L‟intégrale de corrélation fournit une mesure du nombre de paires de

points qui sont proches sur l‟attracteur, c'est-à-dire à une distance inférieure à .
S‟interprète dés lors comme la distance maximale entre deux paires de points.
Brock, Dechert et Scheinkman (1987) montrent que sous l‟hypothèse nulle
de série , on a :
Et l‟expression √ tend vers une loi normale de moyenne nulle et de

variance :
4[ ∑ ]
Où :
- est donné par :

∫
- est tel que
∫
- est une fonction de densité non dégénérée.

est estimé par , et par :
Où
avec = , étant la fonction de Heaviside
La statistique est alors définie par :
√ * ( ) +
Sous l‟hypothèse nulle, , cette statistique suite une loi normale centrée réduite.
36
Cette statistique a très fréquemment été utilisée en tant que test de non linéarité, il est
primordial de rappeler que la statistique teste l‟hypothèse nulle de série contre une
alternative non spécifiée. Un rejet de l‟hypothèse nulle peut alors provenir :
 Soit d„une structure de dépendance issue d‟un processus stochastique linéaire

 Soit d‟une non stationnarité de la série étudieé
 Soit d‟une structure de dépendance issue d‟un processus stochastique non linéaire
 Soit d‟une structure de dépendance issue d‟un processus déterministe non linéaire
Dés lors, pour utiliser le test BDS en tant que test de non linéarité, il est nécessaire au préalable
de stationnariser la série et de retirer tout forme de dépendance linéaire dans les données. Le
test BDS est ainsi utilisé sur les résidus d‟un processus estimé sur la série initiale. Si
après ce double opération, la statistique rejette l‟hypothèse nulle de série , alors la
série étudiée présente une structure de dépendance non linéaire.
2. Chaines de Markov
Les modèles MS-AR (Markov Switching autorégressive) introduisent une hypothèse
probabiliste sur le passage d‟un régime à un autre. L‟évolution de la variable discrète
indicatrice du régime en cours est supposée dépendre d‟une chaine de Markov cachée (décrite
par une variable non observée) à états finis, homogène et ergodique. Il convient de donner ici la
définition d‟une chaine de Markov.
Généralement, un processus stochastique est une suite d‟expériences dont le résultat dépend du
hasard. Pour décrire l‟évolution temporelle d‟un système dynamique, la méthodologie consiste
définir un espace d‟état (l‟espace dans lequel une variable aléatoire prend ses valeurs) dans
lequel se promène aléatoirement le système. En admettant qu‟à chaque instant, le système peut
se trouver dans l‟un des états d‟une collection finie d‟états possibles, l‟observation du système
peut ainsi être considérée comme une expérience dont le résultat (aléatoire) est l‟état dans
lequel se trouve le système. La théorie des processus stochastiques permet alors de calculer les
probabilités d‟état stationnaires. Ces probabilités d‟état peuvent être vues comme la probabilité
que le système se trouve dans un état donné à un instant choisi « aléatoirement »loin dans le
futur. Elles peuvent également être vues comme la proportion de temps que l‟on a passé dans
cet état au cours d‟une très longue observation du système.
2.1. Définition d’une chaine de Markov

Soit l‟état du système à l‟instant
Un processus stochastique à temps discret et à espace d‟état finis discret , est une chaine
de Markov si seulement si :
 Propriété de Markov : pour tout et tout d‟élément

de on a :
« Tout le passé est résumé dans le présent »
37
 L‟homogénéité : pour tout , et toute paire , on a :
« Indépendamment de »
En d‟autre termes, une chaine de Markov possède la propriété que son évolution (passage de
à ) ne dépend que l‟état courant et pas de son passé, les nombres sont les
probabilités de transition de la chaine, ainsi est a probabilité d‟aller à l‟état sachant qu‟on
se trouve à l‟état .
On introduit la probabilité de transition de à en étapes :
2. 2. L’irréductibilité
On dit qu‟une chaine de Markov est irréductible tout état est atteignable en un nombre finis
d‟étapes à partir de tout autre état :
« Tous les états sont communiquant entre eux »
2. 3. La périodicité
Un état est périodique si on ne peut y revenir qu‟après un nombre d‟étapes multiple de
>1 :
pour non multiple de
La période d‟une chaîne de Markov est le plus grand commun diviseur (PGCD) de la période
de chacun de ses états. Une chaîne de Markov est dite périodique si sa période est supérieure à
1. Dans le cas contraire, elle est dite apériodique.
2. 4. L’ergodicité
Une chaîne de Markov qui est irréductible et apériodique et récurrente est dite ergodique
La matrice de transition associée à la chaine de Markov homogène, La matrice définie par
( )
est la matrice carré qui peut être fini ou infini selon fini ou infini
2. 5. La distribution stationnaire d’une chaine de Markov
Si une chaine de Markov a un espace d‟état fini, alors il existe une distribution stationnaire
38
Et
Où (écriture matricielle et une matrice limite)
une matrice limite avec ∑ et est de la forme suivante :
4 5 4 5
3. Les modèles de régression issues de l’économétrie

Bien que l‟importance de la notion de changement de régime soit depuis fort longtemps
reconnue, il n‟existe aucune théorie établie suggérant une approche unique afin de spécifier des
modèles économétriques qui incluent des changements de régime. Le concept de base qui sous-
tend la conception des modèles incluant des changements de régime est que le processus à
modéliser est supposé être une fonction d‟une variable (ou indicatrice du régime en
cours à l‟instant ( = transcrit le fait qu‟à l‟instant le système opère dans le ièm régime de
fonctionnement). Le modèle caractérise ainsi un processus non linéaire générant des données
linéaires par morceaux. Chaque régime de fonctionnement est donc naturellement représenté
par un modèle linéaire.
Il existe une panoplie assez vaste de modèles qui entrent dans la classe des modèles à
changement de régime. D‟un modèle à l‟autre, la différence provient des hypothèses formulées
sur le mécanisme générateur du changement de régime. Les changements de régime peuvent,
dans certaines situations, être considérés comme des évènements déterministes et dans d‟autres,
on peut envisager qu‟ils sont régis par un processus stochastique exogène.
Parmi les modèles TAR (modèle a seuil), STAR (modèle à changement progressif de régime)
et MS-AR nous nous intéressons dans ce travail d‟étudier les modèles à changement de
régimes markovien (MS-AR) ou Markov Switching -AutoRegressive .
Quandt (1958) fut à l‟origine des premiers principes de la représentation par des
modèles à changement de régime, S‟en suivirent plusieurs travaux qui complétèrent les travaux
de Quandt et posèrent un formalisme complet d‟une telle représentation (Goldfeld et Quandt
1973, Baum et Petrie 1966, Tong 1978, Hamilton 1989,1990), Les propriétés de ces modèle
permettent d‟autoriser une série à posséder une dynamique différente suivant les régimes ou les
états du monde dans laquelle elle se trouve.
Depuis leur introduction par Hamilton (1989), Les modèles autorégressifs à changement
de régime Markovien (MS-AR) ont connu un développement important. Un modèle MS-AR
exprime l‟observation courante en fonction linéaire des p dernières observations, modulo un
processus d‟innovation, avec paramètre évolutifs, dépendant d‟un processus latent qui est une
chaine de Markov (cachée) finie, ergodique et stationnaire.
39
4. Présentation générale du modèle MS-AR
La classe des modèles à changement de régimes Markoviens a été initialement

introduite par Goldfeld & Quandt (1973) puis ensuite adaptée par Hamilton (1989) à
l‟économétrie des séries temporelles. Ces modèles sont traditionnellement utilisés pour prendre
en compte des ruptures, comme des crises, ou des nouvelles politiques économiques qui
peuvent modifier fortement l‟évolution des variables.
La particularité de ce modèle repose sur le mécanisme de transition qui est gouverné par
une variable exogène inobservable . Pour laquelle est spécifiée une loi de
probabilité.
On peut alors définir un modèle autorégressif à changement de régime Markovien comme un
processus bivarié dans lequel variable indicatrice des changements de régimes, est
modélisée par une chaine de Markov à états finis, homogène et ergodique et l‟évolution de la
variable observée suit un modèle autorégressif linéaire.
La figure 2.1 représente des réalisations du processus stochastique qui régit les changements de
régime du système. Ce processus est modélisé par une chaine de Markov. Ce qui conduit à
l‟obtention du second graphique sur lequel est présenté le régime actif à chaque instant. Ce
régime est indexé par la variable qui prend soit la valeur 1 (indiquent que c‟est le régime
1 qui est actif) ou 2 (indiquant que c‟est le régime 2 qui est actif). La sortie mesurée du
système est tracée sur le premier graphique :
Figure 2.1 Modèle autorégressif à changement de régime markovien
40
Un processus à valeurs réelles ; défini sur un espace de probabilité P , est
dit admettre une représentation autorégressiv à changement de régimes Markovien (MS-AR)
s‟il est solution de l‟équation aux différences stochastique suivante :
∑ (2.5)
Où est une suite i.i.d. de moyenne nulle et de variance unité, et où est

une chaine de Markov à espace d‟état fini , homogène, de matrice de probabilité
de transition ( ) avec . On suppose qu‟elle est
irréductible, apériodique et récurrente, donc elle est stable. On suppose également que la loi
marginale de la chaine est initialisée à partir de sa loi de probabilité invariante, i.e.
est strictement stationnaire avec où est
solution du système et avec
Ainsi les paramètres du modèle et dépendent des états de la
chaine .
Il est possible de permettre à l‟ordre du modèle de dépendre de la chaine, , de
sorte à permettre plus de flexibilité, en particulier de réduire le nombre de paramètres.
Cependant les procédures d‟inférence se compliquent en vain puisqu‟elles rajoutent des
contraintes supplémentaires et on peut toujours retrouver le modèle (2.5) en posant
x avec pour .
Il est également possible de supposer que le support de l‟équation aux différences (2.5)
est l‟ensemble des nombres entiers naturels plutôt que . Les techniques utilisées et les
résultats obtenus en seront invariants.
Intuitivement parlant, pour une valeur possible prise au hasard par la chaine à un instant ,
soit , le processus er cet instant, dépend de son passé selon le régime
décrit par les paramètres et à travers la formulation AR suivante :
A l‟instant suivant, , le processus dépendra de son passé selon le régime pris par la
chaine qui peut être différent de celui à l‟instant . Ainsi à tout instant il y‟a possibilité de
changement de régime de dépendance, et ce changement évolue selon un processus
Markovien. D‟où l‟appellation « à changement de régimes Markovien »
Une autre appellation du modèle (2.5) comme sous le nom de « mélange Markovien »
émane de la loi de probabilité des valeurs de processus. En effet le modèle (2.5) peut se mettre
sous la forme plus générale mais qui n‟en est pas équivalent. Au lieu de définir le modèle à
travers une équation aux différences stochastique. C'est-à-dire directement par le biais des
valeurs prises du processus solution. On peut caractériser le processus en (2.5) au
moyen de sa loi de probabilité conditionnellement aux valeurs du passé,
jusqu'à l‟instant , où désigne la -algèbre générée par
. En effet, par la formule des probabilités totales et de la
propriété i.i.d. de on a :
41
⋃ |
∑
∑ ∑
∑ ̃
∑
∑ ̃ (2.5.1)
Où ̃ et est la fonction de répartition de (on prend souvent

pour la fonction de répartition de la loi normale standard).
Ainsi d‟après la (2.5.1) il s‟avère que la loi conditionnelle du processus sachant le passé est un
mélange de lois : c'est la raison pour laquelle le modèle (2.5) est dit mélange Markovien
(Markov Mixture) qui est un cas spécifique d‟un mélange autorégressif (Mixture auto-
régression) dans lequel le processus latent est une chaine de Markov. On notera par
ailleurs le modèle (2.5.1) est plus général que le mélange d‟auto-régressions (Mixture MAR)
proposé par Wong & Li (2000) dans lequel une suite i.i .d.
5. Relation du modèle MS-AR avec d’autres modèles de séries

chronologiques
5.1. Relation avec un modèle autorégressif classique (AR)

Un processus autorégressif d‟ordre peut être défini par une équation aux
différences stochastique de la forme :
Où est un bruit blanc

D‟autre part, on a vu qu‟un modèle MS-AR exprime l‟observation courante comme une
fonction linéaire des dernières observations, modulo un processus d‟innovation, avec
paramètres évolutifs, dépendants d‟un processus latent qui est une chaine de Markov finie,
ergodique, stationnaire. Ainsi un tel modèle se réduit à une auto-régression classique dans le
cas où la variable latent Markovienne possède un seul état (i.e. l‟espace d‟état
se réduit à un singleton)
5.2. Relation avec un modèle TAR

L‟existence d‟une relation non linéaire entre les variables économiques peut etre modélisée de
façon simple à l‟aide des modèles à seuil. En effet la linéarisation par morceaux est souvent une
approximation correcte de la dynamique non linéaire d‟un processus. Ainsi dans les modèles à seuil,
cette dernière est représentée par des dynamiques linéaires différentes selon la situation du système.
Les modèles autorégressifs à seuil ont été introduit par Tong(1978) et on fait l‟objet d‟études
approfondies (Tong et Lim(1980). Tong(1983) : cités dans Mélard et Roy (1988)). Les modèles
autorégressifs à seuil TAR (Threshold autoregressive model) exhibent un comportement
42
incorporant des changements de régime lié au franchissement d‟un seuil par une variable de
transition exogène observée :
∑ ( ) ( ∑ ( ))
Où les sont des variables aléatoires normales indépendantes, de moyennes nulles et de

variance . La fonction indicatrice est définie par :
L‟idée sous-jacente dans la modélisation TAR est d‟appréhender le caractère non linéaire d‟une
régression en ayant recours à un modèle linéaire par morceaux. Chaque
« morceau » correspond à un régime auquel est étiqueté un modèle autorégressif linéaire. Un
seul régime est actif à chaque instant .
la figure 2.2 montre un exemple de modèle autorégressif à seuil. Sur le deuxième

graphique de cette figure est présentée l‟évolution de la variable de transition . le seuil
définissant l‟instant de changement de régime a été fixé à 0.5 . le premier graphique montre
l‟évolution de la sortie mesurée du processus. Les traits verticaux discontinus marquent
les instants de changement de régime.
Figure 2.2 modèle autorégressif à seuil (TAR)
Le modèle TAR s‟exprime sous forme de mélange sauf que le mécanisme de transition
dépend de son passé et que les changements de régime sont liés à une variable de transition
observée. Par contre dans le modèle MS-AR ces changements de régime sont liés à une
variable latente.
43
5.3. Relation avec le modèle chaine de Markov cachée (HMM)
Baum et Petrie ont introduit en 1966 les modèles de chaine de Markov cachées, notés
HMM (Hidden Markov Model). Cette classe de modèles repose sur l‟hypothèse qu‟une
séquence n‟est pas directement générée par une chaine de Markov mais indirectement par des
lois de probabilité attachées aux états de la chaine de Markov. Les premières applications de
ces modèles furent la reconnaissance automatique de la parole à partir des années 70. Leurs
champ d‟application s‟est depuis beaucoup élargi, allant du traitement du signal à l‟analyse de
séquences d‟ADN. Ces modèles sont utilisés pour deux raisons principales. La première est la
probabilité d‟expliquer les variations du processus sous jacent caché. La seconde raison
d‟utiliser les HMM est la possibilité de prédire un processus non observé à partir d‟un
processus observé (Chaubert-Pereire, 2008).
Une chaine de Markov cachée peut être vue comme un couple de processus
stochastiques tel que le processus , appelé processus d‟état ou caché, soit
une chaine de Markov d‟ordre 1 et le processus appelé processus d‟observation,
soit lié au processus d‟état par une fonction probabiliste :
Une chaine de Markov cachée peut être vue comme un modèle de mélange fini de
distributions avec dépendances markoviennes. Lorsque les variables observables sont
conditionnellement indépendantes connaissant la variable latente, la chaine de Markov cachée
n‟est qu‟un cas particulier du modèle MS-AR.
La figure 2.3 représente le graphe d‟indépendance conditionnelle pour le modèle HMM, la loi
conditionnelle de dépend uniquement de
Figure 2.3 graphe d‟indépendance conditionnelle pour le modèle HMM
44
5.4. Relation avec le modèle espace d’état
L‟étude de systèmes physiques émettant au cours du temps des signaux déterminés par
des états internes non observés, a conduit à développer en traitement du signal les modèles dits
espace d‟état. L‟émergence de ces modèles est relativement récente dans la recherche
empirique en finance.
Les modèles espace d‟états à changement de régime on été introduit en (1989) en

économétrie, puis ont été ensuite largement utilisés par Kim (1994). Le modèle proposé par
Kim (1994) est une extension du modèle à changement de régime Markovien étudié par
Hamilton (1989) pour les modèles espace d‟états linéaires. Cette nouvelle spécification est
basée sur la combinaison des modèles espace d‟états avec les modèles de chaine de Markov
cachée, en supposant que les différents états de l‟économie aussi bien que la transition d‟un état
à un autre ne sont pas observables.
Soit un processus multidimensionnel , on appelle modèle espace d‟états de

ce processus, le système décrit par les équations suivantes :
Où ( ) [( ) ( *]
Ces modèles sont constitués : d‟une ou plusieurs équation(s) d‟observations

décrivant la manière dont les variables observées sont générées par les variables cachées et les
résidus. d‟une ou plusieurs équation(s) d‟état décrivant la manière dont les variables
cachées sont générées à partir de leur retard et d‟innovations. La variable est appelée
observation. est la variable d‟état à la date , est le vecteur d‟innovations à la date ,
est le vecteur des erreurs de mesures à la date , est la matrice de transition. est la matrice
de mesure (d‟observations). Ces modèles reposent sur un certain nombre d‟hypothèses
principales : les équations d‟observations d‟états sont linéaires ; les bruits d‟observations et
d‟innovations sont des bruits blancs ; les variables cachées suivent à un instant initial donné
une loi gaussienne. A ces dernières se sont ajoutées des hypothèses secondaires, à savoir
l‟indépendance entre la variable cachée et ces bruits.
Le modèle MS-AR peut être vu comme un modèle espace d‟états non linéaire avec
équation d‟observation non linéaire, équation d‟état non linéaire, mais à variable d‟état discrète.
45
5.5. Relation avec le modèle de volatilité stochastique
On considère le modèle d‟ordre 1 défini par :
Où est une suite de variable aléatoires indépendantes et identiquement distribuées

(i.i.d) centrées et de variance 1, et i.i.d . On suppose que
est indépendante de .
Le processus est un autorégressif Markovien mais à espace d‟état général non

observable ; la variable observable s‟exprime par une fonction connue. Par contre un modèle
MS-AR s‟exprime par une fonction non linéaire et le processus latent est discret.
Il existe d‟autres relation du modèles MS-AR avec d‟autres modèles comme :
 Relation avec un modèle autorégressif à coefficients aléatoires (RCAR)

 Relation avec des modèles de mélange autorégressif (MAR)
 Relation avec le modèle de rupture
6. Structure probabiliste du modèle MS-AR

Dans cette section, on exploitera la représentation (2.5) pour étudier la structure
probabiliste du modèle, à savoir la stationnarité (stricte et au second ordre), l‟ergodicité
géométrique, la structure d‟autocovariance et l‟existence des moments d‟ordres supérieurs.
L‟étape rudimentaire est d‟écrire le modèle sous forme Markovienne.
Le modèle (2.5) peut se mettre sous la forme espace d‟état à changement de régime (équation
aux récurrences stochastique)
(2.7)
Où
( ,
Et
46
6.1. Existence d’une solution stationnaire stricte
La stationnarité du modèle (2.5) découle ainsi de l‟existence d‟une solution strictement
stationnaire de l‟équation (2.7). Puisque est strictement stationnaire et
ergodique, ( étant i.i.d. est strictement stationnaire et ergodique) donc
l‟est aussi. De plus et , x . Ainsi
par la version multivariée du théorème de Brandt (1986), (voir aussi Bougerol & Picard, 1992)
l‟équation (2.7) admet une solution unique, strictement stationnaire et ergodique de la forme :
∑ ∏ (2.7.1)
Où la série en (2.7.1) converge presque surement. Pourvu que l‟exposant de Lyapunov soit
négatif.
f ‖ ‖
‖ ‖
Théorème 6.1 : si , alors la série ∑ ∏ converge presque surement et

l‟équation (2.7) admet une solution strictement stationnaire de la forme
∑ ∏ , de plus la solution et unique et ergodique.
Remarque 6.1
i. On note que la condition est également nécessaire si de plus S t est

une suite i.i.d. on vérifie aisément dans ce cas que le modèle (2.7) est irréductible (voir
Bougerol & Picard, 1992) dans le sens où le seul sous-espace invariant sous (2.7) est
. Dans les cas où S t n‟est pas i.i.d. le problème de recherche de conditions
nécessaire reste ouvert.
ii. La condition de la stationnarité stricte basée sur l‟exposant de Lyapunov présente
l‟inconvénient de dépendre de la loi du processus et non pas des paramètres du modèle
uniquement. En effet il est difficile de vérifier si l‟exposant de Lyapunov est négatif
sans faire des simulations. Cet inconvénient limite l‟intérêt de la condition de Lyapunov
du point de vue des applications statistiques.
iii. La condition n‟assure pas automatiquement l‟existence des moments de la
solution. Par fois, il est nécessaire que la solution ait des moments d‟ordre 2 pour que la
théorie de l‟estimation ait un sens. Ainsi on recherche une condition pour l‟existence
d‟une solution stationnaire et ergodique et de plus ayant des moments d‟ordre 2 (de
carré intégrable).Dans la suite, on s‟intéresse à l‟existence d‟une solution stationnaire au
second ordre qui est de plus strictement stationnaire et l‟hypothèse sur t peut
47
être relaxée à la condition et t est strictement stationnaire et
ergodique.
6.2. Existence d’une solution stationnaire au second ordre

Soit le produit de Kronecker, i.e. : et le rayon spectral de la
matrice , i.e. la plus grand valeur propre de en module. On pose :
( )
Où
Le résultat suivant dû à Yao (2001) et Francq & Zakoian (2001) donne une condition suffisante
pour l‟existence d‟une unique solution stationnaire au second ordre (à l‟équation (2.7)) qui est
de plus strictement stationnaire et ergodique.
Théorème 2.7.2 (Existence d‟une solution stationnaire de carré intégrable, Francq & Zakoian
(2001))
si alors :
i. L’équation (2.7) admet une unique solution stationnaire et ergodique de carré

intégrable de la forme (2.7.1) où la série en (2.7.1) converge en moyenne quadratique.
ii. L’exposant de Lyapunov est négatif.
6.3. Propriétés d’ergodicité géométrique et de -mélange

Dans cette section nous supposons
H.1 :
H.2 : la variable possède une densité absolument continue par rapport à la mesure de
Lesbesgue et cette densité est strictement positive.
Comme le processus est une chaine de Markov, alors, il est montré dans Meyn et
Tweedie (1993) que si est -irréductible et apériodique et s‟il vérifie une condition de
dérive, i.e, s‟il existe une fonction réelle , des constantes positives et
, un compact tels que { ( ) } ( ) alors est
géométriquement ergodique et -mélangeant.
48
Théorème 2.7.3 : sous les conditions H.1 et H.2 le processus est géométriquement
ergodique et -mélange.
6.4. Structure d’autocovariance

Calcul de l’espérance et de la variance du processus solution
Dans le but de calculer l‟espérance du processus nous utilisons la forme vectorielle

(2.7) du modèle :
Où
=( ,
A partir de la forme (2.7) l‟espérance conditionnelle de est calculée comme suit :
( ) ( )
∑
∑ ( )
∑ ∑
Soit et
Nous avons , où est obtenue en remplaçant les matrices par dans la

définition de . Cependant nous avons : avec la condition que soit
inversible.
49
L‟espérance de est alors obtenue par :
Calcul des moments de second ordre
Dans cette partie nous allons calculer les moments de second ordre du processus
. Nous avons :
On pose : matrice de covariance non singulière, donc
(on utilisé : )
( }
{ }
Soit
La matrice est obtenue en remplaçant les termes par

dans la définition de , on a aussi la matrice donnée par
.
Notons que la matrice est inversible sous la condition
Nous avons alors, DU
D‟où
50
( )
La variance peut etre facilement déduit à partir de la relation précédente (Francq et

Zakoian.2001 ;Timmermann,2000).
La fonction d’autocovariance
Calculons la fonction d‟autocovariance de . Pour tout , soit la matrice de
è
dimension dont la bloc est la matrice ,i.e. pour
( ,
Soit donnée par la forme précédente, en multipliant les deux membres par on aura :
Donc
∑ ∑
Avec .
Soit la matrice de transition de la chaine , et la matrice (resp. ̃) est obtenue en

remplaçant par (resp. ) dans , nous
avons pour tout
Et
(2.7.2)
51
6.5. Structure ARMA des autocovariances d’un MS-AR
A présente on veut montrer que le processus est aussi un ARMA standard. Il suffit
donc de vérifier que la structure d‟autocovariance de est celle d‟un ARMA. Pour simplifier les
calculs, on suppose que . Alors on a et .
En utilisant la décomposition de Jordan (voir Lancaster et Tismenetsky.1985). peut être écrit sous
la forme :
∑ ∑ , x
Avec sont des matrices de dimension , les sont des valeurs propres de , et
.
A partir de (2.7.2) nous avons alors
∑ ∑ x
Par conséquent, il existe une relation récursive entre les autocovariances, de la forme
∑ (2.7.3)
Avec est le coefficient de dans le polynôme ∏ . Puisque la forme (2.7.3)

caractérise la fonction d‟autocovariance des processus ARMA (voir Brockwell and Davis, 1991), donc
le processus est un ARMA. Cette représentation peut être utilisée pour obtenir les prévisions
linéaires du processus observé.
6.6. Critère d’existence des solutions stationnaires

On se place dans le cas simple (à deux régimes) où la chaine ne prend que deux
valeurs, on peut alors expliciter le critère d‟existence des solutions. Pour être plus précis, soit la matrice
de transition (Saporta, 2004)
( * avec
Comme est irréductible et apériodique, on a en fait , et (avec

espace d'état fini)et on a la condition de stationnarité :
(Condition d'existence d'une solution

stationnaire: traduction du théorème générale de Brandt tel que )
52
Pour tout , la matrice s‟écrit :
( *
Et son polynôme caractéristique est :
t
est un scalaire et la matrice identité
Il a pour discrminant :
Comme est une matrice irréductible (puisque l‟est et que les ne peuvent être nuls) et
positive, donc nécessairement on a . On peut donc donner la valeur du rayon spectral
de :
√
(2.7.4)
Regardons dans lequel des deux cas admissibles de comportement de la fonction

on se trouve en fonction des valeurs , , , :
1. Soit pour tout et la solution stationnaire à des moments à tout ordre.
2. Soit quand tend vers l‟infini, et la solution stationnaire a une queue

polynomiale d‟ordre où est l‟unique point tel que
 Si et
Alors pour tout , le rayon spectral est toujours inférieur ou égal à 1. On test alors dans le
premier cas.
 Si
La condition précédente impose alors . Deux cas se présente en fonction de la valeur

de
- Si , alors en faisant tendre vers l‟infini dans (2.7.4) on constate que tend
vers l‟infini, on est donc le deuxième cas.
- Si , alors l‟expression de et se simplifie :
√
et 4
53
Et tend vers l‟infini si seulement si tend vers l‟infini, c'est-à-dire si seulement si
.
Cette dernière condition est vérifiée si et seulement si
 Par symétrie on a un résultat analogue si on suppose
7. Estimation du modèle
Plusieurs méthodes d‟estimation dans les modèles de changement de régime Markovien

ont été proposées comme la méthode du maximum de vraisemblance, la méthode bayésienne
MCMC proposée par Albert et Chib (1993), McCulloch et Tsay (1993), Fruhwirth-Schnatter
(2001), l‟approche récursive de Holts et Al (1994) ; comme on peut citer d‟autres méthodes
telle que la méthode des moments généralisés, méthode des moindres carrés,… etc. dans la
suite de ce travail nous allons intéresser à l‟algorithme EM.
7.1. Fonction de vraisemblance conditionnelle d’un MS-AR
Pour cette fonction on a deux cas très importants dans les modèles à changement de
régimes, le premier cas où le processus latent est i.i.d. pour les données observées ou
complètes, le deuxième cas où le processus latent est Markovien (non i.i.d).
Dans notre mémoire on va étudier le deuxième cas.
Etant donné la série d‟observations générée à partir du modèle (2.5)
sous la condition que est une chaine de Markov ergodique, homogène, stationnaire et
initialisée à partir de la distribution invariante où et que l‟état
change entre différents régimes selon la valeur passé et les probabilités de transition données
par
avec (2.8)
Et
∑
(2.8.1)
Le vecteur de paramètre { }, qui

caractérise la densité de probabilité, peut être estimé sous la condition de normalité des erreurs
, via la méthode du maximum de vraisemblance. L‟objectif est alors de trouver qui
décrit au mieux les données. Cette estimation permet alors de mener une inférence sur les
observations associées à chaque état.
a) Fonction de vraisemblance via les données observées
Notons qu‟on peut caractériser le processus donné par (2.5) à la moyenne de

la distribution conditionnelle marginale connaissant l‟information passé
jusqu‟à l‟instant
∑
∑ ̃ ( *
Où ̃
54
On cherche alors à maximiser la fonction de vraisemblance donnée par :
Ou encore
( ) ∑
Où est l‟ensemble d‟information disponible à la date . est la

distribution non conditionnelle à l‟état des observations. Puisque dans chaque régime, les
observations sont normalement distribuées, avec les paramètres propres au régime,
est une combinaison linéaire de distributions normales, chacune étant associée à
un état particulier et pondérée par la probabilité d‟etre dans l‟état correspondant (Zivot et
Wong, 2005).
On évalue :
Où
- est la matrice de conditionnellement à l‟état .
- ∑ est la probabilité d‟être dans l‟état à

la date conditionnellement à l‟information en .
Donc la fonction log-vraisemblance devient :
∑ ∑
D‟après le théorème de Bayes, la probabilité prédictive peut être donnée

par :
∑ (2.8.2)
∑
∑
̃.
Enfin la log-vraisemblance s‟écrit comme suit :
∑
∑ ∑ ̃
55
où ̃ est donnée par (2.8.2) ; et où l‟on suppose que est condition-
nellement indépendant de connaissant .
Ainsi, la fonction de vraisemblance est calculée à partir d‟un algorithme itératif (filtre de
Hamilton,1989). Chaque itération de l‟algorithme correspond aux étapes suivantes :
a) On entre
b) On calcule la valeur de la densité
c) On récupère issue de la formule de Bayes. Cette probabilité est l‟entrée
de l‟itération suivante.
La maximisation de la vraisemblance est réaliser sous les contraintes (2.8) et (2.8.1)
b) Fonction de vraisemblance via les données complètes

Dans le cas des modèles MS-AR, la vraisemblance des données complètes peut etre
écrire sous la forme suivante :
∑ ∑ ∑
La distribution conjointe des états et des observations est donnée par
D‟où
∑ ∑ ∑
∑ ∑ ∑ ∏ ∏
Avec
∑
x . /
√
7.2. Estimateur du maximum de vraisemblance

Dans la section précédente nous avons montré comment obtenir la fonction log-
vraisemblance , pour les deux cas du processus Markovien. Etant données les observations
, les formules données pourront être employées pour calculer la valeur de pour
n‟importe quelle valeur de .
56
Cette section discute comment trouver la valeur de ̂ qui maximise étant donnée cette
possibilité de calculer la valeur de pour n‟importe quelle valeur de L‟approche générale
consiste à construire une procédure qui permet à un ordinateur de calculer la valeur numérique
de pour des valeurs numériques particulières de et des données observées .
7.2.1. Algorithme
L‟algorithme E (Expectation-Maximization) est une méthode d‟estimation qui permet
d‟obtenir les estimateurs des paramètres dans les problèmes à données incomplètes pour
lesquels l‟approche classique d‟estimation n‟est pas toujours envisageable. La notion de
données incomplètes couvre de très nombreuses situations : données manquantes, données
censurées, variables latentes (Chaubert-Pereira 2008)
Présentation générale
L‟algorithme E (Expectation-Maximization) est une procédure itérative pour le calcul

de l‟estimateur du maximum de vraisemblance lorsqu‟une partie uniquement des données est
disponible. Dempster, Laird et Rubin 1977 ont démontré la large applicabilité de cet
algorithme. Dans la formulation habituelle de l‟algorithme E , le vecteur des données
« complètes » se compose des données « observables » et des données « introuvables » .
Dans beaucoup d‟applications, se compose des valeurs d‟un processus « latent » ou caché
(Brockwell et Davis 2001).
L‟algorithme EM est d‟un algorithme itératif. Partant d‟une valeur initiale , à chaque
itération de l‟algorithme, il y a deux étapes, à savoir l’étape E (Expectation) et l’étape M
(Maximization).
Nous décrivons ci-dessous plus précisément ces deux étapes dans le cas des modèles MS-AR,
désigne la valeur des paramètres après la itération (Chaubert-Pereira 2008).
Etape E : l‟étape E consiste à concevoir un problème aux données complètes tel que
l‟espérance de la log-vraisemblance des données complètes conditionnellement aux don-nées
observées soit manipulable (ce qui suppose d‟étudier la relation entre la vraisemblance des
données complètes et la vraisemblance des données incomplètes).
Soit l‟espérance de la log-vraisemblance des données complètes à l‟itération

conditionnellement aux données observées, en utilisant la valeur courante estimée du
paramètre . à l‟étape E, on calcule
( )
Du fait de devoir connaitre la valeur courante du paramètre pour estimer la log-

vraisemblance des données complètes, l‟algorithme EM est nécessairement un algorithme
itératif.
57
Etape M : la prochaine valeur du paramètre , est choisie telle que
( )
Ceci se traduit par le fait de choisir dans l‟ensemble des valeurs qui maximisent la quantité
( ) calculée à l‟étape E :
x ( )
Les étapes E et M sont itérées jusqu‟à la convergence de l‟algorithme. Les propriétés de

l‟algorithme EM seront présentées ultérieurement.
Algorithme dans le cas des modèles de chaine de Markov
Dans cette partie nous allons donner la caractérisation de l‟algorithme EM ainsi que ses
propriétés. Pour cela on commence d‟abord à donner quelques notations (Hamilton 1990).
Soit le vecteur des observations, tel que , nous définissons aussi le

vecteur qui contient les réalisations des états non observés, .
Enfin nous avons collecté tous les paramètres à estimer dans le vecteur tel que :
- représente le vecteur des probabilités de

transitions markoviennes.
-
Notre objectif est de maximiser la probabilité des observations :
(2.8.2)
En choisissant le vecteur des paramètres le mieux approprié. La probabilité (2.8.2)

n‟est que la fonction de vraisemblance conditionnelle de et de vecteur des paramètres
inconnu et elle peut être écrire comme :
∑ ∑ ∑
Donc, la vraisemblance des observations est paramétrée par . Il sera utile d‟utiliser
l‟expression ( ) pour représenter l‟espérance de log-vraisemblance, où le log-
vraisemblance est paramétré par et l‟espérance est prise avec une deuxième distribution
paramétrée par :
( )
∑ ∑ ∑
58
∑ ∑ ∑ (2.8.3)
Caractérisation de l’algorithme
Il existe deux façons de caractériser l‟algorithme EM pour arriver à MLE ̂ . La

première caractérisation conçoit une séquence de problème d‟optimisation. Pour chacun de ces
problèmes, la solution analytique exacte ̂ est trouvée. Par construction la solution du
problème d‟optimisation, augmente la valeur de la fonction de vraisemblance relativement à sa
valeur pour ̂ . Cette séquence d‟estimateur converge vers un maximum local de la fonction
de vraisemblance :
̂ ̂
Dans sa deuxième caractérisation, l‟algorithme EM remplace les points non observés par leur
moyenne donnée par le vecteur des paramètres estimé à l‟itération précédente (Hamilton 1990).
Dans la suite on va présenter la première caractérisation.
Algorithme comme solution d’une séquence de problème d’optimisation
L‟algorithme EM démarre d‟une estimation initiale ̂ . On peut choisir comme valeur

pour ̂ , la valeur ̂ qui maximise ̂ ̂ avec ( ̂ est le vecteur des
estimations obtenu de l‟itération précédente), c'est-à-dire ̂ qui satisfait :
∑ ∑ ∑ ̂ ( | )
Les propriétés de l‟algorithme EM et les critères de convergence sont présentés dans la partie
suivante :
Propriétés l‟algorithme EM maximise la vraisemblance des données observées en maximisant

itérativement . De ce fait, la vraisemblance des données observées ne peut décroître
par Dempster et Al (1977) caractérise l‟algorithme EM et se traduit par laa propriété suivante.
Propriété 7.1 (Accroissement monotone de la vraisemblance) A chaque itération de

l’algorithme EM, la vraisemblance peut décroitre :
L’égalité a lieu seulement si
Preuve
Nous avons par construction maximise ̂ , (voir Liporace 1982, cité

dans Hamilton 1990), en particulier
59
̂ ̂ ̂ ̂
Avec égalité dans le cas où ̂ ̂
Nous avons
̂
(̂ ̂ ) (̂ ̂ ) ∑ ∑ ∑ 0 1 ̂
̂
̂
∑ ∑ ∑ * + ̂
̂
(car pour strictement positif, , avec égalité dans le cas où )
∑ ∑ ∑ [ ̂ ̂ ]
̂ f ̂
Ainsi si ( ̂ ̂ ) ̂ ̂ , alors ̂ ̂ , ce qu‟il fallait

démontrer.
Propriété 7.2 (Convergence vers un point stationnaire) La conséquence principal de cette

propriété est la convergence monotone de la séquence de vraisemblances { } qui
converge vers un MLE local si
̂
̂
,
Alors
Preuve
̂
̂
∑ ∑ ∑ , - ̂
∑ ∑ ∑ ̂
60
̂
Ainsi si le membre de gauche est nul, le membre de droite doit être aussi nul, ce qu‟il fallait
montrer.
En général, si la vraisemblance a plusieurs points stationnaires qui peuvent être soit des
maxima locaux, soit un maximum global. La convergence d‟une suite d‟itérations EM vers
l‟une ou l‟autre de ces valeurs stationnaires dépend du choix de la valeur initiale du paramètre
notée . Selon le type de point stationnaire (maximum local ou maximum global). On
parlera respectivement de convergence locale ou de convergence globale (Chaubert-Pereira
2008).
Les deux propriétés justifient le fait que l‟algorithme EM calcule l‟estimation ̂ du maximum
de vraisemblance. A présent nous allons nous intéresser à la forme particulière de l‟algorithme
EM donnée dans (Hamilton 1990). Nous avons la proposition suivante.
Proposition 7.3 (maximum de l‟espérance de la vraisemblance conditionnelle) pour la fonction

densité du modèle, le maximum de (2 .8.3) par rapport à est attient en
vérifiant
∑
∑
∑ ∑ ∑ ( |
D‟après la proposition précédente, l‟algorithme EM se réduit à deux étapes :
Etape
A l‟itération , les probabilités dites lissées pour une

valeur du paramètre . Hamilton (1990) a décrit une méthode pour le calcul de ces quantités.
Un algorithme plus rapide pour leur calcul a été proposé par Kim (1994) et décrit en détail par
Hamilton en 1994.
Etape
- Pour les paramètres probabilités, le maximum ( ) étant fixé, est

donné par
∑
∑
61
- Pour les paramètres autorégressifs, il revient à résoudre l‟équation
∑ ∑ ∑
Qui cependant n‟a pas de solution explicite à cause de la forme non linéaire la vraisemblance
en fonction de . Ceci n'est pas le cas pour les modèles MS-AR pour lesquels nous reprenons la
forme donnée par Hamilton (1990) par la suite.
Au lieu de résoudre une telle équation, on maximisé ( ) par rapport à en

utilisant une procédure de Newton-Raphson.
̂ (̂ ) ̂
Où est le vecteur gradient de et est la Hessienne complète.

Pour ce faire il faudrait déterminer les dérivées premières et secondes de ( )
Algorithme pour les modèles -
Maintenant on passe à la procédure d'estimation du maximum de vraisemblance co-

nditionnelle pour les modèles MS-AR; dont tous les paramètres dépendent du changement
d'état à l'exception de la variance, soit
Cette équation peut être réécrite sous la forme vectorielle:
Avec
( ) et
Alors la fonction de densité de probabilité conditionnelle de peut-être écrite comme suit:
x 0 1 4
√
Pour obtenir une forme spécifique de l'estimation, on dérive (2.8.4) par rapport à et :
62
{
En substituant (2.8.5) et (2.8.6) dans (2.8.4), on obtient
∑ ( | ) (2.8.7)
( ) ∑ ∑
L'estimation du qui satisfait l'équation (2.8.7) peut être trouvée à partir de la régr-esion
des moindres carrés ordinaires de ̃ et ̃ :
6 ∑ ̃ ̃ 7 6 ∑ ̃ ̃ 7
Avec
̃ √
̃ √
Et ainsi l'estimation de est:
̃ ̃
∑ ∑
∑
L'estimateur des probabilités de transitions est donnée par:
∑
∑
7.2.2. Calcul des probabilités lissées

Dans l'algorithme EM à l'étape , on a vu qu'il est nécessaire de calculer les probabilités
dites lissées. Dans la section qui suit nous allons donner deux algorithmes: Filtre de Hamilton
et Filtre de Kim.
63
Il s'agit des "probabilités lissées" qui représente les probabilités conditionnelles d'être dans
l'état à la date (ou l'inférence de l'état à la date basée sur l'information de l'ensemble des
observations et les paramètres du modèle ) Hamilton (1990). Nous présentons le filtre de
Hamilton
Via le filtre de Hamilton (1989,1990)
Dans la suite nous décrivons les procédures pour le calcul des probabilités lissées
Où est l'ordre autorégressif du modèle.
1. La première étape de l'algorithme consiste à initialiser les deux probabilités à savoir la

vraisemblance conditionnelle et à , on
obtient alors:
( | ) ∑ ∑ ( | )
Et
( | ) ( | )
( | )
( | )
Avec .
2. La deuxième étape consiste à calculer les mêmes probabilités pour par

les formules:
∑ ∑
Et
∑
( | )
3. Pour une valeur fixée de , on évolue la probabilités pour :
( | )
4. L'inférence pour :
∑
( | )
64
Finalement, nous pourrions finir le calcul des probabilités lissées en faisant la somme des
derniers états avec :
( | ) ∑ ∑ ∑
D'autres probabilités peuvent être calculées. Il s'agit des "probabilités filtrées". Ces prob-
abilités sont basées sur l'information disponible jusqu'à la date et sont calculer par l'algo-
rithme décrit ci-dessous.
Calcul des probabilités filtrées
On décrit maintenant l'algorithme permettant de calculer ces probabilités. Si on sup-

pose que la valeur initiale et le vecteur des paramètres sont connus, on
peut alors montrer (Hamilton 2005) que l'inférence optimale peut être alors obtenue en itérant
l'équation suivante:
∑
∑
Où le numérateur de la relation suivante peut être interprété comme étant une distribution de
densité conjointe conditionnelle de et :
La densité des observations conditionnellement à l'information passée est donnée par la

somme des termes de la dernière relation. E
En divisant la densité conditionnelle conjointe de et par la densité conditionnelle de , on

obtient la probabilité conditionnelle de sachant les observations; de cette façon nous
obtenons une inférence statistique sur les probabilité avec laquelle était dans l'état à
l'instant .
D'après la formule (2.8.12) on obtient
65
∑
D'autre part on a:
On obtient
∑
∑
Par conséquent, la log-vraisemblance conditionnelle peut être calculée pour un paramètre

donné.
En pratique, à partir d'une valeur initiale de , , choisie a priori, un algorithme de

maximisation classique, tel que celui de Newton-Raphson peut être utilisé pour fournir
numériquement la valeur de l'estimateur de maximum de vraisemblance.
66
Chapitre 3
Représentation VAR et Cointégration

Introduction
Les racines unitaires ont été détaillées dans un cadre univarié. On a considéré un
processus Stochastique univarié et étudié une certaine forme de non-stationnarité en
distinguant dans ce processus une partie déterministe que l‟on retirait et une partie stochastique.
C‟est cette partie stochastique qui a fait l‟objet de l‟analyse en regardant si elle avait une
représentation ARMA ou ARIMA. Cette distinction est très importante, car elle conduit à des
propriétés de long terme assez différentes en terme de permanence: persistance des chocs dans
le cas d‟une racine unitaire, amortissement des chocs dans le cas alternatif. Nous allons dans ce
chapitre poursuivre l‟analyse précédente, mais dans un cadre multivarié. Le fait de considérer
de façon conjointe plusieurs variables transforme radicalement la question et ouvre des
horizons nouveaux. La problématique des racines unitaires prend tout son sens dans un cadre
multivarié. Nous allons pouvoir analyser de façon conjointe les tendances stochastiques des
variables et voir que dans le cadre de la cointégration des variables peuvent avoir des tendances
stochastiques communes. Par exemple, si la consommation et le revenu ont chacune une
tendance stochastique, comment va évoluer ce couple de variables? On s‟attend
économiquement à ce qu‟elles croissent de façon plus ou moins parallèle. Si tel est le cas, il est
alors possible de trouver une combinaison linéaire de ces deux variables qui ne possède plus de
tendance, mais qui mesure simplement les erreurs d‟ajustement d‟une variable par rapport à
l‟autre autour d‟une relation d‟équilibre. On dit alors que les deux variables sont cointégrées.
Les premiers papiers sur les concepts d‟intégration et de cointégration remontent à Granger
(1981), Granger (1983) et Granger and Weiss (1983).
68
1. Séries temporelles multivariées stationnaires et non stationnaires
1.1 Stationnarité dans un cadre multivarié
Considérons un processus stochastique multivarié défini comme une suite de variables
Aléatoires de indexées par le temps. On supposera que chacune des n séries est
purement non-déterministe. On va noter le vecteur des espérances de . L‟autocovariance de
la série , donné est une matrice
( )
Pour , on a la matrice de variance-covariance de la série. Sur la diagonale de cette

matrice, se trouve la variance de chaque série, et sur les éléments hors diagonaux, les
covariances entre deux séries. On peut alors généraliser au cas multivarié la définition de la
stationnarité au second ordre que l‟on a donné pour les processus univariés.
Définition 1 un processus stochastique multivarié de est stationnaire au second

ordre si sa moyenne et ses autocovariances existe et sont indépendantes de .
Le théorème de Wold, donné dans le cas univarié accepte également une généralisation
multivariée.
Théorème 1 Tout processus stationnaire de Peut se décomposer en la somme

d‟une composante régulière parfaitement prévisible et d‟une composante stochastique
telles que:
Où est une suite de matrices carrées de taille absolument sommables avec

et avec bruit blanc , inversible.
On retrouve donc la décomposition entre partie régulière et partie stochastique qui admet
une représentation en moyenne mobile infinie. Le caractère abslument sommable de la suite de
matrices signifie que
∑‖ ‖
Où ‖ ‖ désigne la plus grande valeur propre de . Il est d‟usage d‟écrire cette

représentation sous une forme matricielle en introduisant des polynômes de retard matriciels.
On va donc maintenant définir ces polynômes par et écrire:
Avec
69
∑
Un polynôme de retard matriciel est donc la simple généralisation matricielle des

polynômes de retards étudiés dans le cas univarié. Il s‟agit d‟une suite de matrices carrées,
ici , chacune affectée d‟un opérateur retard élevé à une puissance croissante.
Considérons maintenant deux polynômes matriciel et de degré :
Le polynôme matriciel A(L) sera inversible si les racines de l‟équation caractéristique
(où désigne le déterminant d‟une matrice) sont toutes en dehors du cercle

unité. Considérons maintenant la représentation 2). Supposons que dans cette
représentation l‟on puisse approximer le polynôme matriciel par le produit des deux
polynômes matriciels finis et , avec . On peut alors transformer
cette représentation en :
Ce qui nous amène à pouvoir proposer un modèle , c‟est à dire vecteur

autorégressive moyenne mobile comme représentation approchée d‟une série multivariée
stationnaire. Si on a un processus moyenne mobile pur et si on a un processus
autorégressif pur. Ce dernier type de modèle est très employé pour modéliser les séries
multivariées et portes le nom de modèle VAR qui va nous occuper dans la suite:
Ce modèle est stationnaire si l‟équation | a toutes ses racines en dehors du

cercle unité. Si , le polynôme se réduit à . Dans ce cas, il est facile à
inverser et l‟on a :
Les puissances de ne convergent que si les valeurs propres de la matrice sont toutes
plus petites que .
2. Représentation VAR
2.1. Exemple introductif
On considère deux processus stationnaires et définies par les

relations suivantes :
70
∑ ∑
∑ ∑
où les innovations sont des bruits de variance respective et , et

non corrélés : . On ne constate immédiatement que le processus
vectoriel peut s‟écrire sous la forme d‟un processus . En effet :
. / ( * . /
On définit un processus vectoriel tel que :
. / . /
Alors, on montre immédiatement que :
On qualifie cette représentation de processus VAR (Vectorial Autoregressive) d‟ordre p,

noté VAR(p). Ce système initial donné par les équations (1.1) et (1.2), ou par la définition
matricielle (1.3) est qualifiée de représentation structurelle. On constate que dans cette
représentation le niveau de a un effet immédiat sur et vice et versa. L‟estimation de ce
modèle suppose donc d‟estimer 4 paramètres.
C‟est pourquoi on travaille généralement à partir de la forme réduite du modèle VAR. Ce

modèle, obtenu en multipliant les deux membres de (1.3) par , s‟écrit alors sous la forme :
̃ ∑ ̃ 4
avec :
Ce qui peut s‟écrire sous la forme :
̃ ∑̃ ∑ ̃
71
̃ ∑̃ ∑ ̃
On constate alors que le niveau de ne dépend plus directement de , mais seulement

des valeurs passées de et de , et de l‟innovation . Les innovations et sont
alors fonction des innovations de la forme structurelle ( ) et peuvent être corrélées
même en l‟absence de corrélation des innovations . En effet, on a :
Dès lors, on vérifie que les processus sont . Puisque :
Les variances de ces innovations sont alors définies par
( )
( )
Enfin, on constate que les innovations } peuvent être corrélées

alors même que les innovations du modèle structurel sont non
corrélées.
( ) 8
On constate que cette covariance est nulle en particulier lorsque , puisque dans ce
cas-là le niveau de n‟a pas d‟influence sur celui de et vice et versa.
3. Représentation générale
La définition générale d‟un processus est la suivante.
Definition 1.1. Un processus vectoriel , de dimension (n,1) ,admet une

représentation VAR d‟ordre p, notée si :
72
ou de façon équivalente :
où c,dimension(n,1) désigne un vecteur de constantes, ∑ , où les

matrice de dimension , satisfont . Le vecteur
des innovations est où est une matrice symétrique définie positive.
Le processus vectoriel des innovations est , et satisfait par conséquent

les propriétés suivantes :
( ) {
De la même façon que pour un , on peut donc exprimer le polynôme matriciel ,

de dimension ), de la façon suivante :
où désigne la matrice identité . On pose les définitions suivantes :
( , ( ,
( )
On retrouve alors la forme réduite évoquée dans l‟exemple précédent puisque, les processus
sont respectivement définis en fonctions de leur passé et du passé des processus
Pour . Par exemple, pour on obtient, t Z :
4. Conditions de stationnarité
La définition de la stationnarité d‟ordre deux (ou stationnarité du second ordre) est identique à
celle du cas des processus univariés.
Definition 1.2. Un processus vectoriel , de dimension , est dit stationnaire au

second ordre, ou stationnaire au sens faible, ou stationnaire d‟ordre deux si
 ‖ ‖


73
Lorsque l‟on considère un processus on peut démontrer que ces conditions de
Stationnarité reviennent à imposer des conditions sur les racines du déterminant du polynôme
matriciel
Proposition 1.3. Un processus vectoriel ,de dimension (n,1), statisfaisant une

représentation VAR(p) telle que :
est stationnaire si et seulement si les racines du déterminant du polynôme matriciel , notée

sont toutes supérieures à l‟unité en module.
| |
proposition 1.4. Un processus vectoriel {Xt,t Z}, de dimension (n,1), statisfaisant une
représentation VAR(p) telle que t Z :
est stationnaire si et seulement si les valeurs propres de l‟application linéaire Φ(L), notée
̃ , sont toutes inférieures à l‟unité en module. Ces valeurs propres satisfont
l‟équation caractéristique associée :
| ̃ ̃ ̃ |
|̃ | 4
5. Ecriture VAR(1) d’un VAR(p)

Les processus VAR(p) possède une propriété particulièrement utile pour les démonstrations
ultérieures.
Proposition 1.5. Tout processus vectoriel , satisfaisant une représentation VAR(p)

peut être transformé en un processus ̃ satisfaisant une représentation VAR(1)
d‟espérance nulle.
Preuve : On considère un processus , avec satisfaisant la

représentation VAR(p) suivante, :
D t t t ’ b ’ e du processus
74
t
où est un vecteur de constante (hypothèse de stationnarité) de dimension . On

peut alors réécrire le processus sous la forme suivante :
( )
On pose
( ) ( )
( )
Alors le processus t f ’ t f ̃
satisfaisant une représentation VAR(1) tel que :
̃ ̃
6. Estimation des paramètres

T t R t ’ t t t
envisageables pour les processus VAR. La première consiste tout simplement à appliquer
les MCO.
la seconde principale méthode consiste en le maximum de vraisemblance.
6.1. Maximum de Vraisemblance

On considère un processus , avec satisfaisant la
représentation suivante, :
On suppose que les innovations sont t ’

observations du processus . On cherche à déterminer la vraisemblance conditionnelle
de en fonction des réalisations passées P fi t t b t
conditionnelle de ’ t
75
( )
fi fi
( ) ( )
On a alors :
( ) ̃
S ’ t le vecteur des paramètres à estimer :
( )
Dès lors la densité conditionnelle de ’ t
( ) [ ( ̃) ( ̃ )]
En partant de cette expression, il est possible de b ’ b

’ t conditionnellement aux valeurs initiales ( )
La log- b ’ V R ’ t
∑ [ ( )]
∑[ ( ̃) ( ̃ )]
x t tt b t ’ bt t t
convergents des paramètres t t t
6.2. Détermination du nombre de retards

Pour déterminer le nombre de retards optimal pour un VAR(p), on peut utiliser plusieurs
méthodes. En particulier toutes les méthodes de comparaison de modèles étudiées dans
t t t è ’ t t t t
76
Une procédure type consiste à estimer tous les modèles VAR pour des ordres p allant de 0
à t fix f ç bt b etards maximum pour la taille
’ t b t x tb t
une intuition économique). Pour chacun de ces modèles, on calcule les fonction AIC(p) et
SC(p) de la façon suivante :
[ ̂]
[ ̂]
T t b ’ b t b b tè ̂ la matrice de
variance covariance des résidus estimés du modèle.
6.3. Prévisions
6.3.1. ’ V R
Consi ’ è V R t
S ’ ’ t t T t
’ t t t ̂ de t ’ t mateur convergent ̂
de f t ’ bt t à t T
processus est donc naturellement donnée par :
̂ ̂ ̂
’horizon T +2, on a :
̂ ̂ ̂ ( ̂ )̂ ̂
Proposition 3.1 D ê f ç à z ’ V R t
par :
̂ ( ̂ ̂ ̂ )̂ ̂
Dè ’ ’ t f
77
P fi t b t b tt
t ’ t
[( ̂ )( ̂ )| ]
[( )( )]
∑ ( )
Proposition 3.2. Pour un processus VAR(1), la matrice de variance covaria ’

de prévision à un horizon h est déterminée par la relation :
[( ̂ )( ̂ )| ] ∑ ( )
Les variances des erreurs de prévisions pour les processus univariés

sont déterminées par la diagonale principale de cette matrice.
’ V R
’ ’ bt tt è f tà t t t
V ’ V R ’ E ff t est un processus stationnaire,
t ’ f
Dè ’ ’ t f
P fi t b t b tt
t ’ on est donc :
[( ̂ )( ̂ )| ]
78
∑
Proposition 3.3. P V R t ’
de prévision à un horizon h est déterminée par la relation :
[( ̂ )( ̂ )| ] ∑
Les variances des erreurs de prévisions pour les processus univariés

sont déterminées par la diagonale principale de cette matrice.
7. La causalité
U t ’ t à t ’ V R t ’ x t
t t t ff t b tè I x t
fi t t
• t G
• t S
N t à ’ x t Granger qui est la plus

f t t t O t t ’ b -varié
’
( *
7.1. Causalité au sens de Granger
La question est de savoir si la variable ” ” b .
D fi t . On dit que la variable x cause au sens de Granger la variable y si et

seulement si la connaissance du passé de x améliore la prévision de y à tout horizon.
D tt fi t
Corollaire 7.2. On dit que la variable ne cause pas la variable au sens de Granger, si et
seulement si :
79
De façon équivalente, on dit alors que la variable y est exogène au sens des séries
temporelles.
t ’ V R
Pour un VAR(p) avec n =2la condition de la causalité au sens de Granger est immédiate à
obtenir.
Dans le système bi-varié suivant
( * ( * . /( * . /( *
. /. / . /
la variable ne cause pas la variable si et seulement si :
Autrement dit, la variable ne cause pas la variable si et seulement si les matrices

sont toutes triangulaires inférieures pour
E ff t tt t
( * ( * . /( * . /( *
. /. / . /
Dès lors,
On a bien alors :
80
8. C t t t è àC t ’E
8.1. Cointégration
R fi t ’ t
D fi t 1. Un processus est est un processus DS (Differenc Stationnary)

’ t ’ fit fi
est stationnaire.
Partant de là, on peut introduire la notion de cointégration :
D fi t . On considère un processus vectoriel =( , ,... de dimension

t ’ . Les processus sont dits cointégrés si et seulement si
il
Existe un vecteur tel que la combinaison linéaire est

t t t ’ t α à t t t
C ’ x t
Où sont deux bruits blancs non corrélés. La série est une

t t ’ I ff è est
stationnaire. De la même façon, la série proportionnelle à un choc stationnaire près, à
est elle aussi non stationnaire et E ff t ff è
est stationnaire. Considérons à présent la combinaison linéaire
Cette combinaison est elle aussi stationnaire. On dit que les processus et
( )sont cointégrés de vecteur . Bien entendu, toute transformation
monotone du vecteur t ’ bt t t t t C’ t
pourquoi le vecteur constitue en f t b ’ t t
t t t ’ à t t t
b ’ t t t fi t t
stochastiques communes. Bien entendu, les t ’
cointégration peuvent à tout moment ne pas satisfaire cette relation. Mais ces variables ne
t b t ’ t O t t t ’EC è à
C t ’E
81
8.2. Représentation VECM
8. è àC t ’E EC
I ’ t è t t t t t tt
une cible de long terme (la relation de cointégration) et une représentation dynamique de
tt ’ j t nt à cette cible).
R ’ x t
C ’ t :
[ ]
O t ’ t sous la forme suivante :
C tt è t tt t t EC E ff t, la dynamique du taux
de croissance de est déterminée par une cible de long terme (la relation de
cointégration ( ). Si il existe un écart positif à la période par rapport
à cette relation de long terme, alors le coefficient négatif devant la relation de long terme
t t x à la date . On dit que le
ffi t tt f E fi t è
est représenté par la partie .
Considérons à présent le cas général avec N processus
D fi t . On considère N processus t ’ t f t
t t t t t αt b aison linéaire :
soit stationnaire. Alors il existe une représentation ECM pour chaque processus
tel que :
∑ ∑ ∑
ffi t t f ’EC
82
S ffi t devant le résidu de la relation de cointégration est positif ou nul, la
t t EC ’ t pas valide.
8.2.2. Généralisation de la représentation VECM

On considère un processus VAR(p), noté de dimension(N,1) tel que :
Nous allons représenter ce processus sous la f ’ VEC P è

’ t t
Et t O è fi t à t t tb ’êt
VECM :
où les matrices sont fonctions des matrices et où
D fi t . De façon générale, la matrice t ’ f
où le vecteur t f ’ b t t la matrice dont

t t tt ffi t ff t t
cointégration pouvant exister entre les éléments du vecteur . Le rang de la matrice
détermine le nombre de relations de cointégration présentes entre les N variables du
vecteur .
S t ’ t-à-dire le nombre de colonnes linéairement indépendantes)

est égal à la dimension N du VAR alors toutes les variables du VAR sont stationnaires I(0)
et le problème de la cointégration ne se pose pas.
D fi t S t t f t
83
alors il existe r relations de cointégration et la représentation VECM est valide :
avec
8.2.3. Test du nombre de relation de cointégration

Le test de Joh tf ’ t t
Ce test est fondé sur les vecteurs propres correspondant aux valeurs propres les plus
t N ne présenterons ici que le test de la trace. A partir des
t t t t t t
T t b ’ b t le rang de la matrice, la valeur propre et le

nombre de variables du VAR. Cette statistique suit une loi de probabilité tabulée par
J tJ C t tf t x ’ t è t t
1. Test . Test de ’ t è t
cointégration contre au moins une relation. Si est supérieur à la valeur lue dans
la table au seuil j tt H x t t à ’ t
suivante, sinon on arrête et .
2. Test T t ’ t è t t t
contre au moins deux relation. Si est supérieur à la valeur lue dans la table au
seuil , on rejette , il existe au moins une re t à ’ t t
sinon on arrête et r =1.
Et t j ’à è t t
1. Test T t ’ t è relation de
cointégration contre au moi N t S est supérieur à la valeur lue
t b α j tt H x t N t f t N
variables sont I(0)) sinon . Sous Eviews vous disposez directement des valeurs
pour ainsi que les seuils tabulés par Johansen.
84
Chapitre IV
ESTIMATION NON-
PARAMETRIQUE D’UNE FONCTION
DE REPARTITION ET D’UNE
DENSITE
Introduction
L'objet principal de la statistique est de faire, à partir d‟observations d‟un phénomène

aléatoire, une inférence au sujet de la loi générant ces observations en vue d‟analyser le
phénomène et/ou de prévoir un événement futur. Afin d‟éviter toute erreur fatale sur
l‟appartenance de notre distribution à une famille paramétrique quelconque, nous pouvons
utiliser une approche statistique non-paramétrique n‟incluant que des caractéristiques
fonctionnelles de cette distribution.
Les estimateurs non-paramétriques classiques ont été introduits par Rosemblatt pour estimer
des densités de probabilité, par Parzen pour estimer le mode une densité de probabilité et par
Nadaraya Watson pour estimer une fonction de régression. Ainsi l‟objectif de ce chapitre est
de définir les estimateurs à noyau associé et d'établir leurs propriétés asymptotiques.
86
1. La fonction de répartition empirique
Soit des variables indépendantes et identiquement distribués (iid) de la fonction

de répartition
et
la statistiques ordonnées,
( ), est complètement inconnue.
Comment estimer , en basant uniquement sur les observations ?
Soit la fonction de répartition empirique définie par :
∑
{
Propriétés ´élémentaires de la fonction de répartition empirique
 On a :
( ) ( ∑ + ∑
Pour tout point , est un estimateur sans biais de
 Variance de l‟estimateur
( ) ( ) ( ) ( )
( ) 6 ∑∑ { }7
6 ∑ ∑ { } 7
Donc la variance de l‟estimateur est :
( )
4
( )→ Pour tout
87
 La loi des grands nombres nous donne
→ Presque partout
 Le théorème central-limite donne

√
→
√
2. Estimation non-paramétrique d’une densité de probabilité
Comment estimer non-paramétriquement la densité de probabilité , en se basant sur les

observations ?
Il existe plusieurs méthodes d‟estimation non-paramétrique d‟une densité.
La méthode la plus simple est celle de l‟histogramme. L‟objectif de cette section est de
décrire quelques autres méthodes importantes d‟estimation non paramétrique d‟une densité.
2.1 Histogramme de la densité
Cette méthode consiste à estimer en un point par la proportion des variables

aléatoires , qui se trouvent dans un intervalle de longueur un paramètre de
lissage et qui contient . Elle est donc basée sur le choix d‟un point d‟origine et d‟une
partition en intervalles du support de Si nous notons
le nombre de variables dans la classe
, et , l‟estimateur de sur du type histogramme est :
̂ ∑
Pour tout
Nous constatons que l‟histogramme a de mauvais inconvénients, il n‟est robuste ni pour le
choix du paramètre de lissage , ni pour celui de . Le deuxième désavantage est sa
discontinuité qui ne peut pas s‟adapter au cas où , la densité à estimer, vérifie certaines
hypothèses de régularité.
Afin de résoudre ce problème, l‟estimateur de Parzen-Rosenblatt a été introduit, il généralise

intuitivement la méthode d‟estimation par histogramme, et il est très utilisé en estimation non
paramétrique.
88
2.2 L’estimateur à noyau
Rappelons que la densité de probabilité est égale à la dérivée de la fonction de répartition

(si cette dérivée existe). On peut donc écrire
Un estimateur de est alors
Avec la fonction de répartition empirique. le paramètre de lissage qui peut dépendre de

la taille de l‟échantillon , c‟est-à-dire
̂ ∑
̂ ∑ ( *
Avec
la fonction de poids (la densité de probabilité uniforme, sur l‟intervalle )
Dans ce même article, Rosenblatt a mesuré la qualité de cet estimateur, en calculant son biais
et sa variance, donnés respectivement par :
(̂ ) ( )
( )
89
̂
4
Nous remarquons que si
quand , on a :
et
̂ est un estimateur consistant. Nous remarquons qu‟il n‟a pas le problème du choix
d‟origine comme le cas de l‟histogramme mais il présente l‟inconvénient d‟être discontinu
aux points
Ainsi une généralisation de cet estimateur a été introduite par Parzen (1962) en posant
̂ ∑ ( *
K est une fonction mesurable définie de , appelée noyau, le paramètre de lissage (la
fenêtre)
avec la ou les propriété(s) suivante(s):

 ∫ ("densité")
 ∫ ("symétrie")
2.2.1 Construction de l’estimateur:

En chaque observation on place une „bosse ‟(la densité de probabilité ). L‟estimateur qui
en résulte est simplement la somme de ces „bosses‟.
Le noyau détermine la forme des „bosses‟, et la fenêtre détermine la largeur des

„bosses‟.
Le paramètre de lissage a une grande influence sur la performance de l‟estimateur.
Un h trop petit résulte en un estimateur avec une „bosse‟ en chaque observation. Un
trop grand résulte en un estimateur qui montre peu de détails.
90
2.2.2 Quelques formes des noyaux
Kernel
Uniform
Triangle
Epanechnikov
Quartic
Triweight
Gaussian x
√
Cosinus
Figure : Quelques formes des noyaux
2.2.3 Quelque propriété de l’estimateur à noyau :

 Si est une densité de probabilité, alors ̂ est aussi une densité de probabilité.
 ̂ a les mêmes propriétés de continuité et de différentiabilité que :
 Si est continue, ̂ sera une fonction continue.
 Si est différentiable, ̂ sera une fonction différentiable.
 Si peut prendre des valeurs négatives, alors ̂ pourra aussi prendre des
valeurs négatives.
91
2.2.4 Expressions du biais et de variance de ̂ :
̂ ∑ ( * ∑
où nous avons introduit la notation
( *
pour une version transformée de .
Pour calculer le biais de l‟estimateur à noyau, remarquons d‟abord que
[̂ ] car les sont identiquement distribuées
2.2.5 Rappels préliminaires sur la convolution
Lorsque et sont deux fonctions de , pour presque tout ,( étant la mesure de

Lebesgue), l‟application :
est intégrable ; on définit donc légitimement une fonction borélienne

par
En outre, on a encore , avec

‖ ‖ ‖ ‖ ‖ ‖ (on appellera cette dernière inégalité, l‟inégalité de convolution) et la
formule de symétrie
Si est dérivable et si sa dérivée est continue et bornée sur , alors est dérivable est sa
dérivée est continue et bornée sur on a :
On veut généraliser cette définition à la convolution par des mesures. A cet effet, pour toute
fonction telle que est intégrable pour presque tout , on définit
[̂ ]
92
Pour la variance on calcule
(̂ ) (̂ ) (̂ )
( ∑∑ ( ),
’ t ’ t t à :
̂ ̂
(̂ ) [ ̂ ]
( *
’ x x t ’ t t ISE t êt bt
à partir de
̂ ∫ (̂ )
est égale à
(̂) ∫ ( *∫
∫ ∫
93
Comme
∫ ∫ {∫ }
∫∫
∫ {∫ }
Nous trouvons
(̂) ∫ ( *∫
∫ ∫
Malgré le fait qu‟on ait des expressions exactes pour ( ̂) et ( ̂), ces expressions
ne sont pas très attrayantes, car elles dépendent de manière très complexe du paramètre de
lissage Pour cette raison on cherche des expressions asymptotiques qui pourraient dépendre
de de manière plus simple.
2.2.6 Expressions asymptotiques du biais et de la variance
Une approximat t t ’ ’ t t ̂ est donnée sous

certaines conditions sur par
[̂ ] ∫
[̂ ] ∫
∫ ( *
Par Taylor
∫ ∫ ∫
Supposons maintenant que le noyau satisfait
∫ ∫ ∫
94
Alors
{̂ } ∫
Comme
(̂ )
et
∫ ( )
∫ ∫
Nous trouvons que
(̂ ) ∫
On pose
Donc
(̂ )
(̂ ) ( *
Si (̂ )
Si (̂ )
95
Remarquons que
 Le biais décroît si diminue mais la variance augmente.

 La variance diminue si augmente mais le biais augmente.
 Pour que la variance tende vers zéro, il faut que
 Plus la courbure de la densité est haute en , plus le biais est grand.
 La variance est plus grande pour des valeurs plus grandes de la densité.
Il faut essayer de choisir un qui fasse un compromis entre le et la variance.

Les expressions asymptotiques du biais et de la variance de ̂ ̂ nous permettent de trouver
des expressions asymptotiques pour la et la .
En supposant que la densité de probabilité ait toutes les dérivées (continues) nécessaires,
(̂ ) ( *
4
(̂ ) ∫ ( *
4
S t ’ t b t et ses dérivées.
On note l‟approximation asymptotique de la par
(̂ )
4
Et l‟approximation asymptotique de la par
(̂ )
4
2.2.7 Choix théoriques optimaux du paramètre de lissage
Pour le paramètre de lissage on fait la distinction entre

paramètre de lissage constant (ou global)
paramètre de lissage variable (local).
Ces choix différents du paramètre de lissage résultent en les estimateurs à noyau suivants:
̂ ∑ ( *
̂ ∑ ( *
Le choix implique qu‟un noyau différent est utilisé en chaque point.

Nous allons ensuite décrire des choix théoriques optimaux des paramètres de lissage et .
Un critère approprié pour sélectionner un paramètre de lissage constant est la .
Le paramètre de lissage optimal est la valeur de h qui minimise la . Notons cette
valeur par .
96
Une approximation asymptotique de est donnée par ,
la valeur de qui minimise ̂ .
⁄
2 3
Et
⁄
2 3
c‟est-à-dire
Remarquons que si montre des changements rapides, alors sera grand, et

sera petit.
Un critère approprié pour sélectionner un paramètre de lissage variable (local) est la
mesure de performance locale (̂ ). Nous introduisons les notations suivantes:
(̂ )
Et
(̂ )
nous trouvons que :
⁄
2 3
sous la condition que
Les choix et sont des choix théoriques, qui ne sont pas utilisables en pratique
car ils dépendent des quantités inconnues . Nous allons maintenant
décrire quelques choix optimaux pratiques pour un paramètre de lissage constant et un
paramètre de lissage variable (local).
2.2.8 Choix pratique du paramètre de lissage
La règle simple de référence à une distribution normale

Rappelons l‟expression pour le paramètre de lissage optimal constant :
⁄
2 3
97
Supposons que appartient à une famille de distributions normales , de moyenne
et variance inconnues. Alors
( ), avec
√
La densité de probabilité normale
et
( )
La quantité inconnue s’écrit alors
∫ ∫. ( */
∫( )
8∫ ∫ ∫ 9
Posons √ √
8 ∫ ∫ 9
√ √
{ √ √ }
4
√
4 √
Donc, en faisant référence à une densité de probabilité normale, l‟expression du paramètre de

lissage optimal asymptotique devient.
98
√ ⁄
2 3
Le paramètre de lissage du type “normal reference” est défini par
̂ √ ⁄
2 3 ̂
Où ̂ est un estimateur de , l‟écart-type de la population . Ce paramètre de lissage est très

simple.
Quelques choix possibles pour ̂ sont donnés ci-dessous
 L‟écart-type empirique
√ ∑( )
 L‟écart interquartile empirique standardisé:


’
( 4) ( 4) ( 4) ( 4)
4
Où est la fonction de répartition d‟une normale réduite.
Remarquons que ( ) ( ) est l‟écart interquartile d‟une variable aléatoire
normale réduite.
La motivation pour la standardisation utilisant cette quantité est simple:
Si X , alors et
. ( * ( */
4 4
. ( * ( */
4 4
( ( * ( * *
4 4
Alors
L‟écart interquartile de est
F ( * F ( * [ ( * ( *]
4 4 4 4
99
Ce qui justifie l‟estimateur proposé.
On propose d‟utiliser le minimum entre S et R/1.349, c‟est-à-dire d‟utiliser le

paramètre de lissage suivant:
̂ √ ⁄
2 3 ( *
4
Voici, pour quelques noyaux, l‟expression de ̂ :
noyau K paramètre de lissage pratique ̂
noyau Gaussian
√
̂ ( * ⁄
4
noyau Epanechnikov
̂ 4 ( * ⁄
4
noyau Quartic (biweight)

̂ ( * ⁄
4
2.2.9 choix du noyau

Le premier choix porte sur la nature de la densité noyau que nous utilisons. Pour mesurer
l‟efficacité de chacun des noyaux continus symétriques présentés dans le tableau, nous
utilisons une mesure commune qui consiste à calculer le rapport du critère AMISE des deux
noyaux mis en évidence.
100
Nous supposons que est le noyau d‟Epanechnikov. Ce noyau est considéré comme une
référence par rapport à tous les autres noyaux continus classiques. Il est largement apprécié
pour ses performances (au sens où la forme répond bien à la plupart des questions soulevées
par le problème de l‟estimation non paramétrique de densité) et il est considéré comme
optimal au sens des mesures d‟erreur. Il offre la valeur d‟éfficacité maximale. Nous nous
sommes appuyés sur les travaux de Tsybakov (2004). Ainsi, après avoir fait les calculs
nécessaires. L‟efficacité d‟un noyau par rapport au noyau d‟Epanechnikov se mesure par
√ √∫ ∫
Le choix de dépend seulement de la nature de et nous admettons qu‟en pratique le choix
du noyau d‟Epanechnikov est le plus satisfaisant. Nous donnons le tableau récapitulatif (tab
2.2 ) qui présente la valeur d‟efficacité des différents noyaux continus symétriques.
TAB. 2.2 – Efficacité des noyaux continus symétriques
Noyau Efficacité
Epanechnikov 1.000
Biweight 0.994
Normal 0.951
Uniform 0.930
Commentaire :
Dans le cas des noyaux continus symétriques, nous remarquons que les valeurs d‟efficacité
des noyaux tels que noyau Biweight, Triangulaire ou Epanechnikov sont très proches. Pour
conséquent, le choix du noyau n‟est pas très important.
101
APPLICATION
102
I. ANALYSE DE LA SERIE DZ
a) Données
 Les données de taux change euro/dinar ont été extraites
du site du ministère des finances.
 Les données sont la moyenne des fins de mois allant du 1
Janvier 2001au 31 décembre 2014 soit un total de 168
observations.
 Tout au long de ce projet nous allons réaliser des tests
statistiques. Nous avons fixé un niveau de confiance de
95%.
b) Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il
semblerait que cette série soit non stationnaire. En effet la moyenne et la variance ne
sont pas constantes pour tout intervalle de temps donné.
Par ailleurs nous pouvons remarquer que la série connait des chocs stochastiques qui
s‟accumulent au cours du temps ce qui augmentent la variance du processus au fur et
à mesure que le temps passe. Il est toujours nécessaire de tester l‟hypothèse de
stationnarité ou de non stationnarité par un test adapté que nous verrons par la suite.
103
c) Corrélogramme
Commentaire :
Le corrélogramme de la série nous montre que la série est caractérisé par un
processus non stationnaire. En fait, les pics du corrélogramme décroissent très
faiblement. Les séries non stationnaires connaissent ce phénomène. Par ailleurs la
fonction d‟autocorrélation partielle (PAC) indique le coefficient d‟autocorrélation
entre le cours de l‟indice à un instant donné en fonction d‟un cours passé sans tenir
compte de l‟influence des autres cours précédents. Ici nous pouvons
voir que seul le premier terme est significativement différent de zéro (l‟intervalle de
confiance est stylisé par les pointillés).
On va vérifier à l‟aide du test de Dickey-Fuller que cette série n‟est pas stationnaire
104
d) Test de stationnarité (test de Dickey-Fuller)
Les tests d‟ADF, confirment notre intuition, la série n‟a pas de racine unitaire, la
tendance et la constante sont toutes significatives
Graph de log(dz) noté ldz
105
e) Modélisation la série DZ/€
a) Retirer la tendance
Le graphe représente la série dz avec la droite de la tendance
On enlève la tendance et la constante et on construit la nouvelle série noté DZST
106
TEST DE LA RACINE UNITAIRE DE DZST
On accepte donc l‟hypothèse alternative selon laquelle la série DZST est stationnaire
b) Test de la saisonnalité sur la série DZ

On accepte hypothèse nulle : « pas d‟effet saisonnier »
c) Test la saisonnalité sur la série DZST

F-tests for seasonality
Test for the presence of seasonality assuming stability.
Sum of Dgrs.of Mean

Squares Freedom Square F-Value
Between months 40.5792 11 3.68902 0.861
Residual 668.4388 156 4.28486
Total 709.0180 167
No evidence of stable seasonality at the 0.1 per cent level.
Nonparametric Test for the Presence of Seasonality Assuming Stability
Kruskal-Wallis Degrees of Probability

Statistic Freedom Level
11.1525 11 43.058%
No evidence of seasonality at the one percent level.
On accepte hypothèse nulle pas d‟effet saisonnier
107
f) Estimation du modèle linéaire
g) Analyse des résidus

Correlogramme des résidus du modèle AR (1)
108
Commentaire :
Nous pouvons observer ici que les p-values associées aux statistiques de Ljung-Box
sont supérieures à 5%. Nous pouvons donc accepter l‟hypothèse de nullité des
autocorrélations des résidus.
Correlogramme des résidus au carré du modèle AR(1)
Commentaire :
Le corrélogramme des résidus au carré montre que les résidus sont
hétéroscédastiques. En fait toutes les p-values sont inférieures à 5% nous concluons
que les résidus sont hétéroscédastiques.
109
h) Test de ARCH
Commentaire :
Le test ARCH nous confirme cela, nous pouvons donc conclure que nos résidus sont
hétéroscédastiques mais non autocorréles. Ce sont des bruits blancs. Qui ont une
variance conditionnelle qui change dans le temps.
Nous pouvons conclure que le taux change dinar\ euro est une marche aléatoire
hétéroscedastique.
i) Estimation de modèle
110
Correlogramme des résidus du modèle AR (1)
Donc le résidu est un bruit
Test de normalité sur les résidus standardisés 4

√
111
A partir de la représentation graphique des séries résiduelle, réelle et estimée nous
constatons que le modèle estimé ajuste bien la série dzst.
j) Equation du modèle
8 √
112
Graphe de la série modèle ajusté noté NDZ et la série DZ
Intervalle de confiance pour les paramètres du modèle
113
Prévision
min prévision max

janv-15 105.9952 106.4276 106.8617
févr-15 106.262 107.1011 107.8895
mars-15 106.5295 107.7512 108.8249
avr-15 106.7976 108.3791 109.6788
mai-15 107.0663 108.9862 110.4611
juin-15 107.3358 109.5738 111.1806
juil-15 107.6059 110.1429 111.8449
août-15 107.8766 110.6949 112.461
sept-15 108.1481 111.2306 113.0349
oct-15 108.4202 111.7511 113.5721
nov-15 108.693 112.2574 114.0771
déc-15 108.9665 112.7504 114.5542
Graphe de de la série DZ et la prévision NDZ avec intervalle de confiance

(DZMAX, DZMIN)
114
II. ANALYSE DE LA SERIE USD
k) Données
 Les données de taux change euro/usd ont été extraites du
site de la banque de France.
 Les données sont la moyenne des fin de mois allant du 1
Janvier 2002au 31 décembre 2012 soit un total de
132observations.
95%.
l) Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il semblerait
que cette série soit non stationnaire. En effet la moyenne et la variance ne sont pas
constantes pour tout intervalle de temps donné. Par ailleurs nous pouvons remarquer que la
série connait des chocs stochastiques qui s’accumulent au cours du temps ce qui
augmentent la variance du processus au fur et à mesure que le temps passe. Il est toujours
nécessaire de tester l’hypothèse de stationnarité ou de non stationnarité par un test adapté
que nous verrons par la suite.
115
Nous avons calculé le logarithme afin de stabiliser la variance
Graph de la série
Corrélogramme de la série
116
Le corrélogramme simple présente une décroissance linéaire lente et nous remarquons que
tous les pics sont pratiquement à l'extérieur de l'intervalle de confiance.

Le corrélogramme partiel fait apparaître des pics significatifs aux retards p=1, 2, 4, 13,25.
Conclusion :
La série brute est donc générée par un processus non- stationnaire.
Test de Dickey- Fuller Augmenté:
Nous appliquons le test de Dickey-Fuller sur la série pour nous permettre de détecter
l‟existence d‟une racine unitaire et le type de la tendance.
Modèle (3) :
On remarque que la p-value de la tendance =0.8921 est inférieur à 2.79, la tendance
n‟est significative, la série possède une racine unitaire (on accepte l‟hypothèse nulle “   0
“) donc la série est non stationnaire dans le modèle [3].
117
Modèle [2] :
On a remarqué que la série est stationnaire dans le modèle [2], avec significativité de la
constante
Modèle [1]
la série possède une racine unitaire (on accepte l‟hypothèse nulle “   0 “) donc la série est
non stationnaire de type ; la série peut être affecté une saisonnalité
118
Test présence de saisonnalité
La série n‟est pas affectée d‟une saisonnalité fixe
La présence de saisonnalité mobile exigé faire la dessaisonalisation avant la filtre de

différenciation
119
Stationariation de la série noté
La série est stationnaire à 5% , donc pas besoin de faire la différenciation pour

éliminer les racine unitaire
120
Modélisation de la série DLusd
121
Correlogramme des résidus du modèle
On accepte le modèle, les résidus formé un bruit blanc gaussien
122
Représentation de modèle
4
123
III. ANALYSE DE LA SERIE jpy
m) Données
 Les données de taux change euro/jpy ont été extraites du
site banque de France.
 Les données sont la moyenne des fins de mois allant du 1
Janvier 2002au 31 décembre 2012 soit un total de
132observations.
95%.
n) Etude Graphique
124
Corrélogramme
Commentaire :
Le corrélogramme de la série nous montre que la série est issue d’un
processus non stationnaire.
On va vérifier à l’aide du test de Dickey-Fuller que cette série n’est pas
stationnaire
125
Les tests d‟ADF, confirment notre intuition, la série présente une racine unitaire, sur
la série logarithmes de noté
Test de la saisonnalité de la série
On rejet hypothèse nulle, saisonnalité présente

Graphe de la déférence première du la série noté
Graphe de La dessaisonalisation de la série
126
Modélisation de la série DSDLJPY
127
Correlogramme des résidus du modèle
.Correlogramme de carrée des résidus du modèle
128
Commentaire :
Nous pouvons observer ici que les p-values associées aux statistiques de
Ljung-Box sont supérieures à 5%. Nous pouvons donc accepter
l‟hypothèse d‟absence d‟autocorrélation des résidus.
Les résidus formé un bruit blanc gaussien
Donc le modèle de la série LJPY est , écrire comme suit
4 44
4
129
Graphe de modèle ajusté noté ( ) est la série
130
IV. ANALYSE DE LA SERIE (GBP)
Données
 Les données de taux change euro/dinar ont été extraites
du site du ministère des finances.
 Les données sont la moyenne des fins de mois allant du
Janvier 2001 à décembre 2014 soit un total de 168
observations.
95%.
Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il
semblerait que cette série soit non stationnaire.
131
Graphe de la série
132
Commentaire :
Le corrélogramme de la série nous montre que la série est
caractéristique d’un processus non stationnaire. En fait, les pics du
corrélogramme décroissent très faiblement. Les séries non stationnaires
connaissent ce phénomène. Par ailleurs la fonction d’autocorrélation
partielle (PAC) donne le coefficient d’autocorrélation entre le cours de
l’indice à un instant donné en fonction d’un cours passé sans tenir
compte de l’influence des autres cours précédents. Ici nous pouvons
voir que seul le premier terme est significativement différent de zéro
(l’intervalle de confiance est stylisé par les pointillés).
On va vérifier à l’aide du test de Dickey-Fuller que cette série n’est pas
stationnaire
Test de stationnarité (test de Dickey-Fuller)
Les tests d‟ADF, confirment notre intuition, la série présente une racine
unitaire,
Pour stationnariser la série, on applique le filtre de différence première
133
Graphe de la série
134
Corrélogramme de carrée la série noté
Commentaire :
Les valeurs de la série sont non corrélées, alors la série est un bruit blanc. D’autre
part, les valeurs au carré sont corrélées. L’allure du graphe des résidus au carré nous a suggéré un
modèle à changement de régimes.
Lorsque on modéliser les carré de la série on à trouver un modèle
135
Donc le modèle de la série carrée de s'écrit comme suit :
est un bruit blanc
Présentation de modèle
La matrice de transition confirme la présence d’un changement de régime markovien
avec les probabilités de transition
Le modèle s’écrit :
Tel que :
La variance change selon les régimes
136
√
est un bruit blanc et
Le modèle s’écrit :
Corrélogramme des résidus du modèle
137
Corrélogramme des carrés des résidus du modèle
Commentaire :
Nous pouvons observer ici que les p-values associées aux corrélations
empiriques sont supérieures à 5%. Nous pouvons donc accepter
l‟hypothèse d‟absence d‟autocorrélation des résidus.
On accepte le modèle
138
Test de normalité des résidus
Les résidus forment un bruit blanc non gaussien
Estimation par la méthode du noyau

Les innovations ne sont pas gaussiennes. Pour cela, on estime la densité de ces
innovations de manière non paramétrique
Soit des variables indépendantes et identiquement distribués (iid)
Observations, varie de [– ] avec un pas de 0.05 on va faire

quelques essais avec le noyau K, par exemple on pose K est un noyau gaussien
Rappelons l‟estimateur de la densité par la méthode de noyau
̂ ∑ ( *
K(u)=√ x ( )
est le paramètre de lissage (fenêtre)
139
C’est l’estimation de la densité des innovations par la méthode du noyau
140
V. Etude multivariée des séries (usd, jpy) :
Dans cette partie nous analysons la série chronologique multivariée qui est
mensuelle et couvre la période allant de Janvier 2002 à Décembre 2012. Elle est composée
des deux séries
usd (taux de change dollar //euro ).

jpy (taux change Yan//euro ).
Les processus et étant stationnaires, il est possible de les modéliser par le processus
var. Nous avons, K = 2 et T = 120 ( T nombre d‟observations de la série ,
Les séries stationnaires sont représentées par les graphes suivants:
141
Recherche de l’ordre du modèle VAR :
La première étape consiste à déterminer l‟ordre p du processus VAR à retenir, à cette fin nous
avons estimé pour commencer divers processus VAR pour des ordres de retards p allant
de 1 à 8, nous devons donc retenir celui dont les critères de Akaike (AIC) et de Schwarz
(SC) sont les plus faibles.
C'est à partir de l'ordre p=3 que les résidus du modèle proposé se confondent avec un bruit
blanc et ne contiennent donc plus d'informations susceptibles d'expliquer encore l'évolution
du processus.
Pour p = 3 Nous avons : AIC (p) = 0.836413 et BIC (p) =1.56499.
142
Estimation du modèle VAR (3) :
Le modèle VAR(3) avec constante s‟écrit sous la forme suivante :

3
Yt  A0   ApYt  p   t
p 1
 y 1t   a10  3  a11 p a12p   y1t  p  1t 

Yt      0     1      
 y2 t   a2  p 1  a2 p a2 p   y2t  p   2t 
2
a10 
Où A 0   0  représente l‟estimation de la constante et les A p (p =1, 2,3) sont des matrices
a 2 
a11 p a12p 
carrée d‟ordre 2 tel que A p =  1  les aijp (i,j =1,2) représentent les coefficients
a 2 p a 2 p 
2
estimés;  1t et  2t sont des bruits blancs.
143
Mais lorsque nous avons estimé les paramètres du modèle VAR(3) avec constante nous avons
remarqué que la t-statistique de la constante est inférieure à 1.96 ; donc la constante n'est pas
significative, pour cela nous sommes passés à l'estimation d'un modèle VAR(3) sans
constante qui s'écrit sous la forme suivante:
 y 1t  3  a11 p a12p   y1t  p  1t 

Yt       1      
 y2t   a2 p a2 p   y2t  p   2t 
2
p 1
- Le tableau contient deux colonnes au nombre des variables du modèle VAR:

- La ligne i (i = 1.2) correspond à la série .
- Chaque ligne contient les coefficients aux retards (donnés ci-dessus), ainsi que les t-
statistiques associées (données en bas entre crochets).
Estimation des paramètres :
A partir du tableau précédent le modèle VAR(3) s‟écrit matriciellement comme suit :
( * ( *( * ( *( *
4
( )( * . /
Tel que et  2t sont les deux résidus d‟estimation.

A partir du tableau précédent le modèle VAR(3) s‟écrit comme suit :
D(JPY) = 0.225316959778*D(JPY(-1)) + 29.8768399361*D(USD(-3))

D(USD) = - 0.002181174694*D(JPY(-2)) +0.341451486187*D(USD(-1))
Validation du modèle :
144
Test sur les racines :
Les racines des polynômes autorégressifs des deux séries sont supérieures en module à 1, car
leurs inverses calculés par Eviews sont tous inférieurs à 1, ainsi les conditions de stationnarité
et d‟inversibilité sont vérifiées.
Tests sur les résidus :

De la même façon que la méthodologie de Box & Jenkins, il convient de vérifier si les
résidus forment un bruit blanc, une observation des corrélogrammes des résidus des deux
séries s‟impose.
145
Corrélogramme des résidus de la série Corrélogramme des résidus de la série
Graphe de modèle (JPYFIN)
Où la série ajusté issue de modèle VAR(3)
146
Graphe de modèle ( )
Où la série ajusté issue de modèle VAR(3)
Causalité entre
On remarque que la p-value aussi on rejette l’hypothèse
mais on a acceptée l’hypothèse ne cause pas
Cela confirme le fait que le dollar américain reste une monnaie de référence
147
Conclusion générale
Dans ce travail, nous avons tenté de modéliser des séries de taux change qui présentent dans
leur ensemble une tendance. La méthode de cointégration s‟est révélée inopérante. Si les
modèles linéaires se sont bien adaptés à l‟évolution de certaines séries, pour une autre, qui se
comporte comme une marche aléatoire mais dont les carrés des résidus sont corrélés, un
modèles MS-ARCH(1) a été appliqué.
Nous avons, aussi, étudié les interrelations pouvant exister entre deux séries à travers un
modèle VAR.
La décomposition des séries chronologiques en tendance, cycle, composante saisonnière et

résidu, s'avère dans plusieurs cas, insuffisante dans la mesure où la présence d'autocorrélation
est remarquée au niveau du résidu. L'extraction d'autres composantes est donc nécessaire.
Parmi elles, il est possible de citer les composantes d'événements liés au calendrier Hégirien :
Ramadan et les fêtes religieuses ainsi, on a remarqué dans toutes les séries présences de
saisonnalité mobile, qui influencés à la modélisation des séries de taux change.
Bibliographie
[1] Ailliot, A. (2004). Modèles autorégressif à changement de régimes markoviens.

Application aux séries temporelles de vent. Thèse Doctorat. Institut de Recherche
Mathématique de Rennes. Institut Français de Recherche pour l'exploitation de la Mer.
Ecole Doctorale MATISSE.
[2] Aknouche, A. (2009). Processus aléatoire : théorie, méthodes et applications. Faculté

de Mathématiques. USTHB, Alger.
[3] Aleksandre B Tsybakov. Paris [u.a.] : Springer, 2003. Introduction à l'estimation non-
paramétrique
[4] Ashwin, G.M., Bhavesh, K.P. and Nikuni, R.P. (2010). The Study on Co-Movement of
Selected Stock Markets. International Research Journal of Finance and Economics,
47, 1450-2887.
[5] Attar, A. et Mahiout, T. (2012). Etude Prévisionnelle de la Production Nationale de

l'Enérgier du Réseau Interconnecté. Mémoire d'Ingéniorat. Faculté des
Mathématiques, U.S.T.H.B. (2012).
[6] Benmouffok-Said, A. et Kerrar, L. (2009). Modélisation des prix du pétrole aux

marchés Américains et européen via des modèles à changement de régimes
Markovien. Mémoire d'Ingéniorat. Faculté de Mathématiques, U.S.T.H.B. Alger.
[7] Bibi, A and Aknouche, A. (2010). Stationnarité et -mélange des processus bilinéaires
superdiagonaux à changement de régimes Markovien, Comptes Rendus de l'Acadimie
des sciences. A paraitre.
[8] Brockwell, P.J. and Davis, R.A. (2002). Introduction to time series and forecasting.
Springer-Verlag, New York.
[9] Chaubert-Pereira, F. (2008). Combinaison markoviennes et semi-markoviennes de

modèles de régression. Application à la croissance d'arbres forestiers. Thèse Doctorat.
Université Montpellier . Sciences et techniques du Languedoc.
[10] Christophe HURLIN. (2008). Tests de Non Stationnarité et Processus Aléatoires Non
Stationnaires. Econométrie Appliquée Séries Temporelles
[11] Christophe HURLIN. (2008). Représentation VAR et Cointégration. Econométrie

Appliquée Séries Temporelles
[12] Corinne Perraudin. (2004) SERIES CHRONOLOGIQUES Les modèles ARMA

stationnaires. Université Paris I
148
[13] Durand, J.B. (2003). Modèles à stucture cachée : inférence, estimation, sélection de
modèles et application. Thèse de Doctorat. Université de Joseph Fourier.
[14] Franq, C. and Zakoian, J.M. (2001). Stationarity of multivariate Markov-switching

ARMA models. Journal of econometrics, 102, 339-364.
[15] Goldfeld, S.M. and Quand, R.E. (1973). A Markov model for switching regressions.
Journal of econometrics, 3-16.
[16] Lancaster, P. and Tismenetsky, M. (1985). The theory of matrices. A cademic Press,
New York.
[17] Mélard, G. Roy, R. (1988). Modèles des series chronologiques avec seuil. Statistiques
appliquée, 4, 5-24.
[18] Michel LUBRANO. (2008). Modélisation Mutilivariée et Cointégration
[19] Michel Prenat. (2010). Séries chronologiques. Université Paris-Sud
[20] Perraudin, C. (2002). La prise en compte de ruptures dans l'évolution des variables
économiques: Les modèles à changement de régimes. Technical report. Université
Paris I.SAMOS-MATISSE et EUREQua.
[21] Saporta, B. (2004). Etude de la solution sationnaire de l'équation à

coefficients aléatoires. Thèse de Doctorat. Institut de recherche mathématique de
Rennes. Ecole doctorale MATISSE.
[22] Touche, N. (2010). Etude quelques modèles de séries chronologiques à changement de

régimes markovien. Mémoire Magister. Faculté de Mathématiques, U.S.T.H.B. Alger
[23] Uctum, R. (2007). Econométrie des modèles à changement de régimes: un essai de

synthèse. EconomiX, Université Pris-X.
149

Econo Me Trie

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Econo Me Trie

Transféré par

Droits d'auteur :

Formats disponibles

République Algérienne Démocratique et Populaire

Ministère de l‟Enseignement Supérieur et de la Recherche Scientifique

Projet de fin d‟études

Modèles linéaires et non linéaires pour

Encadreur: Présenté par :

 Mme GUERBYENNE Hafida  MOUSSAOUI Youcef

Au terme de ce modeste travail, je tiens à remercier :

conseils judicieux et pour l‟intérêt qu‟elle a accordé à mon travail.

Un grand remercîment au membre du jury ; Mme Saggou Hafida l‟examinatrice et

Mme Seddiki-Merad la présidente d‟avoir accepté d‟évaluer mon travail.

personnes qu‟ont participer du prés comme de Loing à la réalisation de ce travail.

Nous avons été amenés à structurer notre travail comme suit :

Le but du premier chapitre est d‟introduire la notion de processus temporel et plus

Le problème est donc : comment estimer la fonction de répartition F ou bien la

Modélisation de séries temporelles

• les modèles AR(p) :

• les modèles MA(q) :

Où est un bruit blanc centré de variance

 Transformer la série aﬁn d‟éliminer d‟éventuelles non-stationnarités (tendance,

L‟objectif de ce chapitre est de présenter précisément les modèles ARMA et leur

L‟indice ( appartenant à un ensemble ) s‟interprète comme la date à laquelle est faite

1.1 Variables aléatoires réelles de carré intégrable

L‟ensemble des v.a.r. de carré intégrable est un espace vectoriel

normé sur , la norme étant et le produit scalaire est

On dit qu‟il a une structure d‟espace de Hilbert, généralisation en dimension inﬁnie de

Ainsi, pour deux , il est possible de calculer l‟espérance de leur

Produit sont dites orthogonales si et seulement si .

On se restreindra dans la suite aux variables de . On parlera aussi de processus du second

 la suite des moyennes

Pour chaque instant du temps, a une distribution de probabilité. Si on ne fait aucune

et sont des fonctions du temps. Il faudrait alors étudier la distribution de probabilité de

Un processus est dit stationnaire ou second ordre (ou faiblement stationnaire) si

En résumé, un processus est dit stationnaire du second ordre si sa moyenne, sa variance et

Il s‟agit d‟une suite de homoscédastiques et non autocorrélées (pourtant être

2. Autocorrélations simple et partielle

2.1 La fonction d’autocovariance et d’autocorrélation

La fonction d‟autocovariance mesure la covariance entre une variable et cette

La fonction d‟autocovariance d‟un processus stationnaire est une fonction :

Puisque cette quantité est égale à ∑ ).

La fonction d’autocorrélation est déﬁnie par :

On appelle coeﬃcient d‟autocorrélation d‟ordre 1 (resp. d‟ordre ) le coeﬃcient de

On déﬁnit la matrice de corrélation (de dimension de la manière suivante:

Puisque la fonction est de type positif, on a la propriété suivante:

Ainsi, on a les contraintes suivantes :

Ainsi, comme , on a . Si la corrélation d‟ordre est élevée, il

L‟équivalent empirique de la fonction d‟autocorrélation, noté ̂ , est obtenu à partir de

Aﬁn de tester la nullité du coeﬃcient d‟autocorrélation d‟ordre , on calcule la variance de ce

soit en utilisant la symétrie des , on obtient:

La statistique de test de nullité du coeﬃcient d‟autocorrélation est :

2.2 La fonction d’autocorrélation partielle

Le coeﬃcient d‟autocorrélation partielle d‟ordre , noté , est le coeﬃcient de

Si est un processus stationnaire centré, la prédiction optimale de sachant son

Passé jusqu‟ à est donnée par :

que l‟on peut réécrire matriciellement : en utilisant les équations de Yule-Walker

Le coeﬃcient d‟autocorrélation partielle d‟ordre d‟un processus stationnaire est alors

et se calcule de la manière suivante :

Et la matrice dans laquelle on a remplacé la colonne h par 4 5, soit :

De manière empirique, les autocorrélations partielles s‟estiment soit :

 à partir de la régression MCO de sur les retards et en prenant le dernier

Aﬁn de tester la nullité du coeﬃcient d‟autocorrélation partielle d‟ordre h, on donne la

Ainsi, l‟intervalle de conﬁance du corrélogramme partiel est le même pour tout .

Propriété: Si est un processus stationnaire, et si est une suite de nombres

Est un nouveau processus stationnaire. On parle de représentation moyenne mobile inﬁnie,

En effet, la série ∑ est convergente dans car :