Académique Documents
Professionnel Documents
Culture Documents
Faculté de Mathématiques
Département de Probabilité et Statistique
Dieux tout puissant de m‟avoir donné la patience, la Santé et le courage pour réaliser ce
travail, Mme GUERBYENNE Hafida pour son encadrement pour son aide précieuse et ses
Je tiens à remercier mes chers parents pour leurs efforts et encouragements ainsi que mes
frères et ma petite sœur, et aussi ma future épouse pour son soutien et aide, et tous les
Youcef
SOMMAIRE
INTRODUCTION GENERALE
I. CHAPITRE I : modélisation de séries temporelles
1. Processus aléatoires stationnaires ………………………………. 08
1 .1 Variables aléatoires réelles de carré intégrable ……………. 08
1.2 La stationnarité ……………………………………………... 09
2. Autocorrélations simple et partielle ……………………………. 10
2.1.La fonction d‟autocovariance et d‟autocorrélation ..……….. 10
2.2.La fonction d‟autocorrélation partielle ……………………... 12
3. Représentation de Wold ………………………………………… 14
3.1 Présentation ………………………………………………… 14
3.2 Prévision à partir de la représentation de Wold ……...……. 16
3.3 Opérateur retard ……………………………………………. 16
4. Modèles ARMA et représentations canoniques ……………….. 17
4.1 Processus MA ……………………………………………… 19
4.2 Processus AR ………………………………………………. 21
4 .3 Processus ARMA ………………………………………….. 23
4.4 Modèles ARIMA et SARIMA ……………………………… 24
5. Identification, estimation, validation, prévision …………………26
5.1 Identification du processus ARMA ………………………….26
5.2 Estimation ………………………………………………….. 26
5 .3 Validation …………………………………………………. 28
5 .4 Prévision …………………………………………………… 31
II. CHAPITRE II : les modèles non linéaires
1. Test généraux de linéarité ………………………………………….34
1.1 Test de Keenan et de Tsay ………………………………….. 34
1.2 Test de Granger et Newblod ……………………………….. 35
1.3 Test de BDS ………………………………………………… 35
2. Chaines de Markov ………………………………………...………37
2.1. Définition d‟une chaine de Markov …………………………37
2 .2. L‟irréductibilité ……………………………………………. 38
2.3. La périodicité ……………………………………………….38
2.4. L‟ergodicité ………………………………………………... 38
2.5. La distribution stationnaire d‟une chaine de Markov ……….38
3. Les modèles de régression issues de l‟économétrie…………...……39
4. Présentation générale du modèle MS-AR ………………………….40
5. . Relation du modèle MS-AR avec d‟autres modèles de séries
chronologiques …………………………………………………..... 42
5.1. Relation avec un modèle autorégressif classique (AR) ……..42
5.2. Relation avec un modèle TAR……………………………….42
5.3. Relation avec le modèle chaine de Markov cachée (HMM) .. 44
5.4. Relation avec le modèle espace d‟état ………………………45
5.5. Relation avec le modèle de volatilité stochastique ………….46
6. Structure probabiliste du modèle MS-AR ………………………….47
6.1. Existence d‟une solution stationnaire stricte…………………47
6.2. Existence d‟une solution stationnaire au second ordre ……...48
6.3. Propriétés d‟ergodicité géométrique et de -mélange……….48
6.4. Structure d‟autocovariance ………………………………….49
6.5. Structure ARMA des autocovariances d‟un MS-AR……….. 52
6.6. Critère d‟existence des solutions stationnaires………………52
7. Estimation du modèle……………………………………………….54
7.1. Fonction de vraisemblance conditionnelle d‟un MS-AR…….54
7.2. Estimateur du maximum de vraisemblance …………..….….57
III. chapitre III : représentation var et cointégration
1. Séries temporelles multivariées stationnaires et non stationnaires ...69
1.1. Stationnarité dans un cadre multivarié………………………..69
2. Représentation VAR………………………………………………..70
3. Représentation générale…………………………………………….72
4. Conditions de stationnarité………………………………………… 73
5. Ecriture VAR(1) d‟un VAR(p)……………………………………..74
6. Estimation des paramètres………………………………………..…75
6.1.Maximum de Vraisemblance…………………………………...75
6.2.Détermination du nombre de retards…………………………...76
6.3.Prévisions………………………………………………….…...77
7. La causalité…………………………………………………………79
7.1.Causalité au sens de Granger……………………………….….79
8. Cointégration et Modèle à Correction d‟Erreur………………….…81
8.1.Cointégration……………………………………………..…….81
8.2.Représentation VECM………………………………………....82
IV. CHAPITRE IV : estimation non-parametrique d’une
fonction de repartition et d’une densite
1. La fonction de répartition empirique ……………………………………87
2. Estimation non-paramétrique d‟une densité de probabilité …………….88
2.1. Histogramme de la densité……………………………………….88
2.2. L‟estimateur à noyau …………………………………………… .89
V. Application …………………………………………………………….102
CONCLUSION GENERALE
INTRODUCTION GENERALE
Le marché de change est le lieu où les monnaies des nations s‟échangent les unes contre les
autres. Le taux de change est le système mis en place pour régir ces transactions. Il constitue
le prix de la monnaie et représente du même coup la quantité de monnaie nationale nécessaire
à l‟acquisition d‟une unité d‟une devise. Lors de la conversion d‟une monnaie nationale
contre une devise étrangère, cette opération est régie par le taux de change. Cette conversion a
une importance capitale du fait qu‟elle permet les échanges commerciaux et financiers entre
nations et confère un pouvoir libératoire aux monnaies de leurs partenaires commerciaux.
Le travail qui nous a été confié est la modélisation des séries de taux change. Dans le but de
répondre à cette attente, nous avons regroupé un ensemble de techniques et de méthodes
permettant de détecter la structure de corrélation (dépendance) entre les composantes d‟un
processus générateur, qu‟on induit à travers une série sous étude.
Avant d‟aborder l‟analyse, nous avions jugé nécessaire d‟exposer quelques notions
fondamentales relatives aux séries chronologiques. Une série chronologique, ou série
temporelle, est une série d'observations ordonnées chronologiquement. Elles se rencontrent
naturellement dans une grande variété de domaines. On peut citer : l'économie (taux de
chômage, …), la finance (cours d'action, taux d'intérêt, …), l'écologie (pollution à l'ozone, au
CO2, …), le transport (avec l'exemple célèbre du trafic aérien international), la démographie.
Une autre approche est la modélisation vectorielle ou multivariée qui permet d'étudier
la dynamique jointe de plusieurs séries, lorsque celles-ci sont stationnaires. Il s‟agit d‟une
généralisation de l‟étude des processus autorégressifs. La popularité des modèles vectoriels
autorégressifs (VAR) est liée à leur souplesse d‟utilisation et à leur capacité à tester des
hypothèses économiques. C‟est l‟objet du troisième chapitre. Une remarque est que les
résidus (les innovations) forment souvent un bruit blanc non gaussien.
Nous nous sommes intéressés aux séries USD, JPY, GBP et DDZ.
Chapitre I
• les modèles :
Depuis les travaux de Box et Jenkins en 1970 dans le cas univarié ( correspond à une seule
variable), la méthodologie utilisée pour modéliser une série économique repose sur
l‟algorithme de Box et Jenkins, qui consiste à:
7
1 Processus aléatoires stationnaires
On utilise le terme de processus aléatoire pour décrire une variable dont le comportement ne
peut pas être exprimé entièrement par une relation déterministe.
Un processus aléatoire est une suite de variables aléatoires indexées dans le temps et définies
sur un espace des états de la nature. Ainsi, pour chaque instant du temps, la valeur de la
quantité étudiée est appelée variable aléatoire et l‟ensemble des valeurs quand varie
est appelé processus aléatoire.
Une réalisation du processus d´écrit une histoire possible du processus. Il faut bien remarquer
qu‟une série chronologique observée, comme par exemple la suite des valeurs de l‟indice des
prix du pétrole entre 1970 et 1990, est relative à une réalisation et une seule du processus.
L‟une des difficultés de l‟étude des séries temporelles est de reconstituer, au moins
partiellement, la loi du processus à partir de l‟observation d‟une seule de ses réalisations.
Pour que ceci soit possible, il faut bien entendu imposer certaines conditions sur la loi de
probabilité de .
8
L‟existence sur d‟une notion d‟orthogonalité et d‟une notion de convergence permet
d‟introduire la notion de projection orthogonale. Ainsi, on peut trouver un sous espace fermé
de variables de carré intégrable contenant toutes les combinaisons linéaires de variables
de .
Les calculs des moyennes , des variances et des covariances ont alors un sens. La
loi d‟un processus du 2nd ordre peut donc être partiellement résumée par :
On étudie donc une classe particulière de processus aléatoires appelés processus aléatoires
stationnaires. Ces processus sont caractérisés par le fait que leurs propriétés ne changent pas
au cours du temps.
1.2 La stationnarité
La stationnarité au sens strict
On dit que le processus est stationnaire au sens strict (ou fortement tationnaire) si la
loi de est la même que la loi de pour tout , tout , pour
et pour tout avec .
Ainsi, un processus aléatoire est strictement stationnaire si toutes ces caractéristiques, c‟est-à-
dire tous ces moments sont invariants pour tout changement de l‟origine du temps.
Mais la stationnarité au sens strict est trop restrictive et on assouplit cette condition en
définissant la stationnarité du second ordre.
9
La stationnarité du second ordre
Un tel processus admet donc une loi, qui pour ses deux premiers moments, est invariante par
changement de l‟origine des temps. En particulier, les variables ont une même variance
égale à : propriété d‟homoscédasticité.
L‟exemple le plus connu de processus stationnaire est le processus bruit blanc (noté BB, ou
White noise). Un Bruit Blanc est une suite de telle que :
Ainsi
Elle fournit une information sur la variabilité de la série et sur les liaisons temporelles
10
qui existent entre les diverses composantes de la série .
* paire :
* semi-définie positive :
∑∑ ( )
Avec et (donc )
( ,
11
̂ ∑ ̅ ̅
où
̅ ∑
̂( ̂ ) ∑ ̂
̂( ̂ ) 4 ∑̂ 5
√ ̂( ̂ )
Elle suit une loi de Student. La variance dépendant de , l‟intervalle de confiance associé au
corrélogramme (ensemble des coefficients d‟autocorrélation quand varie) augmente avec .
Elle mesure la liaison (linéaire) entre une fois retirés les liens transitant par les
variables intermédiaires .
corrélation entre :
On a donc :
12
C‟est donc le coefficient de dans la régression de sur ,
( , ( , 4 5 ( , 4 5
Avec
( ,
( ,
Ainsi,
13
à partir de l‟algorithme de Durbin : il permet de calculer récursivement les divers
coefficients de régression en évitant l’inversion des matrices de corrélation . Il est
basé sur une formule de calcul des coefficients à partir des et
.
3. Représentation de Wold
3.1 Présentation
⁄
∑‖ ‖ ∑ ‖ ‖ ∑
(∑ + ∑ ∑
4∑ ∑ 5 ∑ ∑ ( )
∑ ∑
14
L‟exemple le plus simple de processus stationnaire est fourni par le processus bruit
blanc . Ainsi, tout processus de la forme :
∑ ∑
∑ ∑
Les processus pouvant s‟écrire comme moyennes mobiles infinies de bruits blancs sont
appelés processus linéaires. Le théorème qui suit justifie l‟utilisation des représentations
moyennes mobiles infinies dites unilatérales vers le passé, c‟est-à-dire dans lesquelles
pour tout .
Tout processus stationnaire du second ordre peut être représenté sous la forme :
La condition ∑ est très importante! Elle assure l‟existence des moments d‟ordre
2.
15
On peut aussi montrer que le processus d‟innovation constitue un bruit blanc lorsque est
stationnaire.
̂ 4∑ | 5
Il s‟agit de l‟innovation. Elle a de bonnes propriétés puisque cette erreur de prévision est
indépendante de l‟erreur de prévision que l‟on a pu commettre aux dates précédentes
puisque .
̂ ∑
On introduit un opérateur, opérateur retard, afin d‟écrire de manière plus synthétique les
processus et la forme
L‟opérateur retard L (pour ou parfois noté aussi B pour Backward) est tel que:
16
Cet opérateur permet de définir une application qui à toute variable associe la variable
retardée. Cet opérateur a les propriétés suivantes :
∑ ∑
∑ ∑
∑ ∑
( ∑ + ( ∑ +
17
On ne s‟intéressera qu‟aux représentations canoniques, c‟est-`a-dire aux écritures des modèles
ARMA telles que soit le processus d‟innovation de la prédiction optimale est ̂
et l‟erreur de prévision à 1 pas est l‟innovation i.e., que l‟on ne peut pas
faire mieux que la prédiction optimale.
Il s‟agit donc de trouver des contraintes sur les paramètres des modèles ARMA.
• il faut que la représentation soit stationnaire, donc que admette une inverse et donc que le
module des racines de diffèrent de 1) :
∑ ∑| |
tournée vers le passé (dans ce cas module des racines de est strictement supérieur à 1):
non corrélé à
puisque
18
∑ ∑ ∑
puisque
∑ ∑ ∑
4.1 Processus MA
4.1.1 Définition : On appelle processus moyenne mobile d‟ordre q, noté pour Moving
Average, un processus défini par :
La définition d‟un est explicite et ne pose donc pas de problème : le processus est
parfaitement défini et est automatiquement stationnaire.
est un polynôme en de degré , que l‟on peut factoriser en ayant calculé ses racines
Si ’ à t ’ , qui est
alors donnée par :
( )
( )
19
si toutes les racines de ’ t-`a-dire ) sont distinctes et où
sont des paramètres qui dépendent de ,..., .
O bt t ’ x t
•S z tt t à t t Q π
t ’ t èt ’ t O t t
inversible.
•S t f à ’ ’
de module égal à 1, on peut inverser les racines, quitte à changer de bruit blanc, et
supposer que le processus est inversible.
∑ ∑
π ’ bt t t π
La racine de est .
• S alors la forme ’ x t t t t t t
causale mais non inversible, donc non canonique.
•S et donc alors:
∑ ∑
et la forme ’ t
20
La représentation est alors inversible, en plus d‟être stationnaire et causale elle est donc
canonique.
• Si et donc alors:
∑ ( *
4.2 Processus AR
4 D fi t
O t f ’ t , un processus stationnaire
fi t t t
Ce processus est pour l‟instant défini sous forme implicite et en particulier il n‟est pas certain
que cette dernière équation admette toujours une solution stationnaire.
21
4.2.4 Représentation causale
∑| |
Lorsque les racines de sont de module différent de 1, on peut montrer que, quitte à
changer de bruit blanc, on peut toujours supposer que ces racines sont de module
supérieur à 1.
Mais si certaines racines de sont de module inférieur à 1, alors n‟est pas
l‟innovation, puisque la forme sera tourné vers le futur (et peut-être aussi vers le
passé si certaines racines étaient bien supérieur à 1 en module). Dans ce cas, le passé de
dépend du passé et du futur de : on ne peut plus dire qu‟il n‟y a pas de corrélation entre le
passé de et ! Ainsi, ce n‟est pas qui est l‟innovation du processus.
Exemple de l‟AR(1):
La racine de .
Il s‟agit d‟un processus non stationnaire de type stochastique, appelé marche aléatoire.
22
Si et donc alors la forme est donnée par :
∑ ∑
La représentation est alors causale, en plus d‟être stationnaire et inversible elle est donc
canonique. est le processus d‟innovation de , puisque le passé de dépend du passé de
et donc n‟est pas corrélé à .
Si et donc alors:
∑ ( *
La forme n‟est pas tournée vers le passé et la représentation n‟est donc pas
canonique. Cependant, dans ce cas, on peut toujours (tant que ) se ramener à une
représentation canonique, en changeant la représentation, c‟est-`a-dire en changeant de BB et
en inversant les racines.
4.3.1 Définition
Les processus ARMA généralisent simultanément les modèles AR purs et les MA purs. Ces
modèles présentent l‟avantage d‟être plus souples d‟utilisation et de fournir généralement de
bonnes approximations des séries réelles avec moins de paramètres que les modèles AR ou
MA purs.
∑ ∑
(i)
(ii) Les polynômes ont toutes leurs racines de module strictement supérieur à 1
23
(iv) est un bruit blanc, de variance
Remarquons qu‟on aurait pu définir une représentation plus générale permettant de considérer
des processus stationnaires non centrés. Par exemple :
∑ ∑
par ∑
.
La condition (ii) assure tout d‟abord que la représentation ARMA admet une solution
stationnaire (si les racines de sont de module différent de 1), que cette solution stationnaire
fait intervenir que des valeurs passées du bruit (les racines de sont à l‟extérieur du
disque unité), que la représentation ne fait intervenir que des valeurs présentes et
passées de (les racines de sont de module strictement supérieur à 1). Ainsi, est le
processus d‟innovation du processus .
La condition (iii) assure que la représentation est unique, sinon il y aurait des simplifications
possibles.
4.3.2 Propriété
, alors:
∑ ∑| |
∑ ∑
La condition de stationnarité des modèles présentés ici n‟est évidemment pas toujours
convenable. On peut intégrer certains types de non-stationnarités en élargissant le modèle
ARMA. Ces élargissements consistent en une série d‟opérations préalables visant à éliminer
la tendance ou la saisonnalité.
24
Modèle ARIMA: un processus admet une tendance polynomiale de degré d, le processus
différencié d fois est stationnaire:
De façon général, on peut supposer que l‟influence des chocs se transmet entre dates distantes
d‟un nombre entier de périodes selon un processus :
25
5 Identification, estimation, validation, prévision
5.1 Identification du processus ARMA
La méthode d‟identification d‟un processus ARMA (choix entre AR, MA et ARMA, et choix
de p et q) de Box et Jenkins est basée sur la comparaison de caractéristiques théoriques des
processus ARMA à leurs équivalents empiriques (c‟est-`a-dire calculées sur la série
observée). Les caractéristiques utilisées sont les autocorrélations simple et partielle.
On peut aussi utiliser des critères de choix de modèle, couramment appelé critères
d‟information. Les plus couramment utilisés sont le critère de Akaїke :
et le critère de Schwarz:
5.2 Estimation
∑ ∑
( *
26
La log-vraisemblance est alors donnée par :
Le problème est que cette log-vraisemblance est difficile à calculer et donc à maximiser à
cause de et de (matrice T× T). De plus, il faut se donner des valeurs préliminaires
pour les paramètres, puisque la maximisation de la log-vraisemblance utilise des algorithmes
de maximisation itératifs.
4 5 ( ,( ,
∑ ∑
27
∑ ∑
Les j sont estimés à partir d‟un algorithme récursif appelé algorithme de Durbin- Levinson
ou algorithme des innovations. A partir de ces estimations, on peut alors obtenir des
estimations de et de .
5.3 Validation
Il s‟agit de vérifier notamment que les résidus du modèle ARMA estimé, résidus notés ̂ ,
vérifient les propriétés requises pour que l‟estimation soit valide, à savoir qu‟ils suivent un
processus BB, non autocorrélé et de même variance, et qu‟ils suivent une loi normale. Si ces
hypothèses ne sont pas rejetées, on peut alors mener des tests sur les paramètres.
• Regarder le graphique des résidus estimés pour voir s‟il apparaît des points aberrants, une
tendance, une rupture, de l‟autocorrélation, etc. Ceci n‟est évidemment qu‟indicatif.
• Regarder les autocorrélations simples et partielles. Elles doivent être significativement nulles
si les résidus sont un bruit blanc.
28
• Test du portemanteau
Afin de tester que les résidus estimés suivent un BB, on teste l‟hypothèse d‟absence
d‟autocorrélation jusqu‟à l‟ordre m. On utilise la statistique de Ljung-Box, donnée par :
̂
∑
où les coefficients d‟autocorrélation ̂ sont calculés sur les résidus estimés ̂ . Cette
statistique, sous l‟hypothèse que les résidus suivent un BB, suit une loi du
• Test d‟homoscédasticité
Un test couramment utilisé en séries temporelles est le test d‟homoscédasticité contre une
alternative ARCH (hétéroscédasticité conditionnelle dans la variance). On teste alors la nullité
des paramètres dans le modèle :
̂ ̂ ̂
• Test de normalité
Il s‟agit de tester que les résidus estimés ̂ . suivent une loi normale, c‟est–`a–dire ne
présentent pas d‟asymétrie (Skewness) ni d‟applatissement (kurtosis).
Où
∑ ̂ ̅̅̅̅
̂
29
Si la distribution est normale et le nombre d‟observations grand, alors :
4 √ 5 ( √ 4 )
On vérifie tout d‟abord que les racines des polynômes AR et MA ne sont pas égales à 1. Si les
hypothèses testées sur les résidus ne sont pas rejetées, on teste la significativité des retards du
modèle ARMA par des tests de Student.
Si, à la suite de ces étapes, il reste plusieurs modèles valides, on peut choisir parmi ces
modèles, soit celui qui donne les meilleurs critères d‟ajustement, soit celui qui donne les
meilleurs performances en prévision.
Concernant les critères d‟ajustement, on retient le modèle qui minimisent les critères
d‟information AIC et BIC.
Concernant les performances en prévision des modèles, on utilise couramment les critères
suivants (que l‟on cherche bien entendu à minimiser) :
√ ∑( ̂ )
∑| ̂ |
On peut calculer ces critères, soit sur la base de prévisions in-sample (toutes les observations
ont été utilisées pour estimer le modèle et on calcule les prévisions sur cet même ensemble
30
d‟observations), soit sur la base de prévisions out-of-sample (on estime le modèle sur un
ensemble d‟observations et on mène la prévision sur le reste)
5.4 Prévision
, , } où ={ }:
31
Chapitre II
Il existe des séries temporelles, particulièrement dans la finance (par exemple : les indices des
prix, les indices boursiers, l‟inflation, taux de change, …) dont la modélisation des différentes
caractéristiques est difficile a obtenir par des modèles linéaires de type ARMA, car ces modèles
sont incapables de capter toutes les asymétries cycliques, les variations instantanées alors un
grand intérêt est accordé aux spécifications non linéaires ; ces modèles introduisent une
distribution significative entre les phases d‟expansion et les phases de récession. Ils sont alors
suffisamment flexibles et permettent de tenir compte des différentes spécifications et des
relations correspondant à chaque phase.
Parmi les modèles non linéaires, on peut citer les modèles (Bollerslev, 1986),
les modèles autoregressives a seuil (tong, 1978), les modèles (Terasvirta et
Anderson, 1992), et les modèles à changement de régimes (Markov
Switching Model, Hamilton 1989).
Dans ce mémoire de fin d‟études, nous nous sommes intéressés à la famille des modèles à
changement de régimes markovien.
Nous avons toutefois appliqué un test de non linéarité pour justifier ce choix, et montré
qu‟effectivement ces séries sont non linéaires.
33
1. Test généraux de linéarité
Avant de construire un modèle non linéaire, il est recommandé de vérifier qu‟un modèle
linéaire ne suffit pas à modéliser correctement la série. Il peut arriver (surtout si les séries
temporelles sont courtes) que l‟on estime -avec succès – un modèle non linéaire
On teste alors : {
-Etape1 : on estime le modèle sur la série étudieé est l‟on récupère les
résidus estimés ̂
̂ ̂
∑ ̂ ̂
Où ̂= ̂ ∑ ̂
Notons que se test a été amélioré par Tsay (1986). Cette nouvelle version conduit également à
une stratégie en quatre étapes :
-Etape 1 : Elle est identique à la première étape du test de Keenan (1985) on note ̂ le
prédicateur de
̂ ̂ ̂ ̂ ̂ ̂ ̂
Que l‟on régresse sur une constante et sur . On note ̂ les résidus estimés
associés à cette régression.
34
-Etape 3 : On régresse ̂ sur ̂ .
Remarque : ces deux tests ne sont valables que pour des modèles incluant des termes
quadratiques. En l’absence de tels termes, leur puissance est faible. Pour pallier cette
difficulté, Tsay (1989) a proposé une généralisation du test consistant à remplacer les termes
quadratiques par des fonctions non linéaires quelconques
Cette propriété est également valable pour les résidus estimés ̂ d‟un processus , par
exemple. Le test est alors très simple à mettre en œuvre. Il suffit de représenter graphiquement
(̂ )
le rapport : ̂
Si la normalité des ̂ est vérifiée, ce rapport doit être égale à 1 et les valeurs du rapport doivent
donc graphiquement situer sur la première bissectrice. Si la normalité est vérifiée et si les
valeurs prises par le rapport sont différentes de 1, alors c‟est une indication de non linéarité.
avec .
est la dimension de plongement : c‟est la dimension de l‟espace des phases dans lequel
l‟attracteur est reconstruit. En d‟autres termes, la dimension de plongement est le nombre
d‟axes nécessaire pour représenter l‟attracteur.
35
∑ | |
| |
( | |) {
de série , on a :
4[ ∑ ]
Où :
Où
√ * ( ) +
Sous l‟hypothèse nulle, , cette statistique suite une loi normale centrée réduite.
36
Cette statistique a très fréquemment été utilisée en tant que test de non linéarité, il est
primordial de rappeler que la statistique teste l‟hypothèse nulle de série contre une
alternative non spécifiée. Un rejet de l‟hypothèse nulle peut alors provenir :
2. Chaines de Markov
Les modèles MS-AR (Markov Switching autorégressive) introduisent une hypothèse
probabiliste sur le passage d‟un régime à un autre. L‟évolution de la variable discrète
indicatrice du régime en cours est supposée dépendre d‟une chaine de Markov cachée (décrite
par une variable non observée) à états finis, homogène et ergodique. Il convient de donner ici la
définition d‟une chaine de Markov.
Généralement, un processus stochastique est une suite d‟expériences dont le résultat dépend du
hasard. Pour décrire l‟évolution temporelle d‟un système dynamique, la méthodologie consiste
définir un espace d‟état (l‟espace dans lequel une variable aléatoire prend ses valeurs) dans
lequel se promène aléatoirement le système. En admettant qu‟à chaque instant, le système peut
se trouver dans l‟un des états d‟une collection finie d‟états possibles, l‟observation du système
peut ainsi être considérée comme une expérience dont le résultat (aléatoire) est l‟état dans
lequel se trouve le système. La théorie des processus stochastiques permet alors de calculer les
probabilités d‟état stationnaires. Ces probabilités d‟état peuvent être vues comme la probabilité
que le système se trouve dans un état donné à un instant choisi « aléatoirement »loin dans le
futur. Elles peuvent également être vues comme la proportion de temps que l‟on a passé dans
cet état au cours d‟une très longue observation du système.
Un processus stochastique à temps discret et à espace d‟état finis discret , est une chaine
de Markov si seulement si :
37
L‟homogénéité : pour tout , et toute paire , on a :
« Indépendamment de »
En d‟autre termes, une chaine de Markov possède la propriété que son évolution (passage de
à ) ne dépend que l‟état courant et pas de son passé, les nombres sont les
probabilités de transition de la chaine, ainsi est a probabilité d‟aller à l‟état sachant qu‟on
se trouve à l‟état .
On introduit la probabilité de transition de à en étapes :
2. 2. L’irréductibilité
On dit qu‟une chaine de Markov est irréductible tout état est atteignable en un nombre finis
d‟étapes à partir de tout autre état :
2. 3. La périodicité
Un état est périodique si on ne peut y revenir qu‟après un nombre d‟étapes multiple de
>1 :
La période d‟une chaîne de Markov est le plus grand commun diviseur (PGCD) de la période
de chacun de ses états. Une chaîne de Markov est dite périodique si sa période est supérieure à
1. Dans le cas contraire, elle est dite apériodique.
2. 4. L’ergodicité
Une chaîne de Markov qui est irréductible et apériodique et récurrente est dite ergodique
( )
est la matrice carré qui peut être fini ou infini selon fini ou infini
Si une chaine de Markov a un espace d‟état fini, alors il existe une distribution stationnaire
38
Et
Où (écriture matricielle et une matrice limite)
4 5 4 5
Quandt (1958) fut à l‟origine des premiers principes de la représentation par des
modèles à changement de régime, S‟en suivirent plusieurs travaux qui complétèrent les travaux
de Quandt et posèrent un formalisme complet d‟une telle représentation (Goldfeld et Quandt
1973, Baum et Petrie 1966, Tong 1978, Hamilton 1989,1990), Les propriétés de ces modèle
permettent d‟autoriser une série à posséder une dynamique différente suivant les régimes ou les
états du monde dans laquelle elle se trouve.
Depuis leur introduction par Hamilton (1989), Les modèles autorégressifs à changement
de régime Markovien (MS-AR) ont connu un développement important. Un modèle MS-AR
exprime l‟observation courante en fonction linéaire des p dernières observations, modulo un
processus d‟innovation, avec paramètre évolutifs, dépendant d‟un processus latent qui est une
chaine de Markov (cachée) finie, ergodique et stationnaire.
39
4. Présentation générale du modèle MS-AR
40
Un processus à valeurs réelles ; défini sur un espace de probabilité P , est
dit admettre une représentation autorégressiv à changement de régimes Markovien (MS-AR)
s‟il est solution de l‟équation aux différences stochastique suivante :
∑ (2.5)
Il est également possible de supposer que le support de l‟équation aux différences (2.5)
est l‟ensemble des nombres entiers naturels plutôt que . Les techniques utilisées et les
résultats obtenus en seront invariants.
Intuitivement parlant, pour une valeur possible prise au hasard par la chaine à un instant ,
soit , le processus er cet instant, dépend de son passé selon le régime
décrit par les paramètres et à travers la formulation AR suivante :
A l‟instant suivant, , le processus dépendra de son passé selon le régime pris par la
chaine qui peut être différent de celui à l‟instant . Ainsi à tout instant il y‟a possibilité de
changement de régime de dépendance, et ce changement évolue selon un processus
Markovien. D‟où l‟appellation « à changement de régimes Markovien »
Une autre appellation du modèle (2.5) comme sous le nom de « mélange Markovien »
émane de la loi de probabilité des valeurs de processus. En effet le modèle (2.5) peut se mettre
sous la forme plus générale mais qui n‟en est pas équivalent. Au lieu de définir le modèle à
travers une équation aux différences stochastique. C'est-à-dire directement par le biais des
valeurs prises du processus solution. On peut caractériser le processus en (2.5) au
moyen de sa loi de probabilité conditionnellement aux valeurs du passé,
jusqu'à l‟instant , où désigne la -algèbre générée par
. En effet, par la formule des probabilités totales et de la
propriété i.i.d. de on a :
41
⋃ |
∑
∑ ∑
∑ ̃
∑
∑ ̃ (2.5.1)
Les modèles autorégressifs à seuil ont été introduit par Tong(1978) et on fait l‟objet d‟études
approfondies (Tong et Lim(1980). Tong(1983) : cités dans Mélard et Roy (1988)). Les modèles
autorégressifs à seuil TAR (Threshold autoregressive model) exhibent un comportement
42
incorporant des changements de régime lié au franchissement d‟un seuil par une variable de
transition exogène observée :
∑ ( ) ( ∑ ( ))
L‟idée sous-jacente dans la modélisation TAR est d‟appréhender le caractère non linéaire d‟une
régression en ayant recours à un modèle linéaire par morceaux. Chaque
« morceau » correspond à un régime auquel est étiqueté un modèle autorégressif linéaire. Un
seul régime est actif à chaque instant .
Le modèle TAR s‟exprime sous forme de mélange sauf que le mécanisme de transition
dépend de son passé et que les changements de régime sont liés à une variable de transition
observée. Par contre dans le modèle MS-AR ces changements de régime sont liés à une
variable latente.
43
5.3. Relation avec le modèle chaine de Markov cachée (HMM)
Baum et Petrie ont introduit en 1966 les modèles de chaine de Markov cachées, notés
HMM (Hidden Markov Model). Cette classe de modèles repose sur l‟hypothèse qu‟une
séquence n‟est pas directement générée par une chaine de Markov mais indirectement par des
lois de probabilité attachées aux états de la chaine de Markov. Les premières applications de
ces modèles furent la reconnaissance automatique de la parole à partir des années 70. Leurs
champ d‟application s‟est depuis beaucoup élargi, allant du traitement du signal à l‟analyse de
séquences d‟ADN. Ces modèles sont utilisés pour deux raisons principales. La première est la
probabilité d‟expliquer les variations du processus sous jacent caché. La seconde raison
d‟utiliser les HMM est la possibilité de prédire un processus non observé à partir d‟un
processus observé (Chaubert-Pereire, 2008).
Une chaine de Markov cachée peut être vue comme un couple de processus
stochastiques tel que le processus , appelé processus d‟état ou caché, soit
une chaine de Markov d‟ordre 1 et le processus appelé processus d‟observation,
soit lié au processus d‟état par une fonction probabiliste :
Une chaine de Markov cachée peut être vue comme un modèle de mélange fini de
distributions avec dépendances markoviennes. Lorsque les variables observables sont
conditionnellement indépendantes connaissant la variable latente, la chaine de Markov cachée
n‟est qu‟un cas particulier du modèle MS-AR.
La figure 2.3 représente le graphe d‟indépendance conditionnelle pour le modèle HMM, la loi
conditionnelle de dépend uniquement de
44
5.4. Relation avec le modèle espace d’état
L‟étude de systèmes physiques émettant au cours du temps des signaux déterminés par
des états internes non observés, a conduit à développer en traitement du signal les modèles dits
espace d‟état. L‟émergence de ces modèles est relativement récente dans la recherche
empirique en finance.
Où ( ) [( ) ( *]
Le modèle MS-AR peut être vu comme un modèle espace d‟états non linéaire avec
équation d‟observation non linéaire, équation d‟état non linéaire, mais à variable d‟état discrète.
45
5.5. Relation avec le modèle de volatilité stochastique
On considère le modèle d‟ordre 1 défini par :
Le modèle (2.5) peut se mettre sous la forme espace d‟état à changement de régime (équation
aux récurrences stochastique)
(2.7)
Où
( ,
Et
46
6.1. Existence d’une solution stationnaire stricte
La stationnarité du modèle (2.5) découle ainsi de l‟existence d‟une solution strictement
stationnaire de l‟équation (2.7). Puisque est strictement stationnaire et
ergodique, ( étant i.i.d. est strictement stationnaire et ergodique) donc
l‟est aussi. De plus et , x . Ainsi
par la version multivariée du théorème de Brandt (1986), (voir aussi Bougerol & Picard, 1992)
l‟équation (2.7) admet une solution unique, strictement stationnaire et ergodique de la forme :
∑ ∏ (2.7.1)
Où la série en (2.7.1) converge presque surement. Pourvu que l‟exposant de Lyapunov soit
négatif.
f ‖ ‖
‖ ‖
Remarque 6.1
47
être relaxée à la condition et t est strictement stationnaire et
ergodique.
( )
Où
Le résultat suivant dû à Yao (2001) et Francq & Zakoian (2001) donne une condition suffisante
pour l‟existence d‟une unique solution stationnaire au second ordre (à l‟équation (2.7)) qui est
de plus strictement stationnaire et ergodique.
Théorème 2.7.2 (Existence d‟une solution stationnaire de carré intégrable, Francq & Zakoian
(2001))
si alors :
H.1 :
H.2 : la variable possède une densité absolument continue par rapport à la mesure de
Lesbesgue et cette densité est strictement positive.
Comme le processus est une chaine de Markov, alors, il est montré dans Meyn et
Tweedie (1993) que si est -irréductible et apériodique et s‟il vérifie une condition de
dérive, i.e, s‟il existe une fonction réelle , des constantes positives et
, un compact tels que { ( ) } ( ) alors est
géométriquement ergodique et -mélangeant.
48
Théorème 2.7.3 : sous les conditions H.1 et H.2 le processus est géométriquement
ergodique et -mélange.
Où
=( ,
( ) ( )
∑
∑ ( )
∑ ∑
Soit et
49
L‟espérance de est alors obtenue par :
Dans cette partie nous allons calculer les moments de second ordre du processus
. Nous avons :
(on utilisé : )
( }
{ }
Soit
D‟où
50
( )
La fonction d’autocovariance
Calculons la fonction d‟autocovariance de . Pour tout , soit la matrice de
è
dimension dont la bloc est la matrice ,i.e. pour
( ,
Soit donnée par la forme précédente, en multipliant les deux membres par on aura :
Donc
∑ ∑
Avec .
Et
(2.7.2)
51
6.5. Structure ARMA des autocovariances d’un MS-AR
A présente on veut montrer que le processus est aussi un ARMA standard. Il suffit
donc de vérifier que la structure d‟autocovariance de est celle d‟un ARMA. Pour simplifier les
calculs, on suppose que . Alors on a et .
En utilisant la décomposition de Jordan (voir Lancaster et Tismenetsky.1985). peut être écrit sous
la forme :
∑ ∑ , x
Avec sont des matrices de dimension , les sont des valeurs propres de , et
.
∑ ∑ x
Par conséquent, il existe une relation récursive entre les autocovariances, de la forme
∑ (2.7.3)
( * avec
52
Pour tout , la matrice s‟écrit :
( *
t
est un scalaire et la matrice identité
Il a pour discrminant :
Comme est une matrice irréductible (puisque l‟est et que les ne peuvent être nuls) et
positive, donc nécessairement on a . On peut donc donner la valeur du rayon spectral
de :
√
(2.7.4)
Si et
Alors pour tout , le rayon spectral est toujours inférieur ou égal à 1. On test alors dans le
premier cas.
Si
√
et 4
53
Et tend vers l‟infini si seulement si tend vers l‟infini, c'est-à-dire si seulement si
.
Cette dernière condition est vérifiée si et seulement si
7. Estimation du modèle
Pour cette fonction on a deux cas très importants dans les modèles à changement de
régimes, le premier cas où le processus latent est i.i.d. pour les données observées ou
complètes, le deuxième cas où le processus latent est Markovien (non i.i.d).
Dans notre mémoire on va étudier le deuxième cas.
Etant donné la série d‟observations générée à partir du modèle (2.5)
sous la condition que est une chaine de Markov ergodique, homogène, stationnaire et
initialisée à partir de la distribution invariante où et que l‟état
change entre différents régimes selon la valeur passé et les probabilités de transition données
par
avec (2.8)
Et
∑
(2.8.1)
∑
∑ ̃ ( *
Où ̃
54
On cherche alors à maximiser la fonction de vraisemblance donnée par :
Ou encore
( ) ∑
On évalue :
Où
- est la matrice de conditionnellement à l‟état .
∑ ∑
∑ (2.8.2)
∑
∑
̃.
∑
∑ ∑ ̃
55
où ̃ est donnée par (2.8.2) ; et où l‟on suppose que est condition-
nellement indépendant de connaissant .
Ainsi, la fonction de vraisemblance est calculée à partir d‟un algorithme itératif (filtre de
Hamilton,1989). Chaque itération de l‟algorithme correspond aux étapes suivantes :
a) On entre
b) On calcule la valeur de la densité
c) On récupère issue de la formule de Bayes. Cette probabilité est l‟entrée
de l‟itération suivante.
La maximisation de la vraisemblance est réaliser sous les contraintes (2.8) et (2.8.1)
∑ ∑ ∑
D‟où
∑ ∑ ∑
∑ ∑ ∑ ∏ ∏
Avec
∑
x . /
√
56
Cette section discute comment trouver la valeur de ̂ qui maximise étant donnée cette
possibilité de calculer la valeur de pour n‟importe quelle valeur de L‟approche générale
consiste à construire une procédure qui permet à un ordinateur de calculer la valeur numérique
de pour des valeurs numériques particulières de et des données observées .
7.2.1. Algorithme
L‟algorithme E (Expectation-Maximization) est une méthode d‟estimation qui permet
d‟obtenir les estimateurs des paramètres dans les problèmes à données incomplètes pour
lesquels l‟approche classique d‟estimation n‟est pas toujours envisageable. La notion de
données incomplètes couvre de très nombreuses situations : données manquantes, données
censurées, variables latentes (Chaubert-Pereira 2008)
Présentation générale
L‟algorithme EM est d‟un algorithme itératif. Partant d‟une valeur initiale , à chaque
itération de l‟algorithme, il y a deux étapes, à savoir l’étape E (Expectation) et l’étape M
(Maximization).
Nous décrivons ci-dessous plus précisément ces deux étapes dans le cas des modèles MS-AR,
désigne la valeur des paramètres après la itération (Chaubert-Pereira 2008).
Etape E : l‟étape E consiste à concevoir un problème aux données complètes tel que
l‟espérance de la log-vraisemblance des données complètes conditionnellement aux don-nées
observées soit manipulable (ce qui suppose d‟étudier la relation entre la vraisemblance des
données complètes et la vraisemblance des données incomplètes).
( )
57
Etape M : la prochaine valeur du paramètre , est choisie telle que
( )
Ceci se traduit par le fait de choisir dans l‟ensemble des valeurs qui maximisent la quantité
( ) calculée à l‟étape E :
x ( )
Dans cette partie nous allons donner la caractérisation de l‟algorithme EM ainsi que ses
propriétés. Pour cela on commence d‟abord à donner quelques notations (Hamilton 1990).
Enfin nous avons collecté tous les paramètres à estimer dans le vecteur tel que :
(2.8.2)
∑ ∑ ∑
Donc, la vraisemblance des observations est paramétrée par . Il sera utile d‟utiliser
l‟expression ( ) pour représenter l‟espérance de log-vraisemblance, où le log-
vraisemblance est paramétré par et l‟espérance est prise avec une deuxième distribution
paramétrée par :
( )
∑ ∑ ∑
58
∑ ∑ ∑ (2.8.3)
Caractérisation de l’algorithme
̂ ̂
Dans sa deuxième caractérisation, l‟algorithme EM remplace les points non observés par leur
moyenne donnée par le vecteur des paramètres estimé à l‟itération précédente (Hamilton 1990).
∑ ∑ ∑ ̂ ( | )
Les propriétés de l‟algorithme EM et les critères de convergence sont présentés dans la partie
suivante :
Preuve
59
̂ ̂ ̂ ̂
Nous avons
̂
(̂ ̂ ) (̂ ̂ ) ∑ ∑ ∑ 0 1 ̂
̂
̂
∑ ∑ ∑ * + ̂
̂
∑ ∑ ∑ [ ̂ ̂ ]
̂ f ̂
̂
̂
,
Alors
Preuve
̂
̂
∑ ∑ ∑ , - ̂
∑ ∑ ∑ ̂
60
̂
Ainsi si le membre de gauche est nul, le membre de droite doit être aussi nul, ce qu‟il fallait
montrer.
En général, si la vraisemblance a plusieurs points stationnaires qui peuvent être soit des
maxima locaux, soit un maximum global. La convergence d‟une suite d‟itérations EM vers
l‟une ou l‟autre de ces valeurs stationnaires dépend du choix de la valeur initiale du paramètre
notée . Selon le type de point stationnaire (maximum local ou maximum global). On
parlera respectivement de convergence locale ou de convergence globale (Chaubert-Pereira
2008).
Les deux propriétés justifient le fait que l‟algorithme EM calcule l‟estimation ̂ du maximum
de vraisemblance. A présent nous allons nous intéresser à la forme particulière de l‟algorithme
EM donnée dans (Hamilton 1990). Nous avons la proposition suivante.
∑
∑
∑ ∑ ∑ ( |
Etape
Etape
61
- Pour les paramètres autorégressifs, il revient à résoudre l‟équation
∑ ∑ ∑
Qui cependant n‟a pas de solution explicite à cause de la forme non linéaire la vraisemblance
en fonction de . Ceci n'est pas le cas pour les modèles MS-AR pour lesquels nous reprenons la
forme donnée par Hamilton (1990) par la suite.
̂ (̂ ) ̂
Avec
( ) et
x 0 1 4
√
Pour obtenir une forme spécifique de l'estimation, on dérive (2.8.4) par rapport à et :
62
{
∑ ( | ) (2.8.7)
( ) ∑ ∑
L'estimation du qui satisfait l'équation (2.8.7) peut être trouvée à partir de la régr-esion
des moindres carrés ordinaires de ̃ et ̃ :
6 ∑ ̃ ̃ 7 6 ∑ ̃ ̃ 7
Avec
̃ √
̃ √
̃ ̃
∑ ∑
∑
∑
∑
63
Il s'agit des "probabilités lissées" qui représente les probabilités conditionnelles d'être dans
l'état à la date (ou l'inférence de l'état à la date basée sur l'information de l'ensemble des
observations et les paramètres du modèle ) Hamilton (1990). Nous présentons le filtre de
Hamilton
Dans la suite nous décrivons les procédures pour le calcul des probabilités lissées
( | ) ∑ ∑ ( | )
Et
( | ) ( | )
( | )
( | )
Avec .
∑ ∑
Et
∑
( | )
( | )
4. L'inférence pour :
∑
( | )
64
Finalement, nous pourrions finir le calcul des probabilités lissées en faisant la somme des
derniers états avec :
( | ) ∑ ∑ ∑
D'autres probabilités peuvent être calculées. Il s'agit des "probabilités filtrées". Ces prob-
abilités sont basées sur l'information disponible jusqu'à la date et sont calculer par l'algo-
rithme décrit ci-dessous.
∑
∑
Où le numérateur de la relation suivante peut être interprété comme étant une distribution de
densité conjointe conditionnelle de et :
65
∑
D'autre part on a:
On obtient
∑
∑
66
Chapitre 3
Les racines unitaires ont été détaillées dans un cadre univarié. On a considéré un
processus Stochastique univarié et étudié une certaine forme de non-stationnarité en
distinguant dans ce processus une partie déterministe que l‟on retirait et une partie stochastique.
C‟est cette partie stochastique qui a fait l‟objet de l‟analyse en regardant si elle avait une
représentation ARMA ou ARIMA. Cette distinction est très importante, car elle conduit à des
propriétés de long terme assez différentes en terme de permanence: persistance des chocs dans
le cas d‟une racine unitaire, amortissement des chocs dans le cas alternatif. Nous allons dans ce
chapitre poursuivre l‟analyse précédente, mais dans un cadre multivarié. Le fait de considérer
de façon conjointe plusieurs variables transforme radicalement la question et ouvre des
horizons nouveaux. La problématique des racines unitaires prend tout son sens dans un cadre
multivarié. Nous allons pouvoir analyser de façon conjointe les tendances stochastiques des
variables et voir que dans le cadre de la cointégration des variables peuvent avoir des tendances
stochastiques communes. Par exemple, si la consommation et le revenu ont chacune une
tendance stochastique, comment va évoluer ce couple de variables? On s‟attend
économiquement à ce qu‟elles croissent de façon plus ou moins parallèle. Si tel est le cas, il est
alors possible de trouver une combinaison linéaire de ces deux variables qui ne possède plus de
tendance, mais qui mesure simplement les erreurs d‟ajustement d‟une variable par rapport à
l‟autre autour d‟une relation d‟équilibre. On dit alors que les deux variables sont cointégrées.
Les premiers papiers sur les concepts d‟intégration et de cointégration remontent à Granger
(1981), Granger (1983) et Granger and Weiss (1983).
68
1. Séries temporelles multivariées stationnaires et non stationnaires
1.1 Stationnarité dans un cadre multivarié
Considérons un processus stochastique multivarié défini comme une suite de variables
Aléatoires de indexées par le temps. On supposera que chacune des n séries est
purement non-déterministe. On va noter le vecteur des espérances de . L‟autocovariance de
la série , donné est une matrice
( )
On retrouve donc la décomposition entre partie régulière et partie stochastique qui admet
une représentation en moyenne mobile infinie. Le caractère abslument sommable de la suite de
matrices signifie que
∑‖ ‖
Avec
69
∑
Les puissances de ne convergent que si les valeurs propres de la matrice sont toutes
plus petites que .
2. Représentation VAR
2.1. Exemple introductif
70
∑ ∑
∑ ∑
. / ( * . /
. / . /
̃ ∑ ̃ 4
avec :
̃ ∑̃ ∑ ̃
71
̃ ∑̃ ∑ ̃
( )
( )
( ) 8
On constate que cette covariance est nulle en particulier lorsque , puisque dans ce
cas-là le niveau de n‟a pas d‟influence sur celui de et vice et versa.
3. Représentation générale
La définition générale d‟un processus est la suivante.
72
ou de façon équivalente :
( ) {
( , ( ,
( )
On retrouve alors la forme réduite évoquée dans l‟exemple précédent puisque, les processus
sont respectivement définis en fonctions de leur passé et du passé des processus
Pour . Par exemple, pour on obtient, t Z :
4. Conditions de stationnarité
La définition de la stationnarité d‟ordre deux (ou stationnarité du second ordre) est identique à
celle du cas des processus univariés.
‖ ‖
73
Lorsque l‟on considère un processus on peut démontrer que ces conditions de
Stationnarité reviennent à imposer des conditions sur les racines du déterminant du polynôme
matriciel
| |
proposition 1.4. Un processus vectoriel {Xt,t Z}, de dimension (n,1), statisfaisant une
représentation VAR(p) telle que t Z :
est stationnaire si et seulement si les valeurs propres de l‟application linéaire Φ(L), notée
̃ , sont toutes inférieures à l‟unité en module. Ces valeurs propres satisfont
l‟équation caractéristique associée :
| ̃ ̃ ̃ |
|̃ | 4
D t t t ’ b ’ e du processus
74
t
( )
On pose
( ) ( )
( )
Alors le processus t f ’ t f ̃
satisfaisant une représentation VAR(1) tel que :
̃ ̃
75
( )
fi fi
( ) ( )
On a alors :
( ) ̃
( )
( ) [ ( ̃) ( ̃ )]
La log- b ’ V R ’ t
∑ [ ( )]
∑[ ( ̃) ( ̃ )]
x t tt b t ’ bt t t
convergents des paramètres t t t
76
Une procédure type consiste à estimer tous les modèles VAR pour des ordres p allant de 0
à t fix f ç bt b etards maximum pour la taille
’ t b t x tb t
une intuition économique). Pour chacun de ces modèles, on calcule les fonction AIC(p) et
SC(p) de la façon suivante :
[ ̂]
[ ̂]
T t b ’ b t b b tè ̂ la matrice de
variance covariance des résidus estimés du modèle.
6.3. Prévisions
6.3.1. ’ V R
Consi ’ è V R t
S ’ ’ t t T t
’ t t t ̂ de t ’ t mateur convergent ̂
de f t ’ bt t à t T
processus est donc naturellement donnée par :
̂ ̂ ̂
’horizon T +2, on a :
̂ ̂ ̂ ( ̂ )̂ ̂
Proposition 3.1 D ê f ç à z ’ V R t
par :
̂ ( ̂ ̂ ̂ )̂ ̂
Dè ’ ’ t f
77
P fi t b t b tt
t ’ t
[( ̂ )( ̂ )| ]
[( )( )]
∑ ( )
[( ̂ )( ̂ )| ] ∑ ( )
’ V R
’ ’ bt tt è f tà t t t
V ’ V R ’ E ff t est un processus stationnaire,
t ’ f
Dè ’ ’ t f
P fi t b t b tt
t ’ on est donc :
[( ̂ )( ̂ )| ]
78
∑
Proposition 3.3. P V R t ’
de prévision à un horizon h est déterminée par la relation :
[( ̂ )( ̂ )| ] ∑
7. La causalité
U t ’ t à t ’ V R t ’ x t
t t t ff t b tè I x t
fi t t
• t G
• t S
( *
D tt fi t
Corollaire 7.2. On dit que la variable ne cause pas la variable au sens de Granger, si et
seulement si :
79
De façon équivalente, on dit alors que la variable y est exogène au sens des séries
temporelles.
t ’ V R
Pour un VAR(p) avec n =2la condition de la causalité au sens de Granger est immédiate à
obtenir.
( * ( * . /( * . /( *
. /. / . /
E ff t tt t
( * ( * . /( * . /( *
. /. / . /
Dès lors,
On a bien alors :
80
8. C t t t è àC t ’E
8.1. Cointégration
R fi t ’ t
C ’ x t
Cette combinaison est elle aussi stationnaire. On dit que les processus et
( )sont cointégrés de vecteur . Bien entendu, toute transformation
monotone du vecteur t ’ bt t t t t C’ t
pourquoi le vecteur constitue en f t b ’ t t
t t t ’ à t t t
b ’ t t t fi t t
stochastiques communes. Bien entendu, les t ’
cointégration peuvent à tout moment ne pas satisfaire cette relation. Mais ces variables ne
t b t ’ t O t t t ’EC è à
C t ’E
81
8.2. Représentation VECM
8. è àC t ’E EC
I ’ t è t t t t t tt
une cible de long terme (la relation de cointégration) et une représentation dynamique de
tt ’ j t nt à cette cible).
R ’ x t
C ’ t :
[ ]
C tt è t tt t t EC E ff t, la dynamique du taux
de croissance de est déterminée par une cible de long terme (la relation de
cointégration ( ). Si il existe un écart positif à la période par rapport
à cette relation de long terme, alors le coefficient négatif devant la relation de long terme
t t x à la date . On dit que le
ffi t tt f E fi t è
est représenté par la partie .
D fi t . On considère N processus t ’ t f t
t t t t t αt b aison linéaire :
soit stationnaire. Alors il existe une représentation ECM pour chaque processus
tel que :
∑ ∑ ∑
ffi t t f ’EC
82
S ffi t devant le résidu de la relation de cointégration est positif ou nul, la
t t EC ’ t pas valide.
Et t O è fi t à t t tb ’êt
VECM :
D fi t S t t f t
83
alors il existe r relations de cointégration et la représentation VECM est valide :
avec
Ce test est fondé sur les vecteurs propres correspondant aux valeurs propres les plus
t N ne présenterons ici que le test de la trace. A partir des
t t t t t t
1. Test . Test de ’ t è t
cointégration contre au moins une relation. Si est supérieur à la valeur lue dans
la table au seuil j tt H x t t à ’ t
suivante, sinon on arrête et .
2. Test T t ’ t è t t t
contre au moins deux relation. Si est supérieur à la valeur lue dans la table au
seuil , on rejette , il existe au moins une re t à ’ t t
sinon on arrête et r =1.
Et t j ’à è t t
1. Test T t ’ t è relation de
cointégration contre au moi N t S est supérieur à la valeur lue
t b α j tt H x t N t f t N
variables sont I(0)) sinon . Sous Eviews vous disposez directement des valeurs
pour ainsi que les seuils tabulés par Johansen.
84
Chapitre IV
ESTIMATION NON-
PARAMETRIQUE D’UNE FONCTION
DE REPARTITION ET D’UNE
DENSITE
Introduction
Les estimateurs non-paramétriques classiques ont été introduits par Rosemblatt pour estimer
des densités de probabilité, par Parzen pour estimer le mode une densité de probabilité et par
Nadaraya Watson pour estimer une fonction de régression. Ainsi l‟objectif de ce chapitre est
de définir les estimateurs à noyau associé et d'établir leurs propriétés asymptotiques.
86
1. La fonction de répartition empirique
et
la statistiques ordonnées,
∑
{
On a :
( ) ( ∑ + ∑
Variance de l‟estimateur
( ) ( ) ( ) ( )
( ) 6 ∑∑ { }7
6 ∑ ∑ { } 7
( )
4
( )→ Pour tout
87
La loi des grands nombres nous donne
→ Presque partout
̂ ∑
Pour tout
Nous constatons que l‟histogramme a de mauvais inconvénients, il n‟est robuste ni pour le
choix du paramètre de lissage , ni pour celui de . Le deuxième désavantage est sa
discontinuité qui ne peut pas s‟adapter au cas où , la densité à estimer, vérifie certaines
hypothèses de régularité.
88
2.2 L’estimateur à noyau
̂ ∑
̂ ∑ ( *
Avec
Dans ce même article, Rosenblatt a mesuré la qualité de cet estimateur, en calculant son biais
et sa variance, donnés respectivement par :
(̂ ) ( )
( )
89
̂
4
quand , on a :
et
̂ est un estimateur consistant. Nous remarquons qu‟il n‟a pas le problème du choix
d‟origine comme le cas de l‟histogramme mais il présente l‟inconvénient d‟être discontinu
aux points
Ainsi une généralisation de cet estimateur a été introduite par Parzen (1962) en posant
̂ ∑ ( *
K est une fonction mesurable définie de , appelée noyau, le paramètre de lissage (la
fenêtre)
90
2.2.2 Quelques formes des noyaux
Kernel
Uniform
Triangle
Epanechnikov
Quartic
Triweight
Gaussian x
√
Cosinus
91
2.2.4 Expressions du biais et de variance de ̂ :
̂ ∑ ( * ∑
( *
Si est dérivable et si sa dérivée est continue et bornée sur , alors est dérivable est sa
dérivée est continue et bornée sur on a :
On veut généraliser cette définition à la convolution par des mesures. A cet effet, pour toute
fonction telle que est intégrable pour presque tout , on définit
[̂ ]
92
Pour la variance on calcule
(̂ ) (̂ ) (̂ )
( ∑∑ ( ),
’ t ’ t t à :
̂ ̂
(̂ ) [ ̂ ]
( *
’ x x t ’ t t ISE t êt bt
à partir de
̂ ∫ (̂ )
est égale à
(̂) ∫ ( *∫
∫ ∫
93
Comme
∫ ∫ {∫ }
∫∫
∫ {∫ }
Nous trouvons
(̂) ∫ ( *∫
∫ ∫
Malgré le fait qu‟on ait des expressions exactes pour ( ̂) et ( ̂), ces expressions
ne sont pas très attrayantes, car elles dépendent de manière très complexe du paramètre de
lissage Pour cette raison on cherche des expressions asymptotiques qui pourraient dépendre
de de manière plus simple.
[̂ ] ∫
[̂ ] ∫
∫ ( *
Par Taylor
∫ ∫ ∫
∫ ∫ ∫
94
Alors
{̂ } ∫
Comme
(̂ )
et
∫ ( )
∫ ∫
(̂ ) ∫
On pose
Donc
(̂ )
(̂ ) ( *
Si (̂ )
Si (̂ )
95
Remarquons que
(̂ ) ∫ ( *
4
S t ’ t b t et ses dérivées.
(̂ )
4
Et l‟approximation asymptotique de la par
(̂ )
4
2.2.7 Choix théoriques optimaux du paramètre de lissage
̂ ∑ ( *
̂ ∑ ( *
96
Une approximation asymptotique de est donnée par ,
la valeur de qui minimise ̂ .
⁄
2 3
Et
⁄
2 3
c‟est-à-dire
(̂ )
Et
(̂ )
⁄
2 3
Les choix et sont des choix théoriques, qui ne sont pas utilisables en pratique
car ils dépendent des quantités inconnues . Nous allons maintenant
décrire quelques choix optimaux pratiques pour un paramètre de lissage constant et un
paramètre de lissage variable (local).
⁄
2 3
97
Supposons que appartient à une famille de distributions normales , de moyenne
et variance inconnues. Alors
( ), avec
√
La densité de probabilité normale
et
( )
∫ ∫. ( */
∫( )
8∫ ∫ ∫ 9
Posons √ √
8 ∫ ∫ 9
√ √
{ √ √ }
4
√
4 √
98
√ ⁄
2 3
̂ √ ⁄
2 3 ̂
L‟écart-type empirique
√ ∑( )
4
Où est la fonction de répartition d‟une normale réduite.
Remarquons que ( ) ( ) est l‟écart interquartile d‟une variable aléatoire
normale réduite.
La motivation pour la standardisation utilisant cette quantité est simple:
Si X , alors et
. ( * ( */
4 4
. ( * ( */
4 4
( ( * ( * *
4 4
Alors
L‟écart interquartile de est
F ( * F ( * [ ( * ( *]
4 4 4 4
99
Ce qui justifie l‟estimateur proposé.
̂ √ ⁄
2 3 ( *
4
noyau Gaussian
√
̂ ( * ⁄
4
noyau Epanechnikov
̂ 4 ( * ⁄
4
100
Nous supposons que est le noyau d‟Epanechnikov. Ce noyau est considéré comme une
référence par rapport à tous les autres noyaux continus classiques. Il est largement apprécié
pour ses performances (au sens où la forme répond bien à la plupart des questions soulevées
par le problème de l‟estimation non paramétrique de densité) et il est considéré comme
optimal au sens des mesures d‟erreur. Il offre la valeur d‟éfficacité maximale. Nous nous
sommes appuyés sur les travaux de Tsybakov (2004). Ainsi, après avoir fait les calculs
nécessaires. L‟efficacité d‟un noyau par rapport au noyau d‟Epanechnikov se mesure par
√ √∫ ∫
Le choix de dépend seulement de la nature de et nous admettons qu‟en pratique le choix
du noyau d‟Epanechnikov est le plus satisfaisant. Nous donnons le tableau récapitulatif (tab
2.2 ) qui présente la valeur d‟efficacité des différents noyaux continus symétriques.
Noyau Efficacité
Epanechnikov 1.000
Biweight 0.994
Normal 0.951
Uniform 0.930
Commentaire :
Dans le cas des noyaux continus symétriques, nous remarquons que les valeurs d‟efficacité
des noyaux tels que noyau Biweight, Triangulaire ou Epanechnikov sont très proches. Pour
conséquent, le choix du noyau n‟est pas très important.
101
APPLICATION
102
I. ANALYSE DE LA SERIE DZ
a) Données
Les données de taux change euro/dinar ont été extraites
du site du ministère des finances.
Les données sont la moyenne des fins de mois allant du 1
Janvier 2001au 31 décembre 2014 soit un total de 168
observations.
Tout au long de ce projet nous allons réaliser des tests
statistiques. Nous avons fixé un niveau de confiance de
95%.
b) Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il
semblerait que cette série soit non stationnaire. En effet la moyenne et la variance ne
sont pas constantes pour tout intervalle de temps donné.
Par ailleurs nous pouvons remarquer que la série connait des chocs stochastiques qui
s‟accumulent au cours du temps ce qui augmentent la variance du processus au fur et
à mesure que le temps passe. Il est toujours nécessaire de tester l‟hypothèse de
stationnarité ou de non stationnarité par un test adapté que nous verrons par la suite.
103
c) Corrélogramme
Commentaire :
Le corrélogramme de la série nous montre que la série est caractérisé par un
processus non stationnaire. En fait, les pics du corrélogramme décroissent très
faiblement. Les séries non stationnaires connaissent ce phénomène. Par ailleurs la
fonction d‟autocorrélation partielle (PAC) indique le coefficient d‟autocorrélation
entre le cours de l‟indice à un instant donné en fonction d‟un cours passé sans tenir
compte de l‟influence des autres cours précédents. Ici nous pouvons
voir que seul le premier terme est significativement différent de zéro (l‟intervalle de
confiance est stylisé par les pointillés).
On va vérifier à l‟aide du test de Dickey-Fuller que cette série n‟est pas stationnaire
104
d) Test de stationnarité (test de Dickey-Fuller)
Les tests d‟ADF, confirment notre intuition, la série n‟a pas de racine unitaire, la
tendance et la constante sont toutes significatives
105
e) Modélisation la série DZ/€
a) Retirer la tendance
106
TEST DE LA RACINE UNITAIRE DE DZST
On accepte donc l‟hypothèse alternative selon laquelle la série DZST est stationnaire
11.1525 11 43.058%
107
f) Estimation du modèle linéaire
108
Commentaire :
Nous pouvons observer ici que les p-values associées aux statistiques de Ljung-Box
sont supérieures à 5%. Nous pouvons donc accepter l‟hypothèse de nullité des
autocorrélations des résidus.
Commentaire :
Le corrélogramme des résidus au carré montre que les résidus sont
hétéroscédastiques. En fait toutes les p-values sont inférieures à 5% nous concluons
que les résidus sont hétéroscédastiques.
109
h) Test de ARCH
Commentaire :
Le test ARCH nous confirme cela, nous pouvons donc conclure que nos résidus sont
hétéroscédastiques mais non autocorréles. Ce sont des bruits blancs. Qui ont une
variance conditionnelle qui change dans le temps.
Nous pouvons conclure que le taux change dinar\ euro est une marche aléatoire
hétéroscedastique.
i) Estimation de modèle
110
Correlogramme des résidus du modèle AR (1)
111
A partir de la représentation graphique des séries résiduelle, réelle et estimée nous
constatons que le modèle estimé ajuste bien la série dzst.
j) Equation du modèle
8 √
112
Graphe de la série modèle ajusté noté NDZ et la série DZ
113
Prévision
114
II. ANALYSE DE LA SERIE USD
k) Données
Les données de taux change euro/usd ont été extraites du
site de la banque de France.
Les données sont la moyenne des fin de mois allant du 1
Janvier 2002au 31 décembre 2012 soit un total de
132observations.
Tout au long de ce projet nous allons réaliser des tests
statistiques. Nous avons fixé un niveau de confiance de
95%.
l) Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il semblerait
que cette série soit non stationnaire. En effet la moyenne et la variance ne sont pas
constantes pour tout intervalle de temps donné. Par ailleurs nous pouvons remarquer que la
série connait des chocs stochastiques qui s’accumulent au cours du temps ce qui
augmentent la variance du processus au fur et à mesure que le temps passe. Il est toujours
nécessaire de tester l’hypothèse de stationnarité ou de non stationnarité par un test adapté
que nous verrons par la suite.
115
Nous avons calculé le logarithme afin de stabiliser la variance
Graph de la série
Corrélogramme de la série
116
Le corrélogramme simple présente une décroissance linéaire lente et nous remarquons que
n‟est significative, la série possède une racine unitaire (on accepte l‟hypothèse nulle “ 0
“) donc la série est non stationnaire dans le modèle [3].
117
Modèle [2] :
On a remarqué que la série est stationnaire dans le modèle [2], avec significativité de la
constante
Modèle [1]
la série possède une racine unitaire (on accepte l‟hypothèse nulle “ 0 “) donc la série est
non stationnaire de type ; la série peut être affecté une saisonnalité
118
Test présence de saisonnalité
119
Stationariation de la série noté
120
Modélisation de la série DLusd
121
Correlogramme des résidus du modèle
122
Représentation de modèle
4
123
III. ANALYSE DE LA SERIE jpy
m) Données
Les données de taux change euro/jpy ont été extraites du
site banque de France.
Les données sont la moyenne des fins de mois allant du 1
Janvier 2002au 31 décembre 2012 soit un total de
132observations.
Tout au long de ce projet nous allons réaliser des tests
statistiques. Nous avons fixé un niveau de confiance de
95%.
n) Etude Graphique
124
Corrélogramme
Commentaire :
Le corrélogramme de la série nous montre que la série est issue d’un
processus non stationnaire.
On va vérifier à l’aide du test de Dickey-Fuller que cette série n’est pas
stationnaire
125
Les tests d‟ADF, confirment notre intuition, la série présente une racine unitaire, sur
la série logarithmes de noté
126
Modélisation de la série DSDLJPY
127
Correlogramme des résidus du modèle
128
Commentaire :
Nous pouvons observer ici que les p-values associées aux statistiques de
Ljung-Box sont supérieures à 5%. Nous pouvons donc accepter
l‟hypothèse d‟absence d‟autocorrélation des résidus.
4 44
4
129
Graphe de modèle ajusté noté ( ) est la série
130
IV. ANALYSE DE LA SERIE (GBP)
Données
Les données de taux change euro/dinar ont été extraites
du site du ministère des finances.
Les données sont la moyenne des fins de mois allant du
Janvier 2001 à décembre 2014 soit un total de 168
observations.
Tout au long de ce projet nous allons réaliser des tests
statistiques. Nous avons fixé un niveau de confiance de
95%.
Etude Graphique
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il
semblerait que cette série soit non stationnaire.
131
Graphe de la série
Corrélogramme de la série
132
Commentaire :
Le corrélogramme de la série nous montre que la série est
caractéristique d’un processus non stationnaire. En fait, les pics du
corrélogramme décroissent très faiblement. Les séries non stationnaires
connaissent ce phénomène. Par ailleurs la fonction d’autocorrélation
partielle (PAC) donne le coefficient d’autocorrélation entre le cours de
l’indice à un instant donné en fonction d’un cours passé sans tenir
compte de l’influence des autres cours précédents. Ici nous pouvons
voir que seul le premier terme est significativement différent de zéro
(l’intervalle de confiance est stylisé par les pointillés).
On va vérifier à l’aide du test de Dickey-Fuller que cette série n’est pas
stationnaire
Les tests d‟ADF, confirment notre intuition, la série présente une racine
unitaire,
133
Graphe de la série
Corrélogramme de la série
134
Corrélogramme de carrée la série noté
Commentaire :
Les valeurs de la série sont non corrélées, alors la série est un bruit blanc. D’autre
part, les valeurs au carré sont corrélées. L’allure du graphe des résidus au carré nous a suggéré un
modèle à changement de régimes.
135
Donc le modèle de la série carrée de s'écrit comme suit :
Présentation de modèle
Le modèle s’écrit :
Tel que :
136
√
Le modèle s’écrit :
137
Corrélogramme des carrés des résidus du modèle
Commentaire :
Nous pouvons observer ici que les p-values associées aux corrélations
empiriques sont supérieures à 5%. Nous pouvons donc accepter
l‟hypothèse d‟absence d‟autocorrélation des résidus.
On accepte le modèle
138
Test de normalité des résidus
̂ ∑ ( *
K(u)=√ x ( )
139
C’est l’estimation de la densité des innovations par la méthode du noyau
140
V. Etude multivariée des séries (usd, jpy) :
Dans cette partie nous analysons la série chronologique multivariée qui est
mensuelle et couvre la période allant de Janvier 2002 à Décembre 2012. Elle est composée
des deux séries
Les processus et étant stationnaires, il est possible de les modéliser par le processus
141
Recherche de l’ordre du modèle VAR :
La première étape consiste à déterminer l‟ordre p du processus VAR à retenir, à cette fin nous
avons estimé pour commencer divers processus VAR pour des ordres de retards p allant
de 1 à 8, nous devons donc retenir celui dont les critères de Akaike (AIC) et de Schwarz
(SC) sont les plus faibles.
C'est à partir de l'ordre p=3 que les résidus du modèle proposé se confondent avec un bruit
blanc et ne contiennent donc plus d'informations susceptibles d'expliquer encore l'évolution
du processus.
Pour p = 3 Nous avons : AIC (p) = 0.836413 et BIC (p) =1.56499.
142
Estimation du modèle VAR (3) :
a10
Où A 0 0 représente l‟estimation de la constante et les A p (p =1, 2,3) sont des matrices
a 2
a11 p a12p
carrée d‟ordre 2 tel que A p = 1 les aijp (i,j =1,2) représentent les coefficients
a 2 p a 2 p
2
143
Mais lorsque nous avons estimé les paramètres du modèle VAR(3) avec constante nous avons
remarqué que la t-statistique de la constante est inférieure à 1.96 ; donc la constante n'est pas
significative, pour cela nous sommes passés à l'estimation d'un modèle VAR(3) sans
constante qui s'écrit sous la forme suivante:
( * ( *( * ( *( *
4
( )( * . /
Validation du modèle :
144
Test sur les racines :
Les racines des polynômes autorégressifs des deux séries sont supérieures en module à 1, car
leurs inverses calculés par Eviews sont tous inférieurs à 1, ainsi les conditions de stationnarité
et d‟inversibilité sont vérifiées.
145
Corrélogramme des résidus de la série Corrélogramme des résidus de la série
146
Graphe de modèle ( )
Causalité entre
Cela confirme le fait que le dollar américain reste une monnaie de référence
147
Conclusion générale
Dans ce travail, nous avons tenté de modéliser des séries de taux change qui présentent dans
leur ensemble une tendance. La méthode de cointégration s‟est révélée inopérante. Si les
modèles linéaires se sont bien adaptés à l‟évolution de certaines séries, pour une autre, qui se
comporte comme une marche aléatoire mais dont les carrés des résidus sont corrélés, un
modèles MS-ARCH(1) a été appliqué.
Nous avons, aussi, étudié les interrelations pouvant exister entre deux séries à travers un
modèle VAR.
[3] Aleksandre B Tsybakov. Paris [u.a.] : Springer, 2003. Introduction à l'estimation non-
paramétrique
[4] Ashwin, G.M., Bhavesh, K.P. and Nikuni, R.P. (2010). The Study on Co-Movement of
Selected Stock Markets. International Research Journal of Finance and Economics,
47, 1450-2887.
[7] Bibi, A and Aknouche, A. (2010). Stationnarité et -mélange des processus bilinéaires
superdiagonaux à changement de régimes Markovien, Comptes Rendus de l'Acadimie
des sciences. A paraitre.
[8] Brockwell, P.J. and Davis, R.A. (2002). Introduction to time series and forecasting.
Springer-Verlag, New York.
[10] Christophe HURLIN. (2008). Tests de Non Stationnarité et Processus Aléatoires Non
Stationnaires. Econométrie Appliquée Séries Temporelles
148
[13] Durand, J.B. (2003). Modèles à stucture cachée : inférence, estimation, sélection de
modèles et application. Thèse de Doctorat. Université de Joseph Fourier.
[15] Goldfeld, S.M. and Quand, R.E. (1973). A Markov model for switching regressions.
Journal of econometrics, 3-16.
[16] Lancaster, P. and Tismenetsky, M. (1985). The theory of matrices. A cademic Press,
New York.
[17] Mélard, G. Roy, R. (1988). Modèles des series chronologiques avec seuil. Statistiques
appliquée, 4, 5-24.
[20] Perraudin, C. (2002). La prise en compte de ruptures dans l'évolution des variables
économiques: Les modèles à changement de régimes. Technical report. Université
Paris I.SAMOS-MATISSE et EUREQua.
149