CS 02417

• .
UNIVERSITE GASTON BERGER DE SAINT, LOUIS

UER DE MATHEMATIQUES APPLIQUEES
ET D'INFORMATIQUE
~ ~
THESE DE DOCTORAT DE TROISIEME CYCLE
Spécialité
, ,
MA THEMATIQUES APPLIQUEES
Présentée par
,
Fodiyé Bakary DOUCOURE
,,' ,
PROBLEMES DE PREDICTION DANS LES MODELES
~
DE SERIES CHRONOLOGIQUES LINEAIRES ET NON

.
LINÉAIRÈS À TEMPS DISCRET
Soutenue le 17 Janvier 1998
Devant le jury composé:
M. Chérif BADJI Président (Professeur, UCAD)

,
Mme Dominique GUEGAN Directeur de Thèse (Professeur, Université
Paris 13, ENSAE)
M. Denis BOSQ Rapporteur (Professeur, Université
Paris 6)
M. Gane Samb LO Examinateur (Maître de Conférences,
UGBSL)
M. Richard EMILION Examinateur (Chargé d'Enseignements,
UCAD)
M. Sada Sory THIAM Invité (Maître Assistant, UCAD)
1 CONSEI-l- AFRICAIN ET MAlGACH
! POUR l'ENSEIGNEMENT SUPERIEU
C. A. M. E. S. - OUAGADOUGOI
!\ Arrivée .' 21· OCt· Z001· ....
i Enregis:é. ~~_~~~,o~ll.P
. .
A mes Parents qui m'ont donné

le goût de l'effort et du travail
REMERCIEMENTS
Je tiens d'abord à exprimer ma profonde gratitude et mes plus vifs

remerciements envers Monsieur le Professeur Denis BOSQ et envers
Madame le Professeur Dominique GUÉGAN qui par leurs soutiens.
leurs encouragements et leurs conseils m'ont permis de mener à bonne
fin cette thèse. Ils ont en outre fait montre d'une très grande disponibilité
et d'un très grand dévouement.
Je suis très reconnaissant à Monsieur le Professeur Galaye DIA

pour l'intérêt qu'il a porté à ce travail. Il me fait l'honneur de présider
le jury de cette thèse.
Monsieur le Professeur Denis BOSQ a bien voulu rapporter cette

thèse. Il a lu le manuscrit avec soin et intérêt. Ses remarques
enrichissantes m'ont permis d'en améliorer la qualité. Qu'il trouve ici
l'expression de ma très grande considération.
Je remercie vivement Messieurs Gane Samb LO. Richard EMILION

et Sada Sory THlAM pour l'intérêt qu'ils ont porté à mon travail en
acceptant de participer au jury.
Je remercie vivement ma famille. mes collègues et tous mes amis

à qui je dois beaucoup. Leur soutien moral et matériel pendant ces
années de recherche est inappréciable.
Je suis particulièrement reconnaissant à Madame Elisabeth

NDOUR BASSE pour sa disponibilité et sa gentillesse. Je la remercie
pour tout le travail qu'elle a fourni pour cette frappe. ainsi que
Mademoiselle Rokhyatou DOUCOURÉ. pour le soin et la minutie
qu'elle a mis à reproduire cette thèse.
Je ne saurais terminer sans exprimer mes amitiés à mes collègues

du groupe de Probabilités-Statistiques de l'Université Paris 13. ainsi
qu'à ceux du Laboratoire de Statistiques Théoriques et Appliquées de
l'Université Paris 6.
TABLE DES MATIÈRES
TABLE DES MATIERES
1· Introduction 4
II • Prédiction des processus linéaires et non linéaires 8
2.1. Introduction 9
2.2. Processus univariés 10
2.2.1. AR(p) 11
2.2.2. ARMA(p, q) 15
2.2.3. ARIMA(p, d, q) 24
2.2.4. RCA(p) 27
2.2.5. BL(p, q, P, Q) 33
2.2.6. GARCH(p, q) 33
2.2.7. AR(p) avec bruit ARCH(p) .41
2.2.8. Modèle ARMAX 45
2.2.9. FARMA(p, d, q) 57
2.3. Processus multivariés 63

2.3.1. AR(p) 63
2.3.2. ARMA(p, q) 67
2.3.3. RCA(p) 71
2.4. Conclusion , " 75
III . Erreur de prédiction dans un modèle erroné 76
3.1. Introduction 76
3.2. Modèles considérés 77
3.2.1. Processus univariés 78
3.2.1.1. ARIMA(p, d, q) 78
3.2.1.2. FARMA(p, d, q) 91
3.2.1.3. BL(p, q, P, Q) 95
1
3.2.1.3. BL(p, q, P, Q) 95
3.2.1.4. RCA(p) 102
3.2.1.5. AR(p) avec bruit ARCH(p) 106
3.2.1.6. ARCH(p) 107
3.2.2. Processus multivariés linéaires l0S
3.3. Intervalle de prédiction dans un modèle erroné 1l5
IV • Sélection de méthodes par le critère de l'erreur quadratique

moyenne de prédiction 121

4.2. Définitions des prédicteurs 122
4.2.1. Prédicteur naïf
4.2.2. Prédicteur moyenne mobile simple
4.2.3. Prédicteur lissage exponentiel simple
4.2.4. Prédicteur lissage exponentiel double
4.2.5. Prédicteur combiné
4.2.6. Prédicteur espérance conditionnelle
4.3. Erreur quadratique moyenne de prédiction 125

4.4. Comparaisons des erreurs quadratiques 136
4.4.1. Modèles ARMA 136
4.4.2. Modèles ARCH 142
V • Simulations et Analyse des résultats 147

5.2. Simulations du chapitre 111. 147
5.2.1. Simulations 147
5.2.2. Conclusions 159
2
5.3. Simulations du chapitre IV 160
5.3.1. Simulations 160
5.3.2. Conclusions 172
Annexes
A .1. Concepts fondamentaux 174

A.1.1. Processus stochastiques et séries chronologiques 174
A.l.2. Stationnarité 175
A.l.3. Inversibilité 177
A.2. Produit de Kronecker de matrices et Opérateurs Vec et R 178

A.2.1. Produit de Kronecker de matrices 178
A.2.2. Opérateur Vec ("Stacking" operation) 179
A.2.3. Opérateur R (Row) 180
Bibliographie générale 181
3
Chapitre 1 . INTRODUCTION
L'étude et l'analyse des séries temporelles est fondamentale quant à leurs

utilisations dans de nombreux domaines tels que l'économie, la finance,
l'économétrie, la médecine, la science politique, la météorologie, l'hydrologie,
l'histoire, etc...
Dans tous les domaines précités, les séries chronologiques observées

peuvent être considérées comme des réalisations de processus stochastiques
[Xj, t E Tl. c'est-à-dire de suites de variables aléatoires définies sur un même
espace n, appelé espace fondamental ou espace des états de la nature. Dans tous
ces domaines aussi, il est très utile de pouvoir prédire le futur c'est-à-dire le
temps t + h, connaissant le passé jusqu'au temps t, t et h étant respectivement
l'origine et l'horizon de la prédiction. Rappelons à cet effet que le recours à un
processus stochastique {Xj, t E Tl. dans un but de prédiction nécessite un
traitement préalable dont la paternité est attribuée à Box et Jenkins (1970). Leur
procédure peut être résumée comme suit :
Stationnariser t--~ Identifier I-~I

En estimer les ~~
la série un modèle paramètres
Non
On change
le modèle Prédiction
Dans la pratique, le modèle identifié ne correspond pas généralement au

véritable modèle généré par les observations, ceci peut être du par exemple au
4
fait que les corrélogrammes observés ne permettent pas toujours un choix évident
de modèle.
Un important problème qui se pose alors dans l'étude et l'analyse des

. processus est celui de l'erreur de prédiction qui a lieu quand on prédit à partir
d'un modèle erroné.
Dans la première partie de ce travail, nous nous proposons d'étudier d'un

point de vue théorique les différents types d'erreurs que l'on peut observer à
partir d'un certain nombre de modèles identifiables. Les modèles identifiables
retenus appartiennent aux classes de modèles telles que ARIMA (Box et Jenkins,
1970), FARMA (Granger et Joyeux, 1980 ; Hoskins, 1981) Bilinéaire (Granger
et Anderson, 1978), RCA (Nicholls et Quinn, 1982), ARCH (Engle, 1982),
ARMA-ARCH (Weiss, 1984).
Dans la deuxième partie de ce travail, nous utilisons le critère de l'erreur

quadratique moyenne de prédiction pour comparer la performance de différentes
méthodes de prédiction sur les classes de modèles retenues précédemment. Les
prédicteurs retenus dans cette partie sont le prédicteur naïf, le prédicteur
moyenne mobile simple, le prédicteur lissage exponentiel simple, le prédicteur
lissage exponentiel double, le prédicteur combiné et le prédicteur espérance
conditionnelle par rapport aux valeurs passées.
Cette thèse est composée de quatre parties, chacune d'elle comprend une
introduction, la bibliographie est générale et se trouve à la fin du cinquième
chapitre.
Dans le chapitre II, nous rappelons les résultats obtenus par différents
chercheurs depuis quelques années concernant la prédiction de processus à temps
discret. Nous en profitons pour exposer un résultat que nous avons établi sur
5
l'erreur quadratique moyenne asymptotique de prédiction du modèle de
régression avec bruit autorégressif à coefficients aléatoires (RCA).
Dans le chapitre III, nous étudions le problème de l'erreur de prédiction

dans un modèle erroné. Ce problème a été étudié par quelques auteurs. Notre
étude diffère des études précédentes dans le sens où elle est plus globale et
concerne des modèles (Bilinéaire, RCA, ARMA-ARCH et FARMA) qui n'avaient
pas été étudiés de ce point de vue jusqu'à présent. Les résultats obtenus dans ce
chapitre indiquent que :
- les modèles autorégressifs (AR) peuvent être utilisés avec succès pour
prédire les données générées par des processus bilinéaires (BL), autorégressifs
avec coefficients aléatoires (RCA), ARCH, autorégressifs avec bruit (AR-ARCH)
et FARMA(O, d, 0) ;
- les modèles autorégressifs moyennes mobiles (ARMA) sont adéquats à
leur tour pour prédire à long terme des données générées par un processus
FARMA(p, d, q).
Dans ce chapitre, nous mettons aussi en évidence l'importance de l'horizon

de prédiction quand on utilise un modèle erroné à la place du modèle
correctement identifié.
Le chapitre IV est consacré à la sélection de méthodes par le critère de

l'erreur quadratique moyenne de prédiction. Dans ce chapitre nous utilisons le
critère de l'erreur quadratique moyenne de prédiction pour comparer la
performance de différentes méthodes de prédiction sur des classes de modèles
telles que: ARMA, RCA, BILINEAIRE, ARMA-ARCH et FARMA. L'étude
menée montre pourquoi certaines méthodes sont plus précises que d'autres sur de
tels modèles. Nous mettons-ainsi en évidence que pour certains modèles des
6
méthodes intuitives comme la moyenne mobile simple sont meilleures que les
méthodes quantitatives.
Dans le chapitre V, nous donnons quelques résultats obtenus par

simulation. Nous utilisons le logiciel Maple V pour les différents calculs
effectués. Ces résultats sont convaincants et permettent d'illustrer les résultats
théoriques obtenus dans les chapitres 3 et 4.
Le chapitre 4 a été publié dans la Revue de Statistique Appliquée (RSA).

(F.B. Doucouré, 1996).
7
Publications
[1] Régressogramme mobile de processus chaotiques, 1993, Communication

personnelle.
[2] Sélection de méthodes par le critère de l'erreur quadratique moyenne de

prédiction, 1996, Revue de Statistique Appliquée, Vol. 3, pp 27-45.
[3] Propriétés stochastiques des séries macroéconomiques sénégalaises.

(en préparation en coll. avec Diéry Seck, C.R.D.I., Sénégal)
[4] Prediction error in regression models (en préparation)
Séminaires
Mars. 1994 Séminaire d'initiation à la statistique des processus, FASEG,

CREA, UCAD : Prédiction de processus linéaires et non
linéaires.
Mars. 1995 Séminaire d'initiation à la statistique des processus, FASEG,

CREA, UCAD : Tests de séries temporelles (Racine Unité,
Cointégration, Causalité).
Nov. 1996 Séminaire en Probabilités - Statistiques, LAGA, Institut Galilée,

Université Paris 13 : Erreur de prédiction dans un modèle
erroné.
8
Chapitre 2 • PRÉDICTION DE PROCESSUS LINÉAIRES
ET NON LINEAIRES
2.1.· Introduction
L'un des objectifs principaux, en statistique des séries temporelles, est la

prédiction. Le recours à un modèle stochastique du type ARIMA, dans un but de
prédiction nécessite un traitement préalable dont la paternité est attribuée à Box
et Jenkins (1970). Leur procédure peut être résumée comme suit :
Identification ••••• > Estimation .•••• > Adéquation ••••• > Prédiction
Dans ce chapitre, on préseente l'état actuel des connaissances concernant les

résultats obtenus par différents chercheurs sur la prédiction de processus
linéaires et non linéaires à temps discret.
Dans la littérature, de nombreuses études ont été effectuées sur la
prédiction des modèles linéaires et non linéaires : on peut consulter par exemple
et sans vouloir être exhaustif les travaux de Davisson (1965), Box et Jenkins
(1970), Bloomfield (1972), Yamamoto (1975, 1976, 1981), Baillie (1979, 1980),
Ray (1983, 1988), Geweke et Porter-Hudak (1983), Peiris et Pereira (1988),
Baillie et Bollerslev (1992), Guégan (1992), Ray (1993).
Dans ce qui suit, on passe en revue les résultats de certaines de ces études :
nous considérons tout d'abord le cas où les paramètres des processus sont connus,
puis celui où les paramètres sont estimés. Ce rappel n'est certainement pas
exhaustif mais il permet de circonscrire les modèles que nous allons étudier dans
les chapitres 3 et 4. Dans ce chapitre, nous considérons uniquement le prédicteur
des moindres carrés Xt(h) défini de la manière
9
suivante: Xt(h) = E(Xt+h / Ft), où Ft = cr (X s ,s ~ t) , cr (.) désigne la tribu
engendrée par le passé et le présent du processus Xj, D'autres prédicteurs (naïf,
moyenne mobile simple, lissage exponentiel simple, lissage exponentiel double,
combiné) seront considérés dans le chapitre 4. Notre but est de pouvoir
déterminer les ou la méthodes optimales par le critère de l'erreur quadratique
moyenne de prédiction définie par :
V(h) = E [Xt+h - Xt(h) ]2, h>O (2.1.1.)
où Xt(h) représente le prédicteur obtenu à partir de l'une des méthodes précitées.
2.2.- Prédiction de processus linéaires et non linéaires
Dans ce paragraphe, on étudie la prédiction de différents modèles linéaires

et non linéaires. Pour chacun d'entre eux, nous donnons l'expression analytique
de la fonction de prédiction notée Xt(h) = E(Xt+h / Ft) et celle de l'erreur
quadratique moyenne de prédiction définie par (2.1.1.).
Pour certains modèles, nous considérons le cas où les paramètres sont

estimés et nous donnons l'expression analytique de l'erreur quadratique moyenne
asymptotique de prédiction définie par :
(2.1.2.)
où X, (h) représente le prédicteur utilisé quand les paramètres sont estimés. Dans
la suite, nous désignons par T la taille de l'échantillon utilisé pour estimer les
paramètres des modèles. Pour chacune des classes de modèles considérés, nous
traitons en détail des cas particuliers de modèles.
10
Ce paragraphe est organisé de la manière suivante : Dans la section 1~ nous
considérons les processus univariés et dans la section 2~ nous traitons le cas de
quelques processus multivariés.
2.2. Processus univariés

2.2.1. Processus autorégressifs (AR)
On appelle processus autorégressif d'ordre p un processus [Xj, t E Z}

vérifiant une relation du type
p
Xt =L <Pi Xt-i + Et ~ V t E Z (2.2.1.1)
i=l
où les <Pi sont des nombres réels et où Et~ t E Z est une suite de variables
aléatoires indépendantes équidistribuées, centrées et de variance finie cr2 .
La relation (2.2.1.1) peut aussi s'écrire
<p(B) X, = Et
où
p
<p(z) =1 - L <Pi z!
i =l
est le polynôme autorégressif d'ordre p associé à l'équation (2.2.1.1.).
Désignons par B l'opérateur retard défini sur les variables aléatoires par la
relation suivante :
Bh Xt = Xt-h , h E Z
Un tel processus est noté AR(p).
Il
Nous supposons que le processus AR(p) est stationnaire c'est-à-dire que les
racines du polynôme <1> sont de modules strictement supérieurs à un.
L'équation (2.2.1.1) se réécrit de la manière suivante : (Anderson, 1971)
f x, = A Xt-l + Ct (2.2.1.2)
\ x, = L' x,
où
X
t=[Xt,Xt-l, ... "
,X t- p+1l ,Ct=[êt,O, ... ,0]
L= [1,0, ... ,0]' ,et
<1>1 <1> 2 <1> 3 <1> p
1 0
A= 0
00010
On obtient l'expression de Xt+h en itérant l'expression (2.2.1.2.) :
h-l
Xt+h = ~ L'Ai L êt+h-i + L' Ah x, (2.2.1.3)
i =0
Le prédicteur des moindres carrés Xt(h) est donné par
(2.2.1.4)
où a'(h) = L' Ah.
L'erreur quadratique moyenne de prédiction est:
12
h-l
V(h) = E [ Xt+h - Xt(h) ]2 = 0' 2 L (L'Ai L)2 (2.2.1.5)
i =0
où A 0 = I p avec I p, la matrice identité de taille (p x p)
Lorsque les coefficients <Pi du processus défini en (2.2.1.1) ne sont pas

connus, on peut les estimer par la méthode du maximum de vraisemblance. Les
estimateurs du maximum de vraissemblance sont asymptotiquement normaux :
où <P=[<Pl,<P2, ... ,<Pp]',~=[~1,~2,... ,~p]',r= E(X t Xt') etT

est la taille de l'échantillon. Dans le cas où les coefficients <Pi sont estimés, le
.......
prédicteur de Xt+h , Xt(h), est donné par
(2.2.1.6)
Pour évaluer l'erreur quadratique moyenne asymptotique de prédiction, on

effectue un développement de Taylor de l'expression (2.2.1.6) au voisinage de
â = a, en négligeant les termes d'ordres supérieurs à 1. On peut remarquer que:
d â'~h) ] = [ d a'(h) ] .
[ da â=a da
Alors
X t(h) = a 'X......."
(h) t + (a - a) 1 [ d da'(h)]
a X t + op (1) (2.2.1.7)
Posons Mj, = d a'(h) . Il est montré dans Yamamoto (1976) que

da
13
(2.2.1.8)
où Lp =[ Ip , 0 , ... ,0] , est une matrice de taille (p x p2) et où ® est le

symbole de Kronecker du produit des matrices (voir Annexe A.2.l).
En utilisant (2.2.1.3) et (2.2.1.7) on a :
Xt+h - Xt(h) = - a '(h) Xt + Xt+h - (â - a)' Mj, Xt

h-l
..... , . A'-
Xt+h - X, (h) = L (L AJ L) Et+h-j - (a - a) Mj, X,
j=o
On a alors le résultat suivant
Proposition (2.2.1) {Yamamoto, 1976) Soit Xt, t E Z le processus

défini par (2.2.1.1). On suppose qu'il est stationnaire et inversible, alors l'erreur
quadratique moyenne asymptotique de prédiction au pas h est donnée par:
..... , 1
V(h) = V(h) + l cr 2 tr [ M h r- Mh r ] (2.2.1.9)
T
où V(h) et Mj, sont respectivement définies en (2.2.1.5) et (2.2.1.8) ••
Exemples: Considérons les deux cas suivants :
(i) Si h = 1, nous avons V(1) = cr 2 et Ml = Ip • l'expression de V(h)
dans (2.2.1.9) se réduit à -v (h) = cr 2 {l + E-}.

T
Ce résultat a été initialement
obtenu par Bloomfield (1972).
(ii) Si nous considérons le processus autorégressif d'ordre un :
14
X, = <1> Xt-l + et 1<1>' < 1
On obtient alors r = 0' 2 et Mh = d <l>h = h <l>h-l. D'où

1_<1>2 d<l>
...... 1 <1> 2 h th 2 (h-l)

V(h) = - 0'2 + 'fi h20'2.
1_<1>2 T
Ce résultat coïncide avec celui de Box et Jenkins (1970, p. 269).
2.2.2. Processus autorégressifs moyennes mobiles (ARMA)
Les modèles ARMA ont été introduits par Box et Jenkins en 1970. On dit
que le processus {X, , t E Z} suit un modèle ARMA(p, q), s'il est défini par la
relation suivante :
p q
x, - L <l>i x., = et - L 8i et-i' 'li t E Z (2.2.2.1)
i=l i=l
<=> (B) X, = 8(B) et
{et. t E Z} est un bruit blanc de variance 0'2, <1> et 8 sont des polynômes à
coefficients réels de degrés p et q respectivement et sont définis par:
(z) = 1 - <1>1 z - ... - <l>p zP, <l>p:;é 0
8(z) = 1 - ijl z - ... - 8q zq, 8q :;é 0 .
Nous supposons que le processus défini en (2.2.2.1) est stationnaire et

inversible c'est-à-dire que les polynômes <1> et 8 ont leurs racines de modules
strictement supérieurs à un. Dans ce qui suit, nous utilisons les notations
suivantes:
15
À. = [<1>', S'] '= [<1>1, <1>2, ... ,p, SI, S2, ... ,Sq]', m = max (p, q), A et ~ sont
des matrices m x m définies de la manière suivante :
(i) Si m=p=q;
<1>1 <1>2 <l>p SI S2 Sq

1 0 0 1 0 0
0 1 0 1
A= ~=
o o 1 0 o o 1 0
(H) Si m = p > q ; A est définie comme en (i) et
Sq 0 o
o
o 1
o 1
o 010
(Hi) Si p < q = m ; ~ est définie comme en (i) et
<1>1 <1>2 <l>p 0 o

1 o o
o 1
A=
o o 1 0
16
Remarquons que dans les définitions matricielles ci-dessus ; si m =p =q
alors A et ~ ont la même forme que la matrice utilisée dans la représentation
vectorielle du premier ordre du processus AR(m). Dans le cas où p :1= q, on
ajoute autant de zéros que nécessaires au-dessus de la diagonale principale de la
matrice de plus petite taille.
Nous nous intéressons à la prédiction de Xn+h,(h ~ 1) en considérant deux
cas:
(i) quand le paramètre À. est connu

(ii) quand le paramètre À. est estimé
On obtient l'expression de Xn+h en itérant l'expression (2.2.2.1.).
h-l
Xn+h =l 'Vi ên+h-i + [*(B) / S(B)] x, (2.2.2.2)
1 =a
où 'Va = l , et 'V 1, 'V2, ... sont obtenus à partir de la représentation moyenne
mobile infinie du processus [Xj}, à savoir :
00
x, = [S(B)I<j>(B)] êt = l 'Vi êt-i (2.2.2.3)

i =a
et *(B) est obtenu à partir de l'identité
S(B) = (B)'V(B) + *(B),
où 'V(B) =1 + 'V1 B + ... 'Vh-l Bh-l.
[voir Âstrëm (1970, pp. 162-170)].

Le prédicteur des moindres carrés Xn(h) est donné par
17
Xn(h) =[ *(B) /8(B)] x, (2.2.2.4)
et l'erreur de prédiction en(h) = Xn+h - Xn(h) est:
h-l
en(h) = L 'Vi tn+h-i (2.2.2.5)
i =0
On peut aisément vérifier que l'expression explicite du prédicteur Xn(h) est

donnée par
Xn(h) = d'Ah-l (
k=o
~ b (k) Xn-k ) (2.2.2.6)
où b(k) et d sont des vecteurs de taille (m xl) tels que
b(k) = ~k L ,
d' = L'(A - ~), et
L est le vecteur de taille (m x 1) tel que L' = (1, 0, ... , 0). De plus, on montre de
manière similaire que les poids 'Vi définis en (2.2.2.2) ou en (2.2.2.3) ont
l'expression suivante
, si i = 0
'Vi = fi (2.2.2.7)
\ d'Ai-l L, si i ~ 1
Ainsi, l'erreur de prédiction en(h) définie en (2.2.2.5) est maintenant donnée par
h-l )
en(h) = tn+h + d 1
( .L A i- 1
L tn+h-i
1 =1
18
On obtient alors le résultat suivant :
Proposition (2.2.2.) Soit Xj, le processus défini par (2.2.2.1.). On

suppose qu'il est stationnaire et inversible, alors l'erreur quadratique moyenne de
prédiction au pas h est donné par :
(2.2.2.8) ••
Il est évident à partir des relations (2.2.2.4) ou (2.2.2.6) que le prédicteur

Xn(h) nécessite un nombre infini d'observations. Dans la pratique, on utilise un
nombre fini d'observations, disons N. A partir de (2.2.2.6), nous allons

construire le prédicteur des moindres carrés tronqué qui utilise seulement les N,
(N ~ 1), dernières observations. Ce prédicteur tronqué noté X~(h) est défini par
N-l )
X~(h) = d Ah-l1 ( k~O b (k) Xn-k (2.2.2.9)
Pour évaluer l'erreur quadratique moyenne de prédiction quand on utilise

le prédicteur tronqué, on calcule la quantité:
avec
= d ' Ah-l (
k=N
i b (k) Xn-k) (2.2.2.10)
On peut aisément vérifier que :
r~(N) = d' Ah-l (.i 1 =0

Yi D~) A 'h-l . d (2.2.2.11)
19
00
où Yi = Cov(X t , Xt-i ) = 0 2 l 'Vk· 'Vk+i

k=o
est la fonction d'autocovariance du processus ARMA(p, q) et D~ est défini par

1
00
l b(k) b'(k) ,i =0
k=N
00
l [b(k) b'(k--i) + b(k+i) b'(k)], i ~ 1

k=N
Finalement, l'erreur quadratique yN (h) moyenne de prédiction quand on utilise

le prédicteur tronqué est :
yN(h) = Y(h) + r~ (N) (2.2.2.12)
où Y(h) et r~ (N) sont respectivement définies par (2.2.2.8) et (2.2.2.11). Il est
évident que lim r~ (N) = 0 car l'hypothèse d'inversibilité du processus

N~oo
ARMA assure que

k~oo
lim b(k) = O.
Lorsque les paramètres <Pi et Si du processus ARMA(p, q) défini en

(2.2.2.1) ne sont pas connus, on peut les estimer en utilisant la procédure décrite
par Hannan (1969) ou par Box et Jenkins (1970, pp. 269-284).
20
Par analogie avec (2.2.2.9), on définit le prédicteur tronqué de Xn+h, avec
des paramètres estimés par
(2.2.2.13)

""
effectue un développement de Taylor de (2.2.2.13) au voisinage de À =À . D'où
l'on obtient:
....... N "" ....... N "" ....... N

X n (h / À) = X n (h / À) + (À - À) , [é) X n (h / À) / é) À]
On peut aisément vérifier que
....... N N-l
é) X n (h / À) = L
f(k) Xn-k (2.2.2.14)
é) À k=o
où f(k) est le vecteur de taille (p + q) x 1 tel que
h-Z
Mp Ah-l +Lp L A'i® Ah-Z-i(d®L)
i=o b (k)
f (k) =
où Mp est la matrice p x m telle que
21
Mp -
_/I p , SIP =m
\ [ Ip , 0 l- si p < m,
et Lp est la matrice p x m2 telle que Lp = [Ip, 0, ... , 0], et Ip est la

matrice identité de rang p, voir Yamamoto (1975).
L'expression (2.2.2.14) admet l'écriture compacte suivante:
(2.2.2.15)
où F ~ est la matrice (p + q) x N telle que
N
Fh = [f(O), f(1), ... , f(N-l)] ,
et XN est le vecteur N x 1 tel que
XN' = [Xn-l, X n-2, ... , X n-N+ll
Ainsi, l'erreur de prédiction est donnée par
Finalement, l'erreur quadratique moyenne asymptotique de prédiction quand on

utilise le prédicteur tronqué est
..... N ...
E [Xn+h - X n (h / À) ] 2
= 2
V(h) + r h (N) + L 02 (N) (2.2.2.16)
T h
22
où T est la taille de l'échantillon utilisé pour estimer le paramètre À, où
où V est la matrice des variances et covariances aymptotique de ff(~ - À) , et

,
r N est la matrice d'autocovariance de XN défini par r N = E(XN XN ).
A titre d'exemple, nous considérons le cas du processus ARMA(I,l) défini par
Xt - <1> Xt-l = Et - eEt-l , 1<1> 1< l,le 1< 1

,
L'estimateur du maximum de vraisemblance ~ = ( ~ , ê) est asymptotiquement
normal. On a :
ff(i - À)-~ N(O, V) quand T ~ 00
(1_<1>2) (1-<1> e) (1_<1>2) (l-e2)

où V= l-e
----!--
( <1> - e )2
(1_<1>2) (0-e 2) (l-e 2) (l-e<l»
La fonction d'autocovariance du processus ARMAO, 1) est donnée par
y. = 1a 2 (1 - 2 <1> e + e2) / (1 - <1>2) , si i = 0

1 \ a2 [(1_ <1> e) (<1> - e)] <1>1 i 1-1 / (1 - <1>2), si 1i 1= 1, 2, ..
Un calcul simple montre que
f (k) = r<l>h-l + (h - 1) (<1> - e) <l>h-2 ] eh + [0 ] ,h ~l ,k ~0

_ <l>h-l (<1> - e) k eh- 1 <l>k-l
23
Nous donnons l'expression de l'erreur quadratique moyenne asymptotique
de prédiction pour les deux cas suivants:
(i) h =1 et N =1
(i i) h = 1 et N= 00.
Pour le premier cas, on obtient
Pour le second cas, on a
Voir Bloomfield (1972).
2.2.3.- Processus autorégressifs moyennes mobiles intégrés (ARIMA)
On appelle processus ARIMA, le processus X, , défini par
(B)(1 - B)d X t = 8(B) et , (2.2.3.1)
où les variables aléatoires et sont indépendantes, identiquement distribuées,

centrées, de variance a 2 . Les polynômes (B) et 8(B) ont leurs racines en dehors
du cercle unité, B est l'opérateur retard et d est un entier positif.
Sous les hypothèses précédentes, le processus défini par (2.2.3.1) est inversible:
on a alors la représentation autorégressive suivante:
24
1t(B) X, = Et , (2.2.3.2)
00
1t(B) =1 - L 1ti Bi = (B) (1 - B)d (2.2.3.3)

i=1 8(B)
Au temps t + h, on a :
00
Xt+h =L 1ti Xt+h-i + Et+h· (2.2.3.4)

i =1
Appliquons l'opérateur 1 + 'VI B + ... + 'Vh-l Bh-l aux deux membres de

l'équation (2.2.3.4). On a
00 h-l h-l
L L
i=o k=o
1ti 'Vk Xt+h-i-k + L
k=o
'Vk Et+h-h = ° (2.2.3.5)
avec 1to =- 1 et 'Vo = 1.

n est facile de montrer que
00
h-l h-l m
L
i= 0
L 1ti 'Vk Xt+h-i-k = 1to Xt+h + I, I,
m l j=O
1tm-j 'Vj Xt+h-m +
k=o e
00 h- 1
L L 1th-1 +i-j 'Vj Xt-i+ 1. (2.2.3.6)
i=lj=o
Si les poids 'Vj sont choisis tels que
m
L 1tm-j 'Vj = 0, pour tout m = 1, 2, ... , h -1, (2.2.3.7)
j=o
on obtient:
00 h-l
Xt+h =L 1ti (h) Xt-i+l + L 'Vj Et+h-j (2.2.3.8)
i=l j=o
25
h- 1
où 1ti(h) = L 1th-l+i-j 'Vj . (2.2.3.9)
j=o
Le prédicteur des moindres carrés au pas h est alors donné par
00
x.e» = L 1ti(h) Xt-i+ 1 .

i =1
Proposition (2.2.4) Soit Xt , t E Z, le processus défini par (2.2.3.1.), alors

l'erreur quadratique moyenne de prédiction est au pas h est
h-l
V(h) = cr2 L 'Vf (2.2.3.10)
j=o
où les poids 'Vj sont définis par la relation de recurrence suivante
j- 1
L
i=o
(2.2.3.11) ••
On remarque que alors que l'expression (2.2.3.10) est la même que celle obtenue
pour le processus ARMA.
A titre d'exemple, nous considérons le cas du processus ARIMA(l, 1, 0)

défini par (l - </> B) (l - B) X, =et , 1 </> 1 < 1
Pour ce processus, on a
= 1 _ </>i+l
'Vi =L </>k
k=o 1-</>
L'expression de V(h) se réduit alors à
26
Pour le processus ARIMA(O,l,1) défini par (1 - B) X, = (1 - 9 B) Et, 19 1< 1
on a 'Vo = 1 et 'Vi = (1 - 9), i ~ 1, donc
V(h) = a 2 {1 + (h-1) (1-9)2}.
2.2.4.- Processus autorégressifs à coefficients aléatoires (ReA)
Les modèles autorégressifs à coefficients aléatoires (en anglais

Autoregressive Models with Random Coefficients) ont été introduits par Andel
(1977). On dit que le processus [Xj , t E Z} est un processus autorégressif
d'ordre p à coefficients aléatoires s'il est défini par une équation du type suivant:
p
X, =L (ai + bi,t) Xt-i + Et (2.2.4.1)
i =1
où (i) al, a2, ... , ap sont des réels
(ii) b t = (bl,t , b2,t , ... , bp,t)' est un vecteur aléatoire (p, 1) tel que:
,
E(b t b t) = W,
où West une matrice définie positive ne dépendant pas de 1.
27
(Hi) Et. t E Z est une suite de v.a i.i.d., centrées, de variance c:?-E
(iv) {bd est indépendant de Et pour tout t.
Les propriétés probabilistes ainsi que certaines propriétés statistiques de ces

modèles ont été étudiées par Nicholls et Quinn (1982).
Les modèles RCA sont une extension possible des modèles présentés
précédemment. L'équation (2.2.4.1) se réécrit de la manière suivante
f Xt = ( ~ + Bd Xt-l + Ct
(2.2.4.2)
\ x, = L x,
-- , ,
où X t = [Xj , Xt-l , ... , X t- p + 1] ,Ct = [Et, 0, ... , 0]
L = [1, 0, ... , 0]'
ap bl,t b2,t bp,t

1 o o o o o
A= o 1 o
o o 1 o o o o
A et B t sont des matrices carrées (p, p) et Xt , Ct et L sont des matrices
ligne (p, 1). Posons V t = E( X, Xj ), Alors en utilisant (2.2.4.2), on a
(2.2.4.3)
où
28
1 o o o
o o o o
G= 0 1 o
o o o o
est une matrice carrée (p, p).

On montre que Vt s'exprime de la manière suivante:
p p
V t = A Vt-l A' + L L
Pli(1) Vt-l Pjl(Wij) + ~ G (2.2.4.4)
i=l j=l E
où
(i) Pi/Â.) (i, j = 1, 2, ... , p) est la matrice carrée (p, p) dont tous les
éléments sont nuls exceptés l'élément(i, j) qui est égal à Â.
(H) Wij est l'élément (i, j) de la matrice W = E (bt bt').
En utilisant le résultat de Kronecker (1969) on montre que
Vec(V) = (J2 [1 ® 1- R]-l Vec(G) (2.2.4.5)

E
p p
avec R = [A e A + L L PijCWij) e Pli (1)] (2.2.2.6)
i=l j=l
où l'opérateur Vec est défini dans l'Annexe A.2.2.
Nous nous intéressons maintenant à la prédiction de Xn+h, h ~ 1. On obtient

l'espression de Xn+h en itérant l'expression (2.2.4.2).
29
h-l
Xn+h = """
~ L ' Mi An+h-i + L ,Mh x, - (2.2.4.7)
i =0
(i) Mo = 1
i- l
(ii) Mi = II (A + Bn+h-k), 1 s i s h.
k=o
Le prédicteur des moindres carrés est obtenu en remplaçant toutes les

valeurs futures de Ct et Bt, pour t = n + 1, n + 2, ... , n + h par leurs espérances
qui sont nulles. D'où
Xn(h) = L'Ah X n = f(A, h) Xn (2.2.4.8)
où f(A, h) = L'Ah.
L'erreur quadratique moyenne de prédiction est
V(h) = E [Xn+h - X n(h)]2
, h-l
= E [L'(Mh - Ah) x, X n (Mh - Ah)' L] + L
E (L' Mi An+h-i A'n+h-i M'i, L)
i=o
= tr [V E {(Mh - Ah) G(Mh - Ah) } ]
h-l
+ cr; L tr E(Mi G M'i G) (2.2.4.9)
i=0
Lorsque les coefficients ai, i ~ i ~ p, du processus défini en (2.2.4.1) ne

sont pas connus, on peut les estimer en considérant l'échantillon Xl, X2, ... , XT.
30
Nicholls et Quinn( 1982) ont obtenu sous certaines conditions la normalité
asymptotique des estimateurs âr, 1 ~ i ~ p, à savoir
ff (â - a) - N (0, F) ,
où a= [al,a2, ... ,ap J',a=

A [Aal,a2, A J' et
A ... ,ap
(2.2.4.10)
Dans le cas où les coefficients ai sont estimés, le prédicteur de Xn+h, Xn(h), est -
donné par analogie avec (2.2.4.8) par
- ~
Xn(h) = L' Âh Xn = f(Â, h) Xn

~
(2.2.4.1l)

effectue un développement de Taylor de (2.2.4.10) au voisinage de â = a. Si on
pose
Rh = [d f (Â, h) ] A
l -1-i ) L'
= L (hi Ai ® Ah (2.2.4.12)
da a=a 1=0
alors on a le résultat suivant :
Proposition(2.2.5) (Ray, 1983) Soit Xi, t E Z le processus défini par

(2.2.4.l), alors le prédicteur des moindres carrés au pas h est donné par:
et l'erreur quadratique moyenne asymptotique de prédiction est
31
= V(h) + L tr [Rh' r Rh V] ,
T
où V(h) est définie en (2.2.4.8) et V, r et Rh sont respectivement définies en

(2.2.4.5), (2.2.4.10) et (2.2.4.12). ••
A titre d'exemple, nous considérons le cas du processus autorégressif d'ordre un
à coefficients aléatoires RCA(l) défini par
X, = (a + b.) Xt-l + Et,
où a est un paramètre fixé, Et et b t sont des variables aléatoires telles que
E(Et) = E(b t ) = E(Et b t ) = 0, E (E;) = cr;,
4
E(E )
t
= Jl4 E , E(b2t ) = cr-2b et E(b 4t ) = J.l4b .
Nous supposons que le processus RCA(l) défini ci-dessus est stationnaire c'est-à-
dire que a 2 +clb
< 1. Alors off a le résultat suivant
h2 a2(h- l )
2 2
= ( 1 - a h 2 ) cr
1 - a2 - cr E
b
32
+ .i.
T
((J2E + (J~ ~4E + (a 2 + (J~) 6 (~ ) 2 - ~4 e}
{
) h 2 a2(h- l )
~ (1 - a - 6a (J6 - ~4 b)
4 2
On constate donc que V(h) est une fonction croissante de (Jb2 = V(ht). De
plus on note que l'existence du moment d'ordre quatre du processus [Xj, t E Z}

doit être requise pour le calcul de l'erreur quadratique moyenne asymptotique de
prédiction.
2.2.5.- Modèles bilinéaires (HL)
Dans cette section on étudie la prédiction du modèle bilinéaire d'ordre

(p, q, P, Q) à valeurs réelles, noté BL(p, q, P, Q) défini par la relation de
recurrence suivante:
p q Q p
x, = L ai Xt-i + Et + L Cj Et-j + L L bjk Xt-k Et-j (2.2.5.1)
i=l j=l j=l k=l
où Xt est un processus stochastique défini sur un certain espace de probabilité

(0, A, P), tout t E Z et où ai, 1 s i s p, Cj, 1 s j s q, bjk , 1 s j s Q , 1 s k s P
sont des constantes et où Et, t E Z est une suite de variables aléatoires
indépendantes équidistribuées, gaussiennes, centrées de variance finie (J2, défmies
sur le même espace de probabilité que Xt.
Ces modèles ont été introduits par Granger et Andersen (1978). Leur étude
probabiliste et statistique est très développée. Les principaux travaux sont ceux de
Subba Rao (1981), Subba Rao et Gabr (1984), Pham (1981, 1985, 1986), Guégan
(1981, 1983 a et b, 1986, 1987 a et b, 1988, 1991), Guégan et Pham (1988,
1989), Lui et Brockwell (1988), Lui (1989, 1990).
33
Ces modèles ont déjà été utilisés dans de nombreuses applications, comme
la chimie, la météorologie, la physique, l'astronomie, voir par exemple Lessi
(1991). Pour une revue des modèles bilinéaires, on peut consulter Guégan
(1994). On distingue généralement trois sous classes de modèles bilinéaires. Les
modèles diagonaux sont ceux pour lesquels bji = 0 V i =F- j, les modèles
superdiagonaux sont ceux pour lesquels bji = 0 V i ~ j, et les modèles sous
diagonaux sont ceux pour lesquels bji = 0 Vi> j. Pour faire la prédiction des
modèles non markoviens comme le modèle bilinéaire, on a besoin de la propriété
d'inversibilité pour pouvoir calculer le prédicteur. L'inversibilité des modèles
bilinéaires diagonaux et superdiagonaux a été explicitement obtenue par Guégan
et Pham (1989).
Nous allons nous limiter aux modèles diagonaux pour l'étude de la

prédiction. Ces modèles admettent la représentation markovienne suivante (voir
Pham, 1985).
f Xl = K Zr-l + El
z, = [ A + B Et] 2r-l + Yt
(2.2.5.2)
\ = At Z t-l + Yt
où A, B et K sont parfaitement connues, le bruit Yt s'obtenant à partir de Eh et

on suppose 0'2 = E(E 2) = 1.
t
Proposition (2.2.6) (Guégan, 1992) Soit X t , t E Z le processus

défini par (2.2.5.2). On suppose qu'il est inversible, alors le prédicteur des
moindres carrés au pas h est donné par
00
Xt(h) =K L [At+h ... A t+h-i+1J Yt+h-i , (2.2.5.3)

i=h
34
et l'erreur quadratique moyenne de prédiction est
v (h) = K Qh K' + l ,
où
Qh = Po + Pl + ... + Ph (2.2.5.4)
avec la suite Ph définie par
Pi = A Pi-l A' + B Pi-l B'

(2.2.5.5)
{
Po = E [1't 1';]
••
Remarque (2.2.7)
1. Notons que la suite (Qh) définie par (2.2.5.4) est telle que:
= Po + A(Po + ... + Ph-I) A' + B(Po + ... Ph-I) B'
= Po + A Qh-l A' + B Qh-l B'
Alors Qh > Qh-l et (Qh) est une suite croissante qui tend vers
Qs, = E [Zt Zt']. Ainsi la fonction de l'erreur de prédiction est une fonction
croissante de pas h, bornée par E [Zr, Zt'].
2. Si nous considérons le processus bilinéaire diagonal BL(l, 0, 1, 1) défini

par
X, = a Xt-l + b Xt-l ei-: + €t
35
OÙ Eh t E Z est une suite de variables aléatoires indépendantes équidistribuées,
gaussiennes, centrées, de variance 1. Nous supposons que le processus BL(1, 0, 1,
1) est stationnaire c'est-à-dire que 1 a 1 < 1 et a2 + b 2 < 1, Pham et Tran (1981).
Ce processus admet la représentation markovienne suivante :
!Xt=Zt-l+Et
\ z, = ( a + b Et) Zt-l + Yt
2
avec Yt = a Et + b Et·
En utilisant la suite (Pj) définie en (2.2.5.6), on a
alors
On a le résultat suivant :
2.2.6.- Modèle GARCH
Les modèles GARCH (en anglais Generalized Autoregressive Conditionally

Heteroskedastic) ont été introduits par Bollerslev (1986). Ces modèles constituent
une généralisation du modèle ARCH introduit par Engle (1982).
On dit que le processus {Xj , tE Z} suit un modèle GARCH(p, q), si
(2.2.6.1)
36
où E [ Et 1FrtJ suit une loi normale N(O, 1tÜ
q p
avec 1tt = ao + L ai E;-i + L Bj 1tt-j (2.2.6.2)
i=l j=l
où p ~ 0, q > 0, ao > 0, ai ~ 0, i = l, ... , q, Bj ~ 0, j = l, ... , p et
F t- l = cr (Es, S s t - 1)
On remarque que pour p = 0, on retrouve le modèle ARCH(q), et pour

p =q = ° on a le bruit blanc simple. Pour faire la prédiction d'un tel modèle, on
utilise la variance conditionnelle plutôt que la variance non conditionnelle. Ceci
constitue un des succès de la modélisation GARCH.
Bollerslev (1986) a montré que le processus GARCH(p, q) défini par les
q q
équations (2.2.6.1) - (2.2.6.2) est stationnaire au sens large, si L ai + L Bj <1
i=l j=l
COV(Et , Es) = °,pour t "* s.

Le modèle GARCH(p, q) admet une autre paramétrisation (Bollerslev, 1988).
Introduisons pour cela l'innovation correspondante au carré du processus
2
Vt = Et - 1tt .
Remplaçant 1tt par E; - Vt dans la formulation GARCH, nous avons
37
D'où en posant m = Max(p, q)
m p
E? = ao + L (ai + Bi) E ~i + vt - L Bj vt-j . (2.2.6.3)
i=I j=I
avec la convention ai = 0, si i > q, Bj = 0, j > p. On constate que c'est un
processus ARMA(m, p) en E? avec les innovations non corrélées vr, L'équation
(2.2.6.3) se réécrit alors de la manière suivante:
2 2
Yt = ao LI + G Y t-I + (LI + Lm+I) Vt (2.2.6.4)
y2 _ 2 2 2 ·
où t - [Et, Et-l' ...• E t--m+ I, Vt, Vt-I, ... , Vt-p+1l
LI = [1,0, ...• 0]' 1 se trouve à la [ ère place
Lm+I = [0,0, ... , 1,0,...• 0] 1 se trouve à la (m + 1)ème place
LI et Lm+1 sont des matrices de formats (m + p, 1)
où FI, F2. F3, 0 sont des matrices définies par:
o : matrice nulle
38
al + 81 am+ 8m -81 -82 -8p
1 0 0 0 0
0
FI= F2=
o 1 0 o o o
o o o
1 o o
o 1 o
FI , F2 ,F3 et 0 sont des matrices de formats respectifs (m, m), (p, p), (m, m)
et (p,p).
On obtient l'expression de E ~+h en itérant l'expression (2.2.6.3):
h-I ,
2 '
E t+h = LI.L Gi [(LI + Lm+}) v t+h-i + a o LIl + LI Gh V t
1 =0
Le prédicteur des moindres carrés de la vanance conditionnelle du

processus GARCH(p, q) défini par (2.2.6.1) - (2.2.6.2) est donné par:
2
E[ E t+h 1Ft ] = E [ 1tt+h 1Fd
m-I
2
Ôi, h 1tt-i + L
i=0
À:1, hE t-i (2.2.6.5)
où
39
,
wh =LI(I+G+ ... +Gh-I)Llao
,
Ôi, h = LI Gh Lm+i+l ,i = 0, ... , p - 1
,
Ài, h = LI Gh(Li+1 + Lm+i+i) ,i =p, ... , p - 1
,
Ài, h = LI Gh Lj., 1 , i = p, ... , m - 1
Voir Baillie et Bollerslev (1992).

En particulier pour un modèle GARCH( 1, 1), cette expression se réduit à
h-l
E(7tt+h 1 Ft) = ao L (al + BI)i + (al + BI)h-1 al e; + (al + BI)h-1 BI7tt
i =0
h-l
= ao L (al + BI)i +(al + BI)h-I 7tH I
i =1
2
avec 7tH1 = a o + ale t + BI 7tt
Dans le cas stationnaire, on sait que al + BI < 1
et E( e;) = 0'2 = ao (1 - al - B})-l, on a alors
D'où l'on obtient
E(7tHh / Ft) = 0'2 quand h ~ 00
Si al + BI = 1, on retrouve le modèle GARCH(1,I) intégré ou
l GARCH(l,I) introduit par Engle et Bollerslev (1986).
Pour ce processus, on a
E(7tHh / Ft) = a o (h - 1) + 7tH1 .
40
On note alors que l'effet sur 1tt+h ne s'élimine pas asymptotiquement. Les
chocs de la variance conditionnelle sont dits persistants au sens de Bollerslev et
Engle(1989).
2.2.7.- Modèle autorégressif avec bruit ARCH
On dit que le processus [Xj , t E Z} suit un modèle AR(p) avec bruit

ARCH(p) s'il est défini par les équations.
p
x, = L <Pi Xt-i + V t Et, (2.2.7.1)
i=1
1
P 2 2"
où Vt = [ À +
o k
L= 1 Àk X
t-k
] (2.2.7.2)
et où Et. t E Z est une suite de variables aléatoires indépendantes équidistribuées,

centrées de variance l, indépendante de X s, s < t.
Le modèle ARCH a été introduit par Engle (1982), son étude probabiliste
et statistique a été faite par de nombreux auteurs, voir en particulier Engle
(1982), Milhoj (1985), Guégan (1988). Les relations (2.2.7.1) - (2.2.6.2) peuvent
aussi s'écrire
<p(B) x, =8t (2.2.7.3)

où
(2.2.7.4)
et où (z) = 1 - L <l>i zi , <l>p ;t 0
i =1
On suppose que les racines de (z) se trouvent en dehors du cercle unité et que
p
x, > 0 et L À-i < 1. Ces conditions assurent respectivement la stationnarité pour
i= 1
les parties AR et ARCH du processus.
On remarque que (2.2.7.3) est l'équation d'un processus AR(p) avec bruit
8 t défini par (2.2.6.4). Ainsi (2.2.7.3) admet la représentation suivante
00 00
x, = L 'Vi 8t- i = L 'Vi Vt-i Et-i (2.2.7.4)

1=0 1=0
où les poids 'Vi sont définis par

00
<1>-1 (z) = L 'Vi Zl

1=0
Proposition (2.2.7) (Guégan, 1992) Soit Xt, t E Z le processus

défini par (2.2.7.3), alors le prédicteur des moindres carrés au pas h est donné
par
00
h-l
Xt(h) = L 'Vi Vt+h-i+l Et+h-i + L 'Vi E [Vt+h-i+l Et+h-i] (2.2.7.5)
i=h i=o
(2.2.7.6)
42
Remarque (2.2.7)
1. Notons que l'expression (2.2.7.6) est similaire à celle de l'erreur

quadratique moyenne de prédiction du modèle AR(p) définie en (2.1.1.5). Le
modèle AR(p) est obtenu à partir du modèle (2.2.6.1) en posant À1 =... = Àk =
O. Notons également que
Ainsi V(h) est une fonction croissante de pas h, ce qui exprime que les
prédictions sont d'autant plus instables que l'horizon est éloigné.
2. Considérons le processus AR(1) avec bruit ARCH(1) défini par:
Xt = <1> X t- l + (À + ~ 2) 1
X t- 1 2 Et
avec 1 <1> 1 < l , À > 0 et 8 < 1
Alors on a une forme plus explicite pour le prédicteur et pour l'erreur

quadratique
h-l À ( 1 _ <l>2h)
V (h) = ---.À.- L <1> 2 i = -~_----:....----!.....--
1-8 1=0 ( 1 - ~ ) ( 1 _ <1>2)
3. Soit le modèle AR(1) avec erreur GARCH (1, 1), [Weiss, (1986)],
stationnaire défini par
43
y t = <1> 1 Yt-1 + Et , 1<1> 1 1< 1 (2.2.7.7.)
où E ( E ~ / Ft- 1) suit une loi normale N (0, 7tt) avec
7tt = œo + «i e ~ 1 + BI 7tt-1 où œo > 0, a 1 ~ 0, B1 ~ °

Pour ce modèle, le prédicteur des moindres carrés au pas h est donné par
Proposition (2.2.8) Soit Xt, t E Z le processus AR( 1) avec bruit

GARCH (1, 1) défini par (2.2.7.7.), alors l'erreur quadratique moyenne de
prédiction au pas h est donnée par
h
V(h) = L
. 1
<1>2 (h-1) [a 2 + (al + B1)i-1 (7tt+1 - ( 2 ) ]
1
1=
avec ••
On remarque alors
quand h ~ 00
Pour une étude plus approfondie de la prédiction du modèle ARMA avec erreurs
GARCH, on peut consulter Baillie et Bollerslev (1992).
44
2.2.8.- Modèle ARMAX
Nous étudions ici la prédiction du modèle ARMAX défmi par
k
<j>(B) Yt = L <Xi(B) Xi,t + S(B) Et (2.2.8.1 )
i =1
où Yt est une variable endogène et Xl,t , ... , Xk,t sont des variables exogènes, où
B est l'opérateur retard, où Et est un bruit blanc de variance 0'2 et où <j>(B), <Xi(B)
et S(B) sont des polynômes en B définis par
p
<j>(B) =1- L <j>j Ri ,
j =1
q
S(B) = 1 - L S{Bi,
j- 1
Si
<Xi(B) = <Xio - L <Xij Ri,
j =1
Nous supposons que les polynômes <j>(B) et S(B) ont leurs racines en dehors
du cercle unité.
Astrom (1970, p. 167) a obtenu une représentation moyenne mobile du

modèle ARMA donnée en (2.1.2.3). En modifiant légèrement cette
représentation, l'équation (2.2.8.1) se réécrit de la manière suivante:
h-l k
Yn+h = L 'l'j En+h-j + L Jl(B) <Xi(B) S-l(B) Xi,n+h
j=o i=l
+ [1 - Jl(B) <j>(B) S-l(B) ] B-h Yn (2.2.8.2)
45
00 h-l
où 9(B) <p- 1(B ) =L 'Vj Ri et Jl(B) = L 'Vj Ri
j=o j=o
L'équation (2.2.8.2) peut aussi s'écrire
h -1 k,
Y n+h = L 'Vj ên+h-j + L vi (B), Xi,n+h + À.'(B) Y n (2.2.8.3)
j=o i=1
où
,
vi (B) = [Vi,o(B) Vi,I(B) Vi,2(B) ... ] ,
À.'(B) = [ À.o(B) À.l(B) À.2(B) ... ] ,
Xi,n+h = [Xi,n+h Xi,n+h-l ... Xi,n Xi,n-l ... ] ,
v, = [Yn Y n-l Y n-2 ... ]
Le prédicteur des moindres carrés au pas h est donné par
k ,~ ~
y n(h) =L vi (h) Xi,n+h + À.'(h) Yn (2.2.8.4)

i= 1
Nous utilisons les notations suivantes:

m = max (p, q, SI, ... , Sk), A, ~, C et D sont des matrices m x m définies de la
manière suivante
<Pm
1 1 o o
A= o 1 o ~= o 1 o
o o 1 o o o 1 o
46
Qio Qi1 Qil Qim
1 1 a a
C= a D= a 1 a
1
•
a 1 a a 1 a
et où L =[ 1,0, ... ,0]' est un vecteur de dimension m.

TI peut être montré que les poids Vij(h) et Âj(h) sont définis par
VijCh) = Qio, j=O
j=1,2,... h-l,
= L'(Di - ~ Ci) Ah-1 Bi-h L, j = h, h + l, ... , (2.2.8.5)
et Âj(h) = L'(A -~) Ah-1 Bj L (2.2.8.6)
Lorsque les coefficients <Pl, ... , <Pp, el, ... , eq et Q1a, ... , Qksk du
processus défini en (2.2.8.1) ne sont pas connus, on les estime par la méthode du
maximum de vraisemblance. La matrice de covariance asymptotique de ces
estimateurs est donnée par
(2.2.8.7)
,
où y= [<Pl, , <Pp, el, ..· eq, Q1a, ... , Qksk ]
et y =[$1, , $p, ê1, ... ,êq, âlO, ... âksk]'
Dans le cas où les coefficients sont estimés, le prédicteur de Yn(h), Yn(h),

est donné par
47
k , '
yn(h) = L vi (h) Xi,n+h + ~ (h) Yn (2.2.8.8)
i=1
Posons
Xn+h = (X l ,n+h ... Xk,n+h), G(h) = [G 1(h) ... Gk(h) ]
o.oo =[ a vi(h) / ay] et D(h) =[ a À(h) / ay]
Alors on a le résultat suivant:
Proposition (2.2.9) (Baillie,1980) Soit le modèle ARMAX défini en

(2.2.9.1), alors le prédicteur des moindres carrés au pas h est donné par:
k
,- ,--
Yt(h) =L vi(h) Xi,t+h + À (h) Yt (2.2.8.9)
i =1
et l'erreur quadratique moyenne asymplotique de prédiction est:
h-l ,
V(h) = cr 2 L
j=o
'1 + ~T tr [ { G(h) E(Xn+h Xn+h) G(h)
-' -- --'
+ D(h) E( Yn Yn ) D'(h) + 2 D(h) E( Yn Xn+h) G(h) } n] (2.2.8.10)
••
Exemples:
1) Nous allons considérer maintenant le modèle de régression avec erreurs
ARMA défini par
,
Y, = X, B + Jlt. 1t(B) Jlt = e(B) Et (2.2.8.11 )
où X t = (Xl, t , ... , Xk,t )' est un vecteur de régresseurs de dimension k, où
48
B = (B1, ... , Bk)' est un vecteur de dimension k représentant les paramètres de
régression inconnus, et où III est un processus ARMA(p, q). Ce modèle peut être
vu comme un cas particulier du modèle ARMAX défini en (2.2.8.1) avec
<l>(B) = x(B)
aio = Bi et ai (B) = x(B) , i = 1, ... k
Le prédicteur (2.2.8.7) devient
(2.2.8.12)
L'erreur de prédiction asymptotique est alors
h-l ,
ên (h) = L 'Vj En+h-j - X n+h (B - B) - (p - p)' M(h)( Y n - x, B)
j=o
où p' = (x S)' et M(h) est une sous matrice (p + q, p + q) de la matrice D(h).
Si on note par 2T p-l et 2T V-l les matrices de covariance asymptotiques des
estimateurs Bet (1t ê) respectivement.
Proposition (2.2.10) (Baillie, 1980). Soit le modèle de régression

avec erreur ARMA défini par (2.2.8.11), alors l'erreur quadratique moyenne
asymptotique de prédiction au pas h est donnée par:
...... h-l 2 { , "

V(h) = 0 2
.
L 'JI? +
J
Œ.-
T
X n+h p-l Xn+h- 2 X n+h p-l x, Â.(h) +
J=O
49
,
À.(h)' x, p-l XnÀ.(h) + tr [ M(h) r M(h)' V-l ] } (2.2.8.13)
, ,
où r=E(Un Un) et Un =[un Un-l ... ] ••
Pour q = 0, on retrouve le modèle de régression avec erreurs AR(p) dont la
prédiction a été étudiée par Baillie (1979).
2) Considérons le modèle de régression simple avec bruit AR(1) défini par
Y, = BX, + J.lt (2.2.8.14)

où
J.lt = 4> J.lt-l + Et (2.2.8.15)
L'estimation de ce modèle a été étudiée par Pierce (1971). La matrice de

'" '"
covariance asymptotique des estimateurs B et 4> est
où b lim .L ~
= T~ooT~ w2 et w = (1 - Ii\ B) X
t t '1' t
Pour ce modèle, le prédicteur des moindres carrés au pas h est donné par
..... .". .", .". .", h .". .",

Y n(h) = Xn+h B + 4> (Yn - X n B )
Proposition (2.2.11) (BaiIIie, 1979) Soit X t , t E Z le processus

défini par (2.2.8.14) et (2.2.8.15), alors l'erreur quadratique moyenne
asymptotique de prédiction au pas h est donnée par
50
....... .......
V(h) = E [ Yn+h - Yn(h) ]2
1 - <1>2 h 2 2
=cr2 + ~ h2 <l>2(h-l) + ~ b- l (Xn+h - <l>h X n)2
1 - <1>2 T T
(2.2.8.16) ••
3) Nous abordons ici la prédiction du modèle de régression suivant:
,
Y, = X, B + Jlt (2.2.8.17)
où X, = (Xj j , ... , Xk,t)' est un vecteur de régresseurs de dimension k, où

{Jld est un processus autorégressif d'ordre un à coefficients aléatoires défini par
Jlt = (8 + b-) Jlt-l + Et (2.2.8.18)
où 8 est un paramètre et b t et Et sont des suites de variables aléatoires

indépendantes et identiquement distribuées telles que
E(Et) = E(bt) = E(Et b-) = 0, E(E~) = cr~ , E(E:) = U4 E , E( b~) = cr~,

4
E(b ) = Jl4b et où B = (BI, ... , Bk)' est un vecteur de dimension k représentant
t
les paramètres de régression inconnus. On suppose la stationnarité du processus
défini par (2.2.8.18) c'est à dire 8 2 + 8~ < 1. Dans ce qui suit, nous utilisons les
notations suivantes,
y = (YI, , YT)' , Jl = (J.lI, ... , JlT)' et

X = (Xl, , XT)' est une matrice de dimension (T, k)
'"
il est connu que l'estimateur des moindres carrés 8 T du paramètre inconnu 8 est
T T -2
'"
8T =L -;it ~t-l / L Jlt-l (2.2.8.19)
t=2 t=2
51
- , ........ ........
où Jl t est le résidu défini par Jl t = Yt - X, BT, t ~ 1, où BT est l'estimateur

des moindres carrés défini par
BT = (X' xr-i X 1 Y (2.2.8.20)
Alors l'estimateur des moindres carrés généralisés est
(2.2.8.21)
Hwang et Basawa (1993) ont obtenu la normalité asymptotique des estimateurs

....... .......
eT et Ba, à savoir
(i) Si E( Jl 4) < 00 , alors

1
(2.2.8.22)
où
.......
(i i) DT (Ba - B) - N(O, <1» (2.2.8.23)
où DT = diag [( f
t=l
x~ 1)1/2, '.. , ( f X2, k )1/2]
t=l
t
<1> = (1 - e 2 ) cr 2 G-1
l-e2-cr~ E
avec
52
Proposition (2.2.12) (Doucouré, 1996) Soit le processus défini par
(2.2.9.16) - (2.2.9.17). Le prédicteur des moindres carrés au pas h est donné par
, ,
Xt(h) = X t+h B + ah(Y t - X, B) (2.2.8.24)
et l'erreur quadratique moyenne asymplotique de prédiction est:
...... (h)
V = ( 1 - 2a 2h
1- a
2
-crb
l cre2 + Xt+h
' DT
-1 -1
et> DT Xt+h
'-1 -1 '-1-1
+ a 2h X, Dr et> Dr Xt - 2 ah X t+h Dr et> Dr Xt
+l [cil ~ {~4 e+ (a 2 + cr~) (6 (cr;) 2 - ~4 e) }] h 2 a 2 (h-l)

T e cr;(1-a4-6a2cr6-~4b)
(2.2.8.25) ••
Preuve. A partir de (2.2.8.18), nous avons
h-l
~t+h = L Zk Et+h-k + Zh ~t
k=o
où (i) Zo =1
k-l
(ii) Zh = -1-1 (a + bt+h-i), 1 ~ k ~ h
i=o
Alors, nous obtenons à partir de (2.2.8.17)
, h-l
Yt+h = X t+h B+ L Zk Et+h-k + Zh ~t
k=o
53
Donc le prédicteur des moindres carrés au pas h est
,
Yt(h) = X t+h B + eh Ilt
, ,
= X t+h B+ eh(Y t - X, B)
Et l'on obtient (2.2.8.24).

Dans l'expression ci-dessus, nous avons remplacé les valeurs de Et+h et ht+h
(h = 1, 2, ... ) par leurs espérances qui sont nulles. ........
Dans le cas où les paramètres B et e sont estimés, le prédicteur de Yt+h, Y t (h),
est donné par
..... '"" "" h ' ""

Yt(h) = X t+h Ba + eT (Y t - X, Ba) (2.2.8.26)
'" '"
où eT et Ba sont les estimateurs des moindres carrés des paramètres e et
B, définis respectivement en (2.2.8.22) et 2.2.8.23)
L'erreur quadratique moyenne aymptotique de prédiction est
........ ........
V(h) = E [ Yt+h - Yt(h)]2
........
= E [(Yt+h - Yt(h)) + (Yt(h) - Yt(h)) ]2
(2.2.8.27)
Nous avons supposé que les observations utilisées pour la prédiction sont
indépendantes de celles utilisées pour l'estimation des paramètres.
Pour évaluer V(h) on calcule les deux quantités suivantes
........
E [ Yt+h - Yt(h)J2 et E [ Yt(h) -Yt(h) ]2 :
54
(i) E [ Yt+h - Yt(h)]2 = E [ Jlt+h - eh Jltl2
en utilisant (2.2.8.17) et (2.2.8.24)
D'où nous avons en utilisant le résultat de Ray (1983, Equation 4.15).
(2.2.8.28)
(ii) A partir des expressions (2.2.9.16) et (2.2.9.18), on a
.,..... '" "h '"h '"

Yt(h) - Yt(h) = X t+h (Ba - B) + (eh - eT) Yt - eh X, B + eT X, Ba
(2.2.8.29)
"
Posons f( eT, h) = "h
eT' Effectuons un développement de Taylor à l'ordre 1
"
de f( eT, h) autour de e, en négligeant les termes d'ordres supérieurs à 1 :
" "
f(eT, h) = f(e, h) + (eT - e) r(h)
où r(h) =
Alors (2.2.8.30)
De plus nous avons :
" " "

f( eT, h) X, Ba = f( e, h) X, B + f( e, h) X, (Ba - B)
55
+ [f( ê T , h) - f(S, h)] Xt B (2.2.8.31)
A partir de (2.2.8.30) et (2.2.8.31), il s'en suit que (2.2.8.29) devient:
~ ,~ ~
Yt(h) - Yt(h) =- X t+h (Ba - B) - (S T - S) r(h) Y t
(2.2.8.32)
A partir de (2.2.8.22), (2.2.8.23) et (2.2.8.31) nous avons
...... , -1 -1 ' -1 -1
E [ Yt(h) - Y t(h)]2 = X t+h DT DT Xt+h + S2h Xt DT DT X,
, -1 -1 1 2
- 2 Sh X t+h DT DT Xt + - r2(h) E( Il ) d
T 1
(2.2.8.33)
Et l'on obtient (2.2.8.25) en utilisant (2.2.8.28) et (2.2.8.32) et les résultats
suivants
1
A titre d'exemple, nous considérons le modèle de régression simple suivant dans
1
lequel k =1 :
1 Y t = B Xt + Ilt avec Ilt = (S + bd Ilt-1 + Et
1
56
1
1
Alors dans ce cas on a
T
(1- 82_cr~) L X;
t=1
où
,
G = lim X r- l (8) X
T~oo T
t
L
=
X;1
Le prédicteur des moindres carrés est alors
et l'erreur quadratique moyenne asymptotique de prédiction est donnée par
V(h) =
2.2.9.- Processus FARMA
Ces modèles ont été introduits par Granger et Joyeux (1980) et par Hoskins
(1981). C'est une généralisation assez naturelle des modèles ARIMA(p, d, q)
décrits par Box et Jenkins (1970). Si l'on permet au paramètre d de prendre
toutes les valeurs entre -1 et l, le processus FARMA(p, d, q) est défini par
2 2
(B) (1 - B)d Xt = 8(B) et (2.2.9.1)
57
où les variables aléatoires Et sont indépendantes, identiquement distribuées
gaussiennes centrées et de variance a 2 , <p(B) et e(B) sont deux polynômes ayant
leurs racines en dehors du cercle unité, B est l'opérateur retard défini sur les
variables aléatoires Xt, d est réel et le polynôme (1 - B)d a pour développement:
00
(1 - B)d = L r (- d + i ~ B l (2.2.9.2)
i = 0 r (- d) r (1 + 1)
où r (.) est la fonction gamma.

Le processus ARIMA(p, d, q) correspond au cas particulier où d est un entier
positif.
Les processus FARMA présentent un comportement longue mémoire c'est-à-dire
qu'ils sont caractérisés par le fait que leur fonction de corrélation p(h) décroit
hyperboliquement soit :
p(h) - c h 2d- 1 quand h ~ 00
où c > 0 , d < l , et où - représente l'équivalence asymptotique.

2
Les propriétés statistiques de ces processus ont été étudiées par Li et Mc Leod
(1986), Peiris et Peirera (1988), Yagima (1991).
Leur domaine d'application est la météorologie et l'économétrie.
Les processus FARMA ont été introduits dans le but de disposer d'un modèle qui
prendrait en compte de manière plus pertinente, que ne le fait le modèle ARIMA,
les prédictions à long terme, quand la fonction d'autocorrélation du processus a
tendance à décroire lentement vers zéro.
La représentation moyenne mobile du processus FARMA est obtenue en

inversant les séries autorégressives. On a :
58
00
x, = \j1(B) et = L \j1i et-i (2.2.9.3)

1 =0
\j1(B) =(1 - B)-d <1>-1 (B) e(B) = À(B) 8(B)
avec
00
8(B) = -l(B) e(B) = L Ài Bi ,80 = 1

i=o
00
À(B) =(1 - B)-d = L Ài Bi , Ào = 1

1 =0
où À' - r( d + i)
(2.2.9.4 )
1 - T(d) r(i + 1)
On en déduit que
i
\j1i = L ÔÏ-k Àk, \j10 = 1 (2.2.9.5)
k=o
Le prédicteur des moindres carrés Xt(h), h > 0 défini par

Xt(h) = E [Xt+h 1X(, Xt- l ... ] est donné par
00
Xt(h) =L \j1i et+h-i (2.2.9.6)

i =h
où \j1i est défini par (2.2.9.5)
L'erreur de prédiction et(h) = Xt+h - Xt(h) s'obtient immédiatement.
59
h-1
et(h) =L 'Vi Et+h-i (2.2.9.7)
i =0
Proposition (2.2.13) Soit X t , t E Z le processus FARMA (p, d, q)

défini par (2.2.9.1). On suppuse qu'il est inversible et stationnaire, alors l'erreur
quadratique moyenne de prédiction au pas h est donnée par :
h-1
V(h) = a 2
i=
L
0
'Vf (2.2.9.8) ••
On remarque que l'expression (2.2.9.8) est similaire à celle de l'erreur
quadratique moyenne de prédiction du modèle AR(p) définie par (2.2.6.1).
Nous allons maintenant nous intéresser à la prédiction du modèle FARMA(O, d,

0) défini par :
(2.2.9.9)
quand le paramètre d est estimé par la méthode du maximum de vraisemblance.

On suppose que E ( E; )=a 2 = 1
Le processus défini en (2.2.9.9) admet la représentation moyenne mobile
infinie suivante
00
X, =L 'Vi(d) Et-i (2.2.9.10)

1=0
où . (d - r ( d + i) (2.2.9.11)
'V 1 ) - r (d) r Ci + 1)
'"
Considérons un échantillon X 1, ... , XT. Soit dT l'estimateur du maximum
de vraisemblance du paramètre d. Yagima (1985) obtient la normalité
......
asymptotique de l'estimateur dT, à savoir
60
fi\ dT - d) - N(O, -!ï) (2.2.9.12)
Le prédicteur des moindres au pas h est donné par

00
Xt(h) =L 'Vi(d) Et+h-i (2.2.9.13)

i =h
où 'Vi(d) est défini en (2.2.9.11)
Proposition (2.2.14) (Ray, 1993) Soit Xj, t E Z le processus

FARMA(O, d, 0) défini par (2.2.9.9), alors l'erreur quadratique moyenne
asymptotique de prédiction au pas h est donnée par :
00
h-l
V(h) = ~ 'Vf(d) + 6 (2.2.9.14) • •
l~O 1 1t 2 . T
Preuve
L'erreur de prédiction asymptotique est êt(h) = Xt+h - -

Xt(h)
00
avec
Donc êt(h) s'écrit
êt(h) =[ Xt+h - -
Xt(h)] + [Xt(h) - Xt(h) ]
h-l 00 ......
=L 'Vi(d) Et+h-i + L ['Vi(d) - 'Vi(dT) ] Et+h-i

i=o i=h
61
Si on suppose que E(E 2) = 1 alors on a
t
00
h-1
=L 'Vr(d) + L E ['Vi(d) - 'Vi(dT) ]2 (2.2.9.15)
i =0 i=h
en utilisant le fait que les Et sont indépendantes et l'hypothèse selon laquelle les
observations utilisées pour estimer d sont indépendantes de celles utilisées pour la
prédiction.
Posons ~ 'Vi = 'Vi(d) - 'Vi(dT). Pour évaluer E [~ 'Vi]2 effectuons un

'"'
développement limité de 'Vi(dT) au voisinage de la valeur d. Nous avons alors
'"' ,
~ 'Vi = (d -dT) 'Vi(d) + op(i!)
où et
où la suite de variables aléatoires X, est en op (rt) si V rt > 0, et V t ~ l,

Xt
rt
-f. O. Ainsi en utilisant (2.2.9.12) nous avons
, ]2
6 [ 'V. (d)
'"'
E [ 'Vi(d) - 'Vi( dT)]2 = ~2 T + 0(i 1)
Et l'on obtient (2.2.9.14) en utilisant (2.2.9.15) et (2.2.9.16) ••

Remarquons que pour calculer V(h), il suffit d'utiliser l'approximation suivante:
'd-l
'Vi(d) - ; (d) quand i -7 00, (Voir Hoskins, 1981).
62
2.3.- Processus multivariés
Dans ce paragraphe, nous étudions la prédiction des séries temporelles

multivariées. Nous nous restreignons au cas des processus AR, ARMA et ReA.
On présente sous forme matricielle les formules donnant les expressions des
prédicteurs et des erreurs quadratiques moyennes asymptotiques de prédiction de
ces processus. 1
2.3.1.- Processus autorégressifs
On dit que le processus [Xj, tE Z} suit un processus g-dimensionnel

autorégressif d'ordre p s'il est défini par une équation du type suivant
A(B) Xt = Et (2.3.1.1)
où Xt =(X t.r . ... , Xg,t) , Et =(E Lt . ... , Eg,t)
g
A(B) = I g - L Ai Bi est un polynôme en B,
i == 1
où Al, A2, ... , Ag sont des matrices carrées (g, g).
On suppose que
1 fL (k = 0) ,
E(Et) = 0, E(Et Et_k) = \ 0 (k ~ 0) .
Le modèle (2.3.1.1) est stationnaire si les racmes de det A(z) sont

strictement à l'extérieur du cercle unité. Nous noterons les éléments de la matrice
L par cr?:.
IJ
63
Afin d'alléger l'écriture du modèle (2.3.1.1) et de faciliter l'expression des
résultats, nous utilisons la représentation suivante :
f x, = A Xt-l + Ct
(2.3.1.2)
\ x, = L~ Xt
où Xt =[ X], Xt-l, .. ·, Xt-p+l] ' ,Ct = [et, 0, ... ,0] ,

,
LI = [Ig 0 ] , et
Al A2 Ap
1 o o
A= o 1 o
o o o
Dans (2.3.1.2), X, et Ct sont des vecteurs de dimension (gp, 1), A est une
,
matrice carrée (gp, gp) et LI est une matrice (g,gp). On obtient l'expression de
Xn+h en itérant l'expreession (2.3.1.2) :
, h- 1 ,
Xn+h = LI L Ai Cn+h-i + LI Ah x,
i=o
Le prédicteur des moindres carrés Xn(h) est donné par
(2.3.1.3)
64
1
1
V(h) =E [Xn+h - XnCh)]2
1
h-l 1
I Ai LI r Li A'i LI (2.3.1.4)
1
i=o
1
Dans la pratique, on estime les g2 p paramètres de la matrice A par la
méthode du maximum de vraisemblance proposée par Wilson (1973). 1
Considérons l'opérateur R qui consiste à juxtaposer les lignes d'une matrice, le 1
vecteur y des paramètres de la matrice A est donné par yI = R( LI A).

Anderson (1971, pp. 198-205) a montré la normalité asymptotique de
l'estimateur du maximum de vraisemblance y:
(2.3.1.5)
où
Posons
L'expression de Mh est donnée par
h-I
Mh = pl I Ali (8) Ah-I-i P (2.3.1.6)
i=o
où P = (1 0) est une matrice de dimension (g2 p, g2 p2). L'expression de Mh

est une généralisation du résultat obtenu par Schmidt (1974) et Yamamoto
(1976).
65
Proposition (2.3.1) (Baillie, 1979) Soit Xt, t E Z le processus
AR(p) défini par (2.3 .1.1), alors le prédicteur des moindres carrés au pas h est
donné par
(2.3.1.7)
et l'erreur quadratique moyenne asymptotique de prédiction est :
. . . . . . . . , h-l , - -
voo = LI L Ai LI L LI A'i LI + E [(1 ® X t )' Mh'(Y-Y) (y-y)' Mh(l ® X t ) ]
i=o
(2.3.1.8)
où Mj, est définie en (2.3.1.5.). ••

Pour le pas h = 1, on a Ml = 1 et en utilisant (2.3.1.4.), l'expression de V(1)
dans (2.3.1.7) devient :
,
V(l) = L + l E(L ® x, r-' Xd
T
Si on applique l'opérateur trace au second terme du deuxième membre de V(1)

qui est un nombre, on obtient:
V(O = (1 + g p ) L (2.3.1.9)
T
Pour g = 1, (2.3.1.8) se réduit à V(O = a 2 (1 + .E.-). Ce résultat coïncide avec

T
ceux obtenus par Davisson (1965) et Bloomfield (1972).
66
2.3.2.- Processus autorégressifs moyennes mobiles
On dit que le processus [Xj, t E Z} suit un processus g-dimensionnel

ARMA(p, q) s'il est défini par une équation du type suivant
Xt - Al Xt-l - ... - Ap Xt-p = Et - Cl Et-l - ... - Cq Et-q (2.3.2.1)
où X, = (Xj j , ... , Xg,t) etEt= (El,t, ... ,Eg,t) est une suite de vecteurs
aléatoires indépendants de moyenne nulle et de matrice de variances et covariance
n, et où Al, ... , Ap, Cl, ... , Cq sont des matrices carrées (g, g). On peut
introduire les polynômes de retard autorégressif et moyenne mobile.
P
A(B) = Ig- L Ai Bi
i =1
q
C(B) = I g - L Ci Bi
i=1
où Ig est la matrice identité de rang g et où B désigne l'opérateur retard

B x, = Xt-l.
Le processus défini en (2.3.2.1) est stationnaire et inversible si les racines

des équations det A(z) =0 et det C(z) = 0 sont strictement à l'extérieur du cercle
unité, c'est-à-dire telles que 1 z 1 > 1. Sous ces contraintes de stabilité, les
polynômes A(B) et C(B) peuvent être inversés, ce qui conduit à d'autres
représentations du processus ; une représentation moyenne mobile infinie.
00
x, = 'V(B) Et = L 'Vi Et-i (2.3.2.2)

i=0
67
où 'V(B) =A-l(B) X(B) et 'Vo =Ig
une représentation autorégressive infinie
00
1t(B) x, = L 1ti Xt-i =Et (2.3.2.3)

i=o
où 1t(B) = C-1(B) A(B) et 1to = I g
Les expressions paramétriques de 'Vi et 1ti sont données par:
,si i = 0
'Vi =j Ig (2.3.2.4)
I .
1 1
K A - (A - C) K , si i ~ 1
\
g ,si i =0
Xi = f I 1 (2.3.2.5)
\- K Ci - 1 (A - C) K , si i ~ 1
où K = [Ig 0]' est une matrice (gs, s), s = max(p, q), A et C sont des
matrices (gs, gs) défmies par
~ 2
A= I g (s- 1) C= Ig(s -1)

1
As o o
1
1 On obtient l'expression de Xn+h en itérant l'expression (2.3.2.2).
1 Xn+h = ~ (B) En+h + ~* (B) En
1 où ~ (B) + Bh 'V~* (B) = 'V(B) est tel que

1 68
1
1
•
h-l h-l 1
~ (B) =.L 'Vi Bi , 'V~* (B) = L 'I/h+i Bi
1=0 i=o 1
En utilisant (2.3.2.3) nous avons 1
Xn+h = 'V~ (B) en+h + 'V~* (B) n(B) x, (2.3.2.6) 1
00
1
Posons Àh(B) =
i
L
=0
Â.h,i Bi = ~* (B) n(B). Alors on a
l
00
Xt(h) = Àh(B) x, = L Àh,i Xt-i (2.3.2.7)

i= 0
où les poids Àh,i sont définis par :
Àh,i = K' Ah-i Ci(A - C) K, (h ~ l, i ~ 0). (2.3.2.8)
L'erreur quadratique moyenne de prédiction est alors donnée par:
h-l
V(h) = L 'Vi il 'Vi
i=o
Le prédicteur des moindres carrés défmi par (2.3.2.7) peut aussi s'écrire
(2.3.2.10)
69
- ,
où P = (po, Pl, ... ) , Pi = Ci(A - C) K, i ~ ° et
'
Xt =( X, ' Xt- 1, ... )'.
Dans le cas où les paramètres sont estimés, le prédicteur Xn(h) = K' Âh-l P Xn
peut être utilisé. Le vecteur 'Y des paramètres du modèle s'écrit 'Y = (a' B') où
a = Vec (A K) et B = Vec (C K).
Wilson (1973) a obtenu la normalité asymptotique de l'estimateur du maximum
de vraisemblance y:
ff(y - 'Y) - N(O, V)

où V est donné dans l'article cité.
Proposition (2.3.2.) (Yamamoto, 1981) Soit Xl, t E Z le

processus défini par (2.3 .2.1). On suppose qu'il est stationnaire et inversible,
alors l'erreur quadratique moyenne asymptotique de prédiction au pas h est :
\T(h) =E [ Xn+h - Xn(h) ]2
...... ......
= V(h) + E [( Xn(h) - Xn(h) ]( Xn(h) - Xn(h))' ]
1 = V(h) + 1. E(Y~ Uh V Uh Y n) (2.3.2.10)

T
1 ,
où V(h) est définie par (2.3.2.7), où Yn =[ x, ® I g , X n- 1 ® I g , ... ]' et où
1 Uh est donné par Yamamoto (1981). • •
1
A titre d'exemple, nous considérons le processus univarié ARMA(l, 1)
1 défini par
1
1 70
1
1
•
1
Pour ce processus, nous avons
1
V(h) = V(h) + ~ {2 <l»2(h-1) + 2(h-l) (<I»-e) <l»2h-3 + (h-l)2 (1--$ e)2 <l»2(h-2)}
T 1
avec
h -1
V(h) = 0'2 [ 1 + (<1» - e) 2 .~ <1»2 (i-l)
]
1
1 =1
1
2.3.3.- Processus autorégressifs avec coefficients aléatoires
1
On dit que le processus {Xl, t E Z} suit un processus g-dimensionnell
autorég.ressif d'ordre p à coefficients aléatoires s'il est défini par une équation du 1
type suivant
p
X, = ~ (ai + bit) Xt-i + Et (2.3.3.1)
i =1
où
(i) a =(al, a2, .. ,' ap)' est une matrice de coefficients, de format pg x g
(ii) b t =(blt, b2t, ... , bp,t)' est une suite de matrices (pg x g) telles que
E(b t) = 0 , E [ Vec (b t) Vec(bt) ] = F (2.3.3.2)
(i ii) {Et, t E Z} est une suite de g variables aléatoires telles que

,
E(Et) = 0 , E(Et Et) = S (2.3.3.3)
(i v) {bd et {Ed sont respectivement des suites i.i.d
(v) [b-] est indépendante de {Et} pour tout 1.
Le modèle défini par (2.3.3.1) admet la représentation suivante
71
f x, = (A + B t) Xt-I + Ct
(2.3.3.4)
\ x, = L~ x,
où A(pg x pg), Bt(pg x pg), X, (pg x 1), Ct(pg x 1), LI (pg x g),
sont définies de la manière suivante
ap bpt
1 o o o o o
A= o 1 o , Bt = o 1 o
o o o o o o
,
"
Xt = [ X, ,X t- 1 , ... , X t-p+ 1 ]' ,C t = [ Et, 0, ... ,0]' ,LI = [Ig, 0,... , °]'.
Nicholls et Quinn (1982) ont établi la condition de stationnarité du
processus Xt. Ils ont aussi montré que sous cette hypothèse de stationnarité la
matrice de variances et de covariances V de X, est
Vec (V) = (1 - A ® A - W)-l H (2.3.3.5)
où
(i) W = E [Bt Bd
(ii) H = E [Ct ® Cd = Vec (J ® S)
(Hi) J = L L'où L(p x 1) est définie par L = (1, 0, ... ,0)'
(i v) ® est le symbole de Kronecker du produit des matrices.
On obtient l'expression de Xn+h en itérant l'expression (2.2.3.4)
72
, h-l ,
Xn+h = LI L Mi Cn+h-i + LI Mh x, (2.3.3.6)
i=o
où
(i) Mo =1
i -1
(i i) Mi = II (A + Bn+h-k) , 1 s i s h .
k=o
Le prédicteur des moindres au pas h est donné par
(2.3.3.7)
V(h) = Vec [E(Xn+h - Xn(h) ) ( Xn+h - Xh(h»' ]
= (LI ® LI)'(I - Ah ® Ah) Vec (V) (2.3.3.8)

(Voir Ray, 1988).
Lorsque le paramètre a du processus défini par (2.2.3.1) n'est pas connu,

on peut l'estimer en utilisant la procédure suggérée par Nicholls et Quinn (1982).
Ces derniers ont montré sous certaines conditions la consistance de l'estimateur â.
Ils ont aussi prouvé que Vec (â - a) est asymptotiquement normal, de moyenne
nulle et de matrice de variances et de covariances :
D =L [S-@ V-l + z-i E(Zt F Zt) Z-1 ] (2.3.3.9)

T
où
(i) Z = Ig ® V
(ii)
les autres symboles sont définis comme précédemment.
73
::::::
Dans ce cas, le prédicteur de Xn+h ,Xn(h), est
......... ,
Xn(h) = Âh X n =(I pg e X n) f(Â, h) (2.3.3.10)
= Vec (A h).
A A'
où f(A, h)

effectue un développement de Taylor de f(Â, h) au voisinage de Vec (â) = Vec
(a), en négligeant les termes d'ordres supérieurs à 1. On peut remarquer que
a f (A, h) ] =[ a f(A, h) / a Vec (a) ]

[
aVec (â) â =a
Alors
Xn(h) = Ah Xn + (lgp ® X-'n) Rh Vec (â - a) (2.3.3.11)

où
h- 1
R = [ a f (A, h) ] = ~ (Ai ® A'h-I-i) L2 (2.3.3.12)
h a Vec (a) i~
où L2 est une matrice de format (g2 p2 x g2 p) défini par L2 = (lpg2, 0, ... ,0)'
1
L'expression de Rh dans (2.3.3.12) a été obtenue par Yamamoto (1976).
1 On alors le résultat suivant. --
1 Proposition (2.3.3) (Ray, 1988) Soit Xl. t E Z le processus défini

par (2.2.3.1). On suppose qu'il est stationnaire, alors l'erreur quadratique
1
moyenne asymptotique de prédiction est donnée par
1
\T(h) = Vec [ E(Xn+h - Xn(h) (Xn+h - Xn(h))' ]
1
= (LI ® Lü' Vec (V I)
1
74
1
1
-
~ 1
Yec (YI) = (1 - Ah e Ah) Yec (Y) + .1 [ P(I ® Yec (Y))'] (Rh ® Rh)
T
2 2
gp 1
x [Yec (S ® y-I) + (Z ® Z)-I(PI (I g2 ® y. ) QI) ] X Yec (F) (2.3.3.11
où P, Pl et QI sont des matrices de permutation et où 1

y. = E [(Xn Xn ) e rx, Xn ) ] --1
A titre d'exemple, nous considérons le cas où g = 1 et p = 1. Alors 11
modèle (2.3.3.1) prend la forme
1
X, = (a + bt) Xt-l + Et
1
où a est un paramètre fixé, Et et bt sont des variables aléatoires telles que
1
E(Et) = E(b t) = E(bt Et) = 0, E(E2t) = crE2 et E(b2) = ab'

2
L'hypothèse de
t
stationnarité est donnée par a2 + a 6< 1. Alors nous avons
Ce résultat coïncide avec celui établi par Ray (1983).
75
2.4.- Conclusion
Dans ce chapitre nous avons présenté l'état actuel des connaissances

concernant la prédiction des processus AR, ARMA, ARIMA, RCA,
BILINEAIRE, ARMA-ARCH, GARCH, ARMAX et FARMA.
Le domaine de la prédiction des processus linéaires est bien connu
actuellement. Des logiciels, des systèmes experts ont été mis en place pour rendre
opérationnel la plupart des résultats obtenus pour ces modèles linéaires.
Par contre pour les processus non linéaires, l'étude analytique de leur
fonction de prédiction est souvent difficile à mener. Il existe ainsi dans la
littérature de nombreux processus non linéaires pour lesquels le domaine de la
prédiction reste ouvert. On peut citer par exemples certains modèles à seuil, les
proceessus FARMA dans le cas où les paramètres sont inconnus, certaines classes
de modèles bilinéaires, les modèles autorégressifs exponentiels (EXPAR) et un
certain nombre de modèles non linéaires multivariés.
Dans la pratique, le calcul de la prédiction de certains modèles non
linéaires peut être envisagé en ayant recours à des méthodes numériques.
Un exemple de ces méthodes qui donne de bons résultats est le Bootstrap
introduit par B. Efron en 1979.
75 bis
Chapitre 3 - ERREUR DE PRÉDICTION DANS UN MODÈLE
ERRONÉ
3.1.- Introduction
Dans le chapitre 2, nous avons étudié la prédiction de plusieurs classes de

modèles. Nous avons utilisé le critère de l'erreur de prédiction minimum et pour
chacun des processus considérés nous avons donné l'expression analytique de sa
fonction de prédiction et celle de son erreur quadratique moyenne de prédiction.
Dans ce chapitre, nous considérons la situation dans laquelle un modèle

erroné est utilisé dans la phase d'identification et nous nous proposons d'évaluer
le coût de cette erreur de spécification en tenue de croissance d'erreur
quadratique moyenne de prédiction.
En effet, ce problème de l'erreur de prédiction qui a lieu quand on prédit à

partir d'un modèle erroné se pose dans la pratique, car le modèle identifié ne
correspond pas généralement au véritable modèle généré par les observations du
processus à prédire.
Dans la littérature, quelques études ont été effectuées sur la prédiction dans
un modèle erroné. On peut consulter par exemple et sans vouloir être exhaustif
les travaux de Cleveland (1971), Bloomfield (1972), Oranger et Newbold (1977,
Section 4.7), Lawrance et Kottegoda (1977), Davis et Newbold (1980), Hoskins
(1984), Levis et Reinsel (1988), Nelson (1992), Ray (1993) et Hassler (1994).
Le principal objet de cette étude est d'étudier d'un point de vue théorique
les différents types d'erreurs que l'on peut observer en fonction des différents
modèles identifiables. Les modèles identifiables retenus pour notre étude
appartiennent aux classes de modèles telles que: ARIMA (Box et Jenkins, 1970),
76
FARMA (Granger et Joyeux, 1980; Hoskins, 1981), Bilinéaire (Granger et
Anderson, 1978), ARCH (Engle 1978), RCA (Nicholls et Quinn, 1982), ARMA-
ARCH (Weiss, 1984).
Notre étude diffère des études précédentes dans le sens où nous établissons
pour la plupart des modèles considérés des résultats théoriques et non
numériques. De plus cette étude couvre des classes de modèles qui n'avaient pas
été étudiées de ce point de vue jusqu'à présent.
3.2.~ Modèles considérés
Dans toute cette section, nous utilisons les notations suivantes :
(Hc) : l'hypothèse sous laquelle le modèle correct est utilisé

(He) : l'hypothèse sous laquelle le modèle erroné est utilisé
Xt(h) : le prédicteur des moindres carrés au pas h sous (He)
X;(h) : le prédicteur des moindres carrés au pas h sous (He)
V(h) : l'erreur quadratique moyenne de prédiction au pas h sous (He)
V*(h) : l'erreur quadratique moyenne de prédiction au pas h sous
l'hypothèse où le modèle erroné est utilisé à la place du modèle
correct.
Nous voulons évaluer le coût de l'erreur de spécification entraîné par

l'utilisation du modèle erroné à la place du modèle correct. Pour cela, nous
utilisons la mesure P(h) définie par :
li<
P (h) = V (h) - V(h)

. V(h)
77
Cette mesure nous permettra d'évaluer le pourcentage de perte d'erreur
quadratique entraînée par l'utilisation du modèle erroné.
Ce paragraphe est organisé de la manière suivante : Dans la section l, nous

considérons les processus univariés et dans la section 2, nous traitons le cas de
quelques processus multivariés.
3.2.1.- Processus univariés

3.2.1.1.- Processus ARIMA
Supposons tout d'abord que le processus [Xj, t E Z} soit gouverné par un

modèle ARIMA(p, d, q) défini par l'équation :
<l>(B) (l - B)d X, = S(B) Et (3.2.1.1.1)
p q
où <l>(B) = 1 - L <l>i Bi , S(B) = 1 - L Si Bi et
i=l i=l
où {Er, te Z} est un bruit blanc de variance 0 2 et Bi X, = Xt-i, B est

l'opérateur retard. On suppose que :
- les constantes <l>i, 1 s i s P et Si, 1 s i s q sont connues.

- les polynômes <l>(B) et S(B) ont leurs racines en dehors du cercle unité.
- d et 0 2 sont connus et sont non nuls.
On suppose maintenant qu'on ajuste un modèle ARIMA(p*, d", q*) au

processus Xt défini par (3.2.1.1.1). Le modèle erroné est alors de la forme:
<l>*(B) (l - B)d* =S*(B) nt (3.2.1.1.2)
78
p q*
où *(B) = 1 -
.
L ~ Bi , 8*(B) = 1 -
1 .
L1 8~ Bi,
1
1=1 1=
et où {nt, te Z} n'est pas nécessairement un bruit blanc. On suppose que:
- les constantes <1> ~, 1 s i ::; p* et 8~1 , 1 s i ::; q" sont connues.

1
- les polynômes *(B) et 8*(B) ont leurs racines en dehors du cercle unité.
- d" est connu et est non nul.
Dans ce qui suit, nous présentons le cadre d'étude dans lequel le problème
de l'erreur de prédiction dans un modèle ARIMA est traité. Nous considérons
deux cas:
(i) d = d*= 0
(ii) d:;é d" ,d:;é 0, d" :;é 0
(i) 1er cas: d =d* =0

(He) : ARMA(p, q) (B) Xt = 8(B) et
(He) : ARMA(p*, q") 8*(B) Xt = 8*(B) nt
Sous (He), le processus {Xj, te Z} admet la représentation moyenne

mobile infinie suivante :
00
Xt = ",(B) et = L
i=o
"'i et-i , "'0 = 1 (3.2.1.1.3)
où ",(B) = -1(B) 8(B) (3.2.1.1.4)
Le prédicteur des moindres carrés au pas h est donné par :
79
00
Xt(h) = L o/i Et+h-i (3.2.1.1.5)

i =h
L'erreur de prédiction dans le modèle correct est
et(h) =Xt+h - Xt(h)
h-l
= L o/i Et+h-i (3.2.1.1.6)
i=o
et la variance de l'erreur de prédiction est
h-l
V(h) = 02 L 0/[ (3.2.1.1.7)
1 =0
Sous (He), le processus {Xt, t E Z} admet la représentation moyenne

mobile infinie suivante :
00
x, =o/*(B) nt = L o/t nt-i , ~ = 1 (3.2.1.1.8)

i=o
où
o/*(B) = cj>*-l(B) 8*(B) (3.2.1.1.9)
Nous supposons à tort que le processus {nt, t E Z} est un bruit blanc, alors
sous (He) le prédicteur
00
Xt*(h) = L 'JI:' nt+h-i

1
(3.2.1.1.10)
i=h
pourra être utilisé.
On définit:
80
œ(B) = 0"'-1 (B) cj>"'(B) cj>-l(B) O(B) (3.2.1.1.11)
nous avons alors

00
nt =a(B )êt = L ai êt-i , ao =1 (3.2.1.1.12)

i=0
ce qui prouve que le processus {nt. t E Z} suit un modèle ARMA(p + q"', q +

p").
En utilisant (3.2.1.1.12), il s'en suit que le prédicteur défini par

(3.2.1.1.10) se réécrit de la manière suivante (cf. Annexe) :
00
x't (h) = . Lh 'V~ (h) êt+h-i (3.2.1.1.13)

1=
avec
i- h
I \jI~-k ak
'V1:' (h) = k=o (3.2.1.1.14)
Alors, on a le résultat suivant.
Proposition 3.1. Soit Xt, t E Z le processus ARMA(p, q) défini par

(3.2.1.1.3). On suppose qu'il est stationnaire et inversible. Si on ajuste un modèle
ARMA(p*, q") erroné au processus Xj, alors l'erreur quadratique moyenne de
prédiction dans le modèle erroné est donnée par :
00
V*(h) = V(h) + (}"2 L

. h
(\jIi - 'V:' (h»2
1
(3.2.1.1.15)
1=
où V(h) est l'erreur quadratique moyenne de prédiction dans le modèle

correct, définie par (3.2.1.1.7). • •
81
Preuve
L'erreur de prédiction dans le modèle erroné est
e" (h) = Xt+h - X* (h)

t t
= [Xt+h - Xt(h) ] + [Xt(h) - X * (h)]

t
En utilisant (3.2.1.1.6) et (3.2.1.1.13), on a
h -1 00
e* (h) =
t.
l
1 =0 1=
l
'Vi Et+h-i + . h ('Vi - w: (h)
1
Et+h-i (3.2.1.1.16)
On déduit de l'expression (3.2.1.1.16) et de l'hypothèse de non-corrélation

des Et que la variance de l'erreur de prédiction dans le modèle ARMA(p*, q*) est
V*(h) = V [e* (h)]

t
h-1 00
= cr2 l 'V f + cr 2 . l h ('Vi - 'V: (h) )2

1
i =0 1 =
Et l'on obtient (3.2.1.1.15) ••

Dans tout ce qui suit on pose
00
G(h) = cr 2 . lh
('Vi - 'V7 (h»2
1
, la valeur de V*(h) s'obtient alors par la relation
1=
V*(h) = V(h) + G(h).
82
On remarque au vu du résultat de la proposition 3.1. que V*(h) ~ V(h). Notons
également que :
V(h) ~ V(Xt) quand h ~ 00,
et que
V(h+l) - V(h) = 'V~ (12 ~ 0,
ce qui exprime que sous l'hypothèse (He), les prédictions sont d'autant plus
instables que l'horizon est éloigné.
Nous considérons maintenant quelques cas particuliers et pour chacun de

ces cas, nous donnons les expressions obtenues pour V(h) et G(h) dans les
tableaux 1 à 6.
(Hc) : AR(l) (He) : AR(l)
Xt = <1> Xt-l + Et, 1 <1> 1 < 1
'V7= *i , i ~ 0 x, (h)= <l>h x,

<lo= 1, <li = (<1> - <1>*) <l>i-l, i ~ 1 X* (h)=*h
t
x,
)'(0) = (12
1 - <1>2
V(h) = )'(0) (l - <l>2h) , G(h) = )'(0) (h - *h)2
Tableau 1
83
(He) : MA(l) (He) : MA(l)
Xt = Et - 8 Et-l , 18 1< 1 X, = nt - 8* nt-l , 18* 1< 1
ao =l , ai = (8* - 8) 8*i-l , i ~ 1
V(l) = 0"2 , V(h) = )'(0) , h ~ 2

G(h) = 0"2(8* - 8)2 [1 + 8* 2 ] , h =1
1-8* 2
G(h) = 0"
2 (*
8 - 8
)2 8*2h-2, h ~ 2
1-8*2
Tableau 2
(He) : MA(l) (He) : AR(l)
X, = Et - 8 Et-l , 18 1< 1 X, = q,* Xt- l + nt , 1q,* 1< 1
)'(0) = 0"2 (l + 8 2)
V(l) = 0"2 , V(h) = )'(0) , h ~ 2
G(h) = 0"2 (q,* + 8)2 + 8 2 q,*2 ] , h = 1
G(h) = 0"2 (l + 8 2) q,*2h , h ~ 1
Tableau 3
84
(He) : MA(2) (He) : AR(l)
Xt=Et-81 Et-1-82 Et-2 X, = <1> * Xt-1 + nt, 1<1> *11
<
82 + 81 < 1 , 82 - 81 < 1, - 1 < 82 < 1
ao = 1, al = - ( 81 + <1>*) , a2 = (- 82 + 81 <1>*)
a3 = 82 <1>* , ai = 0 , i ~ 4
')'(0) = a 2 (l + 821 + 822 )

2
V(l) = a 2 , V(2) = a 2 (l + 8 1 ) , V(h) = y(O) , h ~ 3
G(h) = a 2 [(81 + <1>*)2 + (82 - <1>* 81 )2 + <1>*2 8~ ],h= 1
G(h) = a 2 [(82 + <1>*)2 + (81 <1>*2)2 + (82 <1>*2 )2 ] , h = 2

G(h) = y(O) *2h , h ~ 3
Tableau 4
(He) : ARMA(l,I) (He) : AR(I)

Xt = <1> Xt-1 + Et - 8 Et-1
1 <1> 1 < 1 , 1 8 1 < 1 , <1> *8 X, = <1>* Xt-1 + nt, 1<1>* 1< 1
ao = 1, ai = (<1> - 8) (<1> - <1>*) <l>i-2 , i ~ 1
'V7 (h) = .fi. *i + (l - .fi. ) <l>i (L)h V(l) = a 2

1 <1> <1> <1>'
V(h)=a2[1+(-8 f 1_8
2(h-1)]
,h~2
1 _ <1>2
G(h) = a2 (1 - .fi.)2 (
<1>
1
1 - <1> * 2
+ 1
1 - <1>2
- 2
1 - <1> <1> *
l <1>*2 h
Tableau 5
85
(Hc) : ARMA(1, 1) (He) : AR(l)
Xt = <1> X t-1 + Et - 8 Et-1
Xt = <1> Xt-1 + nt, 1<1> 1< 1
1<1>1<1,181<1,<1>#8
V(l) = 0'2
1 _ <1> 2 (h-1) ]
V(h) = a 2 [ 1 + (cIl- 0)2 2 ,h ~ 2
1-<1>
Tableau 6
Au vu des résultats obtenus dans les tableaux 1 à 6, on note que pour tous ces cas
lim G (h) = O. Comme V*(h) = V(h) + G(h), on a alors:

h~+oo
lim V * (h) = 1
h ~ + 00 V (h)
c'est-à-dire que V*(h) - V(h) , quand h ~ + 00. De manière équivalente, on a

P(h) = 0(1), quand h ~ + 00, ce qui exprime que si on ajuste un modèle
ARMA(p*, q*) à un modèle ARMA(p, q), la perte d'erreur quadratique est
négligeable lorsque l'horizon de prédiction est éloigné.
Remarque 3.3.
1. G(h) est une fonction qui n'est pas nécessairement monotone. En effet si on
considère le résultat du tableau 1 on a G(h) = "«0) (h - </>*h)2 , par exemple, si
on choisit <1> = 0.5 et <1>* = 0.7, alors on a
86
G(h) = 0.0400 "«0), h =1
= 0.0576 "«0), h=2
= 0.0475 "«0), h=3
= 0.0315 "«0), h =4 , etc
2. V *(h) est une fonction qui n'est forcément monotone croissante

contraitement à V(h). En effet au vu du résultat du tableau 6, on note que
V*(2) - V*(l) = [ <l>2(l + 8 2) - 2 <1> 8 ] (}"2
Si on choisit 8 =0.5 et <1> = 0.7 alors on obtient
V*(2) - V*(l) = - 0.0875 (}"2
3. A partir de la relation :
V*(h) = V(h) + G(h),
on peut utiliser G(l) comme une mesure de la "proximité"(closeness) du modèle

incorrect au modèle correct. Reconsidérons l'exemple du tableau 3
(Hc) : MA(l) X t = êt - 8 êt-l 181< 1

(He) : AR(l) X, = <1>* Xt-l + nt 1 <1>* 1 < 1
On a G(l) = (}"2 [(<1>* + 8)2 + 828*2 ] , GO) est minimisé par le choix de
~* -8
<1> = = p(1)
1 + 82
où p(1) = y (1) est la fonction d'autocorrélation à l'ordre 1 du processus

y (0)
MA(l), qui vérifie la condition 1 p(1) 1 < l .
2
87
4. Si l'on considére toujours l'exemple du tableau 3, on remarque que G(2)
-*
est minimisé, par le choix de <1> = O. On obtient ici un résultat important qui est
l'importance de l'horizon de prédiction quand on choisit un modèle erroné. Ce
résultat théorique sera illustré par les simulations du chapitre 5.
Nous allons maintenant considérer le cas où les coefficients du modèle

erroné sont non connus. Nous traitons uniquement le cas où le modèle erroné est
un AR(p*). Dans ce cas les paramètres autorégressifs sont estimés en résolvant les
équations de Yule-Walker :
p*
r(k) =L <l>j* r(k- i), (k = 1,2, ... , p*) (3.2.1.1.17)
i =1
où r(k) est l'autocorrélation empirique d'ordre k.
Ces estimateurs sont aymptotiquement équivalents à ceux des moindres

carrés. Dans ce cas, on montre que l'erreur quadratique moyenne de prédiction
dans le modèle erroné est donnée par
......
V*(h) = V*(h) + L(h) (3.2.1.1.18)
où V*(h) est définie par (3.2.1.1.15), et où la quantité L(h) est donnée par
,
L(h) = tr (Mh V~ * Mh I) (3.2.1.1.19)
où
"'*
(i) V", est la matrice de covariance aymptotique des <1> i . Cette matrice peut
cj)*
être obtenue à partir des résultats de Kendall et Stuart (1977, p. 247) et Anderson
(1971, p. 489).
, ,
(ii) I=E[Xn X n l avec Xs =(Xl, ... ,Xn ) .
h-l
(iii) Mj, est la matrice (p* x p") définie par Mh = L 'V: 1
Ah-l-i
i =0
88
avec A = [aij ] est la matrice (p* x p*) telle que
a 1j = plim (~il u= 1,... , p*)
ai+ 1,i = 1 (i = 1, ... , p* - 1)
et tous les autres éléments de la matrice A sont égaux à zéro.

(Voir Davies et Newbold, 1980).
(ii) 2 ème cas: d :t d*

(Hc) : ARlMA(p, d, q)
(He) : ARIMA(p*, d*, q*)
Ce cas se traite de la même manière que le précédent. Le résultat obtenu

dans la proposition 3.2. reste toujours valable pour ce cas aussi. A titre
d'exemple, considérons le cas simple suivant:
(Hc) : ARIMA(l, 1, 0), (l - <1> B) (l - B) X t = Et, 1 <1> 1< 1
(He) : AR(l), Xt = * Xt-l + nt ,
<1> 1<1> * 1< 1
On donne dans le tableau 7, les résultats obtenus pour ce cas.
89
(Hc) : ARIMA(l, 1,0) (He) : AR(l)
(l - <l>B) (l - B) X, = Et , 1 <1> 1 < 1 Xt=*Xt-l + nt,II<1
1 _ <l>i+l
'Vi = ·>0
,1_
1-<1>
'Vi*(h) = 1
1-<1>
[ <1>' h _ <l>i+ 1
(~. rJ
V(h) =
cr2 [h -
2 <1> (1 _ <l>h) + <1>2 (I - <l>2h ) ]
(1-}2 1-<1> 1 _ <1>2
00
avec
Tableau 7
Les simulations numériques pour ce cas montrent que si on ajuste un modèle

AR(l) à un modèle ARIMA(l, 1, 0), alors la perte d'erreur quadratique n'est pas
négligeable lorsque l'horizon de prédiction s'éloigne. En effet, au vu du résultat
obtenu dans le tableau 7, on remarque que la fonction G(h) ne tend pas vers zéro
quand h ~ 00.
90
3.1.1.2.- Processus F ARMA
Ces modèles ont été introduits par Oranger et Yoyeux (1980) et par
Hoskins (1981). C'est une généralisation assez naturelle des modèles ARIMA
considérés dans la section précédente. Nous considérons ici le cas général suivant:
(Hc) : FARMA(p, d, q) (B) (1 - B)d X t =S(B) Et

(He) : FARMA(p*, d", q*) *(B) (1 - B)d* X t = S*(B) nt
On suppose que
- les <l>i , 1 s i s p, Si, 1 ~ i s q, <l>t, 1 ~ i s p* et si , 1 s i s q* sont

des réels connus.
- les polynômes (B) , S(B) , *(B) et S*(B) ont leurs racines en dehors du
cercle unité.
- d et d* sont des réels connus et sont non nuls avec 0 < d < 1,0 < d*< 1,
2 2
- {Et, t E Z} est un bruit blanc de variance a 2
On définit:
00
• Ô(B) = -l(B) S(B) = L

1=0
Ôi Bi , Ôo =1
00
• Ô* (B) = <1>*-1 (B) S*(B) = L ôi Bi, Ô~ =1

i=o
00
• À,(B) = (1 - B)-d =L À,i Bi , Â.o = 1

i =0
avec À.ï r (d + i)
= --~~- , 1·>0
_
r (d) r (i + 1)
91
00
• 1t*(B) = 8*-1 (B) <1>* (B) = L

i=o
00
• <x(B) = 1t*(B) (l - B)d*-d ô(B) =L <Xi Bi , <Xc = 1

i =0
Sous (He), le processus [Xi, t E Z} admet la représentation moyenne

mobile infmie suivante
X, = Â(B) ô(B) Et ='V(B) Et

00
=
1=0
L 'Vi Et-i , 'Vo = 1 (3.2.1.2.1)
où
1
'Vi = L Ôi-k Âk . (3.2.1.2.2)

k=o
L'erreur quadratique moyenne de prédiction est donc donnée par
h-l
V(h) = cr 2 L 'Vf (3.2.1.2.3)
i=o
Sous (He), la représentation moyenne mobile infinie du processur FARMA (p*,

d*, q*) sera
Xt = Â*(B) ô*(B) nt ='V*(B) nt
00
=i L
=
'V7
0 1
*=1
nt-i , 'Vo (3.2.1.2.4)
i
'V7=L
1
(3.2.1.2.5 )
k=o
92
Le prédicteur des moindres carrés qui est utilisé sous (He) sera de la forme
00
x;* (h) = .,
c:h*
'V. (h) êt+h-i
1
(3.2.1.2.6)
1=
i- h
avec ~(h) =
1
L
k= 0
'V~
1-
k Ok (3.2.1.2.7)
où les ok sont définis par
o(B) = e*-l(B) <l>*(B) (l - B)d*- d <l>-l(B) e(B)
00
(3.2.1.2.8)
On a alors le résultat suivant analogue à celui établi pour le processus ARMA(p,

q).
Proposition 3.2. Soit Xj, t E Z le processus FARMA(p, d, q) supposé

stationnaire et inversible. Si on ajuste un modèle FARMA(p*, d", q") erroné au
processus Xj, alors l'erreur quadratique moyenne de prédiction dans le modèle
erroné est donnée par
00
V*(h) = V(h) + 0"2 L

. h
('Vi - ~ (h) )2
1
(3.2.1.2.9)
1=
où V(h) est l'erreur quadratique moyenne de prédiction dans le modèle correct

FARMA(p, d, q), définie par (3.2.1.2.3). ••
93
Remarque 3.4. Le résultat établi dans la proposition 3.2. est identique à celui
de la proposition 3.1.. C'est tout simplement une généralisation du résultat obtenu
pour le processus ARIMA.
Le cas considéré ici est assez général, cependant il permet de traiter

différents cas particuliers. On peut se faire une idée plus précise pour les
différents cas envisageables à partir du tableau suivant, (les X indiquent les cas
envisagés dans les simulations).
(He) ~ FARMA FARMA FARMA FARMA

---_ ..... --- .. ---- (0, d, 0) (p, d, 0) (0, d, q) (p, d, q)
..
(He) J..
AR(p*) X X
MA(q*) X
ARMA(p*, q*) X
FARMA(O, d*, 0) X
X
FARMA(p*, d*, 0)
X
FARMA(O, d*, q*)
X
FARMA(p*, d*,
q*)
Tableau 8
94
Remarque 3.5. Ray (1993) a étudié le cas où un processus AR(p*) est utilisé
pour prédire les observations générées par un processus FARMA(O, d, 0). Il a
considéré le cas où les paramètres des modèles correct et erroné sont estimés. Les
résultats furent satisfaisants dans la mesure où les modèles AR se sont trouvés
très adéquats pour la prédiction à long terme des modèles FARMA(O, d, 0). Pour
notre part, nous avons montré dans nos simulations que les modèles ARMA (p*,
q*) à leur tour peuvent être utilisés avec beaucoup de succès pour prédire dans le
long terme des observations générées par un processus FARMA(p, d, q).
3.2.1.3.- Modèles bilinéaires
Les modèles bilinéaires d'ordre (p, q, P, Q) à valeurs réelles, notés

BL (p, q, P, Q) ont pour expression
q Q p
x, = ai Xt-i + Et + L Cj Et-j + L L bjk Xt-k Et-j (3.2.1.3.1)
j=l j=l k=l
où Et est un bruit blanc de (}'2 = 1.

Ces modèles ont été introduits par Granger et Anderson (1978). Leur prédiction
a été exposée dans le chapitre 2.
Il a été montré par Pham (1985) que la fonction de covariance du processus
bilinéaire (3.2.1.3.1) est la même que celle d'un processus ARMA ayant pour
coefficients autorégressifs al, ... , ap, et dont les coefficients moyenne mobile
sont des fonctions de ai, Cj et bj k .
Notre but est de montrer qu'on peut utiliser un modèle ARMA pour prédire les
observations générées par un modèle bilinéaire.
Le cas considéré ici est donc le suivant
(Hc) : BL(p, q, P, Q)
(He) : ARMA(p*, q*)
95
Nous organisons notre travail de la manière suivante: dans un premier
temps, nous donnons l'expression de V*(h) et dans un deuxième temps nous
illustrons nos résultats en considérant les deux modèles bilinéaires suivants :
(1) Xt = a Xt-l + b Xt-l Et-l + Et

(2) X, = a X t-2 Et-l + Et
Supposons tout d'abord que le processus [Xi, t E Z} soit gouverné par un

modèle BL(p, q, P, Q) défini par (3.2.1.3.1). L'erreur quadratique moyenne de
prédiction est donnée par (Voir Proposition 2.2.6)
V(h) = K Qh K' + 1 (3.2.1.3.2)
On suppose maintenant que le modèle bilinéaire a été incorrectement

identifié comme un modèle ARMA(p*, q*) de la forme
*(B) Xt = 9*(B) nt (3.2.1.3.3)
où *(B) et 9*(B) sont deux polynômes ayant leurs racines en dehors du

cercle unité. Sous (He), le processus [Xr, t E Z} admet la représentation
moyenne mobile infinie suivante:
00
X, ='V*(B) nt = . L 'II:'1 nt-i , ~0 = 1 (3.2.1.3.4)

1=0
où
'V*(B) =*-l(B) 9*(B) (3.2.1.3.5)
Quand le modèle ARMA(p*, q*) est supposé être le modèle correct, alors
le prédicteur
96
00
x; (h) =.Lh ~ 1
nt+h-i (3.2.1.3.6)
1=
peut être utilisé.
Il est à noter que le processus {nt, t E Z} n'est pas un bruit blanc. En effet la
représentation autorégressive du processus [Xj, t E Z} sous (He) est
00
~ 1t*i Xt-i , 1t*0 = 1

nt = 1t*(B) Xt = "-' (3.2.1.3.7)
i=o
On note 'Yx(h) = Cov(X t, Xt+h), la fonction d'autocovariance du

processus BL(p, q, P, Q). Le processus bilinéaire étant supposé stationnaire, on
en déduit que le processus {nt, t E Z} défini par (3.2.1.3.7) est stationnaire, de
fonction d'autocovariance :
00 00
'Yn(h) = L L 1t~ 1tJ 'Yx (h - i + j) (3.2.1.3.8)

1=0 j=o
1
1 Alors, en utilisant (3.2.1.3.4), on obtient
1 h-l h-l
V*(h) = L c:
~ ~ ~ 'Yn (i - j)
1 J
(3.2.1.3.9)
i=o
j=o
1
1 Le pourcentage de variation de l'erreur quadratique moyenne de prédiction

quand le modèle ARMA(p*, q*) est utilisé à la place du modèle BL(p, q, P, Q) est
1
donné par:
1
P(h) = 100 V * (h) - V (h)
V (h)
1
1
97
1
1
1
h-l h-l
L L 'Vi 'Vr 'Yn (i - j) - K Qh K' - 1
i=o j=o
::: 100 (3.2.1.3.10)
K Qh K' + 1
Cette représentation suppose que les 'V~ soient connus. La généralité de la

1
représentation (3.2.1.3.10) la rend difficile à être analysée. Nous allons alors

considérer les deux cas particuliers suivants.
(i) 1er cas
(He) : BL(l, 0, 1,1) Xt::: a Xt-l + b Xt-l et-l + et

avec 1a 1< 1 et a 2 + b2 < 1
(He) : AR(l)
Pour ce cas, on a le résultat suivant:
Proposition 3.3. Soit {Xj, t E Z} le processus BL(l, 0, l, 1) défini par

X t::: a Xt-l + b X t-l et-l +êt. On supposee qu'il est stationnaire et inversible.
Si on ajuste le modèle AR(l) de la forme Xt::: a Xt-l + nt, au processus BL(l, 0,
l , 1), alors l'erreur quadratique moyenne de prédiction au pas h du modèle
AR( 1) erroné est donnée par
V*(h)::: b 2 ( 1 - ah ) 2 + 1 + b 2 + b4 (1 - a 2h ) + 2 a b 2 ( 1 - a 2 (h-l) ]2
1- a 1 - b2 1 - a2 1 - a2
(3.2.1.3.11)
De plus, si b ~ °alors
V*(h) - V(h) ::: 0(1) quand h ~ + 00 (3.2.1.3.12)
où V(h) est l'erreur quadratique moyenne de prédiction du modèle correct
BL(l, 0, 1, 1). • •
98
Preuve: Tout d'abord, on considère le modèle correct BL(l t Ot l , 1) :
X t = a Xt-1 + b X t-1 et-1 + et (3.2.1.3.13)
Sous l'hypothèse de stationnarité et d'inversibilité du processus

BL(t o. t, u, on a
(3.2.1.3.14)
Ajustons le modèle AR(l) :
Xt = a Xt-1 + nt (3.2.1.3.15)
au processus BL( 1t Ot 1t 1). La représentation moyenne mobile infinie du modèle

ajusté AR(l) est
00
x, = L ai nt-i (3.2.1.3.16)
i =0
Le prédicteur des moindres carrés du modèle AR( 1) erroné est
00
x; (h) = L ai nt+h-i. On remarque que le processus [nj, t E Z} n'est pas un

i =h
processus de bruit blanc. En effet, pour que les relations (3.2.1.3.13) et
(3.2.1.3.15) soient vérifiées toutes les deux t on doit avoir:
nt =b X t-1 et-1 + et (3.2.1.3.17)
Le processus [nj, t E Z} défini par (3.2.1.3.17) est un processus BL(Ot Ot I, 1).

Sa fonction d'auto covariance est (Voir, par exemple Gabr, 1988) :
99
2 + b4
E(nt) =b , Vartn-) = 1 +1b_ b2 ' 'Yn (h) = E(nt nt+h), vn (h) =COY (nt. nt+h)
='Yn(h) - b 2 avec vn (1) =b 2 et Vn (h) =0, h> 1
En utilisant (3.2.1.3.16), on a
Y*(h) = E [ Xt+h - X; (h) ] 2
=E [
h- l
.L ai nt+h-i
]2
1=0
h-l h-l
=L L ai+j 'Yn (i - j)
i=o j=o
Comme 'Yn(h) = vn(h) + hl, alors on a
h-l h-l
Y*(h) =L L ai+j [b2 + vn (i - j) ]
i=o j=o
2 h-l h-2
= hl (1 + ah) + vn(O) L 2i
a + 2 vn(1) . L
a 2i + 1
1- a i=o 1=0
2h 2
= hl (1 + ah )2 + 1 + b 2 + b4 (1 - a ]2 + 2 a b 2 ( 1 - a (h-l) )
1- a 1 - b2 1- a 1 - a2
Et l'on obtient (3.2.1.3.11).

En utilisant (3.2.1.3.11) et (3.2.1.3.14), on obtient
lim { lim [ Y* (h) - y (h)] } = 0

b~o h~+oo
Et l'obtient (3.2.1.3.12) ••
100
(ii) Zème cas
(He) : BL(O, 0, 2, 1) X, = a X t- 2 Et-l + Et

avec a2 < 1 et 2 a2 < 1.
(He) : AR(p*) <p*(B) X, = nt
où <p*(B) = 1 - <P: B - ... - <p;* BP* ,est un polynôme dont les racines sont
en dehors du cercle unité. Sous (He), un calcul simple montre que
V(h) = l ,h = 1
= 1 h> 1
1 - a2 '
Le processus BL(O, 0, 2, 1) est centré, de variance 'Yx(O) = 1 2 et de fonction

1- a
d'autocovariance 'Yx(h) = °,h > 1.
Quand le modèle AR(p*) est supposé être le modèle correct, alors
h-l h-l
V*(h) = L L 'V: 'Vj 'Yn (i - j)
1=0 j=o
où les '11' sont définis par 'V*(B) = <p*-I(B) et où la fonction 'Yn(h) est donnée par
1
P*
1
'Yn(h) = 1
1 - a2 i = 0
L
1ti 1ti+h
1
1
avec 1to* = 1, n.1* =- th*·
't'. ,1
1
=- - 1,... , p * et 1t.1* = °
,v 1>
'1,../' p *.
1
1
101
1
1
Dans les simulations, nous avons considéré différents choix de p*,
(p*=I, 2, ... , 6). Les résultats numériques de ces simulations indiquent qu'à
l'horizon très court terme,(h = 1, h = 2), le meilleur modèle AR(p*) ajusté est
obtenu pour p*= 6. De plus on remarque que si l'horizon s'éloigne (h ~ 4), le
meilleur modèle ajusté est obtenu pour p*=l.
3.2.1.4.- Processus ReA
Dans cette section, nous considérons la situation dans laquelle un modèle

erroné AR(p*) est utilisé pour prédire les valeurs futures d'un modèle
stationnaire RCA(p). Sans perdre de généralité, nous allons considérer le cas où
p = p* = 1.
Notre but est alors de comparer les erreurs de prédiction des modèles
RCA(l) et AR(!).
Supposons tout d'abord que le processus [Xi, t E Z} soit gouverné par un

modèle RCA(l) :
X t = (a + b-) Xt-l + Et (3.2.1.4.1)
où a est un paramètre fixé, Et est un bruit blanc de variance a ~, br est une

variable aléatoire telle que: Eïbr) = 0, E(b2) = ~. Le processus défini par
t
a 2E
(3.2.1.4.1) est centré, de variance 'Yx(O) = 2 2 et de fonction
1 - a -ab
d'autocovariance 'Yx(h) ='Yx(O) ah. Sous le modèle (He) défini par (3.2.1.4.1), il
est bien connu que le prédicteur des moindres carrés au pas h est donné par
(3.2.1.4.2)
102
et l'erreur quadratique moyenne de prédiction est :
V(h) ='Yx(O) [ 1 - a2h ] (3.2.1.4.3)
On suppose maintenant qu'on ajuste un modèle AR(l)
X, = cp'" X t- l + nt, 1 cp'" 1 < 1 (3.2.1.4.4)
On a alors le résultat suivant:
Proposition 3.4. Soit le processus RCA(l) stationnaire défini par (3.2.1.4.1).

Si on ajuste le modèle AR(l) défini par (3.2.1.4.4) au processud RCA(l), alors
l'erreur quadratique moyenne de prédiction au pas h du modèle AR( 1) erroné est
donnée par:
(3.2.1.4.5)
avec ft.. = La'" et B = a cp'"
De plus si 1cp '" 1< 1al, 1a cp '" 1< 1, et si cp '" ~ 0, alors on a :
V"'(h) - V(h) = 0(1) quand h ~ 00 (3.2.1.4.6)

1
Preuve: Sous le modèle erroné (3.2.1.4.4), on a

1
00
1
Xt = L cp"'i nt-i
i=o
1 et
1
103
1
1
1
h-l h-l 1
V·(h) = L L ·i+j 't« (i - j) (3.2.1.4.7)
i=o j=o
1
Pour calculer la fonction d'autocovariance du processus {nt, t e Z}, on
1
utilise la représentation autorégressive infinie du processus AR(1) défini par
(3.2.1.4.4) à savoir 1
00
1
nt=
i=o
L 1t.•1 Xt-i (3.2.1.4.8)
1
*
avec 1t*o=1, 1tl=- • et 1t*i = 0, V i> 2.
Alors on a
00 00
'Yn(h)= .LL .L 1t~ 1tj 't« (h - i + j)

1=0 J=O
où 'Yx(h) est la fonction d'autocovariance du processus RCA(l), donnée par

'Yx(h) = 'Yx(O) ah. Un calcul simple montre
= [(1 + <1>*2) a - <1>*] 'Yx(O) ah- 1
Alors en utilisant (3.2.1.4.7), on obtient
* 2) a _ th. * ] h. ~ 1 h. ~ 1
V*(h) = 'Yx(O) [ (1 + * i+j a1-J
1=0 J=O
... 2) ... ] h - 1 h-l

= 'Yx(O) [
(
1 + <1> a a - <1> .L L Bi À.Î
1=0 j=o
104
(0)
[( 1 + cp * 2) a - cp *] (1 _ À,h) (1 - Bh)
= 'Yx a (1 - À) (1 - ~)
Et l'on obtient (3.2.1.4.5)
Si 1 Â. 1 <1 et 1B 1< 1 alors on a
Hm V*(h) = 'Yx(O) [(1 + cp* 2) a - cp*]

h --) + 00 a (1 - Â.) (1 - ~)
Comme lim
h--)+oo
V*(h) = 'Yx(O), alors
f [( 1 + cp* 2) a - cp *] _ 1 )
h ~n: 00 [V*(h) - V(h)] = 'YiéO) \ a (1 - À) (1 -~)
Si Cp* --) 0 alors À --) 0 et B --) 0 , d'où
pm { lim [v'no - V(h)] } = 0

cp--)o h~+oo
Ce qui termine la preuve de la proposition (3.4). ••

1
Remarque 3.6. Le résultat obtenu dans la proposition 3.4. indique que
l'approximation d'un modèle erroné AR(l) au modèle correct RCA(l) est
1
d'autant meilleur quand l'horizon s'éloigne que les valeurs de Cp* sont proches de
1 zéro. De plus, on vérifie facilement que V*(l) - V(l) est minimisé par le choix
de cp* = 21a . Ainsi on note que l'horizon de prédiction joue un rôle fondamental
1 dans le choix d'un modèle ajusté. En effet le meilleur modèle approximatif
1 obtenu pour l'horizon 1 est différent de celui obtenu par exemple pour l'horizon
h = 2.
1
105
1
1
1
3.2.1.5.- Processus autorégressif avec bruit ARCH 1

Pour le processus autorégressif d'ordre p avec bruit ARCH(p), nous 1
proposons d'ajuster un modèle AR(p*). Le cas considéré ici est donc:
1
(He) : AR(p) avec bruit ARCH(p) 1
(He) : AR(p*)
1
Nous allons considérer le cas particulier: p = p* = 1, les autre cas se

1
traitent de manière analogue. Soit le modèle AR(1) avec bruit ARCH(l) défini
par:
(3.2.1.5.1)
où les Et sont des variables aléatoires i.i.d de moyenne nulle et de variance 1.

Nous supposons 1 a 1 < l , Ào> 0 et À,1 < 1.
Le processus défini par (3.2.1.4.1) est centré, de variance
'Yx(O) = (1 - <Il
2)Ào (
1- À,1
) et de fonction d'autocovariance 'Yx(h) ='Yx(O) ah.
Sous (He), le prédicteur des moindres carrés au pas h est :
X t (h) =ah X, (3.2.1.5.2)
et la variance de l'erreur de prédiction est donnée par:
V(h) ='Yx(O) [l - a2h ] (3.2.1.5.3)
106
On constate alors que les résultats obtenus pour le processus AR(l) - ARCH(l)
sont similaires à ceux obtenus pour le processus RCA( 1).
Donc si on ajuste un modèle AR(l)
Xt = <1> * Xt-l + nt ,1 <1> * 1< 1 (3.2.1.5.4)
au processus AR(1) - ARCH(l), alors on obtient des résultats similaires que ceux
obtenus dans la proposition 3.4.
3.2.1.6.- Processus ARCH
Considérons le processus {Xd t E Z, défini par les équations suivantes :
]~
X, = Et [ a o + . Lp ai (X~-i - a o) 2 (3.2.1.6.1)
1= 1
où Et est un bruit gaussien. Un tel processus suit un modèle ARCH(p). Sous les
p
conditions de régularité : ao> 0, ai ~ 0, 1 s i s P et Lai < 1, Milhoj (1985) a
i=1
montré que le processus ARCH(p) défini par (3.2.1.5.1) est non corrélé, de
moyenne nulle et de
variance ao : Cov(X t, Xt-h) = °pour h "* 0, E(X t) = °et E ( X~ ) = ao. Pour ce

modèle aussi nous proposons d'ajuster un modèle AR(p*) ; d'où le cas
(Hc) : ARCH(p)
(He) : AR(p*)
Le processus ARCH(p) a la même structure que le processus bilinéaire
superdiagonal d'ordre un défini par X, = a Xt- 2 Et-l + Et.
Les résultats numériques obtenus pour le processus bilinéaire superdiagonal
d'ordre un sont encore vrais pour le processus ARCH(p). Il est donc indiqué
107
d'utiliser un modèle AR(p*) pour prédire les observations générées par un
modèle ARCH(p).
3.2.2.- Processus multivariés linéaires
Soit [Xj, tE Z} le processus g-dimensionnellinéaire (Hannan, 1970, p. 209)

00 00
X t = Et + L 'Pi Et-i, L Il 'Pi Il < + 00 , (3.2.2.1)

i =1 i =1
, ,
où X, =(Xlt, ... , Xgd et Et =(Elt, ... ,Egt) sont des suites de vecteurs
aléatoires et où les Et sont indépendants, identiquement distribués centrés
,
E(Et) = 0, homoscédastiques V(Et) = 2, et non corrélés COV(Et, Et) = 0 et
, 00
Il 'Pi 11 2 = tr('Pi 'Pi). On définit: 'P(z) = L 'Pi zi , où 'P 0 = l , la matrice

i =0
identité de taille (g x g). On suppose que les racines de det 'P(z) sont strictement
à l'extérieur du cercle unité, i.e det {'P(z)} "# 0 pour 1 z 1~ 1. Dans la pratique,
le vrai modèle généré par [Xr, t E Z} est souvent inconnu, nous supposons alors
que le processus {Xj, t E Z} est incorrectement identifié comme un processus
ARMA(p, q) :
p q
Xt - L Ai Xt-i = nt - L Ci nt-i (3.2.2.2)
i=l i=l
où les nt sont identiquement distribués centrés E(nt) = 0, homoscédastiques

Vent) = 2,*, mais pas nécessairement indépendants.
108
p q
On définit A(z) = 1 - L Ai zi et C(z) = 1 - L Ci zl, nous supposons que les
i=l i=l
racines de det {A(z)} et det {C(z)} sont strictement à l'extérieur du cercle
unité. Posons
'P*(z)= A(z)-l C(z), avec 'P~ = l, alors le processus défini par (3.2.2.2) admet la
00
représentation moyenne mobile infinie : X t = nt + L

. 1
'P~ nt-i. Les paramètres
1
1=
du modèle défini par (3.2.2.2) sont généralement estimés, pour le moment

supposons qu'ils soient connus.
Sous le vrai modèle (3.2.2.1), le prédicteur des moindres carrés au pas h est
00
donné par Xt(h) = L'Pi Et+h-i et la matrice de l'erreur quadratique moyenne

i=h
de prédiction est
V(h) = E { [Xt+h- x, (h) J [ Xt+h - x, (h) JI} (3.2.2.3)
h-l
=
i
L
=0
Quand le modèle erroné ARMA(p, q) défini par (3.2.2.2) est supposé être le
00
modèle correct le prédicteur X*(h) =

t .
Lh 'P~ nt+h-i pourrait être utilisé.
1
1=
00
Si on définit a(z) = L ai zi = C(z)-l A(z) 'P(z), alors le processus {nt, tE Z}

i= 0
admet la représentation moyenne mobile suivante:
00
nt =
i=
L 0
ai Et-i (3.2.2.4)
109
Il s'en suit que:
00
X * (h)
t
= . ""
c:h \f.* (h) €t+h-i
1
(3.2.2.5)
1=
avec
i-h
\f.* (h) = c:
"" \f.1-
* k Ctk (3.2.2.6)
1 k =0
En utilisant la méthodologie de la proposition(3.2), on obtient l'expression

de la matrice de l'erreur quadratique moyenne de prédiction du modèle erroné
V*(h) = E { [Xt+h - X*(h) ] [ Xt+h - X*(h) ]'}

t t
= V(h) + E { tx, (h) - X;(h)] rx, (h) - X;(h) ]'}
00
= V(h) + c: {[\fi - \f.1* (h) ] ""s: [\fi - \f.1*

""
. h
(h),
]} (3.2.2.7)
1=
L'expression (3.2.2.7) est tout simplement une généralisation de l'expression

(3.2.1.1.15). En effet si g = 1 alors les deux expressions coïncident.
A titre d'exemple, nous considérons le cas où le modèle correct MA(l)
X t = €t + e €t-i est approximé par le modèle erroné AR(l) : Xt = A Xt- l + nt.
Les résultats obtenus par ce cas sont donnés dans le tableau 7 dans lequel on pose
00
G(h) = L
. h
[\fi - \f~ (h) ] L [ \fi - \f~ (h) ]'
1 1
1=
110
(Hc) : MA(l) (He) : AR(l)
X, = 8 Et-l + Et X t=AXt- 1 + nt
Et =WN (0, L)
V(h) =L ,h =1
,h ~ 2
G(h) = (8 - A) ~
L (8 - A) , + A 8 ~"
L 8 A ,h =1
= Ah L Ah' + 8 [ Ah L Ah'] 8' ,h ~ 2
Tableau 9
On note alors que G(l) = V*(l) - V(l) est minimisé par

,
A=8 L(L + 8 L 8')-1 = r(- 1) r(O)-1 où r (h) = E(X t X t+h) est la
fonction d'autocovariance du processus MAO).
Si g = 1, c'est-à-dire dans le cas univarié, les résultats du tableau 9 coïncident
avec ceux du tableau 3.
Nous avons jusqu'ici supposé que les paramètres du modèle erroné étaient
connus. Maintenant nous considérons le cas où ces paramètres sont estimés pour
un modèle erroné AR(p). Nous voulons estimer les paramètres AI, ... , Ap du
modèle AR(p) sans constante, à partir des observations XI, ... , X T . Pour cela, il
faut résoudre les équations des moindres carrés suivantes :
p
l Âi Dis = Dos (s = 1, 2, ... , p) (3.2.2.8)
i =1
T ,
où Dis = .L l Xt-i X t-s , avec N = T - p.
N t = p+l
111
Les paramètres Ai, 1 ~ i ~ P définis dans (3.2.2.2), représentent les probabilités
limites de Â], Ai = plim(Â i), ils vérifient alors
p
2 Air (i - s) = r (- s) (s = 1, 2, ... , p) (3.2.2.9)
i=l
où r(m) = E(Xt Xt+m ).
Sous le modèle incorrect AR(p), le prédicteur des moindres carrés est
...
, , ,
ou Xt = ( X, ' ... , X, -p+ l)' , Ep = (1 0 ... 0)
(gp, 1) (g, gp)
et
Al A2 Ap
1 0 0
A= 0 1 0
(gp, gp)
0 0 ... 1 0
Posons a = Vec(Al, ... , Ap) et â = Vec(Â I, ... , Âp ). La matrice de l'erreur de

prédiction du modèle erroné s'écrit
ê
* (h) = Xjïh) - X
. . . . * (h)
t t
.... *
= [ Xt(h) - X;(h)] + [ X;(h) - X (h) ]
t
h-l
En utilisant l'identité Âh - Ah =.2 Âi (Â-A) Ah-I-i et en procédant comme
1= 0
dans Reinsel (1980), nous avons
112
...........
X (h) - X*(h)
,
= Ep (Âh -
-
Ah) X,
t t
, h-l i-l
=( x, ® 1) Mh (â. - a) + L L 'P~ E~ (Â - A) Ai-l-k
i=o k=o
Ep x E~ (Â - A) Ah-l-i + X, + F (3.2.2.10)
où
h-l
Mh = L (A'h-l-i ® E~ Ai E p )
i=o
h-l
= L
.
(A'h-l-i ® 'P~),
1
1=0
avec 'Pi
...
= Ep' AI
.
Ep , et
h-l i-l
F= L L E~ (Âk - Ak) E p E~(Â - A) Ai-l-k Ep E~(Â - A) Ah-l-i x,
i=o k=o
Posons
(3.2.2.11)
Q'(h)
-
= E(Xt+h
-'
Xd -
,
Ep Ah E(
-
x, -'
Xd
,
= (T(e-h) , r(- h - 1), ... , r (- h - P + 1)) - E p Ah r (3.2.2.12)
Pi-k = N l~ 00 E [N E~ (Â - A) Ai-l-k E p E~(Â - A)] (3.2.2.13)
Alors on a le résultat suivant
113
Proposition 3.2.2. (Lewis et Reinsel, 1988) Soit Xt, t E Z le
... * , -
processus défini par (3.2.2.1) et soit X t (h) = Ep Âh X, le prédicteur défini dans
le modèle erroné AR(p), alors on a
...... ......* ......*

V *(h) = E [(Xt+h - X (h)) ( Xt+h - X (h))' ]
t t
00
= V(h) + . Lh ('Pi - 'P; (h) ) 2.('Pi - 'P~ (h) )'

1 1
1=
h- 1 h- 1 _, , _
+ N- 1 L L E [(Xt ® I)(A'h-l-i ® 'P~) x W(Ah-1-k ® 'P= )(X t ® 1)
i=o k=o
h- 1 ' ,]
- N- 1 Q'(h) [ .L A h-1-i 6,' 'P;
1=0
1 i-l ]
N- 1 Q'(h) "'" A'h-1-i p' UJ*'
- [ his:
"'"=-0 s: i-k Tk
k=o
h-1i-1 ]
_N- 1 [ .L L 'Pk Pi-k A h-1-i Q(h)
1 =0 k=o
(3.2.2.14)
où West défini dans l'article cité plus haut. ••

114
Remarque. Le résultat de la proposition (3.2.2) généralise celui établi par
Bhansali pour le cas univarié (Voir Bhansali, 1981, Théorème 5.1).
3.3.- Intervalle de prédiction dans un modèle erroné
Dans cette section, nous nous intéressons à la détermination d'un intervalle

de prédiction dans un modèle erroné. Pour cela nous utilisons la forme de la loi
de l'erreur de prédiction dans le modèle erroné, e"t (h) = Xt+h - x'o»,
t
pour
construire un intervalle contenant avec une probabilité donnée la valeur

recherchée Xt+h.
Si on introduit l'hypothèse de normalité du bruit blanc, l'expression
e" (h) = Xt+h - X* (h)

t t
h-l 00
= L 'JIi Et+h-i + L ('JIi - 'JI: (h)) Et+h-i

i=o i=h
montre que e"t (h), combinaison linéaire de variables aléatoires normales
indépendantes, suit aussi une loi normale centrée dont la variance est donnée par
h- 1 00
V*(h) = a 2 --i=o
L 'JI ~ + a 2 L <'JIi - 'V~ (h) )2
1 i=h 1
Alors on a
Xt+h - X*(h) = e" (h)

t t
h- l
2
-N [ 0,a
2
( i~ 'JI.1 L
i=h
115
Par conséquent, on a pour toute valeur a comprise entre 0 et 1,
~h-j 00
0"
.
L 'Vf1 + L ('Vi - 'Vi (h) ) 2
1=0 i=h
$ X*(h) + 00
t
+ L ('Vi - 'Vi (h) ) 2
] =1- Cl (3.3.1)
i=h
où Jll-î est le quantile d'ordre 1 - ~ de la loi normale centrée réduite.
L'intervalle dont les extrémités sont:
X t*(h) + Il
""1~v.
rv
éi ~ h - j 00
(3.3.2)
2 "k.J 'V.
"2
. 1
1 =0
où &, 'Vi et 'V~ (h) sont des estimateurs convergents de 0", 'Vi et 'Il (h) est un
1
intervalle de prédiction de Xt+h au niveau 1 - a.
Remarque 3.3. La formule (3.3.2) ne peut être utilisée que pour les modèles
ARIMA(p, d, q) et FARMA(p, d, q). Pour les autres modèles, on peut par
exemple utiliser la méthode du bootstrap pour la détermination de l'intervalle de
prédiction. Cette méthode ne nécessite pas la normalité de l'erreur de prédiction.
A titre d'exemple, nous considérons le cas suivant
(He) X t = <1> Xt-l + et, 1<1> 1< l , V(et) = 0"2
(He) x, = <1>* Xt- l + nt, 1<1>* 1< 1

1
On obtient les résultats suivants (cf. Tableau 1)
116 1
1
On obtient les résultats suivants (cf. Tableau 1)
L'intervalle de prédiction dans le modèle erroné Xt = <1>* X t- 1 + nt est
Dans le cas où les paramètres <1>, cr 2 et <1> * sont inconnus, on peut alors les
remplacer par leurs estimations ~, a2 et ~ *. Ici les paramètres <1> et cr 2
peuvent être estimés de la manière suivante: on part de
X, = <1> Xt- 1 + et, on a alors
E(X t x., Ü = <1> E ( X : ) , d'où
0-1
...... n-l
1
L= 1 x, Xt+1
<1> = t
0
1 X2
n L
t =1
t
117
2
De la relation V(Xj) = 0 2 ,on a
1- <1>
t
L
=1
X;
De plus on estime le paramètre <1>* en utilisant les relations de Yule-Walker, d'où
n-l
... *
l L x, X t+1
n t =1
<1> = Pl = - - -n - - -
l
n t
L=
1
118
ANNEXE
Soit X*(h) le prédicteur par (3.2.1.1.10), on a

t
00 00
X*t (h) = "'~" 'V1:'

i=h
nt+h-i = •
1=0
L Wi+h nt-i
Posons Ai = wi+h' on obtient alors
X;(h) = [.Ï 1= 0
Àï Bi] nt = A(B) nt
00
avec A(B) =L Ai Bi, où B est l'opérateur décalage

i=o
00
Comme nt =a(B) Et =. L ai Et-i , il s'en suit que X*<h)

t
=A(B) a(B) Et
1=0
00
Si on pose ô(B) = L s, Bi = A(B) a(B), alors

i =0
00 00
x; (h) = L
1=0
Bi Et-i = L
i=h
Ôi-h Et+h-i
00
=. Lh ~ (h) Et+h-i
1
1=
où on a posé ~1 (h) = Ôi-h . Calculons ~1 (h). Pour cela, on utilise la relation
ô(B) = A(B)a(B), la composée de deux séries en B étant une série en B, il est

facile de voir que la série ô est la convolée des suites Aet a.
On en déduit que
119
1
Bi = L
k=o
Ài-k <Xk
i- h
Donc '11 (h) = L Ài-h-k <Xk . Comme Ài = 'Vi+h , alors on a
k=o
i- h
'II:"1 (h) = kL
=0
'V.* k
1-
<Xk.
Et l'on obtient les relations (3.2.1.1.13) et (3.2.1.1.14).
120
Chapitre 4 - SÉLECTION DE MÉTHODES PAR LE CRITÈRE DE
L'ERREUR QUADRATIQUE MOYENNE DE PRÉDICTION
4.1.- Introduction
Dans ce chapitre, nous considérons un processus stochastique {Xt, t E Z},

stationnaire du second ordre et nous nous intéressons à la comparaison de
différentes méthodes de prédiction sur ce processus. Les prédicteurs considérés
sont : le prédicteur naïf, le prédicteur moyenne mobile simple, le prédicteur
lissage exponentiel simple, le prédicteur lissage exponentiel double, le prédicteur
combiné et le prédicteur espérance conditionnelle par rapport aux valeurs
passées. Pour comparer ces méthodes, on utilise le critère de l'erreur quadratique
moyenne de prédiction (E Q M P) définie par:
V(h) = E [Xt+h - X t (h)]2
où X t(h) représente le prédicteur obtenu à partir de l'une des méthodes

précitées.
Dans la littérature de nombreuses études ont été effectuées sur la
comparaison de ces méthodes : on peut consulter par exemple et sans vouloir être
exhaustif les travaux de Gross et Ray (1965), Kirby (1966), Lévine (1967), Raine
(1971), Reid (1971), Krampf (1972), Groff (1973), Newbold et Granger (1974),
Geurts et Ibrahim (1975), Mabert (1975), Makridakis et Hibon (1979),
Makridakis et al (1984). On peut consulter Bosq et Lecoutre (1992, Chapitre 8.1)
pour une revue et une discussion des nombreuses études comparatives des
méthodes de prévision. Notons que toutes ces études comparatives ont été
effectuées sur une collection de séries chronologiques diverses. Notre étude
diffère des études précédentes dans le sens où on s'intéresse à la comparaison des
différentes méthodes sur des modèles théoriques et non sur des données réelles.
Les modèles théoriques retenus ici appartiennent aux classes de modèles telles que
121
ARMA (Box et Jenkins, 1970), RCA (Nicholls et Quinn, 1982), Bilinéaire
(Granger et Anderson, 1978), ARCH (Engle, 1982), ARMA-ARCH (Weiss,
1984), FARMA (Granger et Joyeux, 1980; Hoskins, 1981).
L'approche que nous utilisons dans ce chapitre est similaire à celle de
Carbon et Delecroix (1993) qui avaient comparé la méthode non paramétrique et
la méthode de Box et Jenkins à partir des critères EMO (erreur relative moyenne
observée) et EMP (erreur relative moyenne de prévision). Le principal objet de
l'étude que nous faisons dans ce chapitre est de comparer les performances des
prédicteurs considérés sur ces différentes classes de modèles.
Le chapitre est organisé de la manière suivante : dans la section 2, on

définit les différents prédicteurs. Dans la section 3, l'erreur quadratique moyenne
de prédiction V(h) est calculée pour chacune de ces méthodes dans le cas d'un
processus stationnaire du second ordre. Enfin dans la section 4, nous appliquons
ces résultats à un certain nombre de modèles.
4.2.- Définitions des prédicteurs
On observe une série jusqu'à l'instant t et on cherche à prédire à partir de

différentes méthodes la valeur qu'elle prendra à l'instant t + h, h E N*. Nous
présentons ici les différents prédicteurs.
• Le prédicteur naïf (NAF) est donné par la dernière observation:
(4.2.1)
• Le prédicteur moyenne mobile simple (MBS) de longueur m + 1 est la

moyenne arithmétrique :
122
•
1 Xt(h) = 1 (X, + Xt-l + ... + X t- m ) (4.2.2)
m+ 1
1
où m est précisé dans la suite.
1
• Le prédicteur lissage exponentiel simple (LES) est défini par;
1
00
1
Xt(h) = ex L (l - ex)i Xt-i (4.2.3)
i =0
1
où ex(O < ex < 1) est la constante de lissage.

1
• Le prédicteur lissage exponentiel double (LED) est
Xt(h) =s, + [1+ ex

1-ex
h] [St - SSr) (4.2.4)
00
où St = ex X, + Cl - ex) St-1 = ex L Cl - ex)i Xt-i

1 =0
est la série lissée et où
00
SSt =ex St + Cl - ex) SSt-1 = ex 2 L (i + 1) (i - œ)' Xt-i

1 =0
est la série doublement lissée, ex étant la constante de lissage choisie comme

précédemment.
• Le prédicteur combiné (PCO) est
Xt(h) =À Pl +(1 - À) Pz avec 0 < À < 1 (4.2.5)
123
où Pl et P2 sont deux prédicteurs quelconques et où À est un coefficient de
pondération. La constante À optimale est celle qui minimise l'erreur quadratique
moyenne de prédiction. On obtient ici
V(h) = E [ Xt+h - x, (h) ]2
= E [ À(Xt+h - PI) + (l - À) (Xt+h - P2)]2
La constante optimale, qui minimise V(h), a pour expression
À* = E (EP22) - E (EPI EP2)

E (EP 12 ) + E (EP l )-
2 E (EPI EP2)
où EPI = Xt+h - Pl et E P2 = Xt+h - P2
sont respectivement les erreurs de prédiction associées aux prédicteurs Pl et P2.

Cette expression est obtenue par simple dérivation de V(h) par rapport à À.
Nous considérons le prédicteur combiné suivant:
PCO =À MBS + (l - À) LES (4.2.6)
où MBS et LES sont les prédicteurs définis respectivement par (4.2.2) et

(4.2.3). 1
• Le prédicteur espérance conditionnelle (ECO) défini par 1
1
(4.2.7)
124 1
1
--
où Ft = cr(Xs , s ~ t), cr(.) désigne la tribu engendrée par le passé et le présent
du processus Xt.
Le prédicteur ECO est un prédicteur probabiliste, il est par définition,

celui qui minimise l'erreur quadratique moyenne de prédiction. Il est tout
simplement utilisé comme étalon. Les autres prédicteurs sont des prédicteurs
statistiques, ils sont construits à partir des observations. Les différentes méthodes
ci-dessus sont toutes fondées sur la notion de pondération qu'on affecte à des
observations récentes de l'évènement à prévoir; elles ne sont pas nécessairement
aussi différentes qu'il peut paraître. Pour l'établir, il faut penser en termes de
modèle sous-jacent. Rappelons à cet effet que Muth (1960) a été le premier
auteur parmi tant d'autres àétablir un lien entre le lissage exponentiel et le
modèle ARIMA. Il montra que la formule du lissage exponentiel simple est la
fonction de prévision optimale du modèle ARIMA(O, 1, 1). Cogger (1974)
montra à son tour que la formule du lissage exponentiel double est la fonction de
prévision optimale du modèle ARIMA(O, 2, 2). Notons que le prédicteur naïf est
optimal pour un processus de marche aléatoire (ou martingale) c'est-à-dire tel
que: E(Xt+h / Ft) = Xt, pour toute date t et tout horizon h, h > O. Finalement,
remarquons que le prédicteur moyenne mobile simple d'ordre m + 1 est la
fonction de prévision optimale du modèle ARIMA(m, 1, 0).
4.3.- Erreur quadratique moyenne de prédiction
Nous considérons ici un processus [Xj, t E Z} centré, stationnaire du

second ordre et de fonction d'autocovariance y(h) = E(X t Xt+h). Dans les
différents lemmes qui suivent, nous donnons l'expression de l'erreur quadratique
moyenne de prédiction à l'horizon h V(h) = E [Xt+h - Xt(h)]2 associée aux
différents prédicteurs définis précédemment pour ce processus.
125
Lemme 1. Soit Xt, t E Z un processus centré, stationnaire du second ordre et
de fonction d'autocovariance y(.). Alors l'erreur quadratique moyenne de
prédiction à l'horizon h associée au prédicteur naïf défini par (4.2.1) est donnée
par
V(h) = 2 [ yCO) - y(h) ] (4.3.1)
Preuve. Nous avons
V(h) = E [ Xt+h - Xt(h) ]2
= yCO) + yCO) - 2 E(X t Xt+h)
Et l'on obtient (4.3.1) ••

Lemme 2. Soit Xr, t E Z le processus défini comme dans le lemme 1, alors
l'erreur quadratique moyenne de prédiction à l'horizon h associée au prédicteur
moyenne mobile simple défini par (4.2.2) est
m m
V(h) =m+2 yCO) - 2 Lî\i+h) + 2 L(m - s + 1) yCs) (4.3.2)
m+1 m+1 i = 0 (m+1)2 s = 1
Preuve. L'erreur quadratique associée au prédicteur défini par (4.2.2) est

donnée par
V(h) =E [Xt+h - 1
m
.L Xt-i
]2
m+1 1=0
126
m
= E [X 2
t+h
] 2
m + 1 i=o
L E [Xt+h Xt-i]
Pour ce processus stationnaire
d'où
m
V(h) = "«0) - 2
m+ 1 i =0
L
~i + h) + l "«0)
m+ 1
m
+(
m+l
2) 2 L
s=1
(m - s + 1) "«s)
m
=m + 2 "«0) _ 2 L
"«i + h)
m+l m+l i = 0
m
+ 2 L
(m - s + 1) "«s)
(m+l)2 s=1

Lemme 3. Soit Xh t E Z le processus défini comme dans le lemme 1, alors
lissage exponentiel simple défini par (4.2.3) est donnée par
127
00
V(h) = 2! ex y(0) - 2 ex i~ Cl - ex)i y(i + h)
00
+ 2a L Cl - ex)S y(s) (4.3.3)

2-0. s=l
V(h) = E [Xt+h - a _i (1 -
1 =0
a) i Xt-i] 2
00
= E [ X;+h] - 2 a L Cl - a)i E [ Xt+h Xt-i ]

i=o
00
+ 0.2 .L Cl - a)2i
1=0
E [X;_i]
00
m
+ 2 0.2 L L Cl - a)i Cl - a).i E(Xt-i Xt-j]
i=oj=i+l
Pour ce processus stationnaire
d'où 1
00
V(h) =y(0) - 20. L Cl - a)i y(i + h) 1

i=0
00
+ 0.2 y(O) + 2 0.
2
Cl - ex)S y(s) L 1
1-(1-0.)2 1-(1-a)2 s = 1
1
128 1
1
1
00
= 2 )'(0) - 2a L (l - a)i y(i + h)

2-a i=o
00
+ 2a L (l - a)S )'(s)
2-a s=1

Lemme 4. Soit Xj, t E Z le processus défini dans le lemme l, alors l'erreur
quadratique moyenne de prédiction à l'horizon h associée au prédicteur lissage
exponentiel double défini par (4.2.4) est
V(h) =1 + [1 + 1 ~ ah] 2 II - 2 [ 1 + 1 ~ ah] III (4.3.4)

où
00
1 = 2 a "«0) - 2a L
(l - a)i "«i + h)
2-a i=o
00
+ 2a
2-a
L (l - a)S "«s)
S = 1
II _ 4 - 6 a + a 2 + a 3 "«0) +
(2-a)3
00 00
2 L L [a - a 2(i + 1)] [a - a 2 (i + s + 1)] (l - a)2i+s "«s)

i=o s=1
00
III =L
1=0
[ a. - o.2(i+ 1) ] (l - a)i "«i + 1) - a
2-0.
"«0)
129
00 00 00
2a L
(l - a)i )l(i) + a 3 L L
(i+ 1) (l - a)i+j )l(i-j)
2-a i=l i=o j=o
avec
00 00
St =a L (l-a)i Xt-i et SSt =a 2 L (i+1) (l - a)i Xt-i

i=o i=o
On a alors
- 2 ( 1+ a h ) E [(Xt+h - St) (St - SSt)]

l-a
= 1+ ( 1+ a h ) 2 II - 2 ( 1 + a h ) III (A)
l-a l-a
Calculons successivement les termes l, II et III du deuxième membre de (A)
00 00
= 2 )1(0) - 2a L (i - a)i )l(i + h) + 22_a

a
L (l - a)S )l(s)
2-a i=o S = 1
en utilisant le résultat du Lemme 3.
130
00
=y(0) L [a - a 2 (i + 1) ]2 (l - a)2i
i =0
00 00
+2 L L [a - a 2 (i + 1) ] [ a - a 2<i + s + 1) ] (l - a)2i+s y(s)

i=o s= 1
D'où
a3 + a 2 - ôœ + 4
II = )'(0)
(2-a)3
00 00
+2 L L [a - a 2<i + 1) ] [ a - a 2<i + s + 1)] (1 - a)2i+s )'(s)

1=0 s=1
III = E [(Xt+h - St) (St - SSt) ]
=E [Xt+h St] - E [Xt+h SSt] - E [ S ?] + E [ s, SSt]

= (a) - (b) - (c) + (d)
Calculons successivement les termes (a),(b),(c) et (d) du deuxième membre de

III
(a) = E [Xt+h St] = E [ a i~O (1 - al i

Xt_i Xt+h]
00
=a L (l - a)i )'(i + h)
i=o
131
00
(b) = E [Xt+h SStl = a 2 L (i + 1) (l - a)i y(i + h)

i =0
00
= a y(0) + 2 a
2-a 2-a i = 1 L
(l - a)i y(i)
00
00
(d) = E(St SSt) = a 3 L L Ci + 1) (l - a)i+j y(i - j)

i=o j=o
En remplaçant les expressions obtenues pour I, II et III dans (A), on démontre

le lemme 4. ••
Lemme S. Soit Xt, t E Z le processus défini dans le lemme 1, alors l'erreur

quadratique moyenne de prédiction à l'horion h associée au prédicteur combiné
défini par (4.2.6) est donnée par
(4.3.5)
1
où
m m
1 =m+ 2
m+1
y(0) - 2
m+1 i=o
L y(i + h) + 2
(m+1)
2 L
s=l
(m - s + 1) y(s) l
J
00
m
II = 2 ~ a y(0) - 2 a i~O (l - a)i y(i + h) + 22_~ s~l (l - a)S y(s) 1
00 m 00
1
III = y(O) - L [0(1 - a)i + 1 ] y(i+h) + a L L
(l-a).i y(i-j)
1
i=o m+ 1 m+ 1 i=oj=o
132 1
1
Preuve. L'erreur quadratique associée au prédicteur combiné
PCO = À MBS + (1 - À) LES
est
V(h) = E [Xt+h - À MBS - (1 - À) LES ]2
(x - ~ X
2
= E [À t+h m
1
+1 i % .) + (l -
t-l
À) (X
t+h
- S
t
)1~
On a alors
+(1 - À)2 E [Xt+h - Stl 2 + 2 À(1 - À) E [(Xt+h - MBS) (Xt+h - LES) ]
(B)
Calculons successivement les termes l, II et III du deuxième membre de (B)
I=E[Xt+h - 1 m
.L X t_ i
]2
m+1 1=0
r m
00
= ~ :; "«0) - m ~ 1 L "«i + h) + ( 2) 2 L (m - s + 1) -y(s)

i=o m+l s=l
en utilisant le résultat du lemme 2.
133
II = E[Xt+h - a.i
1=0
(1- a)i Xi ] 2
t
_
00 00
=2 ~ "«0) - 2 a l (l - a)i ')'(i + h) + 2 a l (l - a)S ')'(s)
a i=o 2-a s=1
en utilisant le résultat du lemme 3.
III = E [(Xt+h - MBS) (Xt+h - LES) ]
00]
-E [ Xt+h 1
m+ 1i ~o
X
t-i
+ E [( 1
.LJ
m + 1 1=0
; X .) (a;
t - l . LJ
j=o
(1 - a)j X .)]
t-j
00
= ')'(0) - a l (l - œ)' ')'(i + h)
1=0
fi fi 00
1 l
')'(i + h) + a 1 l
(l - a~ ')'(i - j)l
m+ 1 i=o m+ i=o j=o
00
=')'(0) - l [a (1 - a) i + 1 ] ')'(i + h)
i=o m+l
134
m m
+ Cl L L (l - Cl~ y(i - j)
m+ 1 1=0 j=o
En reportant les expressions obtenues pour l, II et III dans (B), on démontre le

kmme5. ••
Lemme 7. Soit Xt, t E Z un processus donné. On suppose qu'il admet la

représentation moyenne mobile infinie suivante
00
x, = L 'Vi Et-i
i=o
où les poids 'Vi définissant le processus sont des nombres réels vérifiant
00
L l 'Vi 1< + 00, avec 'Vo = 1 et où Et est un bruit blanc de variance (}"2. Alors
i =0
ECO défini par (4.2.8) est
h -1 ]
V(h) = [ 1 + L
.1= 1
'V ~
1
(4.3.6)
Remarque. Dans les formules (4.3.1) - (4.3.5), on note que l'expression de

l'erreur quadratique est obtenue en fonction de l'autocovariance y(h). Si le
processus considéré est non centré d'espérance Jl, alors il suffira de
remplacer dans ces formules y(h) par c(h) + Jl2 où c(h) est la fonction
d'autocovariance du processus centré. L'approche est cependant, complètement
différente pour le prédicteur optimal ECO. La formule (4.3.6) pourra être
utilisée pour les modèles ARMA(p, q) et FARMA(p, d, q). Pour les autres
modèles considérés, on pourra utiliser les résultats du chapitre 2.
135
4.4.- Comparaison des erreurs quadratiques
Nous étudions essentiellement les prédicteurs pour les processus ARMA(p, q)

et ARCH(p). Nous appliquons ensuite ces résultats aux processus RCA, AR-
ARCH et Bilinéaire. Nous utilisons le critère de minimalité de l'erreur
quadratique moyenne de prédiction pour comparer les performances des
prédicteurs NAF, MBS, LES, LED, et PCO. Dans tout ce qui suit le prédicteur
ECO considéré est simplement utilisé comme étalon.
4.4.1.- Modèles ARMA
On dit que le processus Xl, t E Z suit un modèle ARMA(p, a), s'il est
stationnaire du second ordre et défmi par la relation suivante
<l>(B) Xt = 8(B) Et (4.4.1.1)
{Xl, t E Z} est un bruit blanc de variance 0

2 tel que
E(Et Xt*) = 0 , t* ~ t- 1
<l> et 8 sont des polynômes à coefficients réels de degré p et q respectivement et

sont définis par :
<l>(z) =1- <l> 1 Z - ••• - <l>p zP , <l>p -:t: 0
8(z) = 1 + 81 z + ... + Oq zq , Oq -:t: 0
On suppose que les racines des polynômes <l>(z) et 8(z) sont toutes de
module strictement supérieur à 1. Sous ces conditions, le processus ARMA défmi
par (4.4.1.1) admet la représentation moyenne mobile infmie suivante
136
00
x, ='V(B) Et = L 'Vi Et-i (4.4.1.2)

i=0
où les poids 'Vi sont définis par
'Vo = 1
minû, p)
'Vi =Si + L <l>k 'Vi-k, i = 1, 2, ...

k=1
et par convention Si = 0 pour i > q et <Pi = 0 pour i>p. Notons que les 'Vi définis
par (4.4.1.2) peuvent être calculés en utilisant la relation (2.2.2.7). La fonction
00
d'autocovariance du processus est alors y(h) = 0 2 L 'Vi 'Vi+h·

i =0
Nous allons comparer les performances des prédicteurs ECO, LES, MBS et
NAF sur les deux processus particuliers: AR(l) et MA(l). On notera par EQi(h)
l'erreur quadratique moyenne de prédiction à l'horizon h où i représente, dans la
suite, le numéro du prédicteur utilisé.
- Soit le processus AR(l) stationnaire défini par
X t = 1< 1 (4.4.1.3)
Pour ce processus, on a 'Vi = <pi , i ~ O. Ce processus est centré, de

variance y(O) = 02(l - h.
Posons: a =1 - (l - Cl) 2h) "«0)
(ii) LES: EQ2(h) = ( ~ + 2 (1 ~ ~) <l> a - ~ <l>h ) "«0)
Un choix conseillé de la constante de lissage est a = 0,3 [Voir à ce sujet

Cox (1961) ou Brown (1962), Chapitre 8]. Alors, dans ce cas
EQ2(h) = (1.1764 + 0.247 <l> - 0.6 <l>h ) "«0)

1 - 0.7 <l>
(iH) MBS: EQ3(h) = (m + 2 -

m+ 1
2 (1 - <l>m+l) <l>h
(m + 1) (1 - <l»
l "«0)
+ 2 ( (m + 1) (1 - <l>m) <l> _ 1 - {1 - (1 - <l» m ) <l>m <l» "«0)

(m + 1) 2 . 1 - <l> (m + 1) (1 - <l»
(iv) NAF: EQ4(h) = 2 (1 - <l>h) "«0)
Nous avons calculé les valeurs des différentes erreurs

quadratiques pour h = 1, ... , 10 et ceci pour les valeurs de <l> comprises entre
0,1 et 0,9 avec un pas de 0,1. Nous donnons les valeurs de EQi(h) en fonction de
"«0) pour h = 1 et i = l, ... , 4 dans le tableau 10.
138
Valeurs ECO LES MBS MBS MBS NAF
de cl» (a. = 0.3) (m = 10) (m = 20) (m = 50)
0.1 0.9000 0.1393 1.0888 1.0470 1.0195* 1.8000
0.2 0.9600 1.0986 1.0857 1.0462 1.0193* 1.6000
0.3 0.9100 1.0544 1.0807 1.0448 1.0191* 1.4000
0.4 0.8400 1.0078* 1.0725 1.0425 1.0187 1.2000
0.5 0.7500 0.9619* 1.0579 1.0385 1.0180 1.0000
0.6 0.6400 0.9262 1.0301 1.0306 1.0167 0.8000*
0.7 0.5100 0.9262 0.9732 1.0124 1.0136 0.6000*
0.8 0.3600 1.0735 0.8511 0.9621 1.0042 0.4000*
0.9 0.1900 1.94000 0.5836 0.7779 0.9523 0.2000*
Tableau 10
Erreur quadratique moyenne de prédiction à l'horizon h =1
des différents prédicteurs sur le modèle X t = <1> Xt-l + et
Dans le tableau 10 on a noté en gras et par un * les deux plus petites

erreurs quadratiques. Au vu des résultats on constate qu'à l'horizon de prédiction
h = 1, le prédicteur naïf est meilleur que les prédicteurs LES et MBS SI
0.6 ~ s 0.9.
<1> Le prédicteur LES est meilleur que le prédicteur MBS SI
0.4 s <1> s 0.6.
Notons que le prédicteur MBS d'ordre élevé a de bonnes performances

prédictives quand l'horizon de prédiction s'éloigne.
- Soit le processus MA(1) défini par
X t = et + e et-l ,le 1< 1 (4.4.1.4)
139
Pour ce processus, on obtient '1'0 = l , '1'1 =9 et 'l'i = 0 pour i ~ 2. Ce
processus est centré, de variance y(O) = (1 + 9 2) (12 et de fonction
d'autocovariance y(h) = (12 9, si h = 1 et y(h) = 0, si h > 1. Posons ex = 0.10 et
(12 = 1. On a alors les résultats suivants pour les prédicteurs ECO, LES, MBS et
NAF
(i) ECO EQ1(h) = 1 ; si h = 1

EQ1(h) = y(O)
= 1 + 9 2 , si h > 1
(H) LES EQ2(h) = 2 "«0) _ 2ex "«1) + 2 ex (1 - ex) "«1)

2-ex 2-ex
= 1.052(1 + 9 2) - 0.105 9 , si h = 1
EQ2(h) = 2 "«0) + 2 ex (1 - ex) "«1)

2-ex 2-ex
= 1.052 (1 + 9 2) + 0.095 9 , si h > 1
(Hi) MBS EQ3(h) =m + 2 "«0) - 2 "«1) + 2 m "«1)

m+ 1 m+ 1 (m + 1)2
=m+2 (1 + 92) - 2 9 , si h =1
m+1 [rn + 1)2
EQ3(h) = m + 2 y(O) + 2m y(1)

m+1 (m + 1)2
= m + 2 (1 + 92) + 2m 9 , si h > 1
m+1 (m+1)2
140
= 2 (82 - 8 + 1) , si h =1
EQ4(h) = 2 )'(0)
= 2 (82 + 1) , si h > 1
Nous avons calculé les valeurs des différentes erreurs quadratiques pour
h = 1 et pour h > 1 et pour les valeurs de 8, comprises entre 0.1 et 0.9 avec un
pas de 0.1. Nous donnons les valeurs de EQi(h) dans le tableau Il, les valeurs
supérieures correspondant à l'horizon h = 1 et les valeurs inférieures à l'horizon
h> 1.
Valeurs ECO LES MBS MBS MBS NAF

de e (a = 0.3) (m = 10) (m = 20) (m = 50)
0.1 1.00 1.05 1.10 1.05 1.02* 1.82
1.01 1.07 1.12 1.06 1.03* 2.02
0.2 1.00 1.07 1.13 1.08 1.06* 1.68
1.04 1.11 1.16 1.10 1.07* 2.08
0.3 1.00 1.11 1.18 1.14 1.11* 1.58
1.09 1.17 1.23 1.17 1.12* 2.18
0.4 1.00 1.17* 1.25 1.21 1.18 1.52
1.16 1.25 1.33 1.25 1.19* 2.32
0.5 1.00 1.26* 1.35 1.30 1.27 1.50
1.25 1.36 1.44 1.35 1.29* 2.50
0.6 1.00 1.36* 1.47 1.42 1.38* 1.52
1.36 1.48 1.58 1.48 1.40* 2.72
0.7 1.00 1.49* 1.61 1.55 1.51* 1.58
1.49 1.63 1.74 1.62 1.54* 2.98
0.8 1.00 1.64* 1.77 1.71 1.67 1.68
1.64 1.80 1.92 1.79 1.70* 3.28
0.9 1.00 1.81* 1.95 1.89 1.84 1.82
1.81 1.98 2.12 1.97 1.88* 3.62
Tableau Il
Erreur quadratique moyenne de prédiction des différents prédicteurs sur le
modèle X t = Et + 8 Et-l
141
Au vu des résultats du tableau lion constate qu'à l'horizon h = l, le
prédicteur LES est meilleur que le prédicteur MBS si 0.4 ~ e ~ 0.9. On note
aussi que le prédicteur MBS a des performances prédictives supérieures à celles
des prédicteurs LES et NAF.
4.4.2.- Modèles ARCH
Les modèles ARCH ont été introduits par Engle en 1982. On dit que le
processus [Xi, t E Z} suit un processeur ARCH(p) s'il est défmi par
(4.4.2.1)
où Et est un bruit blanc gaussien. Seuls les conditions de régularité Bo > 0,

P
Bi ~ 0, i = l, ... , p et L Bi 0 , E(X t ) = 0, y(O) = Bo . L'erreur quadratique associée au

prédicteur ECO vaut V(h) = Bo.
Nous allons comparer les performances des prédicteurs ECO, LES, LED,
MBS, PCO et NAF sur le processus ARCH(p). On a alors les résultats suivants.
(i) : ECO EQ1(h) = Bo
(H) : LES EQ2(h) = 2 2 Bo . Pour ex = 0.10 on a

-ex
EQ2(h) = 1.0526 Bo
142
(Hi) : LED EQ3(h) = { 2
2-a
- 2 (1 + a h )
1-a
(a 3 - a )}
2-a
s,
+{ (t +l~\.t h)2 (a3+g2_-a~3a+ 4)} Ba

Pour a = 0.10 on a
EQ3(h) = {1.0526 + 0.1032(1 + 1.1 h) + 0.4973(1 + 1.1 h)2} s,
(iv): MBS EQ4(h) = m + 2 Bo . On remarque que

m+ 1
EQ4(h) = 1.0526 Bo si m = 18
(v) : peo = Â MBS + (1 - Â) LES, 0 < Â < 1
EQ5(h) =
1Â2 (2 - a) (m + 2) + 2 (1 - Â)2 (m + 1) + 2 Â (1 - Â) (2 - a) (m + 1 + a) ) B
\ (m + 1) (2 - a) 0
La constante Â qui minimise EQ5(h) est
2
Â= a + (m - 1) a Pour a = 0.10 on a
a (m - 4) + 2 (1 + a)2
1.045 ~o ,avec Â = 0.19

pour m = 5
1 1.029 ~o' avec Â = 0.48
pourm = 18
EQ5(h) =\ 1.027 ~o , avec Â = 0.53
pour m = 20
1.015 ~o ' avec Â = 0.74 pour m = 50
(vi) : NAF EQ6(h) = 2 Bo
En utilisant le critère de minimalité de l'erreur quadratique moyenne de

prédiction on a les conclusions suivantes quand on prend a = 0.10 :
143
- le prédicteur PCO est meilleur que les prédicteurs MBS et LES
- le prédicteur LES est meilleur que le prédicteur MBS si m < 18
- les prédicteurs LES et MBS ont des performances similaires si m = 18
- le prédicteur MBS est meilleur que le prédicteur LES si m > 18
- les prédicteurs LES et MBS sont meilleurs que le prédicteur NAF
- le prédicteur NAF est meilleur que le prédicteur LED
D'où le classement suivant
Pour m < 18 Pour m > 18

1 - Prédicteur combiné 1 - Prédicteur combiné
2 - Lissage exponentiel simple 2 - Moyenne mobile simple
3 - Moyenne mobile simple 3 - Lissage exponentiel simple
4 - Naïf 4 - Naïf
5 - Lissage exponentiel double 5 - Lissage exponentiel double
Au vu du classement, on note que le prédicteur combiné a des

performances prédictives supérieures aux prédicteurs LES et MBS. Le principal
inconvénient de la prédiction combinée est qu'elle reste lourde de mise en oeuvre
et ne se prête guère à une utilisation "industrielle" dans le cas d'un traitement
systématique de séries en très grand nombre. On remarque aussi que le
prédicteur LED donne un résultat médiocre, puisqu'il ne vaut même pas la
méthode naïve de prédiction par conservation de la dernière valeur connue. Ceci
justifie le fait que la méthode du LED ne doit être utilisée que pour une série
présentant une tendance en moyenne, donc pour une série non stationnaire.
Nous faisons maintenant quelques remarques concernant des modèles non

linéaires ayant des comportements similaires aux modèles AR(p) ou ARCH(p).
144
1) Soit le processus RCA(l) (Nicholls et Quinn, 1982) défmi par
Xt =(a + ht) Xt-l + et (4.4.3)
où a est un paramètre fixé, et est un bruit blanc de variance 1, ht est une variable
aléatoire telle que: E(ht) = 0, E(b;) =1t, bt étant indépendante de Xt et de et. On
suppose que le processus RCA(1) est stationnaire, c'est-à-dire a 2 + 1t < 1.
L'erreur quadratique associée au prédicteur ECO est V(h) = y(0) (l - a 2h) avec
)'(0) = (l-aL1t)-l. On constate que )'(h) = )'(O)ah, cette fonction d'autocovariance
a donc la même structure que celle d'un AR(l). Ainsi les performances des
différents prédicteurs sur le modèle RCA( 1) sont similaires à celles obtenues
pour le processus autorégressif d'ordre un.
2) Considérons le modèle AR(l) avec bruit ARCH(1) (Weiss, 1984), défini

par
(4.4.4)
où les et sont des variables aléatoires i.i.d de moyenne nulle et de variance 1. Si

1 <1> 1 < 1, À.o> 0 et Àl < 1, alors le processus AR(l) - ARCH (1) est stationnaire
avec E(Xt) =0 et )'(0) =(

1- <1>
2M 1 - Àl ). L'erreur quadratique associée au
prédicteur ECO est V(h) = y(O) (1 - <l>2h). La fonction d'autocovariance du

processus est y(h) = y(O) <l>h. Pour ce modèle aussi les performances des
différents prédicteurs sont similaires à celles obtenues par le processus AR(l).
3) Soit le modèle bilinéaire superdiagonal d'ordre un (Granger et

Anderson, 1978), défini par
145
X, = b Xt - 2 Et-1 + Et (4.4.5)
où les Et sont i.i.d de moyenne nulle et de variance 1, Et étant indépendante de

Xs, s < 1. Ce processus est stationnaire si 1 b 1 < 1, il est inversible si 2 b2 < 1. De
plus il est centré et de variance )'(0) = (l - 1>2)-1. L'erreur quadratique associée
au prédicteur ECO est
JI, SI h =1
V(h) = \ )'(0) , SI h >1
On constate que y(h) = 0 , quelque soit h * O. La fonction d'autocovariance

du modèle bilinéaire superdiagonal d'ordre un a donc la même structure que
celle du modèle ARCH(p) défini par (4.4.2.1). Ainsi les performances des
différents prédicteurs sur le modèle défini par (4.4.5) sont similaires à celles
obtenues pour le modèle ARCH(p).
146
Chapitre 5 - SIMULATIONS NUMÉRIQUES - ANALYSE DES
RÉSULTATS
5.1.- Introduction
Dans les chapitres 3 et 4, nous avons étudié respectivement le problème de

l'erreur de prédiction dans un modèle erroné et celui de la sélection de méthodes
par le critère de l'erreur quadratique moyenne de prédiction. Ce chapitre
contient essentiellement les résultats des simulations numériques des cas construits
et étudiés dans ces chapitres. Ces simulations ont pour but la comparaison des
résultats théoriques et expérimentaux. Elles permettent aussi d'étudier certains
cas pour lesquels nous n'avons pas établi des résultats théoriques.
Dans ce qui suit, nous donnons dans le paragraphe 5.2. les simulations
relatives au chapitre 3 en considérant différents cas d'erreur de spécification.
Dans le paragraphe 5.3., on présente et on commente quelques simulations
relatives au chapitre 4 en considérant les prédicteurs NAF, MBS, LES et ECO.
Nous utilisons pour l'ensemble des simulations le logiciel Maple V pour effectuer
les différents calculs.
5.2.- Simulations du chapitre III

5.2.1.- Simulations
Dans les tableaux qui suivent, nous donnons les résultats complets des cas
considérés dans le chapitre 3. Ces tableaux contiennent le pourcentage de
variation de l'erreur quadratique moyenne de prédiction à l'horizon h quand le
modèle erroné (He) est utilisé à la place du modèle correct (He). Le pourcentage
de variation est défini par
147
P(h) = 100 V*(h) - V(h)
V(h)
où V(h) et V*(h) représentent respectivement les erreurs quadratiques

moyennes de prédiction des modèles correct et erroné. Les tableaux 16 et 20 sont
respectivement extraits des articles de Davies et Newbold(1980) et Ray(1993).
(He) : AR(1) X, =<1> Xt-l + Et

(He) : AR(1) X t = <1>* Xt-l + nt
lead time <1>= 0.30 <1>= 0.70 <1> = 0.70 <1> = 0.70
h <1>* = 0.70 <1>* = 0.60 <1>* = 0.50 <1>* = 0.80
1 17.58 1.96 7.84 1.96

2 16.13 2.22 7.57 2.96
3 9.99 1.82 5.38 3.23
4 5.38 1.29 3.34 3.04
10 0.07 0.04 0.07 0.62
Tableau 12
(He) : MA(1) Xt = Et - 8 Et-l

(He) : MA(1) Xt =nt + 8* nt-l
lead time 8= 0.35 8= 0.35 8= 0.35 8 = 0.35

h 8* = 0.15 8* = 0.25 8* = 0.45 8* = 0.55
1 4.09 1.06 1.25 5.73
2 0.08 0.05 0.22 1.54
3 0.00 0.00 0.04 0.46
4 0.00 0.00 0.01 0.14
10 0.00 0.00 0.00 0.00
Tableau 13
148
(He) : MA(l) X, =Et + e Et-l
(He) : AR(l) X, = ep* X t- l + nt
lead time e =0.50 e =0.50 e =0.50 e =0.50

h cI>* = 0.15 cI>* = 0.25 cI>* = 0.40 cI>* = 0.75
1 12.81 7.81 5.00 20.31
2 0.05 0.39 2.56 31.64
3 0.00 0.02 0.40 17.79
4 0.00 0.00 0.06 10.01
Tableau 14
(He) : MA(2) X, =Et + 0.65 Et-l + 0.24 Et-2

(He) : AR(l) X, = ep* X t- l + nt
lead time
ep* = 0.24 ep* = 0.45 ep* = 0.50 ep* = 0.65
h
1 17.84 5.44 4.41 5.76
2 2.45 1.48 2.11 8.36
3 0.02 0.83 1.56 7.54
4 0.00 0.16 0.39 3.18
Tableau 15
149
(He) : MA(l) X, = Et - 0.8 Et-1
(He) : AR(p*) S* (B) X, = nt n = 50
lead
time p*
h 1 2 3 4 5 6 7 8
25.00 12.80 7.30 4.30 2.70 1.70 1.00 0.60
1 26.70 17.5 13.4 12.70 12.70 13.80 15.00 16.50
5.70 3.0 1.7 1.00 0.60 0.40 0.20 0.10
2 6.60 7.3 7.3 9.40 10.60 12.80 14.40 16.50
1.30 2.4 1.50 0.90 0.60 0.40 0.20 0.10
3 1.90 4.5 5.40 7.40 8.60 10.80 12.40 14.60
0.30 1.1 1.30 0.90 0.60 0.40 0.20 0.10
4 0.50 1.7 3.60 5.10 6.70 8.80 10.40 12.60
Tableau 16
ligne 1 : paramètres du modèle erroné eonnus

ligne 2 : paramètres du modèle erroné estimés
(He) : ARMA(l,1) X, =0.4 Xt-1 + Et - 0.15 Et-1

(He) : AR(1) X, = <1>* Xt-1 + nt
lead time
h <1>* = 0.70 <1>* = 0.60 <1>* = 0.50 <1>* = 0.80
1 0.04 0.08 0.02 0.70
2 0.00 0.00 0.00 0.20
3 0.00 0.00 0.00 0.06
4 0.00 0.00 0.00 0.01
Tableau 17
150
Les résultats obtenus dans les tableaux 12 à 17 correspondent bien aux
résultats théoriques établis dans le chapitre 3. On note que si on ajuste un modèle
ARMA(p*, q*) erroné à un modèle ARMA(p, q), les pertes d'erreurs
quadratique entraînées par cette erreur de spécification sont négligeables
lorsque l'horizon de prédiction s'éloigne. De plus on remarque que l'horizon
de prédiction joue un rôle important dans le choix du meilleur modèle ajusté.
Par exemple, si on examine le cas où le modèle erroné AR(l) X, = (/)* Xt-l + Et
est utilisé pour prédire les observations générées par le modèle correct MA(l) :
X, = Et + 0,50 Et-l. On obtient alors qu'à l'horizon h = 1, le meilleur modèle
ajusté est obtenu pour (/)* = 0,40. Par contre on remarque à l'horizon h = 2, le
meilleur modèle ajusté est obtenu pour (/)*= 0,15, (voir Tableau 14).
(He) : ARIMA(l, 1, 0) (l - (/) B) (l - B) X, = Et

(He) : AR(l) Xt = $* Xt-l + nt
lead time $ = 0.40 $ = 0.40 (/) = 0.20 $ = 0.10 (/) = 0.05

h <1>* = 0.95 <1> * = 0.99 <1>* = 0.99 <1>* = 0.99 <1>* = 0.99
1 95.63 23.38 6.24 2.46 1.46
2 107.23 17.74 5.46 2.96 2.30
3 116.61 14.35 5.47 3.67 3.16
4 126.28 12.66 5.86 4.44 4.02
Tableau 18
Au vu des résultats, on constate que si on utilise un modèle AR(l) erroné

pour prédire les observations générées par un modèle ARIMA alors les pertes
d'erreur quadratique ne sont plus négligeables quand l'horizon s'éloigne. D'autre
part on note qu'il est judicieux d'utiliser un modèle AR(l) limite
(X, = 0,99 Xt-l + nt ) pour prédire les observations générées par le modèle
ARIMA(l, 1, 0).
151
(Hc) : FARMA(O, d, 0) (l - B)d x, = Et
(He) : FARMA(d*) (l - B)d* X, = nt, d* > d
lead time d = 0.15 d = 0.15 d = 0.15

h d* = 0.25 d* = 0.35 d* = 0.45
1 0.0148 5.3384 0.1109
2 0.0092 3.5846 0.0803
3 0.0069 2.7807 0.0646
4 0.0048 1.9955 0.0481
10 0.0029 1.2509 0.0315
15 0.0021 0.9414 0.0243
20 0.0016 0.7634 0.0201
Tableau 19
En analysant les résultats du tableau 19, on note qu'à l'horizon long terme
l'utilisation du modèle erroné FARMA(O,d*,0) à la place du modèle correct
FARMA(O,d,O), avec d* > d, entraîne des pertes d'erreur quadratique
négligeables.
152
(He) : FARMA (0, d, 0) (l - B)d Xt =Et
(He) : AR(p*) <1>* (B) X, = nt
1ead time p*
h 0 1 2 3 5 10 15 20
4.88 1.62 0.95 0.67 0042 0.22 0.15 0.11
(a) d = 0.15 5.12
4.38 1.87 1045 1.42 1.68 2.72 3.90
1
4.39 1.39 0.98 0.95 1.20 2.24 3041 4.62
1.83 1.74 1.31 0.95 0.61 0.32 0.22 0.16
3 1.83 1.75 1.36 1.24 1.39 2.35 3.50 4.70
1.58 1.49 1.11 0.99 1.14 2.10 3.24 4.44
1.23 1.22 1.16 1.00 0.69 0.37 0.25 0.19
5 1.23 1.22 1.16 1.01 0.73 0.96 2.08 3.27
1.04 1.04 0.978 0.82 0.54 0.77 1.89 3.08
0.73 0.73 0.73 0.72 0.67 0044 0.30 0.23
10 0.73 0.73 0.73 0.72 0.67 0045 0.32 0.26
0.60 0.60 0.60 0.59 0.54 0.32 0.19 0.13
0044 0044 0044 0044 0044 0041 0.34 0.28
20 0044 0044 0044 0044 0041 0041 0.35 0.28
0.35 0.35 0.35 0.35 0.32 0.32 0.26 0.20
18.03 4.92 2.78 1.93 1.19 0.61 0041 0.31
1
(b) d = 0.25
180,3 5.10 3.08 2.31 1.71 1.37 1.35 1.39
1
1
16.87 4.07 2.06 1.31 0.71 0.37 0.35 0040
1 153
1
p*
0 1 2 3 5 10 15 20
8.60 7.18 4.53 3.31 2.10 1.09 0.74 0.56
3 8.60 7.20 4.60 3.43 2.38 1.63 1.45 1.42
7.85 6.46 3.88 2.72 1.67 0.92 0.75 0.72
6.36 6.23 5.20 3.97 2.62 1.39 0.95 0.72
5 6.36 6.23 5.20 4.00 2.66 1.57 1.39 1.36
5.74 5.61 4.59 3.38 2.05 0.97 0.79 0.77
4.33 4.33 4.29 4.07 3.27 1.87 1.30 0.99
10 4.33 4.33 4.29 4.07 3.28 1.89 1.32 1.01
3.84 3.84 3.80 3.58 2.79 1.41 0.84 0.54
3.00 3.00 3.00 2.99 2.93 2.33 1.71 1.33
20 3.00 3.00 3.00 2.99 2.93 2.33 1.71 1.33
2.61 2.61 2.61 2.61 2.54 1.95 1.33 0.95
56.00 10.77 5.79 3.94 2.40 1.21 0.81 0.61
(c) d =0.35 6.04 5.88 6.15 6.47
56.00 12.13 8.15 6.87
1
51.38 8.80 4.95 3.70 2.89 2.74 3.01 3.31
32.39 19.47 10.63 7.91 4.96 2.55 1.71 1.29
3 32.39 20.34 Il.69 8.73 6.71 5.52 5.38 5.46
29.33 17.55 9.10 6.21 4.24 3.08 2.94 3.01
154
p*
h 0 1 2 3 5 10 15 20
26.15 22.58 14.69 1016 6.68 3.53 2.39 1.80
5 26.15 22.68 15.08 10.63 7.14 4.70 4.95 5.29
23.52 20.10 12.67 8.32 4.90 2.51 2.76 3.09
20,02 19.89 17.93 14.75 9.77 5.29 3.69 2.80
10 20.02 19.89 17.94 74.79 9.88 5.48 3.89 3.04
17.83 17.70 15.79 12.69 7.88 3.55 2.00 1.16
15.58 15.58 15.52 15.09 13.02 7.83 5.29 4.18
20 15.58 15.58 15.52 15.09 13.02 7.89 5.41 4.30
13.74 13.74 13.68 13.26 Il.22 6.17 3.73 2.64
264.24 20.41 10.26 6.83 4.08 2.03 1.35 1.01
(d) d = 0.45
264.24 26.60 28.98 29.37 29.90 31.08 32.01 32.76
1
219.61 Il.09 13.18 13.51 13.98 15.02 15.84 16.50
178.27 37.59 20.18 15.54 9.59 4.85 3.24 2.43
3 178.27 56.66 29.60 19.38 20.55 21.30 21.87 22.35
151.95 41.85 17.34 8.09 9.156 9.83 10.34 10.789
154.23 58.10 28.56 19.76 13.77 7.19 4.82 3.63
5 154.23 73.90 37.97 25.74 17.59 15.05 19.80 22.43
132.41 58.97 26.13 14.95 7.50 5.18 9.52 Il.92
122.63 93.51 51.46 33.51 20.16 Il.79 8.20 6.21
10 129.63 95.54 54.76 36.36 22.85 14.31 10.63 8.79
112.17 80.67 42.99 25.99 13.51 5.61 2.21 0.52
110.97 106.40 82.01 69.93 35.72 17.54 12.31 10.18
20 110.97 106.43 82.40 60.59 36.81 19.31 14.44 11.84
96.67 92.44 70.04 49.70 27.53 Il.22 6.68 4.25
Tableau 20
155
ligne 1 : d connu; coefficients autorégressifs connus
ligne 2 : d connu ; coefficients autorégressifs estimés
ligne 3 : d estimé; coefficients autorégressifs estimés
(He) : FARMA(l, d, 1) (l - 0.4 B) (l - B)d X t = (l - 0.3 B) Et

(He) :ARMA(l, 1) (l - <1>* B) = (l - 8* B) nt
lead time d
h 0.15 0.25 0.35 0.45
<1>* = 0.2
8* =0.1
1 19.90 44.13 92.84 194.21
2 5.12 15.95 40.43 92.98
3 2.77 10.32 28.58 68.42
10 0.77 3.77 12.21 31.34
15 0.52 2.70 9.06 23.67
20 0.39 2.08 7.18 18.99
<1>* = 0.3
8* =0.4
1 19.83 43.90 92.69 195.23
2 6.05 17.70 43.68 99.15
3 3.01 10.84 29.58 70.34
10 0.77 3.77 12.21 31.34
15 0.50 2.70 9.06 23.67
20 0.39 2.08 7.18 18.99
<1>* = 0.6
8* =0.5
1 20.66 41.92 86.59 184.31
2 6.81 18.17 44.18 101.09
3 3.25 11.11 30.23 72.27
10 0.77 3.77 12.21 31.34
15 0.52 2.70 9.06 23.67
20 0.39 2.08 7.18 18.99
Tableau 21
156
Les simulations obtenues dans les tableaux 20 et 21 sont convaincantes. TI
est judicieux d'ajuster un modèle autorégressif d'ordre élevé pour prédire à long
terme des observations générées par un modèle FARMA(O, d, 0). Par exemple,
pour h = 20, si on utilise un modèle AR(20) pour prédire les observations
générées par un modèle FARMA(O, 0.15, 0) alors le pourcentage de variation de
l'erreur quadratique est de 0.20% quand le paramèdre d et les paramètres
autorégressifs sont connus (cf. tableau 20). De plus au vu des résultats du tableau
21, on remarque que le modèle ARMA(l, 1) peut être utilisé avec succès pour
prédire à long terme des observations générées par un processus FARMA( 1, d,
1). On note également que l'approximation du modèle ARMA(l, 1) au
modèle FARMA(l, d, 1) est d'autant meilleur que la valeur de d décroît.
(He) : BL(l, 0, 1, 1) Xt = 0.10 Xt-l + b Xt-l €t-l + €t

(He) : AR(1) Xt = 0.10 Xt-l + nt
lead time b
h 0.05 0.10 0.20 0.30 0.50 0.75
1 -1.00 -1.00 - 1.01 - 0.86 2.16 32.37
2 0.08 0.36 1.35 2.66 5.52 21.41
3 0.10 0.39 1.44 2.81 5.13 13.21
4 0.10 0.40 1.46 2.82 4.98 8.87
Tableau 22
Les simulations données dans le tableau 22 sont convaincantes et elles

illustrent bien les résultats théoriques obtenues pour ce cas. En effet, le modèle
AR(l) peut être utilisé avec succès pour prédire les observations générées par un
processus BL(l, 0, 1, 1). L'approximation du modèle AR(1) est d'autant meilleur
que la valeur de b décroît vers o.
157
(He) : BL(O, 0, 2, 1) Xt = 0.25 X t-2 Et-l + Et
(He) : AR(p*) *(B) X t = nt
lead time p*
h 1 2 3 4 5 6
1 27.60 15.73 Il.67 8.93 7.21 6.71
2 3.82 5.31 4.40 2.50 3.24 0.20
3 0.84 0.83 2.45 1.13 2.90 0.23
4 0.16 0.24 0.47 - 1.12 2.48 - 0.25
Tableau 23
Au vu des résultats du tableau 23, on note que le modèle autorégressif

d'ordre élevé (p* = 6) peut être utilisé avec succès pour prédire les observations
générées par le processus bilinéaire superdiagonal d'ordre un BL(O, 0, 2, 1). Par
exemple pour h = 1 et 2, les pourcentages de variation de l'erreur quadratique
sont respectivement 6,71 % et 0,20%, pour p* = 6.
(He) : AR(l) - ARCH(l) Xt =0.55 Xt-l + Et J 0.75 + 0.15 X2t-l
(He) : AR(l) . X t = <1>* Xt-l + nt
lead time <1>*

h 0.025 0.050 0.175 0.185
1 36.94 30.69 2.14 0.185
2 Il.49 12.47 13.32 0.05
3 4.33 5.96 14.97 15.69
4 2.31 3.97 15.39 16.53
Tableau 24
158
(Hc) : RCA(l) Xt =( 0.6 + ht ) Xt- l + Et , a 6=0.25 2
(He) : AR(l) Xt = ep* Xt- l + nt
lead time cl> *

h 0.025 0.050 0.175 0.250
1 49.83 43.62 15.46 0.91
2 16.48 17.83 21.17 20.88
3 6.55 8.36 19.09 26.31
4 3.32 5.13 17.68 28.41
Tableau 25
Les simulations obtenues dans les tableaux 24 et 25 illustrent les résultats

théoriques obtenus pour ces cas. Pour prédire les modèles AR(l) - ARCH(l) et
RCA(l), il est judicieux d'utiliser un modèle AR(l) : X, = ep* X t- l + nt. On
constate aussi l'importance de l'horizon de prédiction dans le choix du modèle
ajusté. Par exemple, pour le modèle RCA(l), à l'horizon h = 1, le meilleur
modèle AR(l) est obtenu pour ep* = 0.25, avec un pourcentage de variation de
0,91%. Par contre, à l'horizon h = 4, le meilleur modèle AR(l) est obtenu pour
ep* = 0.025, avec un pourcentage de variation de 3,32%.
5.2.2.- Conclusions
Les résultats présentés dans cette étude indiquent que les modèles AR(p*)
peuvent être utilisés avec succès pour prédire des données générées par des
processus BL(p, q, P, Q), autorégressifs avec coefficients aléatoires RCA(p),
autorégressifs avec bruit ARCH, ARCH(p) et FARMA(O, d, 0). Cette étude
montre aussi qu'il est judicieux d'utiliser des modèles ARMA(p*, q*) pour
prédire à long terme des données générées par un processus FARMA(p, d, q).
159
L'intérêt de cette étude réside dans le fait de pouvoir utiliser des modèles
simples (AR ou ARMA) pour prédire des données générées par des modèles plus
compliqués. Les différents cas d'erreur de spécification considérés dans cette
étude indiquent l'importance de l'horizon de prédiction quand on choisit un
modèle erroné pour prédire le modèle correctement identifié. Tous ces résultats
ont été confirmés par des simulations numériques. Il serait aussi intéressant
d'envisager la situation dans laquelle les paramètres du modèle erroné sont
estimés pour les cas où le modèle correct est RCA(p), AR(p) - ARCH(p),
BL(p, q, P, Q) ou FARMA(p, d, q). La manière dont l'estimation des paramètres
du modèle erroné va influer les prédictions est une question pour les recherches
futures.
5.3.- Simulations du chapitre IV

5.3.1.- Simulations
Dans ce paragraphe nous donnons quelques simulations en considérant les

prédicteurs NAF, MBS, LES et ECO. Notre intention est de mettre en évidence
la meilleure méthode pour prédire à un horizon donné. Dans le tableau 27, nous
indiquons les modèles simulés.
160
Modèles simulés
1 AR(l) X(t) = 0,3X(t - 1) + ett)
2 MA(2) X(t) = ett) - 0,6Se(t - 1) - 0,24e(t - 2)
3 RCA(l) Xtt) = (O,S + b(t»X(t -1) + e(t) où b(t),.., MA(l)

bït) = e(t) - O,Se(t - 1)
4 BLSD(l) X(t) = 0,2SX(t- 2)e(t -1) + e(t)
S AR(l) - ARCH(l) X(t) = O,4SX(t -1) + eït)
6 ARMA(2,1) X(t) = X(t - 1) - 0,2SX(t - 2) + e(t) + e(t- 1)
7 F ARMA(O, 0, 20, 0) (l - B)O.20X(t) = e(t)

8 BL(l, 0, 1, 1) Xtt) = O,4SX(t - 1) + 0,2SX(t - l)e(t -1) + ett)
Tableau 27
Pour les modèles ci-dessus, ert) est un bruit blanc gaussien réduit et e(t) un
bruit blanc gaussien de variance 0,2S. Dans les différents graphiques qui suivent,
nous donnons les trajectoires des modèles considérés ci-dessus. Ces simulations de
longueur SOO ont été effectuées avec le logiciel TSP.
161
..,.....-----------------
1
n
-1
-2
-3
-.(. ......_ _,...-_---,,..-_--,_ _.....,._ _.....,.._ _.....,....J
ieo a.0 320 .00 .90

Pig. 5.1: Modele: 1
I-ARtI
.-r--------------------
n
f'
-1
-2
-3
-.(. .....- -.......- -......--""T""---,---....,...--...,.......

leu a.0 320 .00
Pig. 5.2: Modele: 2
I-MAaI
162
7.5--------------------
5.0
2.5
0.0
-2.5
-5.0
-7.5-t..-__..._.--_--_--__--_---...... .
90 150 24-0 320 4-00 4-90
Fig. 5.3: Modele :3
I-RCA~
4-ot-'-------------------
o
-1
-2
-3
4io.--_ _- - _ - - _ . . . . - - _ - - _ - - - - . ......
90 ieo 24-0 320 4-00 4-90
Fig. 5 .... : Modele 4-
I- BLSD11
163
1
-1
-2
-310--_......_ _...... - - _ - - _ - - _....

19D BiD 32D 4-DD 4-BD
Pig. 5.5: Modele 5
ID~-------------------
D
f'
. r
";,..
-5
-lD-L.._ _......_ _...... - -__- -__--...,.....

19D BiD 32D
Pig. 5.9: Modele 9
I_ARMA2~
164
•
1
1
5.0 ......- - - - - - - - - - - - - - - - - - . ,
1
2.5
1
1 0.0
1
-2.5
1
-5,0 " " - - -__- - _ - -__- -__--,,-.--....--.
1 BD 1eD aiD 320 4-00 4-BD
Fig. 5.7: Modele 7
5 ......- - - - - - - - - - - - - - - - - -
4-
o
f .:
-1 ',f"
....
-2
-3
4 - - - . , . - - _ . , . -_ _.,.-_ _. , . _ - - , , - . - -......
BD 160 aso 320 4-BD
Fig. 5.B: Modele B
/-BL1Dlll
165
Pour le prédicteur du lissage exponentiel 'simple, nous avons choisi la
constante de lissage a qui minimise l'erreur quadratique et pour celui de la
moyenne mobile simple différents choix de l'ordre m sont considérés : m = 10,
m = 20 et m = 50. Pour chaque modèle, nous considérons une taille d'échantillon
de 100 observations et nous utilisons le logiciel Maple V pour le calcul des
erreurs quadratiques. Dans les différents tableaux qui suivent, nous donnons les
résultats complets concernant ces modèles. Nous notons en gras et par un * les
deux plus petites erreurs quadratiques.
Modèle 1 : AR(1)
ERREUR QUADRATIQUE MOYENNE DE PREDICTION
lead
time ECO NAF LES MBS MBS MBS
(h) (a = 0.30) (m = 10) (m = 20) (m = 50)
1 1.0000 1.5384 1.1452 1.1876 1.1481 1.1199*
2 1.0900 2.0000 1.3204 1.2476 1.1795 1.1328*
3 1.0981 2.1384 1.3730 1.2656 1.1889 1.1367*
4 1.0988 2.1800 1.3888 1.2709 1.1918 1.1379*
5 1.0988 2.1924 1.3935 1.2726 1.1926 1.1382*
Tableau 28
Modèle 2: MA(2)
lead
(h) (a = 0.10) (m = 10) (m = 20) (m = 50)
h=1 1.0000 3.9482 1.6327 1.3154* 1.3898 1.4418

h=2 1.4225 3.4402 1.5387 1.5409 1.5079 1.4904*
h>2 1.4801 2.9602 1.4809 1.4972 1.4850 1.4810*
Tableau 29
166
Modèle 3 : RCA(l)
lead
ECO NAF LES MBS MBS MBS
time
(a = 0.30) (m = 10) (m = 20) (m = 50)
(h)
1 1. 7142 2.2857 2.0684* 2.4118 2.3738 2.3270

2 2.1428 3.4285 2.5958 2.6264 2.4826 2.3718*
3 2.2500 4.0000 2.8596 2.7302 2.5370 2.3942*
4 2.2767 4.2857 2.9914 2.7822 2.5643 2.4054*
5 2.2834 4.4285 3.0574 2.8081 2.5779 2.4110*
Tableau 30
Modèle 4: BLSD(l)
lead
(h) (a = 0.10) (m = 10) (m = 20) (m = 50)
h=l 1.0000 2.1332 1.1227 1.1635 1.1173 1.0875*
h>l 1.0666 2.1332 1.1227 1.1635 1.1173 1.0875*
Tableau 31
167
Modèle 5 : AR(1) - ARCH(1)
lead
(h) (a = 0.30) (m = 10) (m = 20) (m = 50)
1 0.4666 0.6436 0.5527* 0.6240 0.6090 0.5959

2 0.5611 0.9333 0.6795 0.6718 0.6341 0.6062*
3 0.5803 1.0636 0.7366 0.6934 0.6454 0.6109*
4 0.5841 1.1223 0.7623 0.7031 0.6505 0.6130*
5 0.5849 1.1487 0.7739 0.7074 0.6528 0.6139*
Tableau 32
Les résultats obtenus dans les tableaux 28 à 32 correspondent bien aux

résultats théoriques précédemment établis. On note que le prédicteur de la
moyenne mobile simple d'ordre élevé a des performances prédictives supérieures
au prédicteur du lissage exponentiel simple.
Nous nous intéressons maintenant aux comportements des prédicteurs sur

trois processus pour lesquels nous n'avons pas établi de résultats théoriques, à
savoir les processus ARMA(2, 1), FARMA(O, d, 0) et BL(1, 0, 1, 1). Le
processus FARMA(O, d, 0) est défini par:
(1- B)d Xït) = e(t) ,-1/2 < d < 1/2
168
où les variables aléaatoires e(t) sont indépendantes, identiquement distribuées
gaussiennes centrées et de variance 1. Ce processus est à mémoire longue, sa
fonction d'autocorrélation est telle :
p(h)"'" ch 2d - 1 • quand h ~ 00 • c > O. d> 1/2,
où - représente l'équivalence asymptotique. Notons aussi que tous les modèles

décrits précédemment sont à mémoire courte. leur fonction d'autocorrélation est
géométriquement bornée. Le modèle FARMA prend bien en compte les
prévisions à long terme, Le modèle bilinéaire diagonal d'ordre un, noté BL(l. O.
1, 1) est défini par :
Xtt) = aX(t -1) + bX(t -1)e(t - 1) + eu)
où ett) défini comme précédemment est indépendant de Xis).s < t. On

suppose que 1a 1< 1 et a 2 + b 2 < 1. Pour calculer les erreurs quadratiques
associées à chaque prédicteur, nous avons utilisé pour ces processus les formules
(4.3.1) - (4.3.4) en remplaçant y(0). y(h) et 'Vi, par leurs expressions. Pour le
processus ARMA(2. 1). ces expressions sont :
yeO) =3f' y(h) = 2-h [3f + 8h ] et 'Vi =(l + 3i).2-i, i =O. 1, 2•...
(Brockwell et Davis, 1991). Pour le processus FARMA(O, d, 0) on obtient :
( - l)h r (l - 2d) et .= r (l + i) .- 0
y(h) = I' (h - d + 1) r (l - h - d) 'VI r (d) r (i + 1)' 1 - ,1. 2, ...
et I'(s) est la fonction gamma. Pour le processus BL(l. 0, 1, 1), on a les résultats
suivants, (Voir Sesay et Subba Rao, 1988) :
169
~ = E(X(t)) = -L, -y(0) = E(X2(t)) = 1 + 2b + 4a~~ , -y(1) = ay(O) + 2bJl et
l-a l-a2-b
y(h) = ay(h - 1) + bu si h ~ 2. Pour calculer l'erreur quadratique associée au
prédicteur ECO, on remarque que le processus BL(l, 0, 1, 1) admet la
représentation markovienne suivante, (Voir Pham, 1985).
Xtt) = Z(t -1) + e(t)

Z(t) =(a + beü)) Z(t - 1) + (a + bE(t)) e(t)
D'où en utilisant un résultat de Guégan(l992), on obtient
Nous donnons les valeurs de EQi(h) pour les processus ARMA(2, 1), FARMA(O,
d, 0) et BL(l, 0, 1, 1) dans les tableaux 33, 34 et 35.
Modèle 6: ARMA(2, 1)
lead
(h ) (a = 0.30) (m = 10) (m = 20) (m = 50)
1 1.0000 2.6700* 8.8153 10.5066 10.8610 10.8257

2 5.0000 8.0050* 10.3804 12.1990 11.7497 11.1917
3 8.0625 12.6725 Il.5265 13.4086 12.3844 Il.4532*
4 9.6250 16.0062 12.2814 14.1951 12.7970 11.6231*
5 10.2851 18.1731 12.7498 14.6792 13.0509 11.7277*
Tableau 33
170
Au vu des résultats, on constate qu'à l'horizon très court terme (h = 1 et
h = 2), le prédicteur naïf est meilleur que les prédicteurs LES et MBS, et le
prédicteur LES est meilleur à son tour que le prédicteur MBS. D'autre part on
note que le prédicteur MBS est meilleur que les prédicteurs NAF et LES quand
l'horizon s'éloigne (h ~ 3).
Modèle 7 : FARMA(O, 0, 20, 0)
lead
(h) (a = 0.10) (m = 10) (m = 20) (m = 50)
1 1.0000 1.6480 1.1565 1.0993 1.0851 1.0821*

2 1.2000 1.8311 1.1933* 1.1378 1.1071 1.0919
3 1.3200 1.9096 1.2139* 1.1603 1.1205 1.0980
4 1.4080 1.9550 1.2281* 1.1760 1.1303 1.1027
5 1.4784 1.9853 1.2388* 1.1881 1.1380 1.1064
10 1.7122 2.0574 1.2701* 1.2236 1.1621 1.1190
15 1.8619 2.0876 1.2865* 1.2424 1.1759 1.1268
20 1.9748 2.1050 1.2972* 1.2545 1.1852 1.1325
Tableau 34
Au vu des résultats, on constate que le prédicteur de la moyenne mobile

simple apparaît comme la meilleure méthode de prédition. Cette anomalie est
certainement due à l'utilisation de la fonction gamma dans le calcul des erreurs
quadratiques.
171
Modèle 8 : BL(l, 0, 1, 1)
lead
(h) (a = 0.30) (m = 10) (m = 20) (m = 50)
1 0.4933 2.0964 1.9369* 2.2464 2.1971 2.1512

2 0.5207 3.2671 2.4496 2.4399 2.2984 2.1929*
3 0.5279 3.7939 2.6803 2.5269 2.3441 2.2117*
4 0.5299 4.0310 2.7841 2.5661 2.3646 2.2201*
5 0.5304 4.1377 2.8309 2.5837 2.3738 2.2239*
Tableau 35
Au vu des résultats, on constate que le prédicteur LES est meilleur que les
prédicteurs NAF et MBS à l'horizon h = 1. A l'horizon h ~ 2, on remarque que
le prédicteur MBS est meilleur que les prédicteurs NAF et LES.
5.3.2.- Conclusions
Les résultats présentés dans cette étude indiquent que le prédicteur optimal
est bien entendu la meilleure méthode de prédiction. Des résultats analogues ont
été obtenus par Reid (1971) et Newbold et Granger (1974). Ces résultats sont en
contradiction avec ceux de Groff (1973) et Geurts et Ibrahim (1975) qui
indiquaient que la méthodologie de Box et Jenkins donnait des résultats similaires
ou même légèrement inférieurs à ceux du lissage exponentiel. D'autre part si on
compare les prédicteurs lissage exponentiel simple et moyenne mobile simple, on
note que le prédicteur MBS d'ordre élevé donne pour la plupart des modèles
172
considérés la meilleure erreur quadratique moyenne de prédiction. Cette étude
indique aussi que le prédicteur du lissage exponentiel simple est en général
supérieur au prédicteur moyenne mobile simple pour la prévision à court terme.
Des résultats analogues ont été obtenus par Gross et Ray (1965), Kirby (1966),
Lévine (1967), Raine (1971) et Krampf (1972). Par ailleurs, nous avons montré
qu'il était possible d'améliorer les prédictions obtenues par différentes méthodes
en effectuant une combinaison linéaire de celles-ci, comme cela a été proposé
initialement par J. Bates et C.W. Granger (1969). Des résultats similaires ont été
obtenus par P. Newbold et C.W. Granger (1974), R. Winkler et S. Makridakis
(1983), S. Figlewski (1983) et C.W. Granger et R. Ramanathan (1984).
Pour conclure, nous indiquons que les études de comparaisons des

méthodes de prédiction ne doivent à aucun prix constituer un point de repère
pour l'utilisateur dans le choix d'une méthode. Ce choix doit dépendre du secteur
d'activité et de l'horizon. Aucune des méthodes n'est définitivement et nettement
"meilleure" qu'une autre, chaque méthode a beaucoup d'avantages mais aussi
quelques inconvénients. Il y a donc une méthode de prévision optimale et
certaines méthodes sont mieux adaptées à certaines situations. TI est aussi à noter
que les méthodes quantitatives ne sont pas toujours meilleures que la prévision
purement intuitive, ce qui fait que ces deux méthodes ne doivent pas être
considérées comme concurrentes mais complémentaires : la prévision formalisée
pouvant être un élément qui, comparé à l'intuition, permet de dégager une
donnée prévisionnelle. La méthode de prévision "idéale" n'existant pas, nous
avons préconisé de combiner linéairement des méthodes au lieu d'utiliser une
seule technique et avons rencontré certains succès. Cependant cette démarche bien
que séduisante, reste lourde de mise en oeuvre et ne se prête guère à une
utilisation "industrielle" dans le cas de séries en très grand nombre.
173
ANNEXES
Annexe A.I.- Concepts fondamentaux

A.I.I.- Processus stochastiques et séries chronologiques
Un processus stochastique, noté symboliquement [Xj, t E Z} est une

famille de variables aléatoires indexées par le temps. Si T = Z, ou T = N alors
Xt, t E Z est dit processus à temps discret. Si T ={- 00, + oo}, alors Xt, t E Z est
appelé processus à temps continu.
Dans tout ce document, nous ne considérons que les processus à temps

discret (en fait à temps dans Z). Les processus considérés peuvent être uni - ou
multidimensionnels. Lorsque le processus Xt est multivarié, on introduit ses
composantes en écrivant
Xt = (Xit , i = 1, ... , g)
Dans ce cas, chacune des séries X t = ( Xih t E Z} définit un processus

univarié.
La loi d'un tel processus est caractérisée par les lois de toute sous-famille
finie XtI, ... , X tn, n E IN*, ri. ... , tn E Z (théorème de Kolmogorov). En
l'absence d'hypothèse on note que les moments de la loi de probabilité du
processus dépendent du temps. En particulier la moyenne: mt = E(X t), la
variance VarfXj), et l'autocovariance au retard h : T(t, h) = Covt X}, Xt+h)
dépendent de t. En général, on se restreint seulement au processus du second
ordre c'est-à-dire tel que E(X~ < 00, pour tout t E Z et on s'intéresse plus
particulièrement aux deux premiers moments de la loi de probabilité.
On appelle série chronologique {Xt, t e Z} une réalisation d'un processus

stochastique [Xj, t E Z}. La réalisation est ici considérée comme une observation
174
du processus constituée par une suite de mesures effectuées dans des conditions
identiques.
Pour déduire des résultats puissants et simples d'utilisation, il est utile de

restreindre la classe des processus stochastiques. Deux telles restrictions sont
souvent introduites : la condition de stationnarité et la condition d'inversibilité.
A.1.2.- Stationnarité
Un processus stochastique Xt est stationnaire si ses propriétés statistiques ne

changent pas avec le temps. On distingue deux notions de stationnarité : la
stationnarité stricte et la stationnarité d'ordre m, m > 0, m E Z.
Définition :
i) Un processus X est strictement stationnaire (ou fortement stationnaire) si

et seulement si la distribution de (Xt+q , ... , Xt+tk) est égale à la distribution de
(Xjj , ... , Xtk) et ceci pour tous k, t, tl, ... , tk.
ii) Un processus est stationnaire au second ordre (m = 2) (ou faiblement

stationnaire) si et seulement si :
- la moyenne ne dépend pas du temps : V t , mt = E(X t) =m

- les covariances sont invariantes par translation dans le temps :
F(t, h) = T(h), pour tout 1.
Dans tout le document, le terme "stationnaire" signifie toujours

"stationnaire du second ordre". Un exemple de processus stationnaire est fourni
par les bruits blancs, suite de variables aléatoires (et, t E Z), de moyennes nulles
E(et) = 0, non corrélés T(h) = 0, h "# ° et de même variance: V( et} = 0 2= I'(O),
175
Ainsi un processus au second ordre fortement stationnaire est de façon
claire faiblement stationnaire. A l'opposé un processus faiblement stationnaire
peut ne pas être fortement stationnaire, par exemple lorsque les moments d'ordre
trois ou quatre ne sont pas invariants dans le temps. Dans le cas gaussien, c'est-à-
dire si toutes les distributions de dimension finie sont normales, les deux notions
de stationnarité coïncident.
Cette notion de stationnarité assure aussi que les séries observées

n'explosent pas. Nous donnons ici une proposition que nous utilisons dans le
chapitre 3.
Proposition A.1.2.
Si {Xl, t E Z} est un processus stationnaire, de fonction d'autocovariance

'YxC.) et si {ai, t E Z} est une suite de nombres réels absolument sommables :
+~ +~
Liai 1 < + 00, les égalités Yt = L ai Xt-i , t E Z définissent alors un

i=-~ i=-~
nouveau processus stationnaire, de fonction d'autocovariance
+~ +~
'Yy(h) = L L ai aj 'Yx Ch - i + j)
i=-~ j=-~
En particulier pour le processus ARC 1)
Xt =<1> Xt-l + Et avec 1 <1> 1 <1
oe
On a Xt = L <l>i Et-i avec 'YECO) = 0"2 et 'YE (h) = 0, V h ::1= 0

i=o
On obtient alors :
176
00 00
'Yx (h) = L L <l>i+j 'Ye (h - i + j)

i=o j=o
00 00
=L L <l>2i+j 'te (h - j)
j=o i=o
2
= 1 -0 <1>2 <l>h = 'Yx (0) <l>h
avec 'Yx (0) = q2

1 - <1>2
A.1.3.- Inversibilité
Ce concept est fondamental d'une part pour estimer les paramètres d'un
modèle, d'autre part pour faire des prédictions. Intuitivement la notion
d'inversibilité correspond à ridée d'extraire le bruit Et à partir des observations
passées du processus.
Définition
Un processus stochastique Xt, t E Z est inversible si Et est mesurable par

rapport à la tribu o(X s , s :5 t).
Un exemple de processus inversible est fourni par le processus autorégressif
d'ordre un: X, = <1> Xt- l + Et
La notion d'inversibilité est donc assez facilement réalisée pour les

processus linéaires, mais elle peut n'être jamais réalisée dans le cas de modèles
non linéaires.
177
Annexe A.2.- Produit de Kronecker de matrices, Opérateurs Vec et R
A.2.1.- Produit de Kronecker de matrices
Si A est une matrice (m x n) d'éléments aij, si B est une matrice (p x q), le

produit de Kronecker de A par B, écrit Afi!) B, est la matrice (mp x nq)
admettant la décomposition par blocs.
aln B
Afi!)B=
amI B am2 B arnn B
Les propriétés suivantes du produit de Kronecker de matrices peuvent être

facilement démontrées. Pour toutes matrices A, B et C
(A e B)' = A' e B' (A.2.1.l)
(A e B) fi!) C = A fi!)(B fi!) C) (A.2.1.2)
où A' désigne la matrice transposée de A.
De plus, si A et B sont deux matrices (m x n) et si C est une matrice quelconque,
(A + B) fi!) C = (A ® C) + (B fi!) C) (A.2.1.3)
C ® (A + B) = (C ® A) + (C ® B) (A.2.1.4)
Si A, B, C et D sont des matrices de dimensions respectives (m x n), (p x q),

(n x k) et (q x r). Alors
(A fi!) B) (C fi!) D) = (A C) e (B D) (A.2.1.5)
178
Ce qui s'écrit
au B a12 B cu D C12 D ClkD
C21 D C22 D C2kD

•
• • • •
• • • •
amI B am2 B amnB Cnl D Cn2 D CnkD
L alj Cjl BD L alj Cj2 BD L aij Cjk BD

L a2j Cjl BD L a2j Cj2 BD L a2j Cjk BD
= • •
• • •
• • •
L amj Cjl BD L arnj Cj2 BD L arnj Cjk BD
Si A et B sont deux matrices inversibles de dimensions respectives (n x n)

et (p x p) alors
(A® B)-l = (A-I ® B-I) (A.2.1.6)
A.2.2.- Opérateur Vec (" Stacking" operation)
Si A est une matrice (m x n) d'éléments aij, alors Vec (A) désigne

l'opérateur consistant à empiler les colonnes de la matrice A :
Vec (A) = [ Al, A2•... , An ]' où
Aj est la jème colonne de la matrice A.
179
Si A, B, C sont trois matrices de formats convenables alors on a le résultat
suivant (Neudecker, 1969).
Vec (A B C) = (C' ® A) Vec (B)
A.2.3.- Opérateur R
Si A est une matrice (m x n) d'éléments aij, alors R(A) désigne l'opérateur

consistant à juxtaposer les lignes de la matrice A :
R(A)=[AI.AZ•... ,AmJ où
Aj est la jème ligne de la matrice A.
Si A, B. C sont trois matrices de formats convenables alors on a le résultat

suivant (Neudecker, 1969).
R(A B C) = R(B)(A' e C).
180
BIBLIOGRAPHIE
ANDERSON T.W., (1971). The statistical analysis of time series, New York,
Wiley.
ASTROM K.J., (1970). Introduction to Stochastic Control Theory, New York,

Academie Press.
BAILLIE R. T., (1979). The asymptotic mean squared error of multistep

prediction from the regression model with autoregressive errors.
J.A.S.A., Vol. 74, pp 175-184.
BAILLIE R. T., (1980). Predictions from ARMAX models, Journal of

Econometries Vol. 12, pp 365-374.
BAILLIE R. T. and B01-LERSLEV, T. (1992). Prediction in dynamic

models with time-dependant conditional variances, Journal of
Econometries, Vol. 52, pp 91-113.
BATES J., GRANGER C.W., (1969). The combination of forecasts. Oper.

Res. Q., Vol. 20, pp. 451-468.
BHANSALI R. T., (1981). Effects of not knowing the order of an

autoregressive process on the mean squared error of prediction-l,
J.A.S.A., Vol. 76, pp 588-97.
BLOOMFIELD P., (1972). On the error of prediction fo a time series,

Biometrika, Vol. 59, pp 501-508.
181
BOLLERSLEV T., (1986). Generalized autoregressive conditional heteros-
kedasticity, Journal of Econometries, Vol. 31, pp 307-327.
BOLLERSLEV T., and ENGLE R. F., (1989). Common persistence III
conditional variances, Unpublished manuscript (J.L. Kelloq Graduate

School of Management, Northwestern University Evaanston, IL).
BOSQ D. et LECOUTRE J. P., (1992). Analyse et prévision des séries

chronologiques, Masson.
BOX G. E. P. and JENKINS G. M., (1970). Time Series Analysis

Forecasting and Control, Holden-Day.
BROCKWELL P.J. and DA VIS R.A., (1991). Time Series: Theory and
Methods, 2nd Edn, New York : Springer-Verlag.
BROWN R. (1962). Smoothing, forecasting and prediction, Prentice Hall.
CARBON M. et DELECROIX M., (1993). Non-parametric vs parametric

forecasting in time series : a computational point of view, Applied
Stochastic Models and Data Analysis, Vol. 9, pp 215, 229.
CLEVELAND W. S., (1971). Fitting time senes models for prediction.

Technometrics, Vol. 13, pp 713-723.
COGGER K., (1974). The optimality of general order exponential smoothing,

Operational Research, Vol. 22, pp 858, 867.
COX D., (1961). Prediction by exponentially weighted moving arevage and

related methods, J.R.S.S. B, Vol. 23, pp 414, 422.
182
DAVIES N. and NEWBOLD P., (1980). Forecasting with misspecified
models, App. Statist., Vol. 29, pp 87-92.
DAVISSON 1. D., (1965). The prediction error of a stationary gaussian time

series of unknown covariance, I.E.E.E. Trans. Info .. Theory IT t Vol. Il,
pp 527-532.
DOUCOURE F. B., (1996). Sélection de méthodes par le critère de l'erreur

quadratique moyenne de prédiction, Revue de Statistique Appliquée, Vol.
3, pp 27-45.
EFRON B., (1979). Bootstrap methods : another look of Jacknife, Ann. Statist.,
Vol. 1, pp. 1-26.
ENGLE R. F., (1982). Autoregressive conditional heteroskedasticity with

estimates of the variance of United Kingdom inflation, Econometrica, Vol.
50, pp 987 t 1007.
GABR M. M., (1988). On the third-order moment structure and bispectral

analysis of sorne bilinear time seriesn J.T.S.A. t Vol. 9, pp 11-20.
GEURTS M. D. and IBRAHIM 1. B., (1975). Comparing the Box Jenkins

Approach with the exponentially Smoothed Forecasting Model :
Application to Hawaii Tourists, Journal of Marketing Research, Vol. 12,
pp 181, 188.
GRANGER C. W. J. and ANDERSON A. P., (1978). An introduction to

bilinear time series analysis, Vandeenhoeck and Rupecht Gottingen.
183
GRANGER C. W. J. and JOYEUX R., (1980). An introduction to long-
memory time series models and fractional differencing, J.T.S.A., Vol. 1,
pp 15, 29.
GRANGER C. W. J. and NEWBOLD P., (1977). Forecasting Economies

TIme Series. New York : Academie Press.
GROFF G. K., (1973). Empirical Comparisons of Models for Short-Range

Forecasting, Management Science, Vol. 20, pp 22-31.
CROSS D. and RAY J. L., (1965). A general purpose forecasting simulator,

Management Science, Vol. Il, pp 119, 135.
GUEGAN D., (1981). Etude d'un modèle non linéaire, le modèle superdiagonal
d'ordre 1, CRASS, Séries A, t 293, pp 95, 98.
GUEGAN D., (1983 a). Cadre d'étude pour les modèles linéaires, C.R.A.S.,
Vol. 296, pp 167-170.
GUEGAN D., (1983 b).- Une condition d'ergodicité pour les modèles
bilinéaires à temps discret, C.R.A.S., Vol. 297, pp 537-540.
GUEGAN D., (1988). Modèles bilinéaires et polynomiaux de séries

chronologiques : étude probabiliste et analyse statistique, Thèse d'état.
Grenoble.
GUEGAN D., (1992). On the identification and prediction of non linear

models, Proceedings for the Workshop on "New Directions in time series
analysis". Minneapolis. July 90, Springer Verlag.
184
GUEGAN D., (1994). Séries Chronologiques Non Linéaires à Temps Discret.
..
Economica.
GUEGAN D. and PHAM T. D., (1987). Minimalité et inversibilité des

modèles bilinéaires à temps discret, C.R.A.S., Vol. 448, pp 159-162.
GUEGAN D. and PHAM T. D., (1989). A note on the estimation of the

parameters of the diagonal bilinear models by the least squares method,
Scand. Journ. of Stat. Theory and Appl., Vol. 16, pp 129-136.
GEWEKE J. and PORTER-HUDAK S., (1983). The estimation and

application of long memory time series models, J.A.S.A., Vol 4, pp 221-
238.
HASSLER U., (1994). Misspeecification of long memory in seasonal time

series, J.T.S.A., Vol. 15, No. 1, pp 19-30.
HOSKINS J. R. M., (1981). Fractional differencing, Biometrika, Vol. 68, pp

165, 76.
HWANG S. W. and BASAWA I. V., (1993). Parameter estimation in a

regression model with random coefficient autoregressive errors. Journal of
Statistical Planning and Inference, Vol. 36, pp 57-67.
KIRBY R.M. (1966). A comparison of short and medium range statistical

forecasting methods, Management Science, Vol. 4, pp 202, 210.
KRAMPF R. F., (1972). The tuming point problem in smoothing models,

Unpublised Ph. D. Dissertation, University of Cincinnati.
185
KENDALL M.G. ans STUART A., (1977). The Advanced Theory of
Statistics l,4th ed. London : Griffin.
LA WRANCE A. K. and KOTTEGODA N. T., (1977). Stochastic

modeling of riverflow time series models, J. R., Statist. Soc. A, Vol. 140,
pp 1-47.
LEVINE A. H., (1967). Forecasting Techniques, Management Accouting.
LESSI O., (1991). Statistiques des processus bilinéaires et des processus de

Volterra, Thèse de l'université Paris 6.
LEWIS R. A. and REINSEL G. C., (1988). Prediction error of multivariate

time series with mis-specified models, J.A.S.A., Vol. 9, No. I, pp 43-57.
LI W. K. and MCLEOD A. 1., (1986). Fractional time series modelling,

Biometrika, Vol. 73, pp 217-221.
LUI J., (1989). A simple condition for the existence of sorne stationary bilinear
time series, J.T.S.A., VOL 10, pp 33-39.
LUI J., (1990). A note on causality and invertibility of a general bilinear time
series models, Adv. Appl. Prob., Vol. 22, pp 247-250.
LUI J. and BROCKWELL P. J., (1988). On the genera1 bilinear time series
models, J. Appl. Prob, Vol. 25, pp 553-564.
MABERT A., (1975). An introduction to short term forecasting using the Box
Jenkins methodology, American lnstitute of lndustral Engineers, Atlanta.
186
MAKRIDAKIS S. and HIBON M., (1979). Accuracy of forecasting : an
empirical investigation, J.R.S.S.A., Vo1.142, pp 97, 145.
MAKRIDAKIS S. et al, (1984). The Forecasting Accuracy of Major Time

Series Methods, Wiley, Chichester.
MILHOJ A., (1985). The Moment Structure of ARCH process, Scand. J. Statist,
Vol. 12, pp 281, 292.
MUTH J. F., (1960). Optimal properties of exponentially weighted forecasts,

J.A.S.A., Vol. 55, pp 299, 306.
NELSON D. B., (1992). Filtering and forecasting with misspecified ARCH

models I, Journal of Econometries, Vol. 52, pp 61-90.
NEWBOLD P. and GRANGER C.W.L., (1974). Experience with

forecasting univariate time series and the combination of forecasts,
J.R.S.S.A, 137, Part 2, pp 131-165.
NICHOLLS D. F. and QUINN B. G., (1982). Random coefficient

autoregressive models. An introduction, Lectures Notes in Statistics. II
Springer Verlag.
PEIRIS M. S. and PEREIRA B. J. C., (1988). On prediction with

fractionally differencedAkl'MA processes, J.T.S.A., Vol. 9, pp 215-220.
PHAM T. D., (1985). Bilinear Markovian representation and bilinear models,

Stoch. Processes and their App, Vol. 12, pp 295-306.
187
PHAM T. D. and TRAN L. T., (1981). On the first order bilinear time
series models, l. Appl. Prob, pp 617-627.
PHAM T. D. (1986). The mixing property of bilinear and generalised random

coefficient autoregressive models, Stoch. Processes and their appl., Vol.
23, pp 291-300.
PIERCE D. A., (1971). Least squares estimation in the regression model with
autoregressive moving average errors, Biometrika, Vol. 58, pp 299-312.
RAINE J. E., (1971). Self-Adaptative Forecasting Considered, Decision

Science.
RA Y D., (1983). On the autoregressive model with random coefficients,

Calcutta Statist. Ass. Bull, Vol. 32, pp 135-142.
RAY D., (1988). Asymptotic mean square prediction error for a multivariate
autoregressive model with random coefficients, l.T.S.A., Vol. 9, No. 1, pp
73-80.
RAY B. K., (1993). Modeling long-memory process for optimal long-range

prediction, J.T.S.A., Vol. 14, No. 5, pp 511-525.
REID D. J., (1971). Forecasting in Action : A Comparison of Forecasting

Techniques In Economie Time Series, Proceedings of the Joint Conference
of the Operations Research Society, Long-Range Planning and Forecasting.
REINSEL G. C., (1980). Asymptotics properties of prediction errors for the

multivariate autoregressive model using estimated parameters. J. Roy.
Statist. Soc. Sei. B 42, pp 328-333.
188
SESAY S. A. O. and SUBBA RAO T., (1988). Yule Walker difference
equation for higher order moments and cumulants for bilinear time series
models, U.T.S.A., Vol. 9, pp 85-401.
SUBBA RAO T., (1981). On the theory of bilinear time series models, J.R.S.S.
B. 43, pp 224-255.
SUBBA RAO T., and GABR M. M., (1984). An introduction to

bispectral analysis and bilinear time series models, Lectures Note in
statistics Springer Verlag, Vol. 24.
WEISS A. A., (1984). ARMA models with ARCH errors, J.T.S.A., Vol. 3, pp
129-143.
YAGIMA Y., (1991). Asymptotic properties of the LSE in a regression model

with long-memory stationary.
YAMAMOTO T., (1975). Asymptotic mean square error of multi-step

prediction from mixed autoregressive moving average model. Discussion
paper No. 7521, C.O.R.E., Université Catholique de Louvain.
YAMAMOTO T., (1976). Asymptotic mean square prediction error for an

autoregressive model with estimated coefficients. Appl. Statist. Vol. 25, pp
123-127.
YAMAMOTO T., (1981). Predictions of multivariate autoregresive moving

average models average models, Biometrika, Vol. 68, pp 485-492.
189

CS 02417

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CS 02417

Transféré par

Droits d'auteur :

Formats disponibles

• .

UNIVERSITE GASTON BERGER DE SAINT, LOUIS

THESE DE DOCTORAT DE TROISIEME CYCLE

DE SERIES CHRONOLOGIQUES LINEAIRES ET NON

Soutenue le 17 Janvier 1998

Devant le jury composé:

M. Chérif BADJI Président (Professeur, UCAD)

A mes Parents qui m'ont donné

Je tiens d'abord à exprimer ma profonde gratitude et mes plus vifs

Je suis très reconnaissant à Monsieur le Professeur Galaye DIA

Monsieur le Professeur Denis BOSQ a bien voulu rapporter cette

Je remercie vivement Messieurs Gane Samb LO. Richard EMILION

Je remercie vivement ma famille. mes collègues et tous mes amis

Je suis particulièrement reconnaissant à Madame Elisabeth

Je ne saurais terminer sans exprimer mes amitiés à mes collègues

2.3. Processus multivariés 63

III . Erreur de prédiction dans un modèle erroné 76

3.2.2. Processus multivariés linéaires l0S

3.3. Intervalle de prédiction dans un modèle erroné 1l5

IV • Sélection de méthodes par le critère de l'erreur quadratique

4.1. Introduction 121

4.3. Erreur quadratique moyenne de prédiction 125

V • Simulations et Analyse des résultats 147

A .1. Concepts fondamentaux 174

A.2. Produit de Kronecker de matrices et Opérateurs Vec et R 178

Bibliographie générale 181

L'étude et l'analyse des séries temporelles est fondamentale quant à leurs

Dans tous les domaines précités, les séries chronologiques observées

Stationnariser t--~ Identifier I-~I

Dans la pratique, le modèle identifié ne correspond pas généralement au

Un important problème qui se pose alors dans l'étude et l'analyse des

Dans la première partie de ce travail, nous nous proposons d'étudier d'un

Dans la deuxième partie de ce travail, nous utilisons le critère de l'erreur

Dans le chapitre III, nous étudions le problème de l'erreur de prédiction

Dans ce chapitre, nous mettons aussi en évidence l'importance de l'horizon

Le chapitre IV est consacré à la sélection de méthodes par le critère de

Dans le chapitre V, nous donnons quelques résultats obtenus par

Le chapitre 4 a été publié dans la Revue de Statistique Appliquée (RSA).

[1] Régressogramme mobile de processus chaotiques, 1993, Communication

[2] Sélection de méthodes par le critère de l'erreur quadratique moyenne de

[3] Propriétés stochastiques des séries macroéconomiques sénégalaises.

[4] Prediction error in regression models (en préparation)

Mars. 1994 Séminaire d'initiation à la statistique des processus, FASEG,

Mars. 1995 Séminaire d'initiation à la statistique des processus, FASEG,

Nov. 1996 Séminaire en Probabilités - Statistiques, LAGA, Institut Galilée,

L'un des objectifs principaux, en statistique des séries temporelles, est la

Dans ce chapitre, on préseente l'état actuel des connaissances concernant les

V(h) = E [Xt+h - Xt(h) ]2, h>O (2.1.1.)

où Xt(h) représente le prédicteur obtenu à partir de l'une des méthodes précitées.

2.2.- Prédiction de processus linéaires et non linéaires

Dans ce paragraphe, on étudie la prédiction de différents modèles linéaires

Pour certains modèles, nous considérons le cas où les paramètres sont

2.2. Processus univariés

On appelle processus autorégressif d'ordre p un processus [Xj, t E Z}

aléatoires indépendantes équidistribuées, centrées et de variance finie cr2 .

La relation (2.2.1.1) peut aussi s'écrire

Un tel processus est noté AR(p).

L= [1,0, ... ,0]' ,et

<1>1 <1> 2 <1> 3 <1> p

On obtient l'expression de Xt+h en itérant l'expression (2.2.1.2.) :

Le prédicteur des moindres carrés Xt(h) est donné par

où a'(h) = L' Ah.

L'erreur quadratique moyenne de prédiction est: