Vous êtes sur la page 1sur 41

Table des matières

1 Introduction 3
1.1 Notion de série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Modélisation d’une série chronologique . . . . . . . . . . . . . . . . . 5
1.2 Introduction aux processus stationnaires . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Moyenne et autocorrélation empiriques . . . . . . . . . . . . . . . . . 8
1.3 Estimation et élimination de la tendance et de la saisonnalité . . . . . . . . 9
1.3.1 La méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . 9
1.3.2 La méthode des moyennes mobiles . . . . . . . . . . . . . . . . . . . 10
1.3.3 Le programme Census X-11 . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Méthode par différenciation . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Test des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Prévision des séries chronologiques 15


2.1 Méthodes générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Méthode des moyennes mobiles . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Méthodes par lissage exponentiel . . . . . . . . . . . . . . . . . . . . 15
2.1.3 La méthode de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . 16
2.1.4 La méthode par décomposition . . . . . . . . . . . . . . . . . . . . . 17
2.2 Prévision des séries stationnaires . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Propriétés de la fonction d’autocorrélation . . . . . . . . . . . . . . . 18
2.2.2 Processus linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Prévision sur le passé limité (ou fini) . . . . . . . . . . . . . . . . . . 19
2.2.4 La décomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Processus ARMA et quelques généralisations 25


3.1 Les processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Polynômes et séries en B . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.2 Définitions et propriétés des processus ARMA . . . . . . . . . . . . . 26
3.1.3 Fonction d’autocovariance . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.4 Fonction d’autocorrélation partielle . . . . . . . . . . . . . . . . . . . 30
3.1.5 Prévision d’un processus ARMA . . . . . . . . . . . . . . . . . . . . 31
3.1.6 Estimation des paramètres d’un ARMA . . . . . . . . . . . . . . . . 34
3.1.7 Validation des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.8 Choix des ordres p et q . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
2 TABLE DES MATIÈRES

3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Identification et estimation des paramètres d’un ARIMA . . . . . . . 38
3.3 Processus SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Identification et estimation des paramètres . . . . . . . . . . . . . . 39
Chapitre 1

Introduction

1.1 Notion de série chronologique


Dans ce cours on étudie des techniques permettant de faire des inférences de séries tem-
porelles. Cela nécessite la construction d’hypothétiques modèles représentant les données.
Une fois des modèles appropriés contruits, il est possible d’estimer leurs paramètres, de tes-
ter leur adéquation aux données et éventuellement les utiliser pour éclairer la compréhension
des mécanismes générant les données. Leur utilisation peut varier suivant les domaines
d’application. Ils peuvent servir à la description des données ; à la séparation des bruits
des signaux ; à la prédiction d’une série à partir de l’observation d’une autre série ; à la
prédiction et/ou au contrôle des valeurs futures d’une série.

1.1.1 Définitions et exemples


Définition 1.1 On appelle série temporelle ou série chronologique ou chronique, toute
suite d’observations (xt ) issues d’un phénomène produisant l’observation xt à un instant
précis t.

Domaines d’application et exemples


1 - Médecine/Biologie : évolution des décès accidentels, des patholodies, analyse d’électro-
encéphalogrammes et d’électro-cardiogrammes.
2 - Finance/assurance/économie : l’évolution du taux du change entre deux monaies,
des indices boursiers, des prix, des ventes et achats des biens, analyse des sinistres,
analyse du chiffre d’affaire d’un groupe industriel etc.
3 - Science de la Terre et de l’Espace : évolution du niveau d’un cours d’eau, évolution
de l’indice des marrées, évolution des tâches solaires etc.
4 - Traitement du signal : analyse des signaux de communications, de radars, de sonars,
de la parole.

Définition 1.2 Construire un modèle de séries chronologiques pour des valeurs observées
(xt )t∈T c’est préciser les lois jointes d’une suite de v.a.r (Xt )t∈T dont (xt )t∈T est supposée
être une réalisation.
Une telle suite (Xt )t∈T est appelée processus stochastique. Il est à temps discret si T
est dénombrable, et à temps continu si T est un intervalle de R.

3
4 CHAPITRE 1. INTRODUCTION

LakeHuron USAccDeaths
576 577 578 579 580 581 582

7000 8000 9000 10000 11000


USAccDeaths
LakeHuron

1880 1900 1920 1940 1960 1973 1974 1975 1976 1977 1978 1979

Time Time

Lynx data UKDriverDeaths


7000

2500
5000

UKDriverDeaths

2000
lynx

3000

1500
0 1000

1000

1820 1840 1860 1880 1900 1920 1970 1975 1980 1985

Time Time

Figure 1.1 – Quelques exemples de séries chronologiques réelles : niveau du lac Huron
(USA), nombre de morts accidentelles (USA), nombre de lynx tués au Canada, nombre
de décès dans les accidents de la route (Royaume Uni).

Dans ce cours, nous ne nous intéressons qu’aux processus à temps discret. Nous confon-
drons souvent les suites (xt )t∈T et (Xt )t∈T .
Exemple - Soit X1 , X2 , . . . , une suite de v.a.r. indépendantes telles que P (Xt = 1) =
P (Xt = −1) = 1/2, ∀t. Soit (Mt )t≥0 la suite de v.a.r. définie par

M0 = 0 et Mt = X1 + . . . + Xt , ∀t ≥ 1.

La suite (Mt )t≥0 est un processus appelé marche aléatoire symétrique. On peut remarquer
que Mt = Mt−1 + Xt et Xt = Mt − Mt−1 .
Remarque - Un modèle de séries chronologiques pour une suite de v.a.r. X1 , X2 , . . . , doit
pouvoir permettre la spécification des probabilités

P (X1 ≤ x1 , . . . , Xn ≤ xn ), x1 , . . . , xn ∈ R, n = 1, 2, . . . .

Mais cette spécification est souvent associée à un grand nombre de paramètres (plus grand
que la taille des données). C’est pourquoi on se borne souvent à étudier les propriétés dites
du second ordre, c’est-à-dire celles liées à E(Xt ) et E(Xt Xt+h ). Ces propriétés caractérisent
la loi du processus (Xt ) si celui-ci est gaussien.
1.1. NOTION DE SÉRIE CHRONOLOGIQUE 5

1.1.2 Modélisation d’une série chronologique


La modélisation d’une chronique suit à peu près les étapes suivantes :
Étape 1. On représente graphiquement la série. Cela peut mettre en évidence :
(i) Une tendance qui marque l’allure générale du phénomène.
(ii) Des variations saisonnières.
(iii) Des données aberrantes. Il s’agit de données qui n’ont pas été engendrées de la
même manière que les autres (erreur de saisie, de calcul ou de mesure) ou qui sont
tirées dans la queue de distribution.
(iv) Des changements structurels ou ruptures.
Étape 2. On analyse le graphique et on :
(i) enlève la tendance et la composante saisonnière (plusieurs méthodes sont possibles
et une transformation de la série peut être nécessaire) ;
(ii) on modélise les éventuelles ruptures ou bien on analyse la série sur des intervalles
homogènes ;
(iii) étudie la possibilité d’écarter les éventuelles données aberrantes, avant d’analyser
la série ;
(iv) ajuste un modèle stationnaire aux résidus.

En général, les deux étapes précédentes conduisent à postuler un ou plusieurs modèles


susceptibles d’avoir généré les observations. Quelques classes de modèles rencontrés dans
la littérature sont :
• Les modèles d’ajustement :

Xt = f (t, εt ), t ∈ Z, (1.1)

où (εt )t∈Z est une suite de v.a.r. centrées représentant les variations de la série dues
au hasard, f une fonction indexée par un nombre fini de paramètres inconnus. Lorsque
f (t, εt ) = g(t) + εt on dit que l’ajustement est additif. Lorsque f (t, εt ) = g(t)εt on dit qu’il
est multiplicatif.
• Les modèles de filtrage :

Xt = f (. . . , εt−1 , εt , εt+1 , . . .), t ∈ Z, (1.2)

où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles moyennes
mobiles (MA) qui seront vus au chapitre suivant.
• Les modèles autoprojectifs :

Xt = f (Xt−1 , Xt−2 , . . . , εt ), t ∈ Z, (1.3)

où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles autorégressifs
(AR) qui seront vus au chapitre suivant.
• Les modèles explicatifs :

Xt = f (Yt , εt ), t ∈ Z, (1.4)
6 CHAPITRE 1. INTRODUCTION

où (εt )t∈Z est comme ci-dessus et Yt est un vecteur de variables observables que l’on
suppose souvent indépendant de εt . Si Yt ne contient pas les valeurs passées de Xt on
parle de modèle explicatif statique. Si les εt sont autocorrélées ou si Yt contient les valeurs
passées de Xt on parle de modèle explicatif dynamique.
Remarque - (εt ) est une de v.a.r. qui, suivant les cas, peut réfléter des variations aléatoires
du phénomène observé autour de sa tendance et de ses évolutions saisonnières, ou réfléter
les variations de l’erreur de mesure sur les observations.
Exemples - On suppose (εt )t∈Z une suite de v.a.r. centrées de variance finie et a, b ∈ R.
(i) Xt = a + bt + εt t ∈ Z.
(ii) Xt = aXt−1 + εt , t ∈ Z.
(iii) Xt = a + b cos πt + εt , t ∈ Z.
(iv) Xt = aε2t−1 + bεt−1 + εt , t ∈ Z.

1.2 Introduction aux processus stationnaires


1.2.1 Définitions
Définition 1.3 Tout processus (εt )t∈T tel que E(εt ) = 0, V ar(εt ) = σ 2 > 0, ∀t ∈ T
et Cov(εs , εt ) = 0, s 6= t est appelé bruit blanc (faible) de variance σ 2 . Nous noterons
(εt )t∈T ∼ BB(0, σ 2 ).

Exemple - Toute suite de v.a.r. iid centrées de variance finie σ 2 est un BB(0, σ 2 ).

Définition 1.4 Un processus (Xt )t∈T est dit du second ordre ou à l’ordre 2 si Xt ∈
L2 , ∀t ∈ T ou encore si E(Xt2 ) < ∞, ∀t ∈ T .

Définition 1.5 Soit (Xt )t∈T un processus du second ordre.


(i) La fonction moyenne de (Xt )t∈T est définie pour tout t ∈ T par µX (t) = E(Xt ).
(i) La fonction d’autocovariance de (Xt )t∈T est définie pour tous s, t ∈ T par γ
eX (s, t) =
Cov(Xs , Xt ) = E[(Xs − µX (s))(Xt − µX (t))].

Définition 1.6 Un processus (Xt )t∈T est faiblement stationnaire ou stationnaire à l’ordre
2 ou stationnaire au sens faible si :
(i) il est du second ordre ;
(ii) ∀t ∈ T , µX (t) = µX indépendante de t ;
(iii) ∀h, t ∈ T , γ
eX (t + h, t) = γX (h) indépendante de t.

Définition 1.7 Pour tout processus faiblement stationnaire (Xt )t∈T ,


(i) la fonction h 7→ γX (h) est appelée fonction d’autocovariance de (Xt )t∈T ;
(ii) la fonction h 7→ ρX (h) = γX (h)/γX (0) est appelée fonction d’autocorrélation de
(Xt )t∈T .

Définition 1.8 Un processus (Xt )t∈T est dit stationnaire au sens strict (ou fort) ssi

L(Xt1 , . . . , Xtk ) = L(Xt1 +h , . . . , Xtk +h ), k ∈ N, t1 , . . . , tk ∈ T.


1.2. INTRODUCTION AUX PROCESSUS STATIONNAIRES 7

ACF ACF
−0.2 0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0


ACF

ACF

−0.4

0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Lag Lag

ACF ACF
1.0

0.0 0.2 0.4 0.6 0.8 1.0


0.5
ACF

ACF
0.0
−0.5

0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Lag Lag

Figure 1.2 – Fonctions d’autocorrélation des séries niveau du lac Huron, nombre de morts
accidentelles, nombre de lynx tués au Canada, nombre de décès dans les accidents de la
route
8 CHAPITRE 1. INTRODUCTION

Remarque - Tout processus du second ordre stationnaire au sens strict est stationnaire
à l’ordre 2.
Exemples et contre-exemple
(i) Toute suite de v.a.r. iid est stationnaire au sens strict et à l’ordre 2 (s’il est du
second ordre).
(ii) Tout bruit blanc est un processus stationnaire à l’ordre 2.
En effet : soit (εt )t∈Z ∼ BB(0, σ 2 ). On sait par définition que E(εt ) = 0; E(ε2t ) =
σ 2 ; Cov(εt+h , εt ) = 0, h 6= 0.
(iii) Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R. Le processus (Xt )t∈Z défini par

Xt = εt + θεt−1 , t ∈ Z,

est un processus stationnaire appelé moyenne mobile d’ordre 1 et noté M A(1).


En effet, par de calculs simples, on a E(Xt ) = 0, E(Xt2 ) = (1 + θ2 )σ 2 et

 (1 + θ2 )σ 2 , h = 0

Cov(Xt+h , Xt ) = θσ 2 , h = ±1
0 ailleurs.

(iv) La marche aléatoire définie plus haut n’est pas un processus stationnaire.
En effet, de calculs simples montrent que Cov(Mt+h , Mt ) = t.

1.2.2 Moyenne et autocorrélation empiriques


Définition 1.9 Soient X1 , . . . , Xn des v.a.r.
bX = X̄ = n−1 nt=1 Xt .
P
(i) La moyenne empirique des X1 , . . . , Xn est µ
(ii) La fonction d’autocovariance empirique des X1 , . . . , Xn est
n−|h|
X
−1
γ
bX (h) = n (Xt−|h| − X̄)(Xt − X̄), −n < h < n.
t=1

(iii) La fonction d’autocorrélation empirique des X1 , . . . , Xn est

γ
bX (h)
ρbX (h) = , −n < h < n.
γ
bX (0)

Remarque - Pour une suite d’observations x1 , . . . , xn , réalisations des X1 , . . . , Xn , µ


bx =
Pn−|h|
x̄ = n−1 nt=1 xt est une estimation de µX ; γ bx (h) = n−1 t=1 (xt−|h| − x̄)(xt − x̄) est une
P
estimation de γX (h) ; ρbx (h) = γ
bx (h)/b
γx (0) est une estimation de ρX (h).
Remarque - Pour une suite d’observations x1 , . . . , xn comportant une tendance, |b ρx (h)|
décroı̂t lentement et/ou les valeurs sont rapprochées les une des autres. Pour celles com-
portant une composante périodique de période d, |b ρx (h)| va exhiber la même périodicité.
Ceci signifie que ρbx (h) peut être utilisé comme un indicateur de nonstationnarité.
1.3. ESTIMATION ET ÉLIMINATION DE LA TENDANCE ET DE LA SAISONNALITÉ9

1.3 Estimation et élimination de la tendance et de la sai-


sonnalité
On suppose dans ce qui suit que la série brute (Xt )t∈Z suit un modèle du type (1.1)
défini par :
Xt = Zt + St + εt , t ∈ Z, (1.5)
où Zt représente la composante tendancielle, St la composante
Pd saisonnière de période
d supposée connue telle que S1 + · · · + Sd = 0 (ou S
j=1 t+j = 0). La suite (εt )t∈Z
est une suite de v.a.r. centrées de variance finie représentant les variations de la série
dues au hasard. On la suppose souvent iid (=bruit blanc fort), bruit blanc faible ou plus
généralement stationnaire à l’ordre deux.
Nous supposons dans la suite que l’on a observé X1 , . . . , Xn .

1.3.1 La méthode des moindres carrés


On fait l’hypothèse que
k `
cj Stj , t ∈ Z,
X X
Zt = bi Zti , St =
i=1 j=1

où les bi et cj sont des paramètres réels inconnus et les Zti et Stj sont des fonctions connues
du temps. Les paramètres bi et cj sont estimés par la méthode des moindres carrés, en
minimisant en (b1 , . . . , bk , c1 , . . . , c` ) la fonction
 2
n k `
cj Stj  .
X X X
Xt − bi Zti −
t=1 i=1 j=1

Soient bbi et b
cj les estimateurs obtenus. Les composantes Zt et St sont estimées respecti-
vement par
k `
cj Stj .
X X
Zbt = bbi Z i et Sbt =
t b
i=1 j=1

Définition 1.10 On appelle


(i) série corrigée de la tendance, la série (Xt − Zbt )t∈Z ;
(ii) série corrigée des variations saisonnières, la série (Xt − Sbt )t∈Z ;
(iii) série corrigée de la tendance et des variations saisonnières, la série (Xt − Z
bt −
St )t∈Z .
b

Remarque - Les résidus εbt = Xt − Z bt − Sbt doivent se comporter comme des réalisations
des εt . Donc la suite (b
εt )t∈Z doit se comporter comme la réalisation d’une série ayant “à
peu près” les mêmes propriétés que (εt )t∈Z .
Remarque - La méthode des moindres carrés a l’inconvénient de ne pas prendre en compte
les changements de régime. Aussi, la mise à jour des estimateurs est difficile. Car il n’est
pas facile en général, d’établir un lien entre les estimateurs des paramètres obtenus avec
un échantillon de taille n + 1 et ceux obtenus avec un échantillon de taille n.
10 CHAPITRE 1. INTRODUCTION

1.3.2 La méthode des moyennes mobiles


Ici, les compsantes Zt et St ne dépendent plus forcément de paramètres.

Définition 1.11 Soit un processus (Xt )t∈Z . L’opérateur “retard” souvent noté B, est
défini pour tout entier k par : ∀t ∈ Z, B k Xt = Xt−k .

Définition 1.12 On appelle moyenne mobile tout opérateur M de la forme


m2
X
M= θi B −i ,
i=−m1

où m1 , m2 ∈ N, θ−m1 , . . . , θm2 ∈ R. L’ordre de la moyenne mobile est m1 + m2 + 1. La


moyenne mobile est dite symétrique si m1 = m2 .

• Une bonne moyenne mobile doit conserver la tendance et annuler la saisonnalité, ou


l’inverse. Elle doit en outre éliminer la composante aléatoire ou tout au moins, la réduire.
Elle doit aussi avoir des coefficients simples.
• Avec les moyennes mobiles, la mise à jour des estimateurs est facile pour des échantillons
de grandes tailles (n → ∞). Les moyennes mobiles ont aussi l’avantage de bien réagir aux
changements de régime.
• Les moyennes mobiles arithmétiques sont définies pour tout entier non nul q par :
1  q 
1) M1,q = B + B q−1 + . . . + B −(q−1) + B −q
2q +
1 
1 1 q q−1 −(q−1) 1 −q
2) M2,q = B +B + ... + B + B .
2q 2 2
L’estimation des composantes du modèle (1.5) peut se faire en utilisant l’algorithme
suivant :

Première étape. On estime une première fois la tendance :


 
1 1 1
• Si d = 2m, Zt = M2,m Xt =
e Xt−m + Xt−m+1 + . . . + Xt+m−1 + Xt+m
d 2 2
1
• Si d = 2m + 1, Z
et = M1,m Xt = (Xt−m + Xt−m+1 + . . . + Xt+m−1 + Xt+m ), m +
d
1 ≤ t ≤ n − m.
On observe que Zet n’est pas défini pour t < m + 1 et t > n − m. Ceci vient de ce que
Xt n’est pas observé pour t < 1 et t > n. Plusieurs méthodes peuvent être utilisées pour
résoudre ce problème. Certains auteurs posent Xt = X1 pour t < 1 et Xt = Xn pour
t > n.

Deuxième étape. On estime la composante saisonnière :


• Pour k = 1, . . . , d on calcule les déviations ωk = Xk+jd − Zek+jd , m + 1 ≤ k + jd ≤
n − m.
• La somme de ces déviations sur une période n’étant pas nécessairement nulle, on
estime la composante saisonnière par
d
1X
Sbk = ωk − ωi , k = 1, . . . , d, et Sbk = Sbk−d , k > d.
d
i=1
1.3. ESTIMATION ET ÉLIMINATION DE LA TENDANCE ET DE LA SAISONNALITÉ11

Troisième étape. On estime une deuxième fois la tendance :


Cette nouvelle estimation de la tendance a pour but d’avoir une forme paramétrique de la
tendance qui peut être utilisée à des fins de prévision ou de simulation. Elle se fait avec la
série corrigée des variations saisonnières dt = Xt − Sbt . Ici, on peut modéliser la tendance
par un polynôme de faible degré et appliquer la méthode des moindres carrés à la série
(dt ).
• Si l’on note (Zbt ) la série obtenue à l’étape 3, on peut définir, comme au paragraphe
précédent, la série corrigée de la tendance, celle corrigée de la composante saisonnière et
celle corrigée de la tendance et de la composante saisonnière.

1.3.3 Le programme Census X-11


La méthode Census-X11 est basée sur une combinaison de moyennes mobiles adéquates
permettant d’estimer les composantes d’une série mensuelle ou trimestrielle. La première
version de cette méthode (Method I) a été mise au point sur l’ordinateur Univrac du US
Bureau of Census en 1954 par Shiskin Julius. Une seconde méthode (Method II) connaı̂tra
onze versions eXpérimentales qui aboutiront en 1965 au logiciel X11. L’expansion des
modèles ARIMA ces dernières décennies a permis la conception des versions plus évoluées
que sont X11-ARIMA et X12-ARIMA...
L’intérêt de la procédure X11 est qu’elle tient compte des effets calendaires et qu’elle
traite les valeurs atypiques telles que les valeurs aberrantes. Ainsi, pour une série trimes-
trielle (Xt ) par exemple, suivant le modèle (1.5), les séries corrigées de la tendance et des
variations saisonnières données par X11 sont respectivement obtenues avec les moyennes
mobiles
B 0 − M2 [B 0 − M1 (B 0 − M0 )2 ]
B 0 − (B 0 − M0 )M3 {B 0 − M2 [B 0 − M1 (B 0 − M0 )2 ]},
où
1
M0 = (B −2 + 2B −1 + 2B 0 + 2B 1 + B 2 )
8
1
M1 = (B −8 + 2B −4 + 3B 0 + 2B 4 + B 8 )
9
1
M2 = (−21B −2 + 84B −1 + 160B 0 + 2B 1 − 21B 2 )
286
1
M3 = (B −12 + 2B −8 + 3B −4 + 3B 0 + 3B 4 + 2B 8 + B 12 ).
15

1.3.4 Méthode par différenciation


Cette méthode est celle utilisée dans l’approche dite de Box et Jenkins de l’analyse des
séries chronologiques.
• Pour éliminer la tendance dans certaines séries, on peut leur appliquer l’opérateur ∇k =
(1 − B)k .
• Pour éliminer une saisonnalité d’une série de période d, on peut lui appliquer l’opérateur
∇d = 1 − B d .
Exemples - Soit (Xt )t∈Z un processus.
12 CHAPITRE 1. INTRODUCTION

(i) ∇Xt = Xt − Xt−1 , t ∈ Z.


(ii) ∇2 Xt = Xt − 2Xt−1 + Xt−2 , t ∈ Z.
(iii) ∇d Xt = Xt − Xt−d , t ∈ Z.
Remarque - On a ∇1 = ∇1 , mais en général ∇p = 1 − B p 6= (1 − B)p = ∇p .

1.4 Test des résidus


Les méthodes présentées ci-dessus ont pour but de produire des séries résiduelles “à
peu près” stationnaires. S’il n’y a pas de dépendance entre les valeurs de ces séries, elles
peuvent être considérées comme réalisations de suites de v.a.r. iid. Dans ce cas, il n’y a
pas d’autres modélisations. Ne reste plus que l’estimation de la moyenne et de la variance.
S’il apparaı̂t une dépendance, il importe de les modéliser par des processus stationnaires
adéquats.
Les tests présentés ci-dessous permettent de tester l’hypothèse qu’une suite d’obser-
vations y1 , . . . , yn est la réalisation d’une suite de v.a.r. Y1 , . . . , Yn iid et/ou gaussienne.
Lorsque cette hypothèse est rejettée, on peut utiliser la théorie des modèles stationnaires
présentée au chapitre suivant pour ajuster un modèle à la suite d’observations Y1 , . . . , Yn .

Remarque - Pour n assez grand, les autocorrélations empiriques d’une suite iid Y1 , . . . , Yn
de variance finie sont approximativement iid de loi N (0, 1/n). Ce qui permet la construc-
tion d’intervalles de confiance ou la construction de tests pour les ρY (h).
1 - La fonction d’autocorrélation empirique
Pour y1 , . . . , yn , si on calcule ρby (h), h = 1, . . . , 40 et s’il y a plus de trois valeurs hors
de l’intervalle de confiance [−1.96n−1/2 ; 1.96n−1/2 ], ou si l’une des ces valeurs est signifi-
cativement à l’extérieur de cet intervalle, on rejette l’hypothèse iid des v.a.r. Y1 , . . . , Yn ,
dont les y1 , . . . , yn sont supposées être des réalisations.
2 - Le test du portmanteau
(i) Box et Pierce (1970) - Ce test est basé sur la statistique
h
X
QBP = n ρb2X (j)
j=1

qui suit approximativement une loi du Khi-deux à h degrés de liberté. Au niveau α on


rejette l’hypothèse iid des X1 , . . . , Xn si QBP > χ21−α (h) (quantile d’ordre 1 − α d’un
χ2 (h)).

(i) Ljung et Box (1978) - Ce test est basé sur la statistique


h
X
QLB = n(n + 2) ρb2X (j)/(n − j)
j=1

dont la loi est mieux approximée par une loi du Khi-deux à h degrés de liberté. Ce test
fonctionne de la même manière que le précédent.
1.4. TEST DES RÉSIDUS 13

3 - Le test de McLeod et Li (1983)


La statistique de test de ce test est obtenue en remplaçant ρbX dans l’expression de
QLB par ρbX 2 (on remplace l’autocorrélation de (Xt ) par celle de (Xt2 )).

4 - Le nuage de points
On représente les points (xt−1 , xt ), t = 2, . . . , n. Une forme plus ou moins circulaire
du nuage de points est indicatrice de l’indépendance des X1 , . . . , Xn .

5 - Les tests de normalité :


(i) - Le qqplot : Soit Y(1) , . . . , Y(n) la statistique d’odre de Y1 , . . . , Yn ∼ N (µ, σ 2 ). Soit
X(1) , . . . , X(n) la statistique d’odre de X1 , . . . , Xn ∼ N (0, 1). On a

E[Y(j) ] = µ + mj σ, mj = E[X(j) ].

Le graphe des points (m1 , Y(1) ), . . . , (mn , Y(n) ) connu sous le nom de qqplot doit être ap-
proximativement linéaire. Si les Yi ne sont pas gaussiennes, ce graphique doit être non-
linéaire. En pratique mi est souvent remplacée par Φ−1 [(i − .5)/n] où Φ est la fonction de
répartition de la loi normale centrée réduite.
(ii) - Le test de Jarque-Bera : Il est basé sur la statistique
  2 
m4
 m2 m32
−3 
JB = n  33 + ,
6m2 24

où mr = nj=1 (Yi − Y )r et Y = nj=1 Yi /n. La statistique JB suit asymptotiquement une


P P

loi du χ2 (2) si les Yi ∼ N (µ, σ 2 ). Cette hypothèse est rejetée si JB est significativement
grande.
14 CHAPITRE 1. INTRODUCTION
Chapitre 2

Prévision des séries chronologiques

L’un des objectifs de l’analyse des séries chronologiques est la prévision : étant donné
des observations X1 , . . . , Xn , on souhaite estimer ou prévoir à l’horizon h une valeur fu-
ture Xn+h . Cette prévision peut être ponctuelle ou ensembliste. Nous résumons dans ce
chapitre quelques unes des méthodes courantes de prévision ponctuelle. L’hypothèse de
stationnarité est clé, car d’une manière générale, pour prédire, au moins une propriété
d’invariance avec le temps est nécessaire.

2.1 Méthodes générales


2.1.1 Méthode des moyennes mobiles
Cette méthode consiste à estimer une valeur par la moyenne des k valeurs qui la
précèdent. Par exemple :

bn+1 = Xn−k+1 + Xn−k+2 + . . . + Xn ; X


bn+2 = Xn−k+2 + . . . + Xn + Xn+1 ; . . . ;
b
X
k k

2.1.2 Méthodes par lissage exponentiel

1 - Lissage exponentiel simple

Définition 2.1 La méthode du lissage exponentiel simple avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :
n−1
X
bn+h = (1 − β)
X β j Xn−j .
j=0

•X bn+h peut s’interpréter comme la constante qui ajuste le mieux la série au voisinage de
n. Il est obtenu en minimisant en µ la fonction 2j=0 β j (Xn−j − µ)2 .
P

• Si β est proche de 0, la prévision est plus sensible aux valeurs récentes de la série
et répercute toutes le fluctuations récentes. On dit que la prévision est souple. Si β est
proche de 1, la prévision prend en compte toutes les observations et est peu sensible aux
fluctuations. On dit qu’elle est rigide.
15
16 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES

• Le choix de β est subjectif. On le choisit souvent dans [0.05, 0.3]. Une méthode plus
rigoureuse consiste à choisir sa valeur qui minimise l’erreur de prévision.
• Le lissage exponentiel simple est adapté lorsque la série a une moyenne approximative-
ment constante au voisinage de n. Méthode utilisée lorsque la série ne présente ni tendance,
ni saisonnalité.

2 - Lissage exponentiel double

Définition 2.2 La méthode du lissage exponentiel double avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :

X
bn+h = b
a1 (n) + hb
a2 (n),

où 
a1 (n) = 2C1 (n) − C2 (n),
 b
1−β
a2 (n) =
 b [C1 (n) − C2 (n)],
β
avec 
 t−1
X
C (t) = (1 − β) β j Xt−j ,


 1


j=0
 t−1
X
C (t) = (1 − β) β j C1 (t − j).


 2


j=0

• Pour calculer cette quantité, les valeurs initiales généralement atribuées aux suites b
a2 (n)
a2 (n) sont respectivement X2 et X2 − X1 .
et b

Cette méthode est adaptée lorsque la série peut être approximée par une droite au voisinage
de n : Xt = a1 + a2 (t − n).
•Xbn+h peut s’interpréter comme la droite qui approxime le mieux la série au voisinage
de n. Les suites b
a2 (n) et b
a2 (n) sont en fait les solutions du problème de minimisation
n−1
X
min β j [Xn−j − a1 − a2 j]2 .
a1 ,a2
j=0

• La méthode du lissage exponentiel généralisé ne sera pas abordée dans ce cours. Une
présentation de cette méthode est donnée dans Gouriéroux et Monfort (1995).

2.1.3 La méthode de Holt-Winters

1 - La méthode non saisonnière


Elle est basée sur le même principe que celui du lissage exponentiel double, mais propose
des coefficients a1 et a2 différents :

a1 (n) = (1 − α)Xn + α[b
b a1 (n − 1) + ba2 (n − 1)], α ∈]0, 1[
a2 (n) = (1 − γ)[b
b a1 (n) − b
a1 (n − 1)] + γba2 (n − 1), γ ∈]0, 1[.
2.1. MÉTHODES GÉNÉRALES 17

Cette méthode est plus flexible car elle fait intervenir deux constantes au lieu d’une.
Cependant on a à choisir, soit par des méthodes subjectives, soit en minimisant l’erreur
de prévision, deux constantes au lieu d’une seule. On a toujours

X
bn+h = b
a1 (n) + hb
a2 (n)

initialisé comme dans le cas précédent.

2 - La méthode saisonnière additive


Elle est basée sur l’idée que la série peut être approchée au voisinage de n par a1 + (t −
n)a2 + St , où St est la composante saisonnière de période d. La prévision proposée par
cette méthode est

 Xn+h = b
 b a1 (n) + hb a2 (n) + Sbn+h−d , 1 ≤ h ≤ d,
Xn+h = b
b a1 (n) + hb a2 (n) + Sbn+h−2d , d + 1 ≤ h ≤ 2d,
 ..

.

où 
a1 (n) = (1 − α)(Xn − Sbn−d ) + α[b
 b a1 (n − 1) + b a2 (n − 1)], α ∈]0, 1[,
a2 (n) = (1 − γ)[b
b a1 (n) − ba1 (n − 1)] + γb a2 (n − 1), γ ∈]0, 1[,
Sn = (1 − δ)[Xn − b a1 (n)] + δ Sbn−d , δ ∈]0, 1[.
 b

• Le principal problème dans cette méthode est celui du choix des constantes α, γ et δ.
• L’initialisation des suites b
a1 (n), b
a2 (n) et Sbn dépend de la période d. Pour d = 4, des
valeurs initiales sont proposées dans Gouriéroux et Monfort (1995).
• La méthode saisonnière multiplicative repose sur l’idée que la série peut être approximée
par [a1 + (t − n)a2 ]St au voisinage de n. On peut alors utiliser la méthode précédente en
prenant le logarithme de cette expression.

2.1.4 La méthode par décomposition


On suppose, par exemple, que la série se décompose suivant le modèle (1.5) où (εt )t∈Z
est un bruit blanc. Alors, la prédiction de Xn+h est donnée par

X
bn+h = Z
bn+h + Sbn+h ,

où Zbt et Sbt sont les estimateurs de Zt et St . Lorsque (εt )t∈Z n’est plus un bruit blanc, mais
un processus stationnaire, la prévision devient

X
bn+h = Z
bn+h + Sbn+h + εbn+h ,

où εbn+h est la prévision de εn+h construite à l’aide (ε̃t )nt=1 , avec ε̃t = X
bt − Zbt − Sbt en
utilisant par exemple les méthodes qui seront exposées dans le paragraphe suivant ou
celles présentées dans les prochains chapitres.
18 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES

2.2 Prévision des séries stationnaires


2.2.1 Propriétés de la fonction d’autocorrélation
Au chapitre précédent, les fonctions d’autocovariance et d’autocorrélation d’un pro-
cessus (Xt )t∈Z stationnaire à l’ordre deux ont été respectivement définies par :

γX (h)
γX (h) = Cov(Xt+h , Xt ), ρX (h) = , h ∈ Z.
γX (0)

Proposition 2.1 Soit (Xt )t∈Z stationnaire à l’ordre deux.


(i) γX (0) ≥ 0.
(ii) γX est paire : γX (h) = γP Ph ∈ Z.
X (−h),
(iii) γX est de type positif : nj=1 nk=1 aj ak γX (j − k) ≥ 0, ∀n ∈ N, ∀(a1 , . . . , an ) ∈
Rn .
(iv) V ar(X1 ) = γX (0).
(v) |γX (h)| ≤ γX (0), ∀h ∈ Z.

Preuve. (i) γX (0) = V ar(X1 ) ≥ 0.


(ii) Cov(X t+h , Xt ) = Cov(Xt , Xt+h ). P
(iii) nj=1 nk=1 aj ak γX (j − k) = V ar( ni=1 ai Xi ) ≥ 0.
P P
(iv) V ar(X1 ) = Cov(X1 , X1 ) = γX (0).
(v) Se déduit facilement de

γX (h)
|Corr(Xt+h , Xt )| = ≤ 1.
γX (0)

Théorème 2.1 Toute fonction réelle définie sur Z est la fonction d’autocovariance d’un
processus stationnaire si et seulement si elle est paire et est de type positif.

Remarque - Pour vérifier qu’une fonction est de type positif, il est souvent plus simple
de trouver un processus stationnaire ayant cette fonction pour fonction d’autocovariance,
plutôt que de chercher à vérifier la propriété (ii) de la proposition précédente.

Exemple - La fonction γ(h) = cos(ωh) est de type positif. En effet, c’est la fonction
d’autocovariance du processus Xt = A cos(ωt) + B sin(ωt) où A et B sont deux v.a.r.
non-corrélées et centrées réduites.

2.2.2 Processus linéaires


Nous définissons dans ce paragraphe les processus linéaires. Cette classe de processus
offre un cadre très général pour l’étude des processus stationaires au second ordre.

Définition 2.3 Un processus (Xt )t∈Z est dit linéaire si il a la représentation


X
Xt = ψj εt−j , t ∈ Z,
j∈Z

où (εt )t∈Z ∼ BB(0, σ 2 ) et la suite (ψj )j∈Z est telle que
P
j∈Z |ψj | < ∞.
2.2. PRÉVISION DES SÉRIES STATIONNAIRES 19

Définition 2.4 Un processus


P (Xt )t∈Z admet une représentation M A(∞) si il existe une
suite (ψj )j≥0 vérifiant j≥0 |ψj | < ∞ et telle que
X
Xt = ψj εt−j , t ∈ Z,
j≥0

où (εt )t∈Z ∼ BB(0, σ 2 ).

Proposition 2.2 Soit (Yt )t∈Z un processus stationnaire centréP de fonction d’autocova-
riance γY . Si (ψj )j∈Z est une suite de nombres réels vérifiant j∈Z |ψj | < ∞, alors le
processus X
Xt = ψj Yt−j , t ∈ Z
j∈Z

est stationnaire centré, de fonction d’autocovariance


XX
γX (h) = ψj ψk γY (h + k − j), h ∈ Z.
j∈Z k∈Z

Preuve. La condition j |ψj | < ∞ implique que Xt converge au sens L1 et L2 . C’est-à-


P
dire que les sommes partielles
X
Xtn = ψj Yt−j , t ∈ Z
|j|≤n

convergent au sens L1 et L2 (il suffit de montrer par exemple qu’elles sont de Cauchy).
Donc
XX
E(Xt2 ) ≤ |ψj ||ψk |E(|Yt−j ||Yt−k |)
j k
X 2
≤ |ψj | γY (0) < ∞.
j
X XX
Ensuite, E(Xt ) = ψj E(Y0 ) et E(Xt+h Xt ) = ψj ψk γY (h + k − j).
j j∈Z k∈Z

Remarque - Pour plusieurs processus, en particulier pour les Pprocessus linéaires (Xt )t∈Z ,
on montre que µ bX suit approximativement une N (µX , n−1 |h|<∞ γX (h)) et que le vec-
teur ρbX = (b ρX (1), . . . , ρbX (h))0 suit approximativement une loi N (ρX , n−1 W ), où ρX =
(ρX (1), . . . , ρX (h))0 et W la matrice dont l’élément (p, q) est donné par la formule de
Bartlett suivante :

X
wpq = [ρX (l + p) + ρX (l − p) − 2ρX (p)ρX (l)] [ρX (l + q) + ρX (l − q) − 2ρX (q)ρX (l)] .
l=1

2.2.3 Prévision sur le passé limité (ou fini)


Dans tout ce paragraphe, (Xt )t∈Z désigne un processus stationnaire à l’ordre deux de
moyenne µX et de fonction d’autocovariance γX .
20 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES

Nous nous intéressons ici à la prédiction des valeurs Xn+h , h > 0, basée sur les observa-
tions X1 , X2 , . . . , Xn . Il s’agit de trouver la combinaison linéaire des 1, X1 , X2 , . . . , Xn qui
prédit Xn+h avec l’erreur quadratique minimale. Ce prédicteur que nous notons Pn Xn+h
a la forme
Pn Xn+h = a0 + a1 Xn + · · · + an X1 ,
où les a0 , a1 , . . . , an sont les valeurs qui minimisent E(Xn+h − a0 − a1 Xn − · · · − an X1 )2 .
La solution de ce problème d’optimisation est donnée par
n
!
X
a0 = µX 1 − ai , Γn An = γn ,
i=1

où An = (a1 , . . . , an )0 , Γn = (γX (i − j))1≤i,j≤n , γn = (γX (h), . . . , γX (n + h − 1)). On


voit facilement que
Xn
Pn Xn+h = µX + ai (Xn+1−i − µX ).
i=1

L’erreur de prévision quadratique au pas h est :

E(Xn+h − Pn Xn+h )2 = γX (0) − A0n γn .

(Vérifier ce résultat en exercice - On utilisera le fait que Γn An = γn .)


Autres propriétés de Pn Xn+h
(i) E(Xn+h − Pn Xn+h ) = 0.
(ii) E[(Xn+h − Pn Xn+h )Xj ] = 0, j = 1, 2, . . . , n.

Prédiction de variables aléatoires réelles du second ordre - On suppose Y et


W1 , . . . , Wn des variables aléatoires réelles du second ordre avec µY = E(Y ), µi = E(Wi ),
V ar(Y ), Cov(Y, Wi ), Cov(Wi , Wj ) connues. Posons W = (Wn , . . . , W1 )0 , µW = (µn , . . . , µ1 )0 ,
γ = Cov(Y,W ) = (Cov(Y, Wn ), . . . , Cov(Y, W1 )) et Γ = Cov(W, W ) = Cov(Wn+1−i , Wn+1−j ) :
1 ≤ i, j ≤ n .

Définition 2.5 On appellera opérateur de prédiction sur W , l’application notée P (·|W )


qui à Y fait correspondre son meilleur prédicteur linéaire en fonction de 1, W1 , . . . , Wn et
défini par
h i
P (Y |W ) = µY + A0 (W − µW ), E (Y − P (Y |W ))2 = V ar(Y ) − A0 γ,

où A = (a1 , . . . , an )0 est toute solution de ΓA = γ.

Quelques propriétés de P (·|W ) - Soient U et V 2 var de carrés intégrables. Soient


β, α1 , . . . , αn des constantes.
1. P (U |W ) = E(U ) + A0 (W − E(W )), avec ΓA = Cov(U, W ).
2. E [(U − P (U |W )) W ] = 0 et E [U − P (U |W ))] = 0.
h i
3. E (U − P (U |W ))2 = V ar(U ) − A0 Cov(U, W ).
4. P [(α1 U + α2 V + β)|W ] = α1 P (U |W ) + α2 P (V |W ) + β.
2.2. PRÉVISION DES SÉRIES STATIONNAIRES 21

5. P [( ni=1 αi Wi + β)|W ] = ni=1 αi Wi + β.


P P

6. P (U |W ) = E(U ) si Cov(U, W ) = 0.
7. P (U |W ) = P [P (U |W, V )|W ], si V est un vecteur aléatoire tel que les composantes
de E(V V 0 ) soient finies.
Remarques : (i) - P (Y |W ) peut être vue comme la projection orthogonale de Y sur le
sous-espace vectoriel engendré par 1, W1 , W2 , . . . , Wn (au sens du produit scalaire E(XY )).
(ii) Pn défini plus haut est un opérateur de prédiction avec W = (Xn , Xn−1 , . . . , X1 ).

Exemple - Soit le processus défini par

Xt = φXt−1 + εt , t ∈ Z, (‡)

où |φ| < 1, (εt )t∈Z ∼ BB(0, σ 2 ).


1. Dans le chapitre suivant, on verra que la condition |φ| < 1 implique que εt est
non corrélée avec les Xs , s < t. Avec cette remarque, en utilisant les propriétés
ci-dessus, on a : Pn Xn+1 = φXn et E(Xn+1 − Pn Xn+1 )2 = σ 2 .
2. On suppose observées X1 et X3 . Le meilleur prédicteur linéaire de X2 en fonction
de 1, X1 et X3 peut se calculer en prenant Y = X2 , W = (X1 , X2 )0 . Pour h > 0, en
multipliant chaque membre de (‡) par Xt−h , on a

γX (h) = φγX (h − 1) + E(Xt−h εt ).

Il est ensuite facile de voir que pour h > 0, E(Xt−h εt ) = 0, et donc on a la relation

γX (h) = φγX (h − 1).

D’où l’on obtient


φσ 2
γX (1) = φγX (0) = φV ar(X) = .
1 − φ2
On a donc
σ2 φσ 2 0
!
φσ 2 φσ 2

1−φ2 1−φ2
Γ= φσ 2 σ2
et γ = , .
1−φ2 1−φ2
1 − φ2 1 − φ2

Il est facile de voir que

1 φ2
   
φ
ΓA = γ ⇐⇒ A= .
φ2 1 φ

D’où  
1 φ φ
A= et P (X2 |W ) = (X1 + X3 ),
1 + φ2 φ 1 + φ2
avec
φσ 2
!
σ2 1−φ2 σ2
2
− A0
 
E (X2 − P (X2 |W )) = φσ 2 = .
1 − φ2 1−φ2
1 + φ2
22 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES

Remarque - On a Pn Xn+h = µX +Pn (Xn+h −µX ). Ceci signifie que le meilleur prédicteur
linéaire de Xn+h peut être obtenu en ajoutant µX au meilleur prédicteur linéaire de Xn+h −
µX .
Avec la remarque ci-dessus, nous supposons (Xt )t∈Z centré.
On peut facilement voir que si Γn est non singulière (une condition suffisante que les
matrices Γ1 , Γ2 , . . . , soient non singulières est que γX (0) > 0 et que γX (h) → 0, h → ∞)
alors,
Pn Xn+1 = φ0n Xn = φn1 Xn + · · · + φnn X1 ,
où φn = (φn1 , φn2 , . . . , φnn )0 = Γ−1 2 0
n γn , vn = E(Xn+1 − Pn Xn+1 ) = γX (0) − φn γn , et γn le
vecteur défini plus haut, avec h = 1.

L’algorithme de Durbin-Levinson - Le calcul des coefficients φn1 , . . . , φnn peut être


fait en évitant l’inversion de la matrice Γn . Ces coefficients peuvent en effet être calculés
de manière récursive par les équations

φnn = [γX (n) − n−1 −1


 P
φ γ (n − j)]vn−1

    j=1 n−1,jX  
φn1 φn−1,1 φn−1,n−1




· · ·

      
      

 ·  =
 
 · 
 − φ nn

 · 

· · ·

      





 φn,n−1 φn−1,n−1 φn−1,1
vn = vn−1 (1 − φ2nn ) où φ11 = γX (1)/γX (0) et v0 = γX (0).

Remarque - Une fois Xn+1 prédite (par X bn+1 = Pn Xn+1 ) on peut reprendre l’algorithme
avec X1 , X2 , . . . , Xn , X
bn+1 pour prédire Xn+2 . On peut réitérer ce procédé autant que
nécessaire pour prédire Xn+h .

Définition 2.6 La fonction d’autocorrélation partielle de (Xt )t∈Z est définie par

1, h = 0
τX (h) =
φhh , h ≥ 1.

Remarque - On montre que τX (h) est le coefficient de corrélation entre Xh − Ph−1 Xh et


X0 − Ph−1 X0 .
L’algorithme des innovations (AI) - Un autre algorithme récursif permettant de faire
la prévision est celui dit des innovations. Il a l’avantage de s’appliquer aux séries du second
ordre, stationnaires ou pas stationnaires. Soit (Xt ) un tel processus (du second ordre, et
pas nécessairement stationnaire) centré. On note :

0 si n = 1
gX (i, j) = E(Xi Xj ); Xn =
b vn = E(Xn+1 − Pn Xn+1 )2 .
Pn−1 Xn , n = 2, 3 . . . ;

On appelle innovations les variables aléatoires réelles non corrélées Un = Xn − X


bn . On a
par définition X
b1 = 0. On montre que pour tout n > 1,
n
X
X
bn+1 = θnj Un+1−j ,
j=1
2.2. PRÉVISION DES SÉRIES STATIONNAIRES 23

où les coefficients θnj , j ≤ n dépendent de manière non triviale des aj solutions de Γn An =
γn , où An = (a1 , . . . , an )0 , Γn = (γX (i − j))1≤i,j≤n , γn = (γX (1), . . . , γX (n)).
L’algorithme des innovations décrit ci-dessous qui permet le calcul récursif des coefficients
θnj .


 v0 = gX (1, 1) h
 i
θn,n−k = vk−1 gX (n + 1, k + 1) − k−1
P
j=0 θ k,k−j θ n,n−j v j , 0 ≤ k ≤ n − 1,
 Pn−1 2
vn = gX (n + 1, n + 1) − j=0 θn,n−j vj .

Example - Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R et le processus (Xt )t∈Z défini par
Xt = εt + θεt−1 , t ∈ Z.
On se souvient que
 (1 + θ2 )σ 2 , i = j

gX (i, j) = θσ 2 , j =i+1
0, |i − j| > 1.

L’AI appliqué à ce processus donne alors



θσ 2
 θn,1 = vn−1 , θn,j = 0, h2 ≤ j ≤ n


2 σ2
i
v0 = (1 + θ2 )σ 2 , vn = 1 + θ2 − vθn−1 σ2


 X bn+1 = θn,1 Un .

• Pour la prédiction au pas h, on utilise


Pn (Xn+k − Pn+k−1 Xn+k ) = 0, k ≥ 1.
Ce qui conduit à
 
n+h−1
X
Pn (Xn+h ) = Pn  θn+h−1,j (Xn+h−j − X
bn+h−j )
j=1
n+h−1
X
= θn+h−1,j (Xn+h−j − X
bn+h−j )
j=1
n+h−1
X
2 2
E(Xn+h − Pn (Xn+h )) = gX (n + h, n + h) − θn+h−1,j vn+h−j−1 .
j=h

2.2.4 La décomposition de Wold


Définition 2.7 Le meilleur prédicteur linéaire de Xn+h en fonction du passé infini de
Xn (c’est-à-dire en fonction de 1 et Xs , s ≤ n) est défini par
Pen Xn+h = lim Pm,n Xn+h ,
m→−∞

où Pem,n Xn+h est le meilleur prédicteur linéaire de Xn+h en fonction de 1, Xm , . . . , X−1 ,
X0 , X1 , . . . , Xn calculé de la même manière que Pn Xn+h .
24 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES

Quelques propriétés de Pen - Soient U et V 2 var de carrés intégrables, W et Γ définis


comme plus haut. Soient α1 , α2 , α3 des constantes.
h i
1. E (U − Pen (U ))Xj = 0, j ≤ n.

2. Pen (α1 U + α2 V + α3 ) = α1 Pen (U ) + α2 Pen (V ) + α3 .


3. Pen (U ) = E(U ) si Cov(U, Xj ) = 0, j ≤ n.
4. Pen (U ) = U , si U est limite de combinaisons linéaires des Xj , j ≤ n.
Remarque - Pen Xn+h peut être regardé comme la projection orthogonale de Xn+h sur le
sous-espace vectoriel engendré par 1 et Xs , s ≤ n.

Définition 2.8 Soit (Xt )t∈Z un processus.


(i) Il est dit singulier (prédictible) si Xt − Pet−1 Xt = 0, ∀t ∈ Z. Il est dit non-singulier
(non-prédictible) sinon.
(ii) Il est dit régulier s’il existe (ci )i≥0 avec i≥0 c2i < ∞, un bruit blanc (εt )t∈Z unique
P
à une constante multiplicative près telle que
X
Xt = cj εt−j , t ∈ Z.
j≥0

Remarque - La partie (i) de la définition


P ci-dessus peut encore se traduire par : il existe
des coefficients (dk ) tels que Xt = k dk Xt−k .
Le théorème ci-dessous, connu sous le nom de décomposition de Wold, dit en sub-
stance que tout processus stationnaire à l’ordre deux peut se décomposer en la somme d’une
composante linéaire (partie régulière) et d’une composante singulière (partie prédictible).

Théorème 2.2 Soit (Xt )t∈Z un processus non-singulier, stationnaire au second ordre.
Alors, X
Xt = cj εt−j + Vt , t ∈ Z,
j≥0

où
(i) (ci )i≥0 est telle que c0 = 1, i≥0 c2i < ∞ ;
P

(ii) (εt )t∈Z ∼ BB(0, σ 2 ) ;


(iii) Cov(εs , Vt ) = 0, ∀s, t ∈ Z ;
(iv) εt = Pet εt ;
(v) Vt = Pes Vt , ∀s, t ;
(vi) (Vt )t∈Z est prédictible.
où Pet Y désigne le meilleur prédicteur linéaire de Y en terme de combinaison linéaires ou
limites de combinaisons linéaires de 1, Xs , s ≤ t

Preuve. Les suites (εt )t∈Z , (ci )i≥0 et (Vt )t∈Z sont uniques et s’écrivent explicitement :

E(Xt εt−j ) X
εt = Xt − Pet−1 Xt , cj = , V t = Xt − cj εt−j .
E(ε2t ) j≥0

Voir Brocwell et Davis (1990) pour une preuve complète de ce résultat.


Chapitre 3

Processus ARMA et quelques


généralisations

Nous introduisons dans ce chapitre une classe importante de processus stationnaires


appelés processus ARMA (AutoRegressive Moving-Average) et quelques unes de leurs
généralisations qu sont les processus ARIMA et SARIMA. Les processus ARMA sont
linéaires, ce qui simplifie considérablement leur étude ainsi que l’application des méthodes
de prévisions décrites au chapitre précédent. En outre, pour une grande classe de fonction
d’autocovariance, on peut trouver un processus ARMA dont la fonction d’autocovariance
est bien approximée par un de ses éléments.
Les processus ARIMA (AutoRegressive Integrated Moving-Average) prennent en compte
la non-stationnarité tandis que les processus SARIMA (Seasonal AutoRegressive Integra-
ted Moving-Average) prennent en compte la non-stationnarité et la saisonnalité. Après
des opérarions de différenciation spécifiques, ces deux classes de processus se réduise en
des processus ARMA.

3.1 Les processus ARMA


3.1.1 Polynômes et séries en B
Définition 3.1 On rappelle que B est l’opérateur retard.
i- On appelle polynôme en B toute moyenne mobile de la forme

P (B) = p0 + p1 B + p2 B 2 + . . . + pq B q ,

où P est le polynôme P (z) = p0 + p1 z + p2 z 2 + . . . + pq z q , pq 6= 0.


ii- On appelle série en B toute moyenne mobile de la forme
X
S(B) = αj B j ,
j∈Z

où la suite (αj )j∈Z est absolument sommable.

Proposition 3.1 On considère le polynôme P (B) = 1 − λB, λ une constante.


i- Si |λ| < 1, P (B) admet pour inverse
X
S(B) = λj B j .
j≥0
25
26 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

ii- Si |λ| > 1, P (B) admet pour inverse


X
S(B) = λ−j B −j .
j>0

iii- Si |λ| = 1, P (B) n’est pas inversible.

Preuve - Pour les cas i et ii, on vérifie facilement que P (B)S(B) = S(B)P (B) = 1.
Pour le dernier cas, il est facile de voir que l’opérateur n’est pas injectif. En effet, appliqué
à deux processus constants, (Xt ) et (Yt ) tels que Xt = a et Yt = b, ∀t ∈ Z, on a P (B)Xt =
P (B)Yt = 0.
Remarque - Pour inverser un polynôme P (B) de degré q (qui a q racines complexes
non nécessairement distinctes), la décomposition en éléments simples de 1/P permet de
conclure à partir de la proposition 3.1 ci-dessus que :
1. Si toutes les racines
P de P sont de module différent de 1, il existe une série en B de
la forme S(B) = j∈Z αj B j telle que S(B)P (B) = P (B)S(B) = 1.
2. Si toutes les racines
P de P sont de module supérieur à 1, il existe une série en B de
j
la forme S(B) = j∈≥0 αj B telle que S(B)P (B) = P (B)S(B) = 1.
3. Si toutes les racines
P de P sont de module inférieur à 1, il existe une série en B de
la forme S(B) = j∈<0 αj B j telle que S(B)P (B) = P (B)S(B) = 1.
4. Si au moins une racine de P est de module égal à 1, P (B) n’est pas inversible.

Remarque - Lorsqu’un polynôme P (B) est inversible, son inverse S(B) peut se calculer
par identification (P (z)S(z) = 1), par une décomposition en éléments simples, par la
division du polynôme 1 en les puissances décroissantes de P (z).

3.1.2 Définitions et propriétés des processus ARMA


Définition 3.2 Soit (Xt )t∈Z un processus centré.
(i) (Xt )t∈Z est processus ARMA(p,q) si il est stationnaire, et pour tout t ∈ Z,

Xt − ϕ1 Xt−1 − · · · − ϕp Xt−p = εt + θ1 εt−1 + · · · + θq εt−q , (3.1)

où (εt )t∈Z ∼ BB(0, σ 2 ), ϕp 6= 0 et θq 6= 0.


(ii) Si ϕ(z) = 1 on dit que (Xt )t∈Z est un M A(q).
(iii) Si θ(z) = 1 on dit que c’est un AR(p).

Remarques -
(i) On écrit souvent (3.1) sous la forme ϕ(B)Xt = θ(B)εt , t ∈ Z, où B est l’opérateur
retard défini au chapitre précédent.
(ii) Un processus (Xt )t∈Z est un ARM A(p, q) de moyenne µX ssi (Xt − µX )t∈Z est
ARM A(p, q) au sens de (3.1).

Proposition 3.2 L’équation (3.1) admet une unique solution stationnaire ssi les racines
de ϕ sont toutes de module différent de 1.

Preuve - La preuve de ce résultat découle de la remarque qui suit la proposition 3.1.


3.1. LES PROCESSUS ARMA 27

AR(1)
−1 0 1 2 3
xx

−3

0 50 100 150 200

Time

MA(1)
−1 0 1 2 3
xx

−3

0 50 100 150 200

Time

Figure 3.1 – Simulation d’un AR(1) et d’un MA(1)


28 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

Définition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est dit causal P ou fonction causale de
(εt )t∈Z si il existe une suite de nombres réels (ψj )j≥0 telle que j≥0 |ψj | < ∞ et
X
Xt = ψj εt−j , t ∈ Z.
j≥0

Proposition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est causal ssi les racines de ϕ sont
toutes de module strictement supérieur à 1.

Preuve - La preuve de ce résultat découle de la remarque qui suit la proposition 3.1.

Définition 3.4 Un processus ARM PA(p, q) (Xt )t∈Z est dit inversible s’il existe une suite
de nombres réels (πj )j≥0 telle que j≥0 |πj | < ∞ et
X
εt = πj Xt−j , t ∈ Z.
j≥0

Proposition 3.4 Un processus ARM A(p, q) (Xt )t∈Z est inversible ssi les racines de θ
sont toutes de module strictement supérieur à 1.

Preuve - La preuve de ce résultat découle d’une adaptation de la remarque qui suit la


proposition 3.1.
Exemple - Soit le processus ARM A(1, 1) suivant

Xt − 0.2Xt−1 = εt + 0.3εt−1 , t ∈ Z, (3.2)

où (εt )t∈Z ∼ BB(0, σ 2 ).


Alors, ϕ(z) = 1 − 0.2z et θ(z) = 1 + 0.3z ont leur racine de module strictement plus
grand que 1. Donc (3.2) admet une unique solution stationnaire (Xt )t∈Z qui est causale et
inversible.

Définition 3.5 La représentation ARM A(p, q) (3.1) est dite


i- minimale si les polynômes ϕ(z) = 1 − ϕ1 z − · · · − ϕp z p et θ(z) = 1 + θ1 z + . . . + θq z q
n’ont pas de racine commune.
ii- canonique si elle est causale et inversible.

3.1.3 Fonction d’autocovariance


Dans tout ce paragraphe, (Xt )t∈Z désigne un processus ARM A(p, q) centré vérifiant
(3.1), causal de fonction d’autocovariance γX . L’hypothèse de causalité nous permet d’écrire
X
Xt = ψj εt−j , t ∈ Z,
j≥0

où j≥0 ψj z j = θ(z)/ϕ(z), |z| < 1. Les ψj , j ≥ 0 peuvent être calculés en utilisant la
P
division des polynômes et/ou les séries entières.
La fonction d’autocorrélation γX de (Xt )t∈Z peut se calculer par l’une des méthodes
suivantes :
3.1. LES PROCESSUS ARMA 29

Première méthode - Elle consiste à appliquer la Proposition 2.2 à la représentation


M A(∞) ci-dessus. On a alors,
X
γX (h) = E(Xt+h Xt ) = σ 2 ψj ψj+|h| .
j≥0

Deuxième méthode - En multipliant chaque membre de (3.1) par Xt−k et en prenant


les espérances, on a :

γX (k) − ϕ1 γX (k − 1) − · · · − ϕp γX (k − p) = σ 2 j≥0 ψj θj+k , 0 ≤ k < m


 P

γX (k) − ϕ1 γX (k − 1) − · · · − ϕp γX (k − p) = 0, k ≥ m,

où l’on a posé m = max(p, q + 1). Les équations définies pour k ≥ m sont des équations
aux différences finies, homogènes, à coefficients constants dont les méthodes de résolution
sont bien connues. Les solutions de ces équations qui seront aussi celles des m premières
équations du système ci-dessus, sont les solutions du système.

Troisième méthode - On résout d’abord les p + 1 premières équations du système


précédent, aux inconnues γX (0), γX (1), . . . , γX (p), puis on utilise les autres équations pour
calculer γX (p + 1), γX (p + 2), . . .

Exemple - On considère le processus ARM A(1, 1) défini par

Xt − ϕXt−1 = εt + θεt−1 ,

où (εt )t∈Z ∼ BB(0, σ 2 ) et |ϕ| < 1. Étant donné que |ϕ| < 1, on a
X
Xt = εt + ϕj−1 (θ + ϕ)εt−j .
j≥1

En appliquant la 2ème méthode ci-dessus, on a :

γX (h) = ϕh−1

 h−1

  γX (1), h ≥2 2
 γX (h) = ϕγX (h − 1) = ϕ γX (1), h ≥ 2 (θ + ϕ)

γX (0) = σ 2 1 +


2 2
γ (0) = ϕγX (1) + σ (1 + θϕ + θ ) ⇐⇒ 1 − ϕ2
 X 2 (θ + ϕ)2
 
γX (1) = ϕγX (0) + σ θ.


2
 γX (1) = σ θ + ϕ + ϕ .


1 − ϕ2

Exemple - On considère un processus M A(q) (Xt )t∈Z vérifiant (3.1) avec ϕ(z) = 1. Alors,
en utilisant la première méthode, on a :

 q−|h|
 2 X

σ θj θj+|h| , |h| ≤ q
γX (h) =

 j=0
 0, |h| > q.

Exercice - Vérifier ce résultat en exercice.


Remarque importante - L’expression de γX dans l’exemple ci-dessus montre que l’une
des propriétés caractéristiques des processus M A(q) est que ρX (h) = 0 pour |h| > q. En
30 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

ACF d’un AR(1) PACF d’un AR(1)

0.6
0.0 0.2 0.4 0.6 0.8 1.0

0.4
Partial ACF
ACF

0.2
0.0
−0.2
0 10 20 30 40 0 10 20 30 40

Lag Lag

ACF d’un MA(1) PACF d’un MA(1)


−0.2 0.0 0.2 0.4 0.6 0.8 1.0

−0.1 0.0 0.1 0.2 0.3 0.4


Partial ACF
ACF

0 10 20 30 40 0 10 20 30 40

Lag Lag

Figure 3.2 – Fonctions d’autocorrélation (ACF) et d’autocorrélation partielle (PACF)


d’un AR(1) et d’un MA(1)

pratique, lorsque pour une suite d’observations x1 , . . . , xn , ρbx (h) est petit pour |h| > q,
on modélise ces observations par un M A(q). On considèrera que ρbx (h) est petit si il est
√ √
compris dans l’intervalle [−1.96/ n; 1.96/ n].
Remarque - Pour tout processus stationnaire dont la fonction d’autocorrélation tend vers
0 à l’infini, et pour tout entier k > 0, on peut trouver un processus ARMA dont la fonction
d’autocorrélation est égale à celle de ce processus jusqu’à l’ordre k.

3.1.4 Fonction d’autocorrélation partielle


La fonction d’autocorrélation partielle d’un processus (Xt )t∈Z admettant la représentation
ARM A(p, q) minimale ϕ(B)Xt = θ(B)εt (avec les polynômes ϕ et θ ayant leurs racines
de modules strictement supérieurs à 1) est définie par :

1, h = 0
τX (h) =
φhh , h ≥ 1,

où φhh est la dernière composante du vecteur Φh = Γ−1


h γh avec Γh = (γX (i − j) : 1 ≤
i, j ≤ h) et γh = (γX (1), . . . , γX (h)).

Remarque (?) - τX (h) est le coefficient de Xt−h dans la régression de Xt sur Xt−1 , . . . , Xt−h .
3.1. LES PROCESSUS ARMA 31

Remarque - τbX (h) est définie en remplaçant γX (h) dans l’expression de τX (h) par γ
bX (h).

Exemple - Soit le processus M A(1) suivant :

Xt = εt + θεt−1 ,

où (εt )t∈Z ∼ BB(0, σ 2 ). On veut calculer τX (1) et τX (2).


On sait que  2
 (θ + 1)σ 2 , h = 0
γX (h) = θσ 2 , h = ±1
0 ailleurs.

On a τX (1) = φ11 = γX (1)/γX (0) = ρX (1) = θ/(θ2 + 1).


   
γX (0) γX (1) γX (0) −γX (1)
Γ2 = ; Γ−1
2 = (γ 2
X (0) − γ 2
X (1))−1
.
γX (1) γX (0) −γX (1) γX (0)

On a γ2 = (γX (1), 0), d’où τX (2) = −θ2 /(θ4 + θ2 + 1).

Exemple - Soit un processus AR(p) vérifiant l’équation (3.1) avec θ(z) = 1. On a par la
remarque (?) que τX (h) = 0 pour h > p et τX (h) = ϕp 6= 0 pour h = p.

Remarque importante - Une propriété caractéristique des processus AR(p) est que
τX (h) = 0 pour h > p. En pratique, lorsque τbx (h) est petit pour h > p, on modélise
x1 , . . . , xn par un AR(p). On admettra que τbx (h) est petit si il est dans l’intervalle
√ √
[−1.96/ n; 1.96/ n].

3.1.5 Prévision d’un processus ARMA


On suppose l’existence d’un processus (Xt )t∈Z centré vérifiant la relation (3.1) avec
p ≥ 1, q ≥ 1. Étant donné X1 , . . . , Xn , on souhaite faire la prévision de Xn+h , h > 0.

Prévision à l’horizon 1
On rappelle que B est l’opérateur retard. On note m = max(p, q) et considère la
transformation 
 1 Xt , t = 1, . . . , m

Wt = σ (3.3)
1
 ϕ(B)Xt , t > m.

σ
On a
 1
 γX (i − j), 1 ≤ i, j ≤ m
σ2 "



 p
#

 1 X
 2 γX (i − j) − ϕ` γX (` − |i − j|) , min(i, j) ≤ m < max(i, j) ≤ 2m


gW (i, j) = E(Wi Wj ) = σ
`=1
 q
 X



 θ` θ`+|i−j| , min(i, j) > m

 `=0


0 ailleurs.
32 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

L’application de l’algorithme des innovations au processus (Wt )t∈Z donne


 n  
X
θ W − W n+1−j , 1 ≤ n < m

 nj n+1−j
 c


j=1
W
cn+1 =
Xq   (3.4)




 θ nj W n+1−j − cn+1−j , n ≥ m,
W
j=1

cn+1 )2 sont déterminés par l’algorithme des innovations.


où les θnj et rn = E(Wn+1 − W

Remarques -
• Puisque gW (i, j) = 0 si i > m et |i − j| > q, on a θnj = 0 si n ≥ m et j > q.
• Xn peut s’écrire comme combinaison linéaire des Wj , 1 ≤ j ≤ n. De même, Wn peut
s’exprimer comme combinaison linéaire des Xj , 1 ≤ j ≤ n.

On a par définition, W
cn+1 = Pn Wn+1 et X bn+1 = Pn Xn+1 . Par la linéarité de Pn−1 on a :

 1X
 bn , n = 1, · · · , m
W
cn = σ
1 b
 [X n − ϕ1 Xn−1 − · · · − ϕp Xn−p ], n > m.

σ
D’où
Xn − X bn = σ(Wn − W cn ), n ≥ 1.
De tout ce qui précède, on a :
 n  
X
θnj Xn+1−j − Xbn+1−j , 1 ≤ n < m





j=1
X
bn+1 =
X q  

 ϕ1 Xn + · · · + ϕp Xn+1−p +

 θ nj Xn+1−j − X
b n+1−j , n ≥ m,

j=1

et E(Xn+1−j − X bn+1−j )2 = σ 2 E(Wn+1−j − W cn+1−j )2 = σ 2 rn où les θnj et rn sont


déterminés par l’algorithme des innovations avec gW (i, j).

Remarques -
(i) On peut montrer que si (Xt )t∈Z est inversible alors, quand n → ∞, E(Xn − X
bn −
2
εn ) → 0, θnj → θj , j = 1, . . . , q et rn → 1.
(ii) Le calcul algébrique des θnj et rn est difficile.

Prévision à l’horizon h
On montre, en utilisant les propriétés de Pn , que
 Xn  
θ X − Xbn+h−j , 1 ≤ h < m − n

n+h−1,j n+h−j




j=1
Pn Xn+h = p n+h−1  
 X X
ϕ P X + θ X − bn+h−j , h ≥ m − n.
X

i n n+h−i n+h−1,j n+h−j



i=1 j=h
(3.5)
3.1. LES PROCESSUS ARMA 33

Remarques -
(i) Pour n > max(p, q), pour h ≥ 1,
p
X q
X  
Pn Xn+h = ϕi Pn Xn+h−i + θn+h−1,j Xn+h−j − X
bn+h−j .
i=1 j=h

(ii) Les relations décrites par (3.5) permettent de calculer facilement Pn Xn+1 , Pn Xn+1 , . . . ,
dès que X
b1 , . . . , X
bn sont obtenus.

Prévision sur le passé infini


On suppose toujours que (Xt )t∈Z est un ARM A(p, q) causal et inversible, suivant la
relation (3.1). On sait alors que

X ∞
X
Xn+h = ψj εn+h−j et εn+h = Xn+h + πj Xn+h−j ,
j=0 j=1

où les ψj et πj sont déterminés de façon unique.


L’application de Pen aux égalités ci-dessus, donne

X ∞
X
Pen Xn+h = ψj εn+h−j et Pen Xn+h = − πj Pen Xn+h−j ,
j=h j=1

d’où l’on déduit l’erreur de prédiction et l’erreur de prédiction quadratique :


h−1
X h−1
X
Xn+h − Pen Xn+h = ψj εn+h−j e (h) = E(Xn+h − Pen Xn+h )2 = σ 2
et σ2
ψj2 .
j=0 j=0

Remarques -
(i) Les prédicteurs ainsi obtenus sont de la forme

X
Pen Xn+h = cj Xn−j .
j=0

(ii) En pratique on ne dispose que de X1 , . . . , Xn , ce qui signifie que Pen Xn+h doit être
tronquée après n termes. Le prédicteur obtenu de cette façon est une approximation
de Pen Xn+h si n → ∞ et cj → 0, j → ∞.

Remarque - On note σ 2 (h) = σ 2 h−1 2


P
j=0 ψj . Si (εt )t∈Z est un bruit blanc gaussien, alors
pour tout h ≥ 1, Xn+h − Pen Xn+h ∼ N (0, σ 2 (h)). On peut ainsi construire un intervalle
de confiance au niveau 1 − α, α ∈ [0, 1] pour Xn+h :
 
Pn Xn+h − φ1−α/2 σ(h); Pn Xn+h + φ1−α/2 σ(h) ,

où φ1−α/2 est le (1 − α/2)-quantile d’une loi N (0, 1). On suppose bien-sûr σ et les ψj
connus, sinon il faut les remplacer par leurs estimateurs.
34 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

3.1.6 Estimation des paramètres d’un ARMA


Nous présentons dans ce paragraphe des méthodes permettant d’estimer les paramètres
ϕ = (ϕ1 , . . . , ϕp )0 , θ = (θ1 , . . . , θq )0 et σ 2 d’un processus (Xt )t∈Z satisfaisant la relation
ARM A(p, q) définie par (3.1). Les entiers p et q sont supposés connus.

Les équations de Yule-Walker


• Cas q = 0 - Considérons le cas d’un processus AR(p) (Xt )t∈Z causal défini par (3.1)
avec θ(z) = 1. On sait que l’on peut écrire
X
Xt = ψj εt−j , t ∈ Z,
j≥0

où ψ(z) = j≥0 ψj z j = 1/ϕ(z). En multipliant chaque membre de (3.1) par Xt−j , j =
P
0, . . . , p en prenant les espérances et en utilisant l’égalité ci-dessus pour évaluer le membre
de droite, on a les équations de Yule-Walker :

Γp ϕ = γp et σ 2 = γX (0) − ϕ0 γp ,

où ϕ = (ϕ1 , . . . , ϕp )0 , γp = (γX (1), . . . , γX (p))0 et Γp = (γX (i − j))1≤i,j≤p .


On note Γ γX (i − j))1≤i,j≤p et γ
b p = (b bp = (b bX (p))0 .
γX (1), . . . , γ
Si γ
bX (0) > 0, Γ
b p est non singulière et en utilisant les équations de Yule-Walker avec
γX (h) remplacée par γbX (h), on a des estimateurs de ϕ et σ 2 donnés par

ϕ
b = (ϕ bp )0 = R
b1 , . . . , ϕ b−1 ρbp , σ
p bX (0)[1 − ρb0p R
bY2 W = γ b−1 ρbp ],
p

où
Γ
bp γ
bp
R
bp = ρX (1), . . . , ρbX (p))0 =
, ρbp = (b .
γ
bX (0) γ
bX (0)

Remarques -
(i) On montre que lorsque n → ∞, ϕ b ∼ N (ϕ, n−1 σ 2 Γ−1
p ).
2 −1
(ii) En remplaçant σ et Γp respectivement par σ 2
bY W et Γ b −1
p , on peut construire des
régions de confiance asymptotiques pour ϕ :

b − ϕ)0 Γ
{ϕ ∈ Rp , (ϕ b −1 (ϕ
p b − ϕ) ≤ n−1 σ
bY2 W χ21−α },

où χ21−α est le (1 − α)-quantile d’une loi du Khi-deux à p degrés de liberté.


• Cas q > 0 - L’estimation de Yule-Walker est basée sur les premières égalités de la
deuxième méthode (vue précédemment) permettant le calcul de la fonction d’autocova-
riance où l’on a remplacé γX (h) par γ bX (h) :
X
bX (k) − ϕ1 γ
γ bX (k − p) = σ 2
bX (k − 1) − · · · − ϕp γ ψj θj+k , 0 ≤ k < m.
j≥0
3.1. LES PROCESSUS ARMA 35

La méthode du maximum de vraisemblance


Soit (Xt )t∈Z un processus gaussien. Soit Xn = (X1 , · · · , Xn )0 et X
b n = (X bn )0 où
b1 , . . . , X
Xbj = Pj−1 Xj . Soit Γn = E(Xn X0n ) que l’on suppose inversible. La vraisemblance de Xn
est :  
1 1 0 −1
L(Γn ) = n√ exp − X Γ X n .
(2π) 2 detΓn 2 n n
On peut éviter le calcul de detΓn et Γ−1 n en utilisant Xj − Xj et vj−1 , j = 1, · · · , n donnés
b
par l’algorithme d’innovation défini au chapitre précédent.
Soit θi,j , j = 1, · · · , i; i = 1, 2, · · · , les coefficients obtenus lorsque l’algorithme d’in-
novation est appliqué à la fonction d’autocovariance gX de (Xt )t∈Z , et soit Cn la matrice
carrée triangulaire inférieure définie par :
 
1 0 0 ··· 0

 θ11 1 0 ··· 0  
Cn = 
 θ22 θ21 1 ··· 0  .
 .. .. .. . . 
 . . . . 0 
θn−1,n−1 θn−1,n−2 θn−1,n−3 · · · 1

On a l’identité
Xn = Cn (Xn − X
b n ).

Les composantes de Xn − X b n sont par définition non corrélées. Ce vecteur a donc une
matrice de covariance diagonale

Dn = diag(v0 , . . . , vn−1 ).

Il s’en suit que


Γn = Cn Dn C0n ,
d’où
detΓn = (detCn )2 detDn = v0 v1 . . . vn−1
et
n b j )2
X (Xj − X
X0n Γ−1
n Xn
b n )0 D−1 (Xn − X
= (Xn − X n
b n) = .
vj−1
j=1

Il vient alors
 
n 2
1 1 X (Xj − X
b )
j 
L(Γn ) = n√ exp − .
(2π) 2 v0 v1 . . . vn−1 2 vj−1
j=1

La vraisemblance de données issues d’un processus ARM A(p, q) gaussien peut se calcu-
ler facilement à partir de l’expression ci-dessus en utilisant les prévisions X
bi+1 et les erreurs
quadratiques correspondantes vi . Ces dernières peuvent s’obtenir à partir du schéma :
( P
n
j=1 θnj (Xn+1−j − Xn+1−j ) 1≤n<m
b
Xbn+1 = Pq
ϕ1 Xn + . . . + ϕp Xn+1−p + j=1 θnj (Xn+1−j − X bn+1−j ), n ≥ m,

et
bn+1 )2 = σ 2 E(Wn+1 − W
E(Xn+1 − X cn+1 )2 = σ 2 rn ,
36 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

où (Wt )t∈Z est le processus défini par (3.3), θnj et rn sont déterminés par l’algorithme
d’innovation avec gX remplacée par gW . Ceci nous conduit à définir la vraisemblance d’un
ARMA gaussien :
 
n 2
1 1 X (Xj − Xj ) 
b
L(ϕ, θ, σ 2 ) = n√ exp − 2 .
2
(2πσ ) 2 r0 r1 . . . rn−1 2σ rj−1
j=1

Cette nouvelle expression nous fournit les estimateurs du maximum de vraisemblance des
paramètres :
n b j )2
1 X (Xj − X
b2 = S(ϕ,
σ b θ)
b avec S(ϕ, θ) = ,
n rj−1
j=1

et ϕ
b et θb sont les valeurs qui minimisent
  n
1 1X
`(ϕ, θ) = ln S(ϕ, θ) + rj−1 .
n n
j=1

Remarque - On montre que l’estimateur du maximum de vraisemblance βb de β = (ϕ0 , θ0 )0


−1 (β)) où H = (∂`(β)/∂β ∂β : 1 ≤ i, j ≤ p+q).
suit approximativement une loi N (β, 2Hes es i j
Ceci peut permettre la construction de régions de confiance pour les paramètres.

3.1.7 Validation des modèles


La qualité d’un modèle statistique ajusté à des données peut se juger en comparant
les valeurs observées à celles prédites par ce modèle. Si le modèle ajusté est approprié, les
résidus vont se comporter d’une manière cohérente avec ce modèle.
Ainsi, si on ajuste un ARM A(p, q) à une série d’observations, et qu’on note ϕ, b θb et
σ 2
b les estimateurs du maximum de vraisemblance des paramètres ϕ, θ et σ , les valeurs 2

prédites Xbt (ϕ,


b θ)
b de Xt (ϕ, θ) basées sur X1 , . . . , Xt−1 et calculées à partir du modèle ajusté
devront être telles que
εbt = Xt − Xbt (ϕ,
b θ),
b t = 1, . . . , n

se comportent comme des réalisations du bruit blanc (εt )t∈Z , si tant est que le modèle
ARM A considéré est celui ayant généré les données. Pour vérifier cette propriété, on peut
observer le graphe de la série εbt /b
σ , t = 1, . . . , n (il doit se comporter comme celui des
réalisations d’un bruit blanc centré réduit) et/ou appliquer des tests de bruit blanc à
εbt , t = 1, . . . , n.

3.1.8 Choix des ordres p et q


On suppose que la série (Xt ) transformée (en différenciant, en enlevant des composantes
etc) peut être modélisée par un ARM A(p, q) centré. Il reste à choisir les ordres p et q du
modèle.
Des valeurs ”trop” grandes de p et q donnent des modèles ARM A(p, q) avec beau-
coup de paramètres. Ceux-ci sont associés à de grandes erreurs de prévision. Beaucoup de
critères de choix de p et q sont basés sur l’utilisation d’une pénalité sur ces nombres. Dans
ce qui suit, nous décrivons quelques uns des plus courants dans la littérature.
3.2. PROCESSUS ARIMA 37

Le critère FPE - Il est surtout appliqué au choix de l’ordre p d’un AR(p). Son principe
consiste à minimiser l’erreur de prévision quadratique à un pas, lorsque le modèle ajusté à
(Xt ) est utilisé pour prédire une réalisation indépendante (Yt ) du processus ayant généré
(Xt ). La valeur p choisie est celle qui minimise la fonction
n+p
FPE = σ b2 .
n−p
Les critères AIC - Soit X un vecteur aléatoire de dimension n dont la densité de proba-
bilité appartient à la famille {f (·, ψ), ψ ∈ Ψ}. La distance de Kullback-Lieber entre f (·, ψ)
et f (·, δ) est définie par :
Z  
f (x, ψ)
d(ψ|δ) = −2ln f (x, δ)dx.
Rn f (x, δ)
On montre facilement que d(ψ|δ) ≥ 0, avec égalité ssi f (·, ψ) = f (·, δ).
Soit X1 , . . . , Xn des observations d’un ARM A(p, q) avec les paramètres inconnus δ =
(β, σ 2 ), où β = (ϕ, θ). Le vrai modèle serait identifié s’il était possible de calculer la
distance de Kullback-Lieber entre tous les modèles candidats et le vrai modèle. Ce travail
n’étant pas possible, on “estime” ces distances, et on choisit le modèle pour lequel cette
distance estimée est la plus petite. Dans un cadre gaussien (c’est-à-dire que le vrai modèle
et les modèles concurrents sont gaussiens), on montre que le modèle qui minimise cette
distance estimée est celui pour lequel les ordres p et q minimisent la statistique d’Akaike
suivante : n o
AIC(ϕ, b = −2ln L[ϕ,
b θ) b θ,
b S(ϕ,
b θ)/n]
b + 2(p + q + 1),

où L est la vraisemblance, (ϕ, b θ)


b est l’estimateur du maximum de vraisemblance de (ϕ, θ)
et S est défini plus haut.
Cependant, AIC a tendance surestimer le nombre de paramètres. Plusieurs critères comme
celui qui suit ont été proposés pour corriger ce défaut. Choisir p et q qui minimisent la
statistique
n o 2(p + q + 1)n
AICC(ϕ, b = −2ln L[ϕ,
b θ) b θ,
b S(ϕ,
b θ)/n]
b + ,
n−p−q−2
où n est la taille de l’échantillon.
Le critère BIC - Un autre critère est le critère BIC : Pour un ARM A(p, q) centré, choisir
p et q qui minimisent
 Pn
σ2 √ 2 σ2
  
nb t=1 Xt − nb
BIC = (n − p − q)ln + n(1 + ln( 2π) + (p + q)ln .
n−p−q p+q

3.2 Processus ARIMA


3.2.1 Définition
Définition 3.6 Soient d, p et q des entiers naturels. Un processus (Xt )t∈Z est un processus
ARIM A(p, d, q) si le processus Yt = (1 − B)d Xt est un ARM A(p, q) causal. Ceci revient
à dire que (Xt )t∈Z a la représentation
ϕ∗ (B)Xt = ϕ(B)(1 − B)d Xt = θ(B)εt , (3.6)
où (εt )t∈Z ∼ BB(0, σ 2 ), ϕ et θ sont des polynômes de degrés respectifs p et q et ϕ a toutes
ses racines de module strictement supérieur à 1.
38 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS

Remarques -
(i) Le processus (Xt )t∈Z est stationnaire à l’ordre deux ssi d = 0.
(ii) L’équation (3.6) donne les propriétés du second ordre du processus ((1−B)d Xt )t∈Z .
(iii) L’estimation des paramètres est basée sur la série ((1 − B)d Xt )t∈Z .
Exemple - Soit (εt )t∈Z ∼ BB(0, σ 2 ). Le processus (Xt )t∈Z défini par l’équation
1
(1 − B)(1 − B)Xt = εt , t ∈ Z
2
est un processus ARIM A(1, 1, 0).
Remarque - La non-stationnarité dans les ARIMA se traduit par le fait que le polynôme
ϕ∗ a la racine 1 de multiplicité d.

3.2.2 Identification et estimation des paramètres d’un ARIMA


Pour une suite x1 , . . . , xn , si ρ̂x décroı̂t lentement c’est un indice de non-stationnarité
de la suite (elle comporte par exemple une tendance ou elle est intégrée). Pour la ”sta-
tionnariser”, on peut utiliser la méthode par différence finie.
1 - Choix de d - Ce choix est guidé par l’idée suivante : on examine les valeurs ρ̂n (h) ; si
elles décroissent lentement, on différentie la série et on examine les autocorrélations de la
série obtenue. Si celles-ci décroissent lentement on différentie la série différentiée et ainsi
de suite. On s’arrête lorsque les autocorrélations de la série obtenue par différentiations
successives décroissent rapidement vers 0. Le nombre d correspond alors au nombre de
différentiations opérées sur la série initiale.
2 - Choix de p et q et estimation des paramètres - Le choix de p et q et l’estimation
des paramètres se fait comme dans le cas d’un modèle ARM A(p, q), en utilisant la série
“stationnarisée”.
Remarques -
(i) Lorsque le polynôme autorégressif a une racine de module égal à 1 ou proche de 1,
cela suggère de différentier la série.
(ii) Lorsque le polynôme moyenne mobile a une racine de module égal à 1 ou proche
de 1, cela indique que l’on a “sur-différentié” la série.
(iii) On rencontre dans la littérature des tests dits de la racine unité qui permettent
de tester si ces polynômes ont des racines proches de 1 ou égales à 1.

3.3 Processus SARIMA


3.3.1 Définition
Définition 3.7 Soient d, D, p, P, q, Q et S des entiers naturels. Un processus (Xt )t∈Z est
un processus SARIM AS [(p, d, q), (P, D, Q)] de période S si la série (Yt )t≥1 définie par
Yt = (1 − B)d (1 − B S )D Xt est un processus ARMA causal vérifiant la relation

ϕ(B)Φ(B S )Yt = θ(B)Θ(B S )εt , (3.7)

où (εt )t∈Z ∼ BB(0, σ 2 ), ϕ(z) = 1 − ϕ1 z − · · · − ϕp z p , θ(z) = 1 + θ1 z + · · · + θq z q ,


Φ(z) = 1 − Φ1 z − · · · − ΦP z P et Θ(z) = 1 + Θ1 z + · · · + ΘQ z Q .
3.3. PROCESSUS SARIMA 39

Remarques -
(i) Dans les applications, D est en général strictement inférieur à 2 et P et Q inférieurs
à 3.
(ii) La relation (3.7) peut se réécrire

ϕ∗ (B)Yt = θ∗ (B)εt ,

où ϕ∗ et θ∗ sont des polynômes de degrés respectifs p + SP et q + SQ dont les


coefficients peuvent s’exprimer en fonction de ϕ1 , . . . , ϕp , θ1 , . . . , θq , Φ1 , . . . , Φp et
Θ1 , . . . , ΘQ .
(iii) La décomposition Xt = Zt + St + εt vue au chapitre 1 suppose que la composante
saisonnière St se répète de la même façon cycle après cycle, ce qui peut ne pas être
raisonnable. Les modèles SARIMA tiennent compte du fait que cette répétition
peut être aléatoire.

3.3.2 Identification et estimation des paramètres


• La première étape de l’identification consiste à trouver d et D pour lesquels Yt =
(1 − B)d (1 − B S )D Xt est à peu près stationnaire. On regarde ensuite les fonctions d’au-
tocorrélation et d’autocorrélation partielle de (Yt ) aux points multiples de S, pour avoir
une indication des ordres P et Q dans (3.7). Ces deux entiers doivent être choisis tels
que les ρ̂y (kS), k = 1, 2, . . . soient compatibles avec l’autocorrélation d’un processus
ARM A(P, Q). Les entiers p et q sont choisis tels que les ρ̂y (1), . . . , ρ̂y (S − 1) soient com-
patibles avec l’autocorrélation d’un processus ARM A(p, q). On peut appliquer le critère
d’Akaike pour choisir le modèle adéquat parmi les modèles potentiels.
• Pour p, d, q, P, D, Q donnés, les paramètres ϕ = (ϕ1 , . . . , ϕp ), θ = (θ1 , . . . , θq ), Φ =
(Φ1 , . . . , ΦP ), Θ = (Θ1 , . . . , ΘQ ) et σ 2 peuvent être estimés par la méthode du maximum
de vraisemblance comme dans le cas d’un ARMA.
Remarque - La phase d’identification d’un processus SARIMA peut nécessiter une trans-
formation préliminaire de la série à modéliser. En effet, l’opérateur ∇d = (1−B)d ne permet
pas toujours de stationnariser une série. C’est le cas par exemple pour les séries ayant une
tendance exponentielle (dont l’espérance est une fonction exponentielle de t). Pour une
telle série (Xt )t∈Z à termes positifs, on peut prendre le logarithme ou plus généralement
la transformation de Box-Cox :

 Xtλ − 1
si λ 6= 0
 ln(X λ
t ) si λ = 0.

Le nombre réel λ est souvent choisi dans ]0, 1.5].


40 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS
Bibliographie

1. Gouriéroux C. et Monfort A. (1995). Séries temporelles et modèles dynamiques.


Economica.
2. Brockwell P. J. et Davis R. A. (1990). Time series : Theory and Methods. Springer-
Verlag.
3. Brockwell P. J. et Davis R. A. (1996). An introduction to time series and forecasting.
Springer.

41