Seri Chro PDF

Table des matières
1 Introduction 3
1.1 Notion de série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Modélisation d’une série chronologique . . . . . . . . . . . . . . . . . 5
1.2 Introduction aux processus stationnaires . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Moyenne et autocorrélation empiriques . . . . . . . . . . . . . . . . . 8
1.3 Estimation et élimination de la tendance et de la saisonnalité . . . . . . . . 9
1.3.1 La méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . 9
1.3.2 La méthode des moyennes mobiles . . . . . . . . . . . . . . . . . . . 10
1.3.3 Le programme Census X-11 . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Méthode par différenciation . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Test des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Prévision des séries chronologiques 15

2.1 Méthodes générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Méthode des moyennes mobiles . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Méthodes par lissage exponentiel . . . . . . . . . . . . . . . . . . . . 15
2.1.3 La méthode de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . 16
2.1.4 La méthode par décomposition . . . . . . . . . . . . . . . . . . . . . 17
2.2 Prévision des séries stationnaires . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Propriétés de la fonction d’autocorrélation . . . . . . . . . . . . . . . 18
2.2.2 Processus linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Prévision sur le passé limité (ou fini) . . . . . . . . . . . . . . . . . . 19
2.2.4 La décomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Processus ARMA et quelques généralisations 25

3.1 Les processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Polynômes et séries en B . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.2 Définitions et propriétés des processus ARMA . . . . . . . . . . . . . 26
3.1.3 Fonction d’autocovariance . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.4 Fonction d’autocorrélation partielle . . . . . . . . . . . . . . . . . . . 30
3.1.5 Prévision d’un processus ARMA . . . . . . . . . . . . . . . . . . . . 31
3.1.6 Estimation des paramètres d’un ARMA . . . . . . . . . . . . . . . . 34
3.1.7 Validation des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.8 Choix des ordres p et q . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
2 TABLE DES MATIÈRES
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Identification et estimation des paramètres d’un ARIMA . . . . . . . 38
3.3 Processus SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Identification et estimation des paramètres . . . . . . . . . . . . . . 39
Chapitre 1
Introduction
1.1 Notion de série chronologique

Dans ce cours on étudie des techniques permettant de faire des inférences de séries tem-
porelles. Cela nécessite la construction d’hypothétiques modèles représentant les données.
Une fois des modèles appropriés contruits, il est possible d’estimer leurs paramètres, de tes-
ter leur adéquation aux données et éventuellement les utiliser pour éclairer la compréhension
des mécanismes générant les données. Leur utilisation peut varier suivant les domaines
d’application. Ils peuvent servir à la description des données ; à la séparation des bruits
des signaux ; à la prédiction d’une série à partir de l’observation d’une autre série ; à la
prédiction et/ou au contrôle des valeurs futures d’une série.
1.1.1 Définitions et exemples

Définition 1.1 On appelle série temporelle ou série chronologique ou chronique, toute
suite d’observations (xt ) issues d’un phénomène produisant l’observation xt à un instant
précis t.
Domaines d’application et exemples

1 - Médecine/Biologie : évolution des décès accidentels, des patholodies, analyse d’électro-
encéphalogrammes et d’électro-cardiogrammes.
2 - Finance/assurance/économie : l’évolution du taux du change entre deux monaies,
des indices boursiers, des prix, des ventes et achats des biens, analyse des sinistres,
analyse du chiffre d’affaire d’un groupe industriel etc.
3 - Science de la Terre et de l’Espace : évolution du niveau d’un cours d’eau, évolution
de l’indice des marrées, évolution des tâches solaires etc.
4 - Traitement du signal : analyse des signaux de communications, de radars, de sonars,
de la parole.
Définition 1.2 Construire un modèle de séries chronologiques pour des valeurs observées
(xt )t∈T c’est préciser les lois jointes d’une suite de v.a.r (Xt )t∈T dont (xt )t∈T est supposée
être une réalisation.
Une telle suite (Xt )t∈T est appelée processus stochastique. Il est à temps discret si T
est dénombrable, et à temps continu si T est un intervalle de R.
3
4 CHAPITRE 1. INTRODUCTION
LakeHuron USAccDeaths
576 577 578 579 580 581 582
7000 8000 9000 10000 11000

USAccDeaths
LakeHuron
1880 1900 1920 1940 1960 1973 1974 1975 1976 1977 1978 1979
Time Time
Lynx data UKDriverDeaths

7000
2500
5000
UKDriverDeaths
2000
lynx
3000
1500
0 1000
1000
1820 1840 1860 1880 1900 1920 1970 1975 1980 1985
Time Time
Figure 1.1 – Quelques exemples de séries chronologiques réelles : niveau du lac Huron
(USA), nombre de morts accidentelles (USA), nombre de lynx tués au Canada, nombre
de décès dans les accidents de la route (Royaume Uni).
Dans ce cours, nous ne nous intéressons qu’aux processus à temps discret. Nous confon-
drons souvent les suites (xt )t∈T et (Xt )t∈T .
Exemple - Soit X1 , X2 , . . . , une suite de v.a.r. indépendantes telles que P (Xt = 1) =
P (Xt = −1) = 1/2, ∀t. Soit (Mt )t≥0 la suite de v.a.r. définie par
M0 = 0 et Mt = X1 + . . . + Xt , ∀t ≥ 1.
La suite (Mt )t≥0 est un processus appelé marche aléatoire symétrique. On peut remarquer
que Mt = Mt−1 + Xt et Xt = Mt − Mt−1 .
Remarque - Un modèle de séries chronologiques pour une suite de v.a.r. X1 , X2 , . . . , doit
pouvoir permettre la spécification des probabilités
P (X1 ≤ x1 , . . . , Xn ≤ xn ), x1 , . . . , xn ∈ R, n = 1, 2, . . . .
Mais cette spécification est souvent associée à un grand nombre de paramètres (plus grand
que la taille des données). C’est pourquoi on se borne souvent à étudier les propriétés dites
du second ordre, c’est-à-dire celles liées à E(Xt ) et E(Xt Xt+h ). Ces propriétés caractérisent
la loi du processus (Xt ) si celui-ci est gaussien.
1.1. NOTION DE SÉRIE CHRONOLOGIQUE 5
1.1.2 Modélisation d’une série chronologique

La modélisation d’une chronique suit à peu près les étapes suivantes :
Étape 1. On représente graphiquement la série. Cela peut mettre en évidence :
(i) Une tendance qui marque l’allure générale du phénomène.
(ii) Des variations saisonnières.
(iii) Des données aberrantes. Il s’agit de données qui n’ont pas été engendrées de la
même manière que les autres (erreur de saisie, de calcul ou de mesure) ou qui sont
tirées dans la queue de distribution.
(iv) Des changements structurels ou ruptures.
Étape 2. On analyse le graphique et on :
(i) enlève la tendance et la composante saisonnière (plusieurs méthodes sont possibles
et une transformation de la série peut être nécessaire) ;
(ii) on modélise les éventuelles ruptures ou bien on analyse la série sur des intervalles
homogènes ;
(iii) étudie la possibilité d’écarter les éventuelles données aberrantes, avant d’analyser
la série ;
(iv) ajuste un modèle stationnaire aux résidus.
En général, les deux étapes précédentes conduisent à postuler un ou plusieurs modèles

susceptibles d’avoir généré les observations. Quelques classes de modèles rencontrés dans
la littérature sont :
• Les modèles d’ajustement :
Xt = f (t, εt ), t ∈ Z, (1.1)
où (εt )t∈Z est une suite de v.a.r. centrées représentant les variations de la série dues
au hasard, f une fonction indexée par un nombre fini de paramètres inconnus. Lorsque
f (t, εt ) = g(t) + εt on dit que l’ajustement est additif. Lorsque f (t, εt ) = g(t)εt on dit qu’il
est multiplicatif.
• Les modèles de filtrage :
Xt = f (. . . , εt−1 , εt , εt+1 , . . .), t ∈ Z, (1.2)
où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles moyennes
mobiles (MA) qui seront vus au chapitre suivant.
• Les modèles autoprojectifs :
Xt = f (Xt−1 , Xt−2 , . . . , εt ), t ∈ Z, (1.3)
où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles autorégressifs
(AR) qui seront vus au chapitre suivant.
• Les modèles explicatifs :
Xt = f (Yt , εt ), t ∈ Z, (1.4)
où (εt )t∈Z est comme ci-dessus et Yt est un vecteur de variables observables que l’on
suppose souvent indépendant de εt . Si Yt ne contient pas les valeurs passées de Xt on
parle de modèle explicatif statique. Si les εt sont autocorrélées ou si Yt contient les valeurs
passées de Xt on parle de modèle explicatif dynamique.
Remarque - (εt ) est une de v.a.r. qui, suivant les cas, peut réfléter des variations aléatoires
du phénomène observé autour de sa tendance et de ses évolutions saisonnières, ou réfléter
les variations de l’erreur de mesure sur les observations.
Exemples - On suppose (εt )t∈Z une suite de v.a.r. centrées de variance finie et a, b ∈ R.
(i) Xt = a + bt + εt t ∈ Z.
(ii) Xt = aXt−1 + εt , t ∈ Z.
(iii) Xt = a + b cos πt + εt , t ∈ Z.
(iv) Xt = aε2t−1 + bεt−1 + εt , t ∈ Z.
1.2 Introduction aux processus stationnaires

1.2.1 Définitions
Définition 1.3 Tout processus (εt )t∈T tel que E(εt ) = 0, V ar(εt ) = σ 2 > 0, ∀t ∈ T
et Cov(εs , εt ) = 0, s 6= t est appelé bruit blanc (faible) de variance σ 2 . Nous noterons
(εt )t∈T ∼ BB(0, σ 2 ).
Exemple - Toute suite de v.a.r. iid centrées de variance finie σ 2 est un BB(0, σ 2 ).
Définition 1.4 Un processus (Xt )t∈T est dit du second ordre ou à l’ordre 2 si Xt ∈
L2 , ∀t ∈ T ou encore si E(Xt2 ) < ∞, ∀t ∈ T .
Définition 1.5 Soit (Xt )t∈T un processus du second ordre.

(i) La fonction moyenne de (Xt )t∈T est définie pour tout t ∈ T par µX (t) = E(Xt ).
(i) La fonction d’autocovariance de (Xt )t∈T est définie pour tous s, t ∈ T par γ
eX (s, t) =
Cov(Xs , Xt ) = E[(Xs − µX (s))(Xt − µX (t))].
Définition 1.6 Un processus (Xt )t∈T est faiblement stationnaire ou stationnaire à l’ordre
2 ou stationnaire au sens faible si :
(i) il est du second ordre ;
(ii) ∀t ∈ T , µX (t) = µX indépendante de t ;
(iii) ∀h, t ∈ T , γ
eX (t + h, t) = γX (h) indépendante de t.
Définition 1.7 Pour tout processus faiblement stationnaire (Xt )t∈T ,

(i) la fonction h 7→ γX (h) est appelée fonction d’autocovariance de (Xt )t∈T ;
(ii) la fonction h 7→ ρX (h) = γX (h)/γX (0) est appelée fonction d’autocorrélation de
(Xt )t∈T .
Définition 1.8 Un processus (Xt )t∈T est dit stationnaire au sens strict (ou fort) ssi
L(Xt1 , . . . , Xtk ) = L(Xt1 +h , . . . , Xtk +h ), k ∈ N, t1 , . . . , tk ∈ T.

1.2. INTRODUCTION AUX PROCESSUS STATIONNAIRES 7
ACF ACF
−0.2 0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0

ACF
ACF
−0.4
0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Lag Lag
ACF ACF
1.0
0.0 0.2 0.4 0.6 0.8 1.0

0.5
ACF
ACF
0.0
−0.5
0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Lag Lag
Figure 1.2 – Fonctions d’autocorrélation des séries niveau du lac Huron, nombre de morts
accidentelles, nombre de lynx tués au Canada, nombre de décès dans les accidents de la
route
Remarque - Tout processus du second ordre stationnaire au sens strict est stationnaire
à l’ordre 2.
Exemples et contre-exemple
(i) Toute suite de v.a.r. iid est stationnaire au sens strict et à l’ordre 2 (s’il est du
second ordre).
(ii) Tout bruit blanc est un processus stationnaire à l’ordre 2.
En effet : soit (εt )t∈Z ∼ BB(0, σ 2 ). On sait par définition que E(εt ) = 0; E(ε2t ) =
σ 2 ; Cov(εt+h , εt ) = 0, h 6= 0.
(iii) Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R. Le processus (Xt )t∈Z défini par
Xt = εt + θεt−1 , t ∈ Z,
est un processus stationnaire appelé moyenne mobile d’ordre 1 et noté M A(1).

En effet, par de calculs simples, on a E(Xt ) = 0, E(Xt2 ) = (1 + θ2 )σ 2 et
 (1 + θ2 )σ 2 , h = 0

Cov(Xt+h , Xt ) = θσ 2 , h = ±1
0 ailleurs.

(iv) La marche aléatoire définie plus haut n’est pas un processus stationnaire.
En effet, de calculs simples montrent que Cov(Mt+h , Mt ) = t.
1.2.2 Moyenne et autocorrélation empiriques

Définition 1.9 Soient X1 , . . . , Xn des v.a.r.
bX = X̄ = n−1 nt=1 Xt .
P
(i) La moyenne empirique des X1 , . . . , Xn est µ
(ii) La fonction d’autocovariance empirique des X1 , . . . , Xn est
n−|h|
X
−1
γ
bX (h) = n (Xt−|h| − X̄)(Xt − X̄), −n < h < n.
t=1
(iii) La fonction d’autocorrélation empirique des X1 , . . . , Xn est
γ
bX (h)
ρbX (h) = , −n < h < n.
γ
bX (0)
Remarque - Pour une suite d’observations x1 , . . . , xn , réalisations des X1 , . . . , Xn , µ

bx =
Pn−|h|
x̄ = n−1 nt=1 xt est une estimation de µX ; γ bx (h) = n−1 t=1 (xt−|h| − x̄)(xt − x̄) est une
P
estimation de γX (h) ; ρbx (h) = γ
bx (h)/b
γx (0) est une estimation de ρX (h).
Remarque - Pour une suite d’observations x1 , . . . , xn comportant une tendance, |b ρx (h)|
décroı̂t lentement et/ou les valeurs sont rapprochées les une des autres. Pour celles com-
portant une composante périodique de période d, |b ρx (h)| va exhiber la même périodicité.
Ceci signifie que ρbx (h) peut être utilisé comme un indicateur de nonstationnarité.
1.3. ESTIMATION ET ÉLIMINATION DE LA TENDANCE ET DE LA SAISONNALITÉ9
1.3 Estimation et élimination de la tendance et de la sai-

sonnalité
On suppose dans ce qui suit que la série brute (Xt )t∈Z suit un modèle du type (1.1)
défini par :
Xt = Zt + St + εt , t ∈ Z, (1.5)
où Zt représente la composante tendancielle, St la composante
Pd saisonnière de période
d supposée connue telle que S1 + · · · + Sd = 0 (ou S
j=1 t+j = 0). La suite (εt )t∈Z
est une suite de v.a.r. centrées de variance finie représentant les variations de la série
dues au hasard. On la suppose souvent iid (=bruit blanc fort), bruit blanc faible ou plus
généralement stationnaire à l’ordre deux.
Nous supposons dans la suite que l’on a observé X1 , . . . , Xn .
1.3.1 La méthode des moindres carrés

On fait l’hypothèse que
k `
cj Stj , t ∈ Z,
X X
Zt = bi Zti , St =
i=1 j=1
où les bi et cj sont des paramètres réels inconnus et les Zti et Stj sont des fonctions connues
du temps. Les paramètres bi et cj sont estimés par la méthode des moindres carrés, en
minimisant en (b1 , . . . , bk , c1 , . . . , c` ) la fonction
 2
n k `
cj Stj  .
X X X
Xt − bi Zti −
t=1 i=1 j=1
Soient bbi et b
cj les estimateurs obtenus. Les composantes Zt et St sont estimées respecti-
vement par
k `
cj Stj .
X X
Zbt = bbi Z i et Sbt =
t b
i=1 j=1
Définition 1.10 On appelle

(i) série corrigée de la tendance, la série (Xt − Zbt )t∈Z ;
(ii) série corrigée des variations saisonnières, la série (Xt − Sbt )t∈Z ;
(iii) série corrigée de la tendance et des variations saisonnières, la série (Xt − Z
bt −
St )t∈Z .
b
Remarque - Les résidus εbt = Xt − Z bt − Sbt doivent se comporter comme des réalisations
des εt . Donc la suite (b
εt )t∈Z doit se comporter comme la réalisation d’une série ayant “à
peu près” les mêmes propriétés que (εt )t∈Z .
Remarque - La méthode des moindres carrés a l’inconvénient de ne pas prendre en compte
les changements de régime. Aussi, la mise à jour des estimateurs est difficile. Car il n’est
pas facile en général, d’établir un lien entre les estimateurs des paramètres obtenus avec
un échantillon de taille n + 1 et ceux obtenus avec un échantillon de taille n.
1.3.2 La méthode des moyennes mobiles

Ici, les compsantes Zt et St ne dépendent plus forcément de paramètres.
Définition 1.11 Soit un processus (Xt )t∈Z . L’opérateur “retard” souvent noté B, est
défini pour tout entier k par : ∀t ∈ Z, B k Xt = Xt−k .
Définition 1.12 On appelle moyenne mobile tout opérateur M de la forme

m2
X
M= θi B −i ,
i=−m1
où m1 , m2 ∈ N, θ−m1 , . . . , θm2 ∈ R. L’ordre de la moyenne mobile est m1 + m2 + 1. La

moyenne mobile est dite symétrique si m1 = m2 .
• Une bonne moyenne mobile doit conserver la tendance et annuler la saisonnalité, ou

l’inverse. Elle doit en outre éliminer la composante aléatoire ou tout au moins, la réduire.
Elle doit aussi avoir des coefficients simples.
• Avec les moyennes mobiles, la mise à jour des estimateurs est facile pour des échantillons
de grandes tailles (n → ∞). Les moyennes mobiles ont aussi l’avantage de bien réagir aux
changements de régime.
• Les moyennes mobiles arithmétiques sont définies pour tout entier non nul q par :
1 q
1) M1,q = B + B q−1 + . . . + B −(q−1) + B −q
2q +
1
1 1 q q−1 −(q−1) 1 −q
2) M2,q = B +B + ... + B + B .
2q 2 2
L’estimation des composantes du modèle (1.5) peut se faire en utilisant l’algorithme
suivant :
Première étape. On estime une première fois la tendance :

1 1 1
• Si d = 2m, Zt = M2,m Xt =
e Xt−m + Xt−m+1 + . . . + Xt+m−1 + Xt+m
d 2 2
1
• Si d = 2m + 1, Z
et = M1,m Xt = (Xt−m + Xt−m+1 + . . . + Xt+m−1 + Xt+m ), m +
d
1 ≤ t ≤ n − m.
On observe que Zet n’est pas défini pour t < m + 1 et t > n − m. Ceci vient de ce que
Xt n’est pas observé pour t < 1 et t > n. Plusieurs méthodes peuvent être utilisées pour
résoudre ce problème. Certains auteurs posent Xt = X1 pour t < 1 et Xt = Xn pour
t > n.
Deuxième étape. On estime la composante saisonnière :

• Pour k = 1, . . . , d on calcule les déviations ωk = Xk+jd − Zek+jd , m + 1 ≤ k + jd ≤
n − m.
• La somme de ces déviations sur une période n’étant pas nécessairement nulle, on
estime la composante saisonnière par
d
1X
Sbk = ωk − ωi , k = 1, . . . , d, et Sbk = Sbk−d , k > d.
d
i=1
1.3. ESTIMATION ET ÉLIMINATION DE LA TENDANCE ET DE LA SAISONNALITÉ11
Troisième étape. On estime une deuxième fois la tendance :

Cette nouvelle estimation de la tendance a pour but d’avoir une forme paramétrique de la
tendance qui peut être utilisée à des fins de prévision ou de simulation. Elle se fait avec la
série corrigée des variations saisonnières dt = Xt − Sbt . Ici, on peut modéliser la tendance
par un polynôme de faible degré et appliquer la méthode des moindres carrés à la série
(dt ).
• Si l’on note (Zbt ) la série obtenue à l’étape 3, on peut définir, comme au paragraphe
précédent, la série corrigée de la tendance, celle corrigée de la composante saisonnière et
celle corrigée de la tendance et de la composante saisonnière.
1.3.3 Le programme Census X-11

La méthode Census-X11 est basée sur une combinaison de moyennes mobiles adéquates
permettant d’estimer les composantes d’une série mensuelle ou trimestrielle. La première
version de cette méthode (Method I) a été mise au point sur l’ordinateur Univrac du US
Bureau of Census en 1954 par Shiskin Julius. Une seconde méthode (Method II) connaı̂tra
onze versions eXpérimentales qui aboutiront en 1965 au logiciel X11. L’expansion des
modèles ARIMA ces dernières décennies a permis la conception des versions plus évoluées
que sont X11-ARIMA et X12-ARIMA...
L’intérêt de la procédure X11 est qu’elle tient compte des effets calendaires et qu’elle
traite les valeurs atypiques telles que les valeurs aberrantes. Ainsi, pour une série trimes-
trielle (Xt ) par exemple, suivant le modèle (1.5), les séries corrigées de la tendance et des
variations saisonnières données par X11 sont respectivement obtenues avec les moyennes
mobiles
B 0 − M2 [B 0 − M1 (B 0 − M0 )2 ]
B 0 − (B 0 − M0 )M3 {B 0 − M2 [B 0 − M1 (B 0 − M0 )2 ]},
où
1
M0 = (B −2 + 2B −1 + 2B 0 + 2B 1 + B 2 )
8
1
M1 = (B −8 + 2B −4 + 3B 0 + 2B 4 + B 8 )
9
1
M2 = (−21B −2 + 84B −1 + 160B 0 + 2B 1 − 21B 2 )
286
1
M3 = (B −12 + 2B −8 + 3B −4 + 3B 0 + 3B 4 + 2B 8 + B 12 ).
15
1.3.4 Méthode par différenciation

Cette méthode est celle utilisée dans l’approche dite de Box et Jenkins de l’analyse des
séries chronologiques.
• Pour éliminer la tendance dans certaines séries, on peut leur appliquer l’opérateur ∇k =
(1 − B)k .
• Pour éliminer une saisonnalité d’une série de période d, on peut lui appliquer l’opérateur
∇d = 1 − B d .
Exemples - Soit (Xt )t∈Z un processus.
(i) ∇Xt = Xt − Xt−1 , t ∈ Z.

(ii) ∇2 Xt = Xt − 2Xt−1 + Xt−2 , t ∈ Z.
(iii) ∇d Xt = Xt − Xt−d , t ∈ Z.
Remarque - On a ∇1 = ∇1 , mais en général ∇p = 1 − B p 6= (1 − B)p = ∇p .
1.4 Test des résidus

Les méthodes présentées ci-dessus ont pour but de produire des séries résiduelles “à
peu près” stationnaires. S’il n’y a pas de dépendance entre les valeurs de ces séries, elles
peuvent être considérées comme réalisations de suites de v.a.r. iid. Dans ce cas, il n’y a
pas d’autres modélisations. Ne reste plus que l’estimation de la moyenne et de la variance.
S’il apparaı̂t une dépendance, il importe de les modéliser par des processus stationnaires
adéquats.
Les tests présentés ci-dessous permettent de tester l’hypothèse qu’une suite d’obser-
vations y1 , . . . , yn est la réalisation d’une suite de v.a.r. Y1 , . . . , Yn iid et/ou gaussienne.
Lorsque cette hypothèse est rejettée, on peut utiliser la théorie des modèles stationnaires
présentée au chapitre suivant pour ajuster un modèle à la suite d’observations Y1 , . . . , Yn .
Remarque - Pour n assez grand, les autocorrélations empiriques d’une suite iid Y1 , . . . , Yn
de variance finie sont approximativement iid de loi N (0, 1/n). Ce qui permet la construc-
tion d’intervalles de confiance ou la construction de tests pour les ρY (h).
1 - La fonction d’autocorrélation empirique
Pour y1 , . . . , yn , si on calcule ρby (h), h = 1, . . . , 40 et s’il y a plus de trois valeurs hors
de l’intervalle de confiance [−1.96n−1/2 ; 1.96n−1/2 ], ou si l’une des ces valeurs est signifi-
cativement à l’extérieur de cet intervalle, on rejette l’hypothèse iid des v.a.r. Y1 , . . . , Yn ,
dont les y1 , . . . , yn sont supposées être des réalisations.
2 - Le test du portmanteau
(i) Box et Pierce (1970) - Ce test est basé sur la statistique
h
X
QBP = n ρb2X (j)
j=1
qui suit approximativement une loi du Khi-deux à h degrés de liberté. Au niveau α on

rejette l’hypothèse iid des X1 , . . . , Xn si QBP > χ21−α (h) (quantile d’ordre 1 − α d’un
χ2 (h)).
(i) Ljung et Box (1978) - Ce test est basé sur la statistique

h
X
QLB = n(n + 2) ρb2X (j)/(n − j)
j=1
dont la loi est mieux approximée par une loi du Khi-deux à h degrés de liberté. Ce test
fonctionne de la même manière que le précédent.
1.4. TEST DES RÉSIDUS 13
3 - Le test de McLeod et Li (1983)

La statistique de test de ce test est obtenue en remplaçant ρbX dans l’expression de
QLB par ρbX 2 (on remplace l’autocorrélation de (Xt ) par celle de (Xt2 )).
4 - Le nuage de points
On représente les points (xt−1 , xt ), t = 2, . . . , n. Une forme plus ou moins circulaire
du nuage de points est indicatrice de l’indépendance des X1 , . . . , Xn .
5 - Les tests de normalité :

(i) - Le qqplot : Soit Y(1) , . . . , Y(n) la statistique d’odre de Y1 , . . . , Yn ∼ N (µ, σ 2 ). Soit
X(1) , . . . , X(n) la statistique d’odre de X1 , . . . , Xn ∼ N (0, 1). On a
E[Y(j) ] = µ + mj σ, mj = E[X(j) ].
Le graphe des points (m1 , Y(1) ), . . . , (mn , Y(n) ) connu sous le nom de qqplot doit être ap-
proximativement linéaire. Si les Yi ne sont pas gaussiennes, ce graphique doit être non-
linéaire. En pratique mi est souvent remplacée par Φ−1 [(i − .5)/n] où Φ est la fonction de
répartition de la loi normale centrée réduite.
(ii) - Le test de Jarque-Bera : Il est basé sur la statistique
 2 
m4
 m2 m32
−3 
JB = n  33 + ,
6m2 24
où mr = nj=1 (Yi − Y )r et Y = nj=1 Yi /n. La statistique JB suit asymptotiquement une

P P
loi du χ2 (2) si les Yi ∼ N (µ, σ 2 ). Cette hypothèse est rejetée si JB est significativement
grande.
Chapitre 2
Prévision des séries chronologiques
L’un des objectifs de l’analyse des séries chronologiques est la prévision : étant donné
des observations X1 , . . . , Xn , on souhaite estimer ou prévoir à l’horizon h une valeur fu-
ture Xn+h . Cette prévision peut être ponctuelle ou ensembliste. Nous résumons dans ce
chapitre quelques unes des méthodes courantes de prévision ponctuelle. L’hypothèse de
stationnarité est clé, car d’une manière générale, pour prédire, au moins une propriété
d’invariance avec le temps est nécessaire.
2.1 Méthodes générales

2.1.1 Méthode des moyennes mobiles
Cette méthode consiste à estimer une valeur par la moyenne des k valeurs qui la
précèdent. Par exemple :
bn+1 = Xn−k+1 + Xn−k+2 + . . . + Xn ; X

bn+2 = Xn−k+2 + . . . + Xn + Xn+1 ; . . . ;
b
X
k k
2.1.2 Méthodes par lissage exponentiel
1 - Lissage exponentiel simple
Définition 2.1 La méthode du lissage exponentiel simple avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :
n−1
X
bn+h = (1 − β)
X β j Xn−j .
j=0
•X bn+h peut s’interpréter comme la constante qui ajuste le mieux la série au voisinage de
n. Il est obtenu en minimisant en µ la fonction 2j=0 β j (Xn−j − µ)2 .
P
• Si β est proche de 0, la prévision est plus sensible aux valeurs récentes de la série
et répercute toutes le fluctuations récentes. On dit que la prévision est souple. Si β est
proche de 1, la prévision prend en compte toutes les observations et est peu sensible aux
fluctuations. On dit qu’elle est rigide.
15
16 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES
• Le choix de β est subjectif. On le choisit souvent dans [0.05, 0.3]. Une méthode plus
rigoureuse consiste à choisir sa valeur qui minimise l’erreur de prévision.
• Le lissage exponentiel simple est adapté lorsque la série a une moyenne approximative-
ment constante au voisinage de n. Méthode utilisée lorsque la série ne présente ni tendance,
ni saisonnalité.
2 - Lissage exponentiel double
Définition 2.2 La méthode du lissage exponentiel double avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :
X
bn+h = b
a1 (n) + hb
a2 (n),
où 
a1 (n) = 2C1 (n) − C2 (n),
 b
1−β
a2 (n) =
 b [C1 (n) − C2 (n)],
β
avec 
 t−1
X
C (t) = (1 − β) β j Xt−j ,


 1


j=0
 t−1
X
C (t) = (1 − β) β j C1 (t − j).


 2


j=0
• Pour calculer cette quantité, les valeurs initiales généralement atribuées aux suites b
a2 (n)
a2 (n) sont respectivement X2 et X2 − X1 .
et b
Cette méthode est adaptée lorsque la série peut être approximée par une droite au voisinage
de n : Xt = a1 + a2 (t − n).
•Xbn+h peut s’interpréter comme la droite qui approxime le mieux la série au voisinage
de n. Les suites b
a2 (n) et b
a2 (n) sont en fait les solutions du problème de minimisation
n−1
X
min β j [Xn−j − a1 − a2 j]2 .
a1 ,a2
j=0
• La méthode du lissage exponentiel généralisé ne sera pas abordée dans ce cours. Une
présentation de cette méthode est donnée dans Gouriéroux et Monfort (1995).
2.1.3 La méthode de Holt-Winters
1 - La méthode non saisonnière

Elle est basée sur le même principe que celui du lissage exponentiel double, mais propose
des coefficients a1 et a2 différents :

a1 (n) = (1 − α)Xn + α[b
b a1 (n − 1) + ba2 (n − 1)], α ∈]0, 1[
a2 (n) = (1 − γ)[b
b a1 (n) − b
a1 (n − 1)] + γba2 (n − 1), γ ∈]0, 1[.
2.1. MÉTHODES GÉNÉRALES 17
Cette méthode est plus flexible car elle fait intervenir deux constantes au lieu d’une.
Cependant on a à choisir, soit par des méthodes subjectives, soit en minimisant l’erreur
de prévision, deux constantes au lieu d’une seule. On a toujours
X
bn+h = b
a1 (n) + hb
a2 (n)
initialisé comme dans le cas précédent.
2 - La méthode saisonnière additive

Elle est basée sur l’idée que la série peut être approchée au voisinage de n par a1 + (t −
n)a2 + St , où St est la composante saisonnière de période d. La prévision proposée par
cette méthode est

 Xn+h = b
 b a1 (n) + hb a2 (n) + Sbn+h−d , 1 ≤ h ≤ d,
Xn+h = b
b a1 (n) + hb a2 (n) + Sbn+h−2d , d + 1 ≤ h ≤ 2d,
 ..

.
où 
a1 (n) = (1 − α)(Xn − Sbn−d ) + α[b
 b a1 (n − 1) + b a2 (n − 1)], α ∈]0, 1[,
a2 (n) = (1 − γ)[b
b a1 (n) − ba1 (n − 1)] + γb a2 (n − 1), γ ∈]0, 1[,
Sn = (1 − δ)[Xn − b a1 (n)] + δ Sbn−d , δ ∈]0, 1[.
 b
• Le principal problème dans cette méthode est celui du choix des constantes α, γ et δ.
• L’initialisation des suites b
a1 (n), b
a2 (n) et Sbn dépend de la période d. Pour d = 4, des
valeurs initiales sont proposées dans Gouriéroux et Monfort (1995).
• La méthode saisonnière multiplicative repose sur l’idée que la série peut être approximée
par [a1 + (t − n)a2 ]St au voisinage de n. On peut alors utiliser la méthode précédente en
prenant le logarithme de cette expression.
2.1.4 La méthode par décomposition

On suppose, par exemple, que la série se décompose suivant le modèle (1.5) où (εt )t∈Z
est un bruit blanc. Alors, la prédiction de Xn+h est donnée par
X
bn+h = Z
bn+h + Sbn+h ,
où Zbt et Sbt sont les estimateurs de Zt et St . Lorsque (εt )t∈Z n’est plus un bruit blanc, mais
un processus stationnaire, la prévision devient
X
bn+h = Z
bn+h + Sbn+h + εbn+h ,
où εbn+h est la prévision de εn+h construite à l’aide (ε̃t )nt=1 , avec ε̃t = X
bt − Zbt − Sbt en
utilisant par exemple les méthodes qui seront exposées dans le paragraphe suivant ou
celles présentées dans les prochains chapitres.
2.2 Prévision des séries stationnaires

2.2.1 Propriétés de la fonction d’autocorrélation
Au chapitre précédent, les fonctions d’autocovariance et d’autocorrélation d’un pro-
cessus (Xt )t∈Z stationnaire à l’ordre deux ont été respectivement définies par :
γX (h)
γX (h) = Cov(Xt+h , Xt ), ρX (h) = , h ∈ Z.
γX (0)
Proposition 2.1 Soit (Xt )t∈Z stationnaire à l’ordre deux.

(i) γX (0) ≥ 0.
(ii) γX est paire : γX (h) = γP Ph ∈ Z.
X (−h),
(iii) γX est de type positif : nj=1 nk=1 aj ak γX (j − k) ≥ 0, ∀n ∈ N, ∀(a1 , . . . , an ) ∈
Rn .
(iv) V ar(X1 ) = γX (0).
(v) |γX (h)| ≤ γX (0), ∀h ∈ Z.
Preuve. (i) γX (0) = V ar(X1 ) ≥ 0.

(ii) Cov(X t+h , Xt ) = Cov(Xt , Xt+h ). P
(iii) nj=1 nk=1 aj ak γX (j − k) = V ar( ni=1 ai Xi ) ≥ 0.
P P
(iv) V ar(X1 ) = Cov(X1 , X1 ) = γX (0).
(v) Se déduit facilement de

γX (h)
|Corr(Xt+h , Xt )| = ≤ 1.
γX (0)
Théorème 2.1 Toute fonction réelle définie sur Z est la fonction d’autocovariance d’un
processus stationnaire si et seulement si elle est paire et est de type positif.
Remarque - Pour vérifier qu’une fonction est de type positif, il est souvent plus simple
de trouver un processus stationnaire ayant cette fonction pour fonction d’autocovariance,
plutôt que de chercher à vérifier la propriété (ii) de la proposition précédente.
Exemple - La fonction γ(h) = cos(ωh) est de type positif. En effet, c’est la fonction
d’autocovariance du processus Xt = A cos(ωt) + B sin(ωt) où A et B sont deux v.a.r.
non-corrélées et centrées réduites.
2.2.2 Processus linéaires

Nous définissons dans ce paragraphe les processus linéaires. Cette classe de processus
offre un cadre très général pour l’étude des processus stationaires au second ordre.
Définition 2.3 Un processus (Xt )t∈Z est dit linéaire si il a la représentation

X
Xt = ψj εt−j , t ∈ Z,
j∈Z
où (εt )t∈Z ∼ BB(0, σ 2 ) et la suite (ψj )j∈Z est telle que
P
j∈Z |ψj | < ∞.
2.2. PRÉVISION DES SÉRIES STATIONNAIRES 19
Définition 2.4 Un processus

P (Xt )t∈Z admet une représentation M A(∞) si il existe une
suite (ψj )j≥0 vérifiant j≥0 |ψj | < ∞ et telle que
X
j≥0
où (εt )t∈Z ∼ BB(0, σ 2 ).
Proposition 2.2 Soit (Yt )t∈Z un processus stationnaire centréP de fonction d’autocova-
riance γY . Si (ψj )j∈Z est une suite de nombres réels vérifiant j∈Z |ψj | < ∞, alors le
processus X
Xt = ψj Yt−j , t ∈ Z
j∈Z
est stationnaire centré, de fonction d’autocovariance

XX
γX (h) = ψj ψk γY (h + k − j), h ∈ Z.
j∈Z k∈Z
Preuve. La condition j |ψj | < ∞ implique que Xt converge au sens L1 et L2 . C’est-à-

P
dire que les sommes partielles
X
Xtn = ψj Yt−j , t ∈ Z
|j|≤n
convergent au sens L1 et L2 (il suffit de montrer par exemple qu’elles sont de Cauchy).
Donc
XX
E(Xt2 ) ≤ |ψj ||ψk |E(|Yt−j ||Yt−k |)
j k
X 2
≤ |ψj | γY (0) < ∞.
j
X XX
Ensuite, E(Xt ) = ψj E(Y0 ) et E(Xt+h Xt ) = ψj ψk γY (h + k − j).
j j∈Z k∈Z
Remarque - Pour plusieurs processus, en particulier pour les Pprocessus linéaires (Xt )t∈Z ,
on montre que µ bX suit approximativement une N (µX , n−1 |h|<∞ γX (h)) et que le vec-
teur ρbX = (b ρX (1), . . . , ρbX (h))0 suit approximativement une loi N (ρX , n−1 W ), où ρX =
(ρX (1), . . . , ρX (h))0 et W la matrice dont l’élément (p, q) est donné par la formule de
Bartlett suivante :
∞
X
wpq = [ρX (l + p) + ρX (l − p) − 2ρX (p)ρX (l)] [ρX (l + q) + ρX (l − q) − 2ρX (q)ρX (l)] .
l=1
2.2.3 Prévision sur le passé limité (ou fini)

Dans tout ce paragraphe, (Xt )t∈Z désigne un processus stationnaire à l’ordre deux de
moyenne µX et de fonction d’autocovariance γX .
Nous nous intéressons ici à la prédiction des valeurs Xn+h , h > 0, basée sur les observa-
tions X1 , X2 , . . . , Xn . Il s’agit de trouver la combinaison linéaire des 1, X1 , X2 , . . . , Xn qui
prédit Xn+h avec l’erreur quadratique minimale. Ce prédicteur que nous notons Pn Xn+h
a la forme
Pn Xn+h = a0 + a1 Xn + · · · + an X1 ,
où les a0 , a1 , . . . , an sont les valeurs qui minimisent E(Xn+h − a0 − a1 Xn − · · · − an X1 )2 .
La solution de ce problème d’optimisation est donnée par
n
!
X
a0 = µX 1 − ai , Γn An = γn ,
i=1
où An = (a1 , . . . , an )0 , Γn = (γX (i − j))1≤i,j≤n , γn = (γX (h), . . . , γX (n + h − 1)). On

voit facilement que
Xn
Pn Xn+h = µX + ai (Xn+1−i − µX ).
i=1
L’erreur de prévision quadratique au pas h est :
E(Xn+h − Pn Xn+h )2 = γX (0) − A0n γn .
(Vérifier ce résultat en exercice - On utilisera le fait que Γn An = γn .)

Autres propriétés de Pn Xn+h
(i) E(Xn+h − Pn Xn+h ) = 0.
(ii) E[(Xn+h − Pn Xn+h )Xj ] = 0, j = 1, 2, . . . , n.
Prédiction de variables aléatoires réelles du second ordre - On suppose Y et

W1 , . . . , Wn des variables aléatoires réelles du second ordre avec µY = E(Y ), µi = E(Wi ),
V ar(Y ), Cov(Y, Wi ), Cov(Wi , Wj ) connues. Posons W = (Wn , . . . , W1 )0 , µW = (µn , . . . , µ1 )0 ,
γ = Cov(Y,W ) = (Cov(Y, Wn ), . . . , Cov(Y, W1 )) et Γ = Cov(W, W ) = Cov(Wn+1−i , Wn+1−j ) :
1 ≤ i, j ≤ n .
Définition 2.5 On appellera opérateur de prédiction sur W , l’application notée P (·|W )

qui à Y fait correspondre son meilleur prédicteur linéaire en fonction de 1, W1 , . . . , Wn et
défini par
h i
P (Y |W ) = µY + A0 (W − µW ), E (Y − P (Y |W ))2 = V ar(Y ) − A0 γ,
où A = (a1 , . . . , an )0 est toute solution de ΓA = γ.
Quelques propriétés de P (·|W ) - Soient U et V 2 var de carrés intégrables. Soient

β, α1 , . . . , αn des constantes.
1. P (U |W ) = E(U ) + A0 (W − E(W )), avec ΓA = Cov(U, W ).
2. E [(U − P (U |W )) W ] = 0 et E [U − P (U |W ))] = 0.
h i
3. E (U − P (U |W ))2 = V ar(U ) − A0 Cov(U, W ).
4. P [(α1 U + α2 V + β)|W ] = α1 P (U |W ) + α2 P (V |W ) + β.
5. P [( ni=1 αi Wi + β)|W ] = ni=1 αi Wi + β.

P P
6. P (U |W ) = E(U ) si Cov(U, W ) = 0.
7. P (U |W ) = P [P (U |W, V )|W ], si V est un vecteur aléatoire tel que les composantes
de E(V V 0 ) soient finies.
Remarques : (i) - P (Y |W ) peut être vue comme la projection orthogonale de Y sur le
sous-espace vectoriel engendré par 1, W1 , W2 , . . . , Wn (au sens du produit scalaire E(XY )).
(ii) Pn défini plus haut est un opérateur de prédiction avec W = (Xn , Xn−1 , . . . , X1 ).
Exemple - Soit le processus défini par
Xt = φXt−1 + εt , t ∈ Z, (‡)
où |φ| < 1, (εt )t∈Z ∼ BB(0, σ 2 ).

1. Dans le chapitre suivant, on verra que la condition |φ| < 1 implique que εt est
non corrélée avec les Xs , s < t. Avec cette remarque, en utilisant les propriétés
ci-dessus, on a : Pn Xn+1 = φXn et E(Xn+1 − Pn Xn+1 )2 = σ 2 .
2. On suppose observées X1 et X3 . Le meilleur prédicteur linéaire de X2 en fonction
de 1, X1 et X3 peut se calculer en prenant Y = X2 , W = (X1 , X2 )0 . Pour h > 0, en
multipliant chaque membre de (‡) par Xt−h , on a
γX (h) = φγX (h − 1) + E(Xt−h εt ).
Il est ensuite facile de voir que pour h > 0, E(Xt−h εt ) = 0, et donc on a la relation
γX (h) = φγX (h − 1).
D’où l’on obtient

φσ 2
γX (1) = φγX (0) = φV ar(X) = .
1 − φ2
On a donc
σ2 φσ 2 0
!
φσ 2 φσ 2

1−φ2 1−φ2
Γ= φσ 2 σ2
et γ = , .
1−φ2 1−φ2
1 − φ2 1 − φ2
Il est facile de voir que
1 φ2

φ
ΓA = γ ⇐⇒ A= .
φ2 1 φ
D’où
1 φ φ
A= et P (X2 |W ) = (X1 + X3 ),
1 + φ2 φ 1 + φ2
avec
φσ 2
!
σ2 1−φ2 σ2
2
− A0

E (X2 − P (X2 |W )) = φσ 2 = .
1 − φ2 1−φ2
1 + φ2
Remarque - On a Pn Xn+h = µX +Pn (Xn+h −µX ). Ceci signifie que le meilleur prédicteur
linéaire de Xn+h peut être obtenu en ajoutant µX au meilleur prédicteur linéaire de Xn+h −
µX .
Avec la remarque ci-dessus, nous supposons (Xt )t∈Z centré.
On peut facilement voir que si Γn est non singulière (une condition suffisante que les
matrices Γ1 , Γ2 , . . . , soient non singulières est que γX (0) > 0 et que γX (h) → 0, h → ∞)
alors,
Pn Xn+1 = φ0n Xn = φn1 Xn + · · · + φnn X1 ,
où φn = (φn1 , φn2 , . . . , φnn )0 = Γ−1 2 0
n γn , vn = E(Xn+1 − Pn Xn+1 ) = γX (0) − φn γn , et γn le
vecteur défini plus haut, avec h = 1.
L’algorithme de Durbin-Levinson - Le calcul des coefficients φn1 , . . . , φnn peut être

fait en évitant l’inversion de la matrice Γn . Ces coefficients peuvent en effet être calculés
de manière récursive par les équations
φnn = [γX (n) − n−1 −1

 P
φ γ (n − j)]vn−1

    j=1 n−1,jX  
φn1 φn−1,1 φn−1,n−1




· · ·

      
      

 ·  =
 
 · 
 − φ nn

 · 

· · ·

      





 φn,n−1 φn−1,n−1 φn−1,1
vn = vn−1 (1 − φ2nn ) où φ11 = γX (1)/γX (0) et v0 = γX (0).

Remarque - Une fois Xn+1 prédite (par X bn+1 = Pn Xn+1 ) on peut reprendre l’algorithme
avec X1 , X2 , . . . , Xn , X
bn+1 pour prédire Xn+2 . On peut réitérer ce procédé autant que
nécessaire pour prédire Xn+h .
Définition 2.6 La fonction d’autocorrélation partielle de (Xt )t∈Z est définie par

1, h = 0
τX (h) =
φhh , h ≥ 1.
Remarque - On montre que τX (h) est le coefficient de corrélation entre Xh − Ph−1 Xh et

X0 − Ph−1 X0 .
L’algorithme des innovations (AI) - Un autre algorithme récursif permettant de faire
la prévision est celui dit des innovations. Il a l’avantage de s’appliquer aux séries du second
ordre, stationnaires ou pas stationnaires. Soit (Xt ) un tel processus (du second ordre, et
pas nécessairement stationnaire) centré. On note :

0 si n = 1
gX (i, j) = E(Xi Xj ); Xn =
b vn = E(Xn+1 − Pn Xn+1 )2 .
Pn−1 Xn , n = 2, 3 . . . ;
On appelle innovations les variables aléatoires réelles non corrélées Un = Xn − X

bn . On a
par définition X
b1 = 0. On montre que pour tout n > 1,
n
X
X
bn+1 = θnj Un+1−j ,
j=1
où les coefficients θnj , j ≤ n dépendent de manière non triviale des aj solutions de Γn An =
γn , où An = (a1 , . . . , an )0 , Γn = (γX (i − j))1≤i,j≤n , γn = (γX (1), . . . , γX (n)).
L’algorithme des innovations décrit ci-dessous qui permet le calcul récursif des coefficients
θnj .

 v0 = gX (1, 1) h
 i
θn,n−k = vk−1 gX (n + 1, k + 1) − k−1
P
j=0 θ k,k−j θ n,n−j v j , 0 ≤ k ≤ n − 1,
 Pn−1 2
vn = gX (n + 1, n + 1) − j=0 θn,n−j vj .

Example - Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R et le processus (Xt )t∈Z défini par
Xt = εt + θεt−1 , t ∈ Z.
On se souvient que
 (1 + θ2 )σ 2 , i = j

gX (i, j) = θσ 2 , j =i+1
0, |i − j| > 1.

L’AI appliqué à ce processus donne alors


θσ 2
 θn,1 = vn−1 , θn,j = 0, h2 ≤ j ≤ n


2 σ2
i
v0 = (1 + θ2 )σ 2 , vn = 1 + θ2 − vθn−1 σ2


 X bn+1 = θn,1 Un .
• Pour la prédiction au pas h, on utilise

Pn (Xn+k − Pn+k−1 Xn+k ) = 0, k ≥ 1.
Ce qui conduit à
 
n+h−1
X
Pn (Xn+h ) = Pn  θn+h−1,j (Xn+h−j − X
bn+h−j )
j=1
n+h−1
X
= θn+h−1,j (Xn+h−j − X
bn+h−j )
j=1
n+h−1
X
2 2
E(Xn+h − Pn (Xn+h )) = gX (n + h, n + h) − θn+h−1,j vn+h−j−1 .
j=h
2.2.4 La décomposition de Wold

Définition 2.7 Le meilleur prédicteur linéaire de Xn+h en fonction du passé infini de
Xn (c’est-à-dire en fonction de 1 et Xs , s ≤ n) est défini par
Pen Xn+h = lim Pm,n Xn+h ,
m→−∞
où Pem,n Xn+h est le meilleur prédicteur linéaire de Xn+h en fonction de 1, Xm , . . . , X−1 ,
X0 , X1 , . . . , Xn calculé de la même manière que Pn Xn+h .
Quelques propriétés de Pen - Soient U et V 2 var de carrés intégrables, W et Γ définis

comme plus haut. Soient α1 , α2 , α3 des constantes.
h i
1. E (U − Pen (U ))Xj = 0, j ≤ n.
2. Pen (α1 U + α2 V + α3 ) = α1 Pen (U ) + α2 Pen (V ) + α3 .

3. Pen (U ) = E(U ) si Cov(U, Xj ) = 0, j ≤ n.
4. Pen (U ) = U , si U est limite de combinaisons linéaires des Xj , j ≤ n.
Remarque - Pen Xn+h peut être regardé comme la projection orthogonale de Xn+h sur le
sous-espace vectoriel engendré par 1 et Xs , s ≤ n.
Définition 2.8 Soit (Xt )t∈Z un processus.

(i) Il est dit singulier (prédictible) si Xt − Pet−1 Xt = 0, ∀t ∈ Z. Il est dit non-singulier
(non-prédictible) sinon.
(ii) Il est dit régulier s’il existe (ci )i≥0 avec i≥0 c2i < ∞, un bruit blanc (εt )t∈Z unique
P
à une constante multiplicative près telle que
X
Xt = cj εt−j , t ∈ Z.
j≥0
Remarque - La partie (i) de la définition

P ci-dessus peut encore se traduire par : il existe
des coefficients (dk ) tels que Xt = k dk Xt−k .
Le théorème ci-dessous, connu sous le nom de décomposition de Wold, dit en sub-
stance que tout processus stationnaire à l’ordre deux peut se décomposer en la somme d’une
composante linéaire (partie régulière) et d’une composante singulière (partie prédictible).
Théorème 2.2 Soit (Xt )t∈Z un processus non-singulier, stationnaire au second ordre.
Alors, X
Xt = cj εt−j + Vt , t ∈ Z,
j≥0
où
(i) (ci )i≥0 est telle que c0 = 1, i≥0 c2i < ∞ ;
P
(ii) (εt )t∈Z ∼ BB(0, σ 2 ) ;

(iii) Cov(εs , Vt ) = 0, ∀s, t ∈ Z ;
(iv) εt = Pet εt ;
(v) Vt = Pes Vt , ∀s, t ;
(vi) (Vt )t∈Z est prédictible.
où Pet Y désigne le meilleur prédicteur linéaire de Y en terme de combinaison linéaires ou
limites de combinaisons linéaires de 1, Xs , s ≤ t
Preuve. Les suites (εt )t∈Z , (ci )i≥0 et (Vt )t∈Z sont uniques et s’écrivent explicitement :
E(Xt εt−j ) X
εt = Xt − Pet−1 Xt , cj = , V t = Xt − cj εt−j .
E(ε2t ) j≥0
Voir Brocwell et Davis (1990) pour une preuve complète de ce résultat.

Chapitre 3
Processus ARMA et quelques

généralisations
Nous introduisons dans ce chapitre une classe importante de processus stationnaires

appelés processus ARMA (AutoRegressive Moving-Average) et quelques unes de leurs
généralisations qu sont les processus ARIMA et SARIMA. Les processus ARMA sont
linéaires, ce qui simplifie considérablement leur étude ainsi que l’application des méthodes
de prévisions décrites au chapitre précédent. En outre, pour une grande classe de fonction
d’autocovariance, on peut trouver un processus ARMA dont la fonction d’autocovariance
est bien approximée par un de ses éléments.
Les processus ARIMA (AutoRegressive Integrated Moving-Average) prennent en compte
la non-stationnarité tandis que les processus SARIMA (Seasonal AutoRegressive Integra-
ted Moving-Average) prennent en compte la non-stationnarité et la saisonnalité. Après
des opérarions de différenciation spécifiques, ces deux classes de processus se réduise en
des processus ARMA.
3.1 Les processus ARMA

3.1.1 Polynômes et séries en B
Définition 3.1 On rappelle que B est l’opérateur retard.
i- On appelle polynôme en B toute moyenne mobile de la forme
P (B) = p0 + p1 B + p2 B 2 + . . . + pq B q ,
où P est le polynôme P (z) = p0 + p1 z + p2 z 2 + . . . + pq z q , pq 6= 0.

ii- On appelle série en B toute moyenne mobile de la forme
X
S(B) = αj B j ,
j∈Z
où la suite (αj )j∈Z est absolument sommable.
Proposition 3.1 On considère le polynôme P (B) = 1 − λB, λ une constante.

i- Si |λ| < 1, P (B) admet pour inverse
X
S(B) = λj B j .
j≥0
25
26 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS
ii- Si |λ| > 1, P (B) admet pour inverse

X
S(B) = λ−j B −j .
j>0
iii- Si |λ| = 1, P (B) n’est pas inversible.
Preuve - Pour les cas i et ii, on vérifie facilement que P (B)S(B) = S(B)P (B) = 1.
Pour le dernier cas, il est facile de voir que l’opérateur n’est pas injectif. En effet, appliqué
à deux processus constants, (Xt ) et (Yt ) tels que Xt = a et Yt = b, ∀t ∈ Z, on a P (B)Xt =
P (B)Yt = 0.
Remarque - Pour inverser un polynôme P (B) de degré q (qui a q racines complexes
non nécessairement distinctes), la décomposition en éléments simples de 1/P permet de
conclure à partir de la proposition 3.1 ci-dessus que :
1. Si toutes les racines
P de P sont de module différent de 1, il existe une série en B de
la forme S(B) = j∈Z αj B j telle que S(B)P (B) = P (B)S(B) = 1.
P de P sont de module supérieur à 1, il existe une série en B de
j
la forme S(B) = j∈≥0 αj B telle que S(B)P (B) = P (B)S(B) = 1.
P de P sont de module inférieur à 1, il existe une série en B de
la forme S(B) = j∈<0 αj B j telle que S(B)P (B) = P (B)S(B) = 1.
4. Si au moins une racine de P est de module égal à 1, P (B) n’est pas inversible.
Remarque - Lorsqu’un polynôme P (B) est inversible, son inverse S(B) peut se calculer
par identification (P (z)S(z) = 1), par une décomposition en éléments simples, par la
division du polynôme 1 en les puissances décroissantes de P (z).
3.1.2 Définitions et propriétés des processus ARMA

Définition 3.2 Soit (Xt )t∈Z un processus centré.
(i) (Xt )t∈Z est processus ARMA(p,q) si il est stationnaire, et pour tout t ∈ Z,
Xt − ϕ1 Xt−1 − · · · − ϕp Xt−p = εt + θ1 εt−1 + · · · + θq εt−q , (3.1)
où (εt )t∈Z ∼ BB(0, σ 2 ), ϕp 6= 0 et θq 6= 0.

(ii) Si ϕ(z) = 1 on dit que (Xt )t∈Z est un M A(q).
(iii) Si θ(z) = 1 on dit que c’est un AR(p).
Remarques -
(i) On écrit souvent (3.1) sous la forme ϕ(B)Xt = θ(B)εt , t ∈ Z, où B est l’opérateur
retard défini au chapitre précédent.
(ii) Un processus (Xt )t∈Z est un ARM A(p, q) de moyenne µX ssi (Xt − µX )t∈Z est
ARM A(p, q) au sens de (3.1).
Proposition 3.2 L’équation (3.1) admet une unique solution stationnaire ssi les racines
de ϕ sont toutes de module différent de 1.
Preuve - La preuve de ce résultat découle de la remarque qui suit la proposition 3.1.

3.1. LES PROCESSUS ARMA 27
AR(1)
−1 0 1 2 3
xx
−3
0 50 100 150 200
Time
MA(1)
−1 0 1 2 3
xx
−3
0 50 100 150 200
Time
Figure 3.1 – Simulation d’un AR(1) et d’un MA(1)

Définition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est dit causal P ou fonction causale de
(εt )t∈Z si il existe une suite de nombres réels (ψj )j≥0 telle que j≥0 |ψj | < ∞ et
X
Xt = ψj εt−j , t ∈ Z.
j≥0
Proposition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est causal ssi les racines de ϕ sont
toutes de module strictement supérieur à 1.
Preuve - La preuve de ce résultat découle de la remarque qui suit la proposition 3.1.
Définition 3.4 Un processus ARM PA(p, q) (Xt )t∈Z est dit inversible s’il existe une suite
de nombres réels (πj )j≥0 telle que j≥0 |πj | < ∞ et
X
εt = πj Xt−j , t ∈ Z.
j≥0
Proposition 3.4 Un processus ARM A(p, q) (Xt )t∈Z est inversible ssi les racines de θ
sont toutes de module strictement supérieur à 1.
Preuve - La preuve de ce résultat découle d’une adaptation de la remarque qui suit la

proposition 3.1.
Exemple - Soit le processus ARM A(1, 1) suivant
Xt − 0.2Xt−1 = εt + 0.3εt−1 , t ∈ Z, (3.2)
où (εt )t∈Z ∼ BB(0, σ 2 ).

Alors, ϕ(z) = 1 − 0.2z et θ(z) = 1 + 0.3z ont leur racine de module strictement plus
grand que 1. Donc (3.2) admet une unique solution stationnaire (Xt )t∈Z qui est causale et
inversible.
Définition 3.5 La représentation ARM A(p, q) (3.1) est dite

i- minimale si les polynômes ϕ(z) = 1 − ϕ1 z − · · · − ϕp z p et θ(z) = 1 + θ1 z + . . . + θq z q
n’ont pas de racine commune.
ii- canonique si elle est causale et inversible.
3.1.3 Fonction d’autocovariance

Dans tout ce paragraphe, (Xt )t∈Z désigne un processus ARM A(p, q) centré vérifiant
(3.1), causal de fonction d’autocovariance γX . L’hypothèse de causalité nous permet d’écrire
X
j≥0
où j≥0 ψj z j = θ(z)/ϕ(z), |z| < 1. Les ψj , j ≥ 0 peuvent être calculés en utilisant la
P
division des polynômes et/ou les séries entières.
La fonction d’autocorrélation γX de (Xt )t∈Z peut se calculer par l’une des méthodes
suivantes :
Première méthode - Elle consiste à appliquer la Proposition 2.2 à la représentation

M A(∞) ci-dessus. On a alors,
X
γX (h) = E(Xt+h Xt ) = σ 2 ψj ψj+|h| .
j≥0
Deuxième méthode - En multipliant chaque membre de (3.1) par Xt−k et en prenant

les espérances, on a :
γX (k) − ϕ1 γX (k − 1) − · · · − ϕp γX (k − p) = σ 2 j≥0 ψj θj+k , 0 ≤ k < m

P
γX (k) − ϕ1 γX (k − 1) − · · · − ϕp γX (k − p) = 0, k ≥ m,
où l’on a posé m = max(p, q + 1). Les équations définies pour k ≥ m sont des équations
aux différences finies, homogènes, à coefficients constants dont les méthodes de résolution
sont bien connues. Les solutions de ces équations qui seront aussi celles des m premières
équations du système ci-dessus, sont les solutions du système.
Troisième méthode - On résout d’abord les p + 1 premières équations du système

précédent, aux inconnues γX (0), γX (1), . . . , γX (p), puis on utilise les autres équations pour
calculer γX (p + 1), γX (p + 2), . . .
Exemple - On considère le processus ARM A(1, 1) défini par
Xt − ϕXt−1 = εt + θεt−1 ,
où (εt )t∈Z ∼ BB(0, σ 2 ) et |ϕ| < 1. Étant donné que |ϕ| < 1, on a
X
Xt = εt + ϕj−1 (θ + ϕ)εt−j .
j≥1
En appliquant la 2ème méthode ci-dessus, on a :
γX (h) = ϕh−1

 h−1

 γX (1), h ≥2 2
 γX (h) = ϕγX (h − 1) = ϕ γX (1), h ≥ 2 (θ + ϕ)

γX (0) = σ 2 1 +


2 2
γ (0) = ϕγX (1) + σ (1 + θϕ + θ ) ⇐⇒ 1 − ϕ2
 X 2 (θ + ϕ)2

γX (1) = ϕγX (0) + σ θ.


2
 γX (1) = σ θ + ϕ + ϕ .


1 − ϕ2
Exemple - On considère un processus M A(q) (Xt )t∈Z vérifiant (3.1) avec ϕ(z) = 1. Alors,
en utilisant la première méthode, on a :

 q−|h|
 2 X

σ θj θj+|h| , |h| ≤ q
γX (h) =

 j=0
 0, |h| > q.
Exercice - Vérifier ce résultat en exercice.

Remarque importante - L’expression de γX dans l’exemple ci-dessus montre que l’une
des propriétés caractéristiques des processus M A(q) est que ρX (h) = 0 pour |h| > q. En
ACF d’un AR(1) PACF d’un AR(1)
0.6
0.0 0.2 0.4 0.6 0.8 1.0
0.4
Partial ACF
ACF
0.2
0.0
−0.2
0 10 20 30 40 0 10 20 30 40
Lag Lag
ACF d’un MA(1) PACF d’un MA(1)

−0.2 0.0 0.2 0.4 0.6 0.8 1.0
−0.1 0.0 0.1 0.2 0.3 0.4

Partial ACF
ACF
0 10 20 30 40 0 10 20 30 40
Lag Lag
Figure 3.2 – Fonctions d’autocorrélation (ACF) et d’autocorrélation partielle (PACF)

d’un AR(1) et d’un MA(1)
pratique, lorsque pour une suite d’observations x1 , . . . , xn , ρbx (h) est petit pour |h| > q,
on modélise ces observations par un M A(q). On considèrera que ρbx (h) est petit si il est
√ √
compris dans l’intervalle [−1.96/ n; 1.96/ n].
Remarque - Pour tout processus stationnaire dont la fonction d’autocorrélation tend vers
0 à l’infini, et pour tout entier k > 0, on peut trouver un processus ARMA dont la fonction
d’autocorrélation est égale à celle de ce processus jusqu’à l’ordre k.
3.1.4 Fonction d’autocorrélation partielle

La fonction d’autocorrélation partielle d’un processus (Xt )t∈Z admettant la représentation
ARM A(p, q) minimale ϕ(B)Xt = θ(B)εt (avec les polynômes ϕ et θ ayant leurs racines
de modules strictement supérieurs à 1) est définie par :

1, h = 0
τX (h) =
φhh , h ≥ 1,
où φhh est la dernière composante du vecteur Φh = Γ−1

h γh avec Γh = (γX (i − j) : 1 ≤
i, j ≤ h) et γh = (γX (1), . . . , γX (h)).
Remarque (?) - τX (h) est le coefficient de Xt−h dans la régression de Xt sur Xt−1 , . . . , Xt−h .
Remarque - τbX (h) est définie en remplaçant γX (h) dans l’expression de τX (h) par γ
bX (h).
Exemple - Soit le processus M A(1) suivant :
Xt = εt + θεt−1 ,
où (εt )t∈Z ∼ BB(0, σ 2 ). On veut calculer τX (1) et τX (2).

On sait que  2
 (θ + 1)σ 2 , h = 0
γX (h) = θσ 2 , h = ±1
0 ailleurs.

On a τX (1) = φ11 = γX (1)/γX (0) = ρX (1) = θ/(θ2 + 1).

γX (0) γX (1) γX (0) −γX (1)
Γ2 = ; Γ−1
2 = (γ 2
X (0) − γ 2
X (1))−1
.
γX (1) γX (0) −γX (1) γX (0)
On a γ2 = (γX (1), 0), d’où τX (2) = −θ2 /(θ4 + θ2 + 1).
Exemple - Soit un processus AR(p) vérifiant l’équation (3.1) avec θ(z) = 1. On a par la
remarque (?) que τX (h) = 0 pour h > p et τX (h) = ϕp 6= 0 pour h = p.
Remarque importante - Une propriété caractéristique des processus AR(p) est que
τX (h) = 0 pour h > p. En pratique, lorsque τbx (h) est petit pour h > p, on modélise
x1 , . . . , xn par un AR(p). On admettra que τbx (h) est petit si il est dans l’intervalle
√ √
[−1.96/ n; 1.96/ n].
3.1.5 Prévision d’un processus ARMA

On suppose l’existence d’un processus (Xt )t∈Z centré vérifiant la relation (3.1) avec
p ≥ 1, q ≥ 1. Étant donné X1 , . . . , Xn , on souhaite faire la prévision de Xn+h , h > 0.
Prévision à l’horizon 1
On rappelle que B est l’opérateur retard. On note m = max(p, q) et considère la
transformation 
 1 Xt , t = 1, . . . , m

Wt = σ (3.3)
1
 ϕ(B)Xt , t > m.

σ
On a
 1
 γX (i − j), 1 ≤ i, j ≤ m
σ2 "



 p
#

 1 X
 2 γX (i − j) − ϕ` γX (` − |i − j|) , min(i, j) ≤ m < max(i, j) ≤ 2m


gW (i, j) = E(Wi Wj ) = σ
`=1
 q
 X



 θ` θ`+|i−j| , min(i, j) > m

 `=0


0 ailleurs.
L’application de l’algorithme des innovations au processus (Wt )t∈Z donne

 n
X
θ W − W n+1−j , 1 ≤ n < m

 nj n+1−j
 c


j=1
W
cn+1 =
Xq (3.4)




 θ nj W n+1−j − cn+1−j , n ≥ m,
W
j=1
cn+1 )2 sont déterminés par l’algorithme des innovations.

où les θnj et rn = E(Wn+1 − W
Remarques -
• Puisque gW (i, j) = 0 si i > m et |i − j| > q, on a θnj = 0 si n ≥ m et j > q.
• Xn peut s’écrire comme combinaison linéaire des Wj , 1 ≤ j ≤ n. De même, Wn peut
s’exprimer comme combinaison linéaire des Xj , 1 ≤ j ≤ n.
On a par définition, W
cn+1 = Pn Wn+1 et X bn+1 = Pn Xn+1 . Par la linéarité de Pn−1 on a :

 1X
 bn , n = 1, · · · , m
W
cn = σ
1 b
 [X n − ϕ1 Xn−1 − · · · − ϕp Xn−p ], n > m.

σ
D’où
Xn − X bn = σ(Wn − W cn ), n ≥ 1.
De tout ce qui précède, on a :
 n
X
θnj Xn+1−j − Xbn+1−j , 1 ≤ n < m





j=1
X
bn+1 =
X q

 ϕ1 Xn + · · · + ϕp Xn+1−p +

 θ nj Xn+1−j − X
b n+1−j , n ≥ m,

j=1
et E(Xn+1−j − X bn+1−j )2 = σ 2 E(Wn+1−j − W cn+1−j )2 = σ 2 rn où les θnj et rn sont

déterminés par l’algorithme des innovations avec gW (i, j).
Remarques -
(i) On peut montrer que si (Xt )t∈Z est inversible alors, quand n → ∞, E(Xn − X
bn −
2
εn ) → 0, θnj → θj , j = 1, . . . , q et rn → 1.
(ii) Le calcul algébrique des θnj et rn est difficile.
Prévision à l’horizon h
On montre, en utilisant les propriétés de Pn , que
 Xn
θ X − Xbn+h−j , 1 ≤ h < m − n

n+h−1,j n+h−j




j=1
Pn Xn+h = p n+h−1
 X X
ϕ P X + θ X − bn+h−j , h ≥ m − n.
X

i n n+h−i n+h−1,j n+h−j



i=1 j=h
(3.5)
Remarques -
(i) Pour n > max(p, q), pour h ≥ 1,
p
X q
X
Pn Xn+h = ϕi Pn Xn+h−i + θn+h−1,j Xn+h−j − X
bn+h−j .
i=1 j=h
(ii) Les relations décrites par (3.5) permettent de calculer facilement Pn Xn+1 , Pn Xn+1 , . . . ,
dès que X
b1 , . . . , X
bn sont obtenus.
Prévision sur le passé infini

On suppose toujours que (Xt )t∈Z est un ARM A(p, q) causal et inversible, suivant la
relation (3.1). On sait alors que
∞
X ∞
X
Xn+h = ψj εn+h−j et εn+h = Xn+h + πj Xn+h−j ,
j=0 j=1
où les ψj et πj sont déterminés de façon unique.

L’application de Pen aux égalités ci-dessus, donne
∞
X ∞
X
Pen Xn+h = ψj εn+h−j et Pen Xn+h = − πj Pen Xn+h−j ,
j=h j=1
d’où l’on déduit l’erreur de prédiction et l’erreur de prédiction quadratique :

h−1
X h−1
X
Xn+h − Pen Xn+h = ψj εn+h−j e (h) = E(Xn+h − Pen Xn+h )2 = σ 2
et σ2
ψj2 .
j=0 j=0
Remarques -
(i) Les prédicteurs ainsi obtenus sont de la forme
∞
X
Pen Xn+h = cj Xn−j .
j=0
(ii) En pratique on ne dispose que de X1 , . . . , Xn , ce qui signifie que Pen Xn+h doit être
tronquée après n termes. Le prédicteur obtenu de cette façon est une approximation
de Pen Xn+h si n → ∞ et cj → 0, j → ∞.
Remarque - On note σ 2 (h) = σ 2 h−1 2

P
j=0 ψj . Si (εt )t∈Z est un bruit blanc gaussien, alors
pour tout h ≥ 1, Xn+h − Pen Xn+h ∼ N (0, σ 2 (h)). On peut ainsi construire un intervalle
de confiance au niveau 1 − α, α ∈ [0, 1] pour Xn+h :

Pn Xn+h − φ1−α/2 σ(h); Pn Xn+h + φ1−α/2 σ(h) ,
où φ1−α/2 est le (1 − α/2)-quantile d’une loi N (0, 1). On suppose bien-sûr σ et les ψj
connus, sinon il faut les remplacer par leurs estimateurs.
3.1.6 Estimation des paramètres d’un ARMA

Nous présentons dans ce paragraphe des méthodes permettant d’estimer les paramètres
ϕ = (ϕ1 , . . . , ϕp )0 , θ = (θ1 , . . . , θq )0 et σ 2 d’un processus (Xt )t∈Z satisfaisant la relation
ARM A(p, q) définie par (3.1). Les entiers p et q sont supposés connus.
Les équations de Yule-Walker

• Cas q = 0 - Considérons le cas d’un processus AR(p) (Xt )t∈Z causal défini par (3.1)
avec θ(z) = 1. On sait que l’on peut écrire
X
j≥0
où ψ(z) = j≥0 ψj z j = 1/ϕ(z). En multipliant chaque membre de (3.1) par Xt−j , j =
P
0, . . . , p en prenant les espérances et en utilisant l’égalité ci-dessus pour évaluer le membre
de droite, on a les équations de Yule-Walker :
Γp ϕ = γp et σ 2 = γX (0) − ϕ0 γp ,
où ϕ = (ϕ1 , . . . , ϕp )0 , γp = (γX (1), . . . , γX (p))0 et Γp = (γX (i − j))1≤i,j≤p .

On note Γ γX (i − j))1≤i,j≤p et γ
b p = (b bp = (b bX (p))0 .
γX (1), . . . , γ
Si γ
bX (0) > 0, Γ
b p est non singulière et en utilisant les équations de Yule-Walker avec
γX (h) remplacée par γbX (h), on a des estimateurs de ϕ et σ 2 donnés par
ϕ
b = (ϕ bp )0 = R
b1 , . . . , ϕ b−1 ρbp , σ
p bX (0)[1 − ρb0p R
bY2 W = γ b−1 ρbp ],
p
où
Γ
bp γ
bp
R
bp = ρX (1), . . . , ρbX (p))0 =
, ρbp = (b .
γ
bX (0) γ
bX (0)
Remarques -
(i) On montre que lorsque n → ∞, ϕ b ∼ N (ϕ, n−1 σ 2 Γ−1
p ).
2 −1
(ii) En remplaçant σ et Γp respectivement par σ 2
bY W et Γ b −1
p , on peut construire des
régions de confiance asymptotiques pour ϕ :
b − ϕ)0 Γ
{ϕ ∈ Rp , (ϕ b −1 (ϕ
p b − ϕ) ≤ n−1 σ
bY2 W χ21−α },
où χ21−α est le (1 − α)-quantile d’une loi du Khi-deux à p degrés de liberté.

• Cas q > 0 - L’estimation de Yule-Walker est basée sur les premières égalités de la
deuxième méthode (vue précédemment) permettant le calcul de la fonction d’autocova-
riance où l’on a remplacé γX (h) par γ bX (h) :
X
bX (k) − ϕ1 γ
γ bX (k − p) = σ 2
bX (k − 1) − · · · − ϕp γ ψj θj+k , 0 ≤ k < m.
j≥0
La méthode du maximum de vraisemblance

Soit (Xt )t∈Z un processus gaussien. Soit Xn = (X1 , · · · , Xn )0 et X
b n = (X bn )0 où
b1 , . . . , X
Xbj = Pj−1 Xj . Soit Γn = E(Xn X0n ) que l’on suppose inversible. La vraisemblance de Xn
est :
1 1 0 −1
L(Γn ) = n√ exp − X Γ X n .
(2π) 2 detΓn 2 n n
On peut éviter le calcul de detΓn et Γ−1 n en utilisant Xj − Xj et vj−1 , j = 1, · · · , n donnés
b
par l’algorithme d’innovation défini au chapitre précédent.
Soit θi,j , j = 1, · · · , i; i = 1, 2, · · · , les coefficients obtenus lorsque l’algorithme d’in-
novation est appliqué à la fonction d’autocovariance gX de (Xt )t∈Z , et soit Cn la matrice
carrée triangulaire inférieure définie par :
 
1 0 0 ··· 0

 θ11 1 0 ··· 0  
Cn = 
 θ22 θ21 1 ··· 0  .
 .. .. .. . . 
 . . . . 0 
θn−1,n−1 θn−1,n−2 θn−1,n−3 · · · 1
On a l’identité
Xn = Cn (Xn − X
b n ).
Les composantes de Xn − X b n sont par définition non corrélées. Ce vecteur a donc une
matrice de covariance diagonale
Dn = diag(v0 , . . . , vn−1 ).
Il s’en suit que

Γn = Cn Dn C0n ,
d’où
detΓn = (detCn )2 detDn = v0 v1 . . . vn−1
et
n b j )2
X (Xj − X
X0n Γ−1
n Xn
b n )0 D−1 (Xn − X
= (Xn − X n
b n) = .
vj−1
j=1
Il vient alors
 
n 2
1 1 X (Xj − X
b )
j 
L(Γn ) = n√ exp − .
(2π) 2 v0 v1 . . . vn−1 2 vj−1
j=1
La vraisemblance de données issues d’un processus ARM A(p, q) gaussien peut se calcu-
ler facilement à partir de l’expression ci-dessus en utilisant les prévisions X
bi+1 et les erreurs
quadratiques correspondantes vi . Ces dernières peuvent s’obtenir à partir du schéma :
( P
n
j=1 θnj (Xn+1−j − Xn+1−j ) 1≤n<m
b
Xbn+1 = Pq
ϕ1 Xn + . . . + ϕp Xn+1−p + j=1 θnj (Xn+1−j − X bn+1−j ), n ≥ m,
et
bn+1 )2 = σ 2 E(Wn+1 − W
E(Xn+1 − X cn+1 )2 = σ 2 rn ,
où (Wt )t∈Z est le processus défini par (3.3), θnj et rn sont déterminés par l’algorithme
d’innovation avec gX remplacée par gW . Ceci nous conduit à définir la vraisemblance d’un
ARMA gaussien :
 
n 2
1 1 X (Xj − Xj ) 
b
L(ϕ, θ, σ 2 ) = n√ exp − 2 .
2
(2πσ ) 2 r0 r1 . . . rn−1 2σ rj−1
j=1
Cette nouvelle expression nous fournit les estimateurs du maximum de vraisemblance des
paramètres :
n b j )2
1 X (Xj − X
b2 = S(ϕ,
σ b θ)
b avec S(ϕ, θ) = ,
n rj−1
j=1
et ϕ
b et θb sont les valeurs qui minimisent
n
1 1X
`(ϕ, θ) = ln S(ϕ, θ) + rj−1 .
n n
j=1
Remarque - On montre que l’estimateur du maximum de vraisemblance βb de β = (ϕ0 , θ0 )0

−1 (β)) où H = (∂`(β)/∂β ∂β : 1 ≤ i, j ≤ p+q).
suit approximativement une loi N (β, 2Hes es i j
Ceci peut permettre la construction de régions de confiance pour les paramètres.
3.1.7 Validation des modèles

La qualité d’un modèle statistique ajusté à des données peut se juger en comparant
les valeurs observées à celles prédites par ce modèle. Si le modèle ajusté est approprié, les
résidus vont se comporter d’une manière cohérente avec ce modèle.
Ainsi, si on ajuste un ARM A(p, q) à une série d’observations, et qu’on note ϕ, b θb et
σ 2
b les estimateurs du maximum de vraisemblance des paramètres ϕ, θ et σ , les valeurs 2
prédites Xbt (ϕ,

b θ)
b de Xt (ϕ, θ) basées sur X1 , . . . , Xt−1 et calculées à partir du modèle ajusté
devront être telles que
εbt = Xt − Xbt (ϕ,
b θ),
b t = 1, . . . , n
se comportent comme des réalisations du bruit blanc (εt )t∈Z , si tant est que le modèle
ARM A considéré est celui ayant généré les données. Pour vérifier cette propriété, on peut
observer le graphe de la série εbt /b
σ , t = 1, . . . , n (il doit se comporter comme celui des
réalisations d’un bruit blanc centré réduit) et/ou appliquer des tests de bruit blanc à
εbt , t = 1, . . . , n.
3.1.8 Choix des ordres p et q

On suppose que la série (Xt ) transformée (en différenciant, en enlevant des composantes
etc) peut être modélisée par un ARM A(p, q) centré. Il reste à choisir les ordres p et q du
modèle.
Des valeurs ”trop” grandes de p et q donnent des modèles ARM A(p, q) avec beau-
coup de paramètres. Ceux-ci sont associés à de grandes erreurs de prévision. Beaucoup de
critères de choix de p et q sont basés sur l’utilisation d’une pénalité sur ces nombres. Dans
ce qui suit, nous décrivons quelques uns des plus courants dans la littérature.
3.2. PROCESSUS ARIMA 37
Le critère FPE - Il est surtout appliqué au choix de l’ordre p d’un AR(p). Son principe
consiste à minimiser l’erreur de prévision quadratique à un pas, lorsque le modèle ajusté à
(Xt ) est utilisé pour prédire une réalisation indépendante (Yt ) du processus ayant généré
(Xt ). La valeur p choisie est celle qui minimise la fonction
n+p
FPE = σ b2 .
n−p
Les critères AIC - Soit X un vecteur aléatoire de dimension n dont la densité de proba-
bilité appartient à la famille {f (·, ψ), ψ ∈ Ψ}. La distance de Kullback-Lieber entre f (·, ψ)
et f (·, δ) est définie par :
Z
f (x, ψ)
d(ψ|δ) = −2ln f (x, δ)dx.
Rn f (x, δ)
On montre facilement que d(ψ|δ) ≥ 0, avec égalité ssi f (·, ψ) = f (·, δ).
Soit X1 , . . . , Xn des observations d’un ARM A(p, q) avec les paramètres inconnus δ =
(β, σ 2 ), où β = (ϕ, θ). Le vrai modèle serait identifié s’il était possible de calculer la
distance de Kullback-Lieber entre tous les modèles candidats et le vrai modèle. Ce travail
n’étant pas possible, on “estime” ces distances, et on choisit le modèle pour lequel cette
distance estimée est la plus petite. Dans un cadre gaussien (c’est-à-dire que le vrai modèle
et les modèles concurrents sont gaussiens), on montre que le modèle qui minimise cette
distance estimée est celui pour lequel les ordres p et q minimisent la statistique d’Akaike
suivante : n o
AIC(ϕ, b = −2ln L[ϕ,
b θ) b θ,
b S(ϕ,
b θ)/n]
b + 2(p + q + 1),
où L est la vraisemblance, (ϕ, b θ)

b est l’estimateur du maximum de vraisemblance de (ϕ, θ)
et S est défini plus haut.
Cependant, AIC a tendance surestimer le nombre de paramètres. Plusieurs critères comme
celui qui suit ont été proposés pour corriger ce défaut. Choisir p et q qui minimisent la
statistique
n o 2(p + q + 1)n
AICC(ϕ, b = −2ln L[ϕ,
b θ) b θ,
b S(ϕ,
b θ)/n]
b + ,
n−p−q−2
où n est la taille de l’échantillon.
Le critère BIC - Un autre critère est le critère BIC : Pour un ARM A(p, q) centré, choisir
p et q qui minimisent
Pn
σ2 √ 2 σ2

nb t=1 Xt − nb
BIC = (n − p − q)ln + n(1 + ln( 2π) + (p + q)ln .
n−p−q p+q
3.2 Processus ARIMA

3.2.1 Définition
Définition 3.6 Soient d, p et q des entiers naturels. Un processus (Xt )t∈Z est un processus
ARIM A(p, d, q) si le processus Yt = (1 − B)d Xt est un ARM A(p, q) causal. Ceci revient
à dire que (Xt )t∈Z a la représentation
ϕ∗ (B)Xt = ϕ(B)(1 − B)d Xt = θ(B)εt , (3.6)
où (εt )t∈Z ∼ BB(0, σ 2 ), ϕ et θ sont des polynômes de degrés respectifs p et q et ϕ a toutes
ses racines de module strictement supérieur à 1.
Remarques -
(i) Le processus (Xt )t∈Z est stationnaire à l’ordre deux ssi d = 0.
(ii) L’équation (3.6) donne les propriétés du second ordre du processus ((1−B)d Xt )t∈Z .
(iii) L’estimation des paramètres est basée sur la série ((1 − B)d Xt )t∈Z .
Exemple - Soit (εt )t∈Z ∼ BB(0, σ 2 ). Le processus (Xt )t∈Z défini par l’équation
1
(1 − B)(1 − B)Xt = εt , t ∈ Z
2
est un processus ARIM A(1, 1, 0).
Remarque - La non-stationnarité dans les ARIMA se traduit par le fait que le polynôme
ϕ∗ a la racine 1 de multiplicité d.
3.2.2 Identification et estimation des paramètres d’un ARIMA

Pour une suite x1 , . . . , xn , si ρ̂x décroı̂t lentement c’est un indice de non-stationnarité
de la suite (elle comporte par exemple une tendance ou elle est intégrée). Pour la ”sta-
tionnariser”, on peut utiliser la méthode par différence finie.
1 - Choix de d - Ce choix est guidé par l’idée suivante : on examine les valeurs ρ̂n (h) ; si
elles décroissent lentement, on différentie la série et on examine les autocorrélations de la
série obtenue. Si celles-ci décroissent lentement on différentie la série différentiée et ainsi
de suite. On s’arrête lorsque les autocorrélations de la série obtenue par différentiations
successives décroissent rapidement vers 0. Le nombre d correspond alors au nombre de
différentiations opérées sur la série initiale.
2 - Choix de p et q et estimation des paramètres - Le choix de p et q et l’estimation
des paramètres se fait comme dans le cas d’un modèle ARM A(p, q), en utilisant la série
“stationnarisée”.
Remarques -
(i) Lorsque le polynôme autorégressif a une racine de module égal à 1 ou proche de 1,
cela suggère de différentier la série.
(ii) Lorsque le polynôme moyenne mobile a une racine de module égal à 1 ou proche
de 1, cela indique que l’on a “sur-différentié” la série.
(iii) On rencontre dans la littérature des tests dits de la racine unité qui permettent
de tester si ces polynômes ont des racines proches de 1 ou égales à 1.
3.3 Processus SARIMA

3.3.1 Définition
Définition 3.7 Soient d, D, p, P, q, Q et S des entiers naturels. Un processus (Xt )t∈Z est
un processus SARIM AS [(p, d, q), (P, D, Q)] de période S si la série (Yt )t≥1 définie par
Yt = (1 − B)d (1 − B S )D Xt est un processus ARMA causal vérifiant la relation
ϕ(B)Φ(B S )Yt = θ(B)Θ(B S )εt , (3.7)
où (εt )t∈Z ∼ BB(0, σ 2 ), ϕ(z) = 1 − ϕ1 z − · · · − ϕp z p , θ(z) = 1 + θ1 z + · · · + θq z q ,

Φ(z) = 1 − Φ1 z − · · · − ΦP z P et Θ(z) = 1 + Θ1 z + · · · + ΘQ z Q .
3.3. PROCESSUS SARIMA 39
Remarques -
(i) Dans les applications, D est en général strictement inférieur à 2 et P et Q inférieurs
à 3.
(ii) La relation (3.7) peut se réécrire
ϕ∗ (B)Yt = θ∗ (B)εt ,
où ϕ∗ et θ∗ sont des polynômes de degrés respectifs p + SP et q + SQ dont les

coefficients peuvent s’exprimer en fonction de ϕ1 , . . . , ϕp , θ1 , . . . , θq , Φ1 , . . . , Φp et
Θ1 , . . . , ΘQ .
(iii) La décomposition Xt = Zt + St + εt vue au chapitre 1 suppose que la composante
saisonnière St se répète de la même façon cycle après cycle, ce qui peut ne pas être
raisonnable. Les modèles SARIMA tiennent compte du fait que cette répétition
peut être aléatoire.
3.3.2 Identification et estimation des paramètres

• La première étape de l’identification consiste à trouver d et D pour lesquels Yt =
(1 − B)d (1 − B S )D Xt est à peu près stationnaire. On regarde ensuite les fonctions d’au-
tocorrélation et d’autocorrélation partielle de (Yt ) aux points multiples de S, pour avoir
une indication des ordres P et Q dans (3.7). Ces deux entiers doivent être choisis tels
que les ρ̂y (kS), k = 1, 2, . . . soient compatibles avec l’autocorrélation d’un processus
ARM A(P, Q). Les entiers p et q sont choisis tels que les ρ̂y (1), . . . , ρ̂y (S − 1) soient com-
patibles avec l’autocorrélation d’un processus ARM A(p, q). On peut appliquer le critère
d’Akaike pour choisir le modèle adéquat parmi les modèles potentiels.
• Pour p, d, q, P, D, Q donnés, les paramètres ϕ = (ϕ1 , . . . , ϕp ), θ = (θ1 , . . . , θq ), Φ =
(Φ1 , . . . , ΦP ), Θ = (Θ1 , . . . , ΘQ ) et σ 2 peuvent être estimés par la méthode du maximum
de vraisemblance comme dans le cas d’un ARMA.
Remarque - La phase d’identification d’un processus SARIMA peut nécessiter une trans-
formation préliminaire de la série à modéliser. En effet, l’opérateur ∇d = (1−B)d ne permet
pas toujours de stationnariser une série. C’est le cas par exemple pour les séries ayant une
tendance exponentielle (dont l’espérance est une fonction exponentielle de t). Pour une
telle série (Xt )t∈Z à termes positifs, on peut prendre le logarithme ou plus généralement
la transformation de Box-Cox :

 Xtλ − 1
si λ 6= 0
 ln(X λ
t ) si λ = 0.
Le nombre réel λ est souvent choisi dans ]0, 1.5].

Bibliographie
1. Gouriéroux C. et Monfort A. (1995). Séries temporelles et modèles dynamiques.

Economica.
2. Brockwell P. J. et Davis R. A. (1990). Time series : Theory and Methods. Springer-
Verlag.
3. Brockwell P. J. et Davis R. A. (1996). An introduction to time series and forecasting.
Springer.
41

Seri Chro PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Seri Chro PDF

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

2 Prévision des séries chronologiques 15

3 Processus ARMA et quelques généralisations 25

1.1 Notion de série chronologique

1.1.1 Définitions et exemples

Domaines d’application et exemples

7000 8000 9000 10000 11000

Lynx data UKDriverDeaths

1.1.2 Modélisation d’une série chronologique

En général, les deux étapes précédentes conduisent à postuler un ou plusieurs modèles

Xt = f (. . . , εt−1 , εt , εt+1 , . . .), t ∈ Z, (1.2)

Xt = f (Xt−1 , Xt−2 , . . . , εt ), t ∈ Z, (1.3)

1.2 Introduction aux processus stationnaires

Définition 1.5 Soit (Xt )t∈T un processus du second ordre.

Définition 1.7 Pour tout processus faiblement stationnaire (Xt )t∈T ,

L(Xt1 , . . . , Xtk ) = L(Xt1 +h , . . . , Xtk +h ), k ∈ N, t1 , . . . , tk ∈ T.

0.0 0.2 0.4 0.6 0.8 1.0

0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0 0.2 0.4 0.6 0.8 1.0

0 10 20 30 40 0.0 0.5 1.0 1.5 2.0 2.5 3.0

est un processus stationnaire appelé moyenne mobile d’ordre 1 et noté M A(1).

1.2.2 Moyenne et autocorrélation empiriques

(iii) La fonction d’autocorrélation empirique des X1 , . . . , Xn est

Remarque - Pour une suite d’observations x1 , . . . , xn , réalisations des X1 , . . . , Xn , µ

1.3 Estimation et élimination de la tendance et de la sai-

1.3.1 La méthode des moindres carrés

Définition 1.10 On appelle

1.3.2 La méthode des moyennes mobiles

Définition 1.12 On appelle moyenne mobile tout opérateur M de la forme

où m1 , m2 ∈ N, θ−m1 , . . . , θm2 ∈ R. L’ordre de la moyenne mobile est m1 + m2 + 1. La

• Une bonne moyenne mobile doit conserver la tendance et annuler la saisonnalité, ou

Première étape. On estime une première fois la tendance :

Deuxième étape. On estime la composante saisonnière :

Troisième étape. On estime une deuxième fois la tendance :

1.3.3 Le programme Census X-11

1.3.4 Méthode par différenciation

(i) ∇Xt = Xt − Xt−1 , t ∈ Z.

1.4 Test des résidus

qui suit approximativement une loi du Khi-deux à h degrés de liberté. Au niveau α on

(i) Ljung et Box (1978) - Ce test est basé sur la statistique

3 - Le test de McLeod et Li (1983)

5 - Les tests de normalité :

où mr = nj=1 (Yi − Y )r et Y = nj=1 Yi /n. La statistique JB suit asymptotiquement une

Prévision des séries chronologiques

2.1 Méthodes générales

bn+1 = Xn−k+1 + Xn−k+2 + . . . + Xn ; X

2.1.2 Méthodes par lissage exponentiel

1 - Lissage exponentiel simple

2 - Lissage exponentiel double

2.1.3 La méthode de Holt-Winters

1 - La méthode non saisonnière

initialisé comme dans le cas précédent.

2 - La méthode saisonnière additive

2.1.4 La méthode par décomposition

2.2 Prévision des séries stationnaires

Proposition 2.1 Soit (Xt )t∈Z stationnaire à l’ordre deux.

Preuve. (i) γX (0) = V ar(X1 ) ≥ 0.

2.2.2 Processus linéaires

Définition 2.3 Un processus (Xt )t∈Z est dit linéaire si il a la représentation

Définition 2.4 Un processus

où (εt )t∈Z ∼ BB(0, σ 2 ).

est stationnaire centré, de fonction d’autocovariance

Preuve. La condition j |ψj | < ∞ implique que Xt converge au sens L1 et L2 . C’est-à-