Académique Documents
Professionnel Documents
Culture Documents
1 Introduction 3
1.1 Notion de série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Modélisation d’une série chronologique . . . . . . . . . . . . . . . . . 5
1.2 Introduction aux processus stationnaires . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Moyenne et autocorrélation empiriques . . . . . . . . . . . . . . . . . 8
1.3 Estimation et élimination de la tendance et de la saisonnalité . . . . . . . . 9
1.3.1 La méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . 9
1.3.2 La méthode des moyennes mobiles . . . . . . . . . . . . . . . . . . . 10
1.3.3 Le programme Census X-11 . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Méthode par différenciation . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Test des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Identification et estimation des paramètres d’un ARIMA . . . . . . . 38
3.3 Processus SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Identification et estimation des paramètres . . . . . . . . . . . . . . 39
Chapitre 1
Introduction
Définition 1.2 Construire un modèle de séries chronologiques pour des valeurs observées
(xt )t∈T c’est préciser les lois jointes d’une suite de v.a.r (Xt )t∈T dont (xt )t∈T est supposée
être une réalisation.
Une telle suite (Xt )t∈T est appelée processus stochastique. Il est à temps discret si T
est dénombrable, et à temps continu si T est un intervalle de R.
3
4 CHAPITRE 1. INTRODUCTION
LakeHuron USAccDeaths
576 577 578 579 580 581 582
1880 1900 1920 1940 1960 1973 1974 1975 1976 1977 1978 1979
Time Time
2500
5000
UKDriverDeaths
2000
lynx
3000
1500
0 1000
1000
1820 1840 1860 1880 1900 1920 1970 1975 1980 1985
Time Time
Figure 1.1 – Quelques exemples de séries chronologiques réelles : niveau du lac Huron
(USA), nombre de morts accidentelles (USA), nombre de lynx tués au Canada, nombre
de décès dans les accidents de la route (Royaume Uni).
Dans ce cours, nous ne nous intéressons qu’aux processus à temps discret. Nous confon-
drons souvent les suites (xt )t∈T et (Xt )t∈T .
Exemple - Soit X1 , X2 , . . . , une suite de v.a.r. indépendantes telles que P (Xt = 1) =
P (Xt = −1) = 1/2, ∀t. Soit (Mt )t≥0 la suite de v.a.r. définie par
M0 = 0 et Mt = X1 + . . . + Xt , ∀t ≥ 1.
La suite (Mt )t≥0 est un processus appelé marche aléatoire symétrique. On peut remarquer
que Mt = Mt−1 + Xt et Xt = Mt − Mt−1 .
Remarque - Un modèle de séries chronologiques pour une suite de v.a.r. X1 , X2 , . . . , doit
pouvoir permettre la spécification des probabilités
P (X1 ≤ x1 , . . . , Xn ≤ xn ), x1 , . . . , xn ∈ R, n = 1, 2, . . . .
Mais cette spécification est souvent associée à un grand nombre de paramètres (plus grand
que la taille des données). C’est pourquoi on se borne souvent à étudier les propriétés dites
du second ordre, c’est-à-dire celles liées à E(Xt ) et E(Xt Xt+h ). Ces propriétés caractérisent
la loi du processus (Xt ) si celui-ci est gaussien.
1.1. NOTION DE SÉRIE CHRONOLOGIQUE 5
Xt = f (t, εt ), t ∈ Z, (1.1)
où (εt )t∈Z est une suite de v.a.r. centrées représentant les variations de la série dues
au hasard, f une fonction indexée par un nombre fini de paramètres inconnus. Lorsque
f (t, εt ) = g(t) + εt on dit que l’ajustement est additif. Lorsque f (t, εt ) = g(t)εt on dit qu’il
est multiplicatif.
• Les modèles de filtrage :
où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles moyennes
mobiles (MA) qui seront vus au chapitre suivant.
• Les modèles autoprojectifs :
où (εt )t∈Z est comme ci-dessus. Cette classe de modèles contient les modèles autorégressifs
(AR) qui seront vus au chapitre suivant.
• Les modèles explicatifs :
Xt = f (Yt , εt ), t ∈ Z, (1.4)
6 CHAPITRE 1. INTRODUCTION
où (εt )t∈Z est comme ci-dessus et Yt est un vecteur de variables observables que l’on
suppose souvent indépendant de εt . Si Yt ne contient pas les valeurs passées de Xt on
parle de modèle explicatif statique. Si les εt sont autocorrélées ou si Yt contient les valeurs
passées de Xt on parle de modèle explicatif dynamique.
Remarque - (εt ) est une de v.a.r. qui, suivant les cas, peut réfléter des variations aléatoires
du phénomène observé autour de sa tendance et de ses évolutions saisonnières, ou réfléter
les variations de l’erreur de mesure sur les observations.
Exemples - On suppose (εt )t∈Z une suite de v.a.r. centrées de variance finie et a, b ∈ R.
(i) Xt = a + bt + εt t ∈ Z.
(ii) Xt = aXt−1 + εt , t ∈ Z.
(iii) Xt = a + b cos πt + εt , t ∈ Z.
(iv) Xt = aε2t−1 + bεt−1 + εt , t ∈ Z.
Exemple - Toute suite de v.a.r. iid centrées de variance finie σ 2 est un BB(0, σ 2 ).
Définition 1.4 Un processus (Xt )t∈T est dit du second ordre ou à l’ordre 2 si Xt ∈
L2 , ∀t ∈ T ou encore si E(Xt2 ) < ∞, ∀t ∈ T .
Définition 1.6 Un processus (Xt )t∈T est faiblement stationnaire ou stationnaire à l’ordre
2 ou stationnaire au sens faible si :
(i) il est du second ordre ;
(ii) ∀t ∈ T , µX (t) = µX indépendante de t ;
(iii) ∀h, t ∈ T , γ
eX (t + h, t) = γX (h) indépendante de t.
Définition 1.8 Un processus (Xt )t∈T est dit stationnaire au sens strict (ou fort) ssi
ACF ACF
−0.2 0.0 0.2 0.4 0.6 0.8 1.0
ACF
−0.4
Lag Lag
ACF ACF
1.0
ACF
0.0
−0.5
Lag Lag
Figure 1.2 – Fonctions d’autocorrélation des séries niveau du lac Huron, nombre de morts
accidentelles, nombre de lynx tués au Canada, nombre de décès dans les accidents de la
route
8 CHAPITRE 1. INTRODUCTION
Remarque - Tout processus du second ordre stationnaire au sens strict est stationnaire
à l’ordre 2.
Exemples et contre-exemple
(i) Toute suite de v.a.r. iid est stationnaire au sens strict et à l’ordre 2 (s’il est du
second ordre).
(ii) Tout bruit blanc est un processus stationnaire à l’ordre 2.
En effet : soit (εt )t∈Z ∼ BB(0, σ 2 ). On sait par définition que E(εt ) = 0; E(ε2t ) =
σ 2 ; Cov(εt+h , εt ) = 0, h 6= 0.
(iii) Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R. Le processus (Xt )t∈Z défini par
Xt = εt + θεt−1 , t ∈ Z,
(1 + θ2 )σ 2 , h = 0
Cov(Xt+h , Xt ) = θσ 2 , h = ±1
0 ailleurs.
(iv) La marche aléatoire définie plus haut n’est pas un processus stationnaire.
En effet, de calculs simples montrent que Cov(Mt+h , Mt ) = t.
γ
bX (h)
ρbX (h) = , −n < h < n.
γ
bX (0)
où les bi et cj sont des paramètres réels inconnus et les Zti et Stj sont des fonctions connues
du temps. Les paramètres bi et cj sont estimés par la méthode des moindres carrés, en
minimisant en (b1 , . . . , bk , c1 , . . . , c` ) la fonction
2
n k `
cj Stj .
X X X
Xt − bi Zti −
t=1 i=1 j=1
Soient bbi et b
cj les estimateurs obtenus. Les composantes Zt et St sont estimées respecti-
vement par
k `
cj Stj .
X X
Zbt = bbi Z i et Sbt =
t b
i=1 j=1
Remarque - Les résidus εbt = Xt − Z bt − Sbt doivent se comporter comme des réalisations
des εt . Donc la suite (b
εt )t∈Z doit se comporter comme la réalisation d’une série ayant “à
peu près” les mêmes propriétés que (εt )t∈Z .
Remarque - La méthode des moindres carrés a l’inconvénient de ne pas prendre en compte
les changements de régime. Aussi, la mise à jour des estimateurs est difficile. Car il n’est
pas facile en général, d’établir un lien entre les estimateurs des paramètres obtenus avec
un échantillon de taille n + 1 et ceux obtenus avec un échantillon de taille n.
10 CHAPITRE 1. INTRODUCTION
Définition 1.11 Soit un processus (Xt )t∈Z . L’opérateur “retard” souvent noté B, est
défini pour tout entier k par : ∀t ∈ Z, B k Xt = Xt−k .
Remarque - Pour n assez grand, les autocorrélations empiriques d’une suite iid Y1 , . . . , Yn
de variance finie sont approximativement iid de loi N (0, 1/n). Ce qui permet la construc-
tion d’intervalles de confiance ou la construction de tests pour les ρY (h).
1 - La fonction d’autocorrélation empirique
Pour y1 , . . . , yn , si on calcule ρby (h), h = 1, . . . , 40 et s’il y a plus de trois valeurs hors
de l’intervalle de confiance [−1.96n−1/2 ; 1.96n−1/2 ], ou si l’une des ces valeurs est signifi-
cativement à l’extérieur de cet intervalle, on rejette l’hypothèse iid des v.a.r. Y1 , . . . , Yn ,
dont les y1 , . . . , yn sont supposées être des réalisations.
2 - Le test du portmanteau
(i) Box et Pierce (1970) - Ce test est basé sur la statistique
h
X
QBP = n ρb2X (j)
j=1
dont la loi est mieux approximée par une loi du Khi-deux à h degrés de liberté. Ce test
fonctionne de la même manière que le précédent.
1.4. TEST DES RÉSIDUS 13
4 - Le nuage de points
On représente les points (xt−1 , xt ), t = 2, . . . , n. Une forme plus ou moins circulaire
du nuage de points est indicatrice de l’indépendance des X1 , . . . , Xn .
E[Y(j) ] = µ + mj σ, mj = E[X(j) ].
Le graphe des points (m1 , Y(1) ), . . . , (mn , Y(n) ) connu sous le nom de qqplot doit être ap-
proximativement linéaire. Si les Yi ne sont pas gaussiennes, ce graphique doit être non-
linéaire. En pratique mi est souvent remplacée par Φ−1 [(i − .5)/n] où Φ est la fonction de
répartition de la loi normale centrée réduite.
(ii) - Le test de Jarque-Bera : Il est basé sur la statistique
2
m4
m2 m32
−3
JB = n 33 + ,
6m2 24
loi du χ2 (2) si les Yi ∼ N (µ, σ 2 ). Cette hypothèse est rejetée si JB est significativement
grande.
14 CHAPITRE 1. INTRODUCTION
Chapitre 2
L’un des objectifs de l’analyse des séries chronologiques est la prévision : étant donné
des observations X1 , . . . , Xn , on souhaite estimer ou prévoir à l’horizon h une valeur fu-
ture Xn+h . Cette prévision peut être ponctuelle ou ensembliste. Nous résumons dans ce
chapitre quelques unes des méthodes courantes de prévision ponctuelle. L’hypothèse de
stationnarité est clé, car d’une manière générale, pour prédire, au moins une propriété
d’invariance avec le temps est nécessaire.
Définition 2.1 La méthode du lissage exponentiel simple avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :
n−1
X
bn+h = (1 − β)
X β j Xn−j .
j=0
•X bn+h peut s’interpréter comme la constante qui ajuste le mieux la série au voisinage de
n. Il est obtenu en minimisant en µ la fonction 2j=0 β j (Xn−j − µ)2 .
P
• Si β est proche de 0, la prévision est plus sensible aux valeurs récentes de la série
et répercute toutes le fluctuations récentes. On dit que la prévision est souple. Si β est
proche de 1, la prévision prend en compte toutes les observations et est peu sensible aux
fluctuations. On dit qu’elle est rigide.
15
16 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES
• Le choix de β est subjectif. On le choisit souvent dans [0.05, 0.3]. Une méthode plus
rigoureuse consiste à choisir sa valeur qui minimise l’erreur de prévision.
• Le lissage exponentiel simple est adapté lorsque la série a une moyenne approximative-
ment constante au voisinage de n. Méthode utilisée lorsque la série ne présente ni tendance,
ni saisonnalité.
Définition 2.2 La méthode du lissage exponentiel double avec la constante (ou paramètre)
de lissage β ∈]0, 1[ donne la prévision de Xn+h suivante :
X
bn+h = b
a1 (n) + hb
a2 (n),
où
a1 (n) = 2C1 (n) − C2 (n),
b
1−β
a2 (n) =
b [C1 (n) − C2 (n)],
β
avec
t−1
X
C (t) = (1 − β) β j Xt−j ,
1
j=0
t−1
X
C (t) = (1 − β) β j C1 (t − j).
2
j=0
• Pour calculer cette quantité, les valeurs initiales généralement atribuées aux suites b
a2 (n)
a2 (n) sont respectivement X2 et X2 − X1 .
et b
Cette méthode est adaptée lorsque la série peut être approximée par une droite au voisinage
de n : Xt = a1 + a2 (t − n).
•Xbn+h peut s’interpréter comme la droite qui approxime le mieux la série au voisinage
de n. Les suites b
a2 (n) et b
a2 (n) sont en fait les solutions du problème de minimisation
n−1
X
min β j [Xn−j − a1 − a2 j]2 .
a1 ,a2
j=0
• La méthode du lissage exponentiel généralisé ne sera pas abordée dans ce cours. Une
présentation de cette méthode est donnée dans Gouriéroux et Monfort (1995).
Cette méthode est plus flexible car elle fait intervenir deux constantes au lieu d’une.
Cependant on a à choisir, soit par des méthodes subjectives, soit en minimisant l’erreur
de prévision, deux constantes au lieu d’une seule. On a toujours
X
bn+h = b
a1 (n) + hb
a2 (n)
où
a1 (n) = (1 − α)(Xn − Sbn−d ) + α[b
b a1 (n − 1) + b a2 (n − 1)], α ∈]0, 1[,
a2 (n) = (1 − γ)[b
b a1 (n) − ba1 (n − 1)] + γb a2 (n − 1), γ ∈]0, 1[,
Sn = (1 − δ)[Xn − b a1 (n)] + δ Sbn−d , δ ∈]0, 1[.
b
• Le principal problème dans cette méthode est celui du choix des constantes α, γ et δ.
• L’initialisation des suites b
a1 (n), b
a2 (n) et Sbn dépend de la période d. Pour d = 4, des
valeurs initiales sont proposées dans Gouriéroux et Monfort (1995).
• La méthode saisonnière multiplicative repose sur l’idée que la série peut être approximée
par [a1 + (t − n)a2 ]St au voisinage de n. On peut alors utiliser la méthode précédente en
prenant le logarithme de cette expression.
X
bn+h = Z
bn+h + Sbn+h ,
où Zbt et Sbt sont les estimateurs de Zt et St . Lorsque (εt )t∈Z n’est plus un bruit blanc, mais
un processus stationnaire, la prévision devient
X
bn+h = Z
bn+h + Sbn+h + εbn+h ,
où εbn+h est la prévision de εn+h construite à l’aide (ε̃t )nt=1 , avec ε̃t = X
bt − Zbt − Sbt en
utilisant par exemple les méthodes qui seront exposées dans le paragraphe suivant ou
celles présentées dans les prochains chapitres.
18 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES
γX (h)
γX (h) = Cov(Xt+h , Xt ), ρX (h) = , h ∈ Z.
γX (0)
Théorème 2.1 Toute fonction réelle définie sur Z est la fonction d’autocovariance d’un
processus stationnaire si et seulement si elle est paire et est de type positif.
Remarque - Pour vérifier qu’une fonction est de type positif, il est souvent plus simple
de trouver un processus stationnaire ayant cette fonction pour fonction d’autocovariance,
plutôt que de chercher à vérifier la propriété (ii) de la proposition précédente.
Exemple - La fonction γ(h) = cos(ωh) est de type positif. En effet, c’est la fonction
d’autocovariance du processus Xt = A cos(ωt) + B sin(ωt) où A et B sont deux v.a.r.
non-corrélées et centrées réduites.
où (εt )t∈Z ∼ BB(0, σ 2 ) et la suite (ψj )j∈Z est telle que
P
j∈Z |ψj | < ∞.
2.2. PRÉVISION DES SÉRIES STATIONNAIRES 19
Proposition 2.2 Soit (Yt )t∈Z un processus stationnaire centréP de fonction d’autocova-
riance γY . Si (ψj )j∈Z est une suite de nombres réels vérifiant j∈Z |ψj | < ∞, alors le
processus X
Xt = ψj Yt−j , t ∈ Z
j∈Z
convergent au sens L1 et L2 (il suffit de montrer par exemple qu’elles sont de Cauchy).
Donc
XX
E(Xt2 ) ≤ |ψj ||ψk |E(|Yt−j ||Yt−k |)
j k
X 2
≤ |ψj | γY (0) < ∞.
j
X XX
Ensuite, E(Xt ) = ψj E(Y0 ) et E(Xt+h Xt ) = ψj ψk γY (h + k − j).
j j∈Z k∈Z
Remarque - Pour plusieurs processus, en particulier pour les Pprocessus linéaires (Xt )t∈Z ,
on montre que µ bX suit approximativement une N (µX , n−1 |h|<∞ γX (h)) et que le vec-
teur ρbX = (b ρX (1), . . . , ρbX (h))0 suit approximativement une loi N (ρX , n−1 W ), où ρX =
(ρX (1), . . . , ρX (h))0 et W la matrice dont l’élément (p, q) est donné par la formule de
Bartlett suivante :
∞
X
wpq = [ρX (l + p) + ρX (l − p) − 2ρX (p)ρX (l)] [ρX (l + q) + ρX (l − q) − 2ρX (q)ρX (l)] .
l=1
Nous nous intéressons ici à la prédiction des valeurs Xn+h , h > 0, basée sur les observa-
tions X1 , X2 , . . . , Xn . Il s’agit de trouver la combinaison linéaire des 1, X1 , X2 , . . . , Xn qui
prédit Xn+h avec l’erreur quadratique minimale. Ce prédicteur que nous notons Pn Xn+h
a la forme
Pn Xn+h = a0 + a1 Xn + · · · + an X1 ,
où les a0 , a1 , . . . , an sont les valeurs qui minimisent E(Xn+h − a0 − a1 Xn − · · · − an X1 )2 .
La solution de ce problème d’optimisation est donnée par
n
!
X
a0 = µX 1 − ai , Γn An = γn ,
i=1
6. P (U |W ) = E(U ) si Cov(U, W ) = 0.
7. P (U |W ) = P [P (U |W, V )|W ], si V est un vecteur aléatoire tel que les composantes
de E(V V 0 ) soient finies.
Remarques : (i) - P (Y |W ) peut être vue comme la projection orthogonale de Y sur le
sous-espace vectoriel engendré par 1, W1 , W2 , . . . , Wn (au sens du produit scalaire E(XY )).
(ii) Pn défini plus haut est un opérateur de prédiction avec W = (Xn , Xn−1 , . . . , X1 ).
Xt = φXt−1 + εt , t ∈ Z, (‡)
Il est ensuite facile de voir que pour h > 0, E(Xt−h εt ) = 0, et donc on a la relation
1 φ2
φ
ΓA = γ ⇐⇒ A= .
φ2 1 φ
D’où
1 φ φ
A= et P (X2 |W ) = (X1 + X3 ),
1 + φ2 φ 1 + φ2
avec
φσ 2
!
σ2 1−φ2 σ2
2
− A0
E (X2 − P (X2 |W )) = φσ 2 = .
1 − φ2 1−φ2
1 + φ2
22 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES
Remarque - On a Pn Xn+h = µX +Pn (Xn+h −µX ). Ceci signifie que le meilleur prédicteur
linéaire de Xn+h peut être obtenu en ajoutant µX au meilleur prédicteur linéaire de Xn+h −
µX .
Avec la remarque ci-dessus, nous supposons (Xt )t∈Z centré.
On peut facilement voir que si Γn est non singulière (une condition suffisante que les
matrices Γ1 , Γ2 , . . . , soient non singulières est que γX (0) > 0 et que γX (h) → 0, h → ∞)
alors,
Pn Xn+1 = φ0n Xn = φn1 Xn + · · · + φnn X1 ,
où φn = (φn1 , φn2 , . . . , φnn )0 = Γ−1 2 0
n γn , vn = E(Xn+1 − Pn Xn+1 ) = γX (0) − φn γn , et γn le
vecteur défini plus haut, avec h = 1.
Remarque - Une fois Xn+1 prédite (par X bn+1 = Pn Xn+1 ) on peut reprendre l’algorithme
avec X1 , X2 , . . . , Xn , X
bn+1 pour prédire Xn+2 . On peut réitérer ce procédé autant que
nécessaire pour prédire Xn+h .
Définition 2.6 La fonction d’autocorrélation partielle de (Xt )t∈Z est définie par
1, h = 0
τX (h) =
φhh , h ≥ 1.
où les coefficients θnj , j ≤ n dépendent de manière non triviale des aj solutions de Γn An =
γn , où An = (a1 , . . . , an )0 , Γn = (γX (i − j))1≤i,j≤n , γn = (γX (1), . . . , γX (n)).
L’algorithme des innovations décrit ci-dessous qui permet le calcul récursif des coefficients
θnj .
v0 = gX (1, 1) h
i
θn,n−k = vk−1 gX (n + 1, k + 1) − k−1
P
j=0 θ k,k−j θ n,n−j v j , 0 ≤ k ≤ n − 1,
Pn−1 2
vn = gX (n + 1, n + 1) − j=0 θn,n−j vj .
Example - Soit (εt )t∈Z ∼ BB(0, σ 2 ) et θ ∈ R et le processus (Xt )t∈Z défini par
Xt = εt + θεt−1 , t ∈ Z.
On se souvient que
(1 + θ2 )σ 2 , i = j
gX (i, j) = θσ 2 , j =i+1
0, |i − j| > 1.
où Pem,n Xn+h est le meilleur prédicteur linéaire de Xn+h en fonction de 1, Xm , . . . , X−1 ,
X0 , X1 , . . . , Xn calculé de la même manière que Pn Xn+h .
24 CHAPITRE 2. PRÉVISION DES SÉRIES CHRONOLOGIQUES
Théorème 2.2 Soit (Xt )t∈Z un processus non-singulier, stationnaire au second ordre.
Alors, X
Xt = cj εt−j + Vt , t ∈ Z,
j≥0
où
(i) (ci )i≥0 est telle que c0 = 1, i≥0 c2i < ∞ ;
P
Preuve. Les suites (εt )t∈Z , (ci )i≥0 et (Vt )t∈Z sont uniques et s’écrivent explicitement :
E(Xt εt−j ) X
εt = Xt − Pet−1 Xt , cj = , V t = Xt − cj εt−j .
E(ε2t ) j≥0
P (B) = p0 + p1 B + p2 B 2 + . . . + pq B q ,
Preuve - Pour les cas i et ii, on vérifie facilement que P (B)S(B) = S(B)P (B) = 1.
Pour le dernier cas, il est facile de voir que l’opérateur n’est pas injectif. En effet, appliqué
à deux processus constants, (Xt ) et (Yt ) tels que Xt = a et Yt = b, ∀t ∈ Z, on a P (B)Xt =
P (B)Yt = 0.
Remarque - Pour inverser un polynôme P (B) de degré q (qui a q racines complexes
non nécessairement distinctes), la décomposition en éléments simples de 1/P permet de
conclure à partir de la proposition 3.1 ci-dessus que :
1. Si toutes les racines
P de P sont de module différent de 1, il existe une série en B de
la forme S(B) = j∈Z αj B j telle que S(B)P (B) = P (B)S(B) = 1.
2. Si toutes les racines
P de P sont de module supérieur à 1, il existe une série en B de
j
la forme S(B) = j∈≥0 αj B telle que S(B)P (B) = P (B)S(B) = 1.
3. Si toutes les racines
P de P sont de module inférieur à 1, il existe une série en B de
la forme S(B) = j∈<0 αj B j telle que S(B)P (B) = P (B)S(B) = 1.
4. Si au moins une racine de P est de module égal à 1, P (B) n’est pas inversible.
Remarque - Lorsqu’un polynôme P (B) est inversible, son inverse S(B) peut se calculer
par identification (P (z)S(z) = 1), par une décomposition en éléments simples, par la
division du polynôme 1 en les puissances décroissantes de P (z).
Remarques -
(i) On écrit souvent (3.1) sous la forme ϕ(B)Xt = θ(B)εt , t ∈ Z, où B est l’opérateur
retard défini au chapitre précédent.
(ii) Un processus (Xt )t∈Z est un ARM A(p, q) de moyenne µX ssi (Xt − µX )t∈Z est
ARM A(p, q) au sens de (3.1).
Proposition 3.2 L’équation (3.1) admet une unique solution stationnaire ssi les racines
de ϕ sont toutes de module différent de 1.
AR(1)
−1 0 1 2 3
xx
−3
Time
MA(1)
−1 0 1 2 3
xx
−3
Time
Définition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est dit causal P ou fonction causale de
(εt )t∈Z si il existe une suite de nombres réels (ψj )j≥0 telle que j≥0 |ψj | < ∞ et
X
Xt = ψj εt−j , t ∈ Z.
j≥0
Proposition 3.3 Un processus ARM A(p, q) (Xt )t∈Z est causal ssi les racines de ϕ sont
toutes de module strictement supérieur à 1.
Définition 3.4 Un processus ARM PA(p, q) (Xt )t∈Z est dit inversible s’il existe une suite
de nombres réels (πj )j≥0 telle que j≥0 |πj | < ∞ et
X
εt = πj Xt−j , t ∈ Z.
j≥0
Proposition 3.4 Un processus ARM A(p, q) (Xt )t∈Z est inversible ssi les racines de θ
sont toutes de module strictement supérieur à 1.
où j≥0 ψj z j = θ(z)/ϕ(z), |z| < 1. Les ψj , j ≥ 0 peuvent être calculés en utilisant la
P
division des polynômes et/ou les séries entières.
La fonction d’autocorrélation γX de (Xt )t∈Z peut se calculer par l’une des méthodes
suivantes :
3.1. LES PROCESSUS ARMA 29
γX (k) − ϕ1 γX (k − 1) − · · · − ϕp γX (k − p) = 0, k ≥ m,
où l’on a posé m = max(p, q + 1). Les équations définies pour k ≥ m sont des équations
aux différences finies, homogènes, à coefficients constants dont les méthodes de résolution
sont bien connues. Les solutions de ces équations qui seront aussi celles des m premières
équations du système ci-dessus, sont les solutions du système.
Xt − ϕXt−1 = εt + θεt−1 ,
où (εt )t∈Z ∼ BB(0, σ 2 ) et |ϕ| < 1. Étant donné que |ϕ| < 1, on a
X
Xt = εt + ϕj−1 (θ + ϕ)εt−j .
j≥1
γX (h) = ϕh−1
h−1
γX (1), h ≥2 2
γX (h) = ϕγX (h − 1) = ϕ γX (1), h ≥ 2 (θ + ϕ)
γX (0) = σ 2 1 +
2 2
γ (0) = ϕγX (1) + σ (1 + θϕ + θ ) ⇐⇒ 1 − ϕ2
X 2 (θ + ϕ)2
γX (1) = ϕγX (0) + σ θ.
2
γX (1) = σ θ + ϕ + ϕ .
1 − ϕ2
Exemple - On considère un processus M A(q) (Xt )t∈Z vérifiant (3.1) avec ϕ(z) = 1. Alors,
en utilisant la première méthode, on a :
q−|h|
2 X
σ θj θj+|h| , |h| ≤ q
γX (h) =
j=0
0, |h| > q.
0.6
0.0 0.2 0.4 0.6 0.8 1.0
0.4
Partial ACF
ACF
0.2
0.0
−0.2
0 10 20 30 40 0 10 20 30 40
Lag Lag
0 10 20 30 40 0 10 20 30 40
Lag Lag
pratique, lorsque pour une suite d’observations x1 , . . . , xn , ρbx (h) est petit pour |h| > q,
on modélise ces observations par un M A(q). On considèrera que ρbx (h) est petit si il est
√ √
compris dans l’intervalle [−1.96/ n; 1.96/ n].
Remarque - Pour tout processus stationnaire dont la fonction d’autocorrélation tend vers
0 à l’infini, et pour tout entier k > 0, on peut trouver un processus ARMA dont la fonction
d’autocorrélation est égale à celle de ce processus jusqu’à l’ordre k.
Remarque (?) - τX (h) est le coefficient de Xt−h dans la régression de Xt sur Xt−1 , . . . , Xt−h .
3.1. LES PROCESSUS ARMA 31
Remarque - τbX (h) est définie en remplaçant γX (h) dans l’expression de τX (h) par γ
bX (h).
Xt = εt + θεt−1 ,
Exemple - Soit un processus AR(p) vérifiant l’équation (3.1) avec θ(z) = 1. On a par la
remarque (?) que τX (h) = 0 pour h > p et τX (h) = ϕp 6= 0 pour h = p.
Remarque importante - Une propriété caractéristique des processus AR(p) est que
τX (h) = 0 pour h > p. En pratique, lorsque τbx (h) est petit pour h > p, on modélise
x1 , . . . , xn par un AR(p). On admettra que τbx (h) est petit si il est dans l’intervalle
√ √
[−1.96/ n; 1.96/ n].
Prévision à l’horizon 1
On rappelle que B est l’opérateur retard. On note m = max(p, q) et considère la
transformation
1 Xt , t = 1, . . . , m
Wt = σ (3.3)
1
ϕ(B)Xt , t > m.
σ
On a
1
γX (i − j), 1 ≤ i, j ≤ m
σ2 "
p
#
1 X
2 γX (i − j) − ϕ` γX (` − |i − j|) , min(i, j) ≤ m < max(i, j) ≤ 2m
gW (i, j) = E(Wi Wj ) = σ
`=1
q
X
θ` θ`+|i−j| , min(i, j) > m
`=0
0 ailleurs.
32 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS
Remarques -
• Puisque gW (i, j) = 0 si i > m et |i − j| > q, on a θnj = 0 si n ≥ m et j > q.
• Xn peut s’écrire comme combinaison linéaire des Wj , 1 ≤ j ≤ n. De même, Wn peut
s’exprimer comme combinaison linéaire des Xj , 1 ≤ j ≤ n.
On a par définition, W
cn+1 = Pn Wn+1 et X bn+1 = Pn Xn+1 . Par la linéarité de Pn−1 on a :
1X
bn , n = 1, · · · , m
W
cn = σ
1 b
[X n − ϕ1 Xn−1 − · · · − ϕp Xn−p ], n > m.
σ
D’où
Xn − X bn = σ(Wn − W cn ), n ≥ 1.
De tout ce qui précède, on a :
n
X
θnj Xn+1−j − Xbn+1−j , 1 ≤ n < m
j=1
X
bn+1 =
X q
ϕ1 Xn + · · · + ϕp Xn+1−p +
θ nj Xn+1−j − X
b n+1−j , n ≥ m,
j=1
Remarques -
(i) On peut montrer que si (Xt )t∈Z est inversible alors, quand n → ∞, E(Xn − X
bn −
2
εn ) → 0, θnj → θj , j = 1, . . . , q et rn → 1.
(ii) Le calcul algébrique des θnj et rn est difficile.
Prévision à l’horizon h
On montre, en utilisant les propriétés de Pn , que
Xn
θ X − Xbn+h−j , 1 ≤ h < m − n
n+h−1,j n+h−j
j=1
Pn Xn+h = p n+h−1
X X
ϕ P X + θ X − bn+h−j , h ≥ m − n.
X
i n n+h−i n+h−1,j n+h−j
i=1 j=h
(3.5)
3.1. LES PROCESSUS ARMA 33
Remarques -
(i) Pour n > max(p, q), pour h ≥ 1,
p
X q
X
Pn Xn+h = ϕi Pn Xn+h−i + θn+h−1,j Xn+h−j − X
bn+h−j .
i=1 j=h
(ii) Les relations décrites par (3.5) permettent de calculer facilement Pn Xn+1 , Pn Xn+1 , . . . ,
dès que X
b1 , . . . , X
bn sont obtenus.
Remarques -
(i) Les prédicteurs ainsi obtenus sont de la forme
∞
X
Pen Xn+h = cj Xn−j .
j=0
(ii) En pratique on ne dispose que de X1 , . . . , Xn , ce qui signifie que Pen Xn+h doit être
tronquée après n termes. Le prédicteur obtenu de cette façon est une approximation
de Pen Xn+h si n → ∞ et cj → 0, j → ∞.
où φ1−α/2 est le (1 − α/2)-quantile d’une loi N (0, 1). On suppose bien-sûr σ et les ψj
connus, sinon il faut les remplacer par leurs estimateurs.
34 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS
où ψ(z) = j≥0 ψj z j = 1/ϕ(z). En multipliant chaque membre de (3.1) par Xt−j , j =
P
0, . . . , p en prenant les espérances et en utilisant l’égalité ci-dessus pour évaluer le membre
de droite, on a les équations de Yule-Walker :
Γp ϕ = γp et σ 2 = γX (0) − ϕ0 γp ,
ϕ
b = (ϕ bp )0 = R
b1 , . . . , ϕ b−1 ρbp , σ
p bX (0)[1 − ρb0p R
bY2 W = γ b−1 ρbp ],
p
où
Γ
bp γ
bp
R
bp = ρX (1), . . . , ρbX (p))0 =
, ρbp = (b .
γ
bX (0) γ
bX (0)
Remarques -
(i) On montre que lorsque n → ∞, ϕ b ∼ N (ϕ, n−1 σ 2 Γ−1
p ).
2 −1
(ii) En remplaçant σ et Γp respectivement par σ 2
bY W et Γ b −1
p , on peut construire des
régions de confiance asymptotiques pour ϕ :
b − ϕ)0 Γ
{ϕ ∈ Rp , (ϕ b −1 (ϕ
p b − ϕ) ≤ n−1 σ
bY2 W χ21−α },
On a l’identité
Xn = Cn (Xn − X
b n ).
Les composantes de Xn − X b n sont par définition non corrélées. Ce vecteur a donc une
matrice de covariance diagonale
Dn = diag(v0 , . . . , vn−1 ).
Il vient alors
n 2
1 1 X (Xj − X
b )
j
L(Γn ) = n√ exp − .
(2π) 2 v0 v1 . . . vn−1 2 vj−1
j=1
La vraisemblance de données issues d’un processus ARM A(p, q) gaussien peut se calcu-
ler facilement à partir de l’expression ci-dessus en utilisant les prévisions X
bi+1 et les erreurs
quadratiques correspondantes vi . Ces dernières peuvent s’obtenir à partir du schéma :
( P
n
j=1 θnj (Xn+1−j − Xn+1−j ) 1≤n<m
b
Xbn+1 = Pq
ϕ1 Xn + . . . + ϕp Xn+1−p + j=1 θnj (Xn+1−j − X bn+1−j ), n ≥ m,
et
bn+1 )2 = σ 2 E(Wn+1 − W
E(Xn+1 − X cn+1 )2 = σ 2 rn ,
36 CHAPITRE 3. PROCESSUS ARMA ET QUELQUES GÉNÉRALISATIONS
où (Wt )t∈Z est le processus défini par (3.3), θnj et rn sont déterminés par l’algorithme
d’innovation avec gX remplacée par gW . Ceci nous conduit à définir la vraisemblance d’un
ARMA gaussien :
n 2
1 1 X (Xj − Xj )
b
L(ϕ, θ, σ 2 ) = n√ exp − 2 .
2
(2πσ ) 2 r0 r1 . . . rn−1 2σ rj−1
j=1
Cette nouvelle expression nous fournit les estimateurs du maximum de vraisemblance des
paramètres :
n b j )2
1 X (Xj − X
b2 = S(ϕ,
σ b θ)
b avec S(ϕ, θ) = ,
n rj−1
j=1
et ϕ
b et θb sont les valeurs qui minimisent
n
1 1X
`(ϕ, θ) = ln S(ϕ, θ) + rj−1 .
n n
j=1
se comportent comme des réalisations du bruit blanc (εt )t∈Z , si tant est que le modèle
ARM A considéré est celui ayant généré les données. Pour vérifier cette propriété, on peut
observer le graphe de la série εbt /b
σ , t = 1, . . . , n (il doit se comporter comme celui des
réalisations d’un bruit blanc centré réduit) et/ou appliquer des tests de bruit blanc à
εbt , t = 1, . . . , n.
Le critère FPE - Il est surtout appliqué au choix de l’ordre p d’un AR(p). Son principe
consiste à minimiser l’erreur de prévision quadratique à un pas, lorsque le modèle ajusté à
(Xt ) est utilisé pour prédire une réalisation indépendante (Yt ) du processus ayant généré
(Xt ). La valeur p choisie est celle qui minimise la fonction
n+p
FPE = σ b2 .
n−p
Les critères AIC - Soit X un vecteur aléatoire de dimension n dont la densité de proba-
bilité appartient à la famille {f (·, ψ), ψ ∈ Ψ}. La distance de Kullback-Lieber entre f (·, ψ)
et f (·, δ) est définie par :
Z
f (x, ψ)
d(ψ|δ) = −2ln f (x, δ)dx.
Rn f (x, δ)
On montre facilement que d(ψ|δ) ≥ 0, avec égalité ssi f (·, ψ) = f (·, δ).
Soit X1 , . . . , Xn des observations d’un ARM A(p, q) avec les paramètres inconnus δ =
(β, σ 2 ), où β = (ϕ, θ). Le vrai modèle serait identifié s’il était possible de calculer la
distance de Kullback-Lieber entre tous les modèles candidats et le vrai modèle. Ce travail
n’étant pas possible, on “estime” ces distances, et on choisit le modèle pour lequel cette
distance estimée est la plus petite. Dans un cadre gaussien (c’est-à-dire que le vrai modèle
et les modèles concurrents sont gaussiens), on montre que le modèle qui minimise cette
distance estimée est celui pour lequel les ordres p et q minimisent la statistique d’Akaike
suivante : n o
AIC(ϕ, b = −2ln L[ϕ,
b θ) b θ,
b S(ϕ,
b θ)/n]
b + 2(p + q + 1),
Remarques -
(i) Le processus (Xt )t∈Z est stationnaire à l’ordre deux ssi d = 0.
(ii) L’équation (3.6) donne les propriétés du second ordre du processus ((1−B)d Xt )t∈Z .
(iii) L’estimation des paramètres est basée sur la série ((1 − B)d Xt )t∈Z .
Exemple - Soit (εt )t∈Z ∼ BB(0, σ 2 ). Le processus (Xt )t∈Z défini par l’équation
1
(1 − B)(1 − B)Xt = εt , t ∈ Z
2
est un processus ARIM A(1, 1, 0).
Remarque - La non-stationnarité dans les ARIMA se traduit par le fait que le polynôme
ϕ∗ a la racine 1 de multiplicité d.
Remarques -
(i) Dans les applications, D est en général strictement inférieur à 2 et P et Q inférieurs
à 3.
(ii) La relation (3.7) peut se réécrire
ϕ∗ (B)Yt = θ∗ (B)εt ,
41