Cour Prof PDF

Notes de Cours de séries chronologiques pour
les L3 PS
M.A MEZIANI
2022-2023
ii
Table des matières
1 Rappels et Compléments 1
2 Tendances et facteurs saisonniers 9

2.1 Estimation et élimination de la tendance en l’absence de sai-
sonnalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Estimation Paramétrique . . . . . . . . . . . . . . . . . 10
2.1.2 Estimation non paramétrique . . . . . . . . . . . . . . 11
2.1.3 Élimination de la tendance par différenciation . . . . . 12
2.2 Estimation et élimination de la tendance et de la saisonnalité . 12
2.2.1 Estimation de la tendance et de la saisonnalité . . . . . 13
2.2.2 Élimination par différentiation . . . . . . . . . . . . . . 13
2.3 Modèles de tendances et saisonnalités . . . . . . . . . . . . . . 14
2.3.1 Le modèle multiplicatif . . . . . . . . . . . . . . . . . . 14
2.3.2 Les modèles hybrides . . . . . . . . . . . . . . . . . . . 14
3 Les processus ARMA et leurs propriétés 15

3.1 Processus linéaires . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Les processus auto-régressifs . . . . . . . . . . . . . . . . . . . 16
3.3 Fonction d’autocorrélation (ACF) et fonction d’autocorréla-
tion partielle (PACF) d’un processus ARMA(p ; q) . . . . . . 21
3.3.1 Calcul de la fonction d’autocovariance FACV ou ACV
F (en anglais) . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 La fonction d’autocorrélation . . . . . . . . . . . . . . 23
3.3.3 La fonction d’autocorrélation partielle . . . . . . . . . 25
4 Estimation des paramètres 31

4.1 Modèles autorégressifs . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Modèles moyennes mobiles . . . . . . . . . . . . . . . . . . . . 33
4.3 Les modèles ARMA . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4 La variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 34
iii
iv TABLE DES MATIÈRES
5 Validation des modèles ARMA 37

5.1 Tests de Normalité . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Test d’absence d’autocorrélation . . . . . . . . . . . . . . . . . 38
5.3 Les critères de choix de modèles . . . . . . . . . . . . . . . . . 39
5.3.1 Racine de l’erreur quadratique moyenne (Root Mean
Squared Error) . . . . . . . . . . . . . . . . . . . . . . 39
5.3.2 Le critère d’information d’Akaike (1969) . . . . . . . . 39
5.3.3 Le critère d’information bayesien d’Akaike (1977) ou
de Schwarz (1978) . . . . . . . . . . . . . . . . . . . . . 39
6 Modèles pour séries chronologiques non stationnaires 41

6.1 Modèles autorégressifs intégrés à moyennes mobiles (ARIMA) 44
6.1.1 Processus ARIMA(1,1,1) . . . . . . . . . . . . . . . . . 45
6.2 Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2.1 Transformations de BOX-COX . . . . . . . . . . . . . 49
6.3 Les modèles ARIMA saisonniers . . . . . . . . . . . . . . . . . 51
Chapitre 1
Rappels et Compléments
Une partie importante de l’analyse d’une série chronologique est la sélec-

tion d’un modèle de probabilité approprié (ou d’une classe de modèles) pour
les données. Pour tenir compte de la nature éventuellement imprévisible des
observations futures, il est naturel de supposer que chaque observation xt est
une valeur réalisée d’une certaine variable aléatoire Xt .
Définition 1 (Série chronologique). Un modèle de série chronologique pour

les données observées {xt } est une spécification des distributions conjointes
(ou éventuellement uniquement des moyennes et des covariances) d’une sé-
quence de variables aléatoires {Xt } dont xt est postulé comme étant une
réalisation.
Un modèle de série chronologique probabiliste complet pour la séquence

de variables aléatoires {X1 , X2 , X3 , ...} spécifierait toutes les distributions
conjointes des vecteurs aléatoires (X1 , X2 , X3 , ...), n = 1, 2, ... ou de manière
équivalente toutes les probabilités :
P (X1 ≤ x1 , ..., Xn ≤ xn ),
Une telle spécification est rarement utilisée dans l’analyse des séries chro-
nologiques (à moins que les données ne soient générées par un mécanisme
simple bien compris), car en général, elle contiendra beaucoup de paramètres
pour être estimée à partir des données disponibles. Au lieu de cela, nous
spécifions uniquement les moments de premier et de second ordre des dis-
tributions conjointes, c’est-à-dire les valeurs attendues E(Xt ) et les produits
attendus E(Xt+h Xt ), t = 1, 2, ..., h = 0, 1, 2, ..., en se concentrant sur les
propriétés de la suite {Xt } qui ne dépendent que de ces quantités.
Dans le cas particulier où toutes les distributions conjointes sont normales
multivariées, les propriétés du second ordre de Xt déterminent complètement
1
2 CHAPITRE 1. RAPPELS ET COMPLÉMENTS
les distributions conjointes et donnent donc une caractérisation probabiliste

complète de la suite.
Par conséquent, nous nous concentrons, donc, sur les deux premiers mo-
ments
Définition 2 (La fonction moyenne). La fonction moyenne pour la série Xt

est donnée par :
Z +∞
µt = E(Xt ) = xf (x), (1.1)
−∞
si elle existe, où E désigne l’opérateur d’espérance mathématique et f () la

densité de probabilité. µt est la moyenne théorique de la série au point t.
Définition 3 (La fonction d’autocovariance). La fonction d’autocovariance

γts est définie comme :
γts = Cov(Xt , Xs ), pour t = 0, ±1, ±2, ... (1.2)

avec Cov(Xt , Xs ) = E[(Xt − µt )(Xs − µs )] = E(Xt Xs ) − µt µs .
Définition 4 (La fonction d’autocorrélation). La fonction d’autocorrélation

ρt,s est donnée par :
ρt,s = Corr(Xt , XS ) pour t = 0, ±1, ±2, ... (1.3)

avec,
Cov(Xt , Xs ) γts
Corr(Xt , Xs ) = q =√
V ar(Xt )V ar(Xs ) γt γs
Si la valeur de ρt,s est proche de ±1, alors il existe une forte relation
linéaire (une forte corrélation) entre Xt et Xs . Par contre, une valeur de ρt,s
proche de 0, indique une faible corrélation. En outre, si ρt,s = 0, on dit que
Xt et Xs sont non corrélés.
Nous avons les propriétés suivantes :
1. γtt = V ar(Xt ),
2. γts = γst
√
3. |γts | ≤ γt,t γs,s
4. ρt,t = 1
5. ρt,s = ρs,t
6. |ρt,s | ≤ 1
De plus,
3
— Cov(aX, Y ) = aCov(X, Y )
— Cov(a + X, Y ) = Cov(X, Y )
— Si X et Y sont indépendantes, alors Cov(X, Y ) = 0
— Cov(X, Y ) = 0 n’implique pas que X et Y sont indépendantes.
— Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
Cov( ni=1 ai Xi , m
P P Pn Pm
— j=1 bj Yj ) = i=1 j=1 ai bj Cov(Xi , Yj )
Exemple 1 (Marche aléatoire / Random walk). Soit e1 , e2 , .. une suite de

variables aléatoires (i.i.d) de moyenne nulle et de variance σe2 . On définit le
processus {Yt , t = 0, 1, 2, ..} comme :

Y1

 = e1

Y2 = e1 + e2





.




 .



Yt = e1 + e2 + ...et
Alternativement, on peut écrire, pour t > 1 :
Yt = Yt + et
Le processus {Yt } est appelée marche aléatoire. Ce modèle est utilisé pour
modéliser plusieurs phénomènes. Par exemple : le mouvements des molécules
dans les liquides, ..etc.
On a :
µt = E(Yt ) = E(e1 + e2 + ... + et )
= E(e1 ) + E(e2 ) + ... + E(et )
= 0 pour tout t
V ar(Yt ) = V ar(e1 + e2 + ... + et )

= V ar(e1 ) + V ar(e2 ) + ... + V ar(et )
= tσe2
Pour la fonction d’autocovariance, on a pour (1 ≤ t ≤ s) :
γt,s = Cov(Yt , Ys ) = Cov(e1 + e2 + .. + et , e1 + e2 + ... + es )

t X
X s
= Cov(ei , ej )
i=1 j=1
= tσe2
La fonction d’auto-corrélation de la marche aléatoire est facilement cal-

culée comme suit :
s
γt,s t
ρt,s =√ = pour 1 ≤ t ≤ s
γt,t γs,s s
s
1
ρ1,2 = = 0.707
2
s
8
ρ8,9 = = 0.943
9
s
8
ρ1,25 = = 0.200
9
Les valeurs de Y aux instants voisins sont fortement et positivement corré-
lés. Tandis que, les valeurs de Y aux instants éloignés sont faiblement corrélés.
Figure 1.1 – Marche aléatoire

5
Exemple 2. Soit e1 , e2 , ... une suite de variables aléatoires indépendantes et

identiquement distribuées (i.i.d.) de moyenne nulle et de variance σe2 . Soit
{Yt } définit par :
et + et−1
Yt =
2
On a :
et + et−1
µt = E(Yt ) = E( )
2
E(et ) + E(et−1 )
=
2
= 0 pour tout t.
et + et−1
V ar(Yt ) = V ar( )
2
V ar(et ) + V ar(et−1 )
=
4
2
= 0.5σe
De plus,
et + et−1 es + es−1
Cov(Yt , Ys ) = Cov( , )
2 2
et es et es−1 et−1 es et−1 es−1
= Cov( , ) + Cov( , ) + Cov( , ) + Cov( , )
2 2 2 2 2 2 2 2

1 2
 2 σe

 si |t − s| = 0
1 2
γt,s = Cov(Yt , Ys ) = σ
4 e
si |t − s| = 1


0 |t − s| > 1
Pour la fonction d’autocorrélation, nous avons

1

 si |t − s| = 0
ρt,s = Corr(Yt , Ys ) = 0.5 si |t − s| = 1



0 si |t − s| > 1
On remarque que ρ1,2 = ρ3,2 = ρ9,8 = 0.5. Les valeurs de Y espacées d’une
seule unité de temps ont exactement la même corrélation, peu importe où
ils se produisent dans le temps. En outre, les valeurs ρ3,1 = ρ4,2 = ρt,t−2 , et
plus généralement, ρt,t−k sont les mêmes quelque soit t. Cela nous amène à
un concept très important de la stationnarité.
Définition 5 (Stationnarité). On dit que Xt est faiblement stationnaire (ou

bien stationnaire au seconde ordre) si
— µx (t) = µ est indépendant de t.
et
— γX (t + h, t) = γ0,h est indépendant de t pour chaque h.
Remarque 1. La stationnarité stricte d’une série temporelle {Xt , t = 0, ±1, ...}

est définie par la condition que (X1 , X2 , ...) et (X1+h , X2+h , ...) ont la même
distribution conjointe pour tout h et n > 0.
On peut facilement démontrer que si Xt est strictement stationnaire et
que E(Xt ) < ∞ pour chaque t, alors Xt est faiblement stationnaire.
Chaque fois que nous utilisons le terme stationnaire, nous entendons fai-
blement stationnaire, sauf indication contraire.
Remarque 2. Les propriétés des fonctions d’autocovariances et d’autocor-

rélation d’un processus stationnaire peuvent être donné comme suit :
— γ0 = V ar(Xt )
— γh = Cov(Xt+h , Xt ) = γ−h
— |γ ≤ γ0 |
— ρ0 = 1
— ρh = ρ−h
— |ρh | ≤ 1
Exemple 3 (Bruit blanc / White noise). Le modèle le plus simple pour une
série chronologique est peut-être celui dans lequel il n’y a pas de tendance ou
de composante saisonnière et dans lequel les observations sont simplement
des variables aléatoires indépendantes et identiquement distribuées (iid) avec
une moyenne nulle.
On appelle donc un bruit blanc faible, le processus stochastique {et , t =
0, 1, 2, ...}, avec E(Xt2 ) < ∞ et :
— E(et ) = µ,
— V ar(et ) = σ
Les deux quantités sont indépendantes de t. De plus,

σ 2 si h = 0
e
γh =
0 ̸ 0
si h =
ne dépend que de h. Alors, un bruit blanc est un processus stationnaire. On

dit que le processus est un bruit blanc fort si les et sont (i.i.d). Des plus, un
bruit blanc est dit centré si E(et ) = 0 et réduit si V ar(et ) = 1.
7
Exemple 4. Soit Yt une marche aléatoire, Yt = Yt−1 + et où {et } est un bruit

blanc. Alors E(Yt ) = 0, E(Yt2 ) = tσe2 < ∞ pour tout t, et pour h ≥ 0,
γY (t + h, t) = Cov(Yt+h , Yt )
= Cov(Yt + et+1 + ..et+h , Yt )
= Cov(Yt , Yt ) = tσe2
dépends de t. Ainsi, une marche aléatoire est un processus stochastique non

stationnaire.
Définition 6 (Opérateur de différence ∇). l’opérateur de différenciation

(d’ordre 1) est l’opérateur qui, à tout processus Yt , associe le processus définie
comme suit :
∇Yt = Yt − Yt−1 , ∀t ∈ Z.
Dans de nombreuses situations, un processus non stationnaire Yt peut être
transformé en un processus stationnaire, en appliquant la différenciation
d’ordre 1. Par exemple, la marche aléatoire, Yt = Yt−1 + et , n’est pas sta-
tionnaire. Mais, si on prend la première différence ∇Yt = Yt − Yt−1 = et , on
obtient un processus stationnaire.
Définition 7 (Opérateur de retard). On appelle opérateur de retard B,

l’opérateur qui à tout processus {Yt } associe le processus défini comme suit :
BYt = Yt−1
De manière générale, on peut écrire :
B n Yt−1 = Yt−n
Définition 8 (Opérateur de différenciation d’ordre n). Pour généraliser la

définition de l’opérateur de différentiation, on utilise l’opérateur de retard B,
et on écrit :
∇d Yt = (1 − B d )Yt = Yt − Yt−d
Remarque 3.
∇d Yt = (1 − B d )Yt = Yt − Yt−d ̸= ∇d Yt = ∇(∇d−1 )Yt = (1 − B)d Yt

Chapitre 2
Tendances et facteurs
saisonniers
La première étape de l’analyse de toute série chronologique consiste à tra-

cer les données. S’il y a des discontinuités apparentes dans la série, comme
un changement soudain de niveau, il est peut être conseillé d’analyser la
série en la divisant d’abord en segments homogènes. S’il existe des observa-
tions aberrantes, elles doivent être étudiées attentivement pour vérifier s’il
est justifié de les rejeter (comme par exemple si une observation a été mal
enregistrée). L’inspection d’un graphe peut également suggérer la possibilité
de représenter les données comme une réalisation du processus (le modèle de
décomposition classique)
Xt = mt + st + Yt (2.1)
telles que mt est la composante de tendance, st est une fonction pério-

dique (la composante saisonnière) avec une période connue d, et Yt est la
composante résiduelle qui est stationnaire.
Notre objectif est d’estimer et d’extraire les composantes déterministes
mt et st dans l’espoir que la composante résiduelle ou de bruit Yt se révélera
être une série temporelle stationnaire. Nous pouvons alors utiliser la théorie
de tels processus pour trouver un modèle probabiliste satisfaisant pour le
processus Yt , analyser ses propriétés et l’utiliser en conjonction avec mt et st
à des fins de prédiction et de simulation de {Xt }.
Une deuxième approche proposée par (Box and Jenkins 1976) qui consiste
à appliquer des opérateurs de différenciation plusieurs fois à la série Xt jus-
qu’à ce que les observations différenciées ressemblent à la réalisation d’une
série chronologique stationnaire. A partir de ce moment la, on peut utiliser
la théorie des processus stationnaires pour la modélisation, l’analyse et la
9
10 CHAPITRE 2. TENDANCES ET FACTEURS SAISONNIERS
prédiction de Yt et donc du processus d’origine.
2.1 Estimation et élimination de la tendance

en l’absence de saisonnalité
En l’absence de composante saisonnière, le modèle (2.1) devient le sui-
vant :
Xt = mt + Yt , (2.2)
avec, E(Yt ) = 0, ∀t.
2.1.1 Estimation Paramétrique

Supposons que la composante de tendance mt a une forme polynômiale
de degré k :
X t = m t + Yt
= β0 + β1 t + β2 t2 + ... + βk tk + Yt
— Si k = 0 : mt = µ, avec µ une constante. Nous avons E(Xt ) = µ.
L’estimateur de la moyenne théorique le plus utilisé est la moyenne
empirique :
T
1X
X̄ = Xt
T t=1
— Si k = 1 : mt = β0 + β1 t, est une tendance linéaire. Les paramètres
β0 et β1 peuvent être estimer par la méthode des moindres carrées
(régression linéaire). Ceci revient à minimiser la somme suivante :
T T
2
(Xt − β0 − β1 t)2
X X
Q(β0 , β1 ) = (xt − mt ) =
t=1 t=1
Les estimateurs β̂0 et β̂0 sont des solutions du système :


 ∂Q(β0 ,β1 ) = −2 Tt=1 (Xt − β0 − β1 t) = 0
P
∂β0
 ∂Q(β0 ,β1 ) = −2 Tt=1 t(Xt − β0 − β1 t) = 0
P
∂β1
Ainsi, on obtient :

1 PT T +1
β̂0
 = X̄ − β̂1 t̄, avec t̄ = T t=1 t= 2
PT
(t−t̄)Xt Cov(t,Xt )
β̂1
 = Pt=1
T 2
= V ar(t)
t=1
(t−t̄)
2.1. ESTIMATION ET ÉLIMINATION DE LA TENDANCE EN L’ABSENCE DE SAISONNALITÉ1
— Si k > 1 : Les estimateurs des paramètres βi , i = 1, ..., k peuvent être

obtenus en minimisant la somme :
T T
(xt − mt )2 = (Xt − β0 − β1 t − ... − βk tk )2
X X
Q(β0 , β1 , ..., βk ) =
t=1 t=1
Cette estimateur a une forme explicite, et est donnée par :
β = (X t X)−1 X t Y
avec,
1 t1 t21 . . . tk1
   
X1
 2
1 t2 t2 . . . tk2 
  X2 
 
X =  .. .. ..
 .. ..  Y =  .. 
 
. . . . .  . 

2
1 tT tT . . . tkT XT
Remarque 4. — En général, le choix du degré du polynôme repose sur
l’analyse du graphique de la série (t, Xt )t=1,2,..,T ce qui permet d’avoir
une première estimation du degré optimal.
— Il peut arriver que l’analyse visuelle suggère une tendance qui ne soit
pas de nature polynomiale. Dans ces cas-là, il est souvent possible de
se ramener à une tendance linéaire en effectuant un changement de
variable approprié. Voici un exemple :
1
— Si mt = a+bt , cela revient donc à ajuster une tendance de la forme
′ 1
mt = mt = at + b, à la série {Zt } = { X1t }
— Si mt = beat , cela revient à ajuster une tendance de la forme m′t =
log(mt ) = at + log(b), à la série {Zt } = {log(Xt )}
2.1.2 Estimation non paramétrique

Lorsqu’il est difficile de déterminer le degré optimal pour le polynôme
d’ajustement ou de trouver un changement de variable approprié pour la
série temporelle mt , l’estimation non-paramétrique de la tendance est souvent
utilisée. Cette méthode ne présume rien sur la forme de la tendance a priori et
permet ainsi de modéliser des tendances de nature variée. Par exemple, si la
tendance est une fonction affine (donc à croissance linéaire) sur un intervalle
autour de t, on peut estimer mt à l’aide de la moyenne mobile d’ordre q,
définie comme suit :
q
1 X
m̂t = Xt+k (2.3)
2q + 1 k=−q
Par convention

X
t = X1 si t ≤ 0.
Xt = XT si t ≥ T.
Le choix de q résulte encore d’un compromis : une valeur de q trop faible
ne permet pas d’extraire la tendance du résidu, une valeur trop élevée rend
mal compte des évolutions. de la tendance.
2.1.3 Élimination de la tendance par différenciation

Au lieu d’essayer d’éliminer la tendance en appliquant des filtres, nous
essayons maintenant d’éliminer le terme de tendance en utilisant l’opérateur
de différentiation ∇.
Si l’opérateur ∇ est appliqué à une fonction de tendance linéaire de la
forme mt = c0 + c1 t, alors on obtient :
∇mt = mt − mt−1 = c0 + c1 t − (c0 + c1 (t − 1)) = c1

De la même manière toute tendance polynomiale de degré k peut être
réduite à une constante par application de l’opérateur ∇k . Par exemple, si
Xt = mt + Yt , tel que mt = kj=0 ck tj et Yt est stationnaire de moyenne zéro,
P
l’application de ∇d donne :
∇d Xt = k!ck + ∇d Yt
un processus stationnaire de moyenne k!ck .
Ces considérations suggèrent la possibilité, étant donné toute séquence
{xt } de données, d’appliquer l’opérateur ∇ de manière répétée jusqu’à ce
que nous trouvions une séquence {∇k xt } qui puisse être modélisée de ma-
nière plausible comme la réalisation d’un processus stationnaire. On constate
souvent en pratique que l’ordre k de différenciation requis est assez petit, fré-
quemment un ou deux.
2.2 Estimation et élimination de la tendance

et de la saisonnalité
Les méthodes décrites pour l’estimation et l’élimination de la tendance
peuvent être adaptées de manière naturelle pour éliminer à la fois la tendance
et la saisonnalité dans le modèle général, spécifié comme suit.
Xt = mt + st + Yt , t = 1, .., T (2.4)
2.2. ESTIMATION ET ÉLIMINATION DE LA TENDANCE ET DE LA SAISONNALITÉ13
Pd
E(Yt ) = 0, st+d = st et j=1 st+j = 0.
2.2.1 Estimation de la tendance et de la saisonnalité

Supposons que nous ayons des observations {x1 , ..., xn }. Le processus pour
lequel on peut estimer la saisonnalité se décompose en deux étape. La ten-
dance est d’abord estimée en appliquant un filtre de moyenne mobile spé-
cialement choisi pour éliminer la composante saisonnière en même temps.
Supposons que T = nd. Si d = 2q est paire, on utilise la formule suivante :
q−1
1 X
m̂t = (0.5xt−q + Xt+k + 0.5xt+q ) (2.5)
d k=−q+1
Si d est impaire, on utilise la formule du filtre de moyennes mobiles déjà

définie (2.3).
On réorganise les données comme suit :
Inter-périodes / Périodes 1 . . . j . . . d
..
1 .
i . . . xij . . .
n
On peut maintenant estimer la saisonnalité sur toutes les périodes comme :

n
1X
ŝt = (xij − m̂t ), pour t = 1, ..., d
n i=1
2.2.2 Élimination par différentiation

La technique de différenciation que nous avons appliquée précédemment
aux données non saisonnières peut être adaptée pour traiter la saisonnalité
de la période d en introduisant l’opérateur de différenciation de décalage-d
∇d défini par
∇d Xt = Xt − Xt−d = (1 − B d )Xt
En appliquant l’opérateur ∇d au modèle (2.4), on obtient
∇d Xt = mt − mt−d + Yt − Yt−d
ce qui donne une décomposition de la différence ∇d Xt en une composante
de tendance (mt − mt−d ) et un terme de bruit Yt − Yt−d . La tendance (mt −
mt−d ) peut être éliminée après en utilisant la méthode déjà décrite dans la
section précédente.
Il existe des séries chronologiques pour lesquelles une analyse graphique
peut suffire à mettre en évidence une saisonnalité. L’exemple 4 ci-dessus en
est un exemple. Pour les séries de données chronologiques pour lesquelles une
analyse graphique n’est pas révélatrice, on peut utiliser dans ce cas des tests
statistiques comme le test de Fisher, comme on peut par exemple utiliser
l’analyse spectrale pour détecter la saisonnalité.
2.3 Modèles de tendances et saisonnalités

En plus du modèle additif dont nous avons parlé, il existe deux autres
modèles pour représenter la tendance et la saisonnalité.
2.3.1 Le modèle multiplicatif
Xt = mt (1 + st )(1 + Yt )
Cette formulation conduit aux propriétés suivantes :
— le facteur saisonnier mt st qui s’ajoute à la tendance est proportionnel
à la valeur de celle-ci,
— La composante irrégulière mt (1 + st )Yt qui s’ajoute à la somme des
deux termes précédents est elle-même proportionnelle à cette somme.
2.3.2 Les modèles hybrides

Différentes combinaisons de modèles additifs et de modèles multiplicatifs
existent, qualifiées de modèles hybrides (ou mixtes), par exemple :
Xt = (mt + st )(1 + Yt )
Chapitre 3
Les processus ARMA et leurs

propriétés
Les modèles ARMA permettent de représenter un grand nombre de pro-

cessus aléatoires stationnaires. Pour une large classe de fonctions d’autoco-
variances, γ(.), il est possible de trouver un processus ARMA Xt avec une
fonction d’autocovariance γX (.) pour laquelle γ(.) est bien approximée par
γX (.). Pour ces raisons, la famille des processus ARMA joue un rôle très im-
portant dans la modélisation des séries temporelles. Il est supposé à ce niveau
que l’on a isolé, dans la série chronologique d’origine, sa partie aléatoire, en
lui retirant tendances et facteurs saisonniers.
3.1 Processus linéaires

La classe des modèles de séries chronologiques linéaires, qui inclut la classe
des modèles autorégressifs moyenne mobile (ARMA : AutoRegressive Moving
Average en anglais) fournit un cadre général pour l’étude des processus sta-
tionnaires. Ceci est à la base du théorème de décomposition de Wold qui sera
formulé plus loin.
Définition 9. Le processus aléatoire Xt est un processus linéaire s’il possède
la représentation
+∞
X
Xt = ψi ϵt−i , ∀t (3.1)
i=−∞
où {ϵt } est un bruit blanc W N (0, σϵ2 ) et {ψi } est une suite de constantes
vérifiant +∞i=−∞ |ψi | < ∞.
P
L’équation 3.1 s’écrit d’une façon plus compacte

Xt = Ψ(B)ϵt
15
16 CHAPITRE 3. LES PROCESSUS ARMA ET LEURS PROPRIÉTÉS
P+∞
où Ψ(B) = i=−∞ ψi B i .
Un processus linéaire est un processus moyenne mobile d’ordre ∞

(M A(∞)) si ψi = 0 pour i < 0, i.e.,
+∞
X
Xt = ψi , ∀t
i=0
Remarque 5. — L’opérateur Ψ(B) peut être interprété comme un filtre

qui est appliqué au bruit blanc {ϵt } qui est un input pour produire
{Xt } qui est le output.
— un filtre linéaire appliqué à un processus stationnaire produit un pro-
cessus stationnaire. (Brockwell and Davis page 52)
3.2 Les processus auto-régressifs

Définition 10. Un processus Xt est dit auto-régressif d’ordre p centré s’il
vérifie
p
X
Xt = ϕi Xt−i + ϵt , ∀t ≥ 0 (3.2)
i=1
avec p ∈ N∗ , ϕp ̸= 0 et {ϵt } ∼ W N (0, σϵ2 ) et ϵt non corrélé avec Xs pour

tout s < t. On dira aussi que Xt est un AR(p).
Exemple 5. Processus AR(1) Un processus AR(1), {Xt } est une solution

de l’équation aux différences stochastiques
Xt = ϕXt−1 + ϵt (3.3)
avec {ϵt } ∼ W N (0, σϵ2 ) et ϵt non corrélé avec Xs pour tout s < t. Pour
montrer qu’une telle solution existe, si |ϕ| < 1, et est l’unique solution de
(3.3), on considère le processus linéaire
+∞
ϕi ϵt−i
X
Xt = (3.4)
i=0
En replaçant dans (3.3), on obtient

+∞ +∞
ϕi ϵt−i = ϵt + ϕi ϵt−i
X X
i=0 i=1
Posons j = i − 1. On obtient
3.2. LES PROCESSUS AUTO-RÉGRESSIFS 17
+∞ +∞
ϕi ϵt−i = ϵt + ϕ ϕj ϵt−1−j = ϵt + ϕXt−1
X X
ϵt +
i=1 j=0
Montrons qu’elle est unique. Pour cela, supposons que Yt = ϕYt−1 + ϵt où

{Yt } est un autre processus. Alors,
Yt = ϕYt−1 + ϵt
= ϵt + ϕϵt−1 + ϕ2 Yt−2
= ϵt + ϕϵt−1 + ... + ϕk ϵt−k + ϕk+1 Yt−k−1
Si {Yt } est stationnaire au seconde ordre, alors E(Yt2 ) < ∞ et est indé-
pendant de t. Ainsi,
∞
ϕi ϵt−i )2 = E(ϕk+1 Yt−k−1 )2
X
E(Yt −
i=0
= ϕ2k+2 E(Yt−k−1 )2
→ 0 quand k → ∞
Ceci implique que Yt est égal à la limite en moyenne quadratique +∞ iP
i=0 ϕ ϵt−i
et donc, le processus défini par l’équation 3.4 est l’unique solution station-
naire au seconde ordre de (3.3).
Lorsque ϕ > 1, la série définie par (3.4) n’est pas convergente. Mais, on
peut réécrire le modèle (3.3) de façon que le processus à l’instant t (ou t − 1
ou ...) s’écrive en fonction de son future :
1 1
Xt−1 = − ϵt + Xt (3.5)
ϕ ϕ
En itérant 3.5, on obtient
1 1 1
Xt−1 = − ϵt − 2
ϵt+1 + 2 Xt+1
ϕ ϕ ϕ
= ...
1 1 1 1
= − ϵt − 2
ϵt+1 − ... − k+1 ϵt+k + k+1 Xt+k
ϕ ϕ ϕ ϕ
En utilisant les mêmes arguments que ci-dessus, on montre
∞
X 1
Xt = − ϵ
i t+i−1
i=1 ϕ
est l’unique solution stationnaire au second ordre de (3.5).

Remarque 6. Cette solution n’est pas très naturelle car Xt est corrélée
avec le future du bruit ϵt+1 , ϵt+2 , ... Ceci contraste avec la solution (3.4) dans
laquelle on voit que Xt est non corrélé avec ϵs pour s > t.
Il est à noter que chaque processus AR(1) avec |ϕ| > 1 peut être ré-
exprimer comme un processus AR(1) avec |ϕ| < 1 et une nouvelle séquence
de bruit blanc. Ainsi, on restreindra notre attention aux processus AR(1) tels
que |ϕ| < 1.
Définition 11. Le processus Xt est dit causal ou non anticipatif ou in-

dépendant du futur si Xt s’écrit en fonction du présent et du passé du
bruit blanc.
Exemple 6. Montrer que le processus AR(1) donné par (3.3) est non sta-
tionnaire si ϕ = ±1.
Remarque 7. 3.3 ⇔ Xt − ϕXt−1 = ϵt ⇔ (1 − ϕB)Xt = ϵt . Considérons

(1 − ϕz) = 0, z ∈ C. |ϕ| < 1 ⇔ |z| > 1. Les racines de Φ(z) sont à l’extérieur
du cercle unité.
Remarque 8. Pour un processus AR(1), Xt = ϕXt−1 +ϵt , la solution unique

de cette équation aux différences stochastiques est Xt = ∞ i
P
i=0 ϕ ϵt−i . On peut
trouver aussi en considérant l’équation (1 − ϕB)Xt = ϵt . Et donc Xt =
(1 − ϕB)ϵ ⇔ Xt = ∞
P i i P∞ i
i=0 ϕ B ϵt = i=0 ϕ ϵt−i
Remarque 9. Le processus AR(1) est donc stationnaire au second ordre si

et seulement si ϕ ̸= ±1. Il est de plus causal si et seulement si |ϕ| < 1.
Définition 12. (ARMA(1,1)) Un processus {Xt } suit un modèle ARMA(1,1)

s’il est solution de l’équation aux différences stochastiques
Xt = ϕXt−1 + ϵt + θϵt−1 (3.6)
où {ϵt } ∼ W N (0, σϵ2 ) et ϵ est non corrélé avec Xs pour tout s < t et ϕ+θ ̸= 0.
L’équation (3.6) peut s’écrire d’une façon compacte
Φ(B)Xt = Θϵt (3.7)
où Φ(B) = 1 − ϕB et Θ(B) = 1 + θB.

Si |ϕ| < 1, Xt = Φ−1 (B)Θ(B)ϵt = ∞ ϕi B i (1 + θB)ϵt = ∞ i
P P
P∞ i i=0 i=0 ϕ ϵt−i +
θ i=0 ϕ ϵt−1−i .
( ∞ 1
ri = 1−r = (1 − r)−1 pour |r| < 1).
P
P∞i=0 i P∞ i P∞ i
i=0 ϕ ϵt−i = ϵt + ϕ i=1 ϕ ϵt−i = ϵt + ϕ i=0 ϕ ϵt−1−i .
Par conséquent
3.2. LES PROCESSUS AUTO-RÉGRESSIFS 19
∞ ∞
ϕi ϵt−1−i =
X X
Xt = ϵt + (ϕ + θ) ψi ϵt−i
i=0 i=0
avec ψ0 = 1 et ψi = (ϕ + θ)ϕi−1 , i ≥ 1.
Donc, si |ϕ| < 1, ∀θ le processus {Xt } s’écrit en fonction du présent et du
passé de ϵt . {Xt } est stationnaire au seconde ordre et causal.
Remarque 10. Il existe un concept dual de la causalité, c’est l’inversibilité.

Un processus est inversible si ϵt s’écrit en fonction de Xs , s < t, i.e., ϵt =
g(Xt , Xt−1 , ...) où g est une fonction mesurable.
Exemple 7. Un processus ARMA(1,1) est inversible si |θ| < 1. En effet, de

3.7, on déduit que
ϵt = Θ−1 (B)Φ(B)Xt .
Pour déterminer Θ−1 (B), posons χ(B) = Θ−1 (B) = 1 + χ1 B + χ2 B 2 + ...
. Puisque Θ(B)Θ−1 (B) = 1, on a
(1 + θB)(1 + χ1 B + χ2 B 2 + ...) = 1
On déduit que θ + χ1 = 0 ⇔ χ1 = −θ, θχ1 + χ2 = 0 d’où χ2 + θ2 , ...,
χj = (−θ)j , j ∈ N. D’où ϵt = Xt − (ϕ + θ) ∞ j−1
P
j=1 (−θ) Xt−j .
Lorsque |θ| > 1, le processus ARMA(1,1) est non inversible. En effet dans
ce cas, ϵt s’écrira en fonction du présent et du futur. On ne considérera pas
le cas où θ = ±1.
Remarque 11. On conclut que la racine de Θ(z) est à l’extérieur du cercle

(ou du disque) unité si et seulement si le processus ARMA(1, 1) est inversible.
En effet, (Θ(z) = 0 =⇒ |z| > 1) ⇔ |θ| < 1. On dira donc que le processus
ARMA(1,1) est inversible si et seulement si la racine de Θ(z) est à l’extérieur
du cercle unité. On restreindra donc notre attention aux processus ARMA
stationnaires et causaux et inversibles.
Définition 13. ARMA(p,q) Un processus ARMA(p,q) est un processus {Xt }

qui est solution de l’équation aux différences stochastiques
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ... + ϕp Xt−p + ϵt + θ1 ϵt−1 + ...θq ϵt−q (3.8)
Ou d’une manière compacte
Φ(B)Xt = Θϵt (3.9)

où Φ(B) = 1 − ϕ1 B − ... − ϕp B p est appelé : le polynôme auto-ré<g<ressif

d’ordre p. Θ(B) = 1 + θ1 B + ... + θq B q est appelé : le polynôme moyenne
mobile d’ordre q.
Φ(z) = 1 − ϕ1 z − ... − ϕp z p et Θ(z) = 1 + θ1 z + ...θq z q n’ont pas de facteurs
communs. {ϵt } ∼ W N (0, σϵ2 ). {Xt } est un processus ARMA d’ordre (p,q).
— Si Θ(z) ⇔ 1, i.e., q = 0, le processus est un AR(p), i.e., un processus

autorégressif d’ordre p. il est solution de l’équation
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ... + ϕp Xt−p + ϵt (3.10)
— si Φ(z) = 0 i.e., p = 0, le processus est un MA(q), i.e., un processus

moyenne mobile d’ordre q. il est solution de l’équation
Xt = ϵt + θ1 ϵt−1 + ...θq ϵt−q (3.11)
Proposition 1. Un processus ARMA(p,q) est stationnaire au second ordre si

̸ 1. Ou encore Φ(z) = 1−ϕ1 z−...ϕp z p ̸=
les racines de Φ(z) sont telles que |z| =
0 pour tout |z| = 1.
Proposition 2. Un processus ARMA(p,q) est inversible si les racines de

Θ(z) sont à l’extérieur du disque unité. i.e., Θ(z) = 0 =⇒ |z| > 1.
Remarque 12. On dira que Xt = ∞

P
j=0 ψi ϵt−j est la représentation M A(∞)
du processus ARMA(p,q).
La causalité est équivalente à la condition
Φ(z) = 1 − ϕ1 z − ...ϕp z p = 0 =⇒ |z| > 1.

ce qui est équivalent à
Φ(z) = 1 − ϕ1 z − ...ϕp z p ̸= 0 =⇒ |z| ≤ 1.
Un processus ARMA(p,q) est donc causal si les racines du polynôme auto-

régressif sont à l’extérieur du disque unité.
La suite des constantes {ψj } est déterminée par la relation Ψ(z) = ∞ j
P
j=0 ψj z =
Θ(z)
Φ(z)
ou de façon équivalente par l’identité
(1 − ϕ1 z − ... − ϕp z p )(ψ0 + ψ1 z + ...) = (1 + θ1 z + ... + θq z q )
On déduit que
3.3. FONCTION D’AUTOCORRÉLATION (ACF) ET FONCTION D’AUTOCORRÉLATION PART

1 = ψ0



θ1 = ψ1 − ψ0 ϕ1


θ2 = ψ2 − ψ1 ϕ1 − ψ0 ϕ2
ou de façon équivalente
− pk=1 ϕk ψj−k = θj , j = 0, 1, 2, ..
 P
ψj


θ = 1,
 0


ϕl = 0 si l < 0, θl = 0 si l > q
Remarque 13. Un processus ARMA(p,q) est inversible s’il existe des constantes
{πj } telles que ∞
P∞
j=0 |π j | < ∞ et ϵt = j=0 πj Xt−j , ∀t.
P
P∞
On dira que ϵt = j=0 πj Xt−j est la représentation AR(∞) du processus
ARMA(p,q).
L’inversibilité est équivalente à la condition
Θ(z) = 1 + θ1 z + ... + θq z q = 0 =⇒ |z| > 1

Ce qui est équivalent à
Θ(z) = 1 + θ1 z + ... + θq z q ̸= 0 =⇒ |z| ≤ 1
Un processus ARMA(p,q) est donc inversible si les racines du polynôme

moyenne mobile sont à l’extérieur du disque unité.
— Un processus AR(p) est toujours inversible.
— Un processus MA(q) est toujours stationnaire et causal.
3.3 Fonction d’autocorrélation (ACF) et fonc-

tion d’autocorrélation partielle (PACF)
d’un processus ARMA(p ; q)
3.3.1 Calcul de la fonction d’autocovariance FACV ou
ACV F (en anglais)
Soit un processus {Xt } solutions des équations
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ... + ϕp Xt−p + ϵt + θ1 ϵt−1 + ...θq ϵt−q

P∞ P∞
L’hypothèse de causalité implique que Xt = j=0 ψi ϵt−j , ∀t, avec j=0 ψi z j =
Θ(z)
Φ(z)
, |z| ≤ 1.
1er Méthode
E(Xt ) = 0, ∀t, et
∞
X ∞
X ∞ X
X ∞
γh = E(Xt Xt−h ) = E( ψj ϵt−j ψk ϵt−h−k ) = ψj ψk E(ϵt−j ϵt−h−k ).
j=0 k=0 j=0 k=0
Les seuls termes non nuls sont ceux pour lesquels t − j = t − h − k ⇔ j =

h + k. Il ya une relation entre les indices.
La somme double se réduit donc à une somme simple. γh = σϵ2 ∞
P
k=0 ψk ψk+h .
2ème Méthode
Multiplions les deux membres par Xt−h puis appliquons l’espérance E. Il
vient :
∞
σϵ2
X
γh − ϕ1 γh−1 − ... − ϕp γh−p = θh+j ψi si 0 ≤ h ≤ m = max(p, q + 1).
j=0
γh − ϕ1 γh−1 − ... − ϕp γh−p = 0 si h ≥ m.

Remarque 14. rp − ϕ1 rp−1 − ... − ϕp = 0 ⇔ rp (1 − ϕ1 r−1 − ....ϕp r−p ) →
(1 − ϕ1 z − ϕ2 z 2 − ... − ϕp z p = 0).
Donc les racines sont les inverses des racines du polynôme autorégressif.
Ces équations sont appelées les équations de Yule-Walker.
Exemple 8. 1. Soit le processus ARMA(1,1) supposé causal :
Xt = ϕXt−1 + ϵt + θϵt−1 , {ϵt } ∼ W N (0, σϵ2 )

Calculer γ0 en utilisant la 1ère méthode, puis calculer γ1 et γh ,
h > 2. Utiliser la deuxième méthode.
2. Soit le processus MA(q)
Xt = ϵt + θ1 ϵt−1 + θ2 ϵt−1 + ... + θq ϵt−q , {ϵt } ∼ W N (0, σϵ2 )
Montrer que
 P
σ 2 q−|h| θ si |h| ≤ q, θ0 = 1
j θj+|h|
γh =  ϵ j=0
0 si |h| > q
Remarque 15. On voit que le modèle MA(q) se distingue par le fait que les
autocovariances s’annulent après le retard q. On dit qu’elles présentent un
cut-off ou une rupture après le retard q. Donc les données de séries chrono-
logiques pour lesquelles la fonction d’autocovariance empirique a de petites
valeurs au delà du retard q suggèrent qu’un modèle approprié pour ces don-
nées pourrait être un MA(q) ou un MA(q 1),...
On retiendra que tout processus stationnaire de moyenne nulle, dont les
autocorrélations s’annulent pour des retards h ≥ q peut être représenté
comme un processus moyenne mobile d’ordre ≤ q.
Exemple 9. Soit le processus AR(2) : Xt = 0.7Xt−1 − 0.1Xt−2 + ϵt , {ϵt } ∼

W N (0, σϵ2 ). Calculer la fonction d’autocovariance.
Solution 1. Ce processus est-il causal et stationnaire ?

Φ(z) = 0 ⇔ 1 − 0.7z + 0.1z 2 = 0 → δ = 0.09.
z1 = 5 et z2 = 2. Ce processus est bien causal car |zi | > 1, i = 1, 2.
Posons E(Xt ) = µ. Il vient µ = 0.7µ − 0.1µ ⇔ µ = 0. Donc
γh = E(Xt Xt−h ) = E(0.7Xt−1 − 0.1Xt−2 + ϵt )(Xt−h ). On obtient γh =
0.7γh−1 − 0.1γh−2 + E(ϵt Xt−h ).
Pour h = 0, γ0 = 0.7γ1 − 0.1γ2 + σϵ2 .
Pour h = 1, γ1 = 0.7γ0 − 0.1γ1 + σϵ2 .
Pour h = 2, γ2 = 0.7γ1 − 0.1γ0 + σϵ2 .
Alors, γ0 = 1, 6975σϵ2 , γ1 = 1, 0802σϵ2 γ2 = 0.58641σϵ2 .
Pour calculer les autres autocovariances qui vérifient la relation γh =
0.7γh−1 − 0.1γh−2 , posons
γh = rh
On obtient rh − 0.7rh−1 + 0.1rh−2 = 0 ⇒ r2 − 0.7r + 0.1 = 0 dont les racines
r1 = 0.2 et r2 = 0.5. D’où
γh = C1 (0.2)h + C2 (0.5)h
On détermine les constantes C1 et C2 en faisant h=1 et h=2.
3.3.2 La fonction d’autocorrélation

La fonction d’autocorrélation, pour un processus stationnaire au second
ordre, est définie par
γh
ρh = , h ∈ Z et ρ−h = ρh
γ0
On estime ρˆh = γγˆˆh0 déjà définie dans le chapitre 1 et appelée fonction
d’autocorrélation empirique.
Théorème 1. Pour un processus stationnaire ARMA(p,q),

√
n(ρ̂h − ρh ) → N (0, whh )
quand n → ∞, où
∞
(ρ2l + ρl−h ρl+h − 4ρh ρl ρl−h + 2ρ2l ρ2h )
X
whh =
l=−∞
En d’autres termes, lorsque la taille de l’échantillon n est grande, l’auto-

corrélation de l’échantillon ρ̂h est approximativement normalement distribuée
avec une moyenne ρh et une variance whh /n.
Buit blanc
Pour un processus de bruit blanc, la formule de whh se simplifie considé-
rablement car presque tous les termes de la somme ci-dessus sont nuls. Pour
un grand n,
1
ρˆh ∼ AN (0, )
n
√
Pour h = 1, 2, .... Ceci explique pourquoi la quantité ±2/ n sert comme une
approximation de marge d’erreur pour ρˆh . Les valeurs de ρˆh en dehors de ces
limites seraient "inhabituelles" sous l’hypothèse du modèle de bruit blanc.
AR(1)
Pour un processus stationnaire AR(1), Yt = ϕYt−1 + ϵt , la formule de whh
aussi se simplifie considérablement. Pour un grand n :
ρˆh ∼ AN (ρh , σρ2h )

où, ρh = ϕh et
1 (1 + ϕ2 )(1 − ϕ2h )
σρ2h = [ − 2hϕ2h ]
n 1 − ϕ2
MA(1)
Pour un processus MA(1) inversible, Yt = ϵt + θϵt−1 , nous traitons le les
cas k = 1 et h > 1 séparément.
— Cas h = 1, pour un n grand,
ρˆ1 ∼ AN (ρ1 , σρ2ˆ1 )
où ρ1 = −θ(1 + θ2 ) et
1 − 3ρ21 + 4ρ41
σρ2ˆ1 =
n
— Cas h > 1, pour un n grand,
ρˆh ∼ AN (0, σρ2ˆh )
où,
1 + 2ρ21
σρ2ˆh =
n
MA(q)
Pour un processus MA(q) inversible,
Yt = ϵt + θ1 ϵt−1 + θ2 ϵt−2 + ... + θq ϵt−q

l’autocorrélation empirique ρˆh , pour tout h > q, satisfait
q
1
ρ2j ))
X
ρˆh ∼ AN (0, (1 + 2
n j=1
Pour un n grand.
On utilise ce résultat pour effectuer des tests de H0 : ”ρh = 0” vs H1 :
”ρh ̸= 0” pour h > q, i.e., la série chronologique provient-elle d’un processus
MA(q) ? La statistique de test est
ρˆh
q Pq ∼ AN (0, 1)
1
n
(1 +2 j=1 ρ2j )
3.3.3 La fonction d’autocorrélation partielle

RAPPEL : Nous avons vu que pour les modèles MA(q), la fonction ACF
ρh est non nulle pour les retards h ≤ q et ρh = 0 pour les retards supérieurs
à q. C’est-à-dire que l’ACF pour un processus MA(q) "drops off" ou se réduit
à zéro après un décalage q.
— Par conséquent, l’ACF fournit une quantité considérable d’informa-
tions sur l’ordre de dépendance lorsque le processus est réellement
une moyenne mobile.
— D’autre part, si le processus est autorégressif (AR), alors l’ACF peut
ne pas nous en dire beaucoup sur l’ordre de la dépendance.
— Il est donc intéressant de développer une fonction qui se comportera
comme l’ACF pour les modèles MA, mais à utiliser avec les modèles
AR à la place. Cette fonction est appelée fonction d’autocorrélation
partielle (PACF).
Considérons un processus AR(1) stationnaire avec moyenne nulle
Yt = ϕYt−1 + ϵt ,
où, {ϵt } est un bruit blanc de moyenne nulle. L’autocovariance entre Yt

et Yt−2 est
γ2 = Cov(Yt , Yt−2 )
= Cov(ϕYt−1 + ϵt , Yt−2 )
= Cov(ϕ(ϕYt−2 + ϵt−1 ) + ϵt , Yt−2 )
= ϕ2 var(Yt−2 ) = ϕ2 γ0
où γ0 = var(Yt ) = var(Yt−2 ).
— Notons que si Yt suit un processus MA(1), alors γ2 = 0.
— Ceci n’est pas vrai pour un processus AR(1) car Yt dépend de Yt−2 à
travers Yt−1 .
Supposons que nous « brisons » la dépendance entre Yt et Yt−2 dans un
processus AR(1) en supprimant (ou en séparant) l’effet de Yt−1 . Pour cela,
considérons les quantités Yt − ϕYt−1 et Yt−2 − ϕYt−1 . Noter que
Cov(Yt − ϕYt−1 , Yt−2 − ϕYt−1 ) = Cov(ϵt , Yt−2 − ϕYt−1 ) = 0.

Parce que ϵt est indépendant de Yt−2 et Yt−1 .
— Dans le modèle AR(1), si ϕ est connu, on peut penser à
Yt − ϕYt−1
comme l’erreur de prédiction de la régression Yt sur Yt−1 .

— De même, la quantité
Yt−2 − ϕYt−1
peut être considérée comme l’erreur de prédiction résultant de la ré-
gression de Yt−2 sur Yt−1 .
— Ces deux erreurs de prédiction ne sont pas corrélées avec la variable
intermédiaire Yt−1 . Pour voir pourquoi, notez que
Cov(Yt − ϕYt−1 , Yt−1 ) = γ1 − ϕγ0 = 0.

Parce que γ1 = ϕγ0 pour un modèle AR(1). De même
Cov(Yt−2 − ϕYt−1 , Yt−1 ) = γ1 − ϕγ0 = 0.

(h−1)
Pour une série temporelle moyenne nulle, notons Ŷt la régression de
population de Yt sur les variables Yt−1 , Yt−2 , ..., Yt−(h−1) , c’est-à-dire
(h−1)
Ŷt = β1 Yt−1 + β2 Yt−2 + ... + βh−1 Yt−(h−1) .
(h−1)
Prenons Ŷt−h la régression de population de Yt−h sur les variables Yt−1 , Yt−2 , ..., Yt−(h−1) ,
c’est à dire
(h−1)
Ŷt−h = β1 Yt−(h−1) + β2 Yt−(h−2) + ... + βh−1 Yt−1 .
La fonction d’autocorrélation partielle (PACF) d’un processus station-
naire {Yt }, notée φhh , satisfait φ11 = ϕ1 et
(h−1) (h−1)
φhh = Corr(Yt − Ŷt , Yt−h − Ŷt−h )
Pour h = 1, 2, ...
(h−1) (h−1)
— Par rapport à Yt et Yt , les quantités Ŷt et Ŷt−h sont des fonctions
linéaires des variables intervenantes : Yt−1 , Yt−2 , ..., Yt−(h−1) .
(h−1) (h−1)
— Les quantités Yt − Ŷt et Yt−h − Ŷt−h sont appelées les erreurs de
prédiction. Le PACF au décalage h est défini comme étant la corréla-
tion entre ces erreurs.
— Si le processus {Yt } est normale, alors une définition équivalente est
φhh = Corr(Yt , Yt−h |Yt−1 , Yt−2 , ..., Yt−(h−1) )
— Autrement dit, φhh mesure la corrélation entre Yt et Yt−h après la

suppression des effets linéaires de Yt−1 , ..., Yt−(h−1) .
Reprenons maintenant le processus AR(1). On a démontré que
Cov(Yt − ϕYt−1 , Yt−2 − ϕYt−2 ) = 0.
Dans cet exemple, les quantités Yt − ϕYt−1 et Yt−2 − ϕYt−2 sont les erreurs
de prédiction de la régression Yt sur Yt−1 et Yt−2 sur Yt−1 , respectivement.
Autrement dit, avec h = 2, les expressions générales
(h−1)
Ŷt = β1 Yt−1 + β2 Yt−2 + ... + βh−1 Yt−(h−1) ,
(h−1)
Ŷt−h = β1 Yt−(h−1) + β2 Yt−(h−2) + ... + βh−1 Yt−1 ,
deviennent
(2−1)
Ŷt = ϕYt−1
(2−1)
Ŷt−2 = ϕYt−1
Par conséquent, nous avons montré que pour le modèle AR(1),
(2−1) (2−1)
φ22 = Corr(Yt − Ŷt , Yt−2 − Ŷt−2 ) = 0
Parce que
(2−1) (2−1)
Cov(Yt − Ŷt , Yt−2 − Ŷt−2 ) = Cov(Yt − ϕYt−1 , Yt−2 − ϕYt−1 ) = 0
IMPORTANT Pour le modèle AR(1), il s’ensuit que φ11 ̸= 0 φ11 = ρ1

et
φ22 = φ33 = φ44 = ... = 0
C’est à dire, φhh = 0 pour tout h > 1.

Pour un modèle AR(p), le PACF "drops off" (se réduit) à zéro après le
pième décalage. Par conséquent, le PACF peut aider à déterminer l’ordre d’un
processus AR(p) tout comme l’ACF aide à déterminer l’ordre d’un processus
MA(q).
Questions : Comment le PACF se comporte-t-il pour un processus de
moyenne mobile ? Pour y répondre, considérons le modèle MA(1) inversible,
Yt = ϵt + θϵt−1 . Pour ce processus, on peut montrer que
θh (θ2 − 1)
φhh =
1 − θ2(h+1)
pour h ≥ 1. Car |θ| < 1 (inversibilité), noter que
θh (θ2 − 1)
lim φhh = lim =0
h→∞ h→∞ 1 − θ 2(h+1)
C’est-à-dire que la PACF pour le processus MA(1) décroît jusqu’à zéro à

mesure que le retard h augmente, tout comme l’ACF décroît jusqu’à zéro pour
le modèle AR(1). La même chose se produit dans les modèles MA d’ordre
supérieur.
IMPORTANT : Le PACF d’un processus MA se comporte un peu comme
l’ACF d’un processus AR du même ordre.
Remarque 16. On peut démontrer que le PACF d’un processus stationnaire

est donné par :

1 ρ1 . . . ρh−1 ρ1

ρ
1 1 . . . ρh−3 ρ2

... ..
ρ2

ρ1 .

.. .. ...

. . ρh−1

ρ ρh−2 . . . ρ1 ρh
h−1
φhh =
1 ρ1 . . . ρh−2 ρh−1

ρ
1 1 . . . ρh−3 ρh−2
.. .. ..
ρ2

ρ1 . . .
.. .. ..

. . . ρ1

ρ
h−1 ρh−2 . . . ρ1 1
Pour h = 1, φ11 = ρ 1 .
1 ρ
1
ρ1 ρ2

ρ2 −ρ21
Pour h = 2, φ22 = = 1−ρ 2 .
1 ρ1 1

ρ1 1

1 ρ ρ
1 1
ρ1 1 ρ2

ρ2 ρ1 ρ3
Pour h = 3, φ33 = .
1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1
Lorsque h ≥ 4 le calcul de φhh devient compliqué. L’algorithme de Durbin
(1960) permet de parer à cette difficulté.
Algorithme 1 (de Durbin (1960)). Les coefficients φh1 , ..., φhh de la suite
de modèles AR(h) est solution des équation de Yule-Walker et se calculent à
l’aide des formules récursives suivantes :
φhj = φh−1,j − φhh φh−1,h−j
φ11 = ρ1
ρh − h−1
P
j=1 φh−1,j ρh−j
φhh = Ph−1
1 − j=1 φh−1,j ρh−j
j = 1, 2, ..., h − 1 , h = 1, 2, ...
Remarque 17. Lorsqu’on dispose d’un ensemble d’observations, on estime

γh , ρh et φh1 , φh2 , ..., φhh respectivement par γ̂h , ρ̂h et φ̂h1 , φ̂h2 , ..., φ̂hh , h =
1, 2, ...
Pour tester H0 : φhh = 0 vs. H1 : φhh ̸= 0, la statistique de test sous H0

est
√
nφ̂hh ∼ N (0, 1)
i h
Ainsi, on accepte H1 si φ̂hh ∈ − 1.96
√ , + 1.96
n
√
n
au seuil α = 0.05.
Exemple 10. Dans une série de données S1 , S2 , ..., S100 , on a trouvé
γˆ0 = 1382.2, γˆ1 = 1114.4, γˆ2 = 591.73, γˆ3 = 101.03
1. Calculer la fonction d’autocorrélation partielle.

2. Proposer un modèle censé refléter l’évolution empirique des données.
Solution 2.
ρˆ1 = 1114.4/1382.2 = 0.80625
ρˆ2 = 591.73/1382.2 = 0.42811
ρˆ3 = 101.03/1382.2 = 0.07314
φ̂11 = 0.80625
0.42811 − (0.80625)2
φ̂22 = = −0.63415
1 − (0.80625)2
φ̂21 = φ̂11 − φ̂22 φ̂11 = 1.3175
ρ3 − 2j=1 φ2j ρ3−j

P
φ̂33 = = 0.097435
1 − 2j=1 φ2j ρj
P
√
√100φ̂11 = 8.0625 ∈ / ]−1.96, +1.96[. On rejette H0 . Donc, φ11 ̸= 0.
√100φ̂22 = −6.3415 ∈ / ]−1.96, +1.96[. On rejette H0 . Donc, φ22 ̸= 0.
100φ̂33 = 0.97435 ∈ ]−1.96, +1.96[. On accepte H0 . Donc, φ33 = 0.
On ajuste à la série de données le modèle AR(2) :
Xt = 1.31175Xt−1 − 0.63415Xt−2 + ϵt
La variance du bruit figure dans l’équation
γ0 = 1.31175γ1 − 0.63415γ2 + σϵ2
D’où σ̂ϵ2 = 1382.2 − 1.3175 × 1114.4 + 0.63415 × 591 : 73 = 289.22.

Chapitre 4
Estimation des paramètres
L’approche d’estimation par la méthode des moments (MOM) consiste à

assimiler les moments de l’échantillon aux moments (théoriques) correspon-
dants de la population et à résoudre le système d’équations résultant pour
les paramètres du modèle.
4.1 Modèles autorégressifs

Considérons le modèle stationnaire AR(1) :
Yt = ϕYt−1 + ϵt
où {ϵt } est un bruit blanc avec moyenne nulle avec var(ϵt ) = σϵ2 . Dans
ce modèle, il ya deux paramètres ϕ et σϵ2 . L’estimateur des moments de ϕ
est obtenu en fixant l’autocorrélation théorique avec un décalage ρ1 égal à
l’autocorrélation estimée avec un décalage r1 et en résolvant pour ϕ, c’est-à-
dire :
ρ1 = r1
Pour ce modèle, on sait que ρ1 = ϕ. Alors, l’estimateur de ϕ est
ϕ̂ = r1
AR(2)
Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + ϵt
Il ya 3 paramètres : ϕ1 , ϕ2 et σϵ2 . Pour trouver les estimateurs de ϕ1 et ϕ2 ,
rappelez les équations de Yule-Walker pour l’AR(2) :
ρ1 = ϕ1 + ρ1 ϕ2
31
32 CHAPITRE 4. ESTIMATION DES PARAMÈTRES
ρ2 = ρ1 ϕ1 + ϕ2
Posons ρ1 = r1 et ρ2 = r2 , on a
r1 = ϕ1 + r1 ϕ2
r2 = r1 ϕ1 + ϕ2
La résolution de ce système pour ϕ1 et ϕ1 produit les estimateurs MOM
r1 (1 − r2 )
ϕˆ1 =
1 − r12
r2 − r12
ϕˆ2 =
1 − r12
AR(p) : Pour le processus général AR(p) :
Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + ... + ϕp Yt−p + ϵt
il y a p + 1 paramètres : ϕ1 , ϕ2 , ..., ϕp et σϵ2 . Nous rappelons à nouveau

les équations de Yule-Walker :
ρ1 = ϕ1 + ϕ2 ρ1 + ... + ϕp ρp−1
ρ2 = ϕ1 ρ1 + ϕ2 + ... + ϕp ρp−2
..
.
ρp = ϕ1 ρp−1 + ϕ2 ρp−2 + ... + ϕp

Comme dans le cas AR(2), on pose ρ1 = r1 , ..., ρp = rp pour obtenir
r1 = ϕ1 + ϕ2 r1 + ... + ϕp rp−1
..
.
rp = ϕ1 rp−1 + ϕ2 rp−2 + ... + ϕp
Les estimateurs ϕˆ1 , ϕˆ2 , ..., ϕˆp résolvent ce système d’équations.

4.2. MODÈLES MOYENNES MOBILES 33
Remarque 18. Le calcul des estimations MOM (ou de toute estimation)

dans la pratique doit être effectué à l’aide d’un logiciel. L’approche MOM
peut produire des estimations ϕˆ1 , ϕˆ2 , ..., ϕˆp qui tombent « en dehors » de
la région de stationnarité, même si le processus est vraiment stationnaire !
Autrement dit, le polynôme AR(p) estimé, disons,
ϕ̂(x) = 1 − ϕˆ1 x − ϕˆ2 x2 − ... − ϕˆp xp
peut posséder des racines qui ne dépassent pas 1 en valeur absolue (ou mo-
dule).
4.2 Modèles moyennes mobiles

MA(1) : Considérons le modèle MA(1) inversible :
Yt = ϵt + θϵt−1
où {ϵt } est un bruit blanc avec moyenne nulle avec var(ϵt ) = σϵ2 . Dans ce
modèle, il ya deux paramètres θ et σϵ2 . Pour trouver l’estimateur de θ, nous
résolvons pour θ :
−θ
ρ1 = 2
= r1 ⇔ r1 θ2 + θ + r1 = 0
1+θ
En utilisant la formule quadratique, nous trouvons que les solutions de
cette équation sont q
−1 ± 1 − 4r12
θ= .
2r1
— Si |r1 | > 0.5, alors aucune solution réelle pour θ n’existe.
— Si |r1 | = 0.5, alors les solutions pour θ sont ±1, ce qui correspond à
un modèle MA(1) non inversible.
— Si |r1 | < 0.5, la solution inversible pour θ est l’estimateur MOM
q
−1 ± 1 − 4r12
θ̂ = .
2r1
Remarque 19. Pour les modèles MA d’ordre supérieur, les difficultés de-
viennent plus prononcées. Pour le cas général MA(q), il nous reste à résoudre
le système hautement non linéaire
−θk + θ1 θk+1 + θ2 θk+1 + ... + θq−k θq
ρk = = rk , k = 1, 2, ..., q − 1
1 + θ12 + ... + θq2
Tout comme dans le cas MA (1), il y aura probablement plusieurs solutions,

dont une seule au plus correspondra à un modèle inversible ajusté.
Remarque 20. IMPORTANT : les estimations MOM ne sont pas recom-

mandées pour une utilisation avec les modèles MA. Elles sont difficiles à
obtenir et ne sont pas nécessairement de « bonnes » estimations.
4.3 Les modèles ARMA

ARMA(1,1) Considérons le modèle ARMA(1,1) suivant :
Yt = ϕYt−1 + ϵt + θϵt−1
où {ϵt } est un bruit blanc avec moyenne nulle avec var(ϵt ) = σϵ2 . Dans ce
modèle, il existe 3 paramètres ϕ, θ et σϵ2 . Rappelons du chapitre précédent
que
" #
(1 − θϕ)(ϕ − θ) k−1
ρk = ϕ
(1 − 2θϕ + θ2 )
Il s’ensuit directement que
ρ2
=ϕ
ρ1
Posons ρ1 = r1 et ρ2 = r1 , l’estimateur de ϕ est donné par
r2
ϕ̂ =
r1
L’estimateur MOM de θ résout
(1 − θϕ̂)(ϕ̂ − θ)
r1 =
1 − 2θϕ̂ + θ2
C’est une équation quadratique en θ, il y a donc deux solutions. La solu-
tion inversible θ̂ (le cas échéant) est conservée.
4.4 La variance du bruit

OBJECTIF : Nous souhaitons maintenant estimer la variance du bruit
blanc σϵ2 . Pour ce faire, notons d’abord que pour tout modèle ARMA station-
naire, la variance du processus γ0 = var(Yt ) peut être estimée par la variance
de l’échantillon.
4.4. LA VARIANCE DU BRUIT 35
n
1 X
S2 = (Yt − Ȳ )2
n − 1 t=1
— Pour un processus AR(p) général, on a
σϵ2
γ0 = ⇒ σϵ2 = (1 − ϕ1 ρ1 − ... − ϕp ρp )γ0
1 − ϕ1 ρ1 − ... − ϕp ρp
Par conséquent, l’estimateur MOM de σϵ2 est obtenu en remplaçant

ϕk par ϕˆk , ρk par rk et γ0 par S 2 . On obtient
σϵ2 = (1 − ϕˆ1 r1 − ... − ϕˆp rp )S 2

— Pour un processus MA(q), on sait que
γ0
γ0 = (1 + θ12 + θ22 + ... + θq2 )σϵ2 ⇒ σϵ2 =
(1 + θ12 + θ22 + ... + θq2
Faisons comme avec le modèle AR(p), on obtient
S2
σ̂ϵ2 =
(1 + θ̂12 + θ̂22 + ... + θ̂q2
— Pour un processus ARMA(1,1)
1 − 2ϕθ + θ2 2 2 1 − ϕ2
γ0 = ( )σ ϵ ⇒ σϵ = ( )γ0
1 − ϕ2 1 − 2ϕθ + θ2
Alors, l’estimateur est donné par
1 − ϕ̂2
σ̂ϵ2 = ( )S 2
1 − 2ϕ̂θ̂ + θ̂2
Remarque 21. Il existe aussi d’autres méthodes d’estimation de paramètres
pour les modèles ARMA(p,q) comme la méthode de moindres carrés et la
méthode de maximum de vraisemblance. Pour plus de détails voir Brockwell
& Davis (page 157)
Chapitre 5
Validation des modèles ARMA
On dit qu’un modèle est un modèle candidat, lorsque les résidus du modèle
proposé pour modéliser l’évolution temporelle des données, forment un bruit
blanc Gaussien. C’est à dire, si le modèle est correctement spécifié, alors les
résidus (standardisés), devraient se comporter à peu près comme un processus
de bruit blanc normal iid.
Etant donnée une série chronologique, plusieurs modèles peuvent être
proposés comme cadres mathématiques censés refléter l’évolution de la série.
Il faut d’abord valider ces modèles, ensuite comparer la qualité de ces modèles
relativement à certains critères.
5.1 Tests de Normalité

Des histogrammes et qq plots des résidus peuvent être utilisés pour éva-
luer visuellement l’hypothèse de normalité. Les tracés de séries chronolo-
giques des résidus peuvent être utiles pour détecter les « patterns » qui ne
vérifient pas l’hypothèse d’indépendance.
On peut aussi appliquer les tests d’hypothèses de normalité (Shapiro-
Wilk) sur les résidus standardisés.
Le test de Shapiro teste :
H0 : les résidus (standardisés) sont normalement distribués vs
H1 : les résidus (standardisés) sont normalement distribués
Des petites valeurs de p conduisent au rejet de H0 en faveur de H1 .
Le test de Shapiro-Wilk peut être appliquer sur R en utilisant la com-
mande
shapiro.test(data)
37
38 CHAPITRE 5. VALIDATION DES MODÈLES ARMA
On peut également effectuer le test de Jarque et Bera. Notons µk = E(ϵkt )

les erreurs étant supposées centrées. L’équivalent empirique de µk est noté
µ̂k .
On teste H0 :"les résidus sont gaussiens" vs H1 :"les résidus ne sont pas
gaussiens".
La statistique de test est
6 µ̂3 2 24 µ̂4
JB = ( ) + ( − 3)2 ∼ χ22
T (µ̂2 )3/2 T (µ̂2 )2
µ̂3 µ̂4
(µ̂2 )3/2
est le coefficient d’aplatisse-
est le coefficient d’asymétrie et (µ̂2 )2
ment.
Un calcul simple montre que, si la loi de probabilité d’une v.a. est gaus-
sienne, alors (µ̂µ̂24)2 = 3.
5.2 Test d’absence d’autocorrélation

nous avons découvert que pour un processus de bruit blanc, l’autocorré-
lation de l’échantillon satisfait
1
rk ∼ N (0, )
n
pour grand n. De plus, les autocorrélations d’échantillons rj et rk , pour

j ̸= k, sont approximativement non corrélées. Par conséquent, pour véri-
fier davantage l’adéquation d’un modèle ARMA(p, q) ajusté, il est judicieux
d’examiner la fonction d’autocorrélation (ACF) des résidus.
On peut également utiliser le test de Ljung and Box (1978) pour tester
si les résidus forment un bruit blanc.
La statistique de test modifiée est donnée par
T
X r̂h2
Q∗ = n(n + 2)
h=1 n − k
Une fois les tests sur les résidus effectués, il faut choisir un modèle parmi
tous les modèles candidats. Pour cela les critères suivants sont utilisés.
5.3. LES CRITÈRES DE CHOIX DE MODÈLES 39
5.3 Les critères de choix de modèles

5.3.1 Racine de l’erreur quadratique moyenne (Root
Mean Squared Error)
v
u T
u1 X
RM SE = t ϵ̂2 t
T t=1
5.3.2 Le critère d’information d’Akaike (1969)
2(p + q)
AIC = log σ̂ϵ2 +
T
5.3.3 Le critère d’information bayesien d’Akaike (1977)

ou de Schwarz (1978)
log T
BIC = log σ̂ϵ2 + (p + q)
T
Il s’agit de choisir le modèle qui minimise ces critères. Le critère le plus
utilisé est AIC. Mais il tend à surdimensionner un modèle.
40 CHAPITRE 5. VALIDATION DES MODÈLES ARMA
Chapitre 6
Modèles pour séries

chronologiques non
stationnaires
Supposons que {ϵt } est un bruit blanc avec moyenne nulle et var(ϵt ) = σe2 ,
et considérons la classe des modèles ARMA :
Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + ... + ϕp Yt−p + ϵt − θ1 ϵt−1 − θ2 ϵt−2 − .... − θq ϵt−q
ou en utilisant l’écriture compacte,
Φ(B)Yt = Θ(B)ϵt
où, les opérateurs caractéristiques AR et MA sont définis par
Φ(B) = (1 − ϕ1 B − ϕ2 B 2 − ... − ϕp B p )
Θ(B) = (1 − θ1 B − θ2 B 2 − ... − θq B q )
Dans ce chapitre, nous étendons cette classe de modèles pour couvrir des
processus non stationnaires. Nous y parvenons en généralisant la classe des
modèles ARMA pour inclure la différenciation.
Cela donne lieu à une classe de modèles beaucoup plus large, la classe des
modèles autorégressifs intégrés à moyennes mobiles (ARIMA). Cette classe
intègre un large éventail de processus de séries chronologiques non station-
naires.
On fait appelle à l’opérateur de différentiation (déjà définie dans le cha-
pitre 1). Le dième processus de différence {∇d Yt } consiste en
∇d Yt = ∇(∇d−1 Yt ) = ∇d−1 Yt − ∇d−1 Yt−1
pour d = 1, 2, .... On prend ∇0 Yt = Yt par convention.
41
42CHAPITRE 6. MODÈLES POUR SÉRIES CHRONOLOGIQUES NON STATIONNAIRE
Exemple 11. Supposons que Yt est un processus de marche aléatoire
Yt = Yt−1 + ϵt
ou {ϵt } est un bruit blanc avec moyenne nulle et var(ϵt ) = σe2 . On sait que
{Yt } n’est pas stationnaire car sa fonction d’autocovariance dépend de t.
Cependant, la première différence
∇Yt = Yt − Yt−1 = ϵt
est un bruit blanc, ce qui est stationnaire.
— Dans la figure 6.1 (en haut), nous affichons un processus de marche
aléatoire simulé avec n = 200 et σe2 = 1. Notez comment la fonction
ACF de la série décroît très, très lentement au fil du temps. Ceci est
typique d’une série non stationnaire.
— Le processus de la première différence (bruit blanc) apparaît également
dans la figure 6.1 (en bas), avec son ACF. Comme on peut s’y attendre
d’un processus de bruit blanc, √ presque toutes les autocorrélations se
situent dans les limites de ±2/ n.
Series y
20
0.8
15
10
ACF
0.4
y
0.0
0
0 50 100 150 200 5 10 15 20
Time Lag
Series diff(y)
0.15
2
0.05
1
diff(y)
ACF
0
−0.05
−1
−0.15
−2
0 50 100 150 200 5 10 15 20
Time Lag
Figure 6.1 – En haut : un processus de marche aléatoire simulé {Yt } et son

ACF, avec n = 200 et σe2 = 1. En bas : le processus de première différence
∇Yt et son ACF.
43
Exemple 12. Données de ventilation. La collecte des gaz expirés pendant

l’exercice permet de quantifier de nombreux résultats lors d’un test d’effort.
L’un de ces résultats est le seuil ventilatoire ; c’est-à-dire le point auquel le
lactate commence à s’accumuler dans le sang. Les données de la Figure 6.2
sont des observations de ventilation (L/min) sur un seul cycliste pendant
l’exercice. Les observations sont enregistrées toutes les 15 secondes. Source :
Joe Alemany (printemps 2010).
— La série chronologique de ventilation {Yt } ne ressemble pas à un pro-
cessus stationnaire. Il y a une tendance linéaire croissante prononcée
au fil du temps. La non-stationnarité est également renforcée par l’exa-
men de l’ACF pour la série. En particulier, l’ACF de l’échantillon se
décroit très, très lentement (un signe certain de non-stationnarité).
— La série de différences premières ∇Yt ressemble à un processus avec
une moyenne constante. En fait, l’ACF pour ∇Yt ressemble à ce que
nous attendrions d’un processus MA(1) (c’est-à-dire un pic prononcé
à h = 1 et peu d’action ailleurs).
— Pour résumer, les preuves de la figure 6.2 suggèrent un modèle MA(1)
pour le processus de différence ∇Yt .
Series y
0.0 0.2 0.4 0.6 0.8
80
60
X11.28
ACF
40
20
0 50 100 150 200 5 10 15 20
Time Lag
Series diff(y)
10
0.0
5
X11.28
ACF
0
−0.2
−5
−0.4
−10
0 50 100 150 200 5 10 15 20
Time Lag
Figure 6.2 – Mesures de ventilation à intervalles de 15 secondes. En haut :

série de ventilation {Yt } avec son d’ACF. En bas : processus de différence
première ∇Yt avec l’ACF.
6.1 Modèles autorégressifs intégrés à moyennes

mobiles (ARIMA)
On dit qu’un processus stochastique {Yt } suit un modèle autorégressif
intégré à moyenne mobile (ARIMA) si la d ème différence Wt = ∇d Yt suit
un modèle ARMA stationnaire. Trois valeurs importantes caractérisent un
processus ARIMA :
— p, l’ordre de la partie autorégressif.
— d, le nombre de différences nécessaires pour arriver à un processus
ARMA(p, q) stationnaire.
— q, l’ordre de la partie moyenne mobile.
En particulier, on a la relation générale :
Yt est un ARIMA(p,d,q) ⇔ Wt = ∇d Yt est un ARMA(p,q)
Rappel : Un processus stationnaire ARMA(p,q) peut être représenté
par :
Φ(B)Yt = Θ(B)ϵt
Prenons d = 1 pour que le modèle ARMIA(p,d,q)
Wt = ∇Yt = Yt − BYt = (1 − B)Yt

Suit un ARMA(p,q). Alors, un processus ARIMA(p,1,q) peut être représenté
par
Φ(B)(1 − B)Yt = Θ(B)ϵt
De même, prenons d = 2 de sorte que
Wt = ∇2 Yt = Yt − 2Yt−1 − Yt−2 = (1 − B)2 Yt

Suit un ARMA(p,q). Alors, un processus ARIMA(p,2,q) peut être repré-
senté par
Φ(B)(1 − B)2 Yt = Θ(B)ϵt

En général, un processus ARIMA(p, d, q) peut être écrit comme
Φ(B)(1 − B)d Yt = Θ(B)ϵt

Remarque 22. En pratique (avec des données réelles), il est rarement né-
cessaire de prendre en compte des valeurs de l’ordre de différenciation d > 2.
La plupart des données de séries temporelles réelles peuvent être contraintes
à un processus ARMA stationnaire en prenant une différence ou parfois deux
différences (peut-être après transformation la série initialement).
6.1. MODÈLES AUTORÉGRESSIFS INTÉGRÉS À MOYENNES MOBILES (ARIMA)45
Remarque 23. Les modèles autorégressifs (AR), les modèles à moyenne

mobile (MA) et les modèles autorégressive moyenne mobile (ARMA) font
tous partie de la famille ARIMA(p, d, q). En particulier,
— AR(p) ↔ ARIMA(p,0,0)
— MA(q) ↔ ARIMA(0,0,q)
— ARMA(p,q) ↔ ARIMA(p,0,q)
— ARI(p,d) ↔ ARIMA(p,d,0)
— IMA(d,q) ↔ ARIMA(0,d,q)
Exemple 13. Supposons {ϵt } est un bruit blanc avec moyenne nulle et
var(ϵt ) = σe2 . Identifier le modèle suivant :
Yt = 1.7Yt−1 − 0.7Yt−2 + ϵt
Solution 3. Une première vue, le processus ressemble à un processus AR(2)

avec ϕ1 = 1.7 et ϕ2 = 0.7. Cependant, en y regardant de plus près, on
constate que ce processus n’est pas stationnaire car les conditions d’un AR(2)
stationnaire
ϕ1 + ϕ2 < 1, ϕ1 − ϕ2 < 1, |ϕ2 | < 1
ne sont pas satisfaites avec ϕ1 = 1.7 et ϕ2 = 0.7. Cependant, noter qu’on
peut écrire ce processus comme
Yt = 1.7Yt−1 − 0.7Yt−2 + ϵt ⇔ Yt − 1.7BYt − 0.7B 2 Yt = ϵt

⇔ (1 − 1.7B − 0.7B 2 )Yt = ϵt
⇔ (1 − 0.7B)(1 − B)Yt = ϵt
⇔ (1 − 0.7B)Wt = ϵt
ou
Wt = (1 − B)Yt = Yt − Yt−1
est la première différence. Nous identifions {Wt } comme un processus AR(1)
stationnaire avec ϕ = 0, 7. Donc, {Yt } est un processus ARIMA(1,1,0) ⇔
ARI(1,1) avec ϕ = 0.7. Ce processus ARI(1,1) est simulé dans la Figure 6.3.
6.1.1 Processus ARIMA(1,1,1)

Supposons que {ϵt } est un bruit blanc avec moyenne nulle et var(ϵt ) = σe2 .
Un processus ARIMA(p,d,q) avec p=1, d=1, q=1 est appelé un processus
ARIMA(1,1,1) et peut être exprimé comme
(1 − ϕB)(1 − B)Yt = (1 − θB)ϵt

Series y
0.8
50
ACF
0.4
y
30
10
0.0
0
0 50 100 150 200 5 10 15 20
Time Lag
Series diff(y)
4
0.6
2
0.4
diff(y)
ACF
0
0.2
−2
0.0
−4
0 50 100 150 200 5 10 15 20
Time Lag
Figure 6.3 – En haut : simulation ARI(1,1), avec ϕ = 0, 7, n = 200 et

σϵ2 = 1, et la fonction ACF. En bas : processus de première différence avec
l’exemple d’ACF.
ou d’une manière équivalente
Yt = (1 + ϕ)Yt−1 − ϕ2 Yt−2 + ϵt − θϵt−1 .
Notons que la première différence Wt = (1 − B)Yt satisfait le modèle
(1 − ϕB)Wt = (1 − θB)ϵt
que nous identifions comme un processus ARMA(1,1) avec les paramètres

ϕ et θ.
— Le processus de première différence {Wt } est stationnaire si et seule-
ment si |ϕ| < 1. Le processus de première différence {Wt } est inversible
si et seulement si |θ| < 1.
— Un processus ARIMA(1,1,1) simulé apparaît dans la Figure 6.4. La
série simulée ARIMA(1,1,1) Yt est clairement non stationnaire. La
première série de différences Wt = ∇Yt semble avoir une moyenne
constante, et son ACF ressemble à celui d’un processus ARMA(1,1)
stationnaire (comme il doit l’être).
6.2. TRANSFORMATIONS 47
Series y
0.0 0.2 0.4 0.6 0.8 1.0

80
60
ACF
y
40
20
0
0 50 100 150 200 5 10 15 20
Time Lag
Series diff(y)
0.6
4
0.4
2
diff(y)
ACF
0
0.2
−2
0.0
−4
0 50 100 150 200 5 10 15 20
Time Lag
Figure 6.4 – En haut : simulation ARIMA(1,1,1), avec n = 200, ϕ = 0.5,

θ = −0.5 et σϵ2 = 1, et l’ACF. En bas : processus de première différence avec
l’ACF.
6.2 Transformations
Si nous essayons de modéliser une série chronologique non stationnaire,
il est peut être utile de transformer les données avant d’examiner les diffé-
renciations (ou avant d’éliminer la tendance des données si nous utilisons les
méthodes de régression par exemple).
— Par exemple, s’il existe des preuves claires d’une variance non constante
dans le temps (par exemple, la variance augmente avec le temps, etc.),
une transformation appropriée des données peut supprimer (ou atté-
nuer l’impact) du modèle de variance non constante.
— L’application d’une transformation pour traiter la variance non constante
est considérée comme une « première étape ». Ceci est fait avant d’uti-
liser la différenciation comme moyen d’atteindre la stationnarité.
Exemple 14. Data file : electricity (TSA). La figure 6.5 affiche la consom-
mation mensuelle d’électricité aux États-Unis (utilisation du charbon, du gaz
naturel, du nucléaire, du pétrole et de l’éolien) entre janvier 1973 et décembre
2005.
— D’après le graphique, nous pouvons voir qu’il y a une variance crois-
sante au fil du temps ; par exemple, la série est beaucoup plus variable
les années suivantes que les années précédentes.
— Les séries chronologiques qui présentent cette forme « en éventail »
ne sont pas stationnaires car la variance change avec le temps.
— Avant d’essayer de modéliser ces données, nous devons d’abord appli-
quer une transformation pour rendre la variance constante (c’est-à-
dire que nous aimerions d’abord "stabiliser" la variance).
400000
350000
300000
electricity
250000
200000
150000
1975 1980 1985 1990 1995 2000 2005
Time
Figure 6.5 – Données d’électricité. Production mensuelle d’électricité aux

États-Unis, mesurée en millions de kilowattheures, de 1/1973 à 12/2005.
Supposons que la variance d’un processus non stationnaire {Yt } peut être
écrite comme
var(Yt ) = c0 f (µt )
ou µt = E(Yt ) et c0 est une constante positive. Alors, la variance n’est

pas constante car c’est une fonction de µt qui dépend de t. Notre objectif
est de trouver une fonction T de sorte que la série transformée T (Yt ) a une
variance constante. Une telle fonction est appelée fonction de stabilisation de
la variance.
6.2.1 Transformations de BOX-COX

Plus généralement, on peut utiliser une transformation de puissance in-
troduite par Box et Cox (1964). La transformation est définie par
 λ
 Yt −1 , λ ̸= 0
T (Yt ) =  λ
ln(Yt ), λ = 0
où λ est appelé le paramètre de transformation. Certaines valeurs cou-
rantes de λ et leurs transformations implicites sont données dans le tableau
6.1.
λ T (Yt ) Description
−2.0 1/Yt2 Carré inversé
−1.0 1/Y
√t Réciproque
−0.5 1/ Yt Racine carrée inversée
0.0 ln
√ Yt Logarithme
0.5 Yt Racine carrée
1.0 Yt Identité
2.0 Yt2 Carré
Table 6.1 – Paramètres de transformation de Box-Cox λ et leurs transfor-

mations associées.
Remarque 24. — Une transformation de stabilisation de la variance

ne peut être effectuée que sur une série positive, c’est-à-dire lorsque
Yt > 0, pour tout t. Cela s’avère non prohibitif, car si une partie ou
la totalité de la série Yt est négative, on peut simplement ajouter la
(même) constante positive c à chaque observation, où c est choisi pour
que tout devienne positif. L’ajout de c n’affectera pas les propriétés
de (non) stationnarité de {Yt }.
— N’oubliez pas qu’une transformation de stabilisation de la variance,
si nécessaire, doit être effectuée avant de prendre des différences de
données.
— Fréquemment, une transformation effectuée pour stabiliser la variance
améliorera également une approximation de la normalité.
Pour déterminer le paramètre λ,
— nous traitons λ comme un paramètre, écrivons la fonction de log-
vraisemblance des données (sous l’hypothèse de normalité) et trouvons
la valeur de λ qui maximise la fonction de log-vraisemblance, c’est-à-
dire l’estimation du maximum de vraisemblance (MLE) de λ.
— Il existe une fonction R BoxCox.ar qui effectue tous les calculs. La

fonction fournit également un intervalle de confiance d’environ 95 %
pour λ, qui est construit à l’aide des propriétés de MLE.
— Les calculs nécessaires pour produire une figure comme celle de la
figure 6.6 peuvent prendre du temps si la série est longue (c’est-à-dire
si n est grand). De plus, la log-vraisemblance n’est pas toujours aussi
«lisse» que celle de la figure 6.6.
Revenons maintenant à l’exemple d’électricité. Un intervalle de confiance
approximatif à 95 % pour λ semble être d’environ (-0.4,0.2). Étant donné
que λ = 0 se trouve dans cet intervalle, une transformation logarithmique
T (Yt ) = ln(Yt ) n’est pas déraisonnable.
1500
95%
1480
Log Likelihood
1460
1440
1420
−2 −1 0 1 2
Figure 6.6 – Données d’électricité. Fonction log-vraisemblance en fonction

de λ. Notez que λ est sur l’axe horizontal. Un intervalle de confiance à 95 %
pour λ est également indiqué.
— La série log-transformée {ln Yt } est représentée sur la figure 6.7. Nous

voyons que l’application de la transformation logarithmique a consi-
dérablement réduit la variance non constante (bien qu’il y ait toujours
une légère augmentation de la variance au fil du temps).
— Maintenant que nous avons appliqué la transformation, nous pouvons
maintenant revenir à nos techniques de modélisation précédentes. Pour
la série transformée en logarithme, il existe toujours une tendance
linéaire prononcée dans le temps. Par conséquent, nous considérons le
processus de première différence (sur l’échelle logarithmique), donnée
par
Wt = log Yt − log Yt−1 = ∇ log Yt

— Cependant, l’ACF suggère qu’il reste encore une grande quantité de
structure dans les données qui restent après la différenciation des séries
transformées en log.
— En particulier, il semble y avoir des autocorrélations significatives qui
surviennent selon un schéma saisonnier.
12.8
12.6
electricity
12.4
12.2
12.0
1975 1980 1985 1990 1995 2000 2005
Time
Figure 6.7 – Données d’électricité (transformées). Production mensuelle

d’électricité aux États-Unis mesurée sur l’échelle logarithmique.
Series diff(log(electricity))
0.8
0.1
0.6
0.4
0.0
electricity
0.2
ACF
0.0
−0.1
−0.2
−0.4
−0.2
1975 1980 1985 1990 1995 2000 2005 0.5 1.0 1.5 2.0
Time Lag
Figure 6.8 – Données d’électricité. A gauche : Wt = log Yt − log Yt−1 , la

première différence des données transformées en log. À droite : l’exemple de
fonction d’autocorrélation des données {Wt }.

Cour Prof PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cour Prof PDF

Transféré par

Droits d'auteur :

Formats disponibles

Notes de Cours de séries chronologiques pour

2 Tendances et facteurs saisonniers 9

3 Les processus ARMA et leurs propriétés 15

4 Estimation des paramètres 31

5 Validation des modèles ARMA 37

6 Modèles pour séries chronologiques non stationnaires 41

Une partie importante de l’analyse d’une série chronologique est la sélec-

Définition 1 (Série chronologique). Un modèle de série chronologique pour

Un modèle de série chronologique probabiliste complet pour la séquence

les distributions conjointes et donnent donc une caractérisation probabiliste

Définition 2 (La fonction moyenne). La fonction moyenne pour la série Xt

si elle existe, où E désigne l’opérateur d’espérance mathématique et f () la

Définition 3 (La fonction d’autocovariance). La fonction d’autocovariance

γts = Cov(Xt , Xs ), pour t = 0, ±1, ±2, ... (1.2)

Définition 4 (La fonction d’autocorrélation). La fonction d’autocorrélation

ρt,s = Corr(Xt , XS ) pour t = 0, ±1, ±2, ... (1.3)

Exemple 1 (Marche aléatoire / Random walk). Soit e1 , e2 , .. une suite de

V ar(Yt ) = V ar(e1 + e2 + ... + et )

Pour la fonction d’autocovariance, on a pour (1 ≤ t ≤ s) :

γt,s = Cov(Yt , Ys ) = Cov(e1 + e2 + .. + et , e1 + e2 + ... + es )

La fonction d’auto-corrélation de la marche aléatoire est facilement cal-

Figure 1.1 – Marche aléatoire

Exemple 2. Soit e1 , e2 , ... une suite de variables aléatoires indépendantes et

Définition 5 (Stationnarité). On dit que Xt est faiblement stationnaire (ou

Remarque 1. La stationnarité stricte d’une série temporelle {Xt , t = 0, ±1, ...}

Remarque 2. Les propriétés des fonctions d’autocovariances et d’autocor-

ne dépend que de h. Alors, un bruit blanc est un processus stationnaire. On

Exemple 4. Soit Yt une marche aléatoire, Yt = Yt−1 + et où {et } est un bruit

dépends de t. Ainsi, une marche aléatoire est un processus stochastique non

Définition 6 (Opérateur de différence ∇). l’opérateur de différenciation

Définition 7 (Opérateur de retard). On appelle opérateur de retard B,

Définition 8 (Opérateur de différenciation d’ordre n). Pour généraliser la

∇d Yt = (1 − B d )Yt = Yt − Yt−d ̸= ∇d Yt = ∇(∇d−1 )Yt = (1 − B)d Yt

La première étape de l’analyse de toute série chronologique consiste à tra-

telles que mt est la composante de tendance, st est une fonction pério-

prédiction de Yt et donc du processus d’origine.

2.1 Estimation et élimination de la tendance

2.1.1 Estimation Paramétrique

Les estimateurs β̂0 et β̂0 sont des solutions du système :

— Si k > 1 : Les estimateurs des paramètres βi , i = 1, ..., k peuvent être

Cette estimateur a une forme explicite, et est donnée par :

2.1.2 Estimation non paramétrique

2.1.3 Élimination de la tendance par différenciation

∇mt = mt − mt−1 = c0 + c1 t − (c0 + c1 (t − 1)) = c1

2.2 Estimation et élimination de la tendance

2.2.1 Estimation de la tendance et de la saisonnalité

Si d est impaire, on utilise la formule du filtre de moyennes mobiles déjà

On peut maintenant estimer la saisonnalité sur toutes les périodes comme :

2.2.2 Élimination par différentiation

2.3 Modèles de tendances et saisonnalités

2.3.1 Le modèle multiplicatif

2.3.2 Les modèles hybrides

Les processus ARMA et leurs

Les modèles ARMA permettent de représenter un grand nombre de pro-

3.1 Processus linéaires

L’équation 3.1 s’écrit d’une façon plus compacte

Un processus linéaire est un processus moyenne mobile d’ordre ∞

Remarque 5. — L’opérateur Ψ(B) peut être interprété comme un filtre

3.2 Les processus auto-régressifs

avec p ∈ N∗ , ϕp ̸= 0 et {ϵt } ∼ W N (0, σϵ2 ) et ϵt non corrélé avec Xs pour

Exemple 5. Processus AR(1) Un processus AR(1), {Xt } est une solution

En replaçant dans (3.3), on obtient

Montrons qu’elle est unique. Pour cela, supposons que Yt = ϕYt−1 + ϵt où