Chapitre 4

Chapitre 4 : Modélisation par la méthodologie
de Box-Jenkins.
I. Etapes de l’identification
En pratique, on dispose d’une série d’observations X1, …, Xn. On cherche un modèle
ARIMA(p, d, q) pour la série transformée : Zt = Tλ(Xt). Soit,
(1 - φ1B - … - φpBp)(1 – B)d Zt = θ0 + (1 - θ1B - … - θq Bq)at ⇔ Φp(B) ∇d Zt = θ0 + Θ q(B) at
La méthodologie de Box et Jenkins comprend les étapes suivantes :
1ère étape : Déterminer la transformation de Box-Cox qui convient. C'est-à-dire chercher le λ

qui stabilise la variance.
2ème étape : Déterminer l’ordre de différentiation. C'est-à-dire chercher le d qui stabilise le

niveau.
3ème étape : Identifier les ordres p et q du modèle ARMA ajusté à la série SSL. C'est-à-dire,
Φp(B) Wt = θ0 + Θ q(B) at avec Wt = (1 – B)d Tλ(Xt).
4ème étape: Estimer les paramètres réels : φ1, … , φp, θ1, … θq, µ et σa2 du modèle ARMA.
5ème étape : Tester la validité du modèle obtenu.
Si le modèle est rejeté, on reprend la procédure depuis l’identification ou bien on applique une
correction au modèle qui n’est pas valide.
II. Transformation de Box-Cox

On cherche une transformation Box-Cox lorsque la variance n’est pas stable. Généralement
dans ce cas l’écart type est une fonction du niveau µt, σt = f(µt).
Exemple1 : Le plus courant σt croit d’une façon linéaire : σt = cµt.
1
La transformation Box-Cox qui convient est donnée par : T(x) = ∫[1/f(x)]dx. Or dans ce cas :
σt = cµt = f(µt) ⇒ T(x) = ∫[1/cx]dx = (1/c) Log|x|.
Donc il faut prendre T(Xt) = Log(Xt). Ce qui correspond à λ = 0.
Exemple2 : Si σt = cµt2 alors f(x) = cx2. Par suite T(x) = ∫[1/cx2]dx = -1/(cx). D’où il faut
prendre T(Xt) = 1/ Xt. Ce qui correspond à λ = -1.
Exercice : Si la transformation de Box-Cox qui convient est de paramètre λ, qu’elle est la

forme de la fonction f qui lie σt à µt.
Solution : Soit T(x) = (xλ – 1)/ λ = ∫[1/f(x)]dx ⇒ c/f(x) = λxλ-1/λ ⇒ f(x) = cx1-λ. Donc :
σt = f(µt) avec f(x) = cx1-λ.
Détermination de λ en pratique : En pratique, souvent il est difficile de déterminer la forme

de la fonction f. On peut montrer que la valeur de λ qui convient est celle qui rend minimale
la variance de la série transformée (Var Tλ(Xt)).
1 n 2 1 n
Soit Zt = Tλ (Xt). Un estimateur de la Var(Zt) est ∑ (Z t – Z ) où Z = ∑ Z t.
n t =1 n t =1
n
On choisira alors λ qui minimise ∑ (Z t – Z )2.
t =1
Exemple : Résultat de la transformation des données de la production annuelle du tabac (Cf.

Wei 1990 page 119).
λ 1 0,5 0 -0,5 -1
Residual Sum of Squares 7,88 5,95 5,11 5,55 7,92
D’où λ = 0 ⇒ Tλ(Xt) = Log(Xt).
2
III. Détermination de l’ordre d de différenciation
L’ordre de différenciation est déterminé à partir du graphe de la série, du corrélogramme
(graphe des ACF) et à partir du corrélogramme partiel (graphe des PACF).
On cherche d = 0, 1, 2, … tel que le niveau de la série Wt = (1 – B)d Tλ (Xt) soit stable.
Ce paramètre est déterminé d’une manière itérative, en prenant tout d’abord d = 0, ensuite d =
1, etc.
On retiendra l’ordre de différentiation qui stabilise la série.
i. Examen du graphe : Si le graphe de la série pour d donné, Wt = (1 – B)d Tλ (Xt) n’est pas
stable au niveau moyenne. Par exemple :
Cela suggère que la série doit-être différenciée.
ii. Examen du corrélogramme : Nous avons vu que les autocorrélations d’un processus
ARMA décroissent d’une manière exponentielle vers 0. Ainsi si la décroissance est lente et se
fait d’une façon linéaire, cela suggère qu’il va falloir différencier aussi.
3
IVC
1,0
,5
0,0
-,5
Limites de confiance
ACF
-1,0 Coefficient
1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16
Numéro de décalage
Décroissance lente
Décroissance rapide
Théorème : Soit rk(n) l’autocorrélation échantillonnée de délai k obtenue à partir de W1, …,

Wn.
i. Si le processus Wt est un ARMA stationnaire, alors rk(n) → ρk lorsque n → ∝. Et on sait que

ρk ↓0 exponentiellement si k↑.
ii. Si Wt est un ARIMA(p, d, q), avec d > 1 alors rk(n) → 1 lorsque n → ∝.
Ce résultat nous donne une deuxième méthode pour étudier la stationnarité en utilisant le
corrélogramme. Ainsi pour les séries de tailles assez grandes et qui sont instables au niveau
moyennes, on doit s’attendre à des autocorrélations proches de 1. Cela suggère donc qu’il faut
appliquer une différence à la série.
3. Examen du corrélogramme partiel : Si la série n’est pas stable les φk,k ne sont pas
définies et ne sont pas stables.
Si la série est stationnaire les φk,k ↓0 exponentiellement si k↑.
4
Remarque : On se trouve parfois dans des cas limites où il est assez difficile de dire si la série
est stationnaire ou pas. Dans ce cas il est souvent conseiller de différencier. On doit faire
attention cependant, car une sur différenciation conduit à un modèle non inversible.
i. Cas limite de la stationnarité : (1 – 0,9B)Wt = Θ q(B)at.

Notons que ce modèle est proche de (1 – B)Wt = Θ q(B)at.
ii. Sur différenciation : Le modèle φp(B)Wt = Θ q(B)at est inversible. Alors que Yt = (1 – B)
Wt ne l’est pas, en effet : Φp(B)Yt = (1 – B)Θ q(B)at.
IV. Identification des ordres p et q

On suppose que la série Wt = (1 – B)d Tλ (Xt) est stationnaire. Dans ce cas il y a quatre
possibilités. On peut la représenter par un modèle AR, un modèle MA, un modèle ARMA(p,
q) avec p ≥ 1, q ≥ 1, ou non ARMA.
i. Identification des modèles AR : Si Wt est un AR(p), alors on sait que les PACF sont tels
que : φp,p ≠ 0 et φk,k = 0 pour k > p.
Pour dire si Wt est un AR(p) ou non, on utilise le test d’hypothèse :
H0 : φk,k = 0 si k ≥ p+1
H1 : sinon risque α, en général 5%.
Or φˆk ,k ∼ N(0, 1/n) pour k ≥ p+1.
Règle de décision : On rejette H0 (RH0) si pour k ≥ p+1, on a | φˆk ,k | > 1,96/ n .
Autrement dit, pour α = 5% (risque de première espèce), on ne rejette pas H0 si plus de 95%
des φˆk ,k se trouve à l’intérieur de la zone de confiance : [-1,96/ n ; 1,96/ n ].
Et on RH0 sinon.
Par exemple :
Un tel graphique conduit à choisir p = 2.
5
Remarque : Un processus bruit blanc possède la même zone de confiance ci-dessus mais à
partir du délai k = 1.
ii. Identification des modèles MA : Si Wt est un MA(q), alors on sait que les ACF sont tels
que : ρq ≠ 0 et ρk = 0 pour k > q.
Pour dire si Wt est un MA (q) ou non, on utilise le test d’hypothèse :
H0 : ρk = 0 si k ≥ q+1
H1 : sinon risque α, en général 5%.
1
Or r k ∼ N(0, σrk2) pour k ≥ q+1, avec s rk2 = σˆ r 2
= [1 + 2r12+ … + 2rq2].
k n
Règle de décision : On rejette H0 (RH0) si pour k ≥ q+1, on a |r k | > 1,96s rk.
Autrement dit, pour α = 5% (risque de première espèce), on ne rejette pas H0 si plus de 95%
des r k se trouve à l’intérieur de la zone de confiance : [-1,96 s rk; 1,96s rk].
Sinon on RH0.
Remarque :
Si on veut tester si Wt est un MA (1), alors la règle de décision est : On ne rejette pas H0 si
plus de 95% des r k se trouvent à l’intérieur de la zone d’acceptation [-1,96 s rk; 1,96s rk], avec
1
sr 2 = σˆ r 2 = [1 + 2r12].
k k n
Alors que, pour tester si Wt est un MA (2), la zone d’acceptation devient : [-1,96 s rk; 1,96s rk],
1
avec sr 2 = σˆ r 2 = [1 + 2r12 + 2r22].
k k n
Remarque :
Si on veut tester si Wt est un bruit blanc, alors la zone d’acceptation est : [-1,96/ n ; 1,96/ n
] et ceci à partir du délai k = 1.
Exemples :
6
Un tel graphique conduit à choisir un modèle MA(1).
iii. Identification des modèles ARMA : Notons tout d’abord qu’il est beaucoup plus difficile
d’identifier un modèle ARMA mixte avec p ≥ 1 et q ≥ 1 qu’identifier les modèles pures AR et
MA. Nous pouvons cependant procéder de deux façons.
1ère méthode : On ajuste tout d’abord un modèle AR(p) à la série Wt, Φp(B)Wt = θ0 + εt.
On ajuste ensuite un modèle MA(q) pour la série des résidus εt, εt = Θ q(B) at.
On obtient finalement : Φp(B)Wt = θ0 + Θ q(B) at.
2ème méthode : Méthode du coin.

La méthode du coin est une méthode d’identification des modèles ARMA(p, q) due à Monfort
et Gourieroux. Elle permet de déterminer les ordres p et q du modèle.
On a vu que dans un modèle ARMA(p, q), les ρk satisfont aux équations de Yule-Walker à
partir du rang q + 1. Donc on va résoudre le système de Yule-Walker pour i = q+1, …, q+p et
on obtiendra les φk,k pour k = q+1, …, q+p.
Théorème : Le processus Xt admet une représentation ARMA(p, q) minimale si et seulement

si ρk satisfait à une équation aux différences linéaire d’ordre minimale égale à p à partir du
rang minimale égale à q+1.
Théorème : (de caractérisation du coin).

Le processus Xt admet une représentation ARMA(p, q) minimale si et seulement :
∆(i, j) = 0 ∀ i ≥ q+1 et j ≥ p+1.

∆(i, p) ≠ 0 ∀ i ≥ q.
∆(q, j) ≠ 0 ∀ j ≥ p.
Où ∆(i, j) est le déterminant de la matrice Pij. Avec :
 ρi ρi −1 . . . ρi − j +1 

 ρi +1 ρi . . . ρi − j + 2 
 . . . 
Pij =  
 . . . 
 . . . 
 
ρ ρi + j − 2 . . . ρi 
 i + j −1 
Résultat : φk,k = (-1)k-1 ∆(1, k)/ ∆(0, k).
Pratiquement la méthode du coin permet d’identifier les ordres p et q à partir des ρk.
Marche à suivre :
i. Choisir un entier K suffisamment grand pour qu’on a K > p et K > q.
ii. Calculer les ∆(i, j) pour i = 1, …, K et j = 1, …, K.
7
Alors Xt admettra une représentation ARMA(p, q) minimale si et seulement si le tableau des
∆(i, j) se présente comme suit :
j 1 … p p+1 … K
i
1
.
.
.
q x x … x
q+1 x 000000000
. . 000000000
. . 000000000
. . 000000000
K x 000000000
Remarque : On doit estimer les ∆(i, j). Pour cela on aura besoin des rk et de leurs
distributions pour décider si ces valeurs sont significativement ≠ de 0 ou non.
Théoriquement il y a donc moyen d’identifier parfaitement un ARMA(p, q). Dans la pratique

c’est plus difficile car il y a des erreurs d’échantillonnage qui apparaissent dans les rk.
Remarque : En plus, on retrouve comme cas particuliers de la méthode du coin, les méthodes
d’identification des AR(p) et MA(q) purs.
Pour un AR(p) le tableau ci-dessus devient :
j 1 … p p+1 … K
i
1 x 000000000
. x 000000000
. x 000000000
. x 000000000
q x 000000000
q+1 x 000000000
. x 000000000
. x 000000000
. x 000000000
K x 000000000
On a : φk,k = (-1)k-1 ∆(1, k)/ ∆(0, k) = 0 pour k ≥ p + 1.
Pour un MA(q) le tableau ci-dessus devient :
j 1 … p p+1 … K
i
1
.
.
8
.
q xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
q+1 0000000 0 0 0 0 0 0 0 0000000000000
. 0000000 0 0 0 0 0 0 0 0000000000000
. 0000000000000 0 0 0 0 0 0 0 0000000
. 0000000 0 0 0 0 0 0 0 0000000000000
K 0000 0 0 0 0 0 0 0 0000000000000000
Et, ρk = ∆(k, 1) = 0 pour k ≥ q + 1.
V. Estimation des paramètres réels

On aboutit au modèle ARIMA(p, d, q) :
Φp(B) Wt = θ0 + Θ q(B)at
d
où Wt = (1 – B) Tλ(Xt),
Φp(B) = 1 - φ1B - … - φpBp, et
Θ q(B) = 1 - θ1B - … - θq Bq.
Il s’agit d’estimer les paramètres inconnus : φ1, …, φp, θ1 , …, θq, µ et σa2.
i. Estimation de µ ou θ0 et test de H0 : θ0 = 0 :
Soit Wt = (1 – B)d Tλ(Xt), on a donc le modèle ARMA(p, q) :
Φp(B)Wt = θ0 + Θ q(B)at ⇔ Φp(B)(Wt - µ) = Θ q(B)at avec θ0 = Φp(1) µ.
On suppose que le modèle est stationnaire et inversible, i.e. les racines de Φp(z) = 0 et Θ q(z) =
0 sont à l’extérieur du disque unité. Or dans ces conditions Φp(1) ≠ 0, ce qui implique que :
µ = 0 ⇔ θ0 = 0.
On se propose de tester: H0 : µ = 0 ⇔ H0 : θ0 = 0 avec un risque α.

H1 : µ ≠ 0 H1 : θ0 ≠ 0
n
1
On utilise la statistique : W =
n
∑W . Or W
t =1
t ∼ N(µ, σ
W
) avec,
γ0 n −1 k γ0 n −1 γ0 K
σ
W
2
=
n
∑ (1 −
n
) ρk ≈
n
∑ ρk =
n
[1 + 2 ∑ ρk ], où K est un entier
k = −n + 1 k = −n + 1 k =1
assez grand tel que K ≤ n/4.
γˆ K
W
Statistique de test : avec s 2 = 0 [1 + 2 ∑ rk ] est un estimateur de σ 2.
s W n W
W k =1
W
Règle de décision : On RH0 si | | > 1,96 avec un risque α = 5%.
s
W
9
Remarque : Si on RH0, alors on estimera µ par W . Et on estimera θ0 par : θˆ0 = φˆp (1) W = (1 -
φˆ - … - φˆ ) W .
1 p
ii. Estimation par la méthode des moments : Soit,
Wt - φ1Wt-1 - … - φpWt-p = at - θ1at-1 - ……- θqat-q ,
avec φp, θq ≠ 0 et p et q sont connus. Le but est d’estimer par la méthode des moments les
paramètres réels : φ1, …, φp, θ1 , …, θq, et σa2. On suppose sans perte de généralité que µ = 0.
On a : γk - φ1γk-1 - … - φpγk-p = E(atWt-k) - θ1 E(at-1Wt-k) - … - θq E(at-q Wt-k).
⇒ γk - φ1γk-1 - … - φpγk-p = 0 ∀ k ≥ q+1.
⇒ ρk - φ1ρk-1 - … - φpρk-p = 0 ∀ k ≥ q+1.
Par suite: ρq+j = φ1ρq+j-1 + … + φpρq+j-p pour j = 1, …, p, nous permet d’avoir :
 ρ q +1   ρ q . . . ρ q − p +1   φ1 
    
 .   . . .  . 
 .  = . . .   . .
    
 .   . . .  . 
ρ  ρ ρq  
 q + p   q + p −1 . . .  φp 
D’où en estimant ρk par rk, on aura un estimateur de φk, k = 1, … , p.
Pour estimer θ1 , …, θq, Box et Jenkins proposent la méthode suivante : Soit,

Yt = Wt - φˆ1 Wt-1 - … - φˆp Wt-p. Or Yt est une moyenne mobile d’ordre q (MA(q)). C'est-à-
dire que :
γ0 (Y) = Var(Yt) = σ a2 (1 + θ12 + … + θq2) et
γk (Y) = Cov(Yt, Yt-k) = σ a2 (-θk + θk+1θ1 + … + θqθq-k) pour k = 1, …, q.
En estimant γk (Y) par Ck (Y) l’autocovariance échantillonnée de délai k, il reste à résoudre un

système de q+1 équations non linéaires en les q+1 paramètres inconnus θ1 , …, θq, et σa2.
Estimation de σa2: On a σa2 = γ0 (Y)/ (1 + θ12 + … + θq2). D’où un estimateur de σa2 est : sa2
= γˆ0 (Y)/ (1 + θˆ1 2 + … + θˆq 2).
Exemple : Soit, (Wt - µ) - φ1(Wt-1 - µ) = at - θ1at-1. Alors (ρ2) = (ρ1)(φ1). Par conséquent :
φˆ1 = r2 / r1.
Posons Yt = (Wt - µ) - φ1(Wt-1 - µ). Ce qui implique que :
10
γ0 (Y) = Var(Yt) = γ0 + γ0φ12 - 2φ1γ1γ0 = γ0 (1 + φ12 - 2φ1ρ1).
Or Yt est un MA(1). C'est-à-dire que : γ0 (Y) = σ a2 (1 + θ12) et γ1 (Y) = -θ1σ a2.
On déduit que : ρ1 (Y) = -θ1/(1 + θ12). Un estimateur de ρ1 (Y) est r1 (Y) l’autocorrélation
échantillonnée de délai 1 de la série Yt (connue si on estime µ et φ1). Et un estimateur de θ1
est obtenu en résolvant l’équation de second degré et en choisissant θ1 tel que : |θ1| < 1.
Et un estimateur de σ a2 est s a2 = σˆ a 2 = γˆ0 (Y)/(1 + θˆ1 2).
iii. Estimateur du maximum de vraisemblance conditionnel :
En pratique, on utilise surtout les estimateurs du maximum de vraisemblance. Ces derniers

sont donnés par les logiciels de statistique. Considérons le modèle ARMA(p, q) suivant :
Wt - φ1Wt-1 - … - φpWt-p = at - θ1at-1 - ……- θqat-q ,
où at est une suite de variables aléatoires indépendantes identiquement distribuées (i. i. d.) de
loi normale de moyenne 0 et de variance σ a2.
Pour utiliser la méthode du maximum de vraisemblance conditionnel, il faut connaître p
valeurs antérieurs au début de la série Wt et q valeurs antérieurs de at (nécessaire pour la
récurrence).
Soit W* = (W1-p, …, W-1, W0)’ et a* = (a1-q, …, a-1, a0)’. La fonction de vraisemblance
conditionnelle est donnée par :
L*(W1, …, Wn ; φ, θ, σ a2) = L(W1, …, Wn ; φ, θ, σ a2 / W*, a*)
= L(a1, …, an ; φ, θ, σ a2 / W*, a*)
car le Jacobien est le déterminant de la matrice (∂at / ∂Ws).
n n
= ∏ 2
f(at ; φ, θ, σ a / W*, a*) = ∏ f(at ; φ, θ, σ a2)
t =1 t =1
Car les at sont indépendantes du passé.
n
= (2 πσ a2)-n/2exp{[-1/(2σ a2)] ∑ at2(φ, θ / W*, a*)}. D’où,
t =1
l*(W1, …, Wn ; φ, θ, σ a2) = Log L*(W1, …, Wn ; φ, θ, σ a2) =
= -(n/2) Log(2 πσ a2) – S*(φ, θ)/(2σ a2),

n
avec S*(φ, θ) = ∑ at2(φ, θ / W*, a*).
t =1
Les quantités φˆ et θˆ estimateurs de φ, θ et qui maximisent l*(W1, …, Wn ; φ, θ, σ a2), donc

qui minimisent S*(φ, θ) sont les estimateurs du maximum de vraisemblance. Pour cela il faut
recourir à un algorithme itératif de minimisation d’une fonction à plusieurs variables.
11
Puisque le logarithme de vraisemblance ne dépend des observations qu’à travers S*(φ, θ),
alors ces estimateurs coinçident avec ceux des moindres carrés.
Notons que l’estimation par la méthode des moindres carrés se fait sans supposer la normalité
de at mais ne permet pas l’estimation de σ a2.
Or ∂l*(W1, …, Wn ; φ, θ, σ a2) / ∂σ a2 = 0 ⇔ -[n/(2σ a2)] + S*(φ, θ)/[2(σ a2)2] = 0
⇔ σ a2 = S*(φ, θ)/n.
Par conséquent, s a2 = S*( φˆ , θˆ )/n, est un estimateur de σ a2.
Remarque : Un estimateur non biaisé de σ a2 est : s a2 = σˆ a 2 = S*( φˆ , θˆ )/n-p-q-1.
Remarque : Puisque les processus Wt et at sont SSL, en pratique, on peut choisir W1-p = … =
W-1 = W0 = W et a1-q = … = a-1 = a0 = 0.
iv. Estimateur du maximum de vraisemblance non conditionnel :
On suppose que Wt est un processus gaussien. D’où le vecteur W = (W1, …, Wn)’ est de
distribution normale. C'est-à-dire que :
L(W1, …, Wn) = (2 π)-n/2|Σ|-1/2exp{[-1/2] (w - µ)’Σ-1(w - µ)}.
Avec µ = E( W ) = (µ, …, µ)’ et Σ = Var( W ) = E[ ( W - µ )( W - µ )’].
Si on a observé w1, …, wn, alors l’estimateur du maximum de vraisemblance de θ est : θˆ tel

que : L(W, θˆ ) = max L(W, θ).
θ
Exemple : Pour la série Xt = « Nombre de peaux de Lynx vendues entre 1851 et 1911 »
(Cf. Wei série n°7), on obtient un modèle AR(3). Les estimateurs du maximum de
vraisemblance sont : (1 – 0,97B + 0,12B2 + 0,5B3)[Log(Xt) – 0,58] = at.
Et les écart types des estimateurs de φ1, φ2, φ3 et µ sont respectivement : 0,12 ; 0,18 ; 0,13 et
0,038.
Pour tester la signification des paramètres on se base sur le test :

H0 : φi = 0
H1 : φi ≠ 0 risque α = 5%.
φˆi
Statistique de test : t = ∼ N(0, 1) lorsque H0 est vraie.
σˆ
φi
Règle de décision : On RH0 si |t| > 1,96.
12
Résultat : Les paramètres φ1, φ3, et µ sont significativement différents de 0, alors que φ2 ne
φˆ
l’est pas. Car | 2 | = 0,66 < 1,96.
σˆ
φ 2
v. Validation du modèle : Après avoir ajusté un modèle ARIMA aux données observées, on
va tester la validité du modèle. C'est-à-dire vérifier :
la stationnarité, l’inversibilité, la signification des paramètres et surtout si les résidus
constituent un bruit blanc. Dans ce paragraphe on va se limiter à l’analyse des résidus.
a. Calcul des résidus estimés ât :

Le modèle ajusté est un ARIMA(p, d, q). C'est-à-dire que :
Wt - φ1Wt-1 - … - φpWt-p = θ0 + at - θ1at-1 - … - θqat-q ,
D’où at = Wt - φ1Wt-1 - … - φpWt-p - θ0 + θ1at-1 + … + θqat-q.
Les résidus estimés sont obtenus par la même équation :
ât = Wt - φˆ1 Wt-1 - … - φˆp Wt-p - θˆ0 + θˆ1 at-1 + … + θˆq at-q.
On peut prendre comme valeurs initiales: W1-p = … = W-1 = W0 = W et a1-q = … = a-1 = a0 =

0.
Les valeurs ajustées par le modèle sont une estimation de Wt, t = 1, …, n, et sont données
par :
Ŵt = φˆ1 Wt-1 + … + φˆp Wt-p + θˆ0 - θˆ1 ât-1 - … - θˆq ât-q.
n n
2
Ainsi : ât = Wt - Ŵt , et s â = (1/n) ∑ 2
ât = (1/n) ∑ (Wt - Ŵt )2.
t =1 t =1
Remarque :
s â2 mesure la qualité de l’ajustement du modèle.
Vérifions si les résidus estimés ât sont la réalisation d’un bruit blanc de moyenne 0 et de
variance une constante σ a2.
b. Analyse des ACF et PACF résiduelles :
Si ât est un bb(0, σ a2) alors on a : rk(â) ∼ N(0, 1/n) ∀ k ≥ 1 et φˆk ,k (â) ∼ N(0, 1/n) ∀ k ≥ 1.
On calcule rk(â) pour k = 1, …, K (en pratique K ≤ n/4).
Si α = 5%, il faut que 95% des rk(â) vérifient : | rk(â)| < 1,96/ n .
13
Idem pour les PACF, Si α = 5%, il faut que 95% des φˆk ,k (â) vérifient : | φˆk ,k (â)| < 1,96/ n .
De tels graphiques correspondent à un bruit blanc.
Remarque : Quand on prend plusieurs valeurs de k, le risque du test n’est plus 5%.
Pour éviter ce problème, nous allons définir un test global et non pas indépendant.
c. Test de portemanteau et Statistique de Ljung Box : C’est le test :
H0 : ρ1 = ρ2 = … = ρK = 0
H1 : sinon risque α = 5%.
Proposition : La statistique de Ljung Box est définie par :
K
Q = n(n+2) ∑
k =1
(n - k)-1 rk2(â)
Si H0 est vraie, c'est-à-dire que ât est un bruit blanc, alors Q ∼ χ K2 − L . Avec L = p+q = nombre
de paramètre estimé dans le modèle.
Règle de décision : On RH0 si Q > χ K2 − L ;1−α .
Exemple : Soit une série ajustée par un modèle AR(3) (cf. Wei série n°7). Ce qui implique
que L = 3.
Pour K = 24, K – L = 21. Le quantile d’ordre 95% de la loi khi-deux à 21 degré de liberté est :
χ 21;0.95
2
= 32,7. Et la valeur observée de la statistique du test est : Qobs = 26,7.
Donc on ne rejette pas H0. C'est-à-dire qu’avec un risque 5%, on peut accepter que les résidus
constituent un bruit blanc.
d. Utilisation des résidus pour corriger le modèle : Si on RH0, c'est-à-dire que la série des
résidus ne constitue pas un bruit blanc, alors le modèle ajusté est :
Φp(B) (1 – B)d Tλ(Xt) = θ0 + Θ q(B)at, avec les ât sont autocorrélés. On peut ajuster les résidus
% (B)bt, où bt est un bruit blanc. Le modèle finale est donc :
par un MA, soit : at = Θ q'
14
Φp(B) (1 – B)d Tλ(Xt) = θ0 + Θ q(B) Θ
% (B)bt.
q'
vi. Choix entre différents modèles : On a vu que la variance résiduelle (carré moyen des
erreurs ou mean square error) donnée par :
n n
sâ2 = (1/n) ∑
t =1
ât2 = (1/n) ∑
t =1
(Wt - Wˆt )2 mesure la qualité de l’ajustement du modèle. On
choisira donc le modèle qui a la plus petite variance résiduelle. Cependant si les valeurs de sâ2
sont assez proche, on préférera celui qui a le plus petit nombre de paramètre. Finalement pour
le choix du modèle, il y a deux critères :
Critère d’ajustement par l’intermédiaire de σa2.

Critère de parcimonie par l’intermédiaire de L (nombre de paramètres estimés dans le
modèle).
Dans la littérature, on retrouve plusieurs critères pour la comparaison des modèles, en vue de
choisir le modèle adéquat.
On retient ici le critère AIC (Akaike’s Information Criterion) en 1973, et le critère BIC
(Baysian Information Criterion) en 1978.
Ces deux critères combinent une mesure d’ajustement par l’intermédiaire de σa2 et une
mesure de parcimonie par l’intermédiaire de L (nombre de paramètres estimés dans le
modèle). De meilleures prévisions, donc un MSE (Mean Square Error) plus petit, peuvent être
obtenues en augmentant le nombre de paramètres utilisés par la méthode. Ces critères
réalisent un compromis en pénalisant les paramètres introduits sans nécessité.
On a :
AIC = n Log (sâ2) + 2L,
BIC = n Log (sâ2) – (n – L) Log(1 – L/n) + Log(n)L.
On retiendra le modèle qui a le plus petit AIC et BIC. Ce dernier a des propriétés statistiques
plus intéressantes que AIC. On considère généralement qu’il pénalise les paramètres en
nombre excessif encore plus fortement que AIC.
Remarque : Pour juger de la validité de la méthode de prévision on utilise aussi l’erreur

absolue moyenne en pourcentage (mean absolute percentage error) :
1 n et
MAPE(e) = ∑ ,
n t =1 X t
Qu’on exprime généralement en pour cent. C’est un nombre sans dimension mais il faut que
X > 0.
15

Chapitre 4

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4 : Modélisation par la méthodologie

(1 - φ1B - … - φpBp)(1 – B)d Zt = θ0 + (1 - θ1B - … - θq Bq)at ⇔ Φp(B) ∇d Zt = θ0 + Θ q(B) at

La méthodologie de Box et Jenkins comprend les étapes suivantes :

1ère étape : Déterminer la transformation de Box-Cox qui convient. C'est-à-dire chercher le λ

2ème étape : Déterminer l’ordre de différentiation. C'est-à-dire chercher le d qui stabilise le

Φp(B) Wt = θ0 + Θ q(B) at avec Wt = (1 – B)d Tλ(Xt).

5ème étape : Tester la validité du modèle obtenu.

II. Transformation de Box-Cox

Exemple1 : Le plus courant σt croit d’une façon linéaire : σt = cµt.

σt = cµt = f(µt) ⇒ T(x) = ∫[1/cx]dx = (1/c) Log|x|.

Donc il faut prendre T(Xt) = Log(Xt). Ce qui correspond à λ = 0.

Exercice : Si la transformation de Box-Cox qui convient est de paramètre λ, qu’elle est la

σt = f(µt) avec f(x) = cx1-λ.

Détermination de λ en pratique : En pratique, souvent il est difficile de déterminer la forme

Exemple : Résultat de la transformation des données de la production annuelle du tabac (Cf.

Residual Sum of Squares 7,88 5,95 5,11 5,55 7,92

D’où λ = 0 ⇒ Tλ(Xt) = Log(Xt).

Cela suggère que la série doit-être différenciée.

Théorème : Soit rk(n) l’autocorrélation échantillonnée de délai k obtenue à partir de W1, …,

i. Si le processus Wt est un ARMA stationnaire, alors rk(n) → ρk lorsque n → ∝. Et on sait que

ii. Si Wt est un ARIMA(p, d, q), avec d > 1 alors rk(n) → 1 lorsque n → ∝.

i. Cas limite de la stationnarité : (1 – 0,9B)Wt = Θ q(B)at.

IV. Identification des ordres p et q

Pour dire si Wt est un AR(p) ou non, on utilise le test d’hypothèse :

Or φˆk ,k ∼ N(0, 1/n) pour k ≥ p+1.

Règle de décision : On rejette H0 (RH0) si pour k ≥ p+1, on a | φˆk ,k | > 1,96/ n .

Un tel graphique conduit à choisir p = 2.

Pour dire si Wt est un MA (q) ou non, on utilise le test d’hypothèse :

Règle de décision : On rejette H0 (RH0) si pour k ≥ q+1, on a |r k | > 1,96s rk.

On obtient finalement : Φp(B)Wt = θ0 + Θ q(B) at.

2ème méthode : Méthode du coin.

Théorème : Le processus Xt admet une représentation ARMA(p, q) minimale si et seulement

Théorème : (de caractérisation du coin).

∆(i, j) = 0 ∀ i ≥ q+1 et j ≥ p+1.

Où ∆(i, j) est le déterminant de la matrice Pij. Avec :

Résultat : φk,k = (-1)k-1 ∆(1, k)/ ∆(0, k).

Théoriquement il y a donc moyen d’identifier parfaitement un ARMA(p, q). Dans la pratique

Pour un AR(p) le tableau ci-dessus devient :

On a : φk,k = (-1)k-1 ∆(1, k)/ ∆(0, k) = 0 pour k ≥ p + 1.

Pour un MA(q) le tableau ci-dessus devient :

Et, ρk = ∆(k, 1) = 0 pour k ≥ q + 1.

V. Estimation des paramètres réels

Il s’agit d’estimer les paramètres inconnus : φ1, …, φp, θ1 , …, θq, µ et σa2.

On se propose de tester: H0 : µ = 0 ⇔ H0 : θ0 = 0 avec un risque α.

ii. Estimation par la méthode des moments : Soit,

Wt - φ1Wt-1 - … - φpWt-p = at - θ1at-1 - ……- θqat-q ,

On a : γk - φ1γk-1 - … - φpγk-p = E(atWt-k) - θ1 E(at-1Wt-k) - … - θq E(at-q Wt-k).

⇒ γk - φ1γk-1 - … - φpγk-p = 0 ∀ k ≥ q+1.

⇒ ρk - φ1ρk-1 - … - φpρk-p = 0 ∀ k ≥ q+1.

Par suite: ρq+j = φ1ρq+j-1 + … + φpρq+j-p pour j = 1, …, p, nous permet d’avoir :

D’où en estimant ρk par rk, on aura un estimateur de φk, k = 1, … , p.

Pour estimer θ1 , …, θq, Box et Jenkins proposent la méthode suivante : Soit,

γ0 (Y) = Var(Yt) = σ a2 (1 + θ12 + … + θq2) et

γk (Y) = Cov(Yt, Yt-k) = σ a2 (-θk + θk+1θ1 + … + θqθq-k) pour k = 1, …, q.

En estimant γk (Y) par Ck (Y) l’autocovariance échantillonnée de délai k, il reste à résoudre un

Posons Yt = (Wt - µ) - φ1(Wt-1 - µ). Ce qui implique que :

Or Yt est un MA(1). C'est-à-dire que : γ0 (Y) = σ a2 (1 + θ12) et γ1 (Y) = -θ1σ a2.

Et un estimateur de σ a2 est s a2 = σˆ a 2 = γˆ0 (Y)/(1 + θˆ1 2).

iii. Estimateur du maximum de vraisemblance conditionnel :

En pratique, on utilise surtout les estimateurs du maximum de vraisemblance. Ces derniers

Wt - φ1Wt-1 - … - φpWt-p = at - θ1at-1 - ……- θqat-q ,

= -(n/2) Log(2 πσ a2) – S*(φ, θ)/(2σ a2),

Les quantités φˆ et θˆ estimateurs de φ, θ et qui maximisent l*(W1, …, Wn ; φ, θ, σ a2), donc

Or ∂l*(W1, …, Wn ; φ, θ, σ a2) / ∂σ a2 = 0 ⇔ -[n/(2σ a2)] + S*(φ, θ)/[2(σ a2)2] = 0

Or ∂l(W1, …, Wn ; φ, θ, σ a2) / ∂σ a2 = 0 ⇔ -[n/(2σ a2)] + S(φ, θ)/[2(σ a2)2] = 0