Académique Documents
Professionnel Documents
Culture Documents
de Box-Jenkins.
I. Etapes de l’identification
En pratique, on dispose d’une série d’observations X1, …, Xn. On cherche un modèle
ARIMA(p, d, q) pour la série transformée : Zt = Tλ(Xt). Soit,
3ème étape : Identifier les ordres p et q du modèle ARMA ajusté à la série SSL. C'est-à-dire,
4ème étape: Estimer les paramètres réels : φ1, … , φp, θ1, … θq, µ et σa2 du modèle ARMA.
Si le modèle est rejeté, on reprend la procédure depuis l’identification ou bien on applique une
correction au modèle qui n’est pas valide.
1
La transformation Box-Cox qui convient est donnée par : T(x) = ∫[1/f(x)]dx. Or dans ce cas :
Exemple2 : Si σt = cµt2 alors f(x) = cx2. Par suite T(x) = ∫[1/cx2]dx = -1/(cx). D’où il faut
prendre T(Xt) = 1/ Xt. Ce qui correspond à λ = -1.
Solution : Soit T(x) = (xλ – 1)/ λ = ∫[1/f(x)]dx ⇒ c/f(x) = λxλ-1/λ ⇒ f(x) = cx1-λ. Donc :
λ 1 0,5 0 -0,5 -1
2
III. Détermination de l’ordre d de différenciation
L’ordre de différenciation est déterminé à partir du graphe de la série, du corrélogramme
(graphe des ACF) et à partir du corrélogramme partiel (graphe des PACF).
On cherche d = 0, 1, 2, … tel que le niveau de la série Wt = (1 – B)d Tλ (Xt) soit stable.
Ce paramètre est déterminé d’une manière itérative, en prenant tout d’abord d = 0, ensuite d =
1, etc.
On retiendra l’ordre de différentiation qui stabilise la série.
i. Examen du graphe : Si le graphe de la série pour d donné, Wt = (1 – B)d Tλ (Xt) n’est pas
stable au niveau moyenne. Par exemple :
ii. Examen du corrélogramme : Nous avons vu que les autocorrélations d’un processus
ARMA décroissent d’une manière exponentielle vers 0. Ainsi si la décroissance est lente et se
fait d’une façon linéaire, cela suggère qu’il va falloir différencier aussi.
3
IVC
1,0
,5
0,0
-,5
Limites de confiance
ACF
-1,0 Coefficient
1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16
Numéro de décalage
Décroissance lente
Décroissance rapide
Ce résultat nous donne une deuxième méthode pour étudier la stationnarité en utilisant le
corrélogramme. Ainsi pour les séries de tailles assez grandes et qui sont instables au niveau
moyennes, on doit s’attendre à des autocorrélations proches de 1. Cela suggère donc qu’il faut
appliquer une différence à la série.
3. Examen du corrélogramme partiel : Si la série n’est pas stable les φk,k ne sont pas
définies et ne sont pas stables.
Si la série est stationnaire les φk,k ↓0 exponentiellement si k↑.
4
Remarque : On se trouve parfois dans des cas limites où il est assez difficile de dire si la série
est stationnaire ou pas. Dans ce cas il est souvent conseiller de différencier. On doit faire
attention cependant, car une sur différenciation conduit à un modèle non inversible.
ii. Sur différenciation : Le modèle φp(B)Wt = Θ q(B)at est inversible. Alors que Yt = (1 – B)
Wt ne l’est pas, en effet : Φp(B)Yt = (1 – B)Θ q(B)at.
i. Identification des modèles AR : Si Wt est un AR(p), alors on sait que les PACF sont tels
que : φp,p ≠ 0 et φk,k = 0 pour k > p.
H0 : φk,k = 0 si k ≥ p+1
H1 : sinon risque α, en général 5%.
Autrement dit, pour α = 5% (risque de première espèce), on ne rejette pas H0 si plus de 95%
des φˆk ,k se trouve à l’intérieur de la zone de confiance : [-1,96/ n ; 1,96/ n ].
Et on RH0 sinon.
Par exemple :
5
Remarque : Un processus bruit blanc possède la même zone de confiance ci-dessus mais à
partir du délai k = 1.
ii. Identification des modèles MA : Si Wt est un MA(q), alors on sait que les ACF sont tels
que : ρq ≠ 0 et ρk = 0 pour k > q.
H0 : ρk = 0 si k ≥ q+1
H1 : sinon risque α, en général 5%.
1
Or r k ∼ N(0, σrk2) pour k ≥ q+1, avec s rk2 = σˆ r 2
= [1 + 2r12+ … + 2rq2].
k n
Autrement dit, pour α = 5% (risque de première espèce), on ne rejette pas H0 si plus de 95%
des r k se trouve à l’intérieur de la zone de confiance : [-1,96 s rk; 1,96s rk].
Sinon on RH0.
Remarque :
Si on veut tester si Wt est un MA (1), alors la règle de décision est : On ne rejette pas H0 si
plus de 95% des r k se trouvent à l’intérieur de la zone d’acceptation [-1,96 s rk; 1,96s rk], avec
1
sr 2 = σˆ r 2 = [1 + 2r12].
k k n
Alors que, pour tester si Wt est un MA (2), la zone d’acceptation devient : [-1,96 s rk; 1,96s rk],
1
avec sr 2 = σˆ r 2 = [1 + 2r12 + 2r22].
k k n
Remarque :
Si on veut tester si Wt est un bruit blanc, alors la zone d’acceptation est : [-1,96/ n ; 1,96/ n
] et ceci à partir du délai k = 1.
Exemples :
6
Un tel graphique conduit à choisir un modèle MA(1).
iii. Identification des modèles ARMA : Notons tout d’abord qu’il est beaucoup plus difficile
d’identifier un modèle ARMA mixte avec p ≥ 1 et q ≥ 1 qu’identifier les modèles pures AR et
MA. Nous pouvons cependant procéder de deux façons.
1ère méthode : On ajuste tout d’abord un modèle AR(p) à la série Wt, Φp(B)Wt = θ0 + εt.
On ajuste ensuite un modèle MA(q) pour la série des résidus εt, εt = Θ q(B) at.
ρi ρi −1 . . . ρi − j +1
ρi +1 ρi . . . ρi − j + 2
. . .
Pij =
. . .
. . .
ρ ρi + j − 2 . . . ρi
i + j −1
Pratiquement la méthode du coin permet d’identifier les ordres p et q à partir des ρk.
Marche à suivre :
i. Choisir un entier K suffisamment grand pour qu’on a K > p et K > q.
ii. Calculer les ∆(i, j) pour i = 1, …, K et j = 1, …, K.
7
Alors Xt admettra une représentation ARMA(p, q) minimale si et seulement si le tableau des
∆(i, j) se présente comme suit :
j 1 … p p+1 … K
i
1
.
.
.
q x x … x
q+1 x 000000000
. . 000000000
. . 000000000
. . 000000000
K x 000000000
Remarque : On doit estimer les ∆(i, j). Pour cela on aura besoin des rk et de leurs
distributions pour décider si ces valeurs sont significativement ≠ de 0 ou non.
Remarque : En plus, on retrouve comme cas particuliers de la méthode du coin, les méthodes
d’identification des AR(p) et MA(q) purs.
j 1 … p p+1 … K
i
1 x 000000000
. x 000000000
. x 000000000
. x 000000000
q x 000000000
q+1 x 000000000
. x 000000000
. x 000000000
. x 000000000
K x 000000000
j 1 … p p+1 … K
i
1
.
.
8
.
q xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
q+1 0000000 0 0 0 0 0 0 0 0000000000000
. 0000000 0 0 0 0 0 0 0 0000000000000
. 0000000000000 0 0 0 0 0 0 0 0000000
. 0000000 0 0 0 0 0 0 0 0000000000000
K 0000 0 0 0 0 0 0 0 0000000000000000
Φp(B) Wt = θ0 + Θ q(B)at
d
où Wt = (1 – B) Tλ(Xt),
Φp(B) = 1 - φ1B - … - φpBp, et
Θ q(B) = 1 - θ1B - … - θq Bq.
i. Estimation de µ ou θ0 et test de H0 : θ0 = 0 :
Soit Wt = (1 – B)d Tλ(Xt), on a donc le modèle ARMA(p, q) :
Φp(B)Wt = θ0 + Θ q(B)at ⇔ Φp(B)(Wt - µ) = Θ q(B)at avec θ0 = Φp(1) µ.
On suppose que le modèle est stationnaire et inversible, i.e. les racines de Φp(z) = 0 et Θ q(z) =
0 sont à l’extérieur du disque unité. Or dans ces conditions Φp(1) ≠ 0, ce qui implique que :
µ = 0 ⇔ θ0 = 0.
n
1
On utilise la statistique : W =
n
∑W . Or W
t =1
t ∼ N(µ, σ
W
) avec,
γ0 n −1 k γ0 n −1 γ0 K
σ
W
2
=
n
∑ (1 −
n
) ρk ≈
n
∑ ρk =
n
[1 + 2 ∑ ρk ], où K est un entier
k = −n + 1 k = −n + 1 k =1
assez grand tel que K ≤ n/4.
γˆ K
W
Statistique de test : avec s 2 = 0 [1 + 2 ∑ rk ] est un estimateur de σ 2.
s W n W
W k =1
W
Règle de décision : On RH0 si | | > 1,96 avec un risque α = 5%.
s
W
9
Remarque : Si on RH0, alors on estimera µ par W . Et on estimera θ0 par : θˆ0 = φˆp (1) W = (1 -
φˆ - … - φˆ ) W .
1 p
avec φp, θq ≠ 0 et p et q sont connus. Le but est d’estimer par la méthode des moments les
paramètres réels : φ1, …, φp, θ1 , …, θq, et σa2. On suppose sans perte de généralité que µ = 0.
ρ q +1 ρ q . . . ρ q − p +1 φ1
. . . . .
. = . . . . .
. . . . .
ρ ρ ρq
q + p q + p −1 . . . φp
Estimation de σa2: On a σa2 = γ0 (Y)/ (1 + θ12 + … + θq2). D’où un estimateur de σa2 est : sa2
= γˆ0 (Y)/ (1 + θˆ1 2 + … + θˆq 2).
Exemple : Soit, (Wt - µ) - φ1(Wt-1 - µ) = at - θ1at-1. Alors (ρ2) = (ρ1)(φ1). Par conséquent :
φˆ1 = r2 / r1.
10
γ0 (Y) = Var(Yt) = γ0 + γ0φ12 - 2φ1γ1γ0 = γ0 (1 + φ12 - 2φ1ρ1).
On déduit que : ρ1 (Y) = -θ1/(1 + θ12). Un estimateur de ρ1 (Y) est r1 (Y) l’autocorrélation
échantillonnée de délai 1 de la série Yt (connue si on estime µ et φ1). Et un estimateur de θ1
est obtenu en résolvant l’équation de second degré et en choisissant θ1 tel que : |θ1| < 1.
où at est une suite de variables aléatoires indépendantes identiquement distribuées (i. i. d.) de
loi normale de moyenne 0 et de variance σ a2.
Pour utiliser la méthode du maximum de vraisemblance conditionnel, il faut connaître p
valeurs antérieurs au début de la série Wt et q valeurs antérieurs de at (nécessaire pour la
récurrence).
Soit W* = (W1-p, …, W-1, W0)’ et a* = (a1-q, …, a-1, a0)’. La fonction de vraisemblance
conditionnelle est donnée par :
L*(W1, …, Wn ; φ, θ, σ a2) = L(W1, …, Wn ; φ, θ, σ a2 / W*, a*)
= L(a1, …, an ; φ, θ, σ a2 / W*, a*)
car le Jacobien est le déterminant de la matrice (∂at / ∂Ws).
n n
= ∏ 2
f(at ; φ, θ, σ a / W*, a*) = ∏ f(at ; φ, θ, σ a2)
t =1 t =1
Car les at sont indépendantes du passé.
n
= (2 πσ a2)-n/2exp{[-1/(2σ a2)] ∑ at2(φ, θ / W*, a*)}. D’où,
t =1
l*(W1, …, Wn ; φ, θ, σ a2) = Log L*(W1, …, Wn ; φ, θ, σ a2) =
11
Puisque le logarithme de vraisemblance ne dépend des observations qu’à travers S*(φ, θ),
alors ces estimateurs coinçident avec ceux des moindres carrés.
Notons que l’estimation par la méthode des moindres carrés se fait sans supposer la normalité
de at mais ne permet pas l’estimation de σ a2.
⇔ σ a2 = S*(φ, θ)/n.
Par conséquent, s a2 = S*( φˆ , θˆ )/n, est un estimateur de σ a2.
Remarque : Puisque les processus Wt et at sont SSL, en pratique, on peut choisir W1-p = … =
W-1 = W0 = W et a1-q = … = a-1 = a0 = 0.
On suppose que Wt est un processus gaussien. D’où le vecteur W = (W1, …, Wn)’ est de
distribution normale. C'est-à-dire que :
Exemple : Pour la série Xt = « Nombre de peaux de Lynx vendues entre 1851 et 1911 »
(Cf. Wei série n°7), on obtient un modèle AR(3). Les estimateurs du maximum de
vraisemblance sont : (1 – 0,97B + 0,12B2 + 0,5B3)[Log(Xt) – 0,58] = at.
Et les écart types des estimateurs de φ1, φ2, φ3 et µ sont respectivement : 0,12 ; 0,18 ; 0,13 et
0,038.
φˆi
Statistique de test : t = ∼ N(0, 1) lorsque H0 est vraie.
σˆ
φi
12
Résultat : Les paramètres φ1, φ3, et µ sont significativement différents de 0, alors que φ2 ne
φˆ
l’est pas. Car | 2 | = 0,66 < 1,96.
σˆ
φ 2
v. Validation du modèle : Après avoir ajusté un modèle ARIMA aux données observées, on
va tester la validité du modèle. C'est-à-dire vérifier :
la stationnarité, l’inversibilité, la signification des paramètres et surtout si les résidus
constituent un bruit blanc. Dans ce paragraphe on va se limiter à l’analyse des résidus.
Les valeurs ajustées par le modèle sont une estimation de Wt, t = 1, …, n, et sont données
par :
Ŵt = φˆ1 Wt-1 + … + φˆp Wt-p + θˆ0 - θˆ1 ât-1 - … - θˆq ât-q.
n n
2
Ainsi : ât = Wt - Ŵt , et s â = (1/n) ∑ 2
ât = (1/n) ∑ (Wt - Ŵt )2.
t =1 t =1
Remarque :
s â2 mesure la qualité de l’ajustement du modèle.
Vérifions si les résidus estimés ât sont la réalisation d’un bruit blanc de moyenne 0 et de
variance une constante σ a2.
Si ât est un bb(0, σ a2) alors on a : rk(â) ∼ N(0, 1/n) ∀ k ≥ 1 et φˆk ,k (â) ∼ N(0, 1/n) ∀ k ≥ 1.
Si α = 5%, il faut que 95% des rk(â) vérifient : | rk(â)| < 1,96/ n .
13
Idem pour les PACF, Si α = 5%, il faut que 95% des φˆk ,k (â) vérifient : | φˆk ,k (â)| < 1,96/ n .
Remarque : Quand on prend plusieurs valeurs de k, le risque du test n’est plus 5%.
Pour éviter ce problème, nous allons définir un test global et non pas indépendant.
H0 : ρ1 = ρ2 = … = ρK = 0
H1 : sinon risque α = 5%.
K
Q = n(n+2) ∑
k =1
(n - k)-1 rk2(â)
Si H0 est vraie, c'est-à-dire que ât est un bruit blanc, alors Q ∼ χ K2 − L . Avec L = p+q = nombre
de paramètre estimé dans le modèle.
Exemple : Soit une série ajustée par un modèle AR(3) (cf. Wei série n°7). Ce qui implique
que L = 3.
Pour K = 24, K – L = 21. Le quantile d’ordre 95% de la loi khi-deux à 21 degré de liberté est :
χ 21;0.95
2
= 32,7. Et la valeur observée de la statistique du test est : Qobs = 26,7.
Donc on ne rejette pas H0. C'est-à-dire qu’avec un risque 5%, on peut accepter que les résidus
constituent un bruit blanc.
d. Utilisation des résidus pour corriger le modèle : Si on RH0, c'est-à-dire que la série des
résidus ne constitue pas un bruit blanc, alors le modèle ajusté est :
Φp(B) (1 – B)d Tλ(Xt) = θ0 + Θ q(B)at, avec les ât sont autocorrélés. On peut ajuster les résidus
% (B)bt, où bt est un bruit blanc. Le modèle finale est donc :
par un MA, soit : at = Θ q'
14
Φp(B) (1 – B)d Tλ(Xt) = θ0 + Θ q(B) Θ
% (B)bt.
q'
vi. Choix entre différents modèles : On a vu que la variance résiduelle (carré moyen des
erreurs ou mean square error) donnée par :
n n
sâ2 = (1/n) ∑
t =1
ât2 = (1/n) ∑
t =1
(Wt - Wˆt )2 mesure la qualité de l’ajustement du modèle. On
choisira donc le modèle qui a la plus petite variance résiduelle. Cependant si les valeurs de sâ2
sont assez proche, on préférera celui qui a le plus petit nombre de paramètre. Finalement pour
le choix du modèle, il y a deux critères :
Dans la littérature, on retrouve plusieurs critères pour la comparaison des modèles, en vue de
choisir le modèle adéquat.
On retient ici le critère AIC (Akaike’s Information Criterion) en 1973, et le critère BIC
(Baysian Information Criterion) en 1978.
Ces deux critères combinent une mesure d’ajustement par l’intermédiaire de σa2 et une
mesure de parcimonie par l’intermédiaire de L (nombre de paramètres estimés dans le
modèle). De meilleures prévisions, donc un MSE (Mean Square Error) plus petit, peuvent être
obtenues en augmentant le nombre de paramètres utilisés par la méthode. Ces critères
réalisent un compromis en pénalisant les paramètres introduits sans nécessité.
On a :
AIC = n Log (sâ2) + 2L,
BIC = n Log (sâ2) – (n – L) Log(1 – L/n) + Log(n)L.
On retiendra le modèle qui a le plus petit AIC et BIC. Ce dernier a des propriétés statistiques
plus intéressantes que AIC. On considère généralement qu’il pénalise les paramètres en
nombre excessif encore plus fortement que AIC.
1 n et
MAPE(e) = ∑ ,
n t =1 X t
Qu’on exprime généralement en pour cent. C’est un nombre sans dimension mais il faut que
X > 0.
15