Académique Documents
Professionnel Documents
Culture Documents
Projet 5
- Prévision des séries temporelles
Rajendra M Bhat
Pour ce travail particulier, il s'agit d'analyser les données relatives aux différents types de
ventes de vin au cours du 20e siècle. Ces deux données proviennent de la même entreprise,
mais pour des vins différents. En tant qu'analyste de la société ABC Estate Wines, vous êtes
chargé d'analyser et de prévoir les ventes de vin au 20e siècle.
1 Lire les données en tant que série temporelle appropriée et tracer les données.
2 . Effectuer une analyse exploratoire des données appropriée pour comprendre les données
et effectuer une décomposition.
Evolution pour chaque mois au cours des années des ventes de vin-Rose
Ventes de vins mousseux
Essayez de construire autant de modèles que possible et autant d'itérations de modèles que possible avec
différents paramètres.
Test RMSE
2pointTrailingMovingAverage 11.529811
4pointTrailingMovingAverage 14.457115
6pointTrailingMovingAverage 14.571789
Moyenne de déplacement de 9
14.731914
points
Alpha=0,995,LissageExponentielSimple 36.819844
Alpha=0.995,Beta=0.995:DoubleLissageExponentiel 15.276679
Alpha=0.99,Beta=0.0001,Gamma=0.005:DoubleLissageExponentiel 20.962011
Alpha=0,02,LissageExponentielSimple 36.459396
Test RMSE
2pointTrailingMovingAverage 813.400684
4pointTrailingMovingAverage 1156.589694
6pointTrailingMovingAverage 1283.927428
Test RMSE
Alpha=0,995,LissageExponentielSimple 1316.034674
Alpha=0.995,Beta=0.995:LissageDoubleExponentiel 2007.238526
Alpha=0.99,Beta=0.0001,Gamma=0.005:DoubleLissageExponentiel 469.591976
Alpha=0,02,LissageExponentielSimple 1279.495201
5. Vérifier la stationnarité des données sur lesquelles le modèle est construit à l'aide de tests
statistiques appropriés et mentionner également l'hypothèse du test statistique. Si les données
s'avèrent non stationnaires, prenez les mesures appropriées pour les rendre stationnaires. Vérifiez la
stationnarité des nouvelles données et commentez-les. Note : La stationnarité doit être vérifiée à alpha
= 0,05.
Pour vérifier si la série est stationnaire, nous utilisons le test ADF (Augmented Dickey Fuller) dont l'hypothèse
nulle et l'hypothèse alternative peuvent être simplifiées comme suit
-Hypothèse nulleH0: la série temporelle n'est pas stationnaire.
-Hypothèse alternativeHa: la série temporelle est stationnaire
Ventes de vin
rosé
Modèle ARIMA
Valeurs AIC par ordre décroissant
paramè
tre AIC
17 (3, 1, 3) 1273.194108
4 (1, 1, 2) 1277.359223
3 (1, 1, 1) 1277.775747
paramè
tre AIC
9 (2, 1, 1) 1279.045689
10 (2, 1, 2) 1279.298694
5 (1, 1, 3) 1279.312635
15 (3, 1, 1) 1279.605966
16 (3, 1, 2) 1280.969245
11 (2, 1, 3) 1281.196226
1 (1, 0, 2) 1292.053210
7 (2, 0, 2) 1292.248055
2 (1, 0, 3) 1292.929011
6 (2, 0, 1) 1292.937195
14 (3, 0, 3) 1293.042709
8 (2, 0, 3) 1294.247938
0 (1, 0, 1) 1294.510585
12 (3, 0, 1) 1333.933193
13 (3, 0, 2) 1355.403813
Résultats du modèle
ARIMA
Dép. Variable : D.Rose Non. Observations : 131 -
Modèle : ARIMA(3, 1, 3) Log Likelihood 628.597
Méthode : css-mle D.S. des innovations 28.355
Date : Sam, 06 Mar 2021 AIC 1273.194
Le temps : 14:46: 16 BIC 1296.196
Échantillon : 02-01-19 80 HQIC 1282.541
- 12-01-19 90
============== ============
coef std err z P>|z| [0.025
0.975]
--------------
-0.4906 0.088 -5.548 0.000 -0.664 -0.317
constante
ar.L1.D.Rose -0.7244 0.086 -8.417 0.000 -0.893 -0.556
ar.L2.D.Rose -0.7218 0.086 -8.349 0.000 -0.891 -0.552
ar.L3.D.Rose 0.2763 0.085 3.236 0.001 0.109 0.444
ma.L1.D.Rose -0.0150 0.044 -0.338 0.735 -0.102 0.072
ma.L2.D.Rose 0.0150 0.044 0.339 0.734 -0.072 0.102
ma.L3.D.Rose -1.0000 0.046 -21.918 0.000 -1.089 -0.911
Racines
============== =========
Réel Imaginaire Module
Fréquence
--------------
-0.5011 -0 .8661j 1.0006 -0.3335
AR.1
AR.2 -0.5011 +0 .8661j 1.0006 0.3335
AR.3 3.6147 -0 .0000j 3.6147 -0.0000
MA.1 1.0000 -0 .0000j 1.0000 -0.0000
MA.2 -0.4925 -0 .8703j 1.0000 -0.3320
MA.3 -0.4925 +0 .8703j 1.0000 0.3320
Modèle SARIMA
Valeurs AIC par ordre décroissant (10 enregistrements pour l'AIC le plus bas)
paramè
tre saisonnier AIC
L'AIC le plus bas est : 774.969 avec param (0,1,2) et saisonnier (2,1,2,12).
Résultats de SARIMAX
======================== Non. Observations ==============
y :
Dép. Variable
Modèle : :
ARIMAX(0, 1, 2)x(2, 1 , 2, 12) Log Likelihood 132
-380.485
Date : sam, 06 mars 2021 AIC 774.969
Le temps : 13:41:44 BIC 792.622
Échantillo 0 HQIC 782.094
n : - 132
Covariance Type : opg
========== =========
coef std err z P>|z| [0.025
0.975]
----------
-0.9524 0.184 -5.166 0.000 -1.314 -0.591
ma.L1
ma.L2 -0.0764 0.126 -0.605 0.545 -0.324 0.171
ar.S.L12 0.0480 0.177 0.271 0.786 -0.299 0.395
ar.S.L24 -0.0419 0.028 -1.513 0.130 -0.096 0.012
ma.S.L12 -0.7526 0.301 -2.503 0.012 -1.342 -0.163
ma.S.L24 -0.0721 0.204 -0.354 0.723 -0.471 0.327
sigma2 187.8679 45.274 4.150 0.000 99.132 276.604
========== ==============
(L1) (Q) : 0.06 Jarque-Bera (JB ):
Ljung-Box
Prob(Q) : 0.81 Prob(JB) : 4.86
0.09
Hétéroscédasticité (H) : 0.91 Obliquité : 0.41
Prob(H) (bilatéral) : 0.79 Kurtosis : 3.77
Modèle ARIMA
Valeurs AIC par ordre décroissant
paramè
tre AIC
8 (2, 1, 2) 2210.616954
7 (2, 1, 1) 2232.360490
paramè
tre AIC
2 (0, 1, 2) 2232.783098
5 (1, 1, 2) 2233.597647
4 (1, 1, 1) 2235.013945
6 (2, 1, 0) 2262.035601
1 (0, 1, 1) 2264.906439
3 (1, 1, 0) 2268.528061
0 (0, 1, 0) 2269.582796
paramè
tre saisonnier AIC
L'AIC le plus bas est : 1382.347780 avec les paramètres (1,1,2) et saisonnier 0,1,2,12).
Résultats de SARIMAX
======================================= ==============
y Non. Observations :
Dep. Variable : 132
Modèle : SARIMAX(0, 1, 2)x(0, 1, 2, 12) Log Probabilité
Date : Dimanch Fév 2 021 AIC -686.242
Le temps : e, 28 18: 0 :38 BIC 1382.484
Échantillon 1395.093
6 0 HQIC
: 1387.573
132
Type : - opg
Covariance
==========
coef std err z P>|z| [0.025 0. 975]
---------- -
-0.7223 0.107 .752 0.000 -0.932 -0 .513
ma.L1 6
ma.L2 -0.2292 0.137 - .671 0.095 -0.498 0.040
ma.S.L12 -0.4113 0.087 1
- .743 0.000 -0.581 -0 .241
ma.S.L24 -0.0419 0.138 4
- .304 0.761 -0.312 0.228
sigma2 1.736e+05 2.06e+04 0
8 .425 0.000 1. 33e+05 2.14e+05
Ljung-Box (L1) (Q) : 0.02 Jarque-Bera (JB) : 27.42
Prob(Q) : 0.88 Prob(JB) : 0.00
Hétéroscédasticité (H) : 0.84 Obliquité : 0.80
Prob(H) (bilatéral) : 0.62 Kurtosis : 5.15
7. Construire des modèles ARIMA/SARIMA basés sur les points de coupure de l'ACF et du PACF sur
les données d'apprentissage et évaluer ce modèle sur les données de test à l'aide du RMSE.
En prenant ces paramètres (4,1,2), les résultats ARIMA sont les suivants
==============
coef std err z P>|z| [0.025 0.975]
--------------
-0.1905 0.576 -0.331 0.741 -1.319 0.938
constante
ar.L1.D.Rose 1.1685 0.087 13.391 0.000 0.997 1.340
ar.L2.D.Rose -0.3562 0.132 -2.693 0.007 -0.616 -0.097
ar.L3.D.Rose 0.1855 0.132 1.402 0.161 -0.074 0.445
ar.L4.D.Rose -0.2227 0.091 -2.443 0.015 -0.401 -0.044
ma.L1.D.Rose -1.9506 nan nan nan nan nan
ma.L2.D.Rose 1.0000 nan nan nan nan nan
Racines
============== =========
Réel Imaginaire Module
Fréquence
--------------
1.1027 -0.4116j 1.1770 -0.0569
AR.1
AR.2 1.1027 +0.4116j 1.1770 0.0569
AR.3 -0.6863 -1.6643j 1.8003 -0.3122
AR.4 -0.6863 +1.6643j 1.8003 0.3122
MA.1 0.9753 -0.2209j 1.0000 -0.0355
MA.2 0.9753 +0.2209j 1.0000 0.0355
En prenant ces paramètres (4,1,2) et (4,1,2,12), les résultats de SARIMA sont les suivants.
Résultats de SARIMAX
Dép. Variable : y Non. Observations : 132
Modèle : SARIMAX(4, 1, 2)x(4, 1, 2, 12) Log Likelihood -277.661
Date : Dimanche, 07 mars 2021 AIC
Le temps : 581.322
Échantillon : 14:22:21 BIC 609.983
0 HQIC 592.663
Covariance Type : - opg
132
======================= =======================================================
coef std err z P>|z| [0.025 0.975]
----------------------- ---------------------------------------------------------
ar.L1 -0.9742 0.199 -4.899 0.000 -1.364 -0.584
ar.L2 -0.1122 0.285 -0.394 0.694 -0.670 0.446
ar.L3 -0.1044 0.277 -0.377 0.706 -0.647 0.438
ar.L4 -0.1285 0.162 -0.794 0.427 -0.446 0.189
ma.L1 0.1605 328.137 0.000 1.000 -642.976 643.297
ma.L2 -0.8395 275.462 -0.003 0.998 -540.734 539.055
ar.S.L12 -0.1441 0.364 -0.396 0.692 -0.858 0.569
ar.S.L24 -0.3597 0.227 -1.587 0.113 -0.804 0.085
ar.S.L36 -0.2153 0.106 -2.039 0.041 -0.422 -0.008
ar.S.L48 -0.1195 0.093 -1.281 0.200 -0.302 0.063
ma.S.L12 -0.5159 0.343 -1.503 0.133 -1.189 0.157
ma.S.L24 0.2086 0.373 0.559 0.576 -0.523 0.940
sigma2 215.3512 7.07e+04 0.003 0.998 -1.38e+05 1.39e+05
======================= ===============
0.03 Problèmes de (JB) :
Ljung-Box (L1) (Q) : 0.86 Jarque-Bera 2.41
Prob(Q) : 0.49 (JB) : Skew : 0.30
Hétéroscédasticité (H) : 0.10 Kurtosis : 0.32
Prob(H) (bilatéral) : 3.68
En prenant ces paramètres (3,1,2), les résultats de l'ARIMA sont les suivants
Résultats du modèle ARIMA
En prenant ces paramètres (3,1,2) et (3,1,2,12), les résultats de SARIMA sont les suivants.
Résultats de SARIMAX
8. Construisez un tableau (créez un cadre de données) avec tous les modèles construits ainsi que
leurs paramètres correspondants et les valeurs RMSE respectives sur les données de test.
2pointTrailingMovingAverage 11.529811
4pointTrailingMovingAverage 14.457115
6pointTrailingMovingAverage 14.571789
Alpha=0,995,LissageExponentielSimple 36.819844
Alpha=0.995,Beta=0.995:LissageDoubleExponentiel 15.276679
Alpha=0.99,Beta=0.0001,Gamma=0.005:DoubleLissageExponentiel 20.962011
Alpha=0,02,LissageExponentielSimple 36.459396
ARIMA(3, 1, 3) 15.99
ARIMA(4, 1, 2) 33.97
2pointTrailingMovingAverage 813.400684
4pointTrailingMovingAverage 1156.589694
6pointTrailingMovingAverage 1283.927428
Moyenne de déplacement de 9
1346.278315
points
Alpha=0,995,LissageExponentielSimple 1316.034674
Alpha=0.995,Beta=0.995:LissageDoubleExponentiel 2007.238526
Alpha=0.99,Beta=0.0001,Gamma=0.005:DoubleLissageExponentiel 469.591976
Alpha=0,02,LissageExponentielSimple 1279.495201
ARIMA(2, 1, 2) 1375.03
ARIMA(3, 1, 2) 1375.10
9. Sur la base de l'exercice de construction de modèles, construisez le(s) modèle(s) le(s) plus
optimal(s) sur les données complètes et faites des prévisions à 12 mois avec les intervalles de
confiance/bandes appropriés.
Étant donné que les données de Rose ont une composante claire de saisonnalité, le modèle SARIMA a été choisi pour
prévoir la série chronologique et les détails du modèle sont les suivants Par conséquent, le modèle SARIMA avec les
paramètres (0,1,2)x(2,1,2,12) est sélectionné pour la prévision des séries de lignes temporelles et les détails du modèle
sont les suivants.
Résultats de SARIMAX
====================== ==============
Rose Non. Observations :
Dép. Variable
Modèle : :
SARIMAX(0, 1, 2)x(2, 1, 2, 12) Log Likelihood 187
-588.604
Date : Sam, 06 Mar 2021 AIC 1191.208
Le temps : 13:41:48 BIC 1212.142
Échantillo 01-01-1980 HQIC 1199.714
n : - 07-01-1995
Covariance Type : opg
========== =========
coef std err z P>|z| [0.025
0.975]
---------- ---------
-0.8254 0.080 -10.334 0.000 -0.982
ma.L1
ma.L2 -0.0807 0.086 -0.934 0.350 -0.250 -0.669
0.089
ar.S.L12 0.0635 0.160 0.398 0.691 -0.249 0.376
ar.S.L24 -0.0340 0.019 -1.790 0.074 -0.071 0.003
ma.S.L12 -0.6953 0.207 -3.360 0.001 -1.101 -0.290
ma.S.L24 -0.0547 0.150 -0.365 0.715 -0.348 0.239
sigma2 166.0900 17.899 9.279 0.000 131.008 201.172
========== ==============
(L1) (Q) : 0.07 Jarque-Bera (JB) :
Ljung-Box 8.28
Prob(Q) : 0.79 Prob(JB) 0.02
Hétéroscédasticité (H) : 0.51 : 0.33
Prob(H) (bilatéral) : 0.02 Obliquité 3.95
:
Kurtosis
Diagnostics du modèle final pour Rose :
Le RMSE du modèle
complet est de 33,47
Les données relatives aux ventes de produits pétillants comportent un élément de saisonnalité. Par conséquent, le
modèle SARIMA avec para-mètres (0,1,2) (0, 1, 2, 12) est proposé pour la prévision des 12 prochains mois en utilisant des
données complètes. Les détails du modèle sont les suivants.
SARIMAXRésultats
====================== ===============
Pétillant Non. Observations :
Dép. Variable
Modèle : :
SARIMAX(0, 1, 2)x(0, 1, 2, 12) Jour Probabilité 187
-1087.003
Date : Dimanche, 28 février nal
AIC 2184.006
Le temps : 2021 BIC
18:26:36 2198.958
Échantillo 01-01-1980 HQIC 2190.081
n : - 07-01-1995
Covariance Type : opg
========== ==========
coef std err z P>|z| [0.025
0.975]
----------
-0.9094 0.104 -8.713 0.000 -1.114 -0.705
ma.L1
ma.L2 -0.1316 0.087 -1.507 0.132 -0.303 0.040
ma.S.L12 -0.5456 0.065 -8.393 0.000 -0.673 -0.418
ma.S.L24 -0.0202 0.084 -0.241 0.810 -0.185 0.145
sigma2 1.419e+05 1.32e+04 10.755 0.000 1.16e+05 1.68e+05
========== ===============
(L1) (Q) : 0.01 Jarque-Bera (JB) :
Ljung-Box
Prob(Q) : 0.91 Prob(JB) : 49.28
0.00
Hétéroscédasticité (H) : 0.79 Obliquité : 0.74
Prob(H) (bilatéral) : 0.42 Kurtosis : 5.41
Les prévisions de ventes de Sparkling pour les 12 prochains mois sont les suivantes
moye moyenne_ci_infé moyenne_ci_sup
Pétillant moyenne_se
n rieure érieure
1995-08-01 1874.535574 390.423218 1109.320128 2639.751020
10. Commentez le modèle ainsi construit, faites part de vos conclusions et suggérez les mesures que
l'entreprise devrait prendre pour ses ventes futures.
La tendance des ventes de roses est en baisse constante au cours de la période. Une étude détaillée pourrait être
nécessaire pour déterminer si la tendance à la baisse est due à un changement dans les préférences des consommateurs
ou à un phénomène de substitution. La saisonnalité des ventes est observée, et les ventes les plus élevées se
maintiennent en fin d'année. Certains programmes de promotion et d'amélioration de la qualité du produit peuvent être
examinés afin d'attirer la nouvelle génération de clients.