Académique Documents
Professionnel Documents
Culture Documents
1
RHEA.S.M
PGPDSBA en ligne Sep_B 2021
1. Problème 1 :...................................................................................................................................................
1.1. Objectif...........................................................................................................................................................
1.2. Analyse descriptive et exploratoire des données...........................................................................................
1.2.1. Analyse des données descriptives :.........................................................................................................
1.2.2. Données de séries temporelles - tracées :..............................................................................................
1.2.3. Analyse exploratoire des données :........................................................................................................
1.3. Séparation des données de formation et de test............................................................................................
1.4. Construction de différents modèles et vérification du RMSE.......................................................................
1.4.1. Régression linéaire :..............................................................................................................................
1.4.2. Modèle Naïve Bayes :............................................................................................................................
1.4.3. Moyenne simple Prévision :..................................................................................................................
1.4.4. Prévisions concernant les moyennes mobiles :.....................................................................................
1.4.5. Lissage exponentiel simple :..................................................................................................................
1.4.6. Lissage exponentiel double :.................................................................................................................
1.4.7. Triple lissage exponentiel :....................................................................................................................
1.4.8. Triple lissage exponentiel (multiplicatif) :.............................................................................................
1.5. Vérification de la stationnarité.....................................................................................................................
1.6. ARIMA et SARIMA en utilisant la méthode AIC la plus basse :......................................................................
1.7. ARIMA et SARIMA basés sur les points de coupure de l'ACF et du PACF :....................................................
1.8. Comparaison des valeurs RMSE....................................................................................................................
1.9. Construction d'un modèle optimal et de prévisions sur 12 mois..................................................................
1.10. Constatations et suggestions................................................................................................................
2
Liste des figures
Figure Nom Page
No. No.
Fig. 1 Tracé d'une série chronologique - Ventes de chaussures 5
Fig 2 Tracé de la boîte mensuelle des ventes de chaussures 6
Fig 3 Ventes mensuelles de chaussures au fil des ans 6
Fig 4 Tracé de la série temporelle avec la moyenne et la médiane 6
Fig 5 Décomposition multiplicative de l'ensemble des données 7
Fig 6 Décomposition additive de l'ensemble des données 8
Fig 7 Vente de chaussures - Formation et test fractionnés 9
Fig 8 Régression linéaire 10
Fig 9 Modèle Naïve Bayes 11
Fig 10 Moyenne simple des prévisions 11
Fig 11 Prévisions de la moyenne mobile glissante 12
Fig 12 Lissage exponentiel simple 13
Fig 13 Lissage exponentiel simple et double 13
Fig 14 Lissage exponentiel simple, double et triple 14
Fig 15 Lissage exponentiel simple, double et triple (multiplicatif) 14
Fig 16 Stationnarité des ventes de chaussures au décalage 1 16
Fig 17 AIC-ARIMA(2,1,3) A. Résumé, B. Graphique et C. Diagnostics 18
Fig 18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Résumé, B. Graphique et C. Diagnostics 20
Fig 19 Autocorrélation des données différenciées 21
Fig 20 Autocorrélation partielle de données différenciées 21
Fig 21 ACF/PACF- ARIMA(3,1,1) A. Résumé, B. Graphique et C. Diagnostics 22
Fig 22 Figure-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Résumé, B. Graphique et C. 24
Diagnostics
Fig 23 Modèle optimal Prévisions pour les 12 prochains mois 25
3
Tableau 3 Résumé des résultats de tous les modèles 24
1. Problème 1 :
1.1. Objectif
L'objectif du problème est de construire un modèle optimal pour prévoir les ventes de
paires de chaussures pour les 12 mois à venir à partir des données actuelles.
Nous devrons également commenter le modèle ainsi construit, faire part de nos
conclusions et suggérer les mesures que l'entreprise devrait prendre pour les ventes
futures.
4
Décrire une fonction sur un ensemble de données : Il n'y a pas de valeurs nulles dans
l'ensemble de données.
Une série temporelle est une série de mesures de la même variable collectées
au fil du temps. Ces mesures sont effectuées à intervalles réguliers. Une série
temporelle est une série de points de données indexés dans le temps. Le plus
souvent, une série temporelle est une séquence prise à des points successifs
également espacés dans le temps. Il s'agit donc d'une séquence de données à
temps discret.
La figure 1 ci-dessous montre clairement l'évolution annuelle des ventes de
chaussures. Ce graphique nous donne une vue d'ensemble des données sans
avoir à vérifier chaque chiffre de l'ensemble de données.
5
La figure 2 ci-dessous présente les diagrammes en boîte mensuels des ventes
de chaussures. On constate que des valeurs aberrantes sont présentes en avril
et en mai. Cela nous indique que certaines ventes ont été réalisées au cours
de ces mois et qu'elles n'étaient pas habituelles.
Nous constatons que les ventes ont tendance à s'accélérer davantage au
second semestre qu'au premier. C'est en décembre que les ventes de
chaussures sont les plus élevées.
Ce pic peut être dû à la période des fêtes de fin d'année, et peut-être que les
chaussures sont très achetées et utilisées soit pour l'autoconsommation, soit
pour les cadeaux.
Les tendances mensuelles et annuelles sont présentées dans la figure 3. Ce
pic peut être dû à l'intérêt généralisé et aux nombreuses innovations mises en
œuvre pour inciter les clients à acheter leurs produits, ce qui a permis de
stimuler les ventes.
La figure 4 présente la série chronologique ainsi que les valeurs moyenne et
médiane sur le même graphique, afin de comprendre la fluctuation des
données à partir de ces deux mesures de la tendance centrale.
En outre, la moyenne est plus élevée que la médiane, ce qui permet de
conclure que la distribution est positivement asymétrique.
6
Figure-3 Ventes mensuelles de chaussures au fil des ans
7
Figure-5 Décomposition multiplicative de l'ensemble de données
8
Figure-6 Décomposition additive de l'ensemble de données
Étant donné que nous examinons la variation de la quantité absolue pour cet
ensemble de données particulier, nous continuons à utiliser le modèle additif.
9
Données d'entraînement Tail de l'ensemble Données de test Queue de l'ensemble de
de données : données :
10
Il nous a été demandé de construire différents modèles de lissage exponentiel
sur les données d'apprentissage et d'évaluer le modèle à l'aide du RMSE sur
les données de test.
Nous devons également créer d'autres modèles tels que la régression linéaire,
les modèles de prévision naïfs, les modèles de moyenne simple, etc. et
vérifier leur performance sur les données de test à l'aide du RMSE.
L'objectif principal de l'élaboration d'un si grand nombre de modèles est de
s'assurer que nous choisissons un modèle optimal avec les valeurs RMSE et
MAPE les plus faibles.
MAPE signifie erreur moyenne absolue en pourcentage. Il s'agit de l'effet
multiplicatif moyen entre chaque moyenne estimée et le résultat observé.
RMSE signifie erreur quadratique moyenne, c'est-à-dire l'écart-type.
Les classificateurs tels que Naive Bayes utilisent un modèle linguistique pour
classer et faire des prédictions sur des séries de données temporelles. La figure
9 indique que la prévision naïve sur les données de test est toujours la même
pour l'ensemble des données, ce qui n'est pas idéal.
11
Figure-9 Modèle Naïve Bayes
Les valeurs RMSE semblent être les plus faibles pour Naïve Bayes jusqu'à
présent. Mais comme les prévisions sont constantes au fil des années, il ne s'agit
pas d'un modèle idéal pour notre ensemble de données.
La méthode est très simple. Nous faisons la moyenne des données par mois,
trimestre ou année, puis nous calculons la moyenne pour la période. Nous
chercherons ensuite à déterminer le pourcentage qu'il représente par rapport à la
moyenne générale.
12
Type de modèle RMSE
Régression sur le temps 266.276
5
Modèle naïf 245.121
3
Modèle de moyenne simple 63.9845
7
Les valeurs RMSE semblent être les plus faibles pour la méthode de la moyenne
simple jusqu'à présent. Mais comme les prévisions sont constantes au fil des
années, il ne s'agit pas d'un modèle idéal pour notre ensemble de données.
13
Moyenne de déplacement de 9 points 67.72365
Jusqu'à présent, les valeurs RMSE semblent être les plus faibles pour la méthode
de la moyenne mobile suiveuse à 2 points.
14
Figure-13 Lissage exponentiel simple et double
Un triple lissage exponentiel est utilisé pour traiter les données de séries
temporelles contenant une composante saisonnière. Cette méthode est basée
sur trois équations de lissage : composante stationnaire, tendance et
saisonnier. La saisonnalité et la tendance peuvent être additives ou
multiplicatives. Il s'agit du modèle additif.
La valeur alpha ou le niveau de lissage auquel le graphique est tracé est de
0,570, tandis que la valeur bêta ou la tendance au lissage est de 0,0001 et la
valeur gamma ou le lissage saisonnier est de 0,293.
15
La valeur alpha ou le niveau de lissage auquel le graphique est tracé est de
0,571, tandis que la valeur bêta ou la tendance au lissage est de 0,0001 et la
valeur gamma ou le lissage saisonnier est de 0,202.
Jusqu'à présent, les valeurs RMSE semblent être les plus faibles pour la méthode
de la moyenne mobile suiveuse à 2 points.
16
H1 : La série temporelle n'a pas de racine unitaire et est donc
stationnaire.
Nous voulons que la série soit stationnaire pour construire des modèles
ARIMA et nous voulons donc que la valeur p de ce test soit inférieure à la
valeur Alpha.
Lorsque la méthode ADF a été appliquée au modèle, nous avons obtenu une
valeur p de 0,801, qui est supérieure à 0,5, et nous n'avons donc pas pu rejeter
l'hypothèse nulle. Conclure que la série n'est pas stationnaire.
Nous devons maintenant effectuer une différenciation en niveau sur l'ensemble
des données et vérifier la stationnarité.
La valeur p après la différenciation de niveau 1 est de 0,0361<0,05. Nous
rejetons donc l'hypothèse nulle et concluons que la série est stationnaire avec
un retard de 1.
Vous trouverez ci-dessous une représentation graphique de cette situation. La
valeur de la statistique de test est de -3,532, tandis que le nombre de retards
utilisés est de 12.
Maintenant que les données sont stationnaires, nous pouvons passer à la
construction des modèles ARIMA et SARIMA.
17
Les langages de codage essaient différents ordres de "p" et "q" pour arriver à cette
conclusion. Rappelez-vous que même pour une telle façon de choisir les valeurs "p" et
"q", nous devons nous assurer que la série est stationnaire.
La formule de calcul de l'AIC est 2k - 2ln(L), où k est le nombre de paramètres à
estimer et L l'estimation de la vraisemblance.
Pour les modèles SARIMA, nous pouvons également estimer 'p', 'q', 'P' et 'Q' en
regardant les valeurs AIC les plus faibles.
ARIMA :
i. Nous commençons par créer une grille de tous les résultats possibles (p,d,q).
L'intervalle de "p" et "q" étant (0,4) et "d" une constante = 1.
Modèle : (0, 1, 1)
Modèle : (0, 1, 2)
Modèle : (0, 1, 3)
Modèle : (1, 1, 0)
Modèle : (1, 1, 1)
Modèle : (1, 1, 2)
Modèle : (1, 1, 3)
Modèle : (2, 1, 0)
Modèle : (2, 1, 1)
Modèle : (2, 1, 2)
Modèle : (2, 1, 3)
Modèle : (3, 1, 0)
Modèle : (3, 1, 1)
Modèle : (3, 1, 2)
Modèle : (3, 1, 3)
paramètre AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
18
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. L'AIC le plus faible pour ARIMA est clairement (2, 1, 3) avec un AIC de
1480,80. Nous adaptons maintenant les données d'entraînement au modèle et
effectuons des prévisions sur l'ensemble de test. Nous obtenons le résumé
ARIMA, le graphique et les résultats du diagnostic.
A.
B.
19
C.
iv. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées.
SARIMA :
i. Nous créons une grille de toutes les combinaisons possibles de (p,d,q) avec la
saisonnalité (P,D,Q) et la saisonnalité de 12. L'intervalle de "p" et "q" étant
(0,4) et "d" une constante = 1.
20
Modèle : (1, 1, 1)(1, 0, 1, 12)
Modèle : (1, 1, 2)(1, 0, 2, 12)
Modèle : (2, 1, 0)(2, 0, 0, 12)
Modèle : (2, 1, 1)(2, 0, 1, 12)
Modèle : (2, 1, 2)(2, 0, 2, 12)
iii. L'AIC le plus faible pour SARIMA est clairement (0, 1, 2) (1, 0, 2, 12) avec
un AIC de 1156,165429. Nous adaptons maintenant les données
d'entraînement au modèle et effectuons des prévisions sur l'ensemble de test.
Nous obtenons le résumé SARIMA, le graphique et les résultats du diagnostic.
C'est ce que montre la figure 18 ci-dessous.
iv. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées. AIC-SARIMA a les RMSE et MAPE les plus faibles jusqu'à
présent.
A.
21
B.
C.
1.7. ARIMA et SARIMA basés sur les points de coupure de l'ACF et du PACF :
22
En outre, pour les modèles saisonniers, les graphiques ACF et PACF se
comporteront de manière légèrement différente et ne continueront pas toujours à
décroître à mesure que le nombre de retards augmente.
ARIMA :
i. Nous devons observer les graphiques ACF et PACF. Nous obtenons la valeur
"p" à partir du PACF et la valeur "q" à partir du tracé de l'ACF. Voici les
tracés pour d=1 :
ii. Nous procédons ensuite à l'ajustement du modèle ARIMA dans (3,1,1). Ces
valeurs ont été déterminées à partir des graphiques ACF et PACF. Nous
obtenons le résumé ARIMA, le graphique et les résultats du diagnostic.
A.
23
B.
C.
iii. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées. AIC-SARIMA a les RMSE et MAPE les plus faibles jusqu'à
présent.
24
9 9
SARIMA :
i. Nous devons observer les graphiques ACF et PACF. Nous obtenons la valeur
"p" à partir du PACF et la valeur "q" à partir du tracé de l'ACF. D'après les
graphiques ci-dessus, les figures 19 et 20 pour d=1, fréquence=12. Nous
pouvons également trouver P, D, Q à partir du graphique ci-dessus en
recherchant les pics saisonniers.
ii. Nous passons ensuite à l'ajustement du modèle SARIMA dans (3,1,1) (2, 0, 4,
12). Ces valeurs ont été déterminées à partir des graphiques ACF et PACF.
Nous obtenons le résumé SARIMA, le graphique et les résultats du diagnostic.
A.
B.
25
C.
iii. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées. AIC-SARIMA a les RMSE et MAPE les plus faibles jusqu'à
présent.
26
5
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
AIC-ARIMA(2,1,3) 184.648 85.73498
Lissage exponentiel simple 196.404
8
Modèle naïf 245.121
3
Lissage double exponentiel 266.161
2
Régression sur le temps 266.276
5
Nous constatons que le meilleur modèle avec le plus faible RMSE est la moyenne
mobile de suivi à 2 points, suivie de toutes les autres moyennes mobiles et de la
moyenne simple également. Ensixième position, on trouve AIC-SARIMA(0, 1, 2)(1, 0, 2,
12).
Étant donné que les valeurs RMSE ne sont pas trop éloignées les unes des autres, de
la première à la sixième place, afin de faciliter le calcul et d'assurer une prévisibilité
précise, nous choisissons AIC-SARIMA(0, 1, 2)(1, 0, 2, 12). En outre, les modèles
ARIMA sont plus efficaces en termes de calcul et permettent d'obtenir des prévisions
précises.
Il prend également en considération le MAPE, et il est toujours bon d'avoir plus d'un
paramètre de précision.
Dans l'ensemble du secteur, les modèles de lissage exponentiel et d'ARIMA sont plus
populaires lorsqu'il s'agit de construire des modèles. La technique de lissage
exponentiel repose sur l'hypothèse d'une diminution exponentielle des poids pour les
données passées et la technique ARIMA est utilisée pour transformer une série
temporelle en série stationnaire et étudier la nature de la série stationnaire par le biais
de l'ACF et du PACF, puis pour tenir compte des effets autorégressifs et de moyenne
mobile dans une série temporelle, s'ils sont présents.
Nous allons construire le modèle optimal avec AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) comme
expliqué ci-dessus.
27
Figure-23 Modèle optimal Prévisions pour les 12 prochains mois
28
Les prévisions font apparaître un pic clair, avec des ventes supérieures à
celles de l'année précédente. Les fabricants doivent donc s'assurer qu'ils
disposent d'une quantité suffisante et supérieure à celle de l'année précédente.
L'entreprise peut augmenter ses ventes plus que prévu si elle se concentre sur
la publicité et le lancement de nouveaux types de chaussures uniques.
Le lancement des nouvelles chaussures permet d'attirer les clients et de les
inciter à acheter ces chaussures parce qu'elles sont uniques en leur genre. Les
fabricants bénéficient ainsi d'un avantage de premier plan.
Cela permettra de stimuler les ventes pendant un certain temps, puis la
décision d'arrêter la fabrication des types de chaussures qui ne sont pas très
populaires pourra également être prise. Cela permettra d'économiser des
ressources importantes qui pourront être utilisées ailleurs.
On peut espérer que la hausse annuelle atteindra à nouveau un sommet, car
les chaussures sont une nécessité et ce produit ne perdra jamais de son
importance.
29