PROJET PROLONGÉ-Shoe - Sales

PROJET ÉTENDU
PRÉVISION DES SÉRIES

TEMPORELLES
VENTE DE CHAUSSURES - RAPPORT

D'ACTIVITÉ
1
RHEA.S.M
PGPDSBA en ligne Sep_B 2021
Table des matières
1. Problème 1 :...................................................................................................................................................
1.1. Objectif...........................................................................................................................................................
1.2. Analyse descriptive et exploratoire des données...........................................................................................
1.2.1. Analyse des données descriptives :.........................................................................................................
1.2.2. Données de séries temporelles - tracées :..............................................................................................
1.2.3. Analyse exploratoire des données :........................................................................................................
1.3. Séparation des données de formation et de test............................................................................................
1.4. Construction de différents modèles et vérification du RMSE.......................................................................
1.4.1. Régression linéaire :..............................................................................................................................
1.4.2. Modèle Naïve Bayes :............................................................................................................................
1.4.3. Moyenne simple Prévision :..................................................................................................................
1.4.4. Prévisions concernant les moyennes mobiles :.....................................................................................
1.4.5. Lissage exponentiel simple :..................................................................................................................
1.4.6. Lissage exponentiel double :.................................................................................................................
1.4.7. Triple lissage exponentiel :....................................................................................................................
1.4.8. Triple lissage exponentiel (multiplicatif) :.............................................................................................
1.5. Vérification de la stationnarité.....................................................................................................................
1.6. ARIMA et SARIMA en utilisant la méthode AIC la plus basse :......................................................................
1.7. ARIMA et SARIMA basés sur les points de coupure de l'ACF et du PACF :....................................................
1.8. Comparaison des valeurs RMSE....................................................................................................................
1.9. Construction d'un modèle optimal et de prévisions sur 12 mois..................................................................
1.10. Constatations et suggestions................................................................................................................
2
Liste des figures
Figure Nom Page
No. No.
Fig. 1 Tracé d'une série chronologique - Ventes de chaussures 5
Fig 2 Tracé de la boîte mensuelle des ventes de chaussures 6
Fig 3 Ventes mensuelles de chaussures au fil des ans 6
Fig 4 Tracé de la série temporelle avec la moyenne et la médiane 6
Fig 5 Décomposition multiplicative de l'ensemble des données 7
Fig 6 Décomposition additive de l'ensemble des données 8
Fig 7 Vente de chaussures - Formation et test fractionnés 9
Fig 8 Régression linéaire 10
Fig 9 Modèle Naïve Bayes 11
Fig 10 Moyenne simple des prévisions 11
Fig 11 Prévisions de la moyenne mobile glissante 12
Fig 12 Lissage exponentiel simple 13
Fig 13 Lissage exponentiel simple et double 13
Fig 14 Lissage exponentiel simple, double et triple 14
Fig 15 Lissage exponentiel simple, double et triple (multiplicatif) 14
Fig 16 Stationnarité des ventes de chaussures au décalage 1 16
Fig 17 AIC-ARIMA(2,1,3) A. Résumé, B. Graphique et C. Diagnostics 18
Fig 18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Résumé, B. Graphique et C. Diagnostics 20
Fig 19 Autocorrélation des données différenciées 21
Fig 20 Autocorrélation partielle de données différenciées 21
Fig 21 ACF/PACF- ARIMA(3,1,1) A. Résumé, B. Graphique et C. Diagnostics 22
Fig 22 Figure-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Résumé, B. Graphique et C. 24
Diagnostics
Fig 23 Modèle optimal Prévisions pour les 12 prochains mois 25
Liste des tableaux

Tableau n°. Nom Page No.
Tableau 1 Résumé des informations statistiques descriptives 4
Tableau 2 S'entraîner et tester le fractionnement 9
3
Tableau 3 Résumé des résultats de tous les modèles 24
1. Problème 1 :
1.1. Objectif
 L'objectif du problème est de construire un modèle optimal pour prévoir les ventes de
paires de chaussures pour les 12 mois à venir à partir des données actuelles.
 Nous devrons également commenter le modèle ainsi construit, faire part de nos
conclusions et suggérer les mesures que l'entreprise devrait prendre pour les ventes
futures.
1.2. Analyse descriptive et exploratoire des données
Contexte : Vous êtes analyste au sein de l'entreprise de chaussures IJK et vous

devez prévoir les ventes de paires de chaussures pour les 12 mois à venir à partir des
données disponibles. Les données relatives aux ventes de paires de chaussures vous
ont été communiquées pour la période allant de janvier 1980 à juillet 1995.
Dictionnaire de données :
AnnéeMois : Mois et année de vente des chaussures
Vente de La vente mensuelle de chaussures
1.2.1. chaussures : Analys
e des données descriptives :
 L'ensemble des données a été lu et stocké sous forme de cadre de données en

vue d'une analyse ultérieure.
 L'ensemble de données fourni se compose de 2 colonnes au total et comporte
187 entrées de nature numérique. Il n'y a pas de valeurs nulles.
 La première colonne représente la date à laquelle les ventes de chaussures
ont été enregistrées. La deuxième colonne représente les ventes elles-mêmes.
 Le tableau 1 suivant comprend les fonctions head(), tail(), info() et la
description de l'ensemble de données en question.
Tableau-1 : Résumé des informations statistiques descriptives
Tête de l'ensemble de Queue de l'ensemble de Informations sur l'ensemble des données :

données : données :
4
Décrire une fonction sur un ensemble de données : Il n'y a pas de valeurs nulles dans
l'ensemble de données.
1.2.2. Données de séries temporelles - tracées :
 Une série temporelle est une série de mesures de la même variable collectées
au fil du temps. Ces mesures sont effectuées à intervalles réguliers. Une série
temporelle est une série de points de données indexés dans le temps. Le plus
souvent, une série temporelle est une séquence prise à des points successifs
également espacés dans le temps. Il s'agit donc d'une séquence de données à
temps discret.
 La figure 1 ci-dessous montre clairement l'évolution annuelle des ventes de
chaussures. Ce graphique nous donne une vue d'ensemble des données sans
avoir à vérifier chaque chiffre de l'ensemble de données.
Figure-1 Tracé de la série temporelle - Ventes de chaussures
1.2.3. Analyse exploratoire des données :
 L'analyse exploratoire des données fait référence au processus critique

consistant à effectuer des recherches initiales sur les données afin de
découvrir des modèles, de repérer des anomalies et de tester des hypothèses.
5
 La figure 2 ci-dessous présente les diagrammes en boîte mensuels des ventes
de chaussures. On constate que des valeurs aberrantes sont présentes en avril
et en mai. Cela nous indique que certaines ventes ont été réalisées au cours
de ces mois et qu'elles n'étaient pas habituelles.
 Nous constatons que les ventes ont tendance à s'accélérer davantage au
second semestre qu'au premier. C'est en décembre que les ventes de
chaussures sont les plus élevées.
 Ce pic peut être dû à la période des fêtes de fin d'année, et peut-être que les
chaussures sont très achetées et utilisées soit pour l'autoconsommation, soit
pour les cadeaux.
 Les tendances mensuelles et annuelles sont présentées dans la figure 3. Ce
pic peut être dû à l'intérêt généralisé et aux nombreuses innovations mises en
œuvre pour inciter les clients à acheter leurs produits, ce qui a permis de
stimuler les ventes.
 La figure 4 présente la série chronologique ainsi que les valeurs moyenne et
médiane sur le même graphique, afin de comprendre la fluctuation des
données à partir de ces deux mesures de la tendance centrale.
 En outre, la moyenne est plus élevée que la médiane, ce qui permet de
conclure que la distribution est positivement asymétrique.
Figure-2 Box plot mensuel des ventes de chaussures
6
Figure-3 Ventes mensuelles de chaussures au fil des ans
Figure-4 Tracé de la série temporelle avec la moyenne et la médiane

 DÉCOMPOSITION DE L'ENSEMBLE DES DONNÉES :
La décomposition des séries temporelles consiste à considérer une série

comme une combinaison de composantes de niveau, de tendance, de
saisonnalité et de bruit. La décomposition fournit un modèle abstrait utile
pour réfléchir aux séries temporelles en général et pour mieux comprendre
les problèmes liés à l'analyse et à la prévision des séries temporelles. Ils sont
de deux types, généralement multiplicatifs et additifs.
(i) Décomposition multiplicative de l'ensemble des données :

Les données sont représentées en termes de multiplication des
composantes saisonnières, tendancielles, cycliques et résiduelles.
Utilisé lorsque le changement est mesuré en pourcentage (%).
7
Figure-5 Décomposition multiplicative de l'ensemble de données
(ii) Décomposition additive de l'ensemble des données :

Les données sont représentées en termes d'addition des composantes
saisonnières, tendancielles, cycliques et résiduelles. Utilisé lorsque le
changement est mesuré en quantité absolue.
8
Figure-6 Décomposition additive de l'ensemble de données
Étant donné que nous examinons la variation de la quantité absolue pour cet
ensemble de données particulier, nous continuons à utiliser le modèle additif.
1.3. Séparation des données de formation et de test
La répartition formation-test est utilisée pour estimer les performances des

algorithmes d'apprentissage automatique qui sont applicables aux
algorithmes/applications basés sur la prédiction. Cette méthode est une procédure
rapide et facile à mettre en œuvre qui nous permet de comparer les résultats de notre
propre modèle d'apprentissage automatique aux résultats de la machine.
Les deux ensembles de données ont été divisés à l'année 1991. Cela signifie que les
données de test commencent à partir de 1991.
Tableau 2 : Répartition entre la formation et le test
Données d'entraînement Tête de l'ensemble Données de test Tête de l'ensemble de

de données : données :
9
Données d'entraînement Tail de l'ensemble Données de test Queue de l'ensemble de
de données : données :
Train Data Shape = (132, 1) Données d'essai Forme = (55, 1)
Représentation graphique de la séparation du train et du test :
Figure-7 Ventes de chaussures - Répartition entre le train et l'essai
1.4. Construction de différents modèles et vérification du RMSE
10
 Il nous a été demandé de construire différents modèles de lissage exponentiel
sur les données d'apprentissage et d'évaluer le modèle à l'aide du RMSE sur
les données de test.
 Nous devons également créer d'autres modèles tels que la régression linéaire,
les modèles de prévision naïfs, les modèles de moyenne simple, etc. et
vérifier leur performance sur les données de test à l'aide du RMSE.
 L'objectif principal de l'élaboration d'un si grand nombre de modèles est de
s'assurer que nous choisissons un modèle optimal avec les valeurs RMSE et
MAPE les plus faibles.
 MAPE signifie erreur moyenne absolue en pourcentage. Il s'agit de l'effet
multiplicatif moyen entre chaque moyenne estimée et le résultat observé.
RMSE signifie erreur quadratique moyenne, c'est-à-dire l'écart-type.
1.4.1. Régression linéaire :
 La régression linéaire est un algorithme d'apprentissage automatique basé sur

l'apprentissage supervisé. Il effectue une tâche de régression. C'est un
excellent outil de prévision. La figure ci-dessous montre que la régression
linéaire en fonction du temps est en augmentation constante.
Figure-8 Régression linéaire
Type de modèle RMSE

Régression sur le temps 266.2765
1.4.2. Modèle Naïve Bayes :
 Les classificateurs tels que Naive Bayes utilisent un modèle linguistique pour
classer et faire des prédictions sur des séries de données temporelles. La figure
9 indique que la prévision naïve sur les données de test est toujours la même
pour l'ensemble des données, ce qui n'est pas idéal.
11
Figure-9 Modèle Naïve Bayes

Modèle naïf 245.1213
Les valeurs RMSE semblent être les plus faibles pour Naïve Bayes jusqu'à
présent. Mais comme les prévisions sont constantes au fil des années, il ne s'agit
pas d'un modèle idéal pour notre ensemble de données.
1.4.3. Moyenne simple Prévision :
La méthode est très simple. Nous faisons la moyenne des données par mois,
trimestre ou année, puis nous calculons la moyenne pour la période. Nous
chercherons ensuite à déterminer le pourcentage qu'il représente par rapport à la
moyenne générale.
Figure-10 Moyenne simple des prévisions
12
5
3
Modèle de moyenne simple 63.9845
7
Les valeurs RMSE semblent être les plus faibles pour la méthode de la moyenne
simple jusqu'à présent. Mais comme les prévisions sont constantes au fil des
années, il ne s'agit pas d'un modèle idéal pour notre ensemble de données.
1.4.4. Prévisions concernant les moyennes mobiles :
 La prévision par moyenne mobile est une technique naïve et efficace de

prévision des séries temporelles.
 Le calcul d'une moyenne mobile implique la création d'une nouvelle série dont
les valeurs sont constituées de la moyenne des observations brutes de la série
temporelle originale.
 Une moyenne mobile nécessite que vous spécifiiez une taille de fenêtre
appelée largeur de fenêtre. Ceci définit le nombre d'observations brutes
utilisées pour calculer la valeur de la moyenne mobile. Nous avons utilisé la
méthode de la moyenne mobile glissante.
Figure-11 Prévisions de la moyenne mobile glissante

2pointTrailingMovingAverage 45.94874
13
Moyenne de déplacement de 9 points 67.72365
Jusqu'à présent, les valeurs RMSE semblent être les plus faibles pour la méthode
de la moyenne mobile suiveuse à 2 points.
1.4.5. Lissage exponentiel simple :
 Le lissage exponentiel simple, SES en abrégé, également appelé lissage

exponentiel simple, est une méthode de prévision des séries temporelles pour
les données univariées sans tendance ni saisonnalité. Il nécessite un seul
paramètre, appelé alpha (a), également appelé facteur de lissage ou
coefficient de lissage.
 La valeur alpha ou le niveau de lissage auquel le graphique est tracé est de
0,605.
Figure-12 Lissage exponentiel simple
1.4.6. Lissage exponentiel double :
 Le lissage exponentiel double utilise une composante de niveau et une

composante de tendance à chaque période. Le lissage exponentiel double
utilise deux poids (également appelés paramètres de lissage) pour mettre à
jour les composantes à chaque période.
0,594, tandis que la valeur bêta ou la tendance au lissage est de 0,0002.
14
Figure-13 Lissage exponentiel simple et double
1.4.7. Triple lissage exponentiel :
 Un triple lissage exponentiel est utilisé pour traiter les données de séries
temporelles contenant une composante saisonnière. Cette méthode est basée
sur trois équations de lissage : composante stationnaire, tendance et
saisonnier. La saisonnalité et la tendance peuvent être additives ou
multiplicatives. Il s'agit du modèle additif.
0,570, tandis que la valeur bêta ou la tendance au lissage est de 0,0001 et la
valeur gamma ou le lissage saisonnier est de 0,293.
Figure-14 Lissage exponentiel simple, double et triple
1.4.8. Triple lissage exponentiel (multiplicatif) :
 Cette méthode est basée sur trois équations de lissage : composante

stationnaire, tendance et saisonnier. Il s'agit du modèle multiplicatif.
15
0,571, tandis que la valeur bêta ou la tendance au lissage est de 0,0001 et la
valeur gamma ou le lissage saisonnier est de 0,202.
Figure-15 Lissage exponentiel simple, double et triple (multiplicatif)

Lissage exponentiel simple 196.4048
Lissage double exponentiel 266.1612
Lissage exponentiel triple 128.9925
TripleLissageExponentielMultiplicatif 83.73405
Jusqu'à présent, les valeurs RMSE semblent être les plus faibles pour la méthode
de la moyenne mobile suiveuse à 2 points.
1.5. Vérification de la stationnarité
 Le test de Dickey-Fuller augmenté est un test de racine unitaire qui détermine

s'il existe une racine unitaire et, par conséquent, si la série est non stationnaire.
 L'hypothèse sous une forme simple pour le test ADF est la suivante :
H0 : La série temporelle a une racine unitaire et est donc non
stationnaire.
16
H1 : La série temporelle n'a pas de racine unitaire et est donc
stationnaire.
 Nous voulons que la série soit stationnaire pour construire des modèles
ARIMA et nous voulons donc que la valeur p de ce test soit inférieure à la
valeur Alpha.
 Lorsque la méthode ADF a été appliquée au modèle, nous avons obtenu une
valeur p de 0,801, qui est supérieure à 0,5, et nous n'avons donc pas pu rejeter
l'hypothèse nulle. Conclure que la série n'est pas stationnaire.
 Nous devons maintenant effectuer une différenciation en niveau sur l'ensemble
des données et vérifier la stationnarité.
 La valeur p après la différenciation de niveau 1 est de 0,0361<0,05. Nous
rejetons donc l'hypothèse nulle et concluons que la série est stationnaire avec
un retard de 1.
 Vous trouverez ci-dessous une représentation graphique de cette situation. La
valeur de la statistique de test est de -3,532, tandis que le nombre de retards
utilisés est de 12.
 Maintenant que les données sont stationnaires, nous pouvons passer à la
construction des modèles ARIMA et SARIMA.
Figure-16 Stationnarité des ventes de chaussures au décalage 1
1.6. ARIMA et SARIMA en utilisant la méthode AIC la plus basse :
 Un modèle ARIMA se compose de la partie autorégressive (AR) et de la partie

moyenne mobile (MA) après avoir rendu la série temporelle stationnaire en adoptant
le bon degré/ordre de différenciation.
 Les modèles ARIMA peuvent être construits en tenant compte du critère
d'information d'Akaike (AIC). Dans ce cas, nous choisissons les valeurs "p" et "q"
pour déterminer les ordres AR et MA respectivement, ce qui nous donne la valeur
AIC la plus faible. Plus l'AIC est faible, meilleur est le modèle.
17
 Les langages de codage essaient différents ordres de "p" et "q" pour arriver à cette
conclusion. Rappelez-vous que même pour une telle façon de choisir les valeurs "p" et
"q", nous devons nous assurer que la série est stationnaire.
 La formule de calcul de l'AIC est 2k - 2ln(L), où k est le nombre de paramètres à
estimer et L l'estimation de la vraisemblance.
 Pour les modèles SARIMA, nous pouvons également estimer 'p', 'q', 'P' et 'Q' en
regardant les valeurs AIC les plus faibles.
 ARIMA :
i. Nous commençons par créer une grille de tous les résultats possibles (p,d,q).
L'intervalle de "p" et "q" étant (0,4) et "d" une constante = 1.
Voici la grille de tous les résultats possibles :
Modèle : (0, 1, 1)
Modèle : (0, 1, 2)
Modèle : (0, 1, 3)
Modèle : (1, 1, 0)
Modèle : (1, 1, 1)
Modèle : (1, 1, 2)
Modèle : (1, 1, 3)
Modèle : (2, 1, 0)
Modèle : (2, 1, 1)
Modèle : (2, 1, 2)
Modèle : (2, 1, 3)
Modèle : (3, 1, 0)
Modèle : (3, 1, 1)
Modèle : (3, 1, 2)
Modèle : (3, 1, 3)
ii. Nous procédons ensuite à l'ajustement du modèle ARIMA à chacune des

combinaisons ci-dessus et choisissons finalement celle qui présente la valeur
AIC la plus faible.
paramètre AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
18
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. L'AIC le plus faible pour ARIMA est clairement (2, 1, 3) avec un AIC de
1480,80. Nous adaptons maintenant les données d'entraînement au modèle et
effectuons des prévisions sur l'ensemble de test. Nous obtenons le résumé
ARIMA, le graphique et les résultats du diagnostic.
A.
B.
19
C.
Figure-17 AIC-ARIMA(2,1,3) A. Résumé, B. Graphique et C. Diagnostics
iv. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées.
Type de modèle RMSE MAPE

AIC-ARIMA(2,1,3) 184.648 85.73498
 SARIMA :
i. Nous créons une grille de toutes les combinaisons possibles de (p,d,q) avec la
saisonnalité (P,D,Q) et la saisonnalité de 12. L'intervalle de "p" et "q" étant
(0,4) et "d" une constante = 1.
Voici la grille de tous les résultats possibles :
Modèle : (0, 1, 1)(0, 0, 1, 12)

Modèle : (0, 1, 2)(0, 0, 2, 12)
Modèle : (1, 1, 0)(1, 0, 0, 12)
20
Modèle : (1, 1, 1)(1, 0, 1, 12)
Modèle : (1, 1, 2)(1, 0, 2, 12)
Modèle : (2, 1, 0)(2, 0, 0, 12)
Modèle : (2, 1, 1)(2, 0, 1, 12)
Modèle : (2, 1, 2)(2, 0, 2, 12)
ii. Nous procédons ensuite à l'ajustement du modèle SARIMA à chacune des

combinaisons ci-dessus et choisissons finalement celle qui présente la valeur
AIC la plus faible.
paramètre saisonnier AIC

23 (0, 1, 2) (1, 0, 2, 12) 1156.165429
50 (1, 1, 2) (1, 0, 2, 12) 1157.082589
26 (0, 1, 2) (2, 0, 2, 12) 1157.772313
77 (2, 1, 2) (1, 0, 2, 12) 1158.490996
80 (2, 1, 2) (2, 0, 2, 12) 1158.630324
iii. L'AIC le plus faible pour SARIMA est clairement (0, 1, 2) (1, 0, 2, 12) avec
un AIC de 1156,165429. Nous adaptons maintenant les données
d'entraînement au modèle et effectuons des prévisions sur l'ensemble de test.
Nous obtenons le résumé SARIMA, le graphique et les résultats du diagnostic.
C'est ce que montre la figure 18 ci-dessous.
iv. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
MAPE calculées. AIC-SARIMA a les RMSE et MAPE les plus faibles jusqu'à
présent.

AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.03066 26.45588
A.
21
B.
C.
Figure-18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Résumé, B. Graphique et C. Diagnostics
1.7. ARIMA et SARIMA basés sur les points de coupure de l'ACF et du PACF :
 Un modèle ARIMA se compose de la partie autorégressive (AR) et de la partie

moyenne mobile (MA) après avoir rendu la série temporelle stationnaire en
adoptant le bon degré/ordre de différenciation.
 L'ordre AR est sélectionné en regardant où le tracé PACF s'arrête (pour les bandes
d'intervalle de confiance appropriées) et l'ordre MA est sélectionné en regardant
où le tracé ACF s'arrête (pour les bandes d'intervalle de confiance appropriées).
 Le degré ou l'ordre de différence correct nous donne la valeur "d", tandis que la
valeur "p" correspond à l'ordre du modèle AR et la valeur "q" à l'ordre du modèle
MA.
 Pour SARIMA, le paramètre saisonnier "F" peut être déterminé en examinant les
graphiques ACF. Le graphique ACF devrait montrer un pic à des multiples de "F",
indiquant ainsi la présence d'une saisonnalité.
22
 En outre, pour les modèles saisonniers, les graphiques ACF et PACF se
comporteront de manière légèrement différente et ne continueront pas toujours à
décroître à mesure que le nombre de retards augmente.
 ARIMA :
i. Nous devons observer les graphiques ACF et PACF. Nous obtenons la valeur
"p" à partir du PACF et la valeur "q" à partir du tracé de l'ACF. Voici les
tracés pour d=1 :
Figure-19 Autocorrélation des données différenciées
Figure-20 Autocorrélation partielle des données différenciées
ii. Nous procédons ensuite à l'ajustement du modèle ARIMA dans (3,1,1). Ces
valeurs ont été déterminées à partir des graphiques ACF et PACF. Nous
obtenons le résumé ARIMA, le graphique et les résultats du diagnostic.
A.
23
B.
C.
Figure-21 ACF/PACF- ARIMA(3,1,1) A. Résumé, B. Graphique et C. Diagnostics
iii. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
présent.

AIC-ARIMA(2,1,3) 184.648 85.7349
8
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.4558
6 8
ACF/PACF-ARIMA(3,1,1) 144.183 66.9104
24
9 9
 SARIMA :
i. Nous devons observer les graphiques ACF et PACF. Nous obtenons la valeur
"p" à partir du PACF et la valeur "q" à partir du tracé de l'ACF. D'après les
graphiques ci-dessus, les figures 19 et 20 pour d=1, fréquence=12. Nous
pouvons également trouver P, D, Q à partir du graphique ci-dessus en
recherchant les pics saisonniers.
ii. Nous passons ensuite à l'ajustement du modèle SARIMA dans (3,1,1) (2, 0, 4,
12). Ces valeurs ont été déterminées à partir des graphiques ACF et PACF.
Nous obtenons le résumé SARIMA, le graphique et les résultats du diagnostic.
A.
B.
25
C.
Figure-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Résumé, B. Graphique et

C. Diagnostic
iii. Enfin, nous vérifions la précision du modèle à l'aide des valeurs RMSE et
présent.

AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2
1.8. Comparaison des valeurs RMSE
Tableau 3 - Résumé des résultats de tous les modèles RMSE

4
9
9
7
5
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
TripleLissageExponentielMultiplicatif 83.7340
5
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2
Lissage exponentiel triple 128.992
26
5
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
AIC-ARIMA(2,1,3) 184.648 85.73498
Lissage exponentiel simple 196.404
8
3
Lissage double exponentiel 266.161
2
5
 Nous constatons que le meilleur modèle avec le plus faible RMSE est la moyenne
mobile de suivi à 2 points, suivie de toutes les autres moyennes mobiles et de la
moyenne simple également. Ensixième position, on trouve AIC-SARIMA(0, 1, 2)(1, 0, 2,
12).
 Étant donné que les valeurs RMSE ne sont pas trop éloignées les unes des autres, de
la première à la sixième place, afin de faciliter le calcul et d'assurer une prévisibilité
précise, nous choisissons AIC-SARIMA(0, 1, 2)(1, 0, 2, 12). En outre, les modèles
ARIMA sont plus efficaces en termes de calcul et permettent d'obtenir des prévisions
précises.
 Il prend également en considération le MAPE, et il est toujours bon d'avoir plus d'un
paramètre de précision.
 Dans l'ensemble du secteur, les modèles de lissage exponentiel et d'ARIMA sont plus
populaires lorsqu'il s'agit de construire des modèles. La technique de lissage
exponentiel repose sur l'hypothèse d'une diminution exponentielle des poids pour les
données passées et la technique ARIMA est utilisée pour transformer une série
temporelle en série stationnaire et étudier la nature de la série stationnaire par le biais
de l'ACF et du PACF, puis pour tenir compte des effets autorégressifs et de moyenne
mobile dans une série temporelle, s'ils sont présents.
1.9. Construction d'un modèle optimal et de prévisions sur 12 mois
Nous allons construire le modèle optimal avec AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) comme
expliqué ci-dessus.
27
Figure-23 Modèle optimal Prévisions pour les 12 prochains mois
1.10. Constatations et suggestions
 L'ensemble des données contient un total de 187 entrées, dont 2 variables. La

première colonne représente la date à laquelle les ventes de chaussures ont
été enregistrées. La deuxième colonne représente les ventes elles-mêmes. Il
n'y a pas de valeurs nulles dans l'ensemble de données.
 Des valeurs aberrantes sont présentes en avril et en mai. Cela nous indique
que certaines ventes ont été réalisées au cours de ces mois et qu'elles n'étaient
pas habituelles.
 Les ventes ont tendance à s'accélérer davantage au second semestre qu'au
premier. C'est en décembre que les ventes de chaussures sont les plus
élevées.
 Ce pic peut être dû à la période des fêtes de fin d'année, et peut-être que les
chaussures sont très achetées et utilisées soit pour l'autoconsommation, soit
pour les cadeaux.
 Les tendances mensuelles et annuelles montrent que le mois de décembre est
le mois le plus populaire pour les ventes de chaussures et que c'est l'année où
les ventes ont atteint leur niveau le plus élevé, entre 1986 et 1988. Ce pic
peut être dû à l'intérêt généralisé et aux nombreuses innovations mises en
œuvre pour inciter les consommateurs à acheter leurs produits, ce qui stimule
les ventes.
28
 Les prévisions font apparaître un pic clair, avec des ventes supérieures à
celles de l'année précédente. Les fabricants doivent donc s'assurer qu'ils
disposent d'une quantité suffisante et supérieure à celle de l'année précédente.
 L'entreprise peut augmenter ses ventes plus que prévu si elle se concentre sur
la publicité et le lancement de nouveaux types de chaussures uniques.
 Le lancement des nouvelles chaussures permet d'attirer les clients et de les
inciter à acheter ces chaussures parce qu'elles sont uniques en leur genre. Les
fabricants bénéficient ainsi d'un avantage de premier plan.
 Cela permettra de stimuler les ventes pendant un certain temps, puis la
décision d'arrêter la fabrication des types de chaussures qui ne sont pas très
populaires pourra également être prise. Cela permettra d'économiser des
ressources importantes qui pourront être utilisées ailleurs.
 On peut espérer que la hausse annuelle atteindra à nouveau un sommet, car
les chaussures sont une nécessité et ce produit ne perdra jamais de son
importance.
29

PROJET PROLONGÉ-Shoe - Sales

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PROJET PROLONGÉ-Shoe - Sales

Transféré par

Droits d'auteur :

Formats disponibles

PROJET ÉTENDU

PRÉVISION DES SÉRIES

VENTE DE CHAUSSURES - RAPPORT

Table des matières

Liste des tableaux

1.2. Analyse descriptive et exploratoire des données

Contexte : Vous êtes analyste au sein de l'entreprise de chaussures IJK et vous

 L'ensemble des données a été lu et stocké sous forme de cadre de données en

Tableau-1 : Résumé des informations statistiques descriptives

Tête de l'ensemble de Queue de l'ensemble de Informations sur l'ensemble des données :

1.2.2. Données de séries temporelles - tracées :

Figure-1 Tracé de la série temporelle - Ventes de chaussures

1.2.3. Analyse exploratoire des données :

 L'analyse exploratoire des données fait référence au processus critique

Figure-2 Box plot mensuel des ventes de chaussures

Figure-4 Tracé de la série temporelle avec la moyenne et la médiane

La décomposition des séries temporelles consiste à considérer une série

(i) Décomposition multiplicative de l'ensemble des données :

(ii) Décomposition additive de l'ensemble des données :

1.3. Séparation des données de formation et de test

La répartition formation-test est utilisée pour estimer les performances des

Tableau 2 : Répartition entre la formation et le test

Données d'entraînement Tête de l'ensemble Données de test Tête de l'ensemble de

Train Data Shape = (132, 1) Données d'essai Forme = (55, 1)

Représentation graphique de la séparation du train et du test :

Figure-7 Ventes de chaussures - Répartition entre le train et l'essai

1.4. Construction de différents modèles et vérification du RMSE

1.4.1. Régression linéaire :

 La régression linéaire est un algorithme d'apprentissage automatique basé sur

Figure-8 Régression linéaire

Type de modèle RMSE

1.4.2. Modèle Naïve Bayes :

Type de modèle RMSE

1.4.3. Moyenne simple Prévision :

Figure-10 Moyenne simple des prévisions

1.4.4. Prévisions concernant les moyennes mobiles :

 La prévision par moyenne mobile est une technique naïve et efficace de

Figure-11 Prévisions de la moyenne mobile glissante

Type de modèle RMSE

1.4.5. Lissage exponentiel simple :

 Le lissage exponentiel simple, SES en abrégé, également appelé lissage

Figure-12 Lissage exponentiel simple

1.4.6. Lissage exponentiel double :

 Le lissage exponentiel double utilise une composante de niveau et une

1.4.7. Triple lissage exponentiel :

Figure-14 Lissage exponentiel simple, double et triple

1.4.8. Triple lissage exponentiel (multiplicatif) :

 Cette méthode est basée sur trois équations de lissage : composante

Figure-15 Lissage exponentiel simple, double et triple (multiplicatif)

1.5. Vérification de la stationnarité

 Le test de Dickey-Fuller augmenté est un test de racine unitaire qui détermine

Figure-16 Stationnarité des ventes de chaussures au décalage 1

1.6. ARIMA et SARIMA en utilisant la méthode AIC la plus basse :

 Un modèle ARIMA se compose de la partie autorégressive (AR) et de la partie

Voici la grille de tous les résultats possibles :

ii. Nous procédons ensuite à l'ajustement du modèle ARIMA à chacune des

Figure-17 AIC-ARIMA(2,1,3) A. Résumé, B. Graphique et C. Diagnostics

Type de modèle RMSE MAPE

Voici la grille de tous les résultats possibles :

Modèle : (0, 1, 1)(0, 0, 1, 12)

ii. Nous procédons ensuite à l'ajustement du modèle SARIMA à chacune des

paramètre saisonnier AIC

Type de modèle RMSE MAPE