Académique Documents
Professionnel Documents
Culture Documents
Aucune mots ,très chère maman, ne pouvaient exprimer la profondeur des sentiments que
j’éprouve pour toi, tes sacrifices innombrables et ton dévouement firent pour moi un élan
encourager ; maman Moufida que je t’adore.
A l’homme de ma vie, mon exemple éternel, mon soutien moral et source de joie et de
bonheur, celui qui s’est toujours sacrifié pour me voir réussir.
Merci pour vos encouragements contenus et votre soutien moral. Puisse dieu vous donne
santé , courage,bonheur et surtout réussite dans votre vie professionnelle et familiale
1
Remerciement
terminer ce projet de fin d’étude. Je tiens à remercier vivement tous ceux qui
projet.
stage.
durant mon stage au sein de Délice, auprès desquelles j’ai trouvé l’accueil
chaleureux.
Enfin, j’adresse mes remerciements à tous les membres du jury de bien vouloir
2
Table des
Introduction générale 9
1 Contexte général 11
1.1 Présentation du projet.............................................................................................................12
1.1.1 Cadre general du projet...............................................................................................12
1.1.2 Présentation de l’organisme d’accueil.......................................................................12
1.1.3 Historique de Délice Holding.....................................................................................13
1.2 Problématique...........................................................................................................................14
1.3 Solution proposée.....................................................................................................................14
1.4 Méthodologie de Travail Adoptée...........................................................................................15
1.4.1 Methodologie SEMMA.................................................................................................15
1.4.2 Choix..........................................................................................................................17
2 Compréhension de métier 19
2.1 Les Objectifs de Métier...........................................................................................................20
2.2 Objectifs «Data Science»........................................................................................................20
2.3 Les critères de succès..............................................................................................................20
2.3.1 Critère de succès de Datawarehouse.........................................................................20
2.3.2 Critère de succès de Data mining..............................................................................21
2.4 Plan de Projet............................................................................................................................21
2.5 Environnement logiciel............................................................................................................22
2.5.1 Python[3].......................................................................................................................22
2.5.2 Anaconda [4]................................................................................................................23
2.5.3 Jupyter [5]....................................................................................................................23
2.5.4 Power BI [6].................................................................................................................23
4 chapitre 4 : Modélisation 39
4.1 Apprentissage Superviser : Régression.................................................................................40
4.1.1 Régression linéaire[10]...............................................................................................40
4.2 Entraînement des données.....................................................................................................42
4.2.1 la modélisation avec les algorithme..........................................................................42
4.3 Évaluation des Algorithmes de régression..........................................................................43
4.3.1 Erreur Absolue Moyenne MAE[12]..........................................................................43
4.3.2 Erreur quadratique moyenne MSE[13]...................................................................44
4.3.3 Erreur quadratique moyenne RMSE[14]................................................................44
4.3.4 R au carré (R2)[15]......................................................................................................44
5 chapitre 5 : Déploiement 46
5.1 Représentation des applications utilisateurs.......................................................................47
5.1.1 Maquette :Home Dashboard......................................................................................47
5.1.2 Maquette :Vente Dashboard......................................................................................48
5.1.3 Maquette :Production Dashboard.............................................................................48
5.1.4 Maquette :Gestion de Stock Dashboard...................................................................49
5.1.5 Maquette :Gestionnaire budgétaire Dashboard.......................................................49
5.1.6 Maquette :Prévision de stock lait et beurre Dashboard.........................................50
5.2 Construction des applications utilisateurs...........................................................................50
4
Table des
5.2.2 Vente Dashboard..........................................................................................................51
5.2.3 Production Dashboard................................................................................................52
5.2.4 Gestion de Stock Dashboard......................................................................................52
5.2.5 Contrôle budgétaire Dashboard.................................................................................53
5.2.6 Prévision de stock lait et beurre dashboard.............................................................53
Conclusion générale 55
5
Table des
5
6
Table des figures
6
4.5 La répartition de données.......................................................................................................42
4.6 L’équation d’erreur Absolue Moyenne..................................................................................44
4.7 L’équation d’erreur quadratique Moyenne...........................................................................44
4.8 L’équation de RMSE................................................................................................................44
4.9 L’équation de R au carré.........................................................................................................45
4.10 Comparaison des modèles......................................................................................................45
7
Liste des
— BI = Business Intelligence
— CRISP-
D= M
Cross Industry Standard Process for Data Mining
8
Introduction
Son objectif est de faciliter la prise de décision stratégique au sien de l’entreprise à travers une
meilleure compréhension de l’environnement de marché et en conséquence une orientation optimale
de ses activités futures.
Ainsi, la BI contient une large variété d’outils et de méthodologies permettant aux entreprises
de collecter les données de leurs systèmes internes et de différentes sources externes, de les traiter
pour se préparer à l’analyse. Grâce à ces outils, on peut créer des rapports, des tableaux de bords
et des visualisation de données permettant une meilleure lecture des résultats obtenus conformément
aux exigences du management.
C’est dans ce contexte que s’inscrit mon projet de fin d’étude réalisé au sein de Délice Holding,
qui a pour but la mise en place d’une plateforme d’aide à la decision BI pour le suivi de
l’évolution de la production et la vente des produits laitiers.
Le présent rapport décrit le travail réalisé au cours de ce projet.Il est divisé en cinq chapitres :
9
Introduction générale
Enfin, nous terminons ce rapport par une conclusion générale et une réflexion sur les perspective
futures de la plateforme élaborée dans le cadre de ce projet.
1
Chapitre 1
ConTExTE généRaL
Plan
1 Présentation du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Introduction
Dans ce premier chapitre a pour objectif de présenter l’entreprise d’accueil et ses activités.Par
la suite, nous allons poser le facteurs de la problématique de ce projet, pour passer aprés à la
présentation de la solution proposée. Enfin, nous allons décrire le choix de la méthodologie suivie.
Le présent travail a été réalisé dans le cadre du projet de fin d’études qui conclut la formation
d’ingénieur en informatique spécialisée en Business Intelligence et Enterprise Resource Planning
(ERP-BI) à l’École Supérieure Privée d’Ingénierie et de Technologie (ESPRIT).
Le présent projet a été réalisé au sein de l’entreprise d’accueil Délice Tunisie. Il est intitulé "Conception
et mise en œuvre d’une solution BI pour le suivi des ventes et des productions".
En effet, il s’agit de la mise en place d’une plateforme décisionnelle permettant aux décideurs de
Délice de surveiller les activités de vente et production.
Dans ce qui suit, nous allons exposer en premier lieu notre problématique de travail, la solution
proposée en second lieu et finalement la méthodologie de travail permettant la réalisation de la
solution proposée.
Cette section décrit l’entreprise dans laquelle est basé le projet de fin d’etude, son
domaine d’activité et les innovations qu’il apporte.
Cet projet a été réalisé au sein de la société mère Délice Holding [1], qui exerce dans dans
le secteur de l’industrie agro-alimentaire. Ce groupe est composé de huit sociétés : CLC, CLN, CLSB,
SBC, CF, Delta Plastic, STIAL et SOCOGES. Crée par Monsieur Mohamed MEDDEB, l’un
des pionniers de l’industrie en Tunisie, est issu d’une famille ayant opéré dans le secteur des boissons
gazeuses.En 1978 et après des études en industries Agro-Alimentaires en France, il est rentré au pays
pour lancer son premier projet de fabrication de yaourts et a révolutionné dès lors les habitudes
culinaires en matière de consommation de lait et dérivés.
1
Chapitre 1. Contexte général
En effet, son approche s’est basée sur la dynamisation du marché par le biais de l’introduction
du marketing et en misant sur la qualité des produits. Son ambition pour la croissance de son Groupe
a été couronnée par des alliances stratégiques d’envergure avec des grands leaders dans l’industrie
du lait et dérivés et notamment DANONE et BONGRAIN. De nos jours, DELICE est devenue la
marque la plus populaire et la plus proche des consommateurs.
La première création était en 1978 sous le nom STIAL est une société anonyme
spécialisée dans la fabrication et la vente de yaourt et d’autres dérivés de produit laitiers. En
1993 ,la création de la sociéte SOCOGES est une société à responsabilité limité spécialisée
sur la distribution de tous les produits laitiers de délice. En 1997, STIAL crée la premier centrale
laitier CLC au Cap-Bon en Tunisie qui spécialise dans la fabrication, le conditionnement et la
commercialisation du lait et ses dérivés sauf yourt et les boissons de toutes nature. Ensuite en
2006, la création d’un autre centrale laitier au nord du Tunisie CLN spécialise dans la
transformation,la production et la commercialisation des produits laitiers et ses dérivés. Puis en
2008, une alliance avec l’entreprise BONGRAIN permet de crée une autre unité CF qui spécialise
dans la fabrication de produit fromage à travers de lait frais et qu’elle est installe à Bousselem.
En 2011, la création de la dernière unité CLSB à Sidi-Bouzid qu’est pour objectif de la
fabrication, le conditionnement et la commercialisation du lait et ses dérives et de production et
vente de tous autre produit agro-alimentaires. Finalement, en 2014, la création de la société mère
Délice Holding qui représente les 6 sociétés.
1
Chapitre 1. Contexte général
1.2 Problématique
Dans le cadre de ce projet nous allons intéresser aux produits laitière, produits phares des
ventes de Délice. En effet, ces produits présentent une forte demande sur le marché tunisien d’une
part.
D’autre part, ces produits présentent un caractère périssable vu leurs composition. En conséquence,
leurs stockages constituent une étape importante dans leurs cycle de vie.
La quantité nécessaire à stocker et donc à produire, le délai de stockage ainsi que le coût de stockage
sont des problématiques réelles et journalières dans le cycle de vie des produits laitière.
Dans ce contexte, nous avons posé la question suivante :Comment peut-on piloter le processus
de fabrication et de vente des produits laitiers tout en optimisant le stockage ?
1
Chapitre 1. Contexte général
• La collecte des données afin de les générer dans des tableaux de bords dynamiques.
Enfin, pour les projections futures, la méthode de l’exploration de données a été choisie pour prédire
et analyser la quantité à produire de certain laitiers pour obtenir la quantité stocker.
Dans ce qui suit,nous allons présenter les différentes les méthodes les plus utilisées dans les projets
de l’intelligence Artificielle dont nous choisissons celle qui convient à notre projet .
La réalisation optimale d’un projet est de basée sur l’adoption de la bonne méthodologie
a savoir celle qui réponds aux besoin de clients, tout en prenant en considération les contraintes délais
de livraison du projet et le coût.
SEMMA est une méthodologies crée et développée par l’institut SAS qui s’appuie sur l’exploration,
la visualisation, la transformation et la modélisation pour bien explorer des données de façon
indépendante du logiciel utilisé. Voici un graphe qui représente le cycle de vie de cette méthode.
1
Chapitre 1. Contexte général
• Sample :Extrait des échantillons à partir d’un vaste ensemble de données pour identifier les
variables ou les facteurs influençant le processus.
• Explore : Au cours de cette étape consiste à explorer des données pour identifier les tendances
et les anomalies.En effet, cette exploration cet fait par des nombres ou des visualisation.Dans
ce cas,Les technique les plus utilisée sont Clustering, l’analyse factorielles ou analyse de
correspondance.
• Modify : Dans cette étape, les données explorée sont analysées et nettoyées, puis transmises à
l’étape de modélisation et explorées si les données nécessitent un raffinement une
transformation.
• Model :une fois les données nettoyées,on applique des différentes techniques et méthodes afin
de produire un modèle projeté de la façon dont ces données atteignent le résultat souhaité.
• Assess :C’est la dernière étape de SEMMA,le modèle choisi est évalué pour son utilité et sa
fiabilité avec notre objectif.les données peuvent être testées et utilisées pour savoir l’efficacité
de ses performance.
1
Chapitre 1. Contexte général
1.4.2 Choix
1.4.2.1 CRISP-DM[2]
le Cross Industrie Standard Process pour Data Mining est un modèle de processus développée
à la fin des années 1990 par IBM pour réaliser les projets Datamining.Elle reste aujourd’hui la seule
méthode utilisable efficacement pour tous les projets Data Science. Les principales causes de ce choix
sont le fait qu’elle est vraiment indépendante de tous outil ou technique(contrairement à SEMMA
qui est pour SAS).
• Compréhension des affaires :La première phase consiste à comprendre les objectifs et les
problématiques que la data science vise à résoudre ou à améliorer.
• Compréhension des données : cette étape vise à déterminer les données à analyser, à
identifier la qualité des données disponibles ,faire les liens entre les données et identifier leur
signification d’un point de vue métier.
• Préparation des données : L’étape de préparation des données consiste à regrouper les
activités liées à la construction de l’ensemble des données à analyser. Elle inclut le classement
des données en fonction des critères choisis, leur nettoyage et leur codage pour les rendre
compatibles avec les algorithmes que nous allons choisir.
1
Chapitre 1. Contexte général
questions et
1
Chapitre 1. Contexte général
• Évaluation : Vise à vérifier que le modèle ou les connaissance obtenus répondent aux objectifs
formulés au début du processus et qu’ils fournissent les résultat nécessaire .Elle contribue aussi
à la décision de déploiement du modèle ou, si besoin est , à son amélioration.
Conclusion
Dans ce premier chapitre, nous avons présenté le cadre Général du projet avec une vue
d’ensemble sur l’organisme dd l’accueil Délice. Ensuite, nous avons détaillé la problématique,la
solution proposée en réponse à ce questionnement et enfin la méthodologie adoptée. Dans le chapitre
suivant , nous allons comprendre mieux le domaine.
1
Chapitre 2
ComPRÉHEnsIon de méTIER
Plan
1 Les Objectifs de Métier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Plan de Projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Chapitre 2. Compréhension de métier
Introduction
Le principal objectif de l’organisme d’accueil est la minimisation du coût de stock. Cet objectif
principal se décline en sous objectifs comme suit :
• Améliorer et suivre le processus de contrôle des ventes et des productions des produits laitiers.
C’est la partie la plus importante du projet.Elle répondra aux objectifs de l’entreprise. Donc,
les buts de la "Data Science" sont multiples dont nous citons :
• La prévision des valeurs du stock finale des produits laitiers en utilisant plusieurs scénarios
disponibles pour chaque filiale de Délice.
les critères de succès sont mesurés par le degré de réalisation des objectifs prédétermines par
l’entreprise d’accueil. Autrement, nous allons vérifier si les résultats obtenus à travers les différentes
taches effectuées répondent ils aux besoins exprimés par les décideurs.
2
Chapitre 2. Compréhension de métier
— Visualiser
l’évolution
de stocks des
produits Laitiers.
Dans cette section, nous allons définir les différentes étapes et les itérations qui vont se
dérouler tout au long de ce projet. De plus, Nous allons cité les différentes outils utilisé pour réalisé
nos objectifs. Comme nous avons spécifié dans le chapitre précédent,la méthodologie qui sera utilisé
2
Chapitre 2. Compréhension de métier
dans cette présentation est CRISP-DM. Il est important de noter que les taches effectuées englobent
outre la machine learning, la création de la data warehouse.
2.5.1 Python[3]
2
Chapitre 2. Compréhension de métier
Anaconda est une distribution libre et open source des langages de programmation Python
et R appliqué au développement d’applications dédiées à la science des données et à l’apprentissage
automatique, qui vise à simplifier la gestion des paquets et de déploiement.
Jupyter est une application web utilisée pour programmer dans plus de 40 langages de
programmation, dont Python, Julia, Ruby,R, ou encore Scala2. Jupyter permet de réaliser des
calepins ou notebooks, c’est-à-dire des programmes contenant à la fois du texte en markdown et
du code en Julia, Python, R.Ces notebooks sont utilisés en science des données pour explorer et
analyser des données.
Power BI est une solution d’analyse de données de Microsoft. Il permet de créer des
visualisations de données personnalisées et interactives avec une interface suffisamment simple pour
que les utilisateurs finaux créent leurs propres rapports et tableaux de bord.
2
Chapitre 2. Compréhension de métier
Talend est un logiciel open source de Type ETL(Extract Transform Load) développé par
la société Talend. Cet outil permet l’échange inter-applicatif de données et facilite la migration d’outils
métier.
Conclusion
Dans ce chapitre, nous avons présenté les objectifs métier à accomplir durant ce stage.
Ensuite, nous avons cité les objectifs de data science pour répondre aux besoin métier.Finalement,
nous avons défini l’environnement du travail.
2
Chapitre 3
données
Plan
1 Compréhension de données........................................................................................26
Introduction
• la collecte de données.
La collecte des données est une étape primordiale pour tout projet de data science. Elle
est consommatrice de temps et de ressources. Dans notre cas, la collecte a été effectuée par des
requêtes SQL qui accèdent directement à la base de donnée ERP " JDE_PRODPUB" . Les
tables suivantes étaient la résultante de notre recherche : Lait Cru, Vente, Production. Comme
support, nous avons utilisé l’outil Excel comme une autre source de données pour accéder au Budget
de Vente et de Production.
La préparation des données est la troisième étape de crisp-dm ayant pour but de traiter
les problèmes dégagés durant l’étape précédente. C’est une phase très longue et primordiale dans
ce projet pour limiter les défauts dans le jeu de données finaux. La résultante est une table prête
à traiter dans la phase suivante.
L’entrepôt de donnée permet aux utilisateur d’accéder à une version unifiée de la base données
pour la prise de décision , les rapports et des prévision en temps. Elle fonctionne comme un système
d’information avec toutes les données passées et stockées a partir d’une ou plusieurs sources.
Les caractéristiques de l’entrepôt de donnée sont :
• Orienté Sujet le processus d’entreposage de données est mieux équipée pour traiter un thème
spécifique.
• intégrité L’intégration de donnée est définie comme l’établissement d’une connexion entre
2
Chapitre 3. Compréhension et préparation des données
• Non volatile les données ne disparaisse pas et ne change pas au cours de traitement et au fil
de temps.
• Historiés Les données stockées dans un entrepôt de données sont rappelées avec une période
de temps spécifique et fournissent des informations d’un point de vue historique.
Afin de mieux comprendre le concept de entrepôt de données, nous sommes face aux
méthodes suivantes :l’approche Bottom UP de Ralph Kimball[8] et l’approche de Top Down de bill
Inmon[9]. Dans ce qui suit, nous présentons les schémas de ces deux modèles. Par la suite, nous
sélectionnons la méthode optimale pour la réalisation de notre Data Warehouse.
Le modéle KimBall suit un approch Bottom-Up pour entrepôt des données.Elle est simplement
une combinaison des data Marts qui facilite le reporting et l’analyse.
La figure suivante montre en détaille de cette approche.
Bill Inmon, le père de l’entreposage de données, considère le Data Warehouse comme le dépôt
centralisé de toutes les données de l’entreprise. Dans cette approche, une organisation crée d’abord
de modèle d’entrepôt normalisé. Ensuite, la création des data Marts dans le modèle de l’entrepôt.
2
Chapitre 3. Compréhension et préparation des données
=> Par conséquence, nous choisirons la méthode de Bill Inmon qui répond à
l’architecture obtenue par les requêtes SQL.
Dans un entrepôt de données, un schéma est utilisé pour définir la manière d’organiser le
système avec toutes les entités de la base de données (tables de faits, tables de dimension) et leur
association.
Voici les différentes types de schémas :
C’est le schémas le plus simple et plus efficace dans un entrepôt de donnes.Il s’agit d’une
table de fait entourée par plusieurs table de dimension comme le montre la figure suivante :
2
Chapitre 3. Compréhension et préparation des données
Comme montre la figure 3.4 que le modèle en flocon de neige est un type de modèle en étoile
qui inclue une forme hiérarchie des tables dimensionnelle.
Le modèle en constellation représente plusieurs relation des tables de fait qui partage des
dimension communes.
Enfin, Le modèle le plus optimale pour notre projet est le modèle en constellation qui nous
permet de répondre aux besoin de l’entreprise.
l’identification des dimensions présente l’axe d’analyse de notre projet qui consiste à définir
les composants de chaque dimensions, comme le montre le tableau ci-dessous :
2
Chapitre 3. Compréhension et préparation des données
la table de fait contient l’ensemble des mesures correspondant aux informations de l’activité
à analyser et des clés étranger liée aux dimensions.Après l’identification de notre dimension nous
allons citer les tables de fait en détaille ci dessous.
• Ventes : C’est une table de faits transactionnelle qui représente l’historique des vente et
qui possède la mesure suivante :
• Production : C’est une table de faits transactionnelle qui représente l’historique des Production
et qui contient la mesure suivante :
• Budget Vente : C’est une table de faits transactionnelle qui représente le budget de vente
de cette et qui contient la mesure suivante :
• Budget Vente.
• Budget Production : C’est une table de fait transactionnelle qui représente le budget de
production de cette année et qui contient la mesure suivante :
• Budget production.
3
Chapitre 3. Compréhension et préparation des données
• Qtié Vente Beurre YTD = somme de quantité de vente de la société 1 dés le début de l’année
dont le nom de produit est beurre - somme de quantité de vente de le mois courant de beurre.
• Qtié Vente lait YTD = somme de la quantité de vente de la société 1 dés le début de l’année
dont le nom de produit est lait - somme de quantité de vente de le mois courant de lait.
• Qtié Vente YTD =somme de quantité de vente de la société 1 dés le début de l’année dont le
nom de produit n’est pas lait et beurre - somme de quantité de vente de le mois courant.
• Qtié Production lait YTD = somme de la quantité de Production de la société 1 dés le début
de l’année dont le nom de produit est lait - somme de quantité de Production de le mois
courant de lait.
3
Chapitre 3. Compréhension et préparation des données
• Budget vente= somme de la budget de vente dont les produit n’est pas Lait et Beurre.
• Qtié Budget Vente YTD =somme de quantité de Budget de vente de dés le début de l’année
dont le code de produit n’est pas lait et beurre
• Budget production= somme de la budget de production dont les produit n’est pas Lait et
Beurre et Lait cru.
• Qtié Budget production YTD =somme de quantité de Budget de production de dés le début
de l’année dont le code de produit n’est pas lait et beurre Lait cru.
• Qtié Budget production beurre YTD =somme de quantité de Budget de production dés le
début de l’année de la société 1 et dont le code de produit est beurre .
3.2.6 Conception
Après avoir identifier les dimensions et les tables de faits qui possèdent les différentes indicateurs,
l’étape suivante est de présenter le modèle de donnée logique cohérent et correspondant au modèle
choisit.
Ci-dessous, la figure qui présente le schéma en constellation de notre Data Mart Commercial.
3
Chapitre 3. Compréhension et préparation des données
Chaque projet décisionnel passe par l’étape d’intégration qui consiste à alimenter le magasin
de données à travers le mise en place de processus ETC(Extraction , Transformation et chargement)
qui permet d’extraire des données brute depuis différentes sources.
Ensuite allons appliquer plusieurs modification nécessaire pour les rendre prêtes à exploiter dans
l’étape suivante et pour obtenir le bon résultat. Cette transformation peut être simple ou
complexe. Son traitement nécessite plusieurs étapes dans l’outil de Talend. Enfin, nous allons
stocker les données traitées dans divers tables d’entrepôt.
Cette étape consiste à extraire les Tables nécessaire après avoir établi une connexion avec
la base de données de Délice en utilisant le composant "Connexion aux base de données" comme
le montre la figure suivante.
3
Chapitre 3. Compréhension et préparation des données
Après avoir connecter à notre base, Nous allons accéder à notre tables et leurs champs
spécifique avec le composant "TDBInput" comme l’indique la figure suivante :
Au niveau de cette phase, nous allons effectuer diverses opérations de transformation nécessaires
pour mettre en cohérence nos données et ce en réponse à notre besoin. Pour chaque job de Talend,
nous avons créé le scénario suivant :
3
Chapitre 3. Compréhension et préparation des données
plusieurs destination.
Après avoir élaboré l’extraction et la transformation des données, nous allons passer à l’étape
finale du processus ETL qu’est le chargement de données. Cette étape se déroule en utilisant le
composant "tDBOutput" pour mettre en place la connexion avec l’entrepôt de données final comme
l’indique l’image suivante :
Après la modélisation de data Warehouse ,Nous allons consacrer cette partie à préparer
nos données à la phase de machine Learning. Pour effectuer Ce faire, nous allons sélectionner un
3
Chapitre 3. Compréhension et préparation des données
historique de production des produits laitiers de la table de fait :TFaitProduction d’une société
spécifique qui appartient au groupe Délice ; et charger par la suite les données de cette table sous
Python afin d’effectuer les traitements nécessaires.
Il s’agit du regroupement des produits dans un seul produit pour obtenir par la suite 2
variables :
• Un variable qui contient tous les codes de produit de type Lait demi écrémé.
3
Chapitre 3. Compréhension et préparation des données
Plus un modèle de machine learning contient de variable moins la décision peut être claire et
interpréter. C’est pour cela, nous allons effecteur une étude de corrélation entre les variables pour
diminuer le nombre de variables et garder celles qui sont fortement corrélées comme l’indique la
figure suivante :
3
Chapitre 3. Compréhension et préparation des données
Conclusion
Dans ce chapitre, nous avons présenté la modélisation et les modifications que nous avons
apportées sur notre magasin de données afin de fournir notre Data marts en vue de préparer nos
données au prédiction dans la phase suivante.
3
Chapitre 4
chaPITRE 4 : ModéLIsaTIon
Plan
Introduction
Après la modélisation de la data Warehouse, Nous allons consacrer ce chapitre dans l’apprentissage
superviser où nous sommes nous intéresser à la régression. Cette partie nous permet d’appliquer des
divers algorithmes de machine learning et les comparer afin de choisir le modèle adéquat à notre
problématique. Enfin, nous allons évaluer les résultats obtenus par l’algorithme choisit.
Cette méthode d’analyse de donnée regroupe des algorithmes d’apprentissage supervisé adapté
aux données quantitatives. L’objectif est de déterminer la relation entre une variable d’intérêt et
d’autres variables observées dans un but de prédiction. Dans cette partie, nous allons présenter des
exemples d’algorithmes de régression utilisés à partir de la librairie Sklearn.
La régression linéaire est un modèle de régression qui cherche à établir une relation entre une
variable dite expliquée et une ou plusieurs variables dite explicatives. Ce modèle contient deux
type de régression :
Généralement on appelle Régression linéaire simple lorsque nous avons une seule variable
explicative, Ce modèle est de la forme :
• £ : l’erreur.
4
Chapitre 4. chapitre 4 : Modélisation
=> Dans notre cas nous allons utiliser la régression linéaire multiple qu’est cohérente
avec la quantité de notre variables disponibles.
Régression d’Elastic Net est un autre modèle de régression qui consiste à combiner les pénalité
de régression de Lasso et de Ridge pour la fonction de perte. Il est sous la forme suivante :
C’est un algorithme qui se base sur la méthode d’apprentissage d’ensemble pour la régression.
Cette méthode est une technique qui combine les prédictions de plusieurs algorithmes pour faire une
prédiction plus précise qu’un seul modèle. La figure ci-dessous montre la structure de Random Forest
4
Chapitre 4. chapitre 4 : Modélisation
Figure 4.4: Schéma de modèle Random Forest
4
Chapitre 4. chapitre 4 : Modélisation
Après avoir préparer nos données et présenter les modèle dans la section précédente,nous
avons effectué l’apprentissage en appliquant la technique train_test_split de la librairie Sklearn.
Train_test_split
Cette fonction nous offre plusieurs paramètre permettant de créer les partitions aléatoire de
sous-ensemble.
La figure ci dessous indique la division de notre jeux de données.
• test_size : ce paramètre définit la taille de données de test. nous avons définit la taille de
test sur 20%.
• random_state : Le mode par défaut effectue une division aléatoire à l’ aide de "np.random".
nous avons effectuer 2 comme un nombre exact.
Dans cette partie nous allons appliquer la répartition effectuer à nos jeux de données avec les
différentes algorithmes choisis.
Pour présenter le fonctionnement de cette technique, nous allons prendre le modèle de régression
comme exemple.
4
Chapitre 4. chapitre 4 : Modélisation
la figure ci-dessus indique que la régression linéaire créé un objet nommée LinearRegression()
qui représente le modèle. La fonction fit() aura pour vocation d’entraîner ou ajuster le modèle et le
renvoie par la suite.
Ajuster le modèle signifie déterminer les meilleurs valeurs de t’intercepte et de pente(coefficients) de
la droite de régression.
L’image suivante nous indique les interceptes et les coefficients obtenu par ce algorithme :
L’évaluation est la phase l’avant dernière de le cycle de vie CRISP-DM. En effet, elle
consiste à comparer les modèle d’apprentissage ce qui nous aide à optimiser les performance, les
affiner et à obtenir les bonne résultat en réponse à notre problématique.
Dans notre cas, nous avons utilisé plusieurs métriques pour évaluer les modèles :
MAE est une métrique trés simple qui calcule la différence absolue entre les valeurs réel
(y) et les valeurs prévus(y_pred). La formule de cette métrique est la suivante :
4
Chapitre 4. chapitre 4 : Modélisation
L’erreur quadratique moyenne indique que trouver la différence au carré entre la valeur réel
et la valeur prédite comme montre la formule suivante :
RMSE est une autre métrique pour calculer l’écart entre ces deux valeurs, il s’agit d’une
simple racine carré de l’erreur quadratique moyenne. La figure suivante nous montre la formule de
cette métrique :
— Cas 2 : On dit un fond avec R au carré faible, lorsqu’il tend de 0% vers 70%.
— Cas 3 : un R carré est élevé lorsque il compris entre 80% et 100%.ici, Le coefficient de
détermination indique que ce modèle est capable d’expliquer la variance des données.
— Cas 4 : C’est le dernier cas où le R carré égale à 1,cela signifie qu’il n y a pas d’erreur et le
modèle est parfait.Dans le monde réel, ce n’est pas possible.
Après avoir présenter les différentes métriques utilisée pour évaluer chaque algorithme, nous
allons presenter dans ce qui suit un récapitulatif comparatif des diffrent algorithme :
D’après la table ci-dessus, nous remarquons que les deux meilleur modèles sont Régression
linéaire multiple et Elastic net avec R2=0.64.
Conclusion
Durant ce chapitre, nous avons abordé les différentes algorithme de régression permettant de
prédire la quantité des produits choisis par l’entreprise, afin de mettre en place une comparaison de
ces dernier.
Le chapitre suivant impliquera la partie de récupération de données où nous allons définir les divers
visualisations obtenus.
4
Chapitre 5
chaPITRE 5 : DéPLoIEMEnT
Plan
Introduction
Dans cette section, nous allons présenter le dernier phase du cycle de vie du CRISP-DM.
Cette étape permettra de mettre en place les algorithme et les data marts décrit dans les
chapitres précèdents et les mettre utilisables pour obtenir les résultats souhaités.
Tout d’abord , nous allons exprimer les maquettes dans l’intention de vérifier que notre travail
répond aux besoin de client. Ensuite, nous allons visualiser ce travail dans des tableaux de bord
dans Power-BI.
La création des application utilisateurs est une étape nécessaire avant de la réalisation des
tableaux de bords finaux. Ceci ce fait à travers la production de maquettes fonctionnelles. Il est à
noter que ces maquettes seront réalisées à l’aide des data Marts définis lors de la phase préparation
de données.
la première maquette montre une vue d’ensemble sur les trafics de vente et de production au
cours de temps.
4
Chapitre 5. chapitre 5 : Déploiement
La maquette illustrée dans la figure suivante indique plus en détail l’évolution de production
des produits laitiers
4
Chapitre 5. chapitre 5 : Déploiement
cette maquette affichée exprime le stock final des produits Laitière de la société CLC.
4
Chapitre 5. chapitre 5 : Déploiement
la figure suivante est une maquette qui indique le stock fin des mois suivants de lait demi
écrème et beurre.
L’objectif principale de cette section est de créer des application utilisateurs simple ,clair
et accessible matérialisés par des Tableaux de bords destinés aux décideurs de notre entreprise dans
le respect des connaissances établis dans la partie modélisation.
C’est le premier tableau de bord disponible pour le décideur. Il donne une vision globale sur
l’évolution des ventes et des productions au cours de temps. La naviguer est possible à travers les
buttons à la disposition de l’utilisateur.
5
Chapitre 5. chapitre 5 : Déploiement
Le tableau de bords illustré dans la figure suivante indique une vue détaillée sur les trafics de
Vente au cours de temps et en fonction du produit. Également, elle présente les top produits vendue
avec un tableau comparatif entre les deux années. De même, des indicateurs ont été définis tel
que total vente de l’année courante et l’année précédente, la différence entre eux et leurs écarts.
5
Chapitre 5. chapitre 5 : Déploiement
Le tableau de bords affichée dans la figure suivante indique une vue détaillée sur les suites de
transformation de production au cours de temps et en fonction de produit. Également, elle présente
les top produits produite avec un tableau comparatif entre les deux années. De plus, des indicateurs
ont été défini tel que total production de l’année courante et l’année précédente, la différence entre
eux et leur écart.
Ce tableau de bord exprime le stock final des produits Laitiers de la société CLC en
excluant Lait demi écrémé et Beurre en fonction de temps avec un Tableau descriptif de la
gestion de ces produits.Des indicateur ont été présente comme Stock en quantité, total
production et vente , total budget et vente de l’année 2021.
5
Chapitre 5. chapitre 5 : Déploiement
Ce quatrième tableau de bord démontré indique l’écart de vente et de production réalisé par
rapport aux objectifs mis en place par les décideurs depuis le début de cette année de chaque produit
laitière de toutes les sociétés de Délices en éliminant les deux produits à prédire.
La dernière dashboard présente la partie la plus importante dans ce projet, elle a pour but de
prévoir le stock des mois prochains des produits suivant : lait demi écrème et tous les types de beurre.
5
Chapitre 5. chapitre 5 : Déploiement
De même, le décideur peut appliquer des modification sur la quantité produite de ces produits en
fonction d’autre produits de la même société pour savoir l’impact sur le stock fin de mois.
Conclusion
Dans cette partie, nous avons passé en revue le déploiement de la solution proposée en
représentant les modèles des tableaux de bords demandés.
Pour finir, nous clôturons notre rapport par une conclusion générale où nous allons synthétiser le
travail réalisé durant cet stage et les perspectives pour ce projet.
5
Conclusion générale
Tout au long de ce rapport, nous avons introduit un système de prise de décision efficace et fiable
qui permet de suivre le trafic de vente et de production des produits laitiers par nos décideurs,et
cela ce fait par les différents états analytique dans les tableaux de bords interactifs.
L’objectif global de ce projet est de créer une plate-forme décisionnelle afin d’analyser les données
existantes dans la base ERP de Délice pour visualiser l’historique de vente et de production des
années choisis ainsi qu’une analyse prédicative contenant une prévision sur les quantités à produire
des deux produits laitiers les plus consommés dans le marché tunisien afin de contrôler leur stock.
La mise en place de notre solution s’est déroulée en plusieurs phase. Premièrement, nous nous
sommes intéressé à la compréhension du métier de l’entreprise d’accueil afin de bien cerner leur
problématique et objectif . Ensuite,nous avons passé en revue les outils à utiliser pour la réalisation
de ce projet.
Par la suite, nous avons consacrer une grande partie du projet à la compréhension et le pré-traitement
de données. Cette partie est primordiale et consommatrice de temps. L’objectif ultime est d’assurer
une bonne qualité de données et les rendre prêt à la modélisation.
Dans la partie de modélisation, nous avons utilisé les algorithmes d’apprentissage supervisée pour
accréditer un modèle permettant la prédiction de la quantité et le stock fin de mois des produits
laitiers. Finalement, nous avons élabore une plateforme décisionnelle pour visualiser les différentes
tableaux de bords et les résultats obtenues pour résoudre la problématique mis en place dans la
première phase. Il est noter que tout au long de ce stage, l’elaboration de cette solution a été
très difficile, mais extrêmement enrichissante. En effet, toute la difficulté réside dans la collecte et
l’analyse de données.
Ce stage a été très enrichissant pour moi car il m’a permis de m’intégrer dans la vie professionnelle
en mettant en exercice mes compétences acquises au sien de l’ESPRIT tout en me familiarisant
avec les technologies mis à ma disposition par l’entreprise. De même, ce stage m’a aussi permis de
collaborer avec des personnes agréable au sein de Délice.
5
Conclusion générale
Ce projet a permis d’avoir une première version des tableaux de bords susceptibles d’être améliorée
et enrichie par d’autres données notamment ceux des ventes des produits laitiers de l’entreprise
Enfin, il serait intéressant d’inclure l’activité financière dans l’analyse prédicative pour calculer la
perte et le gain dans un souci d’optimisation du chiffre d’affaires.
5
Biographie
2021]
[12] Random Forest,"https://levelup.gitconnected.com/random-forest-regression", [Consultée en
juillet 2021]
[13] MAE, "https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021] [14]MSE,"https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021] [15]R2,"https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021]
5
Abstract
This project is achieved in the context of an end-of-studies internship within Delice Tunisia in order
to obtain the national diploma of computing engineering degree from the Private High School of
Engineering and Technology. This project aims to develop a decision making solution for agri-
businesses. The solution aims at analyzing sales and production traffic and to predict the closing
inventory of the dairy product.
Keywords : BI, Data Mining, Talend.
Résumé
Ce projet est réalisé dans le cadre d’un stage de fin d’études au sein de Délice Tunisie dans le
but de l’obtention du diplôme national d’ingénieur en informatique de l’Ecole Supérieure PRivée
d’Ingénieurie et de Technologie. Ce projet vise à développer une solution de prise de décision pour
les entreprises agroaliementaires. La solution vise à analyser le trafic de vente et de production et
de prédire le stock final des produit laitière.
Mots clés : BI, Data Mining, Talend.
58
Document Information
Submitted 2022-01-16T12:47:00.0000000
Submitted by
Similarity 10%
ESPRIT / Rapport-2.pdf
Document Rapport-2.pdf (D121797490)
2
Submitted by: nehla.debbabi@esprit.tn
Receiver: nehla.debbabi.esprit@analyse.urkund.com
rapport memoire.docx
Document rapport memoire.docx (D121559423) 2
ESPRIT / 2021_07_31_2BA_OUESLATI_AMAL_FFF.docx
Document 2021_07_31_2BA_OUESLATI_AMAL_FFF.docx (D111830394)
Submitted by: polestages.esb@esprit.tn 1
Receiver: polestages.esb.esprit@analyse.urkund.com
ESPRIT / Rapport-PFE-BesghaierHaithem.pdf
Document Rapport-PFE-BesghaierHaithem.pdf (D75968276)
Submitted by: amal.tarifa@esprit.tn 1
1/23