RapportPFE MahaBenGhezala

Dédicaces
A ma très chère mère :
Aucune mots ,très chère maman, ne pouvaient exprimer la profondeur des sentiments que
j’éprouve pour toi, tes sacrifices innombrables et ton dévouement firent pour moi un élan
encourager ; maman Moufida que je t’adore.
A mon très cher père :
A l’homme de ma vie, mon exemple éternel, mon soutien moral et source de joie et de
bonheur, celui qui s’est toujours sacrifié pour me voir réussir.
A mon cher Frére Amine et Mes belles soeurs Manel et Meyssa :
Merci pour vos encouragements contenus et votre soutien moral. Puisse dieu vous donne
santé , courage,bonheur et surtout réussite dans votre vie professionnelle et familiale
Maha Ben Ghezala
1
Remerciement
Je remercie dieu le tout puissant de m’avoir donné la santé et la volonté de
terminer ce projet de fin d’étude. Je tiens à remercier vivement tous ceux qui
de prés ou de loin ont participé à la réalisation de ce projets.
Je tiens surtout à exprimer mes vifs remerciements à Monsieur Firas
GMAR mon encadrant au sein de l’entreprise Délice,pour son aide , ses
conseils , sa disponibilité et son sens de l’écoute et l’échange tout au long de ce
projet.
Je tiens également à remercier AbdelMonem AISSA Enseignant à ESPRIT
pour son encadrement fructueux et sa générosité et son suivi au cours de ce
stage.
Mes remerciements passent également à chaque personne que j’ai contacté
durant mon stage au sein de Délice, auprès desquelles j’ai trouvé l’accueil
chaleureux.
Enfin, j’adresse mes remerciements à tous les membres du jury de bien vouloir
accepté d’évaluer mon travail.
2
Table des
Introduction générale 9
1 Contexte général 11
1.1 Présentation du projet.............................................................................................................12
1.1.1 Cadre general du projet...............................................................................................12
1.1.2 Présentation de l’organisme d’accueil.......................................................................12
1.1.3 Historique de Délice Holding.....................................................................................13
1.2 Problématique...........................................................................................................................14
1.3 Solution proposée.....................................................................................................................14
1.4 Méthodologie de Travail Adoptée...........................................................................................15
1.4.1 Methodologie SEMMA.................................................................................................15
1.4.2 Choix..........................................................................................................................17
2 Compréhension de métier 19
2.1 Les Objectifs de Métier...........................................................................................................20
2.2 Objectifs «Data Science»........................................................................................................20
2.3 Les critères de succès..............................................................................................................20
2.3.1 Critère de succès de Datawarehouse.........................................................................20
2.3.2 Critère de succès de Data mining..............................................................................21
2.4 Plan de Projet............................................................................................................................21
2.5 Environnement logiciel............................................................................................................22
2.5.1 Python[3].......................................................................................................................22
2.5.2 Anaconda [4]................................................................................................................23
2.5.3 Jupyter [5]....................................................................................................................23
2.5.4 Power BI [6].................................................................................................................23
3 Compréhension et préparation des données 25

3.1 Compréhension de données....................................................................................................26
3.1.1 la collecte des données................................................................................................26
3.2 Préparation des données de Data Warehouse.....................................................................26
3.2.1 Modélisation d’entrepôt de donnée...........................................................................26

3
Table des
3.2.2 Les approches de modélisation de Data Warehouse...............................................27
3.2.3 Les schémas de l’entrepôt de données.....................................................................28
3.2.4 Détermination des tables de dimensions.................................................................29
3.2.5 Détermination des tables de Faits.............................................................................30
3.2.6 Conception....................................................................................................................32
3.2.7 Intégration des données..............................................................................................33
3.3 Préparation des données Data Mining..................................................................................35
3.3.1 Regrouper les données................................................................................................36
3.3.2 Supprimer les Valeurs aberrante...............................................................................36
3.3.3 Étude de corrélations...................................................................................................37
4 chapitre 4 : Modélisation 39
4.1 Apprentissage Superviser : Régression.................................................................................40
4.1.1 Régression linéaire[10]...............................................................................................40
4.2 Entraînement des données.....................................................................................................42
4.2.1 la modélisation avec les algorithme..........................................................................42
4.3 Évaluation des Algorithmes de régression..........................................................................43
4.3.1 Erreur Absolue Moyenne MAE[12]..........................................................................43
4.3.2 Erreur quadratique moyenne MSE[13]...................................................................44
4.3.3 Erreur quadratique moyenne RMSE[14]................................................................44
4.3.4 R au carré (R2)[15]......................................................................................................44
5 chapitre 5 : Déploiement 46
5.1 Représentation des applications utilisateurs.......................................................................47
5.1.1 Maquette :Home Dashboard......................................................................................47
5.1.2 Maquette :Vente Dashboard......................................................................................48
5.1.3 Maquette :Production Dashboard.............................................................................48
5.1.4 Maquette :Gestion de Stock Dashboard...................................................................49
5.1.5 Maquette :Gestionnaire budgétaire Dashboard.......................................................49
5.1.6 Maquette :Prévision de stock lait et beurre Dashboard.........................................50
5.2 Construction des applications utilisateurs...........................................................................50
5.2.1 Home Dashboard.........................................................................................................50
4
Table des
5.2.2 Vente Dashboard..........................................................................................................51
5.2.3 Production Dashboard................................................................................................52
5.2.4 Gestion de Stock Dashboard......................................................................................52
5.2.5 Contrôle budgétaire Dashboard.................................................................................53
5.2.6 Prévision de stock lait et beurre dashboard.............................................................53
Conclusion générale 55
5
Table des
5
6
Table des figures
1.1 Logo Délice Holding.................................................................................................................13

1.2 Cycle de vie de SEMMA...........................................................................................................16
1.3 Cycle de vie de CRISP-DM......................................................................................................17
2.1 Plan de projet............................................................................................................................22

2.2 Logo Python..............................................................................................................................22
2.3 Logo Anaconda.........................................................................................................................23
2.4 Logo Jupyter.............................................................................................................................23
2.5 Logo Power BI..........................................................................................................................24
2.6 Logo Talend...............................................................................................................................24
3.1 L’approche de Ralph Kimball.................................................................................................27

3.2 L’approche de Bill Inmon.......................................................................................................28
3.3 Modèle en Étoile.......................................................................................................................29
3.4 Modèle en Flocon de neige.....................................................................................................29
3.5 Modèle en Constellation..........................................................................................................29
3.6 Conception de Data Mart Commercial..................................................................................33
3.7 Connexion à la base de donnée de Délice............................................................................34
3.8 Composant tDBInput...............................................................................................................34
3.9 Dimension Nom Produit.........................................................................................................35
3.10 Destination Dim Nom Produit...............................................................................................35
3.11 Avec les valeurs aberrante......................................................................................................36
3.12 Corriger les valeurs aberrante................................................................................................37
3.13 Sans les valeurs aberrante.......................................................................................................37
3.14 Matrice de corrélation.............................................................................................................38
4.1 Équation de modèle linéaire Simple.....................................................................................40

4.2 Équation de modèle linéaire multiple...................................................................................41
4.3 Équation de modèle Elastic Net.............................................................................................41
4.4 Schéma de modèle Random Forest........................................................................................41
6
4.5 La répartition de données.......................................................................................................42
4.6 L’équation d’erreur Absolue Moyenne..................................................................................44
4.7 L’équation d’erreur quadratique Moyenne...........................................................................44
4.8 L’équation de RMSE................................................................................................................44
4.9 L’équation de R au carré.........................................................................................................45
4.10 Comparaison des modèles......................................................................................................45
5.1 Maquette de Home dashboard...............................................................................................47

5.2 Maquette de suivi de vente.....................................................................................................48
5.3 Maquette de suivi de production...........................................................................................48
5.4 Maquette de gestion de stock.................................................................................................49
5.5 Maquette de contrôle budgétaire...........................................................................................49
5.6 Maquette d’analyse prédicative..............................................................................................50
5.7 Home dashboard.......................................................................................................................51
5.8 Trafic de vente...........................................................................................................................51
5.9 Évolution de production..........................................................................................................52
5.10 Maquette de gestion de stock.................................................................................................53
5.11 Contrôle budgétaire sauf Lait demi écrémé et Beurre........................................................53
5.12 Analyse prédicative de production Lait et Beurre de CLC.................................................54
7
Liste des
— BI = Business Intelligence
— CRISP-
D= M
Cross Industry Standard Process for Data Mining
— ERP = Enterprise Resource Planning
— ETL = Extract,Transform et Load
— SQL = Structured Query Language
8
Introduction
La Business intelligence (BI),connu aussi sous le nom de "Informatique décisionnelle" est un

ensemble de processus,des technologies et d’applications qui visent à transmettre la bonne
information aux chefs d’entreprise.
Son objectif est de faciliter la prise de décision stratégique au sien de l’entreprise à travers une
meilleure compréhension de l’environnement de marché et en conséquence une orientation optimale
de ses activités futures.
Ainsi, la BI contient une large variété d’outils et de méthodologies permettant aux entreprises
de collecter les données de leurs systèmes internes et de différentes sources externes, de les traiter
pour se préparer à l’analyse. Grâce à ces outils, on peut créer des rapports, des tableaux de bords
et des visualisation de données permettant une meilleure lecture des résultats obtenus conformément
aux exigences du management.
C’est dans ce contexte que s’inscrit mon projet de fin d’étude réalisé au sein de Délice Holding,
qui a pour but la mise en place d’une plateforme d’aide à la decision BI pour le suivi de
l’évolution de la production et la vente des produits laitiers.
Le présent rapport décrit le travail réalisé au cours de ce projet.Il est divisé en cinq chapitres :
• Chapitre 1 : Description brève le contexte du projet.

Nous présentons le contexte général du travail effectué ainsi que la société d’accueil. Ensuite,
nous allons poser la problématique en se référant aux besoins exprimés par le client.
• Chapitre 2 : Étude de la problématique métier.

Nous allons citer les représentants commerciaux de ce projet, le but de la data science ainsi
que les outils utilisé dans la mise en oeuvre de notre projet.
• Chapitre 3 : Collecte et préparation des données.

Nous décrivons les différentes étapes suives dans le processus de collecte et de préparation des
données.
9
Introduction générale
• Chapitre 4 : Modèles d’apprentissage.

Ce chapitre présente, d’abord, une étude de diffèrent modèles d’apprentissage. Ensuite, une
comparaison sera faite entre eux pour choir celui qui convient le mieux à nos objectifs.
• Chapitre 5 : Déploiement final de la solution.

Il s’agit de la mise en oeuvre de notre solution dans les serveurs de notre entreprise.
Enfin, nous terminons ce rapport par une conclusion générale et une réflexion sur les perspective
futures de la plateforme élaborée dans le cadre de ce projet.
1
Chapitre 1
ConTExTE généRaL
Plan
1 Présentation du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Méthodologie de Travail Adoptée . . . . . . . . . . . . . . . . . . . . . . . 15

Chapitre 1. Contexte général
Introduction
Dans ce premier chapitre a pour objectif de présenter l’entreprise d’accueil et ses activités.Par
la suite, nous allons poser le facteurs de la problématique de ce projet, pour passer aprés à la
présentation de la solution proposée. Enfin, nous allons décrire le choix de la méthodologie suivie.
1.1 Présentation du projet
1.1.1 Cadre general du projet
Le présent travail a été réalisé dans le cadre du projet de fin d’études qui conclut la formation
d’ingénieur en informatique spécialisée en Business Intelligence et Enterprise Resource Planning
(ERP-BI) à l’École Supérieure Privée d’Ingénierie et de Technologie (ESPRIT).
Le présent projet a été réalisé au sein de l’entreprise d’accueil Délice Tunisie. Il est intitulé "Conception
et mise en œuvre d’une solution BI pour le suivi des ventes et des productions".
En effet, il s’agit de la mise en place d’une plateforme décisionnelle permettant aux décideurs de
Délice de surveiller les activités de vente et production.
Dans ce qui suit, nous allons exposer en premier lieu notre problématique de travail, la solution
proposée en second lieu et finalement la méthodologie de travail permettant la réalisation de la
solution proposée.
1.1.2 Présentation de l’organisme d’accueil
Cette section décrit l’entreprise dans laquelle est basé le projet de fin d’etude, son
domaine d’activité et les innovations qu’il apporte.
1.1.2.1 Délice Holding
Cet projet a été réalisé au sein de la société mère Délice Holding [1], qui exerce dans dans
le secteur de l’industrie agro-alimentaire. Ce groupe est composé de huit sociétés : CLC, CLN, CLSB,
SBC, CF, Delta Plastic, STIAL et SOCOGES. Crée par Monsieur Mohamed MEDDEB, l’un
des pionniers de l’industrie en Tunisie, est issu d’une famille ayant opéré dans le secteur des boissons
gazeuses.En 1978 et après des études en industries Agro-Alimentaires en France, il est rentré au pays
pour lancer son premier projet de fabrication de yaourts et a révolutionné dès lors les habitudes
culinaires en matière de consommation de lait et dérivés.
1
En effet, son approche s’est basée sur la dynamisation du marché par le biais de l’introduction
du marketing et en misant sur la qualité des produits. Son ambition pour la croissance de son Groupe
a été couronnée par des alliances stratégiques d’envergure avec des grands leaders dans l’industrie
du lait et dérivés et notamment DANONE et BONGRAIN. De nos jours, DELICE est devenue la
marque la plus populaire et la plus proche des consommateurs.
Figure 1.1: Logo Délice Holding
1.1.3 Historique de Délice Holding
La première création était en 1978 sous le nom STIAL est une société anonyme
spécialisée dans la fabrication et la vente de yaourt et d’autres dérivés de produit laitiers. En
1993 ,la création de la sociéte SOCOGES est une société à responsabilité limité spécialisée
sur la distribution de tous les produits laitiers de délice. En 1997, STIAL crée la premier centrale
laitier CLC au Cap-Bon en Tunisie qui spécialise dans la fabrication, le conditionnement et la
commercialisation du lait et ses dérivés sauf yourt et les boissons de toutes nature. Ensuite en
2006, la création d’un autre centrale laitier au nord du Tunisie CLN spécialise dans la
transformation,la production et la commercialisation des produits laitiers et ses dérivés. Puis en
2008, une alliance avec l’entreprise BONGRAIN permet de crée une autre unité CF qui spécialise
dans la fabrication de produit fromage à travers de lait frais et qu’elle est installe à Bousselem.
En 2011, la création de la dernière unité CLSB à Sidi-Bouzid qu’est pour objectif de la
fabrication, le conditionnement et la commercialisation du lait et ses dérives et de production et
vente de tous autre produit agro-alimentaires. Finalement, en 2014, la création de la société mère
Délice Holding qui représente les 6 sociétés.
Le Tableau 1.1 présente la chronologie de l’entreprise Délice Holding :
1
Tableau 1.1: Chronologie de Délice Holding
1978 Création de la STIAL

1993 Création de la SOCOGES , contrat entre Délice et
YopLait-Danone
1997 La Création d’une nouvelle unité CLC
2006 La Création d’une nouvelle unité CLN
2008 Création de CF
2011 La création de CLSB
2014 La création de Délice Holding
1.2 Problématique
Dans le cadre de ce projet nous allons intéresser aux produits laitière, produits phares des
ventes de Délice. En effet, ces produits présentent une forte demande sur le marché tunisien d’une
part.
D’autre part, ces produits présentent un caractère périssable vu leurs composition. En conséquence,
leurs stockages constituent une étape importante dans leurs cycle de vie.
La quantité nécessaire à stocker et donc à produire, le délai de stockage ainsi que le coût de stockage
sont des problématiques réelles et journalières dans le cycle de vie des produits laitière.
Dans ce contexte, nous avons posé la question suivante :Comment peut-on piloter le processus
de fabrication et de vente des produits laitiers tout en optimisant le stockage ?
1.3 Solution proposée
Pour résoudre la problématiques exposée dans la section précédente, nous proposons de

mettre en place une plate-forme décisionnelle permettent aux décideurs de suivre les activités de
vente et de production des produits laitière.
En conséquence, les interprétations en relation avec les quantités stockées seront possibles via les
tableaux de bords fournis par cette plateforme.
De même, grâce à cette plateforme, le décideur sera à terme en mesure d’appliquer let de gérer
différents scénarios sur la quantité produite de certains produits à savoir le lait et beurre. La
résultante en terme de quantité optimale à produire par scénario serait considérée comme un élément
1
important dans la prise de décision.

Le présent projet consiste en la mise en place d’un système d’aide à la décision. il a pour objectif
d’unifier et de simplifier le processus de vente et de production dans une optique de suivi et de
contrôle optimums La méthode BI a été utilisée pour la réalisation de ce outil en suivant deux
étapes principales à savoir :
• La collecte des données afin de les générer dans des tableaux de bords dynamiques.
• La synthèse des évolutions de vente et de production pour permettre au responsables de l’entreprise

d’avoir une vue détaillée ainsi qu’une bonne connaissance de l’état actuel de ces deux transactions.
Enfin, pour les projections futures, la méthode de l’exploration de données a été choisie pour prédire
et analyser la quantité à produire de certain laitiers pour obtenir la quantité stocker.
Dans ce qui suit,nous allons présenter les différentes les méthodes les plus utilisées dans les projets
de l’intelligence Artificielle dont nous choisissons celle qui convient à notre projet .
1.4 Méthodologie de Travail Adoptée
La réalisation optimale d’un projet est de basée sur l’adoption de la bonne méthodologie
a savoir celle qui réponds aux besoin de clients, tout en prenant en considération les contraintes délais
de livraison du projet et le coût.
1.4.1 Methodologie SEMMA
SEMMA est une méthodologies crée et développée par l’institut SAS qui s’appuie sur l’exploration,
la visualisation, la transformation et la modélisation pour bien explorer des données de façon
indépendante du logiciel utilisé. Voici un graphe qui représente le cycle de vie de cette méthode.
1
Figure 1.2: Cycle de vie de SEMMA
• Sample :Extrait des échantillons à partir d’un vaste ensemble de données pour identifier les
variables ou les facteurs influençant le processus.
• Explore : Au cours de cette étape consiste à explorer des données pour identifier les tendances
et les anomalies.En effet, cette exploration cet fait par des nombres ou des visualisation.Dans
ce cas,Les technique les plus utilisée sont Clustering, l’analyse factorielles ou analyse de
correspondance.
• Modify : Dans cette étape, les données explorée sont analysées et nettoyées, puis transmises à
l’étape de modélisation et explorées si les données nécessitent un raffinement une
transformation.
• Model :une fois les données nettoyées,on applique des différentes techniques et méthodes afin
de produire un modèle projeté de la façon dont ces données atteignent le résultat souhaité.
• Assess :C’est la dernière étape de SEMMA,le modèle choisi est évalué pour son utilité et sa
fiabilité avec notre objectif.les données peuvent être testées et utilisées pour savoir l’efficacité
de ses performance.
1
1.4.2 Choix
1.4.2.1 CRISP-DM[2]
le Cross Industrie Standard Process pour Data Mining est un modèle de processus développée
à la fin des années 1990 par IBM pour réaliser les projets Datamining.Elle reste aujourd’hui la seule
méthode utilisable efficacement pour tous les projets Data Science. Les principales causes de ce choix
sont le fait qu’elle est vraiment indépendante de tous outil ou technique(contrairement à SEMMA
qui est pour SAS).
Figure 1.3: Cycle de vie de CRISP-DM
• Compréhension des affaires :La première phase consiste à comprendre les objectifs et les
problématiques que la data science vise à résoudre ou à améliorer.
• Compréhension des données : cette étape vise à déterminer les données à analyser, à
identifier la qualité des données disponibles ,faire les liens entre les données et identifier leur
signification d’un point de vue métier.
• Préparation des données : L’étape de préparation des données consiste à regrouper les
activités liées à la construction de l’ensemble des données à analyser. Elle inclut le classement
des données en fonction des critères choisis, leur nettoyage et leur codage pour les rendre
compatibles avec les algorithmes que nous allons choisir.
• Modélisation : C’est la phase de data science, la modélisation comprend le choix ,

paramétrage et le test de divers algorithmes ainsi que leur enchaînement pour répondre à nos
1
questions et
1
aident à atteindre les objectifs du projet.
• Évaluation : Vise à vérifier que le modèle ou les connaissance obtenus répondent aux objectifs
formulés au début du processus et qu’ils fournissent les résultat nécessaire .Elle contribue aussi
à la décision de déploiement du modèle ou, si besoin est , à son amélioration.
• Déploiement : Il s’agit de l’étape finale de CRISP-DM. Il vise à mettre la connaissance

obtenue par la modélisation, dans une forme adaptée au besoin de client et l’intégrer au
processus de prise de décision.
Conclusion
Dans ce premier chapitre, nous avons présenté le cadre Général du projet avec une vue
d’ensemble sur l’organisme dd l’accueil Délice. Ensuite, nous avons détaillé la problématique,la
solution proposée en réponse à ce questionnement et enfin la méthodologie adoptée. Dans le chapitre
suivant , nous allons comprendre mieux le domaine.
1
Chapitre 2
ComPRÉHEnsIon de méTIER
Plan
1 Les Objectifs de Métier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Objectifs «Data Science» . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les critères de succès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Plan de Projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Chapitre 2. Compréhension de métier
Introduction
Ce chapitre est dédiée à la présentation de la première étape dans le modèle CRISP-DM et

à travers l’identification des objectifs métier de ce projet en premier lieu.Ensuite, nous allons
énumérer ceux de la "Data Science" .Et finalement, nous clôturons par la présentation de
l’environnement utilisé.
2.1 Les Objectifs de Métier
Le principal objectif de l’organisme d’accueil est la minimisation du coût de stock. Cet objectif
principal se décline en sous objectifs comme suit :
• Améliorer et suivre le processus de contrôle des ventes et des productions des produits laitiers.
• Contrôler d’activité budgétaire
• Prévoir le stock final des produits laitiers.
2.2 Objectifs «Data Science»
C’est la partie la plus importante du projet.Elle répondra aux objectifs de l’entreprise. Donc,
les buts de la "Data Science" sont multiples dont nous citons :
• L’apprentissage approfondie permettant La prévision de la quantité produite des produits

laitiers .
• La prévision des valeurs du stock finale des produits laitiers en utilisant plusieurs scénarios
disponibles pour chaque filiale de Délice.
2.3 Les critères de succès
les critères de succès sont mesurés par le degré de réalisation des objectifs prédétermines par
l’entreprise d’accueil. Autrement, nous allons vérifier si les résultats obtenus à travers les différentes
taches effectuées répondent ils aux besoins exprimés par les décideurs.
2.3.1 Critère de succès de Datawarehouse
2
Tableau 2.1: Table de critère de succès de la data Warehouse
Perspective Qui ? pourquoi ? Mesure

Technique L’équipe BI. Intégrité
/historique de — Source unique de
données/gagner donnés
du temps/une
— La disponibilité
bonne
des données.
architecture
de données.
2.3.2 Critère de succès de Data mining
Tableau 2.2: Table de critère de succès de data Mining
Perspective Qui ? pourquoi ? Measure

Business le décideur. Comprendre les Décider la production
données. des produits laitiers.
Technique L’équipe BI. Analyser et
manipuler les — predire la quantité
données. stockée de produit
laitier pour les
mois suivantes.
— Visualiser
l’évolution
de stocks des
produits Laitiers.
2.4 Plan de Projet
Dans cette section, nous allons définir les différentes étapes et les itérations qui vont se
dérouler tout au long de ce projet. De plus, Nous allons cité les différentes outils utilisé pour réalisé
nos objectifs. Comme nous avons spécifié dans le chapitre précédent,la méthodologie qui sera utilisé
2
dans cette présentation est CRISP-DM. Il est important de noter que les taches effectuées englobent
outre la machine learning, la création de la data warehouse.
Figure 2.1: Plan de projet
2.5 Environnement logiciel
2.5.1 Python[3]
Python est un langage de programmation polyvalent, orienté objet et de haut niveau. En

effet, il peut être utilisé pour développer des sites Web, des applications graphiques ou Web. En
outre, les règles de syntaxe simples du langage de programmation Python facilitent la lisibilité de
la base de code et la maintenance et les mises à jour de l’application. Python se caractérise par
une bibliothèque standard, large et robuste qui fait en sorte qu’il se diffère des autres langages de
programmation.
Figure 2.2: Logo Python
2
2.5.2 Anaconda [4]
Anaconda est une distribution libre et open source des langages de programmation Python
et R appliqué au développement d’applications dédiées à la science des données et à l’apprentissage
automatique, qui vise à simplifier la gestion des paquets et de déploiement.
Figure 2.3: Logo Anaconda
2.5.3 Jupyter [5]
Jupyter est une application web utilisée pour programmer dans plus de 40 langages de
programmation, dont Python, Julia, Ruby,R, ou encore Scala2. Jupyter permet de réaliser des
calepins ou notebooks, c’est-à-dire des programmes contenant à la fois du texte en markdown et
du code en Julia, Python, R.Ces notebooks sont utilisés en science des données pour explorer et
analyser des données.
Figure 2.4: Logo Jupyter
2.5.4 Power BI [6]
Power BI est une solution d’analyse de données de Microsoft. Il permet de créer des
visualisations de données personnalisées et interactives avec une interface suffisamment simple pour
que les utilisateurs finaux créent leurs propres rapports et tableaux de bord.
2
Figure 2.5: Logo Power BI
2.5.4.1 Talend [7]
Talend est un logiciel open source de Type ETL(Extract Transform Load) développé par
la société Talend. Cet outil permet l’échange inter-applicatif de données et facilite la migration d’outils
métier.
Figure 2.6: Logo Talend
Conclusion
Dans ce chapitre, nous avons présenté les objectifs métier à accomplir durant ce stage.
Ensuite, nous avons cité les objectifs de data science pour répondre aux besoin métier.Finalement,
nous avons défini l’environnement du travail.
2
Chapitre 3
ComPRÉHEnsIon eT PRÉPaRaTIon des
données
Plan
1 Compréhension de données........................................................................................26
2 Préparation des données de Data Warehouse....................................................26
3 Préparation des données Data Mining...................................................................35

Chapitre 3. Compréhension et préparation des données
Introduction
Le présent chapitre sera articulé comme suit :
• la collecte de données.
• La description des différentes étapes de la réalisation du modèle dimensionnel ;
• La préparation des données.
3.1 Compréhension de données
3.1.1 la collecte des données
La collecte des données est une étape primordiale pour tout projet de data science. Elle
est consommatrice de temps et de ressources. Dans notre cas, la collecte a été effectuée par des
requêtes SQL qui accèdent directement à la base de donnée ERP " JDE_PRODPUB" . Les
tables suivantes étaient la résultante de notre recherche : Lait Cru, Vente, Production. Comme
support, nous avons utilisé l’outil Excel comme une autre source de données pour accéder au Budget
de Vente et de Production.
3.2 Préparation des données de Data Warehouse
La préparation des données est la troisième étape de crisp-dm ayant pour but de traiter
les problèmes dégagés durant l’étape précédente. C’est une phase très longue et primordiale dans
ce projet pour limiter les défauts dans le jeu de données finaux. La résultante est une table prête
à traiter dans la phase suivante.
3.2.1 Modélisation d’entrepôt de donnée
L’entrepôt de donnée permet aux utilisateur d’accéder à une version unifiée de la base données
pour la prise de décision , les rapports et des prévision en temps. Elle fonctionne comme un système
d’information avec toutes les données passées et stockées a partir d’une ou plusieurs sources.
Les caractéristiques de l’entrepôt de donnée sont :
• Orienté Sujet le processus d’entreposage de données est mieux équipée pour traiter un thème
spécifique.
• intégrité L’intégration de donnée est définie comme l’établissement d’une connexion entre
2
données provenant de plusieurs sources .
• Non volatile les données ne disparaisse pas et ne change pas au cours de traitement et au fil
de temps.
• Historiés Les données stockées dans un entrepôt de données sont rappelées avec une période
de temps spécifique et fournissent des informations d’un point de vue historique.
3.2.2 Les approches de modélisation de Data Warehouse
Afin de mieux comprendre le concept de entrepôt de données, nous sommes face aux
méthodes suivantes :l’approche Bottom UP de Ralph Kimball[8] et l’approche de Top Down de bill
Inmon[9]. Dans ce qui suit, nous présentons les schémas de ces deux modèles. Par la suite, nous
sélectionnons la méthode optimale pour la réalisation de notre Data Warehouse.
3.2.2.1 Approches ascendante de Ralph Kimball
Le modéle KimBall suit un approch Bottom-Up pour entrepôt des données.Elle est simplement
une combinaison des data Marts qui facilite le reporting et l’analyse.
La figure suivante montre en détaille de cette approche.
Figure 3.1: L’approche de Ralph Kimball
3.2.2.2 Approches descendante de Bill Inmon
Bill Inmon, le père de l’entreposage de données, considère le Data Warehouse comme le dépôt
centralisé de toutes les données de l’entreprise. Dans cette approche, une organisation crée d’abord
de modèle d’entrepôt normalisé. Ensuite, la création des data Marts dans le modèle de l’entrepôt.
2
Figure 3.2: L’approche de Bill Inmon
Le tableau suivant résume ces deux méthodes :
Tableau 3.1: Comparaison des approches
Ralph Kimball Bill Inmon

Processus Bottom-Up Top-Down
Organisation Data marts Data warehouse
Schématisation Étoile Flocon
=> Par conséquence, nous choisirons la méthode de Bill Inmon qui répond à
l’architecture obtenue par les requêtes SQL.
3.2.3 Les schémas de l’entrepôt de données
Dans un entrepôt de données, un schéma est utilisé pour définir la manière d’organiser le
système avec toutes les entités de la base de données (tables de faits, tables de dimension) et leur
association.
Voici les différentes types de schémas :
3.2.3.1 Modèle en Étoile
C’est le schémas le plus simple et plus efficace dans un entrepôt de donnes.Il s’agit d’une
table de fait entourée par plusieurs table de dimension comme le montre la figure suivante :
2
Figure 3.3: Modèle en Étoile
3.2.3.2 Modèle en Flocon
Comme montre la figure 3.4 que le modèle en flocon de neige est un type de modèle en étoile
qui inclue une forme hiérarchie des tables dimensionnelle.
Figure 3.4: Modèle en Flocon de neige
3.2.3.3 Modèle en Constellation
Le modèle en constellation représente plusieurs relation des tables de fait qui partage des
dimension communes.
Figure 3.5: Modèle en Constellation
Enfin, Le modèle le plus optimale pour notre projet est le modèle en constellation qui nous
permet de répondre aux besoin de l’entreprise.
3.2.4 Détermination des tables de dimensions
l’identification des dimensions présente l’axe d’analyse de notre projet qui consiste à définir
les composants de chaque dimensions, comme le montre le tableau ci-dessous :
2
Tableau 3.2: Dimensions et leur descriptions
Dimensions Attributs Descriptions

Dim-Produit Code Produit, Cette dimension correspond aux
Description-Produit,Famille différentes Produits
Dim-date Date,Année,Mois,Jour,Nom-Mois Cette dimension correspond à l’axe
temporel en terme de date.
Dim-societe Societe-id, Societe-code, Cette dimension correspond aux
Societe-description différents sociétés.
Dim-Stock Societe-id, CodeProduit, Stock Cette dimension correspond aux
stock initiale de différente produits.
Dim-societe Societe-id, Societe-code, Cette dimension correspond aux

Societe-description différents sociétés.
3.2.5 Détermination des tables de Faits
la table de fait contient l’ensemble des mesures correspondant aux informations de l’activité
à analyser et des clés étranger liée aux dimensions.Après l’identification de notre dimension nous
allons citer les tables de fait en détaille ci dessous.
• Ventes : C’est une table de faits transactionnelle qui représente l’historique des vente et
qui possède la mesure suivante :
• QtiteVendue=valeur absolue de quantité /100000.
• Production : C’est une table de faits transactionnelle qui représente l’historique des Production
et qui contient la mesure suivante :
• QtiteProduite=valeur absolue de quantité /100000.
• Budget Vente : C’est une table de faits transactionnelle qui représente le budget de vente
de cette et qui contient la mesure suivante :
• Budget Vente.
• Budget Production : C’est une table de fait transactionnelle qui représente le budget de
production de cette année et qui contient la mesure suivante :
• Budget production.
3
3.2.5.1 Identification de table de fait : Vente
• Total Vente= somme de la mésure QUANTITE > 0.
• Vente AC= total de vente de l’année courante
• Vente AP= total de vente de l’année précédente.
• Qtié Vente Beurre YTD = somme de quantité de vente de la société 1 dés le début de l’année
dont le nom de produit est beurre - somme de quantité de vente de le mois courant de beurre.
• Qtié Vente lait YTD = somme de la quantité de vente de la société 1 dés le début de l’année
dont le nom de produit est lait - somme de quantité de vente de le mois courant de lait.
• Qtié Vente YTD =somme de quantité de vente de la société 1 dés le début de l’année dont le
nom de produit n’est pas lait et beurre - somme de quantité de vente de le mois courant.
3.2.5.2 Identification de table de fait : Production
• Total Production= somme de la mésure QUANTITE > 0.
• Production AC= total de production de l’année courante.
• Production AP= total de Production de l’année précédente.
• Qtié Production Beurre YTD = somme de quantité de Production de la société 1 dés le

début de l’année dont le nom de produit est beurre - somme de quantité de Production de
le mois courant de beurre.
• Qtié Production lait YTD = somme de la quantité de Production de la société 1 dés le début
de l’année dont le nom de produit est lait - somme de quantité de Production de le mois
courant de lait.
• Qtié Production YTD =somme de quantité de Production de la société 1 dés le début de

l’année dont le nom de produit n’est pas lait et beurre - somme de quantité de Production
de le mois courant.
3
3.2.5.3 Identification de table de fait : BudgetVente
• Budget vente= somme de la budget de vente dont les produit n’est pas Lait et Beurre.
• Qtié Budget Vente YTD =somme de quantité de Budget de vente de dés le début de l’année
dont le code de produit n’est pas lait et beurre
3.2.5.4 Identification de table de fait : BudgetProd
• Budget production= somme de la budget de production dont les produit n’est pas Lait et
Beurre et Lait cru.
• Qtié Budget production YTD =somme de quantité de Budget de production de dés le début
de l’année dont le code de produit n’est pas lait et beurre Lait cru.
• Qtié Budget production lait YTD =somme de quantité de Budget de production de la

société 1 dés le début de l’année dont le code de produit est Lait.
• Qtié Budget production beurre YTD =somme de quantité de Budget de production dés le
début de l’année de la société 1 et dont le code de produit est beurre .
3.2.6 Conception
Après avoir identifier les dimensions et les tables de faits qui possèdent les différentes indicateurs,
l’étape suivante est de présenter le modèle de donnée logique cohérent et correspondant au modèle
choisit.
Ci-dessous, la figure qui présente le schéma en constellation de notre Data Mart Commercial.
3
Figure 3.6: Conception de Data Mart Commercial
3.2.7 Intégration des données
Chaque projet décisionnel passe par l’étape d’intégration qui consiste à alimenter le magasin
de données à travers le mise en place de processus ETC(Extraction , Transformation et chargement)
qui permet d’extraire des données brute depuis différentes sources.
Ensuite allons appliquer plusieurs modification nécessaire pour les rendre prêtes à exploiter dans
l’étape suivante et pour obtenir le bon résultat. Cette transformation peut être simple ou
complexe. Son traitement nécessite plusieurs étapes dans l’outil de Talend. Enfin, nous allons
stocker les données traitées dans divers tables d’entrepôt.
3.2.7.1 Extraction des données
Cette étape consiste à extraire les Tables nécessaire après avoir établi une connexion avec
la base de données de Délice en utilisant le composant "Connexion aux base de données" comme
le montre la figure suivante.
3
Figure 3.7: Connexion à la base de donnée de Délice
Après avoir connecter à notre base, Nous allons accéder à notre tables et leurs champs
spécifique avec le composant "TDBInput" comme l’indique la figure suivante :
Figure 3.8: Composant tDBInput
3.2.7.2 Transformation des données
Au niveau de cette phase, nous allons effectuer diverses opérations de transformation nécessaires
pour mettre en cohérence nos données et ce en réponse à notre besoin. Pour chaque job de Talend,
nous avons créé le scénario suivant :
• Un composant qui permet de regroupe et effectuer les opérations nécessaire.
• Un composant permet de filtrer selon le besoin.
• Un composant permet la transformation de données,les jointures et les dirige vers une ou
3
plusieurs destination.
• Un composant permet d’éliminer les données dupliquer.
Ci dessous une figure qui montre un exemple d’alimentation de la dimension "Nom-Produit" :
Figure 3.9: Dimension Nom Produit
3.2.7.3 Chargement des données
Après avoir élaboré l’extraction et la transformation des données, nous allons passer à l’étape
finale du processus ETL qu’est le chargement de données. Cette étape se déroule en utilisant le
composant "tDBOutput" pour mettre en place la connexion avec l’entrepôt de données final comme
l’indique l’image suivante :
Figure 3.10: Destination Dim Nom Produit
3.3 Préparation des données Data Mining
Après la modélisation de data Warehouse ,Nous allons consacrer cette partie à préparer
nos données à la phase de machine Learning. Pour effectuer Ce faire, nous allons sélectionner un
3
historique de production des produits laitiers de la table de fait :TFaitProduction d’une société
spécifique qui appartient au groupe Délice ; et charger par la suite les données de cette table sous
Python afin d’effectuer les traitements nécessaires.
3.3.1 Regrouper les données
Il s’agit du regroupement des produits dans un seul produit pour obtenir par la suite 2
variables :
• Un variable qui contient tous les codes de produit de type Beurre.
• Un variable qui contient tous les codes de produit de type Lait demi écrémé.
3.3.2 Supprimer les Valeurs aberrante
Un outlier ou valeur aberrante correspond à une valeur éloignée de la distribution des

variables dû à une erreur de typographie ou à une erreur de mesure. Tout à d’abord, nous allons
les détecter, ensuite nous allons les corrigé pour obtenir une meilleure qualité de prédiction.
3.3.2.1 Détecter les valeurs aberrante
Figure 3.11: Avec les valeurs aberrante
3
3.3.2.2 Corriger les valeurs aberrante
Figure 3.12: Corriger les valeurs aberrante
Figure 3.13: Sans les valeurs aberrante
3.3.3 Étude de corrélations
Plus un modèle de machine learning contient de variable moins la décision peut être claire et
interpréter. C’est pour cela, nous allons effecteur une étude de corrélation entre les variables pour
diminuer le nombre de variables et garder celles qui sont fortement corrélées comme l’indique la
figure suivante :
3
Figure 3.14: Matrice de corrélation
Conclusion
Dans ce chapitre, nous avons présenté la modélisation et les modifications que nous avons
apportées sur notre magasin de données afin de fournir notre Data marts en vue de préparer nos
données au prédiction dans la phase suivante.
3
Chapitre 4
chaPITRE 4 : ModéLIsaTIon
Plan
1 Apprentissage Superviser : Régression.................................................................40
2 Entraînement des données..........................................................................................42
3 Évaluation des Algorithmes de régression.........................................................43

Chapitre 4. chapitre 4 : Modélisation
Introduction
Après la modélisation de la data Warehouse, Nous allons consacrer ce chapitre dans l’apprentissage
superviser où nous sommes nous intéresser à la régression. Cette partie nous permet d’appliquer des
divers algorithmes de machine learning et les comparer afin de choisir le modèle adéquat à notre
problématique. Enfin, nous allons évaluer les résultats obtenus par l’algorithme choisit.
4.1 Apprentissage Superviser : Régression
Cette méthode d’analyse de donnée regroupe des algorithmes d’apprentissage supervisé adapté
aux données quantitatives. L’objectif est de déterminer la relation entre une variable d’intérêt et
d’autres variables observées dans un but de prédiction. Dans cette partie, nous allons présenter des
exemples d’algorithmes de régression utilisés à partir de la librairie Sklearn.
4.1.1 Régression linéaire[10]
La régression linéaire est un modèle de régression qui cherche à établir une relation entre une
variable dite expliquée et une ou plusieurs variables dite explicatives. Ce modèle contient deux
type de régression :
4.1.1.1 Régression linéaire simple
Généralement on appelle Régression linéaire simple lorsque nous avons une seule variable
explicative, Ce modèle est de la forme :
Figure 4.1: Équation de modèle linéaire Simple
• Y : c’est la variable à expliquer.
• X : c’est la variable explicative.
• β0 et β1 : sont les coefficients
• £ : l’erreur.
4
4.1.1.2 Régression linéaire multiple
Par opposition au modèle précèdent,Régression linéaire multiple fonctionne avec plusieurs

variables indépendantes(ou explicatives), ce modèle est sous la forme :
Figure 4.2: Équation de modèle linéaire multiple
=> Dans notre cas nous allons utiliser la régression linéaire multiple qu’est cohérente
avec la quantité de notre variables disponibles.
4.1.1.3 Elastic Net [11]
Régression d’Elastic Net est un autre modèle de régression qui consiste à combiner les pénalité
de régression de Lasso et de Ridge pour la fonction de perte. Il est sous la forme suivante :
Figure 4.3: Équation de modèle Elastic Net
4.1.1.4 Random Forest[12]
C’est un algorithme qui se base sur la méthode d’apprentissage d’ensemble pour la régression.
Cette méthode est une technique qui combine les prédictions de plusieurs algorithmes pour faire une
prédiction plus précise qu’un seul modèle. La figure ci-dessous montre la structure de Random Forest
4
Figure 4.4: Schéma de modèle Random Forest
4
4.2 Entraînement des données
Après avoir préparer nos données et présenter les modèle dans la section précédente,nous
avons effectué l’apprentissage en appliquant la technique train_test_split de la librairie Sklearn.
Train_test_split
Cette technique nous permettra de diviser notre ensemble de données en sous-ensemble :

données d’entraînement et donnée de test,afin de minimiser le potentiel de biais dans votre processus
d’évaluation et de validation.
Les paramètres de train_test_split
Cette fonction nous offre plusieurs paramètre permettant de créer les partitions aléatoire de
sous-ensemble.
La figure ci dessous indique la division de notre jeux de données.
Figure 4.5: La répartition de données
• x et y : le premier paramètre est l’ensemble de données choisit .
• test_size : ce paramètre définit la taille de données de test. nous avons définit la taille de
test sur 20%.
• train_size : ce paramètre définit la taille de données d’apprentissage.ce parametre va prendre

le reste de données.
• random_state : Le mode par défaut effectue une division aléatoire à l’ aide de "np.random".
nous avons effectuer 2 comme un nombre exact.
4.2.1 la modélisation avec les algorithme
Dans cette partie nous allons appliquer la répartition effectuer à nos jeux de données avec les
différentes algorithmes choisis.
Pour présenter le fonctionnement de cette technique, nous allons prendre le modèle de régression
comme exemple.
4
la figure ci-dessus indique que la régression linéaire créé un objet nommée LinearRegression()
qui représente le modèle. La fonction fit() aura pour vocation d’entraîner ou ajuster le modèle et le
renvoie par la suite.
Ajuster le modèle signifie déterminer les meilleurs valeurs de t’intercepte et de pente(coefficients) de
la droite de régression.
L’image suivante nous indique les interceptes et les coefficients obtenu par ce algorithme :
4.3 Évaluation des Algorithmes de régression
L’évaluation est la phase l’avant dernière de le cycle de vie CRISP-DM. En effet, elle
consiste à comparer les modèle d’apprentissage ce qui nous aide à optimiser les performance, les
affiner et à obtenir les bonne résultat en réponse à notre problématique.
Dans notre cas, nous avons utilisé plusieurs métriques pour évaluer les modèles :
4.3.1 Erreur Absolue Moyenne MAE[12]
MAE est une métrique trés simple qui calcule la différence absolue entre les valeurs réel
(y) et les valeurs prévus(y_pred). La formule de cette métrique est la suivante :
4
Figure 4.6: L’équation d’erreur Absolue Moyenne
4.3.2 Erreur quadratique moyenne MSE[13]
L’erreur quadratique moyenne indique que trouver la différence au carré entre la valeur réel
et la valeur prédite comme montre la formule suivante :
Figure 4.7: L’équation d’erreur quadratique Moyenne
4.3.3 Erreur quadratique moyenne RMSE[14]
RMSE est une autre métrique pour calculer l’écart entre ces deux valeurs, il s’agit d’une
simple racine carré de l’erreur quadratique moyenne. La figure suivante nous montre la formule de
cette métrique :
Figure 4.8: L’équation de RMSE
4.3.4 R au carré (R2)[15]
Au contraire aux autres métriques, R2 ou nommée aussi Le coefficient de détermination, est

une mesure qui sert à déterminer les performance des modèles choisit .
4
Figure 4.9: L’équation de R au carré
Interprétation de R au carré (R2)
Voici des exemples d’interprétation de Le coefficient de détermination.
— Cas 1 : Si le score de R2 vont à 0 signifie que la performance de modèle régression est

pires. il n’est pas capable de tirer une prédiction de la colonne y.
— Cas 2 : On dit un fond avec R au carré faible, lorsqu’il tend de 0% vers 70%.
— Cas 3 : un R carré est élevé lorsque il compris entre 80% et 100%.ici, Le coefficient de
détermination indique que ce modèle est capable d’expliquer la variance des données.
— Cas 4 : C’est le dernier cas où le R carré égale à 1,cela signifie qu’il n y a pas d’erreur et le
modèle est parfait.Dans le monde réel, ce n’est pas possible.
Après avoir présenter les différentes métriques utilisée pour évaluer chaque algorithme, nous
allons presenter dans ce qui suit un récapitulatif comparatif des diffrent algorithme :
Figure 4.10: Comparaison des modèles
D’après la table ci-dessus, nous remarquons que les deux meilleur modèles sont Régression
linéaire multiple et Elastic net avec R2=0.64.
Conclusion
Durant ce chapitre, nous avons abordé les différentes algorithme de régression permettant de
prédire la quantité des produits choisis par l’entreprise, afin de mettre en place une comparaison de
ces dernier.
Le chapitre suivant impliquera la partie de récupération de données où nous allons définir les divers
visualisations obtenus.
4
Chapitre 5
chaPITRE 5 : DéPLoIEMEnT
Plan
1 Représentation des applications utilisateurs.....................................................47
2 Construction des applications utilisateurs...........................................................50

Chapitre 5. chapitre 5 : Déploiement
Introduction
Dans cette section, nous allons présenter le dernier phase du cycle de vie du CRISP-DM.
Cette étape permettra de mettre en place les algorithme et les data marts décrit dans les
chapitres précèdents et les mettre utilisables pour obtenir les résultats souhaités.
Tout d’abord , nous allons exprimer les maquettes dans l’intention de vérifier que notre travail
répond aux besoin de client. Ensuite, nous allons visualiser ce travail dans des tableaux de bord
dans Power-BI.
5.1 Représentation des applications utilisateurs
La création des application utilisateurs est une étape nécessaire avant de la réalisation des
tableaux de bords finaux. Ceci ce fait à travers la production de maquettes fonctionnelles. Il est à
noter que ces maquettes seront réalisées à l’aide des data Marts définis lors de la phase préparation
de données.
5.1.1 Maquette :Home Dashboard
la première maquette montre une vue d’ensemble sur les trafics de vente et de production au
cours de temps.
Figure 5.1: Maquette de Home dashboard
4
5.1.2 Maquette :Vente Dashboard
La maquette illustrée dans la figure suivante détaille plus l’évolution de Vente
Figure 5.2: Maquette de suivi de vente
5.1.3 Maquette :Production Dashboard
La maquette illustrée dans la figure suivante indique plus en détail l’évolution de production
des produits laitiers
Figure 5.3: Maquette de suivi de production
4
5.1.4 Maquette :Gestion de Stock Dashboard
cette maquette affichée exprime le stock final des produits Laitière de la société CLC.
Figure 5.4: Maquette de gestion de stock
5.1.5 Maquette :Gestionnaire budgétaire Dashboard
La maquette la gestionnaire budgétaire Dashboard exprime le budget de vente et de production.
Figure 5.5: Maquette de contrôle budgétaire
4
5.1.6 Maquette :Prévision de stock lait et beurre Dashboard
la figure suivante est une maquette qui indique le stock fin des mois suivants de lait demi
écrème et beurre.
Figure 5.6: Maquette d’analyse prédicative
5.2 Construction des applications utilisateurs
L’objectif principale de cette section est de créer des application utilisateurs simple ,clair
et accessible matérialisés par des Tableaux de bords destinés aux décideurs de notre entreprise dans
le respect des connaissances établis dans la partie modélisation.
5.2.1 Home Dashboard
C’est le premier tableau de bord disponible pour le décideur. Il donne une vision globale sur
l’évolution des ventes et des productions au cours de temps. La naviguer est possible à travers les
buttons à la disposition de l’utilisateur.
5
Figure 5.7: Home dashboard
5.2.2 Vente Dashboard
Le tableau de bords illustré dans la figure suivante indique une vue détaillée sur les trafics de
Vente au cours de temps et en fonction du produit. Également, elle présente les top produits vendue
avec un tableau comparatif entre les deux années. De même, des indicateurs ont été définis tel
que total vente de l’année courante et l’année précédente, la différence entre eux et leurs écarts.
Figure 5.8: Trafic de vente
5
5.2.3 Production Dashboard
Le tableau de bords affichée dans la figure suivante indique une vue détaillée sur les suites de
transformation de production au cours de temps et en fonction de produit. Également, elle présente
les top produits produite avec un tableau comparatif entre les deux années. De plus, des indicateurs
ont été défini tel que total production de l’année courante et l’année précédente, la différence entre
eux et leur écart.
Figure 5.9: Évolution de production
5.2.4 Gestion de Stock Dashboard
Ce tableau de bord exprime le stock final des produits Laitiers de la société CLC en
excluant Lait demi écrémé et Beurre en fonction de temps avec un Tableau descriptif de la
gestion de ces produits.Des indicateur ont été présente comme Stock en quantité, total
production et vente , total budget et vente de l’année 2021.
5
Figure 5.10: Maquette de gestion de stock
5.2.5 Contrôle budgétaire Dashboard
Ce quatrième tableau de bord démontré indique l’écart de vente et de production réalisé par
rapport aux objectifs mis en place par les décideurs depuis le début de cette année de chaque produit
laitière de toutes les sociétés de Délices en éliminant les deux produits à prédire.
Figure 5.11: Contrôle budgétaire sauf Lait demi écrémé et Beurre
5.2.6 Prévision de stock lait et beurre dashboard
La dernière dashboard présente la partie la plus importante dans ce projet, elle a pour but de
prévoir le stock des mois prochains des produits suivant : lait demi écrème et tous les types de beurre.
5
De même, le décideur peut appliquer des modification sur la quantité produite de ces produits en
fonction d’autre produits de la même société pour savoir l’impact sur le stock fin de mois.
Figure 5.12: Analyse prédicative de production Lait et Beurre de CLC
Conclusion
Dans cette partie, nous avons passé en revue le déploiement de la solution proposée en
représentant les modèles des tableaux de bords demandés.
Pour finir, nous clôturons notre rapport par une conclusion générale où nous allons synthétiser le
travail réalisé durant cet stage et les perspectives pour ce projet.
5
Conclusion générale
Tout au long de ce rapport, nous avons introduit un système de prise de décision efficace et fiable
qui permet de suivre le trafic de vente et de production des produits laitiers par nos décideurs,et
cela ce fait par les différents états analytique dans les tableaux de bords interactifs.
L’objectif global de ce projet est de créer une plate-forme décisionnelle afin d’analyser les données
existantes dans la base ERP de Délice pour visualiser l’historique de vente et de production des
années choisis ainsi qu’une analyse prédicative contenant une prévision sur les quantités à produire
des deux produits laitiers les plus consommés dans le marché tunisien afin de contrôler leur stock.
La mise en place de notre solution s’est déroulée en plusieurs phase. Premièrement, nous nous
sommes intéressé à la compréhension du métier de l’entreprise d’accueil afin de bien cerner leur
problématique et objectif . Ensuite,nous avons passé en revue les outils à utiliser pour la réalisation
de ce projet.
Par la suite, nous avons consacrer une grande partie du projet à la compréhension et le pré-traitement
de données. Cette partie est primordiale et consommatrice de temps. L’objectif ultime est d’assurer
une bonne qualité de données et les rendre prêt à la modélisation.
Dans la partie de modélisation, nous avons utilisé les algorithmes d’apprentissage supervisée pour
accréditer un modèle permettant la prédiction de la quantité et le stock fin de mois des produits
laitiers. Finalement, nous avons élabore une plateforme décisionnelle pour visualiser les différentes
tableaux de bords et les résultats obtenues pour résoudre la problématique mis en place dans la
première phase. Il est noter que tout au long de ce stage, l’elaboration de cette solution a été
très difficile, mais extrêmement enrichissante. En effet, toute la difficulté réside dans la collecte et
l’analyse de données.
Ce stage a été très enrichissant pour moi car il m’a permis de m’intégrer dans la vie professionnelle
en mettant en exercice mes compétences acquises au sien de l’ESPRIT tout en me familiarisant
avec les technologies mis à ma disposition par l’entreprise. De même, ce stage m’a aussi permis de
collaborer avec des personnes agréable au sein de Délice.
5
Conclusion générale
Ce projet a permis d’avoir une première version des tableaux de bords susceptibles d’être améliorée
et enrichie par d’autres données notamment ceux des ventes des produits laitiers de l’entreprise
Enfin, il serait intéressant d’inclure l’activité financière dans l’analyse prédicative pour calculer la
perte et le gain dans un souci d’optimisation du chiffre d’affaires.
5
Biographie
[1] Délice Holding, "http://www.delice.tn/", [Consultée en Mai 2021]

[2]CRISP-DM, "https://www.datascience-pm.com/crisp-dm-2/", [Consultée en Septembre 2021]
[3]Python, "https://fr.wikipedia.org/wiki/Python_(langage)", [Consultée en October 2021]
[4] Anaconda,= "https://en.wikipedia.org/wiki/Anaconda_(Python_distribution)", [Consultée en
October 2021]
[5]Jupyter,"https://fr.wikipedia.org/wiki/Python_(langage)", [Consultée en October 2021]
[6]PowerBI,"https://en.wikipedia.org/wiki/Microsoft_Power_BI", [Consultée en October 2021]
[7]Talend,"https://www.talend.com/fr/products/talend-open-studio/,
¨[Consultée en October 2021]
[8]Approche Ralph Kimball, "https://www.aerow.group/a16u1509/", [Consultée en Novembre 2021]

[9]Approche bill Inmon,"https://expert-only.com/concepts/modelisation-decisionnelle-top-down-bill-inmon/",
[Consultée en Novembre 2021]
[10] Régression linéaire,
"http://www.xavierdupre.fr/app/mlstatpy/helpsphinx/notebooks/regression_ lineaire.html",
[Consultée en juillet 2021]
[11] Elastic net,"https://www.datacamp.com/community/tutorials/elastic-net" ", [Consultée en juillet
2021]
[12] Random Forest,"https://levelup.gitconnected.com/random-forest-regression", [Consultée en
juillet 2021]
[13] MAE, "https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021] [14]MSE,"https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021] [15]R2,"https://scikit-learn.org/stable/model_selection.html", [Consultée en Septembre
2021]
5
Abstract
This project is achieved in the context of an end-of-studies internship within Delice Tunisia in order
to obtain the national diploma of computing engineering degree from the Private High School of
Engineering and Technology. This project aims to develop a decision making solution for agri-
businesses. The solution aims at analyzing sales and production traffic and to predict the closing
inventory of the dairy product.
Keywords : BI, Data Mining, Talend.
Résumé
Ce projet est réalisé dans le cadre d’un stage de fin d’études au sein de Délice Tunisie dans le
but de l’obtention du diplôme national d’ingénieur en informatique de l’Ecole Supérieure PRivée
d’Ingénieurie et de Technologie. Ce projet vise à développer une solution de prise de décision pour
les entreprises agroaliementaires. La solution vise à analyser le trafic de vente et de production et
de prédire le stock final des produit laitière.
Mots clés : BI, Data Mining, Talend.
58
Document Information
Analyzed document template-pfe.pdf (D125116419)
Submitted 2022-01-16T12:47:00.0000000
Submitted by
Submitter email abdelmonem.aissa@esprit.tn
Similarity 10%
Analysis address abdelmonem.aissa.esprit@analyse.urkund.com
Sources included in the report
ESPRIT / 2021_31_10_Ayadi_Hassen_BA_Rapport - hassen ayadi.pdf

Document 2021_31_10_Ayadi_Hassen_BA_Rapport - hassen ayadi.pdf (D118110944)
1
Submitted by: polestages.esb@esprit.tn
Receiver: polestages.esb.esprit@analyse.urkund.com
ESPRIT / Rapport PFE-TALAN-Mohamed Slim Koubaa (1).docx

Document Rapport PFE-TALAN-Mohamed Slim Koubaa (1).docx (D110109958)
Submitted by: hella.bani@esprit.tn 1
Receiver: hella.bani.esprit@analyse.urkund.com
ESPRIT / Nouvelle version_Ghada Riahi.pdf

Document Nouvelle version_Ghada Riahi.pdf (D110419031)
5
Submitted by: ines.mhaya@esprit.tn
Receiver: ines.mhaya.esprit@analyse.urkund.com
ESPRIT / rapport yesmine yousfi.pdf

Document rapport yesmine yousfi.pdf (D109997892)
Submitted by: rim.benelouefi@esprit.tn 2
Receiver: rim.benelouefi.esprit@analyse.urkund.com
ESPRIT / PFE - PROXI (2).pdf

Document PFE - PROXI (2).pdf (D121340843)
2
Submitted by: dorsaf.benhassen@esprit.tn
Receiver: dorsaf.benhassen.esprit@analyse.urkund.com
ESPRIT / Rapport-2.pdf
Document Rapport-2.pdf (D121797490)
2
Submitted by: nehla.debbabi@esprit.tn
Receiver: nehla.debbabi.esprit@analyse.urkund.com
rapport memoire.docx
Document rapport memoire.docx (D121559423) 2
ESPRIT / 2021_07_31_2BA_OUESLATI_AMAL_FFF.docx
Document 2021_07_31_2BA_OUESLATI_AMAL_FFF.docx (D111830394)
Submitted by: polestages.esb@esprit.tn 1
Receiver: polestages.esb.esprit@analyse.urkund.com
ESPRIT / Rapport-PFE-BesghaierHaithem.pdf
Document Rapport-PFE-BesghaierHaithem.pdf (D75968276)
Submitted by: amal.tarifa@esprit.tn 1
1/23

RapportPFE MahaBenGhezala

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

RapportPFE MahaBenGhezala

Transféré par

Droits d'auteur :

Formats disponibles

Dédicaces

A ma très chère mère :

A mon très cher père :

A mon cher Frére Amine et Mes belles soeurs Manel et Meyssa :

Maha Ben Ghezala

Je remercie dieu le tout puissant de m’avoir donné la santé et la volonté de

de prés ou de loin ont participé à la réalisation de ce projets.

Je tiens surtout à exprimer mes vifs remerciements à Monsieur Firas

GMAR mon encadrant au sein de l’entreprise Délice,pour son aide , ses

conseils , sa disponibilité et son sens de l’écoute et l’échange tout au long de ce

Je tiens également à remercier AbdelMonem AISSA Enseignant à ESPRIT

pour son encadrement fructueux et sa générosité et son suivi au cours de ce

Mes remerciements passent également à chaque personne que j’ai contacté

accepté d’évaluer mon travail.

3 Compréhension et préparation des données 25

3.2.1 Modélisation d’entrepôt de donnée...........................................................................26

5.2.1 Home Dashboard.........................................................................................................50

1.1 Logo Délice Holding.................................................................................................................13

2.1 Plan de projet............................................................................................................................22

3.1 L’approche de Ralph Kimball.................................................................................................27

4.1 Équation de modèle linéaire Simple.....................................................................................40

5.1 Maquette de Home dashboard...............................................................................................47

— ERP = Enterprise Resource Planning

— ETL = Extract,Transform et Load

— SQL = Structured Query Language

La Business intelligence (BI),connu aussi sous le nom de "Informatique décisionnelle" est un

• Chapitre 1 : Description brève le contexte du projet.

• Chapitre 2 : Étude de la problématique métier.

• Chapitre 3 : Collecte et préparation des données.

• Chapitre 4 : Modèles d’apprentissage.

• Chapitre 5 : Déploiement final de la solution.

4 Méthodologie de Travail Adoptée . . . . . . . . . . . . . . . . . . . . . . . 15

1.1 Présentation du projet

1.1.1 Cadre general du projet

1.1.2 Présentation de l’organisme d’accueil

1.1.2.1 Délice Holding

Figure 1.1: Logo Délice Holding

1.1.3 Historique de Délice Holding

Le Tableau 1.1 présente la chronologie de l’entreprise Délice Holding :

Tableau 1.1: Chronologie de Délice Holding

1978 Création de la STIAL

1.3 Solution proposée

Pour résoudre la problématiques exposée dans la section précédente, nous proposons de

important dans la prise de décision.

• La synthèse des évolutions de vente et de production pour permettre au responsables de l’entreprise

1.4 Méthodologie de Travail Adoptée

1.4.1 Methodologie SEMMA

Figure 1.2: Cycle de vie de SEMMA

Figure 1.3: Cycle de vie de CRISP-DM

• Modélisation : C’est la phase de data science, la modélisation comprend le choix ,

aident à atteindre les objectifs du projet.

• Déploiement : Il s’agit de l’étape finale de CRISP-DM. Il vise à mettre la connaissance

2 Objectifs «Data Science» . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Les critères de succès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Ce chapitre est dédiée à la présentation de la première étape dans le modèle CRISP-DM et

2.1 Les Objectifs de Métier

• Contrôler d’activité budgétaire

• Prévoir le stock final des produits laitiers.

2.2 Objectifs «Data Science»

• L’apprentissage approfondie permettant La prévision de la quantité produite des produits

2.3 Les critères de succès

2.3.1 Critère de succès de Datawarehouse

Tableau 2.1: Table de critère de succès de la data Warehouse