Académique Documents
Professionnel Documents
Culture Documents
PASCAL KALONDA MEMOIRE
PASCAL KALONDA MEMOIRE
O. INTRODUCTION GENERALE
Toutes les entreprises même le plus petites, disposent aujourd’hui
l’équipement informatique permettant de stocker des nombreuses
données et de traiter rapidement . Mais toutes ne disposent pas de
logiciels de gestion de stock.
Choix d’investissement, suivi du technique et administratif ont
pris ont pris une grande importance amenant l’entreprise à avoir une
réflexion sur la manière de gérer son stock.
.
Les systèmes traditionnels s'avèrent inadaptés à une telle activité,
Afin de pallier cet inconvénient, des systèmes décisionnels ont été
développés ; selon le "Meta Group", 95% des 500 entreprises les plus
importantes aux Etats Unis ont déjà ou sont en train de finaliser la mise
en place d'un tel système. La plupart de ces systèmes reposent sur un
espace de stockage centralisé, appelé entrepôt de données (data
warehouse) ; son rôle est d'intégrer et de stocker l'information utile aux
décideurs et de conserver l'historique des données pour supporter les
analyses effectuées lors des prises de décision.
Les stock représentent une part considérable du capital de
l’entreprise . Il est important et sa bonne gestion permettrait à entreprise
d’éviter des interruptions dans le processus de production et de
répondre aux demandes des clients.
L’informatique permet de traiter de manière objective ces
informations circulant dans l’entreprise car la maitrise de ces
informations se trouvant au centre des activités de l’entreprise, constitue
un enjeu très capital dans un environnement livré à la concurrence. Pour
survivre dans un tel environnement, la plupart d’entreprises optimisent
leurs méthodes et emploient une stratégie d’amélioration continuelle en
anticipant des événements de plusieurs types : évolution du marché,
conservation de la clientèle, création de goût chez les consommateurs,
etc. Elle doit également profiler ses clients afin de mieux les satisfaire.
Cette analyse peut se faire en exploitant les entrepôts de données (ED)
d’une part et les outils de data Mining d’autre part, car l’aide à la
décision peut nécessiter de comprendre plus profondément les chiffres et
les faits de l’entreprise.
2
Elle est aussi une idée générale qui est supposée par le
chercheur comme réponse à sa préoccupation fondamentale et qui, grâce
aux investigations va être confirmée à la fin de la recherche.
bilans, des rapports, etc.). C'est dans cette lancée que les entreprises
puisent toute leur compétitivité face à une concurrence effrénée6.
I.1. Définition7
Un système est un ensemble de technologies destinées à permettre aux
collaborateurs d’avoir accès et de comprendre les données de pilotage
rapidement, de telle sorte qu’ils prennent une décision meilleure à
temps, résultat d’un processus comportant le choix conscient entre
plusieurs solutions en vue d’atteindre un objectif précis.
Un système décisionnel permet de répondre aux questions suivantes :
Que s’est-il passé ? (tableau de bord)
Pourquoi cela s’est-il passé ? (Analyse)
Que va-t-il se passé ? (Prédiction)
Que se passe-t-il en ce moment ? (aide opérationnelle)
Que devrait-il se passer ou que faire ? (prise de décision entrepôt
actif)
I.1.1.Achucteture des système decisionnel
L’architecture générale d’un système décisionnel se décompose
en trois processus : extraction et intégration, organisation et
interrogation.
Le processus d’extraction et intégration, situé les sources de
données et l’entrepôt est responsable de l’identification des données
dans les diverses sources internes et externes.
Dans l’extraction de l’information et de la préparation et de la
transformation (nettoyage, filtrage, etc) des données à l’intérieur de
l’entrepôt, nous trouvons le
processus d’organisation, il est responsable de la structuration des
données par
rapport à leur niveau de granularité (agrégats)
Différent outils permettent de réaliser l’analyse des données
I.2Historique
De nos jours pour qu’une entreprise puisse bien marcher, elle doit avoir
besoin d’outils d’aide à la décision. Ces outils permettront alors aux dirigeants
de
bien prendre des décisions. Ces décisions concernent tous les services de cette
entreprise. Le système décisionnel englobe tous les services de l’entreprise ainsi
que leurs informations.
Ce système travail comme des systèmes opérationnels sur de gros
volumes des données. La décision concerne tous les départements de
l’entreprise : finances, ressources humaines, ventes, gestion de stock,
direction générale<. ?Les applications utiles dans le processus de prise
de décision sont nombreuses, et déjà présentes dans les systèmes
d’information de l’entreprise.
I.3.InformatiquesDécisionnels10
L’informatique décisionnel désigne les moyens, les outils et les
méthodes qui permettent de collecter, consolider, modéliser, et restituer
les données matérielles ou
immatérielles d’une entreprise en vue d’offrir une aide à la décision et de
permettre aux dirigeants de prendre des stratégies pour l’entreprise et
d’avoir une vue d’ensemble de l’activité traitée au sein de l’entreprise.
En général ce type d’applications utilise un entrepôt de données
pour stocker
des données provenant de plusieurs sources hétérogènes et fait appel à
des traitements par lots pour la collecte de ces informations.
I.4. Les Composants d’un Système Décisionnel
11I.4.1. Les Sources des Données
Les sources des données sont souvent diverses et variées ; le
but est de
trouver des outils et en fin de les extraire, de les nettoyer, de les
transformer et de les
mettre dans l’entrepôt de données. Ces sources des données peuvent être
des fichiers
de type Excel, Word, des bases de données opérationnelles d’une
entreprise ou
fichiers plats.
9
A. Collecte
C’est l’ensemble des tâches consistant à détecter, sélectionner, extraire
er à filtrer des données brutes issues des environnements pertinents
compte tenu du périmètre du système d’information décisionnel.
Les sources des données internes ou externes étant souvent
hétérogènes tanssur le plan technique que sur le plan sémantique,
cette fonction est la plus délicate à mettre en place dans le système
décisionnel complexe. Elle s’appuie notamment sur les outils d’ETL.
13
Administration
C’est la fonction transversale qui supervise la bonne exécution de
toutes les
autres, elle pilote le processus de mise à jour des données, la
documentation sur les
données et sur les métadonnées, la sécurité, les sauvegardes, la gestion
des incidents
I.10. Exploitation des Données 16
Les données agrégées dans un système décisionnel servent à trois
grandes
catégories d'usage :
- La production de rapport récurrent (reporting)
- L'exploration manuelle
- L’analyse de données (descriptive ou prédictive)
Le principe du reporting est d'agréger et de synthétiser des données
nombreuses et complexes sous forme d'indicateurs, de tableaux, de graphiques
permettant d'en avoir une appréhension globale et simplifiée. Le reporting s'appuie
16
principalement sur les agrégats (GROUP BY en SQL par exemple) afin de faire
apparaître des comptages, sommes ou moyennes en fonction de critères d'analyses.
Le reporting est généralement récurrent, le même rapport sera produit à intervalles
réguliers pour contrôler les variations des indicateurs.
Mais la décision doit bien réintégrer des évaluations humaines qui la replacent
dans
sa réalité, qui est restée complexe. Le modèle ou l'indicateur n'est pas la réalité,
s'en
est une représentation. La décision ne s'applique pas à une représentation, mais à
la
réalité.
- Sélectivité des données et organisations humaines
Les systèmes décisionnels s'appuient sur les données que l'on est en mesure
de produire, mais ces données ne peuvent pas intégrer toutes les dimensions
d'une
organisation et de son environnement, en particulier les dimensions humaines. Or
ces dimensions cachées au système décisionnel déterminent de nombreux
fonctionnements de l'organisation, et doivent continuer d'être prises en compte.
- L'interprétation est humaine
Un système informatique produit des indicateurs qui nécessitent des
interprétations humaines, expertes dans le cas du décisionnel. Un système
informatique ne produit pas des directives qu'une organisation humaine doit
suivre !
- L'erreur est informatique
Les résultats produits par les systèmes décisionnels sont le résultat de
conceptions informatiques et mathématiques complexes, qui peuvent receler des
erreurs ou des raccourcis, par ailleurs les résultats sont souvent statistiques,
donc
non déterministes. La possibilité d'une erreur ou d'une approximation inadaptée
devra toujours être prise en compte dans les décisions.
prédiction
- D'éventuels DM permettant de simplifier le DW en vue de certaines
applications
Retenons qu'une fois les données intégrées dans l'entrepôt, elles ne sont
pas appelées à être supprimées car le non volatilité des données est en quelque
sorte une conséquence de l'historisation. La requête effectuée à quelques mois
d'intervalle en précisant la date de référence de l'information recherchée
donnera le même résultat.
Les données une fois intégrée dans l'entrepôt ne sont pas appelées à
être supprimées.(Read-Only
II.2.4. Données historisées
Les données mémorisées sont datées c.à.d. un référentiel temps doit
être associé à la donnée afin d'être capable d'identifier une valeur particulière
dans le temps. Il est donc possible de voir son évolution après un temps donné.
Dans un système de production, la donnée est mise à jour à chaque nouvelle
transaction car le degré de détail de l'archivage est bien entendu relatif à la
nature des données, parce que toutes les données ne sont pas propres à être
archivées .On ne doit pas permettre que les données soient modifiées seul. Elles
sont en lecture seule. Les données mémorisées sont datées, il est ainsi possible
de visualiser leur évolution dans le temps. Le degré de détail de l'archivage est
bien entendu relatif à la nature des données. Toutes les données ne méritent pas
d'être archivées.
II.2.5. Données agrégées
Elles correspondant à des éléments d'analyse représentatifs des besoins
des utilisateurs.
Elles constituent déjà un résultat d'analyse et une synthèse de
l'information contenue dans le système décisionnel, et doivent être facilement
accessibles et compréhensibles.
I.2.6. Méta-données
C'est l'ensemble d'informations nécessaires à la compréhension et à
l'exploitation des données du Datawarehouse, elles regroupent l'ensemble des
informations concernant le Datawarehouse et les processus associés. Elles sont
idéalement intégrée dans un référentiel, elle donne la signification de chaque
donnée, et précise les algorithmes qui permettent l'extraction des données dans
une base de production données sur les données.
II.3. Utilité d'un entrepôt de données23
Un entrepôt de données, est une vision centralisée et universelle de
toutes les informations de l'entreprise. C'est une structure (comme une base de
données) qui a pour but, contrairement aux bases de données, de regrouper les
24
ensemble organisationnel (Un datamart par succursale). Nous verrons plus tard
comment organiser les datamarts pour créer un entrepôt proprement dit
d'étoile en étoile, de constellation en constellation et de DataMart en DataMart
à la recherche de l'information si précieuse.
Un des indicateurs clés d'une bonne conception d'entrepôt est la grosseur des
constellations. En effet, plus la constellation est grosse, plus cela veut dire que
vous avez réutilisé vos dimensions, et qui dit réutilisation de dimension, dit
dimensions complètes, centralisées et avec une vue orientée entreprise.
II.11.4. Modélisation en Grappe
II.13.2. Définition31
Un Datamart littéralement en anglais magasin de données est un sous-
ensemble d'une base de données décisionnelle utilisé en informatique
décisionnelle :
il est généralement exploité en entreprise pour restituer des informations
ciblées sur un métier spécifique, constituant pour ce dernier un ensemble
d'indicateurs à vocation de pilotage de l'activité et d'aide à la décision. Un
Datamart, selon les définitions, est issu ou fait partie d'un Data Warehouse, et
en reprend par conséquent la plupart des caractéristiques.
Le Datamart est un ensemble de données ciblées, organisées, regroupées et
agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné.
Il est donc destiné à être interrogé un panel de données restreint à son domaine
fonctionnel, selon des paramètres qui auront été définis à l'avance lors de sa
conception.
De façon plus technique. Le DataMart peut être considéré de deux
manières différentes, attribuées aux deux principaux théoriciens de
l'informatique décisionnelle, Bill Inmon et Ralph Kimball :
Définition d'Inmon : Le Datamart est un sous- ensemble du Datawarehouse,
constitué au niveau des détails et à des niveaux plus agrégés, permettant de
restituer tout le spectre d'une activité métier. L'ensemble des Datamarts de
l'entreprise constitue le Datawarehouse.
Définition de Ralph Kimball : l'entrepôt de données est constitué peu à peu par
les Datamarts de l'entreprise, regroupant ainsi différents niveau d'agrégation
et d'historisation de données au sein d'une même base.
II.13.3 Structure physique et théorique
Au même titre que les autres parties de la de base de données globale de
30
l'entreprise, les Datamarts sont stockés physiquement sur disque dur par un
système de gestion de bases de données relationnelle hébergé sur un serveur.
Le Datamart est souvent confondu avec la notion d'Hypercube OLAP ; il
peut de fait être représenté par un modèle en étoile ou en flacon dans une base
de données relationnelle (notamment lorsqu'il s'agit de données élémentaires ou
unitaires non agrégées).
I.13.4 Place du Datamart dans la structure de données
Le Datamart se trouve en toute fin de la chaine de traitement de
l'information. En règle générale, il se situe en aval d'un Datawarehouse plus
global à partir duquel il est alimenté, dont il constitue en quelque sorte un
extrait.
II.13.5 Interaction avec les utilisateurs32
Un Datamart forme la principale interaction entre les utilisateurs et les
systèmes informatiques qui gèrent la production de l'entreprise. Dans un
DataMart, l'information est préparée pour être exploitée brute par les
personnes du métier auquel il se rapporte. Pour ce faire, il est appelé à être
utilisé via des logiciels d'interrogation de bases de données (notamment des
outils de Reporting) afin de renseigner ses utilisateurs sur l'état de l'entreprise
à un moment donné (stock par exemple) ou sur son activité (flux).
La préparation de la donnée pour une utilisation directe, inhérente au
Datamart, peut revêtir plusieurs formes. Il faut noter que toutes représentent
une simplification par rapport au niveau de données inférieur : on peut citer pour
Exemple :
- L'agrégation de données : Le DataMart ne contient pas le détail de toutes les
opérations qui ont eu lieu, mais seulement des totaux, repartis par groupements.
- Le retrait de données inutiles : Le DataMart ne contient que les données qui
sont strictement utiles aux utilisateurs.
- L'historisation de données : le DataMart contient seulement la période de
temps qui intéresse les utilisateurs.
II.13.6. Intérêt et limites
Les Datamarts étant des extraits simplifiés du détail des données de
l'entreprise, ils présentent un grand intérêt pour des requêtes identifiées et
répétitives; il est plus facile pour le système d'interroger un DataMart qui ne
contient que le nécessaire que d'avoir à cerner et à trier toute la base. Par
ailleurs, les Datamarts permettent de classifier et de clarifier l'information, de
31
manière à ce que chaque métier ait accès à des chiffres correspondant à ses
attentes fonctionnelles, sans être pollué par des données contigües.
Le Datamart minimise la complexité informatique. Il est donc facile de se
concentrer sur les besoins des utilisateurs.
En revanche, les choix de simplification qui donnent lieu aux Datamarts
rendent ceux-ci naturellement moins flexibles ; des demandes d'utilisateurs
sortant de leur cadre habituel requièrent fréquemment d'interroger la base à un
autre niveau, générant des coûts de développement ou la création de solutions de
rechange. Des problèmes peuvent de fait survenir lorsque les Datamarts
constituent l'unique moyen d'accès aux données pour l'utilisateur final.
Avant de mettre terme à ce point nous devons différencier un Datamart au
Data Warehouse sont utilisés comme entrepôt de données et servent le même
objectif. Celles-ci peuvent être différenciées par la quantité de données ou
d’informations qu’elles stockent. La différence essentielle entre un Data
Warehouse et un Datamart réside dans le fait que Data Warehouse est une base
de données qui stocke des informations pour satisfaire les demandes de prise de
décision, tandis que
le Datamart est un sous-ensemble logique complet d’un Data Warehouse complet.
En d’autres termes, un Data Mart est un Data Warehouse dont l’étendue est
limitée et dont les données peuvent être résumées et sélectionnées à partir de
Data Warehouse ou à l’aide de processus d’extraction, de transformation et de
chargement du système de données.
II.14. LE DATA MINING33
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de grandes bases de
données. C’est analyser les données pour trouver des patrons cachés en utilisant
des moyens automatiques. C’est un processus non élémentaire de recherche de
relations, corrélations, dépendances, associations, modèles, structures,
tendances, classes (clusters), segments, lesquelles sont obtenues de grande
quantité de données (généralement stockées sur des bases de données
(relationnelles ou no)). Cette recherche est effectuée à l’aide des méthodes
mathématiques, statistiques ou algorithmiques.
Data Mining se considère comme un processus le plus automatique possible,
qui part de données élémentaires disponibles dans un Data Warehouse à la
décision.
L’objectif principale de Dat Mining c’est de créer un processus automatique qui a
32
comme point de départ les données y comme finalité l’aide à la prise des
décisions.
Il est important de différencié un data mining et un Data Warehouse les
deux sont utilisés pour conserver des informations commerciales et permettre la
prise de décision. Pourtant, data mining et data warehouse ont des aspects
différents sur le fonctionnement des données d’une entreprise. D’une part, data
warehouse est un environnement où les données d’une entreprise sont
rassemblées et stockées de manière agrégée et résumée. D’autre part, data
mining est un processus; qui appliquent des algorithmes pour extraire des
connaissances et des données dont vous ne savez même pas qu’elles existent dans
la base de données.
Pourquoi utiliser Data Mining34 ?
Les principales raisons d’utiliser Data mining sont les suivantes:
Les entreprises peuvent prendre des décisions rapidement
Établir la pertinence et les relations entre les données.
Utilisez ces informations pour générer des informations rentables
Permet de mesurer le taux de réponse des clients dans le marketing
d’entreprise.
Optimiser l’activité du site Web en offrant des offres personnalisées à
chaque visiteur.
Différencier les clients rentables et non rentables.
Création et maintenance de nouveaux groupes de clients à des fins de
marketing.
Identifier tout type de comportement suspect dans le cadre d’un
processus de détection de fraude.
Pourquoi utiliser Data Warehouse35?
Les raisons les plus importantes pour l’utilisation de Data Warehouse sont
les suivantes:
Données optimisées pour l’accès en lecture et l’analyse consécutive.
Data Warehouse permet de protéger les données.
Permet aux utilisateurs d’effectuer la gestion des données.
Améliorer la qualité des données.
Intègre de nombreuses sources de données et aide à réduire le stress sur
un système de production.
II.15. OLAP et OLTP36
Aujourd’hui, les systèmes informatiques peuvent se subdiviser en deux. On
33
indépendantes en temps différés. Le temps des mises à jour des copies peut
être plus ou moins différé : Les transactions de report peuvent être lancées dès
que possible où à des instants fixés, par exemple le soir ou à la fin de la semaine.
Force du mode de distribution asynchrone
Les avantages sont la possibilité de mettre à jour en temps choisi des
données tout en autorisant l’accès aux versions anciennes avant la mise à niveau.
Il demande moins de ressources réseau et matériel que la réplication
synchrone, ce qui implique une meilleure disponibilité et une meilleure
performance.
Faiblesse du mode de distribution asynchrone
Les inconvénients sont bien sûr que l’accès à la dernière version n’est
pas garanti, ce qui limite les possibilités de mise à jour.
Possibilité d’avoir des conflits avec les données, dont voici les trois
types :
1. conflit de mise à jour : deux ou plusieurs sites réalisent de transaction
de modification sur la même ligne pratiquement en même temps.
2. conflit d’unicité : Il provient d’une transaction d’insertion réalisée par
deux ou plusieurs sites différents tentant d’insérer dans une table une donnée
comportant la clé primaire. Autrement dit quand la réplication d’une ligne tente
de violer l’intégrité d’une entité.
3. conflit de suppression : lorsqu’une transaction tente de modifier ou
de supprimer une ligne qui n’existe plus du fait de sa suppression par un autre
site quelque temps plutôt. Cette ligne ne peut donc être mise à jour ou
supprimer.
E. Types des Réplications
Il en existe deux notamment :
A. Réplication asymétrique (Asymétrie réplication)
La technique de gestion de copie basée sur un site primaire seul
autorisé à mettre à jour et chargé de diffuser les mises à jour aux autres copies
dites secondaire.
B. Réplication symétrique (Symetric réplication)
La technique de gestion de copies où chaque copie peut être mise à jour
à tous instant et assure la diffusion des mises à jour aux autres copies.
Réplication Asymétrique
Au-delà des techniques de diffusion des mises à jour se pose le
problème du choix de la copie sur laquelle appliquer les mises à jour.
37
Elle permet les mises à jour simultanées de toutes les copies par les
transactions différentes.
Le problème est qu’un site en panne ne reçoit plus les mises à jour. Lors
de la reprise, il doit se resynchroniser en demandant ou en recevant les mises à
jour qu’il a manquées.
Le réseau peut aussi se partitionner suite à des pannes de nœuds ou de
moyens de communication. Le risque est que plusieurs sites ou groupes de sites
divergents après des pannes.
Conclusion partielle
Dans ce chapitre, nous avons traité l'entrepôt de données et le data
mart. Nous avons donnés l'architecture d'un entrepôt de données et celle du
data mart. Nous avons expliqué les différents composants qu'il intègre, les types
de données et les différents outils pour arriver à la visualisation de
l'information. Nous avons décrit les différents modèles multidimensionnels pour
la construction d'un entrepôt de données, ainsi que les différentes opérations
pour la manipulation des données multidimensionnelles et le parallélisme entre le
deux, nous avons présenté l'apport de DataMart dans les entreprises.
Nous avons décrit le serveur OLAP qui utilise une base de données
relationnelle, tant au niveau du stockage qu'au niveau de la gestion de données.
Le serveur OLAP a été la deuxième architecture que nous avons traitée,
Ces types de systèmes utilisent une base de données multidimensionnelle pour le
stockage des données. La troisième architecture que nous avons décrite est le
serveur
OLAP et quelque caractéristique de ce types serveur.
Et nous avons finis par traité de la réplications au sein d’une base des
données, ces avantages, inconvénients et le type des réplications aussi
CAHIER DE CHARGE
FICHE GUIDE PROJET
ETAPE : CAHIER DE CHARGE Date :le
PHASE : Mise en place d’une architecture du système 03/8/2023
d’information décisionnel.
41
Analyse et compréhension du
problème
Conception de l’architecture
Implémentation
Test
Installation du système
Formation utilisateur
2.Situation Géographique
3. Organigramme
III.2.2. Analyse de l’existant
Narration du traitement des informations
Critique de l’existant et Proposition des Solutions
Conclusion Partielle
Ce troisième chapitre s’est basé sur la présentation de la réalité qui
se trouvant sur notre champ d’investigation en y ressortant les points
forts et faibles. Il a également débouché sur la proposition de la solution
pour pallier aux difficultés rencontrées sur terrain.