Vous êtes sur la page 1sur 24

UNIVERSITE MOHAMMED V AGDAL

Faculté des Sciences Rabat

DATA WAREHOUSE
Architecture et technique de ce composant de l'informatique décisionnelle.
Impact sur l'architecture du système d'information (alimentation, restitution, serveur).
Les évolutions pour le DATAWAREHOUSE distribué.

Réalisé par :
Abbes RHARRAB
Brahim JIHAD
Mohcine ELJABIRY
L’informatique décisionnelle (en anglais : DSS pour Decision Support
System ou encore BI pour Business Intelligence) désigne les moyens,
les outils et les méthodes qui permettent de collecter, consolider,
modéliser et restituer les données, matérielles ou immatérielles,
d'une entreprise en vue d'offrir une aide à la décision et de
permettre aux responsables de la stratégie d'entreprise d’avoir une
vue d’ensemble de l’activité traitée.

Ce type d’application utilise en règle générale un entrepôt de


données (ou Data Warehouse en anglais) pour stocker des données
transverses provenant de plusieurs sources hétérogènes
(techniquement Excel, DB2, Oracle, SQL SERVEUR..., et
fonctionnellement RH, Production, Compta, finance...) et fait appel à
des traitements par lots pour la collecte de ces informations.
Datawarehouse
Définition de Bill Inmon (1996): Le data warehouse est orienté sujets,
cela signifie que les données collectées doivent être orientées «
métier » et donc triées par thème;
Le data warehouse est composé de données intégrées, C.A.D qu'un «
nettoyage » préalable des données est nécessaire dans un souci de
rationalisation et de normalisation;
Les données du data warehouse sont non volatiles ce qui signifie
qu'une donnée entrée dans l'entrepôt l'est pour de bon et n'a pas
vocation à être supprimée ;
Les données du data warehouse doivent être historisées, donc datées.
L'organisation des données est conçue pour que les personnes
intéressées aient accès rapidement et sous forme synthétique à
l'information stratégique dont elles ont besoin pour la prise de
décision.
Le Data warehouse n’est pas un produit ou un logiciel mais un
environnement, qui se bâtit et ne s’achète pas.
Datamart
Sous ensemble d'un entrepôt de données, contenant des informations se
rapportant à un secteur d'activité particulier de l'entreprise ou à un métier
qui y est exercé (commercial, marketing, comptabilité, etc).
ETL (Extract, Transform, Load)
Outil informatique destiné à extraire des données de diverses sources (bases
de données de production, fichiers, Internet, etc.), à les transformer et à les
charger dans un entrepôt de données.
Datamining
Recherche de corrélations/liens schématiques dans une base d'informations
volumineuse ou complexe dans le but de les transformer en connaissance.
Cube et hypercube
Représentation abstraite d'informations multidimensionnelles exclusivement
numériques utilisée par l'approche OLAP (On-line Analytical Processing)
Aujourd’hui la situation de marché est telle, que toute entreprise
possède un système d’information décisionnel. Celui-ci pourra être
plus ou moins complexe et élaboré, allant du simple tableau sous
Excel à l’entrepôt de données.
Le service attendu d’un système décisionnel est d’avoir une vue
synthétique de l’entreprise, ceci dans le but de pouvoir prendre des
décisions stratégiques concernant les directions et engagement à
prendre.
Nous allons dans quelles mesures un système d’information
décisionnel peut aider, en partie, à répondre à ces problèmes.
Tout système d’information décisionnelle, telle que le sont les Data
Warehouse mettent en œuvre cinq fonctions fondamentales : la collecte,
l’intégration, la diffusion, la présentation et l’administration des données:
 La collecte des données brutes dans leurs environnements d'origine, ce qui
implique des activités plus ou moins élaborées de détection et de filtrage, car un
excédent de données, un défaut de fiabilité ou un trop mauvais rapport
signal/bruit sont pires que l'absence de données
 L’intégration des données, c'est-à-dire leur regroupement en un ensemble
technique, logique et sémantique homogène approprié aux besoins de
l'organisation
 La diffusion, ou la distribution d'informations élaborées à partir des données dans
des contextes appropriés aux besoins des individus ou des groupes de travail
utilisateurs
 La présentation, c'est-à-dire les conditions de mise à disposition de l'information
(contrôle d'accès, personnalisation, ergonomie...)
 L’administration, qui gère le dictionnaire de données et le processus
d'alimentation de bout en bout, car le système d’information décisionnelle doit-
être lui-même piloté.

En pratique, les fonctions de collecte et d'intégration sont étroitement liées entre


elles, et sont généralement associées au DATAWAREHOUSE. De même, diffusion et
présentation sont des fonctions fortement "orientées sujet", tournées vers l'utilisateur
et son métier, manipulant des contenus à forte valeur ajoutée informationnelle et non
des données brutes; elles sont donc fortement imbriquées logiquement et
techniquement.
La chaîne décisionnelle est composée de trois parties :
 Alimentation du Data Warehouse
 Modélisation
 Restitution des données : Analyse et prise des décisions
Les systèmes opérationnels, bases de données indispensable à la vie d’une
entreprise, permet d’avoir une activité journalière (gestion de stocks, base
de fournisseurs/clients, etc.). Ceci n’est pas le rôle d’un data warehouse,
couplé à des outils de datamining il n’a pour unique but de faciliter la prise
de décision en apportant une vue synthétisée de l’ensemble des données de
l’entreprise éparpillées dans toutes ces bases opérationnelles.
Un Data Warehouse est caractérisé par quatre concepts :
 Orientés sujet: On dit d’un DW qu’il est orienté sujet car il regroupe en son sein des
informations des différents métiers (fabrication, achats, qualité) de l’entreprise.
 Intégrés: Souvent chaque métier d’une entreprise stocke ses informations dans des
bases de différents types (excel, oracle, etc.) pour faire face a ce problème un DW est
intégré, il regroupe ainsi l’intégralité des donnes de l’entreprise. Cela a comme avantage
direct de simplifier la politique d’accès aux données aux utilisateurs tout en facilitant
l’accès pour la prise de décision.
 Historisés: C'est-à-dire que les données contenues dans un entrepôt de données reste
figées dans le temps.
 Non-volatiles: Apres le chargement des données dans le DW, celles-ci n’évolues plus.
Les données sont non-volatiles. Cela permet de figer les informations au moment de
l’alimentation du DW

Les méta-données: « données sur les données». permettent de stocker des informations telles
que le nom de la base de production dont la donnée est extraite, la date et l’heure de la dernière
extraction, etc…
Une architecture informatique décisionnelle est généralement constituée des
éléments suivants :
 Les bases de production contenant les informations

 Le staging Area, zone de stockage des données avant traitement.

 Le data warehouse, l’entrepôt de donnée lui-même.

 Les datamarts, cubes affichant une vue métier.


Online Analytical Processing (OLAP), désigne les bases de données
multidimensionnelles ou cubes destinées à l'analyse. OLAP a été défini par TED CODD
en 1993 au travers de 12 règles que doit respecter une base de données si elle veut
adhérer au concept OLAP.
OLAP est un mode de stockage prévu pour l’analyse statistique des données. Une
base de données OLAP peut se représenter comme un cube à N dimensions
 (1) Relational OLAP (ROLAP)
◦ Données sont stockées dans un SGBD relationnel
◦ Un moteur OLAP permet de simuler le comportement d'un SGBD multi-dimensionnel
◦ Avantages/inconvénients
 Souplesse, évolution facile, permet de stocker de gros volumes.
 Mais peu efficace pour les calculs complexes
 (2) Multidimensional OLAP (MOLAP)
◦ Structure de stockage en cube
◦ Accès direct aux données dans le cube
◦ Avantages/inconvénients
 Rapide.
 Ne supporte pas de très gros volumes de données
 (3) Hybrid OLAP (HOLAP)
◦ Données stockées dans SGBD relationnel (données de base)
◦ + structure de stockage en cube (données agrégées)
Un hypercube OLAP (ou cube OLAP) est une représentation abstraite d'informations
multidimensionnelles exclusivement numérique utilisé par l'approche OLAP
(acronyme de On-line Analytical Processing). Cette structure est prévue à des fins
d'analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni
statisticiens) du métier que ces données sont censées représenter.
Les cubes OLAP ont les caractéristiques suivantes :

 obtenir des informations déjà agrégées selon les besoins de l’utilisateur.


 simplicité et rapidité d’accès
 capacité à manipuler les données agrégées selon différentes dimensions
 un cube utilise les fonctions classiques d’agrégation : min, max, count, sum, avg, mais
peut utiliser des fonctions d’agrégations spécifiques
Les données contenues dans un data warehouse sont issues des différentes
bases de données de l’entreprise. Ces bases de production, systèmes
opérants de l’entreprise, correspondent à l’ensemble des applications
informatiques utilisées au quotidien dans l’entreprise pour son activité
(gestion de production, gestion bancaire, gestion commerciale,...).
Les informations qui y sont stockées, propres à chaque application, peuvent
parfois être utilisées par d’autres programmes, par l’intermédiaire de
transferts de données, couramment appelés interfaces.

Nous allons donc voir dans ce chapitre les outils et les méthodes permettant
d’alimenter un data warehouse tout en minimisant l’impact sur les systèmes de
productions.
De part sa nature, un data warehouse est alimenté via les informations de
l’entreprise. Or ces informatique sont stocké sous les formes les plus heterogene. On
peut retrouver ainsi plusieurs type de base de données (acces, DB2, MySQL,…), des
tableurs, des fichiers a plats… Il existe une quasi infinité de format de source.
En générale, on retrouve trois types de contraintes à la mise en œuvre d’un data
warehouse :
 Alimentation des données de production aux normes des données du référentiel.

 Organisation du stockage des informations.


 Sur le plan fonctionnel, garantir l’intégrité des données par des définitions
uniques et réutilisables par tous les utilisateurs.
L’outil d’alimentation permet de paramétrer des règles de gestion, propres à
l’entreprise et à son secteur d’activité. Ces règles visent elles aussi à assurer la
cohérence entre les données et à ne stocker dans l’entrepôt de données que des
informations préalablement mises en relation les unes avec les autres.
Définition
« Extract-Transform-Load » est connu sous l’acronyme ETL (ou parfois : datapumping).
Il s'agit d'une technologie informatique middleware permettant d'effectuer des
synchronisations massives d'information d'une banque de données vers une autre. Selon le
contexte, on traduira par « alimentation », « extraction », « transformation »,
« constitution » ou « conversion », souvent combinés.
Cette technologie est basée sur trois outils :
 des connecteurs servant à exporter ou importer les données dans les applications (Ex :
connecteur Oracle ou SAP...)
 des transformateurs qui manipulent les données (agrégations, filtres, conversions...)
 des mises en correspondance (mappages).
Actuellement il existe trois catégories d’outils ETL :
 Engine-based : les transformations sont exécutées sur un serveur ETL, disposant
en général d’un référentiel. Ce genre d’outil dispose d’un moteur de
transformation ;
 Database-embedded : les transformations sont intégrées dans la base de
données. Cette fonctionnalité est très consommatrice de ressource sur la base de
données.
 Code-generators : les transformations sont conçues et un code est généré. Ce
code est déployable indépendamment de la base de données.

La mise en place d'un système ETL demande une expertise spéciale et fait appel à
plusieurs types de ressources humaines.
 Extract: L'extraction des données est la première des étapes des systèmes ETL. Le
but de cette étape, est comme son nom l’indique : la lecture et l’extraction des
données du système source.
 Transform: La transformation est la tâche la plus complexe et qui demande
beaucoup de réflexion.
 Load: Le chargement permet de transférer les données vers leur destination finale.
Avant d’entreprendre toute démarche de construction d’un « Data warehouse », il est
nécessaire de se poser un certain nombre de questions afin de vérifier que le projet
que l’on étudie se situe bien dans le cadre d’un projet de « type » Data warehouse.

Questions à se poser Réponse dans le cas d’un Data warehouse

Quel niveau de détail ont synthétiques, mais avec parfois la capacité de


mes informations ? conserver le détail
Quelles fonctions de Plusieurs fonctions de l’entreprise mettent en
l’entreprise sont concernées ? relation leurs données
Les données sont-elles figées ? Oui, une donnée une fois introduite dans le Data
warehouse n’est «jamais» effacée
Besoin de comparer des données entre Oui, les données historiques sont conservées sur
elles sur plusieurs années ? plusieurs années à des fins d’analyse
Quelles opérations sont à réaliser sur les Uniquement consultation des données issues des
données ? systèmes de production ou d’autres systèmes
Ces dernières années, le data warehouse et le datamining ont évolués en optimisant
certains process ou stockage. Mais c’est surtout le hardware, toujours plus puissant,
plus rapide qui a permis de traiter ce volume de donnée toujours plus important.
Aujourd’hui, il est courant de voir des data warehouses de plusieurs téraoctets !!!
Mais une véritable révolution est en train de naître. Certaines sociétés, comme SUN,
IBM, SAS, spécialisées dans le business intelligence autrement dis dans l’informatique
décisionnelle, ont réussi à porter le data warehouse et surtout les outils de
datamining sur une plateforme distribuée de type grille (grid computing)
un data warehouse correctement alimenté permet au décideur, personne en charge
des décisions majeures d’une entreprise, d'établir des statistiques d'évolution ou de
construire des plans. Cela est rendu possible par le fait qu’un data warehouse
regroupent l’ensemble des données de l’entreprise.

Mais extraire une synthèse à partir d’un tel volume de donnée (souvent de l’ordre de
plusieurs téraoctets) n’ai pas chose aisée. Il faut une architecture du système
adéquate. Les données peuvent être séparées par vue métier au sein de mini data
warehouse nommé datamarts et couplé avec un mode de stockage en cube OLAP