UNIVERSITE MOHAMMED V AGDAL Faculté des Sciences Rabat

DATAWAREHOUSE
Architecture et technique de ce composant de l'informatique décisionnelle. Impact sur l'architecture du système d'information (alimentation, restitution, serveur). Les évolutions pour le DATAWAREHOUSE distribué.

Réalisé par :

Abbes RHARRAB Brahim JIHAD Mohcine ELJABIRY Nada LAMNAKER

1. 2. 3. 4. 5. 6.

7.

Introduction Quelques définitions Système d'information décisionnel Architecture d’un DataWarehouse Alimentation du DataWarehouse L’évolution du DataWarehouse Conclusion

L’informatique décisionnelle (en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. Ce type d’application utilise en règle générale un entrepôt de données (ou DataWarehouse en anglais) pour stocker des données transverses provenant de plusieurs sources hétérogènes (techniquement Excel, DB2, Oracle, SQL SERVEUR..., et fonctionnellement RH, Production, Compta, finance...) et fait appel à des traitements par lots pour la collecte de ces informations.

Qui sont mes meilleurs clients? Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières? Quels français consomment beaucoup de poisson?     Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données. dégager des informations qualitatives nouvelles .

Datawarehouse Définition de Bill Inmon (1996): Le datawarehouse est orienté sujets. C. cela signifie que les données collectées doivent être orientées « métier » et donc triées par thème. L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision. . qui se bâtit et ne s’achète pas.D qu'un « nettoyage » préalable des données est nécessaire dans un souci de rationalisation et de normalisation. Les données du datawarehouse doivent être historisées. Le datawarehouse est composé de données intégrées.A. donc datées. Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement.

Datamart Sous ensemble d'un entrepôt de données. Cube et hypercube Représentation abstraite d'informations multidimensionnelles exclusivement numériques utilisée par l'approche OLAP (On-line Analytical Processing) . par des méthodes automatiques ou semiautomatiques. Datamining Ou (« forage de données »). ETL (Extract. marketing. a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données. Load) Outil informatique destiné à extraire des données de diverses sources (bases de données de production. Transform. comptabilité. à les transformer et à les charger dans un entrepôt de données. etc. fichiers. contenant des informations se rapportant à un secteur d'activité particulier de l'entreprise ou à un métier qui y est exercé (commercial.). Internet. etc).

ceci dans le but de pouvoir prendre des décisions stratégiques concernant les directions et engagement à prendre. Datamarts du service Compta DataWarehouse de l’Entreprise Datamart du service RH . Le service attendu d’un système décisionnel est d’avoir une vue synthétique de l’entreprise. Celui-ci pourra être plus ou moins complexe et élaboré.Aujourd’hui la situation de marché est telle. que toute entreprise possède un système d’information décisionnel. allant du simple tableau sous Excel à l’entrepôt de données.

et sont généralement associées au DATAWAREHOUSE. elles sont donc fortement imbriquées logiquement et techniquement. les fonctions de collecte et d'intégration sont étroitement liées entre elles. tournées vers l'utilisateur et son métier.Tout système d’information décisionnelle. telle que le DataWarehouse mettent en œuvre cinq fonctions fondamentales :      sont les La collecte L’intégration La diffusion La présentation L’administration En pratique. manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes. De même. diffusion et présentation sont des fonctions fortement "orientées sujet". .

La chaîne décisionnelle est composée de trois parties :  Alimentation du DataWarehouse  Modélisation  Restitution des données : Analyse et prise des décisions Bases de production Prise de Décision DataWarehouse Base multi dimensionnelle .

couplé à des outils de datamining il n’a pour unique but de faciliter la prise de décision en apportant une vue synthétisée de l’ensemble des données de l’entreprise éparpillées dans toutes ces bases opérationnelles. etc. permet d’avoir une activité journalière (gestion de stocks. . base de fournisseurs/clients. bases de données indispensable à la vie d’une entreprise. Ceci n’est pas le rôle d’un datawarehouse.Les systèmes opérationnels.).

Un DataWarehouse est caractérisé par quatre concepts :  Orientés sujet: On dit d’un DW qu’il est orienté sujet car il regroupe en son sein des informations des différents métiers (fabrication. etc. oracle. Cela a comme avantage direct de simplifier la politique d’accès aux données aux utilisateurs tout en facilitant l’accès pour la prise de décision. etc… .) pour faire face a ce problème un DW est intégré. figées dans le temps. permettent de stocker des informations telles que le nom de la base de production dont la donnée est extraite. qualité) de l’entreprise.  bases de différents types (excel. la date et l’heure de la dernière extraction.  Les données sont non-volatiles. Intégrés: Souvent chaque métier d’une entreprise stocke ses informations dans des  Historisés: C'est-à-dire que les données contenues dans un entrepôt de données reste Non-volatiles: Apres le chargement des données dans le DW. achats. il regroupe ainsi l’intégralité des donnes de l’entreprise. celles-ci n’évolues plus. Cela permet de figer les informations au moment de l’alimentation du DW Les méta-données: « données sur les données».

le retour sur investissement.Il y’a trois parties interdépendante qui relève la construction d’un Datawarehouse:  L’étude préalable qui va définir les objectifs.…  L’étude du modèle de données qui représente le DW conceptuellement et logiquement  L’étude de l’alimentation du Datawarehouse . la démarche à suivre.

L’étude préalable  Etude des besoins: ◦ ◦ ◦ ◦ ◦ ◦ Définir les objectifs du DW Déterminer le contenu du DW et son organisation Recenser les données nécessaires à un bon fonctionnement du DW Choisir les dimensions Choisir les mesures de fait Choisir la granularité des faits  Coûts de déploiement: ◦ ◦ ◦ ◦ Nécessite des machines puissantes. souvent une machine parallèle Capacité de stockage très importante (historisation des données) Equipes de maintenance et d’administration Les coûts des logiciels .

. Schéma en flocon.Modélisation   Un DW est basé sur une modélisation multidimensionnelle qui représente les données dans un cube Un cube permet de voir les données suivant plusieurs dimensions: ◦ ◦ Tables de dimensions La table des faits contient les mesures et les clés des dimensions  Plusieurs schémas types sont proposés pour représenter un DW: ◦ ◦ Schéma en étoile.

une ou plusieurs mesures .  Plusieurs tables de dimension : descripteurs des dimensions.Modélisation ◦ Schéma en étoile  Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension . .

Modélisation ◦ Schéma en flocon  Raffinement du schéma étoile avec des tables normalisées par dimensions .

.Une architecture informatique décisionnelle est généralement constituée des éléments suivants :  Les bases de production contenant les informations  Le STAGING Area.  Le DATAWAREHOUSE.  Les DATAMARTS. cubes affichant une vue métier. l’entrepôt de donnée lui-même. zone de stockage des données avant traitement.

.

Online désigne les bases de données multidimensionnelles ou cubes destinées à l'analyse. OLAP a été défini par TED CODD en 1993 au travers de 12 règles que doit respecter une base de données si elle veut adhérer au concept OLAP. Une base de données OLAP peut se représenter comme un cube à N dimensions Analytical Processing (OLAP). . OLAP est un mode de stockage prévu pour l’analyse statistique des données.

Mais peu efficace pour les calculs complexes  (2) Multidimensional OLAP (MOLAP) ◦ Structure de stockage en cube ◦ Accès direct aux données dans le cube ◦ Avantages/inconvénients   Rapide. permet de stocker de gros volumes. (1) Relational OLAP (ROLAP) ◦ Données sont stockées dans un SGBD relationnel ◦ Un moteur OLAP permet de simuler le comportement d'un SGBD multi-dimensionnel ◦ Avantages/inconvénients   Souplesse. évolution facile. Ne supporte pas de très gros volumes de données  (3) Hybrid OLAP (HOLAP) ◦ Données stockées dans SGBD relationnel (données de base) ◦ + structure de stockage en cube (données agrégées) .

sum. avg.Un hypercube OLAP (ou cube OLAP) est une représentation abstraite d'informations multidimensionnelles exclusivement numérique utilisé par l'approche OLAP (acronyme de On-line Analytical Processing). count. mais peut utiliser des fonctions d’agrégations spécifiques . Les cubes OLAP ont les caractéristiques suivantes :     obtenir des informations déjà agrégées selon les besoins de l’utilisateur. Cette structure est prévue à des fins d'analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du métier que ces données sont censées représenter. max. simplicité et rapidité d’accès capacité à manipuler les données agrégées selon différentes dimensions un cube utilise les fonctions classiques d’agrégation : min.

. par l’intermédiaire de transferts de données. couramment appelés interfaces. systèmes opérants de l’entreprise. correspondent à l’ensemble des applications informatiques utilisées au quotidien dans l’entreprise pour son activité (gestion de production.. Nous allons donc voir dans ce chapitre les outils et les méthodes permettant d’alimenter un datawarehouse tout en minimisant l’impact sur les systèmes de productions. .. gestion commerciale. Ces bases de production. gestion bancaire.Les données contenues dans un datawarehouse sont issues des différentes bases de données de l’entreprise. Les informations qui y sont stockées. propres à chaque application. peuvent parfois être utilisées par d’autres programmes.).

Il s'agit d'une technologie informatique middleware permettant d'effectuer des synchronisations massives d'information d'une banque de données vers une autre..L’outil d’alimentation permet de paramétrer des règles de gestion. .. conversions.)  des transformateurs qui manipulent les données (agrégations. Ces règles visent elles aussi à assurer la cohérence entre les données et à ne stocker dans l’entrepôt de données que des informations préalablement mises en relation les unes avec les autres. Cette technologie est basée sur trois outils :  des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle ou SAP.)  des mises en correspondance (mappages). on traduira par « alimentation ». propres à l’entreprise et à son secteur d’activité. filtres. « constitution » ou « conversion ». Selon le contexte. Définition « Extract-Transform-Load » est connu sous l’acronyme ETL (ou parfois : datapumping). « transformation ».. « extraction ». souvent combinés..

De part sa nature. on retrouve trois types de contraintes à la mise en œuvre d’un datawarehouse :  Alimentation des données de production aux normes des données du référentiel. DB2. garantir l’intégrité des données par des définitions uniques et réutilisables par tous les utilisateurs.…). On peut retrouver ainsi plusieurs type de base de données (access. En générale.  Sur le plan fonctionnel. un datawarehouse est alimenté via les informations de l’entreprise. des tableurs. des fichiers a plats… Il existe une quasi infinité de format de source. . MySQL.  Organisation du stockage des informations. Or ces informatique sont stocké sous les formes les plus hétérogène.

Load: Le chargement permet de transférer les données vers leur destination finale. est comme son nom l’indique : la lecture et l’extraction des données du système source. Transform: La transformation est la tâche la plus complexe et qui demande beaucoup de réflexion. . Le but de cette étape.   Extract: L'extraction des données est la première des étapes des systèmes ETL.

Quelques Outils d'ETL :  Apatar  CloverETL  GeoKettle  Pentaho Data Integration  Scriptella  Talend Open Studio .

.

Ce genre d’outil dispose d’un moteur de transformation . .Actuellement il existe trois catégories d’outils ETL :  Engine-based : les transformations sont exécutées sur un serveur ETL. La mise en place d'un système ETL demande une expertise spéciale et fait appel à plusieurs types de ressources humaines. Ce code est déployable indépendamment de la base de données.  Code-generators : les transformations sont conçues et un code est généré. Cette fonctionnalité est très consommatrice de ressource sur la base de données. disposant en général d’un référentiel.  Database-embedded : les transformations sont intégrées dans la base de données.

spécialisées dans le business intelligence autrement dis dans l’informatique décisionnelle. Certaines sociétés. il est courant de voir des datawarehouses de plusieurs téraoctets !!! Mais une véritable révolution est en train de naître. Aujourd’hui. toujours plus puissant. le datawarehouse et le datamining ont évolués en optimisant certains process ou stockage.Ces dernières années. SAS. Mais c’est surtout le hardware. plus rapide qui a permis de traiter ce volume de donnée toujours plus important. IBM. ont réussi à porter le datawarehouse et surtout les outils de datamining sur une plateforme distribuée de type grille (grid computing) . comme SUN.

Il faut une architecture du système adéquate.Un datawarehouse correctement alimenté permet au décideur. Les données peuvent être séparées par vue métier au sein de mini datawarehouse nommé datamarts et couplé avec un mode de stockage en cube OLAP . d'établir des statistiques d'évolution ou de construire des plans. Mais extraire une synthèse à partir d’un tel volume de donnée (souvent de l’ordre de plusieurs téraoctets) n’ai pas chose aisée. Cela est rendu possible par le fait qu’un datawarehouse regroupent l’ensemble des données de l’entreprise. personne en charge des décisions majeures d’une entreprise.

Sign up to vote on this title
UsefulNot useful