P. 1
Data Warehouse 3

Data Warehouse 3

|Views: 208|Likes:
Publié parAbbes Rharrab

More info:

Published by: Abbes Rharrab on Feb 19, 2012
Droits d'auteur :Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

04/28/2013

pdf

text

original

UNIVERSITE MOHAMMED V AGDAL Faculté des Sciences Rabat

DATAWAREHOUSE
Architecture et technique de ce composant de l'informatique décisionnelle. Impact sur l'architecture du système d'information (alimentation, restitution, serveur). Les évolutions pour le DATAWAREHOUSE distribué.

Réalisé par :

Abbes RHARRAB Brahim JIHAD Mohcine ELJABIRY Nada LAMNAKER

1. 2. 3. 4. 5. 6.

7.

Introduction Quelques définitions Système d'information décisionnel Architecture d’un DataWarehouse Alimentation du DataWarehouse L’évolution du DataWarehouse Conclusion

L’informatique décisionnelle (en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. Ce type d’application utilise en règle générale un entrepôt de données (ou DataWarehouse en anglais) pour stocker des données transverses provenant de plusieurs sources hétérogènes (techniquement Excel, DB2, Oracle, SQL SERVEUR..., et fonctionnellement RH, Production, Compta, finance...) et fait appel à des traitements par lots pour la collecte de ces informations.

dégager des informations qualitatives nouvelles .Qui sont mes meilleurs clients? Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières? Quels français consomment beaucoup de poisson?     Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données.

cela signifie que les données collectées doivent être orientées « métier » et donc triées par thème. Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement. donc datées. Les données du datawarehouse doivent être historisées.Datawarehouse Définition de Bill Inmon (1996): Le datawarehouse est orienté sujets. Le datawarehouse est composé de données intégrées. L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision. C. qui se bâtit et ne s’achète pas. .D qu'un « nettoyage » préalable des données est nécessaire dans un souci de rationalisation et de normalisation.A.

contenant des informations se rapportant à un secteur d'activité particulier de l'entreprise ou à un métier qui y est exercé (commercial. Load) Outil informatique destiné à extraire des données de diverses sources (bases de données de production. etc). Internet. par des méthodes automatiques ou semiautomatiques. à les transformer et à les charger dans un entrepôt de données. Cube et hypercube Représentation abstraite d'informations multidimensionnelles exclusivement numériques utilisée par l'approche OLAP (On-line Analytical Processing) . a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données. Datamining Ou (« forage de données »). comptabilité. fichiers. etc. ETL (Extract.). marketing. Transform.Datamart Sous ensemble d'un entrepôt de données.

Datamarts du service Compta DataWarehouse de l’Entreprise Datamart du service RH . allant du simple tableau sous Excel à l’entrepôt de données.Aujourd’hui la situation de marché est telle. ceci dans le but de pouvoir prendre des décisions stratégiques concernant les directions et engagement à prendre. Celui-ci pourra être plus ou moins complexe et élaboré. Le service attendu d’un système décisionnel est d’avoir une vue synthétique de l’entreprise. que toute entreprise possède un système d’information décisionnel.

les fonctions de collecte et d'intégration sont étroitement liées entre elles. elles sont donc fortement imbriquées logiquement et techniquement. et sont généralement associées au DATAWAREHOUSE. De même. tournées vers l'utilisateur et son métier. manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes.Tout système d’information décisionnelle. diffusion et présentation sont des fonctions fortement "orientées sujet". telle que le DataWarehouse mettent en œuvre cinq fonctions fondamentales :      sont les La collecte L’intégration La diffusion La présentation L’administration En pratique. .

La chaîne décisionnelle est composée de trois parties :  Alimentation du DataWarehouse  Modélisation  Restitution des données : Analyse et prise des décisions Bases de production Prise de Décision DataWarehouse Base multi dimensionnelle .

permet d’avoir une activité journalière (gestion de stocks. .Les systèmes opérationnels.). base de fournisseurs/clients. bases de données indispensable à la vie d’une entreprise. etc. couplé à des outils de datamining il n’a pour unique but de faciliter la prise de décision en apportant une vue synthétisée de l’ensemble des données de l’entreprise éparpillées dans toutes ces bases opérationnelles. Ceci n’est pas le rôle d’un datawarehouse.

figées dans le temps. qualité) de l’entreprise. il regroupe ainsi l’intégralité des donnes de l’entreprise. oracle. Intégrés: Souvent chaque métier d’une entreprise stocke ses informations dans des  Historisés: C'est-à-dire que les données contenues dans un entrepôt de données reste Non-volatiles: Apres le chargement des données dans le DW. permettent de stocker des informations telles que le nom de la base de production dont la donnée est extraite. etc. Cela permet de figer les informations au moment de l’alimentation du DW Les méta-données: « données sur les données». achats.Un DataWarehouse est caractérisé par quatre concepts :  Orientés sujet: On dit d’un DW qu’il est orienté sujet car il regroupe en son sein des informations des différents métiers (fabrication.) pour faire face a ce problème un DW est intégré.  bases de différents types (excel. etc… . la date et l’heure de la dernière extraction. Cela a comme avantage direct de simplifier la politique d’accès aux données aux utilisateurs tout en facilitant l’accès pour la prise de décision. celles-ci n’évolues plus.  Les données sont non-volatiles.

la démarche à suivre.…  L’étude du modèle de données qui représente le DW conceptuellement et logiquement  L’étude de l’alimentation du Datawarehouse .Il y’a trois parties interdépendante qui relève la construction d’un Datawarehouse:  L’étude préalable qui va définir les objectifs. le retour sur investissement.

L’étude préalable  Etude des besoins: ◦ ◦ ◦ ◦ ◦ ◦ Définir les objectifs du DW Déterminer le contenu du DW et son organisation Recenser les données nécessaires à un bon fonctionnement du DW Choisir les dimensions Choisir les mesures de fait Choisir la granularité des faits  Coûts de déploiement: ◦ ◦ ◦ ◦ Nécessite des machines puissantes. souvent une machine parallèle Capacité de stockage très importante (historisation des données) Equipes de maintenance et d’administration Les coûts des logiciels .

Schéma en flocon. .Modélisation   Un DW est basé sur une modélisation multidimensionnelle qui représente les données dans un cube Un cube permet de voir les données suivant plusieurs dimensions: ◦ ◦ Tables de dimensions La table des faits contient les mesures et les clés des dimensions  Plusieurs schémas types sont proposés pour représenter un DW: ◦ ◦ Schéma en étoile.

 Plusieurs tables de dimension : descripteurs des dimensions.Modélisation ◦ Schéma en étoile  Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension . une ou plusieurs mesures . .

Modélisation ◦ Schéma en flocon  Raffinement du schéma étoile avec des tables normalisées par dimensions .

l’entrepôt de donnée lui-même. . cubes affichant une vue métier.  Les DATAMARTS. zone de stockage des données avant traitement.  Le DATAWAREHOUSE.Une architecture informatique décisionnelle est généralement constituée des éléments suivants :  Les bases de production contenant les informations  Le STAGING Area.

.

Une base de données OLAP peut se représenter comme un cube à N dimensions Analytical Processing (OLAP). OLAP est un mode de stockage prévu pour l’analyse statistique des données. .Online désigne les bases de données multidimensionnelles ou cubes destinées à l'analyse. OLAP a été défini par TED CODD en 1993 au travers de 12 règles que doit respecter une base de données si elle veut adhérer au concept OLAP.

évolution facile. (1) Relational OLAP (ROLAP) ◦ Données sont stockées dans un SGBD relationnel ◦ Un moteur OLAP permet de simuler le comportement d'un SGBD multi-dimensionnel ◦ Avantages/inconvénients   Souplesse. Ne supporte pas de très gros volumes de données  (3) Hybrid OLAP (HOLAP) ◦ Données stockées dans SGBD relationnel (données de base) ◦ + structure de stockage en cube (données agrégées) . permet de stocker de gros volumes. Mais peu efficace pour les calculs complexes  (2) Multidimensional OLAP (MOLAP) ◦ Structure de stockage en cube ◦ Accès direct aux données dans le cube ◦ Avantages/inconvénients   Rapide.

avg. simplicité et rapidité d’accès capacité à manipuler les données agrégées selon différentes dimensions un cube utilise les fonctions classiques d’agrégation : min. sum. count.Un hypercube OLAP (ou cube OLAP) est une représentation abstraite d'informations multidimensionnelles exclusivement numérique utilisé par l'approche OLAP (acronyme de On-line Analytical Processing). Les cubes OLAP ont les caractéristiques suivantes :     obtenir des informations déjà agrégées selon les besoins de l’utilisateur. mais peut utiliser des fonctions d’agrégations spécifiques . Cette structure est prévue à des fins d'analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du métier que ces données sont censées représenter. max.

par l’intermédiaire de transferts de données. correspondent à l’ensemble des applications informatiques utilisées au quotidien dans l’entreprise pour son activité (gestion de production. gestion bancaire. propres à chaque application. Ces bases de production... systèmes opérants de l’entreprise. peuvent parfois être utilisées par d’autres programmes. Les informations qui y sont stockées. gestion commerciale. Nous allons donc voir dans ce chapitre les outils et les méthodes permettant d’alimenter un datawarehouse tout en minimisant l’impact sur les systèmes de productions.). . couramment appelés interfaces.Les données contenues dans un datawarehouse sont issues des différentes bases de données de l’entreprise..

conversions. filtres. « constitution » ou « conversion ». Selon le contexte.. « transformation ». Il s'agit d'une technologie informatique middleware permettant d'effectuer des synchronisations massives d'information d'une banque de données vers une autre. Cette technologie est basée sur trois outils :  des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle ou SAP. Ces règles visent elles aussi à assurer la cohérence entre les données et à ne stocker dans l’entrepôt de données que des informations préalablement mises en relation les unes avec les autres...)  des mises en correspondance (mappages). propres à l’entreprise et à son secteur d’activité.L’outil d’alimentation permet de paramétrer des règles de gestion. .)  des transformateurs qui manipulent les données (agrégations. on traduira par « alimentation ».. « extraction ». souvent combinés. Définition « Extract-Transform-Load » est connu sous l’acronyme ETL (ou parfois : datapumping).

on retrouve trois types de contraintes à la mise en œuvre d’un datawarehouse :  Alimentation des données de production aux normes des données du référentiel. des tableurs. des fichiers a plats… Il existe une quasi infinité de format de source. On peut retrouver ainsi plusieurs type de base de données (access.  Organisation du stockage des informations. En générale.  Sur le plan fonctionnel.De part sa nature. DB2. Or ces informatique sont stocké sous les formes les plus hétérogène. garantir l’intégrité des données par des définitions uniques et réutilisables par tous les utilisateurs. .…). un datawarehouse est alimenté via les informations de l’entreprise. MySQL.

Transform: La transformation est la tâche la plus complexe et qui demande beaucoup de réflexion. est comme son nom l’indique : la lecture et l’extraction des données du système source.   Extract: L'extraction des données est la première des étapes des systèmes ETL. Load: Le chargement permet de transférer les données vers leur destination finale. Le but de cette étape. .

Quelques Outils d'ETL :  Apatar  CloverETL  GeoKettle  Pentaho Data Integration  Scriptella  Talend Open Studio .

.

La mise en place d'un système ETL demande une expertise spéciale et fait appel à plusieurs types de ressources humaines. .  Code-generators : les transformations sont conçues et un code est généré. disposant en général d’un référentiel. Ce code est déployable indépendamment de la base de données.Actuellement il existe trois catégories d’outils ETL :  Engine-based : les transformations sont exécutées sur un serveur ETL.  Database-embedded : les transformations sont intégrées dans la base de données. Ce genre d’outil dispose d’un moteur de transformation . Cette fonctionnalité est très consommatrice de ressource sur la base de données.

ont réussi à porter le datawarehouse et surtout les outils de datamining sur une plateforme distribuée de type grille (grid computing) . il est courant de voir des datawarehouses de plusieurs téraoctets !!! Mais une véritable révolution est en train de naître. le datawarehouse et le datamining ont évolués en optimisant certains process ou stockage. plus rapide qui a permis de traiter ce volume de donnée toujours plus important. comme SUN. Mais c’est surtout le hardware.Ces dernières années. Certaines sociétés. IBM. Aujourd’hui. toujours plus puissant. SAS. spécialisées dans le business intelligence autrement dis dans l’informatique décisionnelle.

personne en charge des décisions majeures d’une entreprise.Un datawarehouse correctement alimenté permet au décideur. Les données peuvent être séparées par vue métier au sein de mini datawarehouse nommé datamarts et couplé avec un mode de stockage en cube OLAP . Cela est rendu possible par le fait qu’un datawarehouse regroupent l’ensemble des données de l’entreprise. Il faut une architecture du système adéquate. Mais extraire une synthèse à partir d’un tel volume de donnée (souvent de l’ordre de plusieurs téraoctets) n’ai pas chose aisée. d'établir des statistiques d'évolution ou de construire des plans.

You're Reading a Free Preview

Télécharger
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->