Vous êtes sur la page 1sur 76

Informatique Dcisionnelle

Anim par : Mme. Zineb AKDIM zineb.akdim@gmail.com

Planning des cours

Prsentation sur le dcisionnel (Prsent document) Dmonstration sur un outil de Restitution Dmonstration sur un outil ETL Etude de cas

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Le contexte

Besoin: prise de dcisions stratgiques, rapide et fiable Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles

Vous avez dit Business Intelligence ?

Constat
Je nai pas un problme de manque de donnes Mon problme est de pouvoir disposer de la bonne information au bon moment pour tre en mesure de prendre la meilleure dcision. Mon problme est de pouvoir contrler le bon fonctionnement de mon systme

Les donnes utilisables par les dcideurs

Donnes oprationnelles (de production)


Bases de donnes (Oracle, SQL Server) Fichiers, Paye, Facture

Caractristiques de ces donnes:

Distribues: systmes eparpilles Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes a lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique

Problmatique

Comment rpondre aux demandes des dcideurs?


En donnant un accs rapide et simple a linformation stratgique En donnant du sens aux donnes

Mettre en place un systme dinformation ddie aux applications dcisionnelles:

UN DATAWAREHOUSE

Le processus de prise de dcision

Processus de prise de dcision

Exemple de Rgles de Gestion

Indicateurs de Comptes pour un organisme Bancaire :

Nombre de Comptes Ouverts :

Count(CLIENT_JOUR.NUM_DOSSIER) o ETAT_OUVERTURE= 'O' et TYPE_CLIENT = '02 Enregistrements (CLIENT_JOUR) o ETAT_OUVERTURE = 'C ou B et TYPE_CLIENT = '02' Enregistrements (CLIENT) o TYPE_CLIENT = '02'

Nombre de Comptes Clturs :

Stock de Comptes :

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Dfinition dun DW

W. H. Inmon (1996):

Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et histories, organises pour le support dun processus daide la dcision Principe: mettre en place une base de donnes utilise des fins danalyse

Les 4 caractristiques des datawarehouse


1. Donnes orientes sujet:

Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes

Les 4 caractristiques des datawarehouse


2. Donnes intgres:

Normalisation des donnes Dfinition dun rfrentiel unique

Les 4 caractristiques des datawarehouse


3. Donnes non volatiles

Traabilit des informations et des dcisions prises Copie des donnes de production

Les 4 caractristiques des datawarehouse


4. Donnes dates

Les donnes persistent dans le temps Mise en place dun rfrentiel temps

SGBD et DW

OLTP VS DW

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Datamart

Sous-ensemble dun entrept de donnes Destin a rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise

Intrt des datamart

Nouvel environnement structur et format en fonction des besoins dun mtier ou dun usage Particulier Moins de donnes que DW

Plus facile comprendre, manipuler Amlioration des temps de rponse

Utilisateurs plus cibles: DM plus facile a dfinir

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Architecture Gnrale

Les flux de donnes

Flux entrant

Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept

Flux sortant:

Mise a disposition des donnes pour les utilisateurs finaux

Les diffrentes zones de larchitecture

Zone de prparation (Staging area)


Zone temporaire de stockage des donnes extraites Ralisation des transformations:


Nettoyage Normalisation

Donnes souvent dtruites aprs chargement dans le DW

Zone de stockage (DW, DM)

On y transfre les donnes nettoyes Stockage permanent des donnes


Donne accs aux donnes contenues dans le DW Peut contenir des outils danalyse programmes:
Rapports Requtes

Zone de prsentation

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Modlisation Entit/Association

Avantages:

Normalisation:
Eliminer les redondances Prserver la cohrence des donnes

Optimisation des transactions Rduction de lespace de stockage


Schma trs/trop complet:
Contient des tables/champs inutiles pour lanalyse

Inconvnients pour un utilisateur final:


Pas dinterface graphique capable de rendre utilisable le modle E/A Inadapt pour lanalyse

Exemple

Modlisation des DW

Nouvelle mthode de conception autour des concepts mtiers

Ne pas normaliser au maximum Table de faits Table de dimensions

Introduction de nouveaux types de table:


Introduction de nouveaux modles:

Modle en toile Modle en flocon

Table de faits

Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet tudie selon divers axes danalyse (les dimensions)

Table de faits (suite)

Fait:

Ce que lon souhaite mesurer


Quantits vendues, montant des ventes

Contient les cls trangres des axes danalyse (dimension)


Date, produit, magasin

Trois types de faits:


Additif Semi additif Non additif

Typologie des faits

Additif: additionnable suivant toutes les dimensions


Quantits vendues, chiffre daffaire Peut tre le rsultat dun calcul:


Bnfice = montant vente - cout

Semi additif: additionnable suivant certaines dimensions

Solde dun compte bancaire:


Pas de sens dadditionner sur les dates car cela reprsente des instantans dun niveau sur les comptes: on connait ce que nous possdons en banque

Non additif: fait non additionnable quelque soit la dimension

Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dpourvu de sens

Granularit de la table de faits


Rpondre la question :

Que reprsente un enregistrement de la table de faits?

La granularit dfinit le niveau de dtails de la table de faits:

Exemple: une ligne de commande par produit, par client et par jour

Table de dimension

Axe danalyse selon lequel vont tre tudies les donnes observables (faits) Contient le dtail sur les faits

Table de dimension (suite)


Dimension = axe danalyse

Client, produit, priode de temps Lensemble des informations descriptives des faits

Contient souvent un grand nombre de colonnes

Contient en gnral beaucoup moins denregistrements quune table de faits

La dimension Temps
Commune a lensemble du DW Relie a toute table de faits

Granularit dune dimension

Une dimension contient des membres organiss en hirarchie :


Chacun des membres appartient a un niveau hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps :
anne semestre trimestre - mois

volution des dimensions


Dimensions volution lente Dimensions volution rapide

volution des dimensions

Dimensions volution lente


Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation:
Raider en Twix yaourt a la vanille en yaourt saveur vanille

Gestion de la situation, 3 solutions:


Ecrasement de lancienne valeur Versionnement Valeur dorigine / valeur courante

Dimensions volution lente (1/3)


crasement de lancienne valeur :

Correction des informations errones Facile a mettre en uvre Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesures

Avantage:

Inconvnients:

Dimensions volution lente (2/3)


Ajout dun nouvel enregistrement:

Utilisation dune cl de substitution Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique

Avantages:

Inconvnient:

Accroit le volume de la table

Dimensions volution lente (3/3)


Ajout dun nouvel attribut:

Valeur origine/valeur courante Avoir deux visions simultanes des donnes :


Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut

Avantages:

Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre plusieurs valeurs dattributs intermdiaires

Inconvnient:

volution des dimensions

Dimensions volution rapide


Subit des changements trs frquents (tous les mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement

Dimensions volution rapide

Changements frquents des attributs dont on veut garder lhistorique

Clients pour une compagnie dassurance

Isoler les attributs qui voluent vite

Dimensions volution rapide (suite)

Les types de modles

Modle en toile

Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles Avantages:

Facilite de navigation Nombre de jointures limite


Redondance dans les dimensions

Inconvnients:

Modle en toile

Modle en flocon

Une table de fait et des dimensions dcomposes en sous hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie a la table de fait. On dit quelle a la granularit la plus fine Avantages:

Normalisation des dimensions Economie despace disque Modle plus complexe (jointure) Requtes moins performantes

Inconvnients:

Modle en flocon

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Alimentation/ mise jour de lentrept

Entrept mis a jour rgulirement Besoin dun outil permettant dautomatiser les chargements dans lentrept
Utilisation doutils ETL (Extract, Transform, Load)

Dfinition dun ETL


Offre un environnement de dveloppement Offre des outils de gestion des oprations et de maintenance Permet de dcouvrir, analyser et extraire les donnes a partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept

Extraction

Extraire des donnes des systmes de production Dialoguer avec diffrentes sources:

Base de donnes, Fichiers, Bases propritaires ODBC, SQL natif, Fichiers plats

Utilise divers connecteurs :

Transformation

Rendre cohrentes les donnes des diffrentes sources


Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)

Etape trs importante, garantit la cohrence et la fiabilit des donnes

Chargement

Insrer ou modifier les donnes dans lentrept Utilisation de connecteurs:


ODBC, SQL natif, Fichiers plats

Architecture dIntgration de Donnes

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

OLAP

ROLAP

Relationnel OLAP

Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel

Plus facile et moins cher mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP:

Mondrian Microstratgie (Microsoft)

MOLAP

Multi dimensional OLAP:


Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube

Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse Multidimensionnelle Exemples de moteurs MOLAP:

Microsoft Analysis Services Hyperion

HOLAP

Hybride OLAP:

tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes

Solution hybride entre MOLAP et ROLAP Bon compromis au niveau cot et performance

Sommaire des diffrents technologies


MOLAP = Base de donnes dimensionnelle + Serveur de traitement OLAP ROLAP = Base de donnes relationnelle + SQL avanc HOLAP = MOLAP pour les donnes sommaires + ROLAP pour les donnes

Le cube

Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:

Temps Localisation gographique

Les calculs sont raliss lors du chargement ou de la mise a jour du cube

Manipulation des donnes multidimensionnelles

Opration agissant sur la structure

Rotation (rotates): prsenter une autre face du cube

Manipulation des donnes multidimensionnelles

Opration agissant sur la structure

Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite a une seule valeur

Manipulation des donnes multidimensionnelles

Opration agissant sur la structure

Extraction dun bloc de donnes (dicing): ne travailler que sous un sous-cube

Manipulation des donnes multidimensionnelles

Opration agissant sur la granularit

Forage vers le haut (roll-up): dzoomer


Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation

Forage vers le bas (drill-down): zoomer


Obtenir un niveau de granularit inferieur Donnes plus dtailles

Drill-up, drill-down

MDX (Multidimensional Expressions)

Langage permettant de dfinir, d'utiliser et de rcuprer des donnes partir d'objets multidimensionnels

Permet deffectuer les oprations dcrites prcdemment

Equivalent de SQL pour le monde relationnel Origine: Microsoft

MDX, exemple

Fournir les effectifs dune socit pendant les annes 2004 et 2005 croiss par le type de paiement

Plan

Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel

Panorama des outils BI


Rfrentiel du DW

DM
Alimentation ODS DWH

Web
Outils de reporting, Alimentation : Powercenter (Informatica) Datastage (Ascential IBM) Sunopsis Genio (Hummingbird) SSIS (Microsoft) AB Initio Decision Stream (Cognos) WarehouseBuilder (Oracle) ODI (Oracle) SAS Warehousebuilder DIS (SAS) BODI (BO) Moteur SGBDR Oracle DB2 (IBM) SQL Server (Microsoft) Sybase Teradata (NCR) Netezza DataAllegro Sybase IQ Tables SAS Informix

Moteur OLAP

Business Objects XI Cognos Suite 8 Hyperion Essbase Oracle BIEE Oracle 10g OLAP Hyperion Performance Suite Microsoft Analysis Services (Brio) Cognos Powerplay Microstrategy DSS
SAP BW SAS MDDB SAS V9 Microsoft Reporting Services Outlooksoft Panorama Proclarity Exceutive Viewer CEGID Harry Software Qlickview

Chiffres d'Affaires 2003


25 20 15 10 5 0 -5 -10 Croissance en % du CA
Business Objects Microstrategy SAS Cognos Hyperion Information Builders SPSS Actuate

Les leaders du march


Avant les consolidations de 2007 Aprs les consolidations de 2007
Other Info. builders 5% Actuate 2% 10% Business Objects 20%
Info. builders 5% Actuate 2% Other 9% SAP/BOBJ 28%

Microstrategy 5% Oracle 6% H yperion 7% SAP 8%

Les composants Open Source BI Microstrategy ETL : Kettle, Talend. 5% Gnrateur de graphiques : Microsoft SAS JFreeChart. 14% 10% Gnrateurs dtats : BIRT, JasperReports et JFreeReport. Oracle/H yperion MOLAP Cognos : Mondrian, Palo 13%
Microsoft 10% 13%

IBM/Cognos 14% SAS 14%

Microsoft+IBM+SAP+Oracle :
De moins de 25% plus de 65% du march