Vous êtes sur la page 1sur 22

Chapitre 2

 Système de gestion vs. Système de décision.

Système de gestion (opérationnel) Système de décision (analyse)

Objectifs dédié au métier et à la production dédié au management de


ex: facturation, stock, personnel l'entreprise
(pilotage et prise de décision)
Pérennité données volatiles données historisées
ex: le prix d'un produit évolue ex: garder la trace des évolutions
dans le temps des prix, introduction d'une
information daté
Optimisation pour les opérations associées pour l'analyse et la récapitulation
ex: passage en caisse (lecture de ex: quels les produits achetés
code barre) Ensembles
Granularité de données Totale et atomique, on accède agrégats, niveau de synthèse
directement aux selon les besoins de l'analyse
informations atomiques

 Incompatibilités des deux activités


◦ Les deux activités (gestion et décision) ne peuvent co-exister sur
des données dans le même système d’information: leurs objectifs
de performance sont exactement opposés:
 Les requêtes complexes et lourdes dégradent les performances des
systèmes transactionnels,
 Les données temporelles sont réparties entre données actuelles et
données archivées, rendant la vue historique des données très difficile
ou impossible,
◦ Le support efficace d’une activité de décision nécessite la
constitution d’un système d’information propre: Le
Datawarehouse

1
Data Warehouse est une base de données centralisée d’une entreprise.

 Spécialement conçu pour recueillir, stocker et intégrer des données


provenant de multiples sources de données. Afin de les rendre
disponibles pour l’analyse, le reporting et la prise de décision.

Les données sont recueillies à partir d'une variété de sources


pertinentes pour l'entreprise telles que :
• Les données des clients,
• Les données des entreprises concurrentes et
• Les données transactionnelles.

Les deux définitions les plus importantes et complètes d'un entrepôt


de données ont été proposées par Bill Inmon et Ralph Kimball, co-
fondateurs de Datawarehouse.

 Selon Bill Inmon « Le DataWareHouse est une collection de données


orientées sujet, intégrées, non volatiles et historisées, organisées pour
le support d'un processus d'aide à la décision. »

2
Selon Ralph Kimball:
 “a data warehouse is a copy of transaction data specifically structured
for query and analysis”.

 Principe
◦ Base de Données utilisée à des fins
d’analyse.
◦ Caractéristiques :
 orientation sujets («analyse»)
 données intégrées
 Données historisées
 données non volatiles
 données datées

 Organisées autour de sujets majeurs comme :


◦ Consommateur, Produit, Ventes, …
 Vue synthétique des données selon les sujets intéressant les
décideurs,
 Données pour l’analyse et la modélisation en vue de l’aide à la
décision, et non pas pour les opérations et transactions journalières,

 Construit en intégrant des sources de données multiples et


hétérogènes
◦ BD relationnelles, fichiers, enregistrements de transactions

 Intégration des données


◦ La conversion de données
◦ Nettoyage et unification
◦ Consistence dans les noms des champs,
◦ le codage des données issues de plusieurs sources

3
 L’échelle de temps dans le DW est beaucoup plus longue que dans
les BD opérationnelles :
◦ BD opérationnelle : valeur courante des données
◦ DW : information dans une perspective historique (ex: les 5 dernières
années)
 Chaque structure dans le DW contient un élément décrivant le
temps.

10

 Stockage indépendant des BD opérationnelles


◦ Pas de suppression
 Pas de mises à jour des données dans le DW
◦ 2 actions sur le DW
 Alimentation du DW à partir des données des BD opérationnelles.
 Accès (lecture) de ces données.

11

La duplication délibérée de certaines données afin d'accélérer


l'extraction des données :
 Lorsque les requêtes les plus importantes portent sur des données
réparties sur plusieurs tables.
 Lorsque des calculs doivent être effectués sur une ou plusieurs
colonnes avant que la requête ne renvoie une réponse.
 Si les tables doivent être consultées de différentes façon par
différents utilisateurs lors d'une même période.
 Si certaines tables sont très fréquemment utilisées.

12

4
 Objectif: Retrouver une information
historique et transversale à l’entreprise.
 Données réparties.
 Vue au-jour-le–jour.

 Comment: Fédérer/Regrouper l'ensemble des


données de l'entreprise.
 Recoupements d’informations.
 Vue sur l’évolution des informations.

13

 Du transactionnel au décisionnel

Données de production : Données de décisions :


• Réparties • Centralisées
• SGBD et supports physiques hétérogènes • Un seul support
• Qualité inégale des données (données détaillées) • Fiables
• Représentations hétérogènes • Interprétables
•Le contenu est fait de données actuelles, pas d’archives

Séparation physique !!!

14

OLAP:
• Accès rapide aux Data, KPI,
Bases opérationnelles : Data Warehouse (entrepôt de
Dashboards, Scorecards
• Orientées services : Ventes, données) :
• Analyse multi-D
comptabilité, Marketing .. • Orientées sujets (analyse).
• Prédiction, simulation
• Volatile • Historisées
Data Mart : • Reporting (Crystal, MS
• OLTP • Non-volatiles
• snapshot de DW Reporting)
Production • Bases Multidimentionnel
System • Historisées
• Non-volatiles

CRM
System Product
Data
O Flux

Financial
Mart L Décisionnel

System A
Extract
Load P
ETL Seles
Data
files Mart

Data Mining:
• Prédiction/prospection.
• Extraction de connaissances
(SAS Mining, SQL server
Mining)
15

5
 Données multidimensionnelles
◦ Notion de dimension : C’est une catégorie linguistique selon laquelle les
données sont organisées:
 Nom d’un attribut
 Valeur d’un attribut
 Représentation
Tableau simple Tableau croisé

16

 Représentation

Graphique 3D Hyper cube

17

OLTP OLAP

Utilisateurs employé décideur

Fonction Operations journalières Aide à la décision

Conception de la BD orientée application (transaction) Orientée sujet

Données courante, à mettre à jour , detaillée, historique, résumée, multidimensionnelle


relationelle, isolée integrée, consolidée
Usage Répété ad-hoc

Accès Lecture écriture Lecture seule


Index sur clé primaire Différentes analyses
Unité de travail transaction simple Requête complexe

#Enr. Utilsés dizaines millions

#Users milliers centaines

Taille de la BD 100MB-GB 100GB-TB

18

6
 ETL (datapumping):
◦ Système (middleware) d’alimentation permettant de paramétrer des
règles de gestion de l’entreprise.
 Synchronisation massive
◦ connecteur (Oracle/SAP)
 Outils ETL
◦ Talend Open studio
◦ Oracle Warehouse Builder (OWB)
◦ Oracle Data Integrator (ODI)
◦ SAS ETL
◦ Business Objects Data Integrator
 Vise à assurer la cohérence entre les données et à ne stocker
dans l’entrepôt de données que des informations
préalablement mises en relation les unes avec les autres
(mapping).

19

 ETL = Extract + Transform + Load


 Extraction
◦ 1er étape du processus ETL : Récupération des données
depuis les sources de données.
 Transformation
◦ filtrer
◦ trier
◦ homogénéiser
◦ nettoyer
◦ ...
 Chargement
◦ (Loading)

20

 Extraction depuis :
◦ les bases de production sources
◦ les journaux
 Différentes techniques
◦ Push = Le système opérationnel qui au fil des transactions
alimente le DW,
◦ Pull =Le système décisionnel cherche périodiquement les
données dans les bases de production,
◦ Hybride = Push and Pull,
 Périodique et répétée
◦ Respecter la période « extract window »
 Difficultés
◦ Couteuse en ressources
◦ Perturbation des applications OLTP
◦ Adaptation de Bases sources (dater les enregistrements)
◦ Dater ou marquer les données envoyées

21

7
 Accès unifiés aux données
◦ Unification des modèles
 Traduction de fichiers, BD réseaux, annuaires en tables
 Evolution vers XML (modèle d'échange) plus riche
◦ Unification des accès
 SQL complet
 Mapping plus ou moins sophistiqué
◦ Unification des noms
 Appeler pareil les mêmes choses et différemment les choses différentes
 Application des "business rules"
◦ Jointure, projection, agrégation (SUM, AVG)
 Nettoyage des données
◦ Elimination des doubles
◦ Nettoyer ( Valeurs manquantes, aberrantes...)

22

 Difficultés
◦ Existence de plusieurs sources
 non conformité des représentations
 découpages géographiques différents

 codage des couleurs

 identification des produits différents


 difficulté de comparaison des sources de données
 Mise en conformité nécessaire !

23

24

8
 C’est l’opération qui consiste à charger les données nettoyées et
préparées dans le DW.
 C’est une opération qui peut être longue :
◦ Mettre en place des stratégies pour assurer de bonnes conditions à sa
réalisation
◦ Définir la politique de rafraîchissement.
 C’est une phase plutôt mécanique et la moins complexe
 Pas de mise à jour
◦ Insertion de nouvelles données
◦ Archivage de données anciennes
 De gros volumes
◦ Périodicité parfois longue
◦ Chargement en blocs
◦ Mise à jour des index et résumés
 Difficulté
◦ Cohabitation avec l'OLAP ?

25

La modélisation dimensionnelle est une technique de conception de


bases de données où les données sont représentées dans deux types de
tables: table de faits et table de dimension.

Mesure : une mesure est une quantité présente dans la table de faits qui
permet de mesurer les faits. Par exemple, nombre de ventes ou total des
ventes sont des exemples de mesures.

26

Afin de comprendre le niveau conceptuel de la modélisation


d'un datawarehouse, on va définir deux concepts : Fait et
dimension
 Concept de fait : Un fait représente un sujet d'analyse. Il est
constitué de plusieurs mesures relatives au sujet traité. Ces
mesures sont numériques et généralement valorisées de
façon continue. Cette table ne contient que des clés
étrangères venant des tables de dimensions.

27

9
 Concept de dimension : La dimensions est le critère suivant
lequel on souhaite évaluer, quantifier, qualifier le fait. les
tables de dimensions sont des tables servant d'axes
d'analyse. On peut par exemple analyser les ventes (table de
faits) suivant l'axe des temps (table de dimensions) pour
indiquer par exemple pendant quel trimestre de l'année les
ventes ont explosé.

28

 Souvent représentés par une structure à plusieurs dimensions


 Une dimension est un attribut ou un ensemble d’attributs:
◦ Temps
◦ Géographie
◦ Produits
◦ Clients
 Les cellules contiennent des données agrégées appelées Faits ou
Indicateurs:
◦ Nombre d’unités vendues
◦ Chiffre d’Affaire
◦ Coût
 Représentations:
◦ Relations,
◦ Cube de données,
◦ hyper cube de données

29

 Vue multidimensionnelle

30

10
 Plusieurs niveaux d’agrégation
◦ Les données peuvent être groupées à différents niveaux de granularité
◦ Les regroupements sont pré-calculés,
 Par exemple, le total des ventes pour le mois dernier calculé à partir
de la somme de toutes les ventes du mois.
 Granularité : niveau de détail des données emmagasinées dans un
Datawarehouse
 Granularité des dimensions

Temps Jours Mois Trimestres Années

Géographie Villes Régions Pays

Produits Numéros Types Gammes Marques 31

 Schéma entités-relations (classique)


◦ Schéma en étoile
◦ Schéma en flocon, schéma normalisé
◦ Schéma en constellation
 Association
◦ Un to plusieurs
◦ Pas dépendance fonctionnelle

32

temps article
Id_date Id_art
jour Table des faits Ventes Nom_art
Jour_semaine marque
mois id_date type
trimestre fournisseur
année id_art
id_site
site
nb_ventes
Id_site
montant_ventes rue
ville
région
pays

33

11
34

35

article
temps
Id_art
Id_date
Nom_art
jour Table des faits Ventes marque
Jour_semaine
type
mois id_date
Id_fournisseur
trimestre
année id_art
id_site fournisseur
site
nb_ventes Id_fournisseur
Id_site Nom_fournisseur
montant_ventes rue
Id_ville
ville
Id_ville
ville
région
pays 36

12
 Schémas en flocon : l'entretien des dimensions est plus facile
parce qu'ils sont normalisée.
 Schémas en étoile : les requêtes sont simples et plus efficaces
grâce à la dénormalisation.
 La décision de modéliser une dimension en étoile ou en
flocon est basée sur la nature de la dimension : fréquence de
changements de la dimension et de ses éléments.

37

 La modélisation en constellation consiste à fusionner plusieurs


modèles en étoile qui utilisent des dimensions communes.
 Un modèle en constellation comprend donc plusieurs tables de
faits et des tables de dimensions communes ou non à ces
tables de faits.

38

39

13
40

41

 Processus Relationnel
◦ Normalisée : les formes normales
◦ Modèle de Dépendances de Données
◦ Eviter la redondance
◦ Inconvénient : Analyse difficile
 Processus Dimensionnel
◦ Résistance à la normalisation
◦ Modèle d’agrégation des Données
◦ Redondance tolérée
◦ Avantages : Orienté analyse

42

14
 Le Data warehouse n’est pas un produit ou un logiciel mais
un environnement, qui se bâtit et ne s’achète pas.
 Chaque Data Warehouse est unique,
 Focalisations successives sur un ensemble de besoins,

43

 Le sponsor
◦ soutient le projet
 Le comité d’utilisateurs
◦ différentes catégories (regroupement par besoins)
 Managers : Scope, objectif, sujets,
 Utilisateurs : les questions métiers.
 Les administrateurs du système d’information
◦ Très importants (connaissance des données)
◦ Définition des méta-données.
◦ Maintenance future du Data Warehouse
 L’équipe de conception
◦ souvent : consultants externes

44

Pourquoi un data warehouse Solutions


échoue ?

Le produit final ne répond pas au Contacte permanant avec le client


besoins des utilisateurs finaux. (réunions).

Les besoins métiers ne sont pas Description est documentation


bien compris par le (méta-données)
développeurs.

Proposition d’une solution Des livrables réduit (3 mois) et


complète d’un seul coup. par sujet (subject area).

45

15
 Comme tout projet, il faut faire une capture des
besoins utilisateurs et pour cela on a besoin de
plusieurs choses :
◦ Etude du domaine métier : Si vous voulez travailler dans le
décisionnel vous êtes obligé de connaître le métier de
l'entreprise
◦ Consultation des des acteurs clés du métier : bien connaître
l'organigramme de l'entreprise et savoir qui s'occupe de quoi,
◦ Découpage des besoins en thèmes/sujets.

46

47

48

16
 Un objectif dans la conception dimensionnelle est
équivalent à une fonction métier dans un système
informatique
 Permettent:
◦ D’identifier les sujet.
◦ D’adapter l’entrepôt aux besoins.
 Plusieurs types d’objectifs métiers.
 Exemple :

49

 Stratégiques
◦ pour des buts à long terme;
◦ Exemple :

Objectifs stratégiques

• être le meilleur dans notre industrie


• dominer le marché dans chacune de nos villes
• être le modèle que les concurrents s’efforcent de
correspondre
• connaître et comprendre nos clients

50

 Tactiques :
◦ Pour des buts à court terme ou immédiats;
◦ Contribue à la réalisation des objectifs stratégiques
◦ Exemple :

Objectifs tactiques
• diminuer les frais généraux
• améliorer l'efficacité des campagnes de marketing
• comprendre nos clients le comportement d'achat
• réduire les commandes retournées
• déterminer ce qui rend les clients fidèles

51

17
 Opérationnels:
◦ Contribue à la réalisation des objectifs tactiques;
◦ Exemple :

Verbes orientés
résultats
fournir
Améliorer Croître
Réduire Intégrer
Augmenter diminuer
Permettre
exécuter

52

 Sujet ?
◦ Un processus métier;
◦ Une fonction métier;
◦ Un centre d’intérêt;
 Déterminer à partir des objectifs
 Un sujet regroupe plusieurs objectifs métiers.
 Pourquoi ?
◦ Pour identifier les sources de données;
◦ Pour délimiter le périmètre de l’entrepôt;

53

54

18
 Une étape d’analyse métier qui permet de déterminer
comment les utilisateurs finaux vont interagir avec le
data warehouse
 Une décomposition des objectifs métiers

55

Objectifs : Optimiser le processus de


distribution

Sujet : Distribution

Scénarios d’utilisation:
- Déterminer l’impact des condition météorologiques;
- Déterminer les goulots d'étranglement : facteurs ou contraintes limitant la
distribution
- Déterminer les facteurs de risque pour une politique de distribution

56

 Les métriques de chaque scénario d’utilisation.


 Exemple :
◦ Objectif : améliorer les ventes
◦ Sujet : ventes
◦ Scénario d’utilisation : évaluer les performances des ventes
◦ Questions métiers :
 la quantité de ventes par mois ?
 Profitabilité par produit ?
 Le site responsables du plus grand volume de ventes ?
 …etc

57

19
58

 À partir du sujet et des questions métiers :


◦ Sujet = fait
◦ QMs= Mesures + dimensions + Granularité

59

 Exemple :
◦ Sujet = fait
◦ QMs= Mesures
Sujet Questions métiers
distribution Quel est le coût des
retards ?

Table de fait mesures


distribution - Montant_total_retard
- Nombre_retard

60

20
 Critères d’analyse des mesures ?
 Exemple :

61

 Granularité / Finesse des Faits


 Niveau de détail de représentation
 Exemple :

62

 Organisation des granularité selon les dimension,


 Exemple :

63

21
 Le choix d’un schéma : étoile, flocon

64

 Tables de dimension
◦ clé primaire (clé de substitution)
 Tables de fait
◦ clé composite ou concaténée
 clés étrangères des tables de dimension
 utilisée dans les contraintes de jointure naturelle

65

22

Vous aimerez peut-être aussi