Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
1
Data Warehouse est une base de données centralisée d’une entreprise.
2
Selon Ralph Kimball:
“a data warehouse is a copy of transaction data specifically structured
for query and analysis”.
Principe
◦ Base de Données utilisée à des fins
d’analyse.
◦ Caractéristiques :
orientation sujets («analyse»)
données intégrées
Données historisées
données non volatiles
données datées
3
L’échelle de temps dans le DW est beaucoup plus longue que dans
les BD opérationnelles :
◦ BD opérationnelle : valeur courante des données
◦ DW : information dans une perspective historique (ex: les 5 dernières
années)
Chaque structure dans le DW contient un élément décrivant le
temps.
10
11
12
4
Objectif: Retrouver une information
historique et transversale à l’entreprise.
Données réparties.
Vue au-jour-le–jour.
13
Du transactionnel au décisionnel
14
OLAP:
• Accès rapide aux Data, KPI,
Bases opérationnelles : Data Warehouse (entrepôt de
Dashboards, Scorecards
• Orientées services : Ventes, données) :
• Analyse multi-D
comptabilité, Marketing .. • Orientées sujets (analyse).
• Prédiction, simulation
• Volatile • Historisées
Data Mart : • Reporting (Crystal, MS
• OLTP • Non-volatiles
• snapshot de DW Reporting)
Production • Bases Multidimentionnel
System • Historisées
• Non-volatiles
CRM
System Product
Data
O Flux
Financial
Mart L Décisionnel
System A
Extract
Load P
ETL Seles
Data
files Mart
Data Mining:
• Prédiction/prospection.
• Extraction de connaissances
(SAS Mining, SQL server
Mining)
15
5
Données multidimensionnelles
◦ Notion de dimension : C’est une catégorie linguistique selon laquelle les
données sont organisées:
Nom d’un attribut
Valeur d’un attribut
Représentation
Tableau simple Tableau croisé
16
Représentation
17
OLTP OLAP
18
6
ETL (datapumping):
◦ Système (middleware) d’alimentation permettant de paramétrer des
règles de gestion de l’entreprise.
Synchronisation massive
◦ connecteur (Oracle/SAP)
Outils ETL
◦ Talend Open studio
◦ Oracle Warehouse Builder (OWB)
◦ Oracle Data Integrator (ODI)
◦ SAS ETL
◦ Business Objects Data Integrator
Vise à assurer la cohérence entre les données et à ne stocker
dans l’entrepôt de données que des informations
préalablement mises en relation les unes avec les autres
(mapping).
19
20
Extraction depuis :
◦ les bases de production sources
◦ les journaux
Différentes techniques
◦ Push = Le système opérationnel qui au fil des transactions
alimente le DW,
◦ Pull =Le système décisionnel cherche périodiquement les
données dans les bases de production,
◦ Hybride = Push and Pull,
Périodique et répétée
◦ Respecter la période « extract window »
Difficultés
◦ Couteuse en ressources
◦ Perturbation des applications OLTP
◦ Adaptation de Bases sources (dater les enregistrements)
◦ Dater ou marquer les données envoyées
21
7
Accès unifiés aux données
◦ Unification des modèles
Traduction de fichiers, BD réseaux, annuaires en tables
Evolution vers XML (modèle d'échange) plus riche
◦ Unification des accès
SQL complet
Mapping plus ou moins sophistiqué
◦ Unification des noms
Appeler pareil les mêmes choses et différemment les choses différentes
Application des "business rules"
◦ Jointure, projection, agrégation (SUM, AVG)
Nettoyage des données
◦ Elimination des doubles
◦ Nettoyer ( Valeurs manquantes, aberrantes...)
22
Difficultés
◦ Existence de plusieurs sources
non conformité des représentations
découpages géographiques différents
23
24
8
C’est l’opération qui consiste à charger les données nettoyées et
préparées dans le DW.
C’est une opération qui peut être longue :
◦ Mettre en place des stratégies pour assurer de bonnes conditions à sa
réalisation
◦ Définir la politique de rafraîchissement.
C’est une phase plutôt mécanique et la moins complexe
Pas de mise à jour
◦ Insertion de nouvelles données
◦ Archivage de données anciennes
De gros volumes
◦ Périodicité parfois longue
◦ Chargement en blocs
◦ Mise à jour des index et résumés
Difficulté
◦ Cohabitation avec l'OLAP ?
25
Mesure : une mesure est une quantité présente dans la table de faits qui
permet de mesurer les faits. Par exemple, nombre de ventes ou total des
ventes sont des exemples de mesures.
26
27
9
Concept de dimension : La dimensions est le critère suivant
lequel on souhaite évaluer, quantifier, qualifier le fait. les
tables de dimensions sont des tables servant d'axes
d'analyse. On peut par exemple analyser les ventes (table de
faits) suivant l'axe des temps (table de dimensions) pour
indiquer par exemple pendant quel trimestre de l'année les
ventes ont explosé.
28
29
Vue multidimensionnelle
30
10
Plusieurs niveaux d’agrégation
◦ Les données peuvent être groupées à différents niveaux de granularité
◦ Les regroupements sont pré-calculés,
Par exemple, le total des ventes pour le mois dernier calculé à partir
de la somme de toutes les ventes du mois.
Granularité : niveau de détail des données emmagasinées dans un
Datawarehouse
Granularité des dimensions
32
temps article
Id_date Id_art
jour Table des faits Ventes Nom_art
Jour_semaine marque
mois id_date type
trimestre fournisseur
année id_art
id_site
site
nb_ventes
Id_site
montant_ventes rue
ville
région
pays
33
11
34
35
article
temps
Id_art
Id_date
Nom_art
jour Table des faits Ventes marque
Jour_semaine
type
mois id_date
Id_fournisseur
trimestre
année id_art
id_site fournisseur
site
nb_ventes Id_fournisseur
Id_site Nom_fournisseur
montant_ventes rue
Id_ville
ville
Id_ville
ville
région
pays 36
12
Schémas en flocon : l'entretien des dimensions est plus facile
parce qu'ils sont normalisée.
Schémas en étoile : les requêtes sont simples et plus efficaces
grâce à la dénormalisation.
La décision de modéliser une dimension en étoile ou en
flocon est basée sur la nature de la dimension : fréquence de
changements de la dimension et de ses éléments.
37
38
39
13
40
41
Processus Relationnel
◦ Normalisée : les formes normales
◦ Modèle de Dépendances de Données
◦ Eviter la redondance
◦ Inconvénient : Analyse difficile
Processus Dimensionnel
◦ Résistance à la normalisation
◦ Modèle d’agrégation des Données
◦ Redondance tolérée
◦ Avantages : Orienté analyse
42
14
Le Data warehouse n’est pas un produit ou un logiciel mais
un environnement, qui se bâtit et ne s’achète pas.
Chaque Data Warehouse est unique,
Focalisations successives sur un ensemble de besoins,
43
Le sponsor
◦ soutient le projet
Le comité d’utilisateurs
◦ différentes catégories (regroupement par besoins)
Managers : Scope, objectif, sujets,
Utilisateurs : les questions métiers.
Les administrateurs du système d’information
◦ Très importants (connaissance des données)
◦ Définition des méta-données.
◦ Maintenance future du Data Warehouse
L’équipe de conception
◦ souvent : consultants externes
44
45
15
Comme tout projet, il faut faire une capture des
besoins utilisateurs et pour cela on a besoin de
plusieurs choses :
◦ Etude du domaine métier : Si vous voulez travailler dans le
décisionnel vous êtes obligé de connaître le métier de
l'entreprise
◦ Consultation des des acteurs clés du métier : bien connaître
l'organigramme de l'entreprise et savoir qui s'occupe de quoi,
◦ Découpage des besoins en thèmes/sujets.
46
47
48
16
Un objectif dans la conception dimensionnelle est
équivalent à une fonction métier dans un système
informatique
Permettent:
◦ D’identifier les sujet.
◦ D’adapter l’entrepôt aux besoins.
Plusieurs types d’objectifs métiers.
Exemple :
49
Stratégiques
◦ pour des buts à long terme;
◦ Exemple :
Objectifs stratégiques
50
Tactiques :
◦ Pour des buts à court terme ou immédiats;
◦ Contribue à la réalisation des objectifs stratégiques
◦ Exemple :
Objectifs tactiques
• diminuer les frais généraux
• améliorer l'efficacité des campagnes de marketing
• comprendre nos clients le comportement d'achat
• réduire les commandes retournées
• déterminer ce qui rend les clients fidèles
51
17
Opérationnels:
◦ Contribue à la réalisation des objectifs tactiques;
◦ Exemple :
Verbes orientés
résultats
fournir
Améliorer Croître
Réduire Intégrer
Augmenter diminuer
Permettre
exécuter
52
Sujet ?
◦ Un processus métier;
◦ Une fonction métier;
◦ Un centre d’intérêt;
Déterminer à partir des objectifs
Un sujet regroupe plusieurs objectifs métiers.
Pourquoi ?
◦ Pour identifier les sources de données;
◦ Pour délimiter le périmètre de l’entrepôt;
53
54
18
Une étape d’analyse métier qui permet de déterminer
comment les utilisateurs finaux vont interagir avec le
data warehouse
Une décomposition des objectifs métiers
55
Sujet : Distribution
Scénarios d’utilisation:
- Déterminer l’impact des condition météorologiques;
- Déterminer les goulots d'étranglement : facteurs ou contraintes limitant la
distribution
- Déterminer les facteurs de risque pour une politique de distribution
56
57
19
58
59
Exemple :
◦ Sujet = fait
◦ QMs= Mesures
Sujet Questions métiers
distribution Quel est le coût des
retards ?
60
20
Critères d’analyse des mesures ?
Exemple :
61
62
63
21
Le choix d’un schéma : étoile, flocon
64
Tables de dimension
◦ clé primaire (clé de substitution)
Tables de fait
◦ clé composite ou concaténée
clés étrangères des tables de dimension
utilisée dans les contraintes de jointure naturelle
65
22