Académique Documents
Professionnel Documents
Culture Documents
Professeur à l’USTHB
• Emails
Email de l’USTHB : kboukhalfa@usthb.dz
Kamelboukhalfa@yahoo.fr
CV
Production scientifique
Dr. Kamel Boukhalfa
Téléchargement de cours
Boukhalk@gmail.com
1 LES ENTREPOTS DE DONNEES - Data Warehouse
Domaines de Recherches Plan
Entrepôts de données
Optimisation de la couche physique, Fragmentation Horizontale, Les entrepôts de données
Indexation, Tuning
LES ENTREPOTS DE DONNEES - Data Warehouse LES ENTREPOTS DE DONNEES - Data Warehouse 2
Le contexte Les données utilisables par les décideurs
Besoin: prise de décisions stratégiques et tactiques Données opérationnelles (de production)
Pourquoi: besoin de réactivité
– Bases de données (Oracle, SQL Server)
Qui: les décideurs (non informaticiens)
– Fichiers, …
Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles
– Paye, gestion des RH, gestion des commandes…
LES ENTREPOTS DE DONNEES - Data Warehouse 5 LES ENTREPOTS DE DONNEES - Data Warehouse 6
Problématique Le processus de prise de décision
Champs d’application des
• Comment répondre aux demandes des décideurs? systèmes décisionnels
– En donnant un accès rapide et simple à l’information
stratégique
Un Data Warehouse
LES ENTREPOTS DE DONNEES - Data Warehouse 7 LES ENTREPOTS DE DONNEES - Data Warehouse 8
Introduction Introduction
Pourquoi le data warehouse ? Raisons d’être d’un entrepôt de données
Améliorer les performances décisionnelles de l’entreprise • Rassembler les données de l’entreprise dans un même lieu
Comment? sans surcharger les BD (systèmes opérationnels)
Clientèle: Qui sont mes clients? Pourquoi sont-ils mes clients?, Comment les • Extraire, filtrer, et intégrer les informations pertinentes, à
conserver ou les faire revenir (préférence d’achat, habitudes, …)? Ces clients l’avance, pour des requêtes ultérieures
sont-ils vraiment intéressants pour moi?
Marketing, actions commerciales: où placer ce produit dans les rayons? • Dégager des connaissances et faire un apprentissage sur
Comment cibler plus précisément le mailing concernant ce produit? l’entreprise, le marché et l’environnement
LES ENTREPOTS DE DONNEES - Data Warehouse 9 LES ENTREPOTS DE DONNEES - Data Warehouse 10
C’est quoi un entrepôt de données? Les 4 caractéristiques des data warehouse
Industrie (Inmon 1992)
1. Données orientées sujet:
• Collection de données orientées sujets
– Regroupe les informations des différents métiers
• Consolidées dans une base de données unique
• Non volatiles et historisées variant dans le temps – Ne tiens pas compte de l’organisation fonctionnelle
Sujets
Client
LES ENTREPOTS DE DONNEES - Data Warehouse 11 LES ENTREPOTS DE DONNEES - Data Warehouse 12
Les 4 caractéristiques des data warehouse Intégration de données
2. Données intégrées:
– Normalisation des données
– Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD
LES ENTREPOTS DE DONNEES - Data Warehouse 13 LES ENTREPOTS DE DONNEES - Data Warehouse 14
Les 4 caractéristiques des data warehouse Les 4 caractéristiques des data warehouse
Inconvénients
LES ENTREPOTS DE DONNEES - Data Warehouse 19 LES ENTREPOTS DE DONNEES - Data Warehouse 20
Architecture générale Les flux de données
• Flux entrant
Zone de
Zone de préparation Zone de stockage présentation
– Extraction: multi-source, hétérogène
C
E H – Transformation: filtrer, trier, homogénéiser, nettoyer
X
A
T Transformations: Requêtes
R Data – Chargement: insertion des données dans l’entrepôt
R Nettoyage Rapports
A G warehouse
Standardisation Visualisation
C E
… Data Mining
T M
…
• Flux sortant
I E
O N
N T
Datamart – Mise à disposition des données pour les utilisateurs finaux
Sources de
données
LES ENTREPOTS DE DONNEES - Data Warehouse 21 LES ENTREPOTS DE DONNEES - Data Warehouse 22
Les différentes zones de l’architecture Exploitation de l’entrepôt
• Zone de préparation (Staging area)
Business Intelligence:
– Zone temporaire de stockage des données extraites
• Requêtes…
LES ENTREPOTS DE DONNEES - Data Warehouse 23 LES ENTREPOTS DE DONNEES - Data Warehouse 24
Architecture d’un entrepôt de données Domaines d’applications
Souvent une architecture trois-tiers Banque, Assurance
• Serveur d’entrepôt (“Warehouse Database Server”) • Détermination des profils client (prêt, …)
• Très souvent un système relationnel (ex. Oracle) Commerce
• Ciblage de clientèle
• Serveur OLAP (“OLAP Server”) de type ROLAP,
MOLAP, ou HOLAP • Compagnies de grande production
• Aménagement des rayons (2 produits en corrélation)
• Clients
• Outils de requêtes et de production de rapports Compagnies téléphoniques
• Outils d’analyse et de prospection de données Santé
LES ENTREPOTS DE DONNEES - Data Warehouse 25 LES ENTREPOTS DE DONNEES - Data Warehouse 26
Base de données vs. Entrepôt de donnée SGBD et DW
H
I
La nécessité de combiner des données provenant de diverses sources, d’effectuer Data Warehouse S
T
des agrégations dans un ED et d’offrir des vues multidimensionnelles OLAP: On-Line O
R
Analitical Clientèle I
Les données d’un ED sont souvent non volatiles et ont donc une plus longue Processing Q
U
durée de vie que celles d’une BD E
LES ENTREPOTS DE DONNEES - Data Warehouse 27 LES ENTREPOTS DE DONNEES - Data Warehouse 28
OLTP VS DW Cycle de vie de l’entrepôt de données
OLTP DW
Orienté transaction Orienté analyse ANALYSE
LES ENTREPOTS DE DONNEES - Data Warehouse 29 LES ENTREPOTS DE DONNEES - Data Warehouse 30
Cycle de vie Cycle de vie
Spécification des besoins Analyse
• Développer le schéma de l’entrepôt
• Rassembler clairement et fidèlement les besoins des
• Définir les processus nécessaires à la mise en place de l’entrepôt
utilisateurs (décideurs) (extraction de données à partir des sources, transformations)
Déploiement
Des outils d’intégration des données des BD
vers l’ED
• Fournir une installation initiale incluant la connexion aux données
sources, la synchronisation et la réplication de données
Le critère temps Quelles sont les composantes des machines de production ayant eu le plus
LES ENTREPOTS DE DONNEES - Data Warehouse 35 LES ENTREPOTS DE DONNEES - Data Warehouse 37
Récapitulatif OLAP
Base de données Entrepôt de données
Traitement analytique interactif (Codd) typique
Opération Gestion courante Support à la décision
dans les systèmes informationnels
Modèle Entité association Etoile, flocon de neige
LES ENTREPOTS DE DONNEES - Data Warehouse 38 LES ENTREPOTS DE DONNEES - Data Warehouse 39
Modélisation Multidimensionnelle Hyper cube OLAP
Dimension: Objectifs
• Présente le point de vue selon lequel on veut voir le données • Obtenir des informations déjà agrégées selon les
décrites par un ensemble d’attributs· Axe de l’analyse besoins des utilisateurs
• Exemple: Commandes, achats, réclamations, produits, clients,... • Représentation de l’information dans un hyper
cube à N dimensions
Mesures/faits
• Fonction numérique qui peut être évaluée en tout point du data Opérations OLAP
cube en agrégeant les données correspondant à ce point • Fonctionnalités qui servent à faciliter l’analyse
multidimensionnelles: opérations réalisables sur l’hyper cube
• Mesure d’activité (critère d’analyse)
• Exemple: Chiffre d’affaire, nombre de ventes, gain
LES ENTREPOTS DE DONNEES - Data Warehouse 40 LES ENTREPOTS DE DONNEES - Data Warehouse 41
Exemple d’un cube de données Vue multidimensionnelle des données
Le volume des ventes (mesure) en fonction de : Produit, Temp et
Localisation (Dimension)
Dimensions: Produit, Région, Temps
Pays Année
Région Trimestre
Ville Mois
Local Jour
LES ENTREPOTS DE DONNEES - Data Warehouse 42 LES ENTREPOTS DE DONNEES - Data Warehouse 43
Comment stocker le cube de données Modèle ROLAP
ROLAP: Relational On-Line Analytical Processing Exploiter l’expérience des modèles relationnels
• Les données sont stockées comme des tables relationnelles: (un grand succès!!)
une table de faits et des tables de dimension
Il faut des modèles bien adaptés aux ED!
MOLAP: Multidimensional On-Line Analytical
• Schéma en étoile (star schema)
Processing
• Schéma en flocon de neige (snowflake schema)
• le cube de données est stocké sous forme d’un tableau multi-
dimensionnel. • Schéma en constellation
LES ENTREPOTS DE DONNEES - Data Warehouse 44 LES ENTREPOTS DE DONNEES - Data Warehouse 45
Modèle en étoile Schéma en étoile
Table de dimension
Autant de tables de dimension qu’il existe de
Table de dimension
Temps Produit
CID
dimension et des mesures Nom
100 000 000 n-uplets
MID
Nom
Genre Ville
• Exemple Ville Adresse
Age
o Montant en dollars, nombre d’unités vendues 3 000 000 n-uplets 500 n-uplets
LES ENTREPOTS DE DONNEES - Data Warehouse 46 LES ENTREPOTS DE DONNEES - Data Warehouse 47
Requête type Avantages & Inconvénients
Requête de Jointure en étoile :
SELECT P.Marque, sum(dollars_sold),
sum(units_sold)
+ Simple
FROM Ventes V, PRODUIT P, TEMPS T
WHERE V.PID = P.PID (Jointure)
AND V.TID = T.TID (Jointure) + Le plus utilisé !!!
AND T.Trimestre = ‘T1’ (Sélection) PRODUIT
GROUP BY P.Marque PID
ORDER BY P.Marque Description
Marque
TEMPS
VENTES
Catégorie
Type_Paquet
- Possibilité de redondance car les tables de
TID
Jour
TID
PID
300000 tuples dimension ne sont pas nécessairement
Requêtes de jointure en étoile
• Plusieurs jointures
Mois
Trimestre
MID
Dollars_sold
MAGASIN
MID
normalisées
Année Units_sold
Nom
• Suivies par des sélection 1094 tuples Ville
100000000 tuples Adresse
1200 tuples - Taille de dimensions plus grosse
LES ENTREPOTS DE DONNEES - Data Warehouse 48 LES ENTREPOTS DE DONNEES - Data Warehouse 49
Modèle en flocon de neige Exemple d’un modèle en flocon de neige
Hiérarchie de dimension
LES ENTREPOTS DE DONNEES - Data Warehouse 50 LES ENTREPOTS DE DONNEES - Data Warehouse 51
Définition d’un schéma en étoile avec DMDL Définition d’un schéma snowflake avec DMQL
define cube ventes_star [Temps, Produit, Client]
define cube ventes_snowflake [temps, item, branche, lieu]
Montant_vente = sum(somme),
Montant_vente = sum(somme), Mesures
moyenne_vente = avg(somme), Mesures
unités_vendues = count(*) Dimensions
moyenne_vente = avg(somme),
Dimensions define dimension item as (Id_item, nom_item, marque, type,
unités_vendues = count(*) fournisseur(Id_fournisseur, type_fournisseur))
LES ENTREPOTS DE DONNEES - Data Warehouse 52 LES ENTREPOTS DE DONNEES - Data Warehouse 53
MOLAP: Représentation Tableaux ROLAP vs. MOLAP
Avantages Inconvénients
Temps Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4 Total
Produit Ville P N Total P N Total P N Total P N Total P N Total Standard bien établi
Absence de vue conceptuelle
TV LCD 12 34 46 22 36 58 24 37 61 33 55 88 91 162 253 Efficace pour le transactionnel
ROLAP SQL peut être inadéquat pour
Lecteur DVD 29 66 95 44 50 94 56 55 111 44 39 83 173 210 383 Capacité d’expansion (téra-
la formation de tableaux croisés
Caméoscope 55 34 89 69 27 96 31 26 57 68 70 138 223 157 380
octet)
Total 96 134 230 135 113 248 111 118 229 145 114 309 487 529 1016
Inadéquat pour le
transactionnel
Implémentation souvent plus
Répartition des ventes par produit, temps et ville MOLAP Capacité d’expansion limitée
performante que ROLAP
P : Poitiers, N : Nantes (dizaine de géga-octet)
Absence de standard
LES ENTREPOTS DE DONNEES - Data Warehouse 54 LES ENTREPOTS DE DONNEES - Data Warehouse 55
Serveurs ROLAP [Microstrategy] Serveurs MOLAP
LES ENTREPOTS DE DONNEES - Data Warehouse 56 LES ENTREPOTS DE DONNEES - Data Warehouse 57
Hybrid OLAP Opérations de base OLAP
LES ENTREPOTS DE DONNEES - Data Warehouse 58 LES ENTREPOTS DE DONNEES - Data Warehouse 59
Navigation dans un cube Opérations multidimensionnelles
Exemples
Temps: jours/mois/trimestres/années
Géographie: ville/région/pays
LES ENTREPOTS DE DONNEES - Data Warehouse 60 LES ENTREPOTS DE DONNEES - Data Warehouse 61
ROLL-UP Slice & dice
Agrégation des mesures en allant d’un niveau particulier de la hiérarchie
vers un niveau plus général Slice et dice
Exemples projection et sélection du modèle relationnel
Ayant le total des ventes par ville, ROLL-UP permet de donner le total
des ventes par âys
Pivot (rotate)
SELECT ...
Réoriente le cube pour visualisation
GROUP BY
ROLLUP(Grouping-column-reference_list)