Vous êtes sur la page 1sur 7

06/03/2021

I. Introduction et définition d’un entrepôt de


données
II. Modélisation conceptuelle d'un entrepôt de
données
III. Les agrégats
Mastère Recherche Génie Logiciel IV. Architecture
Enseignant : Mariem Gzara V. Implémentation d’un entrepôt de données
Institut Supérieur d’Informatique et de Mathématique de Monastir VI. Analyse multidimensionnelle et cubes de
2020-2021
données

 Le besoin d’entrepôts de données


 Définition d’un entrepôt de données
 Entrepôt de données versus bases de
données opérationnelles
 Processus général de construction et
d’exploitation d’un entrepôt

1
06/03/2021

Besoin: prise de décisions stratégiques et tactiques


Les données utilisables par les décideurs

 Comment: répondre aux demandes d’analyse des données,  Données opérationnelles (de production)
◦ Bases de données (Oracle, SQL Server)
dégager des informations qualitatives nouvelles
◦ Fichiers, …
◦ Paye, gestion des RH, gestion des commandes…
Pourquoi et
Qui sont mes
meilleurs
comment le  Caractéristiques de ces données:
clients?
chiffre ◦ Distribuées: systèmes éparpillés
d’affaire a
◦ Hétérogènes: systèmes et structures de données
baissé?
différents
◦ Détaillées: organisation des données selon les processus
A combien fonctionnels, données surabondantes pour l’analyse
Quels tunisiens s’élèvent mes ◦ Peu/pas adaptées à l’analyse : les requêtes lourdes
consomment
beaucoup de
ventes peuvent bloquer le système transactionnel
poisson?
journalières? ◦ Volatiles: pas d’historisation systématique

5 6

 Les ED sont devenus depuis les années 90


indispensables à la prise de décision dans les
Problématique
entreprises
 Comment répondre aux demandes des décideurs?
 Le marché pour ces produits et les services
◦ En donnant un accès rapide et simple à l’information
stratégique autour de leurs technologies est en pleine
◦ En donnant du sens aux données
croissance
 Des ED ont été mis en place avec succès dans
Mettre en place un système d’information dédié aux divers secteurs comme :
applications décisionnelles: ◦ la distribution, les assurances, le commerce, les
services financiers, la fabrication, le transport, les
un data warehouse télécommunications, la médecine, les universités, le
commerce électronique, etc…

7 8

2
06/03/2021

 Dans une entreprise, le concept « d’entrepôt »


surgit à partir des besoins d'analyse de données Définition de Inmon (1992) :
pour chercher des avantages compétitifs sur la «L’entrepôt de données (ED) est une collection de données
thématiques, intégrées, non volatiles et historiées, organisées pour
concurrence le support d'un processus d'aide à la décision»
 Les bases de données existantes, BD
opérationnelles, de type On Line transaction Principe: mettre en place une base de données utilisée à des fins
d’analyse
Processing - OLTP, conçues pour une fonction
spécifique de l’entreprise, ne sont pas
appropriées comme support à ces analyses Caractéristiques des données d’un entrepôt :
 Les données pertinentes pour ces analyses sont Orientées sujet, Intégrées, Historiées, Non-volatiles

disséminées sur diverses bases de données OLTP

9 10

1. Données orientées sujet: Données intégrées:


un ED rassemble et organise des données associées Les données résultent de l’intégration de données
aux différentes structures fonctionnelles de provenant de différentes sources pouvant être
l’entreprise, pertinentes pour un sujet ou thème et hétérogènes
nécessaire aux besoins d’analyse
h,f

1, h,f
Ass. Vie Ass. Auto Ass. Santé
0
Client homme,
femme
Police GBP
EUR
CHF

USD
11 12

3
06/03/2021

Données non volatiles Historiées /


 Traçabilité des informations et des décisions prises  Les données d’un ED représentent l’activité d’une entreprise durant
 Copie des données de production une certaine période (plusieurs années) permettant d’analyser les
 Les données de l’ED sont essentiellement utilisées en interrogation variations d’une donnée dans le temps
(consultation) et ne peuvent pas être modifiées (sauf certain cas de  Les données persistent dans le temps
rafraîchissement).  Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Bases de production Entrepôts de données Répertoire Répertoire
Base de Nom Ville Nom Ville
Ajout production Dupont Paris Dupont Marseille

Suppression Durand Lyon Durand Lyon

Répertoire
Accès Calendrier

Entrepôt
Code Année Mois Code
Code Nom
Nom Mois
Ville
Modification Chargement de données Code
1 Année
2005 Mois
Mai 1
1 Dupont
Dupont Paris
Paris
1 2005 Mai
1
1 Durand
Durand Lyon
Lyon
2 2006 Juillet
13
2 Dupont Marseille 14

Collecte
Bases de Stockage et Analyse
Données gestion

Objectifs d’un entrepôt de données Extraction OLAP


Entrepôt de Systèmes
 L’entrepôt de données doit rendre les données
Transformation Fouille de données
Chargement données Visualisations Décisionnels
de l’organisation facilement accessibles Sources
Externes
 L’entrepôt de données doit présenter
l’information de manière cohérente  Entreposage des données : avant d’être chargées dans l’entrepôt, les
données sélectionnées doivent être :
 L’entrepôt de données doit être adaptable et ◦ extraites des sources (internes : BD opérationnelles, externes : BD et
résistant aux changements fichiers notamment issus du Web)
◦ soigneusement épurées afin d’éliminer des erreurs et réconcilier les
 L’entrepôt de données doit être un bastion sûr
différentes sémantiques associées aux sources)
protégeant notre richesse informationnelle  Exploitation des données de l’ED : systèmes décisionnels
 L’acceptation de l’entrepôt de données par la A partir des données d’un ED diverses analyses peuvent être faites,
notamment par des techniques « On-Line Analitical processing » (OLAP) ou
communauté des utilisateurs est l’une des de fouille de données (Data Mining) et de visualisation.
conditions de réussite
15 16

4
06/03/2021

BD opérationnelles Entrepôt de données


Niveau de détail des Très détaillé Données agrégées,
informations métadonnées

Service Homogénéité des Informations Information pas


Service Service
Financier informations homogènes nécessairement homogènes.
OLTP: On-Line commercial livraison Une intégration de données
Transactional BD prod BD prod BD prod souvent nécessaire
Processing Fonctions de l’entreprise Données organisées Données orientées sujet
Clientèle concernées par les par processus
données fonctionnel
Comparaison de données Non : Archivage ou Oui : Données non volatiles,
H sur plusieurs années mise à jour des données historiées
I données
Data Warehouse S Clients Utilisateurs nombreux, Utilisateurs peu nombreux,
T administrateurs/opérat manager
ionnels
OLAP: On-Line O
Analitical R Temps de réponse Temps d’exécution: Temps d’exécution: long
Clientèle I court
Processing
Q Opérations réalisées sur Consultation, mais Consultation de données
U les données surtout mise à jour et uniquement
E ajout de données
17 18

Domaine bancaire : un des premiers utilisateurs des ED


Les domaines privilégiés : Pour une banque, il est important de pouvoir regrouper les
 Domaine bancaire informations relatives à un client afin de répondre à ses
demandes de crédit par exemple
 Domaine de la grande distribution
Des mailing ciblés doivent aussi être rapidement élaborés à
 Domaine des télécommunications

partir de toutes les informations disponibles sur un client lors de
la commercialisation d’un nouveau produit
 Domaines de l’assurance et de la pharmacie
 Domaine de la santé, …  L’utilisation de cartes de crédit nécessite des contrôles à
posteriori, par exemple pour la recherche de fraudes : la
« Succes stories »: mémorisation des mouvements peut rendre de grands services

 Walmart, Camaieu, …  Les échanges d’actions et de conseils de courtages sont facilités


par une mémorisation de l’histoire et une exploitation par des
 FranceTélécom, … outils décisionnels avancés par exemple pour déterminer des
tendances de marchés

19 20

5
06/03/2021

Domaine de la grande distribution fortement demandeur d’ED : Domaine très concurrentiel des télécommunications utilise
beaucoup les ED
intéressant de regrouper les informations de ventes pour déterminer les
 grande masse de données concernant les abonnés et les appels

produits à succès, mieux suivre les modes, détecter les habitudes d’achats,
les préférences des clients par secteur géographique
est enregistrée
 Plusieurs mois de description détaillée des appels comprenant,
La fouille de données (data mining) a permis de développer des techniques

pour chaque appel appelant, appelé, heure et durée sont
sophistiquées d’exploitation de données qui aident à mettre en évidence les disponibles chez les opérateurs
règles de consommation
En respectant les lois de sécurité et liberté, que peut-on faire de
 Explorer le panier de la ménagère est devenu un exercice d’école : il s’agit de telles données ?
trouver à partir de l’enregistrement des transactions quelles sont les
Couplées ou non avec des informations comptables,
habitudes d’achats, plus précisément quels sont les produits achetés en l’exploitation de ces données regroupées en ED par des
même temps techniques d’analyse et d’exploration permet :
 Apports constatés dans la grande distribution : ◦ D’analyser le trafic
◦ augmentation des ventes grâce à un meilleur marketing ◦ De mieux cerner les besoins des clients,
◦ amélioration des taux de rotation de stocks ◦ De classer les clients par catégories,
◦ De comprendre pourquoi certains changent d’opérateurs et mieux
◦ élimination des produits obsolètes
◦ répondre à leur besoins
◦ réduction des rabais, remises, ristournes
◦ meilleure négociation des achats
21 22

Exemple du groupe Casino :


Les domaines de l’assurance et de la pharmacie

 Projet :
sont aussi friands de techniques décisionnelle 

un des premiers entrepôts en France
plusieurs millions de dollars économisés en s’apercevant que les stocks de coca-
◦ L’exercice de base de l’assureur est de déterminer le cola faisaient souvent défaut...
 1994 : 80 Go et 50 utilisateurs
facteur de risque d’un assuré  2002 : + de 10 To, 1500 utilisateurs, 25000 requêtes/jour
 Celui d’un producteur pharmaceutique est de Solution : Teradata

détecter l’impact d’un médicament  Exemple du groupe Walmart :


Projet :
◦ Plus généralement, le suivi des informations relatives à  le plus gros entrepôt de données du monde, en 2006 : 0.5 Po de données
la liaison produit-client sur un ED est souvent synonyme  distributeurs, magasins, clients (> 108 ), produits (> 109 )...
un des plus secret également...
de gains importants : meilleure connaissance des 
Solution : Teradata
produits, détection des défauts, meilleure connaissance
des clients, détection de rejets, ciblage du marketing, Wal-Mart, for example, discovered that people who buy Pampers often buy beer,
so they moved Pampers and beer close together. The result was that sales of both
etc increased (Computer Business Review, October 1996).

23 24

6
06/03/2021

Exemple du groupe Camaieu:


Exemple de France Télécom :
Projet :
Le projet :
 plusieurs systèmes de production (magasin, logistique,
comptable, etc.)  12 BD sources
Solution :  récupération des données : 1,5 année
 1996 : agrégés dans un entrepôt de données, via l’ETL Sunopsis  données régionales et nationales
 base Oracle découpée en référentiels métier (datamarts achat,  parfois chez des prestataires de services
marketing...)  en 2003 : environ 5 années de travail
 consultation des datamarts via le système de reporting de Solution :
Business Objects  entreposage : SQL server
 2003 : ajout d'un cube OLAP intégré à la base relationnelle  DW de 3 bimestres, vidé périodiquement
Oracle9i :  1,2 million d’individus
◦ meilleure ergonomie,
 1 fait = 1 client
◦ permet des requêtes complexes avec prise en compte de plusieurs niveaux
au sein de la BD (types d'articles, collections, produits, zones  250 colonnes
géographiques, …)  intégration faite à la main périodiquement
◦ base de composants Java (BI Beans) livrée par l'éditeur au sein de son Exploitation : progiciel de DM développé spécifiquement
environnement de développement (JDeveloper).

25 26

Processus en 3 phases :
 Phase 1: Construction de la base de données
décisionnelle
◦ Modélisation conceptuelle des données multiformes et
multisources
◦ Alimentation de l’entrepôt (extraire, nettoyer, transformer,
charger)
◦ Stockage physique des données
 Sélection des données à analyser :
◦ Besoins d’analyse de l’utilisateur
◦ Data mart
◦ Cubes multidimensionnels
◦ Tableaux ou tables bidimensionnels
 Analyse des données :
◦ Stastiques et reporting, OLAP, Data Mining

27 28

Vous aimerez peut-être aussi