Vous êtes sur la page 1sur 61

Système d’information Décisionnel

Chapitre 1 : Concepts de base

Dalel Ayed Lakhal

Année universitaire : 2020-2021


Objectifs du Cours : Data Warehouse

- L’étudiant(e) apprendra les concepts de base des data warehouses.


Le processus ETL (Extraction, Transformation & Loading) ainsi
que les techniques de nettoyage des données nécessaires pour la
construction
d’un DWH seront étudiés.

La représentation multidimensionnelle et le stockage des données sous


forme
de Cube de données seront aussi traités ainsi que les opérateurs
multidimensionnels
OLAP associés.

-La conception des DWH sera aussi abordée à travers l’étude des modèles
en étoile, en flocons et en constellation.

2
Plan

 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation

3
Contexte
 Besoin: prise de décisions stratégiques
 Pourquoi: besoin de réactivité / Améliorer les performances décisionnelles de
l’entreprise
 Qui: les décideurs (non informaticiens)
 Comment: répondre aux demandes d’analyse des données, dégager des
informations qualitatives nouvelles

Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre d’affaire a
clients?
baissé?

A combien
s’élèvent mes
ventes
journalières?

4
Les données utilisables par les
décideurs

 Données opérationnelles (de production)


 Bases de données (Oracle, SQL Server)
 Fichiers, …
 Paye, gestion des RH, gestion des commandes…

 Caractéristiques de ces données:


 Distribuées: systèmes éparpillés
 Hétérogènes: systèmes et structures de données différents
 Détaillées: organisation des données selon les processus fonctionnels,
données surabondantes pour l’analyse
 Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le
système transactionnel
 Volatiles: pas d’historisation systématique
5
Problématique
 Une grande masse de données :
» Distribuée
» Hétérogène
» Très Détaillée
 A traiter :
» Synthétiser / Résumer
» Visualiser
» Analyser
 Pour une utilisation par :
» des experts et des analystes d'un métier
» NON informaticiens
» NON statisticiens

6
Problématique

Inconvénient : Analyse de l ’activité par un non-informaticien


7
Problématique

 Besoin des entreprises (décideurs)


 accéder à toutes les données de l’entreprise
 regrouper les informations disséminées
 analyser et prendre des décisions rapidement (OLAP)

 Comment répondre aux demandes des décideurs?


 En donnant un accès rapide et simple à l’information
stratégique
 En donnant du sens aux données

8
Problématique
Prise de
décisions

Entrepôt de
données
un data
warehouse

 Mettre en place un système d’information dédié aux


applications décisionnelles :
un data warehouse
En Aval des bases de production
(ie bases opérationnelles)
9 En Amont des prises de décision
Comment faciliter la prise de décision ?

 Exploiter efficacement de grandes quantités


d’information
•utiliser les données produites par l'entreprise dans la gestion

quotidienne (BD existantes, applications de production, … )

• produire régulièrement des données nécessaires au


processus de décision (résumés, synthèses etc...)

• disposer d'outils d'analyse de données

10
Une des solutions : Construire et
Exploiter un DW

11
Raisons d’être d’un entrepôt de données

 Rassembler les données de l’entreprise dans un même lieu


sans surcharger les BD (systèmes opérationnels)
 Permettre un accès universel à diverses sources de données
et assurer la qualité des données
 Extraire, filtrer, et intégrer les informations pertinentes, à
l’avance, pour des requêtes ultérieures
 Dégager des connaissances et faire un apprentissage sur
l’entreprise, le marché et l’environnement

12
Le processus de prise de décision

Champs d’application des


systèmes décisionnels

Définir le Rassembler Analyser les Établir des Décider


problème les données données solutions

Temps de prise d’une décision :


enchaînement des phases

13
Le processus de prise de décision

Prise de
décision

Bases de Data Base multi - Prédiction /


production warehouse dimensionnelle simulation

14
Domaines d’utilisation des DW
 Banque : prime plus précise
 Santé : Risque alimentaire
 Commerce : Ciblage de clientèle, Déterminer des promotions
 Assurance : Risque lié à un contrat d’assurance (voiture)
 Logistique : Adéquation demande/production

 Grande distribution : marketing, maintenance, ...


 produits à succès, modes, habitudes d’achat
 préférences par secteurs géographiques
 Déterminer des promotions

 Télécommunications : pannes, fraudes, mobiles, ...


 classification des clients, détection fraudes
 …
15
Quelques métiers du décisionnel
 Strategic Performance Management
 Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
 Finance Intelligence
 Planifier, analyser et diffuser l’information financière. Mesurer et gérer
les risques
 Human Capital Management (gestion de la relation avec les employés)
 Aligner les stratégies RH, les processus et les technologies.
 Customer Relationship Management (gestion de la relation client)
 Améliorer la connaissance client, identifier et prévoir la rentabilité
client, accroitre l’efficacité du marketing client
 Supplier Relationship Management (gestion de la relation fournisseur)
 Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
stratégie Achat.
16
Besoins à l’origine des SI décisionnels
 Optimisation/automatisation de certaines activités :
exemples
 Optimisation des stocks, de la production, de la logistique
 Contrôle qualité, diagnostic de panne
 Octroi de crédits, risque client (banque, assurance)
 Détection de fraude (carte bancaire, télécoms)
 Marketing et gestion de la relation client (CRM)
 Analyse des ventes dans les grandes surfaces
 Utilisateurs de la partie décisionnelle du SI
 Direction de l’entreprise
 Responsables des différentes unités de l’entreprise
 Responsables marketing (stratégique et opérationnel)

17
Plan

 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation

18
Définition d’un DW

 W. H. Inmon (1996):
« Le data Warehouse est une collection de données
orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la
décision »

 Principe: mettre en place une base de données utilisée à des


fins d’analyse

19
Définition d'un data warehouse

" Un data warehouse est un référentiel (repository) de


données historiques orientées sujet et évolutives dans
le temps, utilisé pour l'extraction d'informations et
l'aide à la décision. Il peut contenir des données
atomiques et des données récapitulatives." - Oracle Data
Warehouse Method
Définition d’un DW
 Une base de données d’aide à la décision qui est
entretenue de manière séparée de la base de données
opérationnelle de l’organisation.
 Aide au traitement de l’information en fournissant une
plateforme de données historiques consolidées pour
l’analyse.
 Data warehousing : Le processus de construction et
d’utilisation du data warehouse

21
Les 4 caractéristiques des data
warehouse

1. Données orientées sujet:


 Regroupe les informations des différents métiers
 Ne tiens pas compte de l’organisation fonctionnelle des
données

Ass. Vie Ass. Auto Ass. Santé

Client
Police

22
Données orientées sujet :
 Organisées autour de sujets majeurs comme
consommateur, produit, ventes
 Données pour l’analyse et la modélisation en vue de l’aide
à la décision, et non pas pour les opérations et
transactions journalières
 Vue synthétique des données selon des sujets intéressant
les décideurs

23
Les 4 caractéristiques des data
warehouse

2. Données intégrées :
 Normalisation des données
 Définition d’un référentiel unique

h,f

1,0 h,f

homme, femme

D
EUR
CHF

24
USD
Données intégrées :
 Construit en intégrant des sources de données
multiples et hétérogènes
 BD relationnelles, fichiers, enregistrements de transactions
 Nettoyage et intégration des données
 Consistence dans les noms des champs, le codage des
données issues de plusieurs sources

 La conversion se fait quand les donnés sont transférées dans


le DW

25
Les 4 caractéristiques des data
warehouse

3. Données non volatiles


 Traçabilité des informations et des décisions prises
 Copie des données de production

Bases de production Entrepôts de données

Ajout
Suppression

Accès
Modification Chargement

26
Données non volatiles :
 Stockage indépendant des BD opérationnelles
 Pas de mises à jour des données dans le DW
 2 actions sur le DW
 Alimentation du DW à partir des données des BD opérationnelles
 Accès (lecture) de ces données

27
Les 4 caractéristiques des data
warehouse

4. Données datées
 Les données persistent dans le temps
 Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
Ali Paris Ali Marseille
Mohamed Lyon Mohamed Lyon

Calendrier Répertoire
Entrepôt Code Nom VilleVille
Code Année Mois Nom
de
1 2005 Mai 1 Dupont
Ali ParisParis
données
2 2006 Juillet 1 Durand LyonLyon
Mohamed
28
2 Ali Marseille
Données datées

 L’échelle de temps dans le DW est beaucoup plus


longue que dans les BD
 BD opérationnelle: valeur courante des données
 DW: information dans une perspective historique (ex: les 5
dernières années)
 Chaque structure dans le DW contient un élément
décrivant le temps

29
SGBD & Datawarehouse

 Basés sur deux systèmes différents :

• OLTP
• OLAP

30
OLTP
SGBD traditionnels « We are data rich … »

 applications commerciales

 importants volumes (Mo/Go)

 Fondements mathématiques

 processus transactionnels en ligne

(On-Line Transactional Processing)

Exemple : Le 15/01/2013 à 13h12, le client X


a retiré 500DT du compte Y
31
OLTP
(On Line Transaction Processing )

• Utilisé par les SGBD.


• Insérer, modifier, interroger rapidement.
• Accès par plusieurs utilisateurs.
• Faibles quantité d’informations.

32
Les Processus OLTP
Sont

• interactifs et concurrents
• nombreux
• répétitifs et structurés
• simples

Et concernent

• la mise à jour des données


• un nombre de tuples restreint
• des données détaillées et à jour

33
OLAP
« …but information poor »
Nourrir les systèmes d’aide à la décision (DSS) avec un
ensemble de BD
• Exploration et analyse de données historiques

• Énormes volumes de données (To)

• Processus analytiques en ligne

(On-Line Analytical Processing)

Exemple : Quel est le volume des ventes par produit et par


région durant le troisième trimestre de 2012?
34
OLAP
(On Line Analytical Processing )

• Utilisé par les Datawarehouse.


• Lecture seulement.
• Organiser des informations provenant de sources
diverses .
• Ordre de grandeur nettement supérieur à celle des
bases OLTP .

35
Les Processus OLAP
Sont

• interactifs et concurrents
• peu nombreux
• non prévisibles
• complexes

Et concernent

• l’exploration des données


• un nombre de tuples très important
• des données consolidées, synthétiques

36
SGBD et DW

Service Service Service


OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle

H
I
Data Warehouse S
T
OLAP: On-Line O
Analytical R
Clientèle I
Processing
Q
U
37 E
OLTP VS DW

OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long

38
Comparaison

Caractéristiques OLTP OLAP


Utilisation SGBD (base de Datawarehouse
production)
Opération typique Mise à jour Analyse
Type d'accès Lecture écriture Lecture
Niveau d'analyse Elémentaire Global
Quantité d'information Faible Importante
échangées
Orientation Ligne Multidimension
Taille BD Faible (max qq GB) Importante (pouvant aller
à plusieurs TB).
Ancienneté des données Récente Historique

39
1. OLTP et OLAP
Reports
&
Appli.
Appli. OLAP Analysis
Appli.

ETL
DW
OLTP

DM Aide à
la décision

40
Séparation physique

Il est important de séparer les bases de


production (SGBD) du datawarehouse :

• Performances.
• Conservation de données.
• Systèmes de production différents.

41
Pourquoi dissocier une BD d’un ED?

 Les objectifs de performances dans les BD ne sont pas les


mêmes que ceux dans les EDs :
 BD : requêtes simples, méthodes d’accès et d’indexation
 ED : requêtes OLAP souvent complexes!!!
 La nécessité de combiner des données provenant de
diverses sources, d’effectuer des agrégations dans un ED et
d’offrir des vues multidimensionnelles
 Les données d’un ED sont souvent non volatiles et ont
donc une plus longue durée de vie que celles d’une BD

42
43
44
Facteurs de succès d’un DW
Voici les caractéristiques le plus souvent associées à la
réussite d’un DW :
 Des objectifs de progrès clairs
 Des informations homogènes et consolidées
 Des informations utiles
 La garantie de la qualité des données (cohérentes, à jour,
documentées)
 Un accès direct pour les utilisateurs

45
Plan

 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation

46
Datamart - Magasin de données

 Sous-ensemble d’un entrepôt de données


 Destiné à répondre aux besoins d’un secteur ou d’une
fonction particulière de l’entreprise
 Point de vue spécifique selon des critères métiers

Datamarts du
service Marketing

Datamart du
DW de l’entreprise service Ressources
Humaines
47
Intérêt des datamart

 Nouvel environnement structuré et formaté en fonction


des besoins d’un métier ou d’un usage particulier

 Moins de données que DW


 Plus facile à comprendre, à manipuler
 Amélioration des temps de réponse

 Utilisateurs plus ciblés: DM plus facile à définir

48
Datamart - Magasin de données

 Entrepôt de données (ED) ou Datawarehouse :


Système d’information agrégeant des données
non volatiles et historisées, dans un but d’aide à
la décision.
 Datamart : ED spécialisé « métier », ou ED
partiel

49
Entrepôts et Data Marts

50
Comparaison entre data warehouse et Datamart

Propriété Data Warehouse Datamart


Portée Entreprise Département
Sujets Multiple Sujet unique,
professionnel

Source de données Nombreuses Peu nombreuses


Taille (typique) 100 Go à > 1 To < 100 Go
Temps Mois à années Mois
d'implémentation

Data Datamart
warehouse
Entrepôts et Data Marts

52
Plan

 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation

53
Architecture générale

Zone de
Zone de préparation Zone de stockage présentation

E
X
C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
T Standardisation Visualisation
E
I … Data Mining
M
O …
E
N
N
Sources de Datamart
T
données

54
Architecture générale

55
Architecture Fonctionnelle d’un DWH

56
Architecture Fonctionnelle d’un DWH :les
composants

57
Structure générale des données dans le DWH

58
Structure générale des données dans le DWH

59
Les flux de données

 Flux entrant
 Extraction: multi-source, hétérogène
 Transformation : filtrer, trier, homogénéiser, nettoyer
 Chargement : insertion des données dans l’entrepôt
 Flux sortant :
 Mise à disposition des données pour les utilisateurs finaux

60
Les différentes zones de l’architecture

 Zone de préparation (Staging area)


 Zone temporaire de stockage des données extraites
 Réalisation des transformations avant l’insertion dans le DW:
 Nettoyage
 Normalisation…
 Données souvent détruites après chargement dans le DW
 Zone de stockage (DW, DM)
 On y transfère les données nettoyées
 Stockage permanent des données
 Zone de présentation
 Donne accès aux données contenues dans le DW
 Peut contenir des outils d’analyse programmés:
 Rapports
 Requêtes…
61

Vous aimerez peut-être aussi