Vous êtes sur la page 1sur 40

28/01/2019

Introduction aux Systèmes


d'Information Décisionnels

Omar(Boussaid 2019
Janvier(2019

Plan :

1. Généralités
1.1. Les systèmes d’information décisionnels
1.2. Les différentes phases du processus décisionnel

2. Modélisation des entrepôts de données


2.1. Modèles en étoile
2.2. Modèles en flocons de neige
2.3. Modèles en étoile en constellation
2.4. Représentation des données
2.5. Les différentes approches (ROLAP, MOLAP, HOLAP)
2.6. Alimentation des entrepôts de données

3. L'analyse en ligne (OLAP)


3.1. Approche OLTP contre Approche OLAP
3.2. L’analyse en ligne : principes
3.3. Les magasins et les cubes de données
3.5. Les différentes opérations d'OLAP

1
28/01/2019

" Le décisionnel ?
Les entreprises passent à l'ère de l'information.

! Défi : Transformer leur système d'information


qui avait une vocation de production en un SI
décisionnel dont la vocation de pilotage devient
majeure.

Les Systèmes d’informations Décisionnels

! Système de production

" Transaction fréquentes des données sous forme de modifications


(Écriture/Lecture)

" Les systèmes de production (OLTP) garantissent la cohérence des données

" Les systèmes de production sont conçus pour les tâches répétitives et
planifiées

2
28/01/2019

Les Systèmes d’informations Décisionnels

• Un système d'information décisionnel est un ensemble de


données organisé de façon spécifique, approprié à la prise de
décision.

• Connaître l'environnement dans lequel on évolue

• Finalité d'un système décisionnel : pilotage de l'entreprise

Outils :
Data warehouses
(Entrepôt de données)

OLAP
(Analyse en ligne)

Système d'Info. de Production


Système d'Info. Décisionnel
Orientation : Gestion
Flux de
données Orientation :
Pilotage
externes

BD
Fournisseurs BD
Clients

BD
Compta

Entrepôt de
BD Données
DRH

BD
Magasins

BD
Marketing
Flux de BD
données Produits
externes

3
28/01/2019

Les Systèmes d’informations Décisionnels

Les bases de production : toutes les sources de données


(légales, juridiques, fiscales, politiques, techniques, marketing…)

Comment organiser ces différentes données dans un


ensemble cohérent afin de procéder à toutes les analyses
nécessaires pour construire les indicateurs
indispensables au pilotage de l'entreprise ?

Par un processus d'entreposage de données

Entreposage de données
(Data Warehousing)

Les Systèmes d’informations Décisionnels

! Qu'est ce qu'un Entrepôt de Données ?


D'après BILL Inmon :

“Un ED est une collection de données thématiques, intégrées,


non volatiles et historisées, organisées pour la prise de décision.”

Thématiques : thèmes par activités majeures ;


Intégrées : divers sources de données ;
Non volatiles : ne pas supprimer les données de l’ED ;
Historisées : trace des données, suivre l'évolution des indicateurs.

Pb de volumétrie, de stockage, d'accès.

4
28/01/2019

Les Systèmes d’informations Décisionnels


! Architecture d’un SID

Data Mining
Entrepôt de données

E
Méta
T donnée OLAP
s
L Analyses
statistiques

Data Marts

Bases
de
production

OLAP Reporting

Administrateur

Les Systèmes d’informations Décisionnels


! Architecture d’un SID
Les différentes phases
Phase ETL Phase Structuration Phase OLAP

Entrepôt de données

E Méta
OLAP
donnée Data Mining
T s
L
Analyses
Data Marts statistiques
Bases
de
production

OLAP Reporting
Administrateur

5
28/01/2019

Les Systèmes d’informations Décisionnels


" Architecture)d’un)SID
Les différentes phases

Phase ETL Phase Structuration Phase OLAP

! Extraction ! Conception ! Analyse


! Transformation ! Modélisation ! Restitution
! Alimentation ! Structuration ! Administration
! Administration ! Administration

Les Systèmes d’informations Décisionnels

! Qu'est ce que l'Entreposage des données ?


Les 3 phases :

" Structuration et Stockage

" ETL

" Analyse & Restitution

6
28/01/2019

Les Systèmes d’informations Décisionnels

! Conception

Il s'agit de définir la finalité de l'ED :

! Piloter quelle activité de l'entreprise ;


! Déterminer et recenser les données à entreposer ;
! Définir les aspects techniques de la réalisation ;
! Construire les modèles de données ;
! Mettre au point les démarches d'alimentation (ETL) ;
! Définir les stratégies d'administration ;
! Définir des espaces d'analyse ;
! Définir le mode de restitution…

Les Systèmes d’informations Décisionnels

# E. T. L.
Travail technique.
! Extraction des données des différentes BD de production
(internes ou externes)

! Nettoyage des données, règles d'homogénéisation des données


sous formes de métadonnées.

! Techniques d'alimentation :
! Chargement des données dans l'ED
! Fréquences de rafraîchissement :
" par applications d' interfaces entre les sources de données et l'ED
" par serveurs de réplication du SGBD ou par outils spécialisés

7
28/01/2019

Les Systèmes d’informations Décisionnels

! Analyse et Restitution

! C'est le but du processus d'entreposage des données.

! Elle conditionne le choix de l'architecture de l'ED et de sa construction.

! Elle doit permettre toutes la analyses nécessaires pour la construction des


indicateurs recherchés.

Les Systèmes d’informations Décisionnels

! Administration
Elle est constituée de plusieurs tâches pour assurer :

! la qualité et la pérennité des données aux différents applicatifs ;


! la maintenance ;
! la gestion des configurations ;
! les mises à jour ;
! l'organisation, l'optimisation du SI ;
! la mise en sécurité du SI.

8
28/01/2019

Les Systèmes d’informations Décisionnels

Proportions)de)la)charge)du)projet)décisionnel

Fabriquer 15%

Alimenter 50%

Administrer 15%

Restituer 20%

MODELISATION

9
28/01/2019

! Modélisation des ED : Le modèle en étoile

PRODUIT
COMMANDE Code produit
N Cde Nom Produit
Date Cde Description Produit
TABLE DE FAITS Catégorie
Description catégorie
CLIENT N Cde Prix unitaire
N Client N Client DATE
Nom Client Code vendeur Clef date
Adresse Client Code produit Date
Ville Clef date
Mois
Nom Ville
Année
VENDEUR
Quantité
Code vendeur Prix total
Nom Vendeur VILLE
Ville Vendeur Nom Ville
Quota Région
Pays

" Modélisation des ED : Le modèle en étoile


! Schéma en étoile

Dim$TEMPS
Temps_ID Dim$PRODUIT
Dim$MAGASIN Jour
Mois Produit_ID
Magasin_ID Désignation_P
Année
Enseigne … Description_P
Type Catégorie
Superficie Description_C
Ville Prix=unitaire
… Fournisseur
Fait VENTES Conditionnement

Dim$REGION
Dim$CLIENT
Région_ID Client_ID
Région Qté vendue Nom_C
Pays Montant_Ventes Adresse_C
… Tph_C
Mail_C

10
28/01/2019

Le modèle en étoile
! Une table de faits : identifiants des tables de dimension ; une ou
plusieurs mesures .

! Plusieurs tables de dimension : descripteurs des dimensions.

! Une granularité définie par les identifiants dans la table des faits.
Avantages :
! Facilité de navigation
! Performances : nombre de jointures limité ; gestion des données creuses.
! Gestion des agrégats
! Fiabilité des résultats

Inconvénients :
! Toutes les dimensions ne concernent pas les mesures
! Redondances dans les dimensions
! Alimentation complexe.

Propriétés des mesures

Additivité : somme sur toutes les dimensions


Exemple : CA ; Quantité vendue, ...

Semi-additivité : somme sur certaines dimensions :


Exemple : nbre de contacts clients, Etats des stocks...

Non-additivité : pas de somme, recalculer

Exemple: encours moyen fin de mois,


plus grand CA pour l'ensemble des magasins

11
28/01/2019

Exemples de modèles
Dans la grande distribution :
Quelques tables de faits : détaillées et volumineuses
Tables de dimensions :
Classiques : produits, fournisseurs, temps, établissements
(structure géographique, fonctionnelle)...
Stratégiques : Clients, Promotions, ....

Rq : Obtenir le plus d'enregistrements possibles.

Dans le secteur des banques :


Tables de faits : nombreuses, dédiées à chaque produit, peu
détaillées et peu volumineuses.
Tables de dimensions :
Classiques : produits, temps, établissement (structure
géographique, fonctionnelle), ...
Stratégiques : Clients, ....

Rq : Obtenir le plus de données (champs) possibles.

Le modèle en flocons de neige

Le modèle de l'ED doit être simple à comprendre.


On peut augmenter sa lisibilité en regroupant certaines dimensions.
On définit ainsi des hiérarchies.

Celles-ci peuvent être géographiques ou organisationnelles.

Exemple : Commune, Département, Région, Pays, Continent

Client Commune Département Region Pays Continent


Pepone Lyon 1° Rhône Rhône-Alpes France Europe
Testut Lyon 2° Rhône Rhône-Alpes France Europe
Soinin Lyon 3° Rhône Rhône-Alpes France Europe
Vepont Paris 1° Paris Ile-de-France France Europe
Martin Paris 2° Paris Ile-de-France France Europe
Elvert Versailles Yvelines Ile-de-France France Europe

12
28/01/2019

Le modèle en flocons de neige


! Après normalisation
! Avant normalisation
Dim$TEMPS Dim$MOIS Dim$ANNEE
Mois_ID Année_ID
Temps_ID
Dim$CLIENT Année_ID …
Jour

Client_ID Mois_ID
Nom_C Dim$PRODUIT
Adresse_C …
Produit_ID
Tph_C
Désignation_P
Mail_C Dim$SS_CATEGORIE
Description_P Dim$CATEGORIE
… Catégorie SSCat_ID
SSCat_ID Catégorie_ID Catégorie_ID
Fait VENTES Description_C
Prix6unitaire …
… Fourniss_ID
Dim$REGION …
Dim$MAGASIN

Région_ID Magasin_ID
Région Qté vendue Enseigne Dim$TYPE Dim$TYPE Dim$FOURNISSEUR
Pays Montant_Ventes Superficie
… Type_ID Type_ID Type_ID Fourniss_ID
Ville_ID Ville_ID …
… …

Le modèle en flocons de neige

Modèle en flocons de neige =


Modèle en étoile + normalisation des
dimension
Lorsque les tables sont trop volumineuses

Avantages :
• réduction du volume,
• permettre des analyse par pallier (drill down) sur la
dimension hiérarchisée.

Inconvénients :
• navigation difficile ;
• nombreuses jointures.

13
28/01/2019

Le modèle en constellation (Fact-flaked)

La modélisation en constellation consiste à fusionner


plusieurs modèles en étoile qui utilisent des dimensions
communes.

Un modèle en constellation comprend donc plusieurs


tables de faits et des tables de dimensions communes ou
non à ces tables de faits.

Le modèle en constellation (ou en flocons de faits)

14
28/01/2019

Le modèle en constellation (ou en flocons de faits)


Autre représentation

Estimer le volume du DW

Calculer ou estimer le nombre d'enregistrements

Prendre en compte :

! La table des faits


! Les dimensions significatives
! Les agrégats
! Les index
! Saisonnalité des ventes
! Croissance du CA, des encours, du nombre de points de ventes

15
28/01/2019

Exemples :
Grandes distribution :
CA annuel : 80 000 M$
Prix moyen d'un article d'un ticket : 5$
Nbre d'articles vendus pour un an : 80 * 109 / 5 = 16 * 109
Volume du DW :
16*109 *3 ans * 24 octets = 1,54 To (1,54*1012 = 1 540 Go)
Téléphonie :
Nbre d'appels quotidiens : 100 millions
Historique : 3 ans * 365 jours= 1 095 jours
Volume du DW :
100 millions * 1 095 jours * 24 octets = 3,94 To

Cartes de crédit :
Nbre de clients : 50 millions
Nbre moyen mensuel de transactions : 30
Volume :
50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To

! Volumétrie)des)données)massives)
Evolution)des)unités)de)volumétrie)des)données):
Unité Symb Valeur Observation
ole
Octet Octet 16o6représente(un(caractère(d'imprimerie(
(8(bits)
KiloOctet Ko 16000 306Ko6:6une(page(de(texte
(1024) 1006Ko :(image(numérique(basse(résolution

MegaOctet Mo 1066 56Mo6:6un(morceau(de(musique


5006Mo6 :un(CD=Rom
GigaOctet Go 1069 16Go6:61(film(de(2(heures
5006Go à(un(HD(de(PC
TeraOctet To 10612 16To6:66(millions(de(livres(;(la(moitiés(du(catalogue(de(la(BN(de(France(
106To6:6 presque(la(volumétrie(de(la(bibliothèque(du(Congrès(Américain
PetaOctet Po 10615 16Po :((2(milliards(de(photos(numériques(de(résolution(moyenne
86Po66:6très(grande(partie(de(l'information(sur(Internet
ExaOctet Eo 10618 56Eo :6Toutes les(informations produites jusqu’à 2003

ZettaOctet Zo 10 21 1,86Zo :6 La(totalité(des(informations(produites(jusqu’à(2011

YottaOctet Yo 1024 16Yo :6 C’est(ce(que(pourra(traiter(un(data(center(simultanément(

16
28/01/2019

! Représentation des données


Les données sont perçues à travers plusieurs dimensions. Elles sont
qualifiées de multidimensionnelles, indépendamment de leur support
(tables relationnelles ou tableaux multidimensionnels)

Produit Region Ventes


Clous Est 50
Clous Ouest 60
Clous Centre 100 Es t Oue st e ntre
Vis Est 40 lo u s 50 60 100
Vis Ouest 70
V is 40 70 80
Vis Centre 80
Boulons Est 90 Bo u lo n s 90 120 140
Boulons Ouest 120 N e t t o ye urs 20 10 30
Boulons Centre 140
Nettoyeurs Est 20
Nettoyeurs Ouest 10
Représentation des données dans
Nettoyeurs Centre 30
un tableau multidimensionnel

Représentation des données dans


une table relationnelle

" Représentation des données


les requêtes décisionnelles sont de type :

Quelle est le total des ventes dans la région Est ?


On peut calculer divers totaux.

! Tables relationnelles : on peut traiter quelques


centaines de tuples par seconde.

! Tableau multidimensionnel : on peut rajouter en


lignes et en colonnes plus de 10 000 valeurs par seconde.

Pour accélérer les temps de réponses, il est


préférable de pré-calculer des sous totaux.

17
28/01/2019

! Représentation des données


Produit Region Ventes
Clous Est 50
Clous Ouest 60
Clous Centre 100
Clous Total 210
Vis Est 40 Est Ouest Centre Total
Vis Ouest 70
Clous 50 60 100 210
Vis Centre 80
Vis Total 190 Vis 40 70 80 190
Boulons Est 90
Boulons 90 120 140 350
Boulons Ouest 120
Boulons Centre 140 Nettoyeurs 20 10 30 60
Boulons Total 350
Total 200 260 350 810
Nettoyeurs Est 20
Nettoyeurs Ouest 10
Nettoyeurs Centre 30
OLAP consolide entre 20 et 30000 cellules/s
Nettoyeurs Total 60
Total Est 200
Total Ouest 260
Total Centre 350
Total Total 810

Pour le calcul de ces totaux : 28


accès en lecture et 8 accès en
écriture.

Un SGBDR lit 200 enregist/s et en


écrit environ 20/s.

! Représentation des données

La valeur ALL remplace une colonne ou une valeur d'agrégats.

Magasin Date Rayon CA Ventes


Mag1 1/2/96 010 3500
Mag1 6/2/96 010 2500
Mag1 10/2/96 010 2900
Mag1 ALL 010 8900
Mag2 … … …

18
28/01/2019

! Représentation des données

Soient N attributs concourant à la construction du cube, il y aura :


C1, C2, … ,CN les cardinalités des N attributs, tq : C1 = ⎜Da1⎜ ;
C2= ⎜Da2⎜ ; … ; CN= ⎜DaN⎜

Le cube aura : !(Ci +1) enregistrements

Dans la tables VENTES si on a 2 * 3 * 3 = 18 enregistrements

dans le cube on aura (2+1) * (3+1) * (3+1) = 48 enregistrements.

" Les différentes approches d'OLAP


! L'approche relationnelle (ROLAP)
L'ensemble des données est stocké dans une BDR. Les données sont sous
forme d'enregistrements (tuples).

VENTES (Magasin, Rayon, Date, CA Ventes, Nb Client)

Select Magasin, Date , Sum(CA Ventes)


From VENTES
Group By Magasin, Date

Nouveaux opérateurs d'agrégation : cube , rollup.


!J.Gray, A. Bosworth, A. Leyman, H. Pirahesh, “Data Cube : A relationnal
Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Total”, in
Data Mining and Knowledge Discovery Journal, 1(1), 1997]

19
28/01/2019

! L'approche relationnelle (ROLAP)


L'union de plusieurs group-by donne naissance à un cube :
Select ALL, ALL, ALL, Sum(CA Ventes)
From VENTES
UNION Select Magasin, ALL, ALL, Sum(CA Ventes)
From VENTES
Group-By Magasin ;
UNION Select Magasin, Date, ALL, Sum(CA Ventes)
From VENTES
Group-By Magasin, Date ;
UNION Select Magasin, Date, Rayon, Sum(CA Ventes)
From VENTES
Group-By Magasin, Date, Rayon ;

L'opérateur cube est une généralisation N-dimensionnelle de fonctions


d'agrégations simples . C'est un opérateur relationnel.

Select Magasin, date, Rayon, Sum(CA


Ventes)
From VENTES
Group-By Cube Magasin, Date, Rayon ;

! L'approche multidimensionnelle (MOLAP)

Il s'agit de stocker les données dans des tableaux multidimensionnels.


Ces tableaux peuvent être éparses.

On y stocke dans les cellules les mesures (valeurs à observer),


les données représentant les dimensions sont les
coordonnées de ces valeurs :
f = (d1, d2, …, dn, m1, m2, …, mp)

[Zhao Yihong, Deshpande Prasad M., Naughton Jeffrey F., «An Array-Based
Algorithm for Simultaneous Multidimensional Aggregates», in SIGMOD Record
n 26, Vol 2, 1997.]

20
28/01/2019

# L'approche multidimensionnelle (MOLAP)

BD éparse
! Plus on a de dimensions plus on a de cellules.
Seulement une partie des produits peut être vendue
" des cellules sans valeur : données éparse.
Exemple :
On dispose de 100 000 données (eq. tuples)
4 dimensions ayant une cardinalité de 30 modalités chacune:
30 * 30 * 30 * 30 = 810 000 cellules
(dont 710 000 vides : 12,3% seulement sont pleines)

! Une BD est considérée comme éparse si elle a moins


de 40% de ses cellules peuplées .

! Techniques de compression des données

! L'approche hybride (HOLAP)


30% du temps est consacré aux I/O.
Approche relationnelle :
Approche multidimensionnelle : 20%. (70% calculs et 10% décompression)

La 3 voie préconisée consiste à utiliser les tables comme structure


permanente de stockage des données et les tableaux comme
structure alors des requêtes.
La démarche consisterait en 3
étapes: 1 Pays

1. Charger les données d'une table BDM


5 Régions
vers un tableau.
500 Villes
2. Calculer le cube de ce tableau
selon les méthodes initialement
présentées.
50 000 Clients
BDR
3. Stocker les résultats (données
agrégées) dans un table.

21
28/01/2019

" Les magasins de données (data marts)


! Simples magasins de données (Data Marts), on y
stockera des données portant sur une seule des
activités de l'entreprise.

! Ceux sont en quelque sorte des vues métier.

! Exemple Data mart Comptabilité, Data mart RH,.....

! Ces mini ED peuvent alors être considérés comme des


espaces d'analyse, du fait que les données sont bien
moins nombreuses et surtout qu'elles sont
thématiques.
! Ils peuvent également servir de bases de construction
à des cubes de données.

Entrepôts, Magasins et Cubes de données

Magasins de
MD données

MD Data Mining

MD Cube
Cube

Cube Analyses
Entrepôt MD
statistiques
de
données Cubes de
MD données

MD

OLAP
Reporting

22
28/01/2019

INTEGRATION

! Construction d'un ED

Après avoir conçu le modèle des données, comment


alimenter l'ED ?

Processus d'ETL
(Extracting – Transforming – Loading)

23
28/01/2019

Alimenter un ED…
! Le principe de l'entreposage des données est de
rassembler de multiples données sources qui
souvent sont hétérogènes en les rendant homogènes
afin de les analyser.

! Ce travail d'homogénéisation nécessite des règles


précises servant de dictionnaire (ou de référentiel)
et qui seront mémorisées sous forme de
métadonnées (information sur les données).

! Ces règles permettent d'assurer des tâches


d'administration et de gestion des donnés
entreposées.

Le dictionnaire

! Le dictionnaire (ou référentiel) de données est constitué de


l'ensemble des métadonnées.

! Il renferme des informations sur toutes les données de l'ED.


! Il renferme également des informations sur chaque étape lors
de la construction de l'ED ; sur le passage d'un niveau de
données à un autre lors de l'exploitation de l'ED .

Le rôle des métadonnées est de permettre :

! La définition des données


! La fabrication des données
! Le stockage des données
! L'accès aux données
! La présentation des données.

24
28/01/2019

Processus d'ETL
L'alimentation d'un ED est un processus qui s'effectue en plusieurs
étapes :

! Sélection des données sources


! Extraction des données

! Transformation
! Chargement

! Sélection des données sources


Quelles données de production faut-il sélectionner pour alimenter
l'ED ?

Toutes les données sources ne sont forcément pas utiles.


Doit-on prendre l'adresse complète ou séparer le code postal ?

Les données sélectionnées seront réorganisées pour servir à la


fabrication des informations.

La synthèse de ces données sources a pour but de les enrichir.

25
28/01/2019

" Sélection des données sources (suite)

La sélection des données utiles à partir des BD de production n'est pas


simple à faire .

Les données sont :

! hétérogènes (différents SGBD et différentes méthodes d'accès)

! diffuses (différents environnements matériels et différents réseaux


interconnectés ou non)

! complexes (différents modèles logiques et physiques principalement


orientés vers les traitements transactionnels)

La définition de la granularité dépend du niveau de raffinement


de l'information qu'on veut obtenir

" Extraction des données

!L'extraction peut se faire à travers un outil d'alimentation qui doit


travailler de façon native avec les SGBD qui gèrent les données
sources.

!Ou alors créer des programmes extracteurs. L'inconvénient de


cette approche est le risque de faire des extractions erronées,
incomplètes et qui peuvent biaiser l'ED.

!Il faut gérer les anomalies en les traitant et en gardant une trace

26
28/01/2019

" Extraction des données (suite)


! L'extraction doit se faire conformément aux règles précises du
référentiel.
! Elle ne doit non plus perturber les activités de production.
! Il faut faire attention aux données cycliques. Celles qu'on doit
calculer à chaque période, pour pouvoir les prendre en
considération.
! L'extraction peut se faire en interne selon l'horloge interne ou par
un planificateur ou par la détection d'une donnée cible (de l'ED) ;
ou en externe par des planificateurs externes.
! Les données extraites doivent être marquées par horodatage
afin qu'elles puissent être pistées.

! Transformations
C'est une suite d'opérations qui a pour but de rendre
les données cibles homogènes et puissent être traitées
de façon cohérente.

Exemple

Donnés sources Donnés sources


données cibles données cibles

Appli 1 : male, femelle m, f Appli 1 : $150,000 139 587 €.


Appli 2 : 1, 0 m, f Appli 2 : 16 000 CHF 14 757 €.
Appli 3 : Masculin, féminin m, f Appli 3 : 200.000£ 273 094 €.

27
28/01/2019

" Transformation (suite)

! L'ensemble des données sources, après nettoyage ou


transformation d'après des règles précises ou par
application de programmes (pour un contrôle de vraisemblance par
des méthodes statistiques), seront restructurées et converties
dans un format cible.

! Il faut synchroniser les données pour que les valeurs


agrégées obtenues soient cohérentes. Avant de passer à la
phase de chargement.

! Chargement

" C'est l'opération qui consiste à charger les données nettoyées et


préparées dans le DW.

" C'est une opération qui risque d'être assez longue. Il faut mettre
en place des stratégies pour assurer de bonnes conditions à sa
réalisation et définir la politique de rafraîchissement.

" C'est une phase plutôt mécanique et la moins complexe.

28
28/01/2019

! Administration d'un ED

" L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent
évolutif. Les données doivent donc changer. On doit procéder à d'autres
alimentations et donc gérer l'actualisation des données.

" Il existe des outils qui prennent en charge les tâches de rafraîchissement des
données.

" Ils procèdent par réplication pour propager les m.a.j. effectuées dans les BD sources
dans l'ED.

" Le mécanisme de réplication et une opération de copie de données d'une BD vers


une ou plusieurs BD.

" Les réplications sont alors asymétriques synchrones ou asynchrones ou alors


symétriques synchrones ou asynchrones.

" Le rafraîchissement des données peut se faire également par des processus de
transformation qui exploitent les méta-données.

" Administration d'un ED (suite)

! La fonction d'administration porte sur un aspect fonctionnel (qualité et


pérennité des données) mais aussi sur un aspect technique (maintenance,
optimisation, sécurisation...)

! Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des


données de production à la mise à disposition pour construire les espaces d'analyse.

! L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance


des données, méta-données).

! Les données agrégées sont aussi une production (information) de l'entreprise comme
les données de production (ERP), doivent être entreposées.

! Ainsi le développement de l'ED témoignera aussi bien de la production de base que


de l'activité informationnelle (pilotage de l'entreprise).

! Les requêtes portent plus souvent sur les agrégats que sur les données de base.
(80% - 20%)

29
28/01/2019

# Administration d'un ED (suite)


! La fonction de DBA est très recherchée

! Les DBA sont bien rémunérés (mieux que les développeurs)

! Les compétences demandées chez les DBA :


" Data warehousing (très recherché)

" Services de transformation des données (ETL)

" Environnement de réplications

OLAP
30
28/01/2019

! l'analyse en ligne (OLAP)


Approche Transactionnelle contre
Approche Analytique
OLTP (On-Line Transactional Processing)

• Les applications conçues pour des opérations quotidiennes dans les BD.
• Ces transactions nécessitent des données détaillées et actualisées.
• Les BD vont de quelques milliers de Mo à des Go.
.
OLAP (On-Line Analytical Processing)
• Les données sont historisées, résumées, consolidées.
• Les EDs contiennent des données sur une longue période de temps.
• Les EDs vont de centaines de Go à des To (Téra octets).

Les préconisations de Codd


Nom elle
bre sionn
de d en
et dim
hié im
rarc de niv ensio Vu
e ence
hiq e ns r anspar
Fle
xib
ues aux T r
(pou ur)
ili illimi ate
res
titu té des lis
ti
tés l'uti
Mani
pulat
ons
OLAP essib
er
(aux
ilité nes et
intuit ion Acc ées int s)
ive
(O L A nn rn e
do exte
n- ine nalytical
ns entre
Opératio ions
dimens
P ) rocessing
Performa
nc
dans les e continue
restituti
ons
ulti- es Archite
p p ort m (accès tric
ma ées) client/ cture
Su teurs s
e onn serveur
sa s) ed Dim
utili multané miqu ans d
s (une ensio
si a seu ns g
dyn les
n cellu les le str énériq
stio ( axe u
s d' cture ues
Ge euses ana
cr p
lyse our
)

31
28/01/2019

Les 12 règles d'OLAP


1 ) une vue multidimensionnelle des données.
2 ) La transparence vis à vis de l'utilisateur qui doit accéder à la BD par l'intermédiaire d'outils
simples (tableur, par ex).
3 ) La BD doit disposer d'un modèle et d'outils permettant d'accéder à de multiples sources,
d'effectuer les conversions et extractions nécessaire pour alimenter la Base OLAP.
4 ) Le modèle de données, le nombre de dimensions ou le nombre de niveaux d'agrégation doivent
pouvoir changer, sans remettre en cause le fonctionnement de la base.
5 ) Architecture Client/Serveur.
6 ) Toutes les dimensions définies dans le modèle de données doivent être accessibles pour chacune
des données.
7 ) Gestion des matrices creuses. Les parties vides du cube multidimensionnel doivent être stockées
de manière à ne pas détériorer les temps d'accès.
8 ) Accessibilité simultanément par plusieurs utilisateurs.
9 ) Toutes les données stockées ou calculées dans le cube doivent être accessibles et les règles de
gestion doivent toujours s'y appliquer. Toutes les tranches de cube doivent être visualisées.
10 ) Navigation aisée dans les données pour les utilisateurs, de manière intuitive.
11 ) Outil de présentation des données.
12 ) Nombre illimité de dimensions et de niveaux d'agrégation.

! Les différentes techniques de restitution :


Tous les outils pouvant synthétiser, explorer, confirmer, expliquer ,
prédire les données sont des outils de restitution

" La représentation cartographique ou par color coding


" Les requêteurs
• Les outils graphiques d'interrogations
• Les outils utilisant un modèle avec schéma renommé
• Les outils EIS/SIAD

" Les Outils statistiques et le Data Mining


# d'analyse exploiratoire (techniques statistiques, visualisation,
recherche d'associations, typologies, réseaux de neurones)
# d'analyse confirmatoire (techniques de régressions, de
segmentations, réseaux de neurones)
# d'analyse de modèles prédictifs (techniques de régressions, de
segmentations, réseaux de neurones).

32
28/01/2019

Opérateurs OLAP
1. Opérateurs liés à la structure
2. Opérateurs liés à la granularité
3. Opérateurs ensemblistes

L'analyse)en)ligne)(O.L.A.P.)
! Table dimensionnelle,du,cube,Ventes,
Catégorie** Cat.%1 Cat.%2 Cat.%3
Produits
Fonction' App.% Lect. Home%
d'agrégation Produits App.%Photo Lect. DVD Home%cine Lect. DVD
Photo DVD cine
Villes Lyon Paris Lyon Marseille Paris Paris Marseille
d1
m9 m8 m7 m6 m5 m4 m3 m2 m1

d2
T1

d3
d4
Trimestre

Dates
Mois

d5
T2

d6
d7
d8
T3

d9

33
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
! Multi&représentations/du/Cube%Ventes

• CUBE%:%VENTES
• FAIT :#Lecteur'DVD,'LYON,'01/02/15,'100
• RÉFÉRENCE:#Lecteur'DVD,'LYON,'01/02/15
• MESURE :#100
• MEMBRE/PARAMÈTRE :#LYON
• DIMENSION :#VILLES
• NIVEAU :#VILLES

L'analyse)en)ligne)(O.L.A.P.)
! Cube des ventes
VILLES Lyon Marseille Paris
Mesures CA Qté vendue CA Qté vendue CA Qté vendue
01/02/2015 20 000,000€0 21 6 000,000€0 4 14 000,000€0 22
04/02/2015 6 000,000€0 13 1 600,000€0 7 7 500,000€0 17
08/03/2015 1 200,000€0 4 16 000,000€0 7 2 000,000€0 14
09/03/2015 5 500,000€0 4 1 200,000€0 4 1 500,000€0 1
15/04/2015 800,000€0 3
Home0Cinéma0
16/04/2015 1 700,000€0 11 1 870,000€0 6 1 600,000€0 3
17/04/2015 1 900,000€0 9 600,000€0 1
22/04/2015 2 000,000€0 3
23/04/2015 650,000€0 2
24/04/2015 500,000€0 2
01/02/2015 16 000,000€0 30 10 140,000€0 10 9 000,000€0 25
04/02/2015 2 600,000€0 5 2 000,000€0 6 13 800,000€0 16
08/03/2015 2 000,000€0 7 20 000,000€0 8 5 000,000€0 21
PRODUITS

09/03/2015 7 500,000€0 5 1 000,000€0 3 1 720,000€0 1


DATES

15/04/2015 1 200,000€0 4
App.0Photo0num
16/04/2015 5 000,000€0 30 1 330,000€0 4 3 000,000€0 6
17/04/2015 1 100,000€0 4 400,000€0 1
22/04/2015 1 200,000€0 2
23/04/2015 850,000€0 3
24/04/2015 400,000€0 3
01/02/2015 15 400,000€0 20 4 000,000€0 6 7 000,000€0 15
04/02/2015 2 900,000€0 5 6 000,000€0 14 1 700,000€0 4
08/03/2015 4 000,000€0 13 14 000,000€0 5 1 000,000€0 5
09/03/2015 7 000,000€0 5 3 000,000€0 7 1 780,000€0 1
15/04/2015 4 000,000€0 8
Lecteurs0DVD 2 000,000€0 2 300,000€0 2 400,000€0
16/04/2015 10 2 3
17/04/2015 2 200,000€0 10 400,000€0 1
22/04/2015 400,000€0 1
23/04/2015 500,000€0 3
24/04/2015 600,000€0 5

34
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
! Les$différentes$opérations$d'agrégation$$:$$$$Roll$up
Roll up sur la dimension ''Produits'’ (forage vers le haut)
Villes Lyon Marseille Paris
Qté8 Qté Qté
Mesures CA CA CA
vendue vendue vendue
01/02/15 54 100,00(€ 71 20 140,00(€( 20 30 000,00(€ 62
04/02/15 11 500,00(€ 23 9 600,00(€ 27 23 000,00(€ 37
08/03/15 7 200,00(€ 24 50 000,00(€ 18 8 000,00(€ 40
09/03/15 20 000,00(€ 14 5 200,00(€ 14 5 000,00(€ 3
Dates

15/04/15 6 000,00(€ 15
16/04/15 8 700,00(€ 51 5 500,00(€ 13 7 500,00(€ 12
17/04/15 5 200,00(€ 23 1 400,00(€ 3
22/04/15 3 600,00(€ 6
23/04/15 2 000,00(€ 6
24/04/15 1(500,00(€( 3

L'analyse)en)ligne)(O.L.A.P.)
! Les*différentes*opérations*d'agrégation**:****Roll*up
Roll up sur les 2 dimensions ''Produits'' et ''Dates''
Lyon Marseille Paris
Villes
Mesures CA Qté8vendue CA Qté8vendue CA Qté8vendue

107$500,00$€$ 198 101$240,00$€$ 130 74$900,00$€$ 157

Roll up sur les 3 dimensions ''Produits'', ''Dates'' et ''Villes''


Villes
Mesures CA Qté8vendue

283$640,00$€$ 485

35
28/01/2019

L'analyse*en*ligne*(O.L.A.P.)
! Les*différentes*opérations*d'agrégation**:****Drill7down
Drill down sur la mesure ''CA'' selon la dimension ''Villes'' (forage vers le bas)
Villes
Mesures CA Qté7vendue

283$640,00$€$ 492

???

Le résultat du Drill down donne :


Lyon Marseille Paris
Villes
Mesures CA Qté7vendue CA Qté7vendue CA Qté7vendue

107$500,00$€$ 198 101$240,00$€$ 137 74$900,00$€$ 157

L'analyse*en*ligne*(O.L.A.P.)
! Les,différentes,opérations,d'agrégation,,:,,,,Drill<down
Drill down sur la mesure ''CA'' selon la valeur ''Lyon'' de la dimension ''Villes'' en
développant la dimension ''Dates''
Villes Lyon Marseille Paris

CA CA CA Qtbié
Mesures Qté vendue Qté vendue
vendue
107$500,00$€$ 198 101$240,00$€$ 137 74$900,00$€$ 157

???
Le résultat du Drill down donne :
Villes Lyon
Mesures CA Qté vendue
107,500,00,€, 198
01/02/2008 54<100,00<€< 71
04/02/2008 11$500,00$€$ 23
Dates

08/03/2008 7$200,00$€$ 24
09/03/2008 20$000,00$€$ 14
15/04/2008 6<000,00<€< 15
16/04/2008 8$700,00$€$ 51

36
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
# Les%différentes%opérations%d'agrégation%%:%%%%Drill*down

" Permet d'obtenir des détails sur la signification d'un résultat en affinant une dimension
ou en ajoutant une dimension.
" Opération coûteuse d'où son intégration dans le système.
" Exemple : un chiffre d'affaire suspect pour un produit donné :
• ajouter la dimension Mois : envisager l'effet weekJend
• ajouter la dimension Villes : envisager l'effet géographique

L'opération+du+Drill+peut+se+décliner+en+plusieurs+autres+opérations :

! Drill%accross :+Drill+latéral,+comparaison+sur+des+mesures+dans+plusieurs+tables+de+faits
! Drill%through :+voir+l'information+à+travers+plusieurs+dimensions
! Reach through :+voir+l'information+en+profondeur,+jusqu'aux+données+de+base

L'analyse)en)ligne)(O.L.A.P.)
! Les*différentes*opérations*d'agrégation**:*Slice&&&Dice

Opération*de**sélection**et*de*projection*des*données*:

Ville%=%''Paris''%et%Dates%< 10/03/2008

37
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
! Les*différentes*opérations*d'agrégation**:*Slice&&&Dice

Opération*de**sélection**et*de*projection*des*données*:

L'analyse)en)ligne)(O.L.A.P.)
" Opérateurs.liés.à.la.structure
consiste*à*faire*une*rotation*à*un*cube*autour*d'un*de*ses*axes,*de*
! Rotate manière*à*présenter*un*ensemble*de*faces*différent.**Une*sorte*de*
(Pivot) sélection*de*faces*et*non*des*membres.

! Switch. consiste*à*inter>changer*la*position*des*membres*d'une*dimension.*
(Permutation)
consiste*à*présenter*chaque*tranche*du*cube*et*de*passer*d'une*
! Split. présentation*multidimensionnelle*d'un*cube*à*sa*présentation*sous*la*
(Division ) forme*d 'un*ensemble*de*tables.*Sa*généralisation*permet*de*découper*
un*hypercube de*dimension*4*en*cubes*de*dimension*3,par*exemple.
permet*d'imbriquer*les*membres*d’une*dimension*dans*une*autre*
dimension.*L'intérêt*de*cette*opération*est*qu'elle*permet*de*grouper*
! Nest
sur*une*même*représentation*bi>dimensionnelle toutes*les*
(Emboîtement). informations*(mesures*et*membres)*d'un*cube*quelque*soit*le*nombre*
de*ses*dimensions.*
consiste*à*combiner*les*membres*d'une*dimension*aux*mesures*du*
! Push
cube,*i.e.*de*faire*passer*des*membres*de*dimension*comme*contenu*
(Enfoncement) de*cellules*(mesure),*et*réciproquement.

38
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
! Les$différentes$opérations$OLAP$$:$ROTATE

L'analyse)en)ligne)(O.L.A.P.)
! Les$différentes$opérations$OLAP$$:$SWITCH

39
28/01/2019

L'analyse)en)ligne)(O.L.A.P.)
! Les$différentes$opérations$OLAP$$:$SPLIT

L'analyse)en)ligne)(O.L.A.P.)
! Les$différentes$opérations$OLAP$$:$NESTING

40