Vous êtes sur la page 1sur 30

Université Moulay Ismail Année universitaire : 2022/2023

Faculté des Sciences et Techniques Prof Y.FARHAOUI


Errachidia

Système d’Information Décisionnel


Les entrepôts de données
L’alimentation d’un DW est une procédure qui s’effectue en plusieurs étapes :
 Sélection des données sources
 Extraction des données
 Transformation
 Chargement
 Administration

2
Les entrepôts de données

1. Sélection des données sources


Quelles sont les données de productions qu’il faut sélectionner pour alimenter le DW ?
 Toutes les données sources ne sont forcément pas utiles.
Doit-on prendre l’adresse complète ou séparer le code postal.
Les données sélectionnées seront réorganisées pour devenir des informations.
 La dénormalisation des données créé des liens entre les données et permet des accès
différents
 La sélection des données utiles à partir des BD de production n’est pas simple à faire .
 Les données sont :
 hétérogènes (différents SGBD et différentes méthodes d’accès);
 diffuses (différents environnements matériels et différents réseaux interconnectés
ou non);
 complexes (différents modèles logiques et physiques principalement orientés
vers les traitements transactionnels).

3
Les entrepôts de données
2. Extraction des données

 L’extraction peut se faire à travers un outil d’alimentation qui doit travailler de façon
native avec les SGBD qui gèrent les données sources.

3. Transformation

 C’est une suite d’opérations qui a pour but de rendre les données cibles homogènes et
puissent être traitées de façon cohérente.
Exemple
Donnés sources données cibles
Appli 1 : m, f m,f
Appli 2 : 1, 0 m,f
Appli 3 : Homme, femme m,f

4
Les entrepôts de données
3. Transformation

 Les données doivent alors filtrées afin d’éliminer les données aberrantes : données sans
valeurs avec des valeurs manquantes

 Souvent dans les bases de production, certaines données sont sémantiquement fausses.

 Pour avoir une alimentation de qualité, il faut avoir une bonne connaissance des données
à entreposer et des règles qui les régissent. Savoir corriger les données pour les doter
d’un vrai sens sémantique.

 On peut dédoubler des données pour gagner au niveau de la cohérence.

5
Les entrepôts de données

4. Chargement
 C’est l’opération qui consiste à charger les données nettoyées et préparées dans le DW.

 C’est une opération qui risque d’être assez longue. Il faut mettre en place des stratégies
pour assurer de bonnes conditions à sa réalisation et définir la politique de
rafraîchissement.
 C’est une phase plutôt mécanique et la moins complexe.

6
ETL
Méthodologie et outils
Extract
 Extraire les données de sources hétérogènes
Transform
 Transformation des données pour les mettre dans un format acceptable
Load
 Charger les données dans le datawarehouse

Ensemble de connecteurs

7
Alimentation d’un DW (ETL)
 Extraction (Extract)
 Depuis les bases sources
 Périodique et Répétée
 Dater ou marquer les données envoyées
 Difficulté:
o Ne pas perturber les autres applications
 Différentes techniques d’extraction:
o Méthode Push: Le système opérationnel qui au fil des transactions alimente le DW
o Méthode Pull : Le système décisionnel cherche périodiquement les données dans
les bases de production
 Transformation (Transform)(Filtrer, Homogénéiser, Nettoyer, Etc …
 C’est une suite d’opérations qui a pour but de rendre les données cibles homogènes et
puissent être traitées de façon cohérente.
o Unification des modèles
o Convertir / uniformiser les noms des attributs
o Uniformiser les valeurs d ’attributs
o Nettoyer ( Valeurs manquantes, aberrantes…)
 Chargement (Loading)
 C’est l’opération qui consiste à charger les données nettoyées et préparées dans le DW.
 C’est une opération qui peut être longue :
o Mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation
o Définir la politique de rafraîchissement.
8
 C’est une phase plutôt mécanique et la moins complexe
Logiciels d’ETL
Interfaces graphiques pour le non-spécialiste
 Anatella2
 DataStudio (Data)
 Feature Manipulation Engine (FME)
 Hurence avec un ETL natif Hadoop
 IBM InfoSphere DataStage
 Informatica PowerCenter
 MapReport
 Microsoft SQL Server Integration Services (SSIS)
 OpenText Genio
 Oracle Data Integrator (Sunopsis)
 Oxio Data Intelligence solution ETL
 SAP Data Services
 SAS Data Integration Studio
 Stambia
 STATISTICA ETL (StatSoft)
 Pentaho Data Integration
 BusinessObjects, Data Integrator, http://www.businessobjects.fr/
 Oracle Corporation, Warehouse builder,
http://www.oracle.com/technology/products/warehouse/index.html/
 IBM, Websphere Datastage , http://www.ascential.com/products/datastage.html
9
Pentaho Data Integration

10
OLAP et Analyse multidimensionnelles
OLAP

11
Données multidimensionnelles
Notion de dimension : C’est une catégorie linguistique selon laquelle les données sont
organisées:
 Nom d’un attribut
 Valeur d’un attribut

Représentation :

12
OLAP et Analyse multidimensionnelles OLAP
 « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des
données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation ».
 OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses
données et en lui donnant la possibilité de le faire rapidement.
1. Modèle conceptuel
Approche multidimensionnelle
 Souvent représentés par une structure à plusieurs dimensions
 Une dimension est un attribut ou un ensemble d’attributs:
 Temps
 Géographie
 Produits
 Clients
 Les cellules contiennent des données agrégées appelées Faits ou Indicateurs:
 Nombre d’unités vendues
 Chiffre d’Affaire
 Coût
 Représentations:
 Relations,
 Cube de données,
 hyper cube de données 13
OLAP et Analyse multidimensionnelles OLAP :
2. Agrégation des données
 Plusieurs niveaux d’agrégation
 Les données peuvent être groupées à différents niveaux de granularité
 Les regroupements sont pré-calculés,
o Par exemple, le total des ventes pour le mois dernier calculé à partir de la
somme de toutes les ventes du mois.
 Granularité : niveau de détail des données emmagasinées dans un Datawarehouse

Granularité des dimensions

14
Les 12 règles OLAP
1. Vue multidimensionnelle:
 Comme par exemple lorsqu’on souhaite analyser les ventes selon plusieurs
dimension: par produit par région ou par période.
2. Transparence du serveur OLAP à différents types de logiciels
 Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le
système OLAP sans affecter les fonctionnalités du système central.
3. Accessibilité à de nombreuses sources de données
 Le système OLAP doit donner accès aux données nécessaires aux analyses
demandées.
 Les outils OLAP doivent avoir leur propre schéma logique de stockage des
données physiques
4. Performance du système de Reporting
 L'augmentation du nombre de dimensions ou du volume de la base de données ne
doit pas entraîner de dégradation visible par l'utilisateur.
15
Les 12 règles OLAP
5. Architecture Client/Serveur
 La plus part des données pour OLAP sont stockées sur des gros systèmes et sont
accessibles via des terminaux . Il est donc nécessaire que les outils OLAP soient
capables de travailler dans un environnement Client/Serveur.
6. Dimensions Génériques
 Toutes les dimensions doivent être équivalentes en structure et en calcul.
 Toute fonction qui s'applique à une dimension doit être aussi applicable à une autre
dimension.
7. Gestion dynamique des matrices creuses
 Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse
spécifique créé pour optimiser la gestion des matrices creuses
8. Support Multi-Utilisateurs
 Les outils OLAP doivent supporter les accès concurrents,
 Garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même
16
modèle d'analyse.
Les 12 règles OLAP
9. Opération sur les dimensions
 Les opérations doivent pouvoir s'effectuer sur toutes les dimensions.
10. Manipulation intuitive des données
 Toute manipulation doit être accomplie via une action directe sur les cellules du
modèle sans utiliser de menus ou des chemins multiples à travers l'interface
utilisateur.
11. Souplesse et facilité de constitution des rapports
 La création des rapports dans les outils OLAP doit permettre aux utilisateurs de
présenter comme ils le désirent des données synthétiques ou des résultats en
fonction de l'orientation du modèle.
12. Nombre illimité de niveaux d'agrégation et de dimensions
 Tout outil OLAP doit gérer au moins 15 à 20 dimensions.

17
Opérations OLAP

Opérations sur la structure des cubes


 Pivot (Rotation): sélection des dimensions(sélection du couple de dimensions à cibler)
Tourne le cube pour visualiser une face
(Région,Produit)(Région, Mois)

18
Opérations OLAP

Opérations sur la structure des cubes


 Switch (Permutation)

19
Opérations OLAP

Opérations sur la structure des cubes


 Split (Décomposition) : Sélection et projection selon 1 axe
Mois = 04-2017 ; Projeter(Région, Produit)

20
Opérations OLAP

Opérations sur le contenu des cubes


 Roll-up (passage au grain supérieur):zoom arrière
Agréger selon une dimension : Semaine  Mois
 Drill-down (passage au grain inférieur): zoom avant
Détailler selon une dimension: Mois  Semaine

21
Opérations OLAP

Opérations sur le contenu des cubes


Slice (Restriction): extraction d’un bloc de données (opération plus générale que le slicing)

22
Opérations OLAP

Opérations sur le contenu des cubes


 Dice (Projection): extraction d’une tranche d’information

23
Opérations OLAP

Opérations sur le contenu des cubes (Opérations entre cubes)


 Jointure

24
Opérations OLAP

Opérations sur le contenu des cubes (Opérations entre cubes)


 Union

25
Requêtes sur le cube
MDX : multidimensioal expressions
 Proche du SQL et des tableurs
 Traduction des demandes vers le stockage concret

le prototype d’une requête :

Exemple: Cette requête renvoie un jeu de résultats comprenant les montants des ventes
pour 2016 et 2017 de magasins dans le Maroc, d'Errachidia.

SELECT
{ [Mesure].[Ventes en Magasin] } ON COLUMNS,
{ [Date].[2016], [Date].[2017] } ON ROWS
FROM Ventes
WHERE ( [Magasin].[Maroc].[Errachidia] ) 26
Fonction présentation
Plus visible pour l’utilisateur, régit les conditions d’accès
de l’utilisateur aux informations, dans le cadre d’une
interface Homme-machine déterminé (IHM).

Tâche :
Visualisation
Rapports
En lien direct avec
l’utilisateur final

27
Implémentation

• Multidimensional OLAP (MOLAP)


– implémentent les cubes comme des matrices en mémoire

• Relational OLAP (ROLAP)


– implémentent les cubes comme des tables relationnelles

• Hybrid systems (HOLAP ou MROLAP)


– certaines données en matrices en mémoires, d'autres en tables sur disques

28
ROLAP  MOLAP

SQL+Cube SQL+Cube
Opérateurs Cache Cube
décisionnels
Analyseur
SQL
Optimiseur
Analyseur
Opérateurs Optimiseur
Opérateurs décisionnels
relationnels Opérateurs
Cache SGBD relationnels Cache SGBD

29
Exemple d’outils OLAP

 BusinessObjects : http://www.businessobjects.fr/
 SAS:
http://www.sas.com/offices/europe/france/software/technologies/olap/index.html
 HarrySoftware , HarryPilot, HarryCube :
http://www.harrysoftware.com/jahia/Jahia/pid/61

• Oracle
• Cognos
– OLAP API = Datacube
– Impromptu = Reporting
– Express = Analyse
– Powerplay = Datacube
– Report = Reporting
– Query = Requêtage
• Business Object
• Hyperion
– BusinessQuery = Requêtage
– ESS Base = Base MOLAP
– BusinessObject = Requêtage
+ Analyse + Reporting – ESS Analysis= Analyse +
Datacube
– WebIntelligence = Datacube
30

Vous aimerez peut-être aussi