Vous êtes sur la page 1sur 8

1.

Définissez ces termes :


a. Entrepôt de données : Un entrepôt de données est une base de données
centralisée qui est utilisée pour stocker, organiser et gérer de grandes quantités
de données provenant de différentes sources. Il est conçu pour faciliter l'analyse et
la prise de décisions en permettant aux utilisateurs de rechercher, récupérer et
analyser les données de manière efficace.

b. ETL (Extraction, Transformation, Load) : ETL est un processus utilisé pour extraire
des données à partir de différentes sources, les transformer pour les rendre
cohérentes et les charger dans un entrepôt de données ou un autre système de
stockage. L'extraction implique la récupération de données à partir de sources
variées, la transformation implique la modification, le nettoyage et la
restructuration des données pour les rendre cohérentes, et le chargement
consiste à insérer les données transformées dans la destination cible.

c. Dimension : En informatique décisionnelle et en modélisation de données, une


dimension représente une catégorie ou un aspect spécifique des données. Les
dimensions fournissent des informations supplémentaires pour analyser et
organiser les données. Par exemple, dans un entrepôt de données pour une
entreprise, les dimensions peuvent inclure le temps, les produits, les
emplacements géographiques, les clients, etc.

d. Datamart : Un datamart est une version spécialisée et simplifiée d'un entrepôt de


données, qui est orientée sur un domaine d'activité spécifique, tel que les ventes,
le marketing, les ressources humaines, etc. Un datamart contient une sous-
ensemble de données pertinentes pour ce domaine spécifique, ce qui facilite
l'analyse et la génération de rapports ciblés pour les utilisateurs concernés. Un
datamart peut être dérivé d'un entrepôt de données ou être construit
indépendamment.

2. Donnez trois différences principales entre une base de données opérationnelle et un


entrepôt de données :

A. Objectif : Une base de données opérationnelle est conçue pour la gestion


quotidienne des opérations d'une organisation. Elle est optimisée pour les
transactions en temps réel, les mises à jour fréquentes des données et les
opérations de routine. En revanche, un entrepôt de données est orienté sur
l'analyse des données et la génération de rapports pour faciliter la de prise de
décisions stratégiques.
B. Structure et modélisation : Les bases de données opérationnelles sont
généralement conçues selon un modèle de données normalisé qui minimise la
redondance et sont structurées en tables liées par des relations clés étrangères. En
revanche, les entrepôts de données utilisent souvent un modèle de données
dénormalisé, qui facilite la recherche rapide et l'analyse multidimensionnelle et
sont structurées en dimensions et en faits, permettant des requêtes complexes et
des agrégations.
C. Données et historique : Les bases de données opérationnelles stockent
principalement des données opérationnelles courantes et à jour, reflétant l'état
actuel de l'activité de l'organisation. En revanche, les entrepôts de données
intègrent des données provenant de différentes sources et conservent souvent un
historique des données sur une période plus longue.

Il convient de noter que ces différences ne sont pas absolues et peuvent varier en fonction
de la conception spécifique de la base de données opérationnelle ou de l'entrepôt de
données dans un contexte particulier.

3. a) Dans le schéma en étoile donné, la table de fait est la table ACHAT, qui contient
les mesures quantitatives (prix_achat, frais_transfert) associées à chaque achat
effectué. Les autres tables (CLIENT, PRODUIT, TEMPS) sont les tables de dimension,
qui contiennent des informations descriptives sur les entités associées aux faits.
b) Pour transformer le schéma en étoile en schéma en flocon, la nouvelle
représentation de la table TEMPS peut être décomposée en deux tables :
i. TEMPS (idtps, mois, trimestre, annee)
ii. MOIS (idmois, mois_nom)
La première table, TEMPS, conserve les attributs principaux liés à l'identifiant du
temps, tels que le mois, le trimestre et l'année. La seconde table, MOIS, est créée pour
stocker les noms des mois correspondant à chaque identifiant de mois. Cette
décomposition permet de réduire la redondance des données en séparant les
informations descriptives des informations de clé.
La nouvelle représentation serait donc :
i. CLIENT (idclient, ville, departement, region, pays)
ii. PRODUIT (idprod, produit_nom, categorie)
iii. TEMPS (idtps, mois, trimestre, annee)
iv. MOIS (idmois, mois_nom)
v. ACHAT (idprod, idtps, idclient, date_transfert, prix_achat, frais_transfert)

Cela forme un schéma en flocon où la table TEMPS a été décomposée en deux tables
pour réduire la redondance des données.

Technologies de base multidimensionnelle :


A. OLAP est l'acronyme anglais de "Online Analytical Processing", qui se traduit en
français par "traitement analytique en ligne". L'OLAP est un processus permettant
d'effectuer des analyses complexes sur de grandes quantités de données
multidimensionnelles. Il utilise une structure de données appelée "cubes OLAP"
pour organiser les données en dimensions et hiérarchies. Ces dimensions peuvent
représenter des aspects tels que le temps, le produit, le client, la région, etc.
Grâce à l'OLAP, les utilisateurs peuvent explorer les données, effectuer des
agrégations, des regroupements, des filtres et des calculs avancés pour obtenir des
informations approfondies. Les requêtes OLAP sont généralement interactives et
permettent aux utilisateurs de naviguer dans les données de manière flexible

B. ROLAP est l'acronyme anglais de "Relational Online Analytical Processing", qui se


traduit en français par "traitement analytique en ligne relationnel". Il s'agit d'une
approche de traitement analytique des données qui utilise des bases de données
relationnelles classiques pour stocker et interroger les données. Les requêtes
ROLAP sont effectuées en utilisant le langage SQL (Structured Query Language)
pour interroger les bases de données relationnelles.

L'approche ROLAP offre plusieurs avantages, notamment :


 Flexibilité: Les bases de données relationnelles offrent une plus grande
flexibilité en termes de schéma de données, permettant ainsi de gérer des
structures de données complexes et évolutives.
 Intégration avec les systèmes existants: Étant basée sur des bases de
données relationnelles, l'approche ROLAP peut tirer parti des systèmes de
gestion de bases de données relationnelles (SGBDR) déjà en place dans une
organisation.
 Compatibilité avec les outils de requêtes standard: Les requêtes ROLAP
peuvent être formulées en utilisant le langage SQL standard, ce qui facilite
l'utilisation d'outils de requêtes et de rapports existants.
 Traitement efficace des données agrégées: Les bases de données
relationnelles sont optimisées pour le traitement des agrégations et des
regroupements, ce qui peut accélérer les performances des requêtes ROLAP.

L'approche ROLAP est souvent utilisée lorsque les données sont volumineuses,
complexes et nécessitent une intégration avec des systèmes de bases de données
relationnelles existants. Elle permet aux utilisateurs d'effectuer des analyses ad
hoc, des agrégations et des calculs avancés sur les données en utilisant des
requêtes SQL standard.

B. MOLAP est l'acronyme anglais de "Multidimensional Online Analytical Processing", qui


se traduit en français par "traitement analytique en ligne multidimensionnel". Il s'agit
d'une approche de traitement analytique des données qui utilise des structures de
données multidimensionnelles pour stocker et analyser les informations.

Contrairement à ROLAP qui utilise des bases de données relationnelles, MOLAP utilise
des cubes multidimensionnels pour organiser et stocker les données. Ces cubes sont
des structures de données optimisées pour l'analyse multidimensionnelle, où les
données sont organisées en dimensions (comme le temps, le produit, le client) et
hiérarchies.

Les principales caractéristiques de MOLAP sont les suivantes :


 Rapidité des requêtes: Les cubes MOLAP sont conçus pour offrir des
performances élevées lors de l'interrogation des données. Les calculs et
agrégations précalculés dans les cubes permettent d'accélérer les requêtes
analytiques.
 Capacité d'analyse avancée: Les cubes MOLAP permettent des analyses
multidimensionnelles complexes, telles que les regroupements, les filtres,
les calculs et les prévisions. Les utilisateurs peuvent explorer les données
sous différents angles et niveaux de détail.
 Stockage efficace des données: Les cubes MOLAP utilisent des techniques
de compression et d'optimisation pour stocker les données de manière
efficace, réduisant ainsi les besoins en espace de stockage.
 Facilité d'utilisation: Les outils de requêtes et de visualisation de données
conçus spécifiquement pour les cubes MOLAP offrent une interface
conviviale pour l'exploration et l'analyse des données.

L'approche MOLAP est souvent utilisée lorsque les données sont pré-agrégées et
que des performances rapides de requête sont nécessaires. Elle convient
particulièrement bien aux applications de business intelligence, d'analyse de
données et de reporting, où l'accent est mis sur l'analyse multidimensionnelle des
données pour prendre des décisions stratégiques.

C. HOLAP est l'acronyme anglais de "Hybrid Online Analytical Processing", qui se


traduit en français par "traitement analytique en ligne hybride". Il s'agit d'une
approche qui combine les caractéristiques de MOLAP (Multidimensional Online
Analytical Processing) et ROLAP (Relational Online Analytical Processing) pour le
traitement analytique des données.

Dans une approche HOLAP, les données sont organisées et stockées de manière
hybride, en utilisant à la fois des cubes multidimensionnels et des bases de
données relationnelles. Les données agrégées sont généralement stockées dans
des cubes MOLAP, offrant ainsi des performances rapides pour les requêtes
analytiques. Quant aux données détaillées ou moins fréquemment utilisées, elles
sont stockées dans des bases de données relationnelles, permettant une plus
grande flexibilité et une intégration avec les systèmes existants.

Les avantages de l'approche HOLAP sont les suivants :


 Performance et flexibilité: Les cubes MOLAP offrent des performances
élevées pour les requêtes analytiques, tandis que les bases de données
relationnelles offrent une plus grande flexibilité pour les données détaillées
ou les requêtes ad hoc.
 Gestion des données agrégées: Les cubes MOLAP précalculent les
agrégations et fournissent des réponses rapides pour les requêtes
analytiques fréquentes.
 Intégration avec les systèmes existants: L'utilisation de bases de données
relationnelles permet une intégration avec les systèmes de bases de
données relationnelles existants et les outils de requêtes SQL standard.
 Économie d'espace de stockage: Les cubes MOLAP utilisent des techniques
de compression pour stocker les données de manière efficace, réduisant
ainsi les besoins en espace de stockage.

L'approche HOLAP est souvent utilisée lorsque les données sont volumineuses,
complexes et nécessitent à la fois des performances rapides et une flexibilité pour
les requêtes analytiques. Elle permet aux utilisateurs d'exploiter les avantages des
deux approches (MOLAP et ROLAP) en fonction des besoins spécifiques de
l'analyse des données.

EXERCICE D’APPLICATION

On considère un entrepôt de données permettant d’observer les ventes de produits


d’une entreprise. Le schéma des tables est le suivant :
- CLIENT (id-client, région, ville, pays, département)
- PRODUIT (id-prod, catégorie, coût-unitaire, fournisseur, prixunitaire, nom-prod)
- TEMPS (id-tps, mois, nom-mois, trimestre, année)
- VENTE (id-prod, id-tps, id-client, date-expédition, prix-de-vente, frais-de-livraison)
Questions
1. Indiquer quelles sont la (les) table(s) de fait et les tables de dimension de
cet entrepôt.
2. Donner pour chaque dimension, sa (multi-) hiérarchie.
3. Donner la représentation du schéma en étoile de l’entrepôt selon la
notation de Golfarelli.
4. On veut transformer ce schéma en schéma en flocon. Donner la nouvelle
représentation de la table TEMPS (ajouter des paramètres / attributs, si
nécessaire).
REPONSES

1. Dans cet entrepôt de données, la table de fait est la table "VENTE". Les tables de
dimension sont "CLIENT", "PRODUIT" et "TEMPS".

1. Pour chaque dimension, voici leur hiérarchie :

- Hiérarchie de la dimension "CLIENT":


- Pays
- Région
- Ville
- Département

- Hiérarchie de la dimension "PRODUIT":


- Catégorie
- Fournisseur
- Nom du produit

- Hiérarchie de la dimension "TEMPS":


- Année
- Trimestre
- Mois

3. La représentation du schéma en étoile de l'entrepôt selon la notation de


Golfarelli serait la suivante:

```
CLIENT
|
VENTE
|
PRODUIT
|
TEMPS
```
4. Pour transformer le schéma en étoile en un schéma en flocon, on peut
normaliser la dimension "TEMPS" en décomposant la table en plusieurs tables plus
petites et normalisées. Par exemple, on pourrait ajouter les attributs suivants à la
table "TEMPS":

- Table "TEMPS":
- id-tps
- date-expédition
- prix-de-vente
- frais-de-livraison

- Table "ANNEE":
- id-année
- année

- Table "TRIMESTRE":
- id-trimestre
- trimestre

- Table "MOIS":
- id-mois
- mois
- nom-mois

La nouvelle représentation de la table "TEMPS" serait donc décomposée en


plusieurs tables, chacune représentant un niveau de hiérarchie différent de la
dimension "TEMPS".

Vous aimerez peut-être aussi