Académique Documents
Professionnel Documents
Culture Documents
b. ETL (Extraction, Transformation, Load) : ETL est un processus utilisé pour extraire
des données à partir de différentes sources, les transformer pour les rendre
cohérentes et les charger dans un entrepôt de données ou un autre système de
stockage. L'extraction implique la récupération de données à partir de sources
variées, la transformation implique la modification, le nettoyage et la
restructuration des données pour les rendre cohérentes, et le chargement
consiste à insérer les données transformées dans la destination cible.
Il convient de noter que ces différences ne sont pas absolues et peuvent varier en fonction
de la conception spécifique de la base de données opérationnelle ou de l'entrepôt de
données dans un contexte particulier.
3. a) Dans le schéma en étoile donné, la table de fait est la table ACHAT, qui contient
les mesures quantitatives (prix_achat, frais_transfert) associées à chaque achat
effectué. Les autres tables (CLIENT, PRODUIT, TEMPS) sont les tables de dimension,
qui contiennent des informations descriptives sur les entités associées aux faits.
b) Pour transformer le schéma en étoile en schéma en flocon, la nouvelle
représentation de la table TEMPS peut être décomposée en deux tables :
i. TEMPS (idtps, mois, trimestre, annee)
ii. MOIS (idmois, mois_nom)
La première table, TEMPS, conserve les attributs principaux liés à l'identifiant du
temps, tels que le mois, le trimestre et l'année. La seconde table, MOIS, est créée pour
stocker les noms des mois correspondant à chaque identifiant de mois. Cette
décomposition permet de réduire la redondance des données en séparant les
informations descriptives des informations de clé.
La nouvelle représentation serait donc :
i. CLIENT (idclient, ville, departement, region, pays)
ii. PRODUIT (idprod, produit_nom, categorie)
iii. TEMPS (idtps, mois, trimestre, annee)
iv. MOIS (idmois, mois_nom)
v. ACHAT (idprod, idtps, idclient, date_transfert, prix_achat, frais_transfert)
Cela forme un schéma en flocon où la table TEMPS a été décomposée en deux tables
pour réduire la redondance des données.
L'approche ROLAP est souvent utilisée lorsque les données sont volumineuses,
complexes et nécessitent une intégration avec des systèmes de bases de données
relationnelles existants. Elle permet aux utilisateurs d'effectuer des analyses ad
hoc, des agrégations et des calculs avancés sur les données en utilisant des
requêtes SQL standard.
Contrairement à ROLAP qui utilise des bases de données relationnelles, MOLAP utilise
des cubes multidimensionnels pour organiser et stocker les données. Ces cubes sont
des structures de données optimisées pour l'analyse multidimensionnelle, où les
données sont organisées en dimensions (comme le temps, le produit, le client) et
hiérarchies.
L'approche MOLAP est souvent utilisée lorsque les données sont pré-agrégées et
que des performances rapides de requête sont nécessaires. Elle convient
particulièrement bien aux applications de business intelligence, d'analyse de
données et de reporting, où l'accent est mis sur l'analyse multidimensionnelle des
données pour prendre des décisions stratégiques.
Dans une approche HOLAP, les données sont organisées et stockées de manière
hybride, en utilisant à la fois des cubes multidimensionnels et des bases de
données relationnelles. Les données agrégées sont généralement stockées dans
des cubes MOLAP, offrant ainsi des performances rapides pour les requêtes
analytiques. Quant aux données détaillées ou moins fréquemment utilisées, elles
sont stockées dans des bases de données relationnelles, permettant une plus
grande flexibilité et une intégration avec les systèmes existants.
L'approche HOLAP est souvent utilisée lorsque les données sont volumineuses,
complexes et nécessitent à la fois des performances rapides et une flexibilité pour
les requêtes analytiques. Elle permet aux utilisateurs d'exploiter les avantages des
deux approches (MOLAP et ROLAP) en fonction des besoins spécifiques de
l'analyse des données.
EXERCICE D’APPLICATION
1. Dans cet entrepôt de données, la table de fait est la table "VENTE". Les tables de
dimension sont "CLIENT", "PRODUIT" et "TEMPS".
```
CLIENT
|
VENTE
|
PRODUIT
|
TEMPS
```
4. Pour transformer le schéma en étoile en un schéma en flocon, on peut
normaliser la dimension "TEMPS" en décomposant la table en plusieurs tables plus
petites et normalisées. Par exemple, on pourrait ajouter les attributs suivants à la
table "TEMPS":
- Table "TEMPS":
- id-tps
- date-expédition
- prix-de-vente
- frais-de-livraison
- Table "ANNEE":
- id-année
- année
- Table "TRIMESTRE":
- id-trimestre
- trimestre
- Table "MOIS":
- id-mois
- mois
- nom-mois