Vous êtes sur la page 1sur 5

Analyse multidimensionnelle 2021/2022

Exercice 1
On considère un entrepôt de données permettant d’observer les ventes de produits d’une entreprise. Le
schéma des tables est le suivant :

CUSTOMER (cust_id, city, state, region, country)


PRODUCT (prod_id, prod_name, category, cost_price, sell_price, supplier)
TIME (time_key, month, month_name, quarter, year)
PURCHASES(prod_id, time_key, cust_id, purchase_price, shipping_charge)

TAF
Q1: Indiquez quelles sont les tables de faits et les tables des dimensions du schéma en étoile de cet
entrepôt.
Q2: On veut transformer ce schéma en schéma en flocon. Donnez la nouvelle représentation des tables
TIME, CUSTOMER et PRODUCT.

Exercice 2

Le Ministère de la Santé et du Bien-Etre vous sous-traite la réalisation d’un entrepôt de données


pour réaliser des études sur les dépenses de santé dans son pays. Les bases de production de cet
entrepôt sont les systèmes d’information des centres de sécurité sociale et des assurances santé
complémentaire qui gèrent les dossiers (électroniques) des assurés.
Le schéma de l’entrepôt est constitué des tables suivantes (les clés primaires sont soulignées) :

Rétro-Conception

Q1: Quelle est la table de fait dans cet entrepôt ? Justifiez votre réponse!
Q2 : Donnez les nouvelles tables si on décide de diminuer la taille de la table Assurée par une mini-
dimension démographique

1/5
Analyse multidimensionnelle 2021/2022
Exercice 3
L’opérateur BreeFox propose à ses abonnés un boiter routeur ADSL qui groupe un accès à IP, le
téléphone et un bouquet de chaînes de télévision interactives. Nous ne nous intéresserons qu’à cette
dernière fonction dans notre entrepôt de données.
Les chaînes de télévision proposées par BreeFox dans son bouquet sont des chaînes nationales et des
chaînes à péage. Seulement, les interruptions publicitaires (des chaînes nationales et à péage) peuvent être
personnalisées en fonction du profil du foyer (ou des adultes du foyer quand le contrôle parental est
déverrouillé). Le téléspectateur peut réagir (interactivement) de plusieurs manières aux émissions et aux
publicités qu’il reçoit au moyen de sa télécommande :

 A tout moment, il peut zapper vers une autre chaîne.


 A tout moment, il peut éteindre son poste.
 Pendant une publicité, il peut zapper à la pub suivante sans attendre la fin de la publicité en cours
(la durée de visualisation est importante).
 Pendant une publicité, il peut demander plus d’information sur le produit présenté (la durée de
visualisation est importante) puis revenir à l’émission en cours .

L’entrepôt de données est centré sur les actions du téléspectateur. L’objectif de cet entrepôt est de profiler
au plus précis le foyer (ou plutôt le téléspectateur qui détient la télécommande) afin de maximiser la
demande d’informations sur les produits présentés par les publicités. En effet, l’opérateur perçoit plus
d’argent de la part de l’annonceur quand le spectateur demande plus d’informations au moment de
l’annonce est passée !
Le schéma de l’entrepôt est constitué des tables suivantes (les clés primaires sont soulignées) :

Rétro-Conception
Q1: Quelle est la table de fait dans cet entrepôt ? Justifiez en deux lignes !
Q2: Que pensez vous de l’attribut TypeAction de Action ?
Q3: Donnez les nouvelles tables si on décide de diminuer la taille de la table Foyer par une mini-
dimension démographique.
2/5
Analyse multidimensionnelle 2021/2022
Dimensionnement

Q4: Donnez le nombre de faits (actions ou enregistrements) présents dans la table de fait.
 Nombre de foyers abonnés 3 Millions
 Nombre de actions par foyer et par heure 10
Un foyer regarde la télévision 320 jours par an, 5 heures par jour
 Nombre de tranche horaire 24
 Nombre d’ années 3
 Taille des clés 4 octets
 Taille des attributs numériques 4 octets
 Taille des attributs discrets (comme les types !) 1 octet
 Taille des attributs booléens (comme les drapeaux !) 1 octet

Donnez la taille d’un enregistrement de la table de fait ?


Donnez la taille (en Octets) de stockage de la table de fait ?

Exercice 4

Une agence de voyage aimerait pouvoir analyser ses données afin de planifier de meilleures
campagnes de promotion auprès de ses clients. Plus particulièrement, elle aimerait analyser le nombre
et le montant des ventes en fonction:
 De la destination: hôtel, ville, pays, région, catégorie de région (ex: bord de mer, alpine, etc.),
catégorie de destination (ex: familial ou non), catégorie hôtel (ex: 1-4 étoiles) ;
 De la date d'achat: jour de l'année, jour de la semaine, mois, année, saison touristique (ex: basse
ou haute saison);
 De la date de départ: jour de l'année, jour de la semaine, mois, année, saison touristique (ex:
basse ou haute saison);
 Du forfait: nombre de personnes, nombre de nuits, type de forfait (ex: tout inclus, repas inclus,
etc.), type de chambre (ex: standard, suite, etc.) ;
 Du client: groupe d'âge, sexe, adresse, type d'acheteur (ex: nouveau, récurrent, etc.) ;
 Du canal de vente: catégorie (ex: magasin, internet, etc.) ;
 De la promotion: catégorie (ex: 2 pour 1, rabais 10%, rabais 25%, etc.), début et fin de validité ;
 Du mode de paiement: catégorie (ex: crédit, comptant, etc.) ;

TAF
a) Proposez un schéma en étoile permettant de faire ces analyses. Identifiez clairement les clés
primaires et étrangères des tables de faits et de dimensions;
b) Identifiez, pour chaque table de dimension, une hiérarchie de niveaux de granularité
(e.g., attribut1 ← attribut2 ← …) ;

3/5
Analyse multidimensionnelle 2021/2022
Exercice 5
TU Hôtels est une petite chaîne d’hôtels ayant des propriétés dans plusieurs états américains. L’entreprise
possède une base de données centralisée pour stocker et faire le suivi des réservations de ses clients. En
2008, ils ont installé des restaurants appelés Café in the Hotel dans plusieurs de leurs hôtels. Un système
est employé pour faire le suivi des commandes et les relayer aux employés dans les cuisines.
TU Hôtels aimerait utiliser les données qu’ils ont emmagasinées pour mieux comprendre la performance
de leurs hôtels et restaurants. Ils ont également accès à une base de données de critiques de clients
provenant du site web HotelComplainer.com.
La tâche est de faire la conception de deux magasins de données (data marts) utilisant les données
provenant des trois sources mentionnées ci-haut. Vous devrez faire un schéma en étoile pour chaque
magasin de données en choisissant les dimensions, les faits, et les attributs à partir des sources, dont le
schéma relationnel est fourni à la page suivante.
TAF:La table suivante présente les questions analytiques auxquelles devra répondre vos magasins de
données :
Data mart 1: Performance des hôtels Data mart 2: Performance des restaurants
 Quels restaurants génèrent le plus de revenus?
 Durant quel mois y a-t-il le plus grand nombre de
 Les restaurants les mieux cotés génèrent ils plus de
réservations de chambre?
revenus?
 Quelle est la saison morte pour les hôtels
 Quel est l’item commandé le plus souvent dans une
situés dans une région particulière?
région particulière?
 Quels hôtels génèrent le plus de revenus (non
attribuables aux restaurants)?
 Quel est la durée moyenne des séjours dans les hôtels
de 4.5 étoiles ou plus?
 Les fumeurs restent-ils plus longtemps que les non-
fumeurs?
 Pour un hôtel donné, combien y a-t-il de clients
provenant d’un autre état?

Pour compléter l’exercice, vous devrez suivre les étapes suivantes :


1) Identifiez le principal évènement d’affaires pour chaque magasin de données;
Posez-vous la question suivante : “Quel est l’évènement d’affaires qui génère la (les) métrique(s) de
performance?
2) Identifiez les attributs associés aux faits.
Posez-vous la question suivante : “Comment l’évènement d’affaires est-il mesuré?”
3) Identifiez les dimensions et leurs attributs.
Posez-vous la question suivante : “Quelles données caractérisent les différents aspects d’évènement
d’affaires?”
4) Élaborez le schéma en étoile selon les principes vus en classe.

4/5
Analyse multidimensionnelle 2021/2022

5/5

Vous aimerez peut-être aussi