Académique Documents
Professionnel Documents
Culture Documents
Crédits : 4
Coefficient : 2
Objectifs de l’enseignement
L’accent sera mis sur l’analyse et l’amélioration des relations de l’entreprise avec ses clients à
l’aide de l’informatique décisionnelle. Une attention particulière est accordée à l’intelligence
numérique et le marketing en ligne (par exemple, le profilage des clients et des données
comportementales).
Contenu de la matière
Mode d’évaluation
Ouvrages
▪ Alain Fernandez. (2013). Les Nouveaux Tableaux de Bord des Managers. Eyrolles.
▪ Alan R. Simon & Steven L. (2001). Shaffer. Data Warehousing and Business
Intelligence for e-Commerce. Morgan Kaufmann Publishers.
▪ ALTER, Steven. (2001). Information systems: Foundation of e-Business. Prentice Hall
PTR.
▪ Anil K. Maheshwari. (2015). Business Intelligence and Data Mining. Big Data and
Business Analytics Collection. Business Expert Press.
▪ Bernard Liautaud et Mark Hammond. (2000). e-Business Intelligence: Turning
Information into Knowledge into Profit. McGraw-Hill, Inc.
▪ Carlo Vercellis. (2009). Business Intelligence Data Mining and Optimization for
Decision Making. John Wiley & Sons, Ltd.
▪ Deepak Pareek. (2007). Business Intelligence for Telecommunications. Auerbach
Publications. Taylor and Francis Group.
▪ Efrem G. Mallach. (2000). Decision Support and Data Warehouse Systems. McGraw-
Hill Higher Education.
▪ Gilles Bressy & Christian Konkuyt. (2002). Economie d’entreprise. Sirey.
▪ Jonathan Becher & Ronny Kohavi. (2001). Tutorial on E-commerce and Clickstream
Mining. First SIAM International Conference on Data Mining, April 2001.
▪ Ralph Kimball & Richard Merz (2000). The data Webhouse Toolkit: Building the Web‐
enabled Data warehouse. Industrial Management & Data Systems. John Wiley& Sons.
▪ Ralph Kimball and Margy Ross (2000). The Data Warehouse Toolkit: The Complete
Guide to Dimensional Modeling. John Wiley& Sons.
▪ Song, I. Y., & LeVan-Shultz, K. (1999, November). Data warehouse Design for e-
Commerce Environments. In International Conference on Conceptual Modeling (pp.
374-387). Springer, Berlin, Heidelberg.
▪ Wilfried Grossmann & Stefanie Rinderle-Ma. (2015). Fundamentals of Business
Intelligence. Springer-Verlag Berlin Heidelberg.
▪ William A. Giovinazzo. (2002). Internet-Enabled Business Intelligence. Prentice Hall
PTR.
▪ Zhengxin Chen. (2002). Intelligent Data Warehousing from Data Preparation to Data
Mining. CRC Press.
Cours
▪ Bernard Espinasse. Cours Introduction à l’informatique décisionnelle. Ecole
Polytechnique Universitaire de Marseille, 2013.
▪ D. Boukraâ. Cours Entrepôts de données. Université Mohamed Essadik Ben Yahya de
Jijel, 2018.
▪ M. Khodja. Cours économie d’entreprise. Université Mouloud Mammeri de Tizi Ouzou.
Durant ces dernières années, la recherche dans le domaine de la business réactive a été
marquée par le développement de nouveaux outils et méthodologies puissants qui font
progresser et orienter le sujet de la Business Intelligence (BI) vers de nouveaux horizons. La
façon dont les entreprises utilisent les données a radicalement changé, évoluant du simple
traitement opérationnel vers le traitement analytique dédié à l’aide à la décision, aboutissant à
l’utilisation stratégique de l’information.
De son côté, l’Internet a révolutionné le monde des affaires. Le e-commerce et les marchés
électroniques interentreprises B2B ont imposé des nouvelles règles pour la vente des biens et
des services et ont généré de nouvelles formes de réseaux de clients et de fournisseurs qui se
refaçonnent rapidement et quotidiennement. La concurrence s’est intensifiée et les
consommateurs ont devenu plus exigeants que jamais. Par conséquence, la Business
Intelligence (BI) est devenue essentielle pour toutes les entreprises qui s’efforcent de réussir
dans ce paysage économique hautement concurrentiel.
Correctement planifié, conçu et exécuté, un projet BI se traduira par des bénéfices substantiels
en fournissant les moyens d’une prise de décision plus rapide, plus précise et plus éclairée.
L’objectif de ce cours est d’explorer les opportunités et l’apport que la Business Intelligence
peut offrir aux entreprises dans le contexte du commerce électronique et du commerce en ligne.
Introduction
De nos jours, les systèmes d’information des entreprises globalisent des quantités
énormes de données de différentes nature (financières, quantitatives, qualitatives) qui
appartiennent à des domaines multiples (ensemble des activités internes de l’entreprise, les
marchés, les clients, l’environnement). Ces données doivent être transformées en informations
pertinentes, adaptées aux besoins de la prise de décision. Depuis une vingtaine d’années des
systèmes d’information spécialisés en l’aide au pilotage interne se sont développés, on parle de
la « Business Intelligence (BI) ». Ainsi, un nombre croissant d’entreprises remplacent les
techniques d’analyse traditionnelles par une approche basée BI. Cette approche permet aux
entreprises d’analyser les données au profit de leurs prises de décisions et de bien exploiter
leurs ressources pour raffiner ou modifier les plans de développement au fil des changements
du marché ou des nouvelles exigences qui émergent et deviennent prioritaires.
1. Généralités
1.1. La notion d’entreprise
Une entreprise en tant que système complexe est composée de trois sous-systèmes : le
système de décision (pilotage), le système opérant et le système d’information.
Toute entreprise dépend, structurellement, de la nature des décisions qui orientent son
activité et contrôlent ses objectifs. Par définition, une décision est un choix parmi plusieurs
alternatives qui vise la résolution d’un problème auquel l’entreprise est confrontée. Néanmoins,
les décisions prises quotidiennement dans l’entreprise ne sont pas toutes de même nature ni de
même importance :
- Les décisions opérationnelles sont des décisions répétitives à effet immédiat et dont le
résultat est connu d’avance. Elles portent sur l’exploitation courante de l’entreprise (ex. :
établissement des plannings, décision de réapprovisionnement en pièces détachées…).
Elles peuvent être prises à tous les niveaux de responsabilité.
- Les décisions tactiques (ou administratives) sont relatives à la gestion des ressources de
l’entreprise (ex. : décision d’acquérir un brevet, d’organiser des formations pour les
salariés…).
- Les décisions stratégiques déterminent l’orientation générale de l’entreprise (la politique
générale, les activités, les marchés à pénétrer…etc.). Elles sont prises surtout à partir des
informations émanent de l’environnement de l’entreprise. Elles ont un caractère non
répétitif et sont très souvent irréversibles (ex. : décision de lancement d’un nouveau
produit).
Le processus de la prise de décision est affecté non seulement par le style de direction
et la politique interne et externe de l’entreprise, mais aussi par les facteurs suivants :
• Les caractéristiques de l’entreprise (ses objectifs, son histoire, sa culture, son mode de
gouvernance, …etc.).
• La perception du problème par les décideurs.
• L’incertitude, la dynamique et la complexité de l’environnement.
• Les acteurs sociaux qui sont en relation avec l’entreprise : les actionnaires, les clients,
le personnel et les partenaires.
• L’image de l’entreprise auprès de l’opinion publique.
Les indicateurs de performance peuvent être utilisés pour exprimer un résultat ou un suivi. Un
indicateur de résultat est relié à l’accomplissement ou non de l’objectif fixé. Un indicateur de
suivi sert à anticiper l’action et réajuster les ressources en vue d’atteindre l’objectif fixé.
Rappelant qu’une donnée est un élément brut, qui n’a pas encore été interprétée ou mis en
contexte. Elle peut être collectée par un outil, par une personne ou juste récupérée via une source
annexe. En revanche, une information est une donnée interprétée placée dans un contexte.
La connaissance est une information traitée, utilisée pour aboutir à une action. Elle peut être
aussi un ensemble d’informations structuré, orienté sur un sujet, et validé par des règles établies
ou des expériences. L’utilisation des connaissances dans le contexte d’activité s’appelle du
savoir-faire ou des compétences.
Compétences
Connaissances
Informations
Données
La BI comprend :
Le terme « Business Intelligence » est un terme générique popularisé introduit par Howard
Dresner du groupe Gartner en 1989. La Business Intelligence décrit un ensemble de concepts
et de méthodes pour améliorer la prise de décision commerciale. Ce terme est parfois utilisé
pour désigner entre autres les outils de création des rapports et des requêtes, et les systèmes
d’information de direction (EIS, Executive Information System) qui ont évolué à partir de
systèmes à modèle mono-utilisateur d’aide à la décision.
À partir de 1990 environ, l’entreposage de données et OLAP ont commencé à élargir le domaine
de l’EIS et à définir une catégorie plus vaste des DSS pilotés par les données. D’autre part, le
Web et l’Internet ont accéléré les développements dans le domaine de l’aide à la décision et ont
fourni un nouveau moyen pour capturer et appliquer les connaissances. Ainsi, le DSS basé sur
le Web ou intégrant le Web est devenu réalisable au cours des années suivantes.
développer et de lancer des requêtes au sein de ces ensembles de données. Ces outils permettent
de créer des rapports, des tableaux de bord et des visualisations de données pour rendre les
résultats des analyses disponibles pour les preneurs de décisions.
De temps à autre, le terme de Business Intelligence est remplacé par celui de « Business
Analytics », qui désigne plus généralement les technologies analytiques avancées mais peut
aussi inclure la Business Intelligence.
L’informatique décisionnelle permet d’effectuer des tâches importantes telles que les
prédictions basées sur les données et les expériences passées et courantes de l’entreprise ; les
analyses de type « What-If » sur les impacts du changement de l’environnement de l’entreprise
et les scénarios alternatifs ; un accès ad-hoc aux données pour répondre à des questions
spécifiques et inhabituelles et à des idées stratégiques pour n’en citer que quelques-unes. On
peut mentionner aussi les avantages suivants :
6. Applications de la BI
Les outils BI sont nécessaires pour presque toutes les secteurs et les domaines.
Aujourd’hui, les dirigeants et les décideurs ont besoin d’accéder aux outils de BI pour disposer
des indicateurs à jour sur la prestation et la performance de l’entreprise. Voici quelques
domaines d’applications de BI :
Une entreprise doit comprendre les besoins et les attentes du client, vendre davantage
de ses offres aux clients existants et élargir le récipient de clients qu’elle sert. Les applications
BI peuvent avoir un impact sur de nombreux aspects du marketing :
6.2. La santé
Les applications BI peuvent aider à appliquer les diagnostics et les prescriptions les plus
efficaces pour diverses affections. Ils peuvent également aider à gérer les problèmes de santé
publique et à réduire le gaspillage et la fraude.
Comprendre les modèles d’achat des clients émergents peut aider les détaillants à
organiser leurs produits, leurs inventaires, l’agencement de leur magasin et leur présence sur le
Web afin de satisfaire leurs clients, ce qui à son tour contribuerait à augmenter les revenus et
les bénéfices.
Les banques accordent des prêts et proposent des cartes de crédit à des millions de
clients. Ils souhaitent surtout améliorer la qualité des prêts et réduire les créances douteuses. Ils
veulent également fidéliser davantage de bons clients et leur vendre plus de services.
6.5. L’assurance
6.6. Le télécom
6.7. Le gouvernement
Conclusion
Introduction
La Business Intelligence est désormais un outil essentiel pour les entreprises. Une BI
bien ficelée doit maîtriser le processus décisionnel et atteindre ses objectifs de croissance et
d’efficience.
Le processus décisionnel, appelé aussi la chaîne décisionnelle, se compose des processus, des
techniques et d’outils permettant le traitement de l’information à des fins décisionnelles. Il se
présente souvent en architecture à trois-tiers. Chacun de ces tiers correspond à une phase
importante dans la conception d’un projet BI.
L’architecture d’un système de BI, illustrée à la figure 2.1, comprend trois composants
principaux.
L’entrepôt de données (base de données décisionnelle, ou encore datawarehouse) est une base
de données multidimensionnelle conçue pour stocker et journaliser les données de l’entreprise
en provenance de diverses sources de données. Un entrepôt de données peut être modélisé sous
forme d’un datawarehouse ou d’un datamart.
En règle générale, le datawarehouse globalise toutes les données de l’entreprise, tandis que les
datamarts ; qui sont alimentés depuis les données du datawarehouse (littéralement en anglais
magasins de données) ; sont des sous-ensembles d’un datawarehouse souvent spécialisés vers
un groupe d’utilisateurs ou un type d’affaire (marketing, achat/vente, contrôle de gestion, ...).
Notant que l’interopérabilité entre les systèmes d’entrepôt de données, les applications
informatiques ou de gestion de contenu est réalisée grâce à une gestion des métadonnées.
1.3. Reporting
Dans cette étape, les données intégrées sont finalement extraites des datawarehouses et utilisées
pour alimenter des modèles mathématiques et des méthodologies d’analyse destinées à aider
les décideurs. Dans un système de Business Intelligence, plusieurs applications d’aide à la
décision peuvent être mises en œuvre :
A noter que les techniques de fouille de données et les outils d’analyse de type OLAP (On-Line
Analytical Processing) sont les plus largement utilisés.
Le point de départ des applications BI sont les objectifs d’analyse. Ces objectifs peuvent
être formulés de deux manières différentes :
La première formulation est basée sur ce que l’on appelle des indicateurs clés de
performance (KPI : Key Performance Indicator). Un indicateur clé de performance KPI relie
les activités de l’entreprise à ses objectifs en poursuivant le développement d’une quantité
mesurable.
Les objectifs analytiques de la BI visent à comprendre la relation entre les KPI et les facteurs
d’influence. On peut distinguer trois grands types d’objectifs analytiques :
En complément de la Figure 2.1, la Figure 2.2 montre les éléments constitutifs d’un
système de Business Intelligence. Les composantes des deux premiers niveaux ont été discutés
ci-dessus. Passons maintenant à la description des niveaux supérieurs restants.
Décisions
Optimisation
Fouille de données
Exploration de données
Entreposage de données
Sources de données
Les outils permettant d’effectuer des analyses BI exploratoires consistent à des systèmes
d’interrogation de données et de Reporting, ainsi que des méthodes statistiques. Ces outils sont
appelés « passifs » car les décideurs sont invités à générer des hypothèses préalables ou à définir
des critères d’exploration de données, puis à utiliser les outils d’analyse pour comprendre les
données, trouver des réponses à leurs questions et confirmer leurs points de vue initiaux.
La fouille de données (Data Mining) vise à découvrir des connaissances, des idées et des motifs
utiles à partir d’une collection organisée de données. Les modèles doivent être valides,
nouveaux, potentiellement utiles et compréhensibles.
Contrairement aux outils décrits au niveau précédent de la pyramide, les modèles de type actif
ne demandent pas aux décideurs de formuler une hypothèse préalable pour être ensuite vérifiée.
Leur objectif est plutôt d’élargir les connaissances des décideurs.
3.3. Optimisation
Le choix et l’adoption effective d’une décision spécifique est la dernière étape dans un
système BI qui représente en quelque sorte la conclusion naturelle du processus décisionnel. En
plus des informations et des connaissances obtenues grâce aux méthodologies automatiques
d’aide à la décision, les décideurs peuvent également profiter des informations informelles et
non structurées disponibles dans l’entreprise pour adapter et modifier leurs décisions.
contexte de l’entreprise ainsi que des méthodologies analytiques disponibles. Néanmoins, il est
possible d’identifier un cycle relativement commun caractérisant l’évolution d’une analyse de
type Business Intelligence, comme le montre la Figure 2.3 :
Analyse
Evaluation Aperçu
Décision
Comme tout projet, le développement d’un système BI requiers de fixer un objectif bien
déterminé, d’estimer les délais et les coûts, ainsi que de coordonner les ressources nécessaires
à la réalisation des tâches et des activités planifiées.
La Figure 2.4 montre le cycle de développement typique d’une architecture BI. Bien que les
projets BI se diffèrent selon le contexte, les besoins des entreprises et les moyens déployés au
projet, les étapes essentielles peuvent être décrites en ce qui suit :
Conclusion
Introduction
Des informations peuvent être fournies sur l’état courant de l’entreprise avec la possibilité
d’approfondir les détails, ainsi que des informations sur les modèles émergents qui conduisent
à des projections dans le futur. Les outils de BI incluent l’entreposage de données, le traitement
analytique en ligne, l’analyse des médias sociaux, le Reporting, les tableaux de bord, les
requêtes et la fouille de données.
1. ETL
1.1. Extraction
L’extraction est soutenue par une tâche de détection d’anomalies dans les données
extraites pour un traitement ultérieur suivant le processus ETL.
1.2. Transformation
- Incohérence : Convertir / uniformiser les noms des attributs, découper les champs
complexes, nettoyer la déduplication (ex : plusieurs enregistrements pour un même
client), unifier les types de données, les longueurs, les contraintes...
1.3. Chargement
C’est l’opération qui consiste à charger les données nettoyées et préparées dans
l’entrepôt de données. C’est une phase plutôt mécanique et la moins complexe.
Les métadonnées sont des informations qui définissent et décrivent les structures, les
opérations, et le contenu du système décisionnel. Les métadonnées permettent d’automatiser
certains composants d’entreposage (dont l’ETL) et assurent les liens entre les sources de
données et l’entrepôt de données. On distingue trois types de métadonnées : les métadonnées
techniques, d’affaires, et de processus
2. Datawarehouse
Un entrepôt de données (DW : Datawarehouse) est une grande base de données dans
laquelle sont déposées après nettoyage et homogénéisation les données en provenance des
3. OLAP
Le modèle multidimensionnel présente une vue statique des données. Il a besoin d’être
manipulé pour extraire des informations nécessaires à la prise de décision. L’exploitation des
données multidimensionnelles peut se faire par divers outils (OLAP, outils de Reporting, fouille
de données).
OLAP (On Line Analytical Processing) est un concept proposé par Codd en1993. Il peut
être défini comme étant l’analyse rapide d’information multidimensionnelle partagée.
- Analyse en ligne.
- Permettre l’exploration et la navigation dans les données.
- Passage entre différents niveaux d’agrégation.
- Possibilité de sélection des données détaillées ou agrégées.
Exemple
Exemple : le cube ci-dessus représente le fait ventes d’une entreprise selon les dimensions
produits, magasin, et dates.
4. Data mining
5. Reporting
On désigne par Reporting la tâche qui permet l’extraction des données de diverses
sources pour les représenter sur des tableaux, des graphiques, des présentations visuelles ou
d’autres styles présentatifs afin que les informations soient plus faciles à comprendre, à analyser
et à explorer. Le Reporting vise à rassembler, organiser et analyser des données dans des
rapports significatifs qui peuvent être imprimés ou redistribués d’une manière ou d’une autre.
Il existe de nombreux types d’outils de Reporting, tels que les tableaux de bord, les outils de
visualisation de données, les rédacteurs de rapports ad-hoc, etc. Quelques exemples intéressants
incluent :
- Un tableur, tel que Microsoft Excel, peut agir en lui-même comme un outil BI de
Reporting simple mais efficace. Les données peuvent être téléchargées et stockées dans
la feuille de calcul, puis analysées pour produire des informations, puis présentées sous
forme de graphiques et de tableaux. Ce système offre une automatisation limitée à l’aide
de macros et d’autres fonctionnalités. Les fonctions analytiques comprennent des
fonctions statistiques et financières de base. Les tableaux croisés dynamiques
permettent d’effectuer des analyses de simulation sophistiquées. Des modules
complémentaires peuvent être installés pour permettre une analyse statistique assez
sophistiquée.
- Un système de tableau de bord, tel que Tableau, peut offrir un ensemble d’outils pour
la collecte, l’analyse et la présentation des données. Du côté de l’utilisateur, les tableaux
de bord modulaires peuvent être conçus et repensés facilement avec une interface
utilisateur graphique. Les tableaux de bord sont liés à des entrepôts de données pour
s’assurer que les tableaux et graphiques et autres éléments du tableau de bord sont mis
à jour en temps réel.
- Les systèmes de fouille de données, tels que IBM SPSS Modeler et Weka, sont des
systèmes puissants qui offrent des capacités importantes pour appliquer une large
gamme de modèles analytiques sur de grands jeux de données.
L’efficacité d’un outil BI de Reporting dépend plusieurs critères. Nous citons entre
autres : la simplicité et la convivialité de l’interface d’utilisateur (UI), l’intuitivité, l’évolutivité
et la flexibilité des rapports générés, la capacité à extraire les données à partir de différents
types de sources de données.
Conclusion
Les systèmes BI explorent les données de l’entreprise avec des technologies et des outils
analytiques puissants pour présenter les informations complexes et concurrentielles aux
planificateurs et aux décideurs sous forme de rapports informatifs et compréhensibles.
L’objectif étant d’améliorer la rapidité et la qualité du processus de prise de décision et de
permettre un bon contrôle sur l’environnement dynamique et évolutive de l’entreprise.
Introduction
Un entrepôt de données (en anglais, datawarehouse) est une grande base de données
dans laquelle sont déposées après nettoyage et homogénéisation les données en provenance des
différents systèmes de production de l’entreprise.
Les entrepôts de données permettent de produire des rapports qui répondent à la question « Que
s’est-il passé ? », mais ils peuvent être également conçus pour répondre à la question analytique
« Pourquoi est-ce que cela s’est passé ? » et à la question pronostique « Que va-t-il se passer ? ».
Dans un contexte opérationnel, ils répondent également à la question « Que se passe-t-il en ce
moment ? », voire dans le cas d’une solution d’entrepôt de données actif « Que devrait-il se
passer ? ».
Selon Bill Inmon (1996) : « Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un
processus d’aide à la décision ».
- Orientées sujet : les données sont organisées autour des sujets majeurs de l’entreprise.
Un entrepôt de données présente une vue synthétique des données selon les sujets
intéressant les décideurs.
- Intégrées : les données sont construites en intégrant des sources de données multiples
et hétérogènes (bases de données relationnelles, fichiers, enregistrements de
transactions…). Elles doivent être mises en forme et unifiées afin d’avoir un état
cohérent.
- Historisées : un entrepôt de données assure la conservation de l’historique des données
et de son évolution. Un référentiel temps doit être associé aux données pour permettre
les analyses comparatives (par exemple, d’une année sur l’autre, etc.).
- Non volatiles : les données d’un entrepôt de données sont stables, non modifiables, et
en lecture seule (conséquence de l’historisation). L’objectif est de conserver la
traçabilité des informations et des décisions.
Le tableau ci-dessous résume les différences principales entre les entrepôts de données
et les bases de données relationnelles :
Un entrepôt d’entreprise collecte toutes les informations sur des sujets couvrant
l’ensemble des activités de l’organisation (entreprise).
Un entrepôt virtuel est un ensemble de vues matérialisées sur des bases de données
opérationnelles.
- Pour un traitement efficace des requêtes, seules certaines des vues récapitulatives
possibles peuvent être matérialisées.
- Un entrepôt virtuel est facile à construire mais nécessite une capacité excédentaire sur
les serveurs de base de données opérationnels.
Généralement, la modélisation d’une base de données se fait sur trois niveaux : niveau
conceptuel, niveau logique, niveau physique. La modélisation conceptuelle d’un entrepôt de
données est de type multidimensionnel et la modélisation logique suit des différents modèles
des systèmes OLAP. Au niveau physique, les structures de stockage utilisées sont les entrepôts
de données ou les magasins de données.
- L’intérêt est porté sur une partie des données et non pas sur la totalité des
données (seulement les données nécessaires à la prise de décision).
- L’intuitivité du modèle de données.
- La tolérance à la violation de certains principes de modélisation classiques (formes
normales) en renforçant les contrôles d’intégrité.
- La vision analytique des données où l’objectif est d’analyser les performances et
l’activité d’une entreprise
Exemple : soit les données relatives à l’activité ‘ventes’ d’une entreprise de distribution 𝑋 à
l’année 2017 :
Bricolage Msila 30
Bricolage BBA 30
Considérons plusieurs tables des ventes de chaque année entre 2015 et 2017. On peut
alors observer les données dans un espace à trois dimensions :
Figure 4.3. Un exemple illustratif : les tables des ventes de l’entreprise 𝑋 des années 2015,
2016 et 2017
De l’exemple illustratif précédent, on peut définir comme fait « le montant des ventes » et
comme dimensions d’analyse la « catégorie de produit », la « région », et le « temps ».
En résumé, un Fait :
▪ ces mesures sont numériques et généralement valorisées de façon continue, on peut les
additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne.
Exemple : le fait de « Vente » peut être constitué des mesures d’activités suivantes :
Le fait « Vente » peut être analysé suivant différentes perspectives correspondant à trois
dimensions : la dimension Temps, la dimension Géographie et la dimension Catégorie :
La hiérarchie de paramètre d’une dimension définit les niveaux de détail de l’analyse sur
cette dimension.
- ROLAP (Relational OLAP) : les données sont stockées dans un SGBD relationnel et un
moteur OLAP permettant de simuler le comportement d’un SGBD multidimensionnel est
utilisé.
- MOLAP (Multidimensional OLAP) : la structure de stockage est en cube et l’accès est
direct aux données des cubes.
- HOLAP (Hybrid OLAP) : les données sont stockées dans un SGBD relationnel
(données de base) tandis que la structure de stockage est en cube (données agrégées).
- Une (ou plusieurs) table(s) de faits contenant les mesures (les faits).
- Plusieurs tables de dimension contenant les paramètres de description des mesures (les
dimensions).
Exemple : la table ‘Vente’ correspond au fait et les tables ‘Temps’, ‘Géographie’, ‘Catégorie’
représentent les dimensions.
Trois schémas typiques sont proposés pour représenter un entrepôt de données : schéma
en étoile, schéma en flocon de neige, et schéma en constellation de faits.
Schéma en étoile
- Une table de faits centrale et plusieurs tables de dimensions dénormalisées.
- Les mesures sont stockées dans la table de faits.
- Il existe une table de dimension pour chaque dimension avec tous les niveaux
d’agrégation.
- Les tables de dimension n’ont pas de liens entre elles.
- Traitement explicite des hiérarchies de dimension (chaque niveau est représenté dans une
table différente).
- Plus facile à maintenir, plus lent lors de l’interrogation.
Un entrepôt de données peut être construit en utilisant une approche descendante, une
approche ascendante ou une combinaison des deux.
- Choisir un processus métier pour modéliser, par exemple, les commandes, les factures,
les expéditions, l’inventaire, l’administration des comptes, ou les ventes. Si le processus
métier est organisationnel et implique plusieurs collections d’objets complexes, un
modèle d’entrepôt de données (datawarehouse) doit être suivi. Sinon, si le processus est
départemental et se concentre sur l’analyse d’un type de processus métier, un modèle
de magasin de données (datamart) doit être choisi.
- Choisir la granularité du processus d’affaires. La granularité est le niveau atomique
fondamental des données à représenter dans la table de faits pour ce processus, par
exemple, les transactions individuelles, les instances quotidiens individuels, etc.
- Choisir les dimensions qui s’appliqueront à chaque enregistrement de table de faits. Les
dimensions typiques sont le temps, le produit, le client, le fournisseur, le type de
transaction et le statut.
- Choisir les mesures qui rempliront chaque enregistrement de table de faits. Les mesures
typiques sont des quantités additives numériques telles que les chiffres d’affaires et les
quantités vendues.
Conclusion
Introduction
L’objet de ce dernier chapitre est les entrepôts de données pour le commerce et le business
électronique.
1. Généralités
1.1. Architecture client/serveur
Un site Web est un ensemble de pages web et de ressources reliées par des hyperliens,
défini et accessible par une adresse web. Un site Web est hébergé sur un serveur web accessible
via le réseau mondial Internet.
Un serveur Web est une machine physique située quelque part dans le monde sur
laquelle est installé :
Un serveur Web est identifié par une « adresse IP ». Exemple : 66.249. 64.125.
La figure ci-dessous montre les interactions entre un navigateur web (client web) et un site web
(serveur web).
Une visite, ou une session Web, est une période délimitée d’interaction entre un
navigateur (client Web) et un site Web (serveur Web).
Néanmoins, l’Organisation mondiale du commerce (OMC), propose une autre conception très
large qui englobe également la production. Elle définit le commerce électronique par « la
production, publicité, vente et distribution de produits par des réseaux de télécommunication ».
Les affaires électroniques précèdent et prolongent les échanges purement transactionnels liés
au commerce électronique pour l’achat, la vente et le paiement des biens et services. Leur
domaine d’application est plus large que le commerce électronique. Il concerne aussi bien
l’organisation du travail dans une organisation que sa façon de communiquer et d’échanger des
données avec ses clients, ses sous-traitants, ses fournisseurs et ses partenaires.
- Les données Web et les données numériques qui proviennent des outils et des systèmes
numériques de communication à distance.
- Un système ETL qui permet l’extraction, la transformation, et le chargement de ces
types de données dans l’entrepôt de données de l’entreprise qui contient déjà de
nombreux flux provenant de systèmes de traitement des transactions.
- Un entrepôt de données qui consolide les données préparées par l’ETL dans des
nouvelles tables de dimensions et tables de faits.
- Données liées à la structure Web : elles capturent les liens entre les pages Web.
- Données liées au contenu Web : elles capturent le contenu statique ou dynamique,
textuel ou multimédia des sites Web.
- Données liées à l’utilisation de Web : elles capturent l’identité d’un utilisateur et son
comportement de navigation.
Dans un contexte décisionnel intégrant les données en ligne, on s’intéresse particulièrement aux
données comportementales de navigation des utilisateurs. Ce type de données est appelé « flux
interactif » ou « flux de clics » (clickstream, en anglais).
Le traitement de données sources de type flux interactif est indispensable pour le processus
décisionnel des entreprises qui sont de plus en plus actives sur le web. En effet, mesurer et
comprendre le comportement de l’utilisateur Web conduit toutes les techniques de marketing
en ligne, qu’il s’agisse de programmes de promotion des ventes d’une durée de plusieurs
semaines ou de messages de bienvenue instantanés affichés sur l’écran de l’utilisateur. Dans
tous ces cas, les informations comportementales brutes doivent être apportées à une base de
données performante pour l’analyse. La base de données est, bien sûr, l’entrepôt de données,
que nous appelons le « data webhouse » ou bien l’entrepôts de données Web.
Dans sa forme la plus élémentaire, le flux interactif se compose de tous les évènements
de page web enregistrés par chacun des serveurs web. En d’autres termes, le flux de clics est
littéralement un journal de chaque geste effectué par chaque visiteur d’un site Web commercial,
lorsqu’il navigue sur Internet ou lorsqu’il utilise un autre outil informatique. Il comporte des
informations personnelles qui concerne l’utilisateur, des statistiques sur les visites effectuées
sur le site web, des informations démographiques extraites depuis les cookies liés aux
utilisateurs …etc.
Pour collecter les données flux interactif, un certain nombre de sources existent. Les
deux sources les plus utilisées sont : les fichiers journaux et les cookies.
Les serveurs Web produisent des quantités riches de données journaux. Un serveur Web
enregistre tout évènement déclenché pendant l’interaction client web, site web. Il sauvegarde
tout fichier ou image téléchargée, tout page web ouverte...etc.
Le serveur web journalise chaque requête HTTP dans un fichier journal ASCII enregistré dans
le fichier système. Les informations généralement contenues dans chaque entrée de fichier
journal incluent : adresse IP, date et heure, requête HTTP, et le type du navigateur Web et sa
version. Chaque entrée est typiquement formatée suivant les spécifications CLF (Common Log
Format). Bien que le format du fichier journal soit finalement lié au choix du propriétaire du
serveur Web, les quatre formats suivants sont parmi les plus populaires : NCSA Common Log,
NCSA Combined Log, NCSA Separate Log et W3C Extended Log.
Une entrée typique dans un fichier journal se compose des champs suivants :
En plus de ces champs communs, une forme extensible d’une ligne d’informations dans un
fichier journal peut comporter deux autres champs :
✓ Referrer (prescripteur) : est un texte en chaine de caractères envoyé par le client Web
pour indiquer l’origine de la requête ou du lien en cas où il a accédé au site web d’une
manière indirecte depuis un lien dans un autre site web ou une autre application.
✓ Agent : ce champ identifie le programme client (Crawlers ou Spiders des moteurs de
recherches) ou le navigateur qui a effectué la requête.
Le cookie est l’équivalent d’un fichier texte de petite taille au format alphanumérique,
stocké sur le terminal du client web par le serveur web du site visité ou par un serveur tiers
(régie publicitaire, service de web analytique, etc.).
Un navigateur Web crée un fichier « cookie » à la demande d’un serveur Web. Le cookie réside
dans la mémoire lorsque le navigateur est ouvert. Lorsque le navigateur est fermé, les cookies
sont écrits sur le disque dur. Le serveur Web demande la création d’un cookie avec un entête
de type « Set-Cookie HTTP Response ». Le format d’un entête « Set-Cookie HTTP Response »
est comme suit :
Tel que :
✓ Name=value : est un champ obligatoire. Le nom peut être n’importe quelle séquence
de caractères. Les cookies peuvent stocker plus de 4 KB de données (typiquement entre
50 et 150 Bytes).
✓ Expires=date : le navigateur supprime le cookie du disque dur à cette date.
✓ Path=path : le champ « path » indique au navigateur à quelle adresse URL le cookie
doit être envoyé.
✓ Domain=domain : indique pour quel nom de domaine le cookie est valide.
✓ Secure : un cookie sécurisé est envoyé uniquement sur le serveur HTTPS (HTTP sur
SSL). Pour que le cookie soit envoyé, la communication doit être sécurisée.
Un FAI (Fournisseurs d’Accès Internet, en anglais Internet Service Provider, ISP) est
le prestataire qui assure la liaison entre un réseau domestique ou d’entreprise et le reste de
l’Internet. Il peut être propriétaire de la liaison physique, câble, fibre ou paire téléphonique qui
sépare un client de son Point de Présence (PoP) le plus proche, ou la louer à un autre opérateur.
Il est seul responsable de cette liaison, des services offerts et des adresses IP fournies. Par
conséquent, le FAI possède naturellement une perspective bien complète sur toutes les données
de navigation correspondantes à ses clients.
Un service de surveillance utilise les scripts, les agents, les cookies ou le code côté serveur pour
suivre les performances du site Web à mesure que chaque visiteur accède au site. Il repose sur
l’interaction de l’utilisateur avec le site Web pour capturer les données réelles des clients qui
seront ensuite analysées afin de déterminer le bon fonctionnement des transactions client/site
web.
Les données de comportement interactif peuvent être collectés en analysant les requêtes
de recherche et les spécifications entrées par l’utilisateur avant d’être finalement dirigé vers le
site web marchand.
Les actions d’un internaute peuvent être motivées par un certain nombre de besoins
différents, et ces besoins peuvent changer d’un instant à un autre au cours d’une session de
navigation. Voici quelques-unes des actions les plus courantes qu’un utilisateur peut effectuer
au cours d’une session Web. Il est important de noter que les visiteurs peuvent à tout moment
faire des va-et-vient entre ces actions et peuvent facilement se perdre dans un labyrinthe de
pages et de liens sans être en mesure de retrouver leur chemin vers l’endroit où on souhaite
qu’ils se concentrent.
Dans un environnement de e-commerce basé sur le Web, le client peut être identifié et suivi
tout au long du parcours d’achat. Les sites Web marchands intègrent des outils de suivi des
visiteurs et de leurs actions, afin de mesurer l’efficacité et l’impact du site. Ces informations de
suivi sont ensuite utilisées pour personnaliser le contenu dynamique du site, augmentant ainsi
la pertinence et l’intérêt du contenu à mesure que la session se continue ou que l’utilisateur
revient sur le site à une date ultérieure.
Le comportement d’un utilisateur lors d’une visite du site Web marchand peut fournir
des informations précieuses sur l’efficacité du site, ainsi que sur les habitudes de navigation de
l’utilisateur. La valeur réelle de l’identification du comportement est d’améliorer la qualité de
l’interaction de l’utilisateur avec l’entreprise. L’amélioration de l’interaction se traduit
directement par la fidélité des clients, une augmentation des revenus et des bénéfices accrus.
De nombreux aspects du comportement peuvent être mesurés et enregistrés par un site Web
correctement organisé. Les aspects les plus importants peuvent inclure :
D’où vient le visiteur ? Comment a-t-il trouvé le site Web ? Comment est-il arrivé à une
page, une image ou un bon de commande en particulier ? Les réponses à ces questions sont
d’une importance singulière pour le service marketing car elles déterminent l’efficacité de la
promotion du site. Attirer des visiteurs peut être extrêmement coûteux, et de nouvelles façons
d’attirer des visiteurs sont constamment inventées. Il existe un certain nombre de méthodes
courantes pour attirer les utilisateurs sur un site web donné.
ordinateur, non un individu. En outre, on doit être capable à différencier un visiteur normal
d’un visiteur de type robot ou crawler.
4. Le traitement des serveurs proxy : un serveur proxy intercepte les demandes de page de
visiteur. On peut empêcher l’utilisation des serveurs proxy ou dans certains cas on peut
obtenir les fichiers journaux de ces serveurs.
1. Analyse des prescripteurs (Referral Analysis) : un prescripteur est un lien qui fait
référence à un site web e-commerce. L’analyse des prescripteurs vise à répondre à la
question « comment un visiteur arrive à un site web donné (d’où il vient ?) ». C’est une
question très importante pour suivre l’utilisation des liens externes à un site web.
2. Analyser le chemin d’achat : analyse comment les clients arrivent à passer une
commande, ou quand est ce qu’ils abandonnent une commande.
3. Analyse des visites répétées (Repeat Visitor Analysis) : suivre comment et quand est
ce que les visiteurs retournent à un site web.
L’exploitation des données du flux interactif doit être précédée par une étape de
nettoyage, de traitement et de préparation. Parmi les transformations indispensables, on peut
citer les procédures suivantes :
L’entrepôt de données web, que l’on appelle data webhouse, est l’instanciation Web de
l’entrepôt de données classique que l’on appelle data warehouse. D’autres termes qui réfèrent
à la même définition sont aussi utilisés comme : entrepôt de données numériques ou entrepôt
de données en ligne.
Figure 5.4. Le consommateur, le site web et le webhouse (Kimball & Merz, 2000)
Le data webhouse joue un rôle crucial et central dans l’architecture décisionnelle d’une
entreprise active sur le Web. Pour réaliser ce potentiel, le data webhouse :
• Héberge les données de flux interactif et d’autres données Web comportementales qui
permettent de comprendre le comportement des clients en ligne.
• Est conforme aux autres magasins de données (data marts) de l’entrepôt de données
d’entreprise, de sorte que tous ces magasins de données puissent être utilisés ensemble.
• Est une source d’information adaptative et résiliente. Il peut répondre aux nouvelles
questions commerciales qui se posent à l’entreprise sur l’environnement virtuel.
• Est extensible aux nouveaux médias du Web, y compris les images fixes, les graphiques,
l’audio et la vidéo.
• Est la base du processus de la prise de décision qui tient en compte les données Web
(web-enabled decision making). Là encore, les données webhouse doivent permettre à
ses utilisateurs de prendre des décisions visant le Web, ainsi que de prendre des
décisions en utilisant le Web.
La figure ci-dessous montre l’architecture d’un Webhouse de données, proposée par Kimball
et Merz (2000). Les éléments de cette architecture : le serveur web, le serveur des transactions
commerciales et le système du data Webhouse sont supposés appartenir à une seule entité
commerciale.
Les connexions du serveur Web public vers d’autres serveurs doivent être bien sécurisées
afin de minimiser le risque extérieur de compromettre les données de ces serveurs à partir
du serveur Web.
• Le serveur des transactions commerciales (Public Application and Business
Transaction Server) : le travail du serveur de transactions commerciales est d’enregistrer
les transactions commerciales d’une manière juridiquement et financièrement responsable
et de ne jamais perdre ces transactions. La fonction de serveur de transaction commerciale
est très différente de la fonction de serveur Web, et dans toute entreprise sérieuse, ces deux
serveurs doivent être séparés logiquement et physiquement.
• Le cache de réponse instantanée (Hot Response Cache) : une façon de réduire la pression
sur les principaux moteurs de base de données consiste à créer un puissant cache de réponse
instantanée. Le cache de réponse instantanée est un serveur de fichiers conçu pour anticiper
autant de demandes d’informations prévisibles et répétées que possible. Le cache de réponse
instantanée est un complément des serveurs d’applications qui alimentent le serveur Web
public et le point d’entrée du pare-feu privé pour les employés.
• Le système de data webhouse (Data Webhouse Server Suite) : le data Webhouse est en
fait un système distribué, dont tous les composants sont dupliqués plusieurs fois dans une
grande organisation typique. Les quatre types de serveurs dans le système de Webhouse :
le cache de réponse instantanée, les moteurs du SGBD relationnel et d’OLAP, le serveur
d’application de données Webhouse et le serveur multimédia ; jouent des rôles très
différents.
Le cache de réponse instantanée est une sorte d’un comptoir de données opérationnelles qui
peut répondre instantanément aux besoins du serveur Web public. En général, le cache de
réponse instantanée n’exécute pas des requêtes complexes. Il incombe au serveur
d’applications Webhouse de données et aux moteurs de base de données relationnelle de
préparer la plupart des résultats instantanés nécessaires à la récupération d'informations en
temps réel et de les télécharger dans le cache de réponse instantanée.
Le Webhouse est également disponible via le pare-feu privé pour les utilisateurs qualifiés
sur le Web. Ces utilisateurs sont généralement des employés et des partenaires
commerciaux de l'entreprise.
Le serveur d’application des données Webhouse est le standard pour toutes les activités des
utilisateurs qualifiés. Il est capable d’accéder au cache de réponse instantanée, à tous les
moteurs de bases de données relationnelles et aux autres serveurs de documents et
multimédias. Le serveur d’applications Webhouse fournit tout dans un format compatible
avec le navigateur. Peu importe que l’utilisateur se trouve dans l’entreprise ou qu’il soit
réellement localisé à distance sur le Web.
Prescripteur
CLE_prescripteur SESSION
Type_prescripteur CLE_session PAGE
URL_prescripteur Type_session CLE_page
Site_prescripteur Contenu_local Nom_page Evènement
Domaine_prescripteur Contexte_session Source_page CLE_event
Type_recherche Statut_session Fonction_page Type_event
Specifications_recherche Statut_visiteur Graphic_page Contenu_event
• Dimension Page
Décrit le contexte de la page web. Elle peut inclure entre autres les attributs suivants : clé
primaire de la dimension, nom de page, source de page (statique ou dynamique), fonction de
page (page d’accueil, page de recherche, page de description d’un produit), type de graphiques
de page (GIF, GPG...), …etc.
• Dimension Evènement
Décrit que ce qu’il se produit sur une page particulière à un instant particulier. Les attributs de
la dimension Evènement sont : clé primaire de la dimension, type d’évènement (les évènements
principaux d’une page sont : ouvrir la page, actualiser la page, cliquer sur un lien dans la page,
entrer des données), contenu de l’évènement.
• Dimension Session
Produire un niveau de diagnostic sur la session d’un visiteur d’un site web. Elle peut inclure
entre autres les attributs suivants : clé primaire de la dimension, type de session (classifiée, non
classifiée, inapplicable), contenu local (contexte dérivé de la page, par exemple : demande des
Décrit comment le visiteur est arrivé au site web en question. Elle peut inclure entre autres les
attributs suivants : clé primaire de la dimension, type de prescripteur (moteur de recherche,
blog, site de publicité…), URL de prescripteur (exemple :
www.organization.site.com/linkspage), site de prescripteur (exemple :
www.organization.site.com), domaine de prescripteur (exemple : site.com), type de recherche
(correspondance textuelle simple, logique de correspondance complexe), spécification (mots
clés utilisés), cible (lieu où la recherche a trouvé la correspondance : titre de page, contenu de
page, tags de page…).
On peut concevoir des différents modèles multidimensionnels pour intégrer les données
de flux interactif dans un entrepôt de données selon les objectifs et les besoins de l’entreprise.
Par exemple, Kimball et Ross (2002) ont proposé deux modèles. Le premier modèle (Figure
5.6) est un magasin de donnés de flux interactif qui est basé uniquement sur les données dérivées
des fichiers journaux de site Web marchand. Dans le but d’empêcher la table de faits de croître
de manière astronomique, les auteurs ont défini le niveau de granularité pour chaque session
client terminée. Le niveau de granularité du deuxième modèle (Figure 5.7) est défini pour
chaque évènement individuel d’une page dans chaque session client.
Figure 5.6. Schéma de flux interactif au niveau Session (Kimball & Ross, 2000)
Figure 5.7. Schéma de flux interactif au niveau Evènement-Page (Kimball & Ross, 2000)
Conclusion
L’ajout de l’aspect du commerce électronique à l’entrepôt de données apporte à la fois
de la complexité et de l’innovation au processus décisionnel de l’entreprise. L’entreposage de
données reliées aux habitudes de la navigation des visiteurs des sites Web pourrait être exploité
pour accroitre les ventes en ligne et hors ligne et attirer de la clientèle.
1. Cas d’étude
Vous travaillez chez AdventureWorks et votre responsable souhaite voir un rapport sur vos
derniers chiffres de vente. Il vous a demandé un rapport de synthèse de ce qui suit :
Dans ce cas d’étude extrait d’un tutoriel Power BI disponible sur le lien :
https://docs.microsoft.com/en-us/power-bi/create-reports/desktop-dimensional-model-report,
notre objectif est de :
2. Prérequis
3. Chargement de données
4. Préparation de données
Dans le volet Navigateur, on a la possibilité de transformer ou de charger les données.
Pour transformer les données avant le chargement :
1. Sélectionnez toutes les tables, puis choisissez Transformer les données. Veillez à ne
pas sélectionner les feuilles (étiquetées _data).
2. Vérifiez que les types de données des colonnes correspondent à ceux du tableau suivant :
5. Modélisation de données
Les données chargées sont presque prêtes pour la création de rapports. Nous allons
maintenant inspecter le modèle de données et apporter quelques modifications. Sélectionnez
Vue du modèle sur la gauche. Le modèle de données généré est illustré ci-après :
Le modèle généré est un schéma en étoile qui contient une table de faits nommée Sales avec
six tables de dimensions : SalesTerritory (Secteur de vente), Reseller (Revendeur), SalesOrder
(Commande_Client), Customer (Client), Product (Produit), Date. La table de faits contient des
informations numériques sur les transactions de vente, telles que le montant des ventes et le
coût standard du produit. Les dimensions fournissent un contexte qui nous permet entre autres
d’analyser les éléments suivants :
Sur le modèle généré, toutes les tables Dimension sont liées à la table de fait Fact par
une relation, à l’exception de la table Date. Pour ajouter des relations à la table Date :
1. Faites glisser DateKey de la table Date vers OrderDateKey sur la table Sales. Vous avez
créé une relation « un-à-plusieurs » de Date à Sales, comme indiqué par le 1 et
l’astérisque * (plusieurs) aux deux extrémités de la ligne.
Il s’agit d’une relation « un-à-plusieurs », car nous avons une ou plusieurs commandes Sales
pour une Date donnée. Si chaque date n’avait qu’une seule commande Sales, il s’agirait d’une
relation « un-à-un ». La petite flèche au milieu de la ligne indique la « direction de filtrage
croisé ». Elle indique que nous pouvons utiliser des valeurs de la table Date pour filtrer la table
Sales ; la relation nous permet donc d’analyser le moment où une commande a été passée.
La table Sales contient plus d’informations sur les dates relatives aux commandes Sales, telles
que la date d’échéance et la date d’expédition. Ajoutons maintenant deux relations
supplémentaires à la table Date en faisant glisser :
On remarque que la première relation, sur OrderDateKey, est active, ce qui est indiqué
par une ligne continue. Les deux autres sont inactives, ce qui est indiqué par des lignes en
pointillés. Power BI utilise la relation active par défaut pour mettre en relation Sales et Date.
Ainsi, une somme de SalesAmount est calculée par date de commande, et non par date
d’échéance ou date d’expédition.
Le schéma en étoile classique contient plusieurs clés qui contiennent les relations entre
les faits et les dimensions. Normalement, nous ne souhaitons pas utiliser de colonnes clés dans
nos rapports. Nous allons masquer les colonnes clés de la vue, afin que la liste des champs
affiche moins de champs et que le modèle de données soit plus facile à utiliser.
Passez en revue toutes les tables et masquez toutes les colonnes dont le nom se termine par Key
:
1. Sélectionnez l’icône Œil en regard de la colonne, puis choisissez Masquer dans la vue
rapport. Vous pouvez également sélectionner l’icône Œil en regard de la colonne dans
le volet Propriétés.
Les champs masqués ont cette icône, un œil barré d’une ligne.
Notre modèle de données doit maintenant ressembler à celui-ci, avec des relations entre Sales
et toutes les autres tables, et tous les champs clés masqués :
regroupements. Par exemple, les villes sont dans un état ou une province, qui se trouve dans un
pays ou une région. Créez les hiérarchies suivantes.
1. Cliquez avec le bouton droit sur le champ de niveau le plus élevé, ou le moins
précis, de la hiérarchie, puis choisissez Créer une hiérarchie.
2. Dans le volet Propriétés, définissez le Nom de la hiérarchie et définissez les
niveaux.
3. Ensuite, sélectionnez Appliquer les changements de niveau.
Nous pouvons également renommer des niveaux dans une hiérarchie dans le volet
Propriétés après les avoir ajoutés. Nous devons renommer les niveaux Year et Quarter de la
hiérarchie Fiscal dans la table Date. Voici les hiérarchies que nous devons créer.
Notre modèle de données doit maintenant ressembler au suivant. Il a les mêmes tables, mais
chaque table de dimension contient une hiérarchie :
6. Créer un rapport
Maintenant que nous avons modélisé les données, il est temps de créer notre rapport.
Après la création du rapport, on peut utiliser les différentes options de visualisation pour
modifier, supprimer ou ajouter de nouveaux graphiques. Nous avons appliqué les changements
suivants :
Le rapport final est montré ci-après. En résumé, ce rapport répond aux principales questions
des responsables des propriétaires de données AdventureWorks :
✓ Quel jour y a-t-il eu le plus de ventes en février 2019 ? Le 25 février, avec un montant
de ventes de $253 915,47.
✓ Dans quel pays la société rencontre-t-elle le plus de succès ? Aux États-Unis, avec 132
748 commandes.
✓ Quelles sont les catégories de produits et les types de revendeurs dans lesquels
l’entreprise doit continuer à investir ? L’entreprise doit continuer à investir dans la
catégorie Bikes et dans les types de revendeurs Value Added Reseller et Warehouse.
Exercice 01
Distinguez les décisions stratégiques, les décisions tactiques, et les décisions opérationnelles :
Exercice 02
Q : Etant donné le processus décisionnel d’une entreprise (voir le cours e-BI/Chapitre 01) ;
quels sont, à vos avis, les moyens qui permettent de parvenir aux objectifs du système
décisionnel ?
Exercice 03
Un tableau de bord est un outil de pilotage et d’évaluation qui regroupe un ensemble cohérent
d’indicateurs clés de performance qui ont été retenus pour mesurer la performance et la
rentabilité d’une entreprise. Il permet de contrôler la réalisation des objectifs fixées en
identifiant les écarts par rapport à des valeurs de référence et en effectuant les actions
correctives nécessaires dans les délais appropriés.
Le tableau de bord de l’entreprise reflète les résultats des analyses sous forme
d’indicateurs, dans une représentation synthétique et compréhensible.
Exercice 04
On voudrait concevoir une application ETL qui nous permet de nettoyer et transformer
les données d’une entreprise qui proviennent des services de ventes, de stock, des ressources
humaines et de réapprovisionnement.
Service RH
Service R&D
Code_emp Nom_emp Adresse Genre
Emp_01 K. Said 8, R Masculin Code_prod Prix Gamme Libellé
BV, P_0001 700 DA gamme1 Pro_A
BBA P_0210 900 DA gamme1 Pro_X
Emp_04 M. Adam 9, R FB, F
Setif
Exercice 05
On veut construire un entrepôt de données pour une société qui gère des salles de concert. Les
salles de concert sont situées dans différents établissements, chacun pouvant disposer de
plusieurs salles de concert. On connait pour chaque salle la capacité en nombre de places. Les
places étant de différentes catégories (1ère classe, 2ème classe…etc.). Plusieurs œuvres musicales
peuvent être auditionnées lors de chaque concert. L’entrepôt de données doit permettre de
répondre à des questions comme :
• Le chiffre d’affaires pour chaque mois, trois mois, et pour chaque année.
• Le coût moyen pour les concerts.
• Nombre moyen d’effectifs mises en disposition pour les concerts
• Quel est l’auteur (ou quels sont les auteurs) d’une œuvre musicale ?
• Quels musiciens participent à un concert ?
• Quel est le rôle d’un musicien dans un œuvre donné lors d’un concert ?
• Ou et quand a lieu un concert ?
• Quel est le concert le plus populaire ?
• Quels sont les dates les plus convenables à organiser des concerts ?
Questions
1. Indiquez quelles sont les tables de faits et les tables de dimension du schéma en étoile de
cet entrepôt.
2. Tracez le schéma en étoile en précisant pour chaque table sa nature dimensionnelle (table
de faits ou table de dimension), ses clés, ainsi que la nature des champs.
3. On veut transformer ce schéma en schéma en flocon. Donnez la nouvelle représentation de
l’entrepôt de données.
Exercice 06
On veut établir un entrepôt de données pour une bibliothèque d’un syndicat intercommunal qui
consiste en cinq points de prêt. Un client qui s’inscrit à la bibliothèque verse une caution.
Suivant le montant de cette caution il aura le droit d’effectuer en même temps de 1 à 10
emprunts. La valeur de la caution est différente d’un client à un autre (étudiant/enseignant,
employé/non employé…etc.). Le délai d’emprunt d’un livre est de trois semaines, il peut
cependant être prolongé exceptionnellement à cinq semaines. Un livre est caractérisé par son
numéro dans la bibliothèque, son éditeur et son (ses) auteur(s), sa date d’achat et son état. Les
livres sont organisés selon leurs catégories (Littérature, Sciences, …etc.).
Toutes les semaines, on édite la liste des emprunteurs en retard : nom et adresse du client, date
de l’emprunt, numéro(s) et titre(s) du (des) livre(s) concerné(s) ;
Questions
Exercice 07
Un hôtel est composé d'au moins deux chambres. Chaque chambre dispose d'une salle d’eau :
douche ou bien baignoire. Un hôtel héberge des personnes. Il peut employer du personnel et il
est impérativement dirigé par un directeur. On ne connaît que le nom et le prénom des employés,
des directeurs et des occupants. Certaines personnes sont des enfants et d'autres des adultes
(faire travailler des enfants est interdit). Un hôtel a les caractéristiques suivantes : une adresse,
un nombre de pièces et une catégorie.
Une chambre est caractérisée par le nombre de lits qu'elle contient, son prix et son numéro. On
veut pouvoir savoir qui occupe quelle chambre à quelle date. Pour chaque jour, semaine et mois
de l'année, on veut pouvoir calculer le loyer de chaque chambre en fonction de son prix et de
son occupation (le loyer est nul si la chambre est inoccupée). La somme de ces loyers permet
de calculer le chiffre d'affaires de l'hôtel entre deux dates.
Questions
Exercice 08
Questions
Exercice 09
Une entreprise à caractère commercial souhaite développer un outil qui lui permettra de
structurer et d'analyser les données générées par la navigation des internautes sur son site puis
de visualiser ces informations sous forme de rapports mensuels, hebdomadaires, et quotidiens.
Les données de navigation sont extraites depuis les fichiers journaux et les cookies et sont
stockées dans un datawarehouse externe. Cet outil comporte plusieurs modules de présentation
de données, on cite entre autres :
• Statistiques sur les sites d'origine et les mots-clés : sites d'origine principaux, phrases
et mots-clés les plus utilisés.
Questions
5. Faites une représentation en cube OLAP avec hiérarchies pour cet entrepôt ?
Exercice 10
On veut construire un magasin de données afin d’étudier les résultats obtenus par les élèves de
niveau secondaire de quatre établissements : Lycée 1, Lycée 2, Lycée 3 et Lycée 4 :
• Les lycées choisis sont situés dans des villes différentes (V1, V2, V3, V4). V2 et V3
suivent le même département régional (D2). Les deux autres villes V1 et V4 suivent le
département régional D1 et D3 respectivement.
• Les matières concernées par cette étude (Mth : Mathématiques, Tc : Technologie, Ang :
Anglais, Sp : Sport) sont de différentes catégories (Sc : Scientifique, T : Technique, L :
Littéraire, A : Activité). La catégorie d’une matière détermine sa priorité :
fondamentale (F) ou bien secondaire (S). La note d’une matière est évaluée sur 20.
• Les résultats obtenus doivent être visualisés par trimestre ou par semestre (une année
scolaire = 09 mois).
Sc Math 10 08 09
F
T Techno 11 10 13
Figure.1 L Anglais 17 15 12
S
A Sport 16 17 16
Sc Math 10 08 09
F
T Techno 11 10 13
L Anglais 17 15 12
S
A Sport 16 17 16
3. Donnez les détails des opérations OLAP permettant de répondre aux questions suivantes :
✓ Quelle est la note annuelle (/60) de chaque matière pour chaque lycée ?
✓ Quelle est la note trimestrielle de chaque catégorie de matière pour chaque
département ?
✓ Quel est le lycée qui a obtenu la meilleure note en mathématiques en 2ème
semestre ?
4. Complétez la représentation des cuboïdes ci-dessous en montrant leurs dimensions et la
hiérarchie de chaque dimension.
5. Donnez les détails des opérations OLAP qui ont permis d’obtenir ces cuboïdes à partir de
cube de données précédent (Figure.1).
12 16 18 15
17 34 15 16 16 17
39 22
31 32 54 114 61 14 16 17 13
65 28
6. Quels sont les résultats des opérations OLAP suivantes sur le cube de données de la
Figure.1 :
✓ Slice (“Matière”, “Etablissement”)
✓ Nest (“Trimestre”, “Etablissement”)
✓ Push (“Semestre”)
✓ Split (“Math”)
7. Déduisez le schéma multidimensionnel en étoile de ce magasin de données.
Exercice 11
année), par domaine (exemple, MI : Maths et Info, ST : Sciences Techniques), par filière
(exemple : Mathématiques, Informatique, Physique).
Quels sont les résultats des opérations OLAP suivantes sur le cube de données ci-dessous :
✓ Roll-up (“Domaine”)
✓ Push (“Université”)
Mathématiques 11 08 15
MI
Informatique 05 03 12
ST Physique 10 06 07
Trim1 Trim2 Trim3
Année
11 08 15 12 10 13 04 17 20
05 03 12 11 05 04 06 05 14
10 06 07 17 02 11 12 09 18
Exercice 12
Le tableau ci-après représente les prêts de documents (papier, vidéo, son…etc.) réalisés par les
clients de 03 librairies situées dans des adresses (numéro de rue, rue, ville) différentes :
• Les livres, et parmi eux des livres spéciaux qui seront consultables uniquement sur
place. Un livre est repéré par un code, un titre, un auteur.
• Les journaux qui seront uniquement consultables sur place. Un journal est repéré par
son titre et sa date.
• Les microfilms, qui portent sur des livres ou des journaux déjà référencés dans la
bibliothèque et qui ne pourront être visualisés que sur les écrans de la bibliothèque. Un
microfilm est repéré par son titre et sa date.
Questions
1. Quelle est la (les) nature(s) des anomalies figurant dans le tableau ? comment peut-on
les traiter ?
3. Donnez les détails de l’opération OLAP qui a permis d’obtenir le tableau précédent à
partir du cube de données déduit.
4. Complétez la représentation des deux cuboïdes (1) et (2) en montrant leurs dimensions.
254 13 16
301 480 11 09
307 21 21
(1)
(2)
• Donnez les détails des opérations OLAP qui ont permis d’obtenir les cuboïdes (1) et
(2) ?
Exercice 01
Exercice 02
Q : Etant donné le processus décisionnel d’une entreprise ; quels sont, à vos avis, les moyens
qui permettent de parvenir aux objectifs du système décisionnel ?
L’objectif d’un système décisionnel est de connaître, mesurer, prévoir et agir. Les moyens pour
y parvenir sont :
Exercice 03
Indicateurs importants
- La satisfaction client : fidélité client, taux de référence, revenu moyen par client.
Indicateurs généraux
Exercice 04
Anomalies
• Code_prod : incohérence : différente codification pour la même entité
• Prix : incohérence : différentes unités pour le même attribut
• Poids : incohérence : différentes unités pour le même attribut
• Genre : F : codification incorrecte et incomplète
• Nom_emp : attribut incompréhensible
Exercice 05
Fait : analyser le CA (Chiffre d’affaires) des concerts + la popularité des concerts -> Mesures :
✓ Prix de réservation d’une place pour un concert donné.
✓ Nombre de places réservées pour un concert donné.
Exercice 06
Fait : analyser le CA (Chiffre d’affaires) d’emprunts + les livres, les catégories des livres les
plus demandés + durée moyenne de restitution des ouvrages + nombre de livres non restitués -
> Mesures :
Hiérarchies
Exercice 07
Fait : analyser le CA (Chiffre d’affaires) + somme de loyer -> Mesures :
✓ Chiffre d’affaires.
✓ Loyer (= prix unitaire de réservation* nbr_jours de réservation).
Dimensions : Hôtel, Chambre, Date, Occupant (Client), Employé, Directeur.
Hiérarchies
Chambre : id_chambre ← Type_chambre (avec une salle d’eau baignoire ou douche).
Hôtel : id_hôtel ← Catégorie_hôtel.
Occupant : id_occupant ← Catégorie_occupant (adulte ou enfant).
Date : Jour ← Semaine ← Mois.
Exercice 08
• Service de marketing
• Service éditoriale
Auteur→Livre
Livre
Editeur→Livre
Parution→Livre Date : Jour →Mois→ Année
Magasin : Département →Magasin
• Schéma en globale
Exercice 09
Q.01 : Quelles sont les principales informations contenues dans un fichier log ?
1. Un fichier journal (.log) est un fichier texte qui enregistre tout évènement déclenché
pendant l’interaction client web, site web. Il est stocké sur le serveur web du site visité
par l’utilisateur.
2. Le cookie est un fichier texte qui enregistre les données utilisateur afin de faciliter sa
navigation. Il est stocké sur le terminal du client web par le serveur web du site visité
par l’utilisateur.
On peut proposer plusieurs mesures pour évaluer la performance d’un site e-commerce. Par
exemple :
Nombre de ventes, nombre d’achats effectués par les visiteurs du site, nombre de
téléchargements de catalogue du site, coût d’acquisition d’un client, nombre de conversions
(transformation visiteur->client), panier moyen (taux d’achats en moyen), taux d’abandon de
panier (taux des achats inachevées), pourcentage de visiteurs connus, pourcentage des
nouveaux visiteurs…etc.
Q.05 : Faites une représentation en cube OLAP avec hiérarchies pour cet entrepôt ?
Prescripteur
Specification→Prescripteur
Date : Jour →Semaine→ Mois
Page : Page →Fonction_page
Exercice 10
1. Cube OLAP
Sc Math 10 08 09
F
T Techno 11 10 13
L Anglais 17 15 12
S
A Sport 16 17 16
3. Opérations OLAP
Roll up on Date to Roll up on Date to Année Roll up on Date to Semestre
Année Roll up on Matière to Catégorie Dice ((Matière = “Math”) &
Roll up on Etablissement to Note (Math) = Max (Note))
Département
4. Cuboïdes OLAP
12 16 18 15
27 34 15 16 16 17
39 22
31 32 54 114 61 14 16 17 13
65 28
Dim1 : Trim1 – Dim2 : D1, D2, D3 – Dim1 : Trim1, Trim2, Trim3 – Dim2 :
Dim3 :Tout_matières Math, Sport, Anglais, Techno – Dim3 : L1
3) Rotate 4) Split (Lycée1)
Roll up on Matière Rotate
Roll up on Etablissement to Switch (“Techno”, “Sport”)
Departement
5. Opérations OLAP
Push (Semestre)
Exercice 11
Q.01 : Quelle est la(les) nature(s) des anomalies figurant dans le tableau ? comment peut-on les
traiter ?
Anomalie Nature Traitement
Librairie 01 -> 2018 -> microfilms Valeur incorrecte 1. Ignorer la valeur.
21 »( (Faute de frappe) 2. Transformer en type
Librairie 01 -> 2018 -> CDROM numérique.
$$ 3. Utiliser une valeur par
Librairie 02 -> 2017 -> journaux Valeur nulle défaut.
Case vide 4. Utiliser une valeur
moyenne, min ou max ;
Librairie 01 -> 2018 -> CDROM Valeur
déduite depuis les
Sept incohérente
valeurs précédentes et
Valeur incorrecte suivantes de la même
(Valeur case.
incompréhensible) 5. …etc.
Type_prêt
Journaux 25 15 15
Microfilms 19 21 14
CDROM 07 20 17
Hiérarchies
Membres du cube
15 23 13 11 21
25 15 15
19 21 14 14 06 05 11 09 18
07 20 17 07 14 11 05 $$ 03
Q.03 : Donnez les détails de l’opération OLAP qui a permis d’obtenir le tableau précédent à
partir du cube de données déduit. Push (Document)
Q.04 : Complétez la représentation des deux cuboïdes (1) et (2) en montrant leurs dimensions.
254 13 16
301 480 11 09
Dim 1
Dim 2 307 21 21
(1) (2)
Exercice 12
L3 L2 L1
Trim1 26 17 34
Trim2 40 17 28
Trim3 22 31 52