EBI Cours Final DjamilaMOHDEB

COURS E-BUSINESS INTELLIGENCE
Niveau : 2ème Année Master TIC (Technologies de l’Information

et de Communication)
Dr. Djamila MOHDEB, M.C.B

UNIVERSITE DE BORDJ BOU ARRERIDJ
Présentation du cours
Intitulé de la matière : e-Business Intelligence
Semestre : 3 (2ème année Master TIC)
Unité d’enseignement : UF1T
Crédits : 4
Coefficient : 2
Objectifs de l’enseignement
L’accent sera mis sur l’analyse et l’amélioration des relations de l’entreprise avec ses clients à
l’aide de l’informatique décisionnelle. Une attention particulière est accordée à l’intelligence
numérique et le marketing en ligne (par exemple, le profilage des clients et des données
comportementales).
Connaissances préalables recommandées
Base de données, fouille de données.
Contenu de la matière
1. Introduction à l’informatique décisionnelle

2. Processus du décisionnel
3. Technologies et outils du décisionnel
4. Entrepôts de données pour l’aide à la décision
5. Entrepôts de données numériques et en ligne
6. Etude d’un cas pratique
Mode d’évaluation
Examen écrit, Contrôle continue
Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Bibliographie
Ouvrages
▪ Alain Fernandez. (2013). Les Nouveaux Tableaux de Bord des Managers. Eyrolles.
▪ Alan R. Simon & Steven L. (2001). Shaffer. Data Warehousing and Business
Intelligence for e-Commerce. Morgan Kaufmann Publishers.
▪ ALTER, Steven. (2001). Information systems: Foundation of e-Business. Prentice Hall
PTR.
▪ Anil K. Maheshwari. (2015). Business Intelligence and Data Mining. Big Data and
Business Analytics Collection. Business Expert Press.
▪ Bernard Liautaud et Mark Hammond. (2000). e-Business Intelligence: Turning
Information into Knowledge into Profit. McGraw-Hill, Inc.
▪ Carlo Vercellis. (2009). Business Intelligence Data Mining and Optimization for
Decision Making. John Wiley & Sons, Ltd.
▪ Deepak Pareek. (2007). Business Intelligence for Telecommunications. Auerbach
Publications. Taylor and Francis Group.
▪ Efrem G. Mallach. (2000). Decision Support and Data Warehouse Systems. McGraw-
Hill Higher Education.
▪ Gilles Bressy & Christian Konkuyt. (2002). Economie d’entreprise. Sirey.
▪ Jonathan Becher & Ronny Kohavi. (2001). Tutorial on E-commerce and Clickstream
Mining. First SIAM International Conference on Data Mining, April 2001.
▪ Ralph Kimball & Richard Merz (2000). The data Webhouse Toolkit: Building the Web‐
enabled Data warehouse. Industrial Management & Data Systems. John Wiley& Sons.
▪ Ralph Kimball and Margy Ross (2000). The Data Warehouse Toolkit: The Complete
Guide to Dimensional Modeling. John Wiley& Sons.
▪ Song, I. Y., & LeVan-Shultz, K. (1999, November). Data warehouse Design for e-
Commerce Environments. In International Conference on Conceptual Modeling (pp.
374-387). Springer, Berlin, Heidelberg.
▪ Wilfried Grossmann & Stefanie Rinderle-Ma. (2015). Fundamentals of Business
Intelligence. Springer-Verlag Berlin Heidelberg.
▪ William A. Giovinazzo. (2002). Internet-Enabled Business Intelligence. Prentice Hall
PTR.
▪ Zhengxin Chen. (2002). Intelligent Data Warehousing from Data Preparation to Data
Mining. CRC Press.

Bibliographie
Cours
▪ Bernard Espinasse. Cours Introduction à l’informatique décisionnelle. Ecole
Polytechnique Universitaire de Marseille, 2013.
▪ D. Boukraâ. Cours Entrepôts de données. Université Mohamed Essadik Ben Yahya de
Jijel, 2018.
▪ M. Khodja. Cours économie d’entreprise. Université Mouloud Mammeri de Tizi Ouzou.

Table des matières
Table des matières
Chapitre 1 : Introduction à l’informatique décisionnel

Introduction ................................................................................................................................ 1
1. Généralités .......................................................................................................................... 1
2. La Business Intelligence ..................................................................................................... 5
3. Outils de la Business Intelligence ....................................................................................... 6
4. Historique de la Business Intelligence ................................................................................ 7
5. L’utilité de la Business Intelligence .................................................................................... 8
6. Applications de la Business Intelligence ............................................................................ 8
Conclusion ................................................................................................................................ 10
Chapitre 2 : Processus du décisionnel

Introduction .............................................................................................................................. 11
1. Architecture d’un système BI ........................................................................................... 11
2. Objectifs d’un processus décisionnel ................................................................................ 13
3. Les composants d’un système BI ...................................................................................... 14
4. Cycle d’une analyse décisionnelle .................................................................................... 15
5. Développement d’un système de Business Intelligence ................................................... 17
Conclusion ................................................................................................................................ 19
Chapitre 3 : Technologies et outils du décisionnel

Introduction .............................................................................................................................. 20
1. ETL ................................................................................................................................... 20
2. Datawarehouse .................................................................................................................. 23
3. OLAP ................................................................................................................................ 24
4. Data Mining ...................................................................................................................... 27
5. Reporting........................................................................................................................... 29
Conclusion ................................................................................................................................ 29
Chapitre 04 : Entrepôts de données pour l’aide à la décision

Introduction .............................................................................................................................. 30

Table des matières
1. Caractéristiques des données d’un entrepôt de données ................................................... 30

2. Comparaison entre un entrepôt de données et une base de données opérationnelle ......... 31
3. Modèles des entrepôts de données .................................................................................... 31
4. Modélisation conceptuelle d’un entrepôt de données ....................................................... 33
5. Modélisation logique d’un entrepôt de données ............................................................... 36
6. Processus de conception d’un entrepôt de données .......................................................... 39
Conclusion ................................................................................................................................ 40
Chapitre 05 : Entrepôts de données numériques et en ligne

Introduction .............................................................................................................................. 41
1. Généralités ........................................................................................................................ 41
2. Les données Web et le flux interactif................................................................................ 44
3. Le flux interactif (Clickstream)......................................................................................... 45
4. Suivi d’un utilisateur Web ................................................................................................ 48
5. Le flux interactif pour l’analyse comportementale ........................................................... 51
6. Traitement et transformation des données du flux interactif ............................................ 51
7. Les entrepôts de données Web .......................................................................................... 52
8. Entreposage de données flux interactif ............................................................................. 56
Conclusion ................................................................................................................................ 59
Etude d’un cas pratique ........................................................................................................ 60

Exercices ................................................................................................................................. 73
Solutions des exercices .......................................................................................................... 82

Préface
Durant ces dernières années, la recherche dans le domaine de la business réactive a été
marquée par le développement de nouveaux outils et méthodologies puissants qui font
progresser et orienter le sujet de la Business Intelligence (BI) vers de nouveaux horizons. La
façon dont les entreprises utilisent les données a radicalement changé, évoluant du simple
traitement opérationnel vers le traitement analytique dédié à l’aide à la décision, aboutissant à
l’utilisation stratégique de l’information.
De son côté, l’Internet a révolutionné le monde des affaires. Le e-commerce et les marchés
électroniques interentreprises B2B ont imposé des nouvelles règles pour la vente des biens et
des services et ont généré de nouvelles formes de réseaux de clients et de fournisseurs qui se
refaçonnent rapidement et quotidiennement. La concurrence s’est intensifiée et les
consommateurs ont devenu plus exigeants que jamais. Par conséquence, la Business
Intelligence (BI) est devenue essentielle pour toutes les entreprises qui s’efforcent de réussir
dans ce paysage économique hautement concurrentiel.
Correctement planifié, conçu et exécuté, un projet BI se traduira par des bénéfices substantiels
en fournissant les moyens d’une prise de décision plus rapide, plus précise et plus éclairée.
L’objectif de ce cours est d’explorer les opportunités et l’apport que la Business Intelligence
peut offrir aux entreprises dans le contexte du commerce électronique et du commerce en ligne.
La suite de ce cours est organisée en cinq chapitres :
- Le premier chapitre introduit les concepts de base liés à l’informatique décisionnelle.

- Le deuxième chapitre explique l’architecture d’un projet BI, ses objectifs et ses
principaux composants.
- Le troisième chapitre porte sur les outils et les technologies de la Business Intelligence.
- Les entrepôts de données classiques font l’objet du quatrième chapitre.
- Le dernier chapitre est consacré aux entrepôts de données numériques et également aux
concepts qui sont principalement reliés à la e-Business Intelligence.

Chapitre 01 : Introduction à la Business Intelligence 1
Introduction
De nos jours, les systèmes d’information des entreprises globalisent des quantités
énormes de données de différentes nature (financières, quantitatives, qualitatives) qui
appartiennent à des domaines multiples (ensemble des activités internes de l’entreprise, les
marchés, les clients, l’environnement). Ces données doivent être transformées en informations
pertinentes, adaptées aux besoins de la prise de décision. Depuis une vingtaine d’années des
systèmes d’information spécialisés en l’aide au pilotage interne se sont développés, on parle de
la « Business Intelligence (BI) ». Ainsi, un nombre croissant d’entreprises remplacent les
techniques d’analyse traditionnelles par une approche basée BI. Cette approche permet aux
entreprises d’analyser les données au profit de leurs prises de décisions et de bien exploiter
leurs ressources pour raffiner ou modifier les plans de développement au fil des changements
du marché ou des nouvelles exigences qui émergent et deviennent prioritaires.
1. Généralités
1.1. La notion d’entreprise
L’entreprise est une unité économique autonome disposant de moyens humains et

matériels qu’elle combine en vue de produire des biens et services destinés à la vente. Son
environnement interne est composé de trois acteurs principaux : apporteurs de capitaux,
dirigeants, et salariés. Ces trois acteurs ont des objectifs et des stratégies individuelles
différentes. En général, la finalité d’une entreprise économique est de réaliser des profits,
satisfaire le consommateur, et assurer la pérennité dans le marché.
L’entreprise entreprend des relations avec un environnement externe qui comprend

plusieurs parties : les clients, les partenaires, les autres entreprises (fournisseurs ou
concurrents), les banques, les investisseurs, le public, les associations…etc. Cet environnement
exerce sur elle une influence plus ou moins importante d’une façon directe ou indirecte.
1.2. Les sous-systèmes composants d’une entreprise
Une entreprise en tant que système complexe est composée de trois sous-systèmes : le
système de décision (pilotage), le système opérant et le système d’information.

Le système d’information et le système opérant coopèrent en échangeant des informations

provenant de l’environnement interne et externe du système afin d’atteindre les objectifs tracés
par le système de décision.
- Le système opérant (système de production) réalise la production physique des biens

et des services. Son activité est contrôlée par le système de décision. Il est relié à
l’environnement par des flux physiques externes et aux autres sous- systèmes par des
flux internes d’information.
- Le système de décision (système de pilotage ou système de management) contrôle et
analyse l’environnement et le fonctionnement interne de l’entreprise. Il est relié aux
autres sous-systèmes par des flux internes d’information.
- Le système d’information alimente l’entreprise en informations. Il mémorise les
informations, les traite et les communique aux deux autres sous-systèmes auxquels il
est relié.
Figure 1.1. Les différents sous-systèmes d’une entreprise
1.3. La décision au sein de l’entreprise
Toute entreprise dépend, structurellement, de la nature des décisions qui orientent son
activité et contrôlent ses objectifs. Par définition, une décision est un choix parmi plusieurs
alternatives qui vise la résolution d’un problème auquel l’entreprise est confrontée. Néanmoins,

les décisions prises quotidiennement dans l’entreprise ne sont pas toutes de même nature ni de
même importance :
- Les décisions opérationnelles sont des décisions répétitives à effet immédiat et dont le
résultat est connu d’avance. Elles portent sur l’exploitation courante de l’entreprise (ex. :
établissement des plannings, décision de réapprovisionnement en pièces détachées…).
Elles peuvent être prises à tous les niveaux de responsabilité.
- Les décisions tactiques (ou administratives) sont relatives à la gestion des ressources de
l’entreprise (ex. : décision d’acquérir un brevet, d’organiser des formations pour les
salariés…).
- Les décisions stratégiques déterminent l’orientation générale de l’entreprise (la politique
générale, les activités, les marchés à pénétrer…etc.). Elles sont prises surtout à partir des
informations émanent de l’environnement de l’entreprise. Elles ont un caractère non
répétitif et sont très souvent irréversibles (ex. : décision de lancement d’un nouveau
produit).
Figure 1.2. Niveaux d’importance des décisions dans l’entreprise
1.4. La prise de décision au sein de l’entreprise
Quel que soit la décision à prendre dans l’entreprise, le processus de la prise de la

décision passe par cinq phases essentielles au moins :
1) Définir le problème à résoudre.

2) Modéliser les solutions possibles.
3) Choisir une solution parmi les alternatives envisagées. Le choix doit être en fonction
des objectifs fixés, des critères et des expériences passées.

4) Mettre en œuvre la décision en mobilisant tous les moyens matériels et financiers

nécessaires.
5) Evaluer la décision en comparant les résultats obtenus à ceux anticipés. Des mesures
correctives doivent être mises en place en cas d’apparition des écarts significatifs entre
le résultat effectif de la décision et l’objectif fixé auparavant.
Le processus de la prise de décision est affecté non seulement par le style de direction
et la politique interne et externe de l’entreprise, mais aussi par les facteurs suivants :
• Les caractéristiques de l’entreprise (ses objectifs, son histoire, sa culture, son mode de
gouvernance, …etc.).
• La perception du problème par les décideurs.
• L’incertitude, la dynamique et la complexité de l’environnement.
• Les acteurs sociaux qui sont en relation avec l’entreprise : les actionnaires, les clients,
le personnel et les partenaires.
• L’image de l’entreprise auprès de l’opinion publique.
1.5. Les indicateurs de performance d’une entreprise
Un indicateur clé de performance KPI (Key Performance Indicator), est un paramètre

ou une combinaison de paramètres quantitatifs ou qualitatifs qui prennent place dans des
tableaux de bord et qui sont utilisés à différents niveaux de l’entreprise. Ils permettent
d’analyser l’état d’évolution du système de l’entreprise. Ils permettent également de mesurer,
évaluer et suivre les résultats des actions prises par l’entreprise.
Les indicateurs de performance peuvent être utilisés pour exprimer un résultat ou un suivi. Un
indicateur de résultat est relié à l’accomplissement ou non de l’objectif fixé. Un indicateur de
suivi sert à anticiper l’action et réajuster les ressources en vue d’atteindre l’objectif fixé.
On distingue plusieurs familles d’indicateurs présents dans les tableaux de bord :
- Les indicateurs de production : capacité de production, capacité de production inutilisée,

coût de revient par produit, durée moyenne du cycle de production, durée de
consommation des stocks critiques.
- Les indicateurs financiers : la valeur ajoutée, la trésorerie prévisionnelle, le coût de
revient, retard de paiement, écart sur chiffre d’affaires, marge brute.
- Les indicateurs de rentabilité : résultat net, marge opérationnelle,

- Les indicateurs de qualité : délai de fabrication, satisfaction des clients, réclamation.

- …etc.
Figure 1.3. Exemple d’un tableau de bord
2. L’informatique décisionnelle (Business Intelligence)
L’Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est un terme

qui a été inventé au milieu des années 1990 pour décrire le processus de la transformation des
données brutes à des éléments d’informations utilisables sur lequel les décisions commerciales
peuvent être fondées. C’est un terme générique qui relie d’autres disciplines informatiques
étroitement liées, notamment l’exploration de données (Data Mining), l’analyse statistique, la
prédiction (forecasting) et l’aide à la décision.
De point de vue de l’entreprise, la Business Intelligence est une stratégie commerciale

visant à comprendre et à anticiper les besoins et les exigences d’une entreprise. C’est la
connaissance des clients, des concurrents, des partenaires commerciaux, de l’environnement
concurrentiel et de ses propres opérations internes qui permet à la direction de l’entreprise de
prendre des décisions commerciales efficaces, importantes et souvent stratégiques.

La Business Intelligence (BI) par conséquence, englobe l’ensemble de processus,

technologies et outils qui vont permettre de transformer des données en informations, ces
informations en connaissances et ces connaissances en plans permettant d’aboutir à une
meilleure gestion, plus durable de l’entreprise.
Rappelant qu’une donnée est un élément brut, qui n’a pas encore été interprétée ou mis en
contexte. Elle peut être collectée par un outil, par une personne ou juste récupérée via une source
annexe. En revanche, une information est une donnée interprétée placée dans un contexte.
La connaissance est une information traitée, utilisée pour aboutir à une action. Elle peut être
aussi un ensemble d’informations structuré, orienté sur un sujet, et validé par des règles établies
ou des expériences. L’utilisation des connaissances dans le contexte d’activité s’appelle du
savoir-faire ou des compétences.
Compétences
Connaissances
Informations
Données
Figure 1.4. Données, informations et connaissances
3. Outils de la Business Intelligence
La Business Intelligence représente une large catégorie d’applications et de technologies

qui combinent les données opérationnelles avec les outils analytiques pour aider les décideurs
et les dirigeants des entreprises à prendre des meilleures décisions et soutenir leurs stratégies
d’affaires. Les outils de BI peuvent aller d’outils très simples à des outils très sophistiqués qui
offrent un ensemble très large et complexe de fonctionnalités.
La BI comprend :
• Les systèmes d’aide à la décision

• Les analyses prédictives
• L’entreposage de données
• Les outils d’extraction, transformation et chargement des données (ETL)
• Le traitement analytique en ligne (OLAP)

• L’exploration de données (data mining)

• Les analyses Big Data
• L’analyse statistique
• L’analyse des médias sociaux
• Les outils de restitution de données (Reporting)
• Les rapports
• Les requêtes
• Les tableaux de bord
• …etc.
4. Historique de la Business Intelligence
Les systèmes informatiques de « Business Intelligence » remontent, sous une forme ou

une autre, à près de cinq décennies (fin des années 1960). On trouve son apparition dans les
recherches et les études sur les systèmes d’aide à la décision (DSS, Decision Support System).
Le terme « Business Intelligence » est un terme générique popularisé introduit par Howard
Dresner du groupe Gartner en 1989. La Business Intelligence décrit un ensemble de concepts
et de méthodes pour améliorer la prise de décision commerciale. Ce terme est parfois utilisé
pour désigner entre autres les outils de création des rapports et des requêtes, et les systèmes
d’information de direction (EIS, Executive Information System) qui ont évolué à partir de
systèmes à modèle mono-utilisateur d’aide à la décision.
À partir de 1990 environ, l’entreposage de données et OLAP ont commencé à élargir le domaine
de l’EIS et à définir une catégorie plus vaste des DSS pilotés par les données. D’autre part, le
Web et l’Internet ont accéléré les développements dans le domaine de l’aide à la décision et ont
fourni un nouveau moyen pour capturer et appliquer les connaissances. Ainsi, le DSS basé sur
le Web ou intégrant le Web est devenu réalisable au cours des années suivantes.
Au fur et à mesure que l’analyse commerciale se développait du Reporting périodique de base

à l’OLAP de première génération, au ROLAP plus avancé, et plus tard aux systèmes
d’entreposage de données, les entreprises ont eu du mal à équilibrer le temps et le coût de mise
en œuvre par rapport à leur besoin augmenté d’informations commerciales pertinentes et
utilisables. Le domaine de la Business Intelligence a été ainsi exploité pour fournir une large
variété d’outils, d’applications et de méthodologies permettant de collecter des données en
provenance de systèmes internes et de sources externes, de les préparer pour l’analyse, de les

développer et de lancer des requêtes au sein de ces ensembles de données. Ces outils permettent
de créer des rapports, des tableaux de bord et des visualisations de données pour rendre les
résultats des analyses disponibles pour les preneurs de décisions.
De temps à autre, le terme de Business Intelligence est remplacé par celui de « Business
Analytics », qui désigne plus généralement les technologies analytiques avancées mais peut
aussi inclure la Business Intelligence.
5. L’utilité de la Business Intelligence
L’informatique décisionnelle permet d’effectuer des tâches importantes telles que les
prédictions basées sur les données et les expériences passées et courantes de l’entreprise ; les
analyses de type « What-If » sur les impacts du changement de l’environnement de l’entreprise
et les scénarios alternatifs ; un accès ad-hoc aux données pour répondre à des questions
spécifiques et inhabituelles et à des idées stratégiques pour n’en citer que quelques-unes. On
peut mentionner aussi les avantages suivants :
• La gestion de la performance d’entreprise ;

• L’optimisation de la relation client ;
• Le suivi de l’activité commerciale et l’aide à la décision ;
• L’amélioration de l’efficacité et de la productivité de l’entreprise ;
• L’amélioration des relations commerciales ;
• La réduction des coûts.
6. Applications de la BI
Les outils BI sont nécessaires pour presque toutes les secteurs et les domaines.
Aujourd’hui, les dirigeants et les décideurs ont besoin d’accéder aux outils de BI pour disposer
des indicateurs à jour sur la prestation et la performance de l’entreprise. Voici quelques
domaines d’applications de BI :
6.1. La gestion de la relation client (CRM)
Une entreprise doit comprendre les besoins et les attentes du client, vendre davantage
de ses offres aux clients existants et élargir le récipient de clients qu’elle sert. Les applications
BI peuvent avoir un impact sur de nombreux aspects du marketing :
• Maximiser les revenus des campagnes de marketing ;

• Améliorer la fidélisation des clients (analyse du taux de désabonnement) ;

• Maximiser la valeur client (vente croisée, vente incitative) ;
• Identifier et satisfaire des clients hautement valorisés ;
• Gérer l’image publique de la marque.
6.2. La santé
Les applications BI peuvent aider à appliquer les diagnostics et les prescriptions les plus
efficaces pour diverses affections. Ils peuvent également aider à gérer les problèmes de santé
publique et à réduire le gaspillage et la fraude.
• Diagnostiquer les maladies ;

• Efficacité du traitement ;
• Gestion du bien-être ;
• Gérer la fraude et les abus ;
• Gestion de la santé publique.
6.3. La vente au détail
Comprendre les modèles d’achat des clients émergents peut aider les détaillants à
organiser leurs produits, leurs inventaires, l’agencement de leur magasin et leur présence sur le
Web afin de satisfaire leurs clients, ce qui à son tour contribuerait à augmenter les revenus et
les bénéfices.
6.4. Les banques
Les banques accordent des prêts et proposent des cartes de crédit à des millions de
clients. Ils souhaitent surtout améliorer la qualité des prêts et réduire les créances douteuses. Ils
veulent également fidéliser davantage de bons clients et leur vendre plus de services.
• Automatiser le processus de demande de prêt ;

• Détecter les transactions frauduleuses ;
• Maximiser la valeur client (vente croisée, vente incitative) ;
• Optimiser les réserves de trésorerie grâce aux prévisions.

6.5. L’assurance
Ce secteur économique est un utilisateur prolifique de modèles de prédiction pour la

tarification des propositions d’assurance et la gestion des pertes liées aux réclamations sur les
actifs assurés.
• Prédire les coûts pour une meilleure planification commerciale ;

• Déterminer les plans tarifaires optimaux ;
• Optimiser le marketing auprès de clients spécifiques ;
• Identifier et prévenir les activités de réclamation frauduleuses.
6.6. Le télécom
La BI dans les télécommunications peut aider à la gestion du taux de désabonnement,

au marketing / profilage des clients, aux pannes de réseau et à la détection des fraudes.
6.7. Le gouvernement
Les gouvernements recueillent une grande quantité de données en vertu de sa fonction

de réglementation. Ces données pourraient être analysées pour développer des modèles de
fonctionnement efficace.
Conclusion
La Business Intelligence est un ensemble d’outils, de services et de techniques conçus

pour exploiter la richesse et la diversité des données des entreprises. La BI s’implique dans une
variété d’applications importantes pour aider les entreprises et les organisations à atteindre leurs
objectifs de fleurissement et de croissance en leur orientant vers des décisions judicieuses et
pertinentes.

Chapitre 02 : Processus du décisionnel 11
Introduction
La Business Intelligence est désormais un outil essentiel pour les entreprises. Une BI
bien ficelée doit maîtriser le processus décisionnel et atteindre ses objectifs de croissance et
d’efficience.
Le processus décisionnel, appelé aussi la chaîne décisionnelle, se compose des processus, des
techniques et d’outils permettant le traitement de l’information à des fins décisionnelles. Il se
présente souvent en architecture à trois-tiers. Chacun de ces tiers correspond à une phase
importante dans la conception d’un projet BI.
1. Architecture d’un système BI
Figure 2.1. Le processus décisionnel
L’architecture d’un système de BI, illustrée à la figure 2.1, comprend trois composants
principaux.
1.1. Source d’information
La première fonction consiste à collecter et extraire les données applicatives métier de

l’entreprise qui sont stockées dans des sources différentes telles que les bases de données
relationnelles ou non relationnelles, les fichiers, les feuilles de calcul…etc. Ces données sont
hétérogènes en origine et en nature. Elles appartiennent pour la plupart à des systèmes
opérationnels, mais peuvent également inclure des documents non structurés, tels que les e-
mails et les données reçues de fournisseurs externes. D’une manière générale, un effort
important est requis pour unifier et intégrer ces données qui proviennent de différentes sources

moyennant un outil d’intégration de données ETL (Extract-Transform-Load) (en français ETC,

Extraction-Transformation-Chargement).
1.2. Entrepôts de données et magasins de données
À l’aide d’outils d’extraction, transformation et chargement ETL, les données traitées

sont stockées dans des structures de stockage destinées à soutenir les processus des analyses
BI. Ces bases de données non classiques sont appelées entrepôts de données et magasins de
données, et elles feront l’objet du chapitre 4.
L’entrepôt de données (base de données décisionnelle, ou encore datawarehouse) est une base
de données multidimensionnelle conçue pour stocker et journaliser les données de l’entreprise
en provenance de diverses sources de données. Un entrepôt de données peut être modélisé sous
forme d’un datawarehouse ou d’un datamart.
En règle générale, le datawarehouse globalise toutes les données de l’entreprise, tandis que les
datamarts ; qui sont alimentés depuis les données du datawarehouse (littéralement en anglais
magasins de données) ; sont des sous-ensembles d’un datawarehouse souvent spécialisés vers
un groupe d’utilisateurs ou un type d’affaire (marketing, achat/vente, contrôle de gestion, ...).
Notant que l’interopérabilité entre les systèmes d’entrepôt de données, les applications
informatiques ou de gestion de contenu est réalisée grâce à une gestion des métadonnées.
1.3. Reporting
La restitution de données est la fonction de l’informatique décisionnelle la plus

importante de point de vue des décideurs de l’entreprise. Elle permet le calcul, la sélection, la
visualisation et l’analyse des données finalement interprétées de manière synthétique ou
détaillée et selon plusieurs perspectives intéressant les preneurs des décisions.
Dans cette étape, les données intégrées sont finalement extraites des datawarehouses et utilisées
pour alimenter des modèles mathématiques et des méthodologies d’analyse destinées à aider
les décideurs. Dans un système de Business Intelligence, plusieurs applications d’aide à la
décision peuvent être mises en œuvre :
- L’analyse multidimensionnelle OLAP (On-Line Analytical Processing) ;

- L’analyse exploratoire des données ;
- La visualisation des données ;
- L’analyse des séries chronologiques ;

- Les modèles d’apprentissage de fouille de données ;

- Les modèles d’optimisation.
A noter que les techniques de fouille de données et les outils d’analyse de type OLAP (On-Line
Analytical Processing) sont les plus largement utilisés.
2. Objectifs d’un processus décisionnel
Le point de départ des applications BI sont les objectifs d’analyse. Ces objectifs peuvent
être formulés de deux manières différentes :
2.1. Objectifs basés sur les indicateurs clés de performance
La première formulation est basée sur ce que l’on appelle des indicateurs clés de
performance (KPI : Key Performance Indicator). Un indicateur clé de performance KPI relie
les activités de l’entreprise à ses objectifs en poursuivant le développement d’une quantité
mesurable.
2.2. Objectifs analytiques

Les KPIs décrivent l’entreprise à un niveau supérieur et peuvent faire référence à
certains aspects de la performance du processus métier ou à l’entreprise dans son ensemble.
Cependant, bien souvent, la BI va au-delà de la formulation des objectifs et de la mesure des
performances et vise à comprendre comment les performances de l’entreprise peuvent être
affectées par des facteurs dits « influents » qui déterminent et expliquent les valeurs des KPI.
La relation entre les KPIs et les facteurs d’influence peut être utilisée ultérieurement pour l’aide
à la décision. Par exemple, dans le cas de la gestion de la relation client, on ne s’intéresse pas
uniquement au nombre de clients qui abandonnent la relation mais on veut comprendre les
raisons de leurs comportements.
Les objectifs analytiques de la BI visent à comprendre la relation entre les KPI et les facteurs
d’influence. On peut distinguer trois grands types d’objectifs analytiques :
1) Les objectifs descriptifs : génèrent une description synthétique des instances du

processus décisionnel selon différentes perspectives BI. Trois objectifs principaux
peuvent être résumés sous cette rubrique :
• Reporting : l’objectif descriptif de base est de créer des rapports. Le « rapport »
est souvent un objectif supplémentaire pour atteindre d’autres objectifs
analytiques.

• Segmentation : consiste à regrouper les informations finales du processus

décisionnel selon une mesure de similarité et à trouver des instances
représentatives pour ces groupes.
• Détection des comportements intéressants : consiste à identifier les
événements et les indices qui permettent d’identifier les aspects importants des
informations issues du processus décisionnel.
2) Les objectifs prédictifs : prédisent le comportement des instances du processus BI. On
peut distinguer deux types différents de prédiction :
• Régression : consiste à trouver une fonction qui permet la prédiction d’une
variable de sortie (généralement un KPI) à partir d’un certain nombre de
variables d’entrée (facteurs d’influence).
• Classification : étant donné un ensemble de données classifiées en classes
disjointes, la classification consiste à affecter à une nouvelle instance l’une de
ces classes préalablement définies.
3) Les objectifs de compréhension : aident les parties prenantes de l’entreprise à
comprendre les différent processus métiers de l’entreprise.
3. Les composants d’un système BI
En complément de la Figure 2.1, la Figure 2.2 montre les éléments constitutifs d’un
système de Business Intelligence. Les composantes des deux premiers niveaux ont été discutés
ci-dessus. Passons maintenant à la description des niveaux supérieurs restants.
Décisions
Optimisation
Fouille de données
Exploration de données
Entreposage de données
Sources de données
Figure 2.2. Les éléments constitutifs d’un système de la Business Intelligence

3.1. Exploration des données
Les outils permettant d’effectuer des analyses BI exploratoires consistent à des systèmes
d’interrogation de données et de Reporting, ainsi que des méthodes statistiques. Ces outils sont
appelés « passifs » car les décideurs sont invités à générer des hypothèses préalables ou à définir
des critères d’exploration de données, puis à utiliser les outils d’analyse pour comprendre les
données, trouver des réponses à leurs questions et confirmer leurs points de vue initiaux.
3.2. Fouille de données
Le quatrième niveau d’un système BI comprend les méthodologies BI actives, dont le

but est l’extraction d’informations et de connaissances à partir de données. Cela inclut des
modèles mathématiques pour la reconnaissance de « motifs », l’apprentissage automatique et
les autres techniques de fouille de données, qui seront traitées dans le chapitre suivant.
La fouille de données (Data Mining) vise à découvrir des connaissances, des idées et des motifs
utiles à partir d’une collection organisée de données. Les modèles doivent être valides,
nouveaux, potentiellement utiles et compréhensibles.
Contrairement aux outils décrits au niveau précédent de la pyramide, les modèles de type actif
ne demandent pas aux décideurs de formuler une hypothèse préalable pour être ensuite vérifiée.
Leur objectif est plutôt d’élargir les connaissances des décideurs.
3.3. Optimisation
Les modèles d’optimisation permettent de déterminer la meilleure solution parmi un

ensemble d’actions alternatives, qui est généralement assez vaste et parfois même infini.
3.4. Les décisions
Le choix et l’adoption effective d’une décision spécifique est la dernière étape dans un
système BI qui représente en quelque sorte la conclusion naturelle du processus décisionnel. En
plus des informations et des connaissances obtenues grâce aux méthodologies automatiques
d’aide à la décision, les décideurs peuvent également profiter des informations informelles et
non structurées disponibles dans l’entreprise pour adapter et modifier leurs décisions.
4. Cycle d’une analyse décisionnelle

L’analyse décisionnelle se diffère en fonction du domaine d’application, de la
perception personnelle des décideurs aux problèmes de l’entreprise et de la particularité du

contexte de l’entreprise ainsi que des méthodologies analytiques disponibles. Néanmoins, il est
possible d’identifier un cycle relativement commun caractérisant l’évolution d’une analyse de
type Business Intelligence, comme le montre la Figure 2.3 :
Analyse
Evaluation Aperçu
Décision
Figure 2.3. Cycle d’une analyse décisionnelle
▪ Analyse : Au cours de la phase d’analyse, il est nécessaire de reconnaître et déterminer avec

précision le problème posé. Les décideurs doivent alors se créer une représentation mentale
du phénomène analysé, en identifiant les facteurs critiques perçus comme les plus
pertinents.
▪ Aperçu : La deuxième phase permet aux décideurs de mieux comprendre le problème posé.
Par exemple, si l’analyse réalisée dans la première phase montre qu’un grand nombre de
clients annulent un contrat d’assurance à l’échéance annuelle, dans la deuxième phase, il
sera nécessaire d’identifier le profil et les caractéristiques partagées par ces clients. Les
informations obtenues lors de la phase d’analyse sont ensuite transformées en connaissances
lors de la phase d’Aperçu. D’une part, l’extraction de connaissances peut se faire grâce à
l’intuition des décideurs et donc être basée sur leur expérience et éventuellement sur des
informations non structurées dont ils disposent. D’autre part, les modèles d’apprentissage
inductif (Data Mining) peuvent également s’avérer très utiles lors de cette étape d’analyse,
notamment lorsqu’ils sont appliqués à des données structurées.
▪ Décision : Au cours de la troisième phase, les connaissances obtenues à la suite de la
deuxième phase sont converties en décisions puis en actions. La disponibilité de
méthodologies BI permet d’exécuter plus rapidement les deux premières phases afin de
pouvoir prendre des décisions plus efficaces et convenables qui correspondent mieux aux
priorités stratégiques d’une entreprise. Ceci conduit à une réduction globale du temps
d’exécution du cycle analyse-décision-action-révision, et donc à un processus de décision
de meilleure qualité.

▪ Évaluation : Enfin, la quatrième phase du cycle décisionnel BI comprend la mesure et

l’évaluation du rendement de décision. Il convient alors d’élaborer des métriques extensives
qui ne se limitent pas exclusivement aux aspects financiers mais prennent également en
compte les grands indicateurs de performance définis pour les différents services de
l’entreprise.
5. Développement d’un système de Business Intelligence
Comme tout projet, le développement d’un système BI requiers de fixer un objectif bien
déterminé, d’estimer les délais et les coûts, ainsi que de coordonner les ressources nécessaires
à la réalisation des tâches et des activités planifiées.
Figure 2.4. Phases de développement d’un système BI (Vercellis, 2009)

La Figure 2.4 montre le cycle de développement typique d’une architecture BI. Bien que les
projets BI se diffèrent selon le contexte, les besoins des entreprises et les moyens déployés au
projet, les étapes essentielles peuvent être décrites en ce qui suit :
▪ Analyse : Au cours de la première phase, les besoins de l’entreprise relatifs au

développement d’un système BI doivent être soigneusement identifiés.
Cette phase préliminaire est généralement menée à travers une série d’entretiens avec des
employés compétents exerçant différents rôles et activités au sein de l’entreprise. Il est
nécessaire de décrire clairement les objectifs généraux et les priorités du projet, ainsi que
d’exposer les coûts et les avantages découlant du développement du système BI.
▪ Conception : La deuxième phase comprend deux sous-phases et vise à établir un plan
provisoire de l’architecture globale du système BI, en tenant compte de tout développement
à court terme et de l’évolution du système à moyen terme.
Tout d’abord, il est nécessaire de faire une évaluation des infrastructures d’information
existantes. De plus, les principaux processus décisionnels qui doivent être pris en charge
par le système BI devraient être examinés afin de déterminer adéquatement les besoins en
informations. Plus tard, en utilisant les méthodologies classiques de gestion de projet, le
plan de projet devrait être établi, en identifiant les phases de développement, les priorités,
les délais et les coûts d’exécution prévus, ainsi que les rôles et les ressources nécessaires.
▪ Planification : L’étape de planification comprend une sous-phase où les fonctions du
système BI sont définies et décrites en détails. Par la suite, les données existantes ainsi que
d’autres données externes sont évaluées. Cela permet de concevoir les structures
d’information de l’architecture de Business Intelligence, qui se composent d’un entrepôt de
données central et éventuellement de magasins de données associés.
En parallèle avec la définition des données disponibles, il convient de définir les modèles
mathématiques à adopter, en s’assurant de la disponibilité des données nécessaires pour
alimenter chaque modèle et en vérifiant que l’efficacité des algorithmes à utiliser sera
adéquate à l’ampleur des problèmes résultants. Enfin, il convient de créer un prototype de
système, à faible coût et avec des capacités limitées, afin de découvrir au préalable tout
écart entre les besoins réels et les spécifications du projet.
▪ Mise en œuvre et contrôle : La dernière phase comprend cinq sous-phases principales.
Tout d’abord, l’entrepôt de données et les magasins des données sont développés. Ceux-ci
représentent les infrastructures d’information qui vont alimenter le système BI. En outre,
afin d’expliquer la signification des données contenues dans l’entrepôt de données et les

transformations appliquées au préalable aux données primaires, une archive de

métadonnées doit être créée. De plus, on doit définir les procédures ETL pour extraire,
transformer et charger les données existantes dans l’entrepôt de données et les magasins de
données. La prochaine étape sera de développer les applications BI de base qui permettent
de réaliser les analyses prévues. Enfin, le système devrait être lancé pour le test et
l’utilisation.
Conclusion
La chaîne décisionnelle d’un système de Business Intelligence comporte une série

d’opérations et de processus qui normalisent et traitent les données pour les intégrer dans un
entrepôt de données. Ce dernier peut être exploité à des fins analytiques descriptifs ou prédictifs
pour soutenir le processus de prise de décision au sein d’une entreprise.

Chapitre 03 : Les outils et les technologies de la BI 20
Introduction
La BI comprend une variété d’outils logiciels et de techniques pour fournir aux

gestionnaires les informations et les perspectives nécessaires à la gestion de l’entreprise.
Des informations peuvent être fournies sur l’état courant de l’entreprise avec la possibilité
d’approfondir les détails, ainsi que des informations sur les modèles émergents qui conduisent
à des projections dans le futur. Les outils de BI incluent l’entreposage de données, le traitement
analytique en ligne, l’analyse des médias sociaux, le Reporting, les tableaux de bord, les
requêtes et la fouille de données.
1. ETL
La phase la plus importante dans le processus décisionnel est la phase de l’intégration

de données. L’intégration de données appelée ETL (Extraction, Transform, Loading) regroupe
les processus par lesquels les données provenant de différentes parties du système
d’information, sont déplacées, combinées et consolidées. Ces processus consistent
habituellement à extraire des données de différentes sources (bases de données, fichiers,
applications, Services Web, emails, etc.), à leur appliquer des transformations (jointures,
nettoyage, déduplication, calculs, etc.), et à charger les données résultantes vers les systèmes
cibles.
Figure 3.1. Schéma d’intégration de données ETL
ETL permet aux applications décisionnelles de masquer la diversité de l’origine des

données et de bénéficier d’une source d’information commune, homogène, normalisée et
fiable, au sein d’un système unique et si possible normalisé.

1.1. Extraction
La fonction d’extraction recouvre l’ensemble des tâches consistant à découvrir,

sélectionner et récupérer les données brutes issues des environnements pertinents. Elle utilise
les méta-données qui servent des liens entre les données sources et les données de l’entrepôt.
L’extraction est soutenue par une tâche de détection d’anomalies dans les données
extraites pour un traitement ultérieur suivant le processus ETL.
1.1.1. Nature de données à extraire

- Plusieurs types de sources : fichiers plats, fichiers Excel, base de données SQL, services
web, …etc.
- Plusieurs types de données : chiffres, texte, texte, image, données statiques, flux …etc.
- Plusieurs plateformes ou systèmes d’exploitation.
- …etc.
1.1.2. Exemples d’anomalies à détecter
- Valeurs nulles ou manquantes.
- Mauvais types de données : dates dans des champs non dates, numérique dans des
champs non numériques, etc...
- Incohérence : différents types de données, différentes longueurs, différentes
contraintes...
- Duplication d’information.
- …etc.
1.2. Transformation
La fonction de transformation recouvre l’ensemble des tâches consistant à consolider

les données et les formater dans un format cible unifié en traitant les anomalies détectées à
l’étape de l’extraction. Les conflits entre les modèles, les schémas et les données sont résolus
durant cette phase.
1.2.1. Correction d’anomalies

- Valeurs nulles ou manquantes : nettoyer, remplir, assimiler à des valeurs (ex : NVL), se
baser sur les probabilités, …
- Mauvais types de données : choisir le type de données le plus adéquat...

- Incohérence : Convertir / uniformiser les noms des attributs, découper les champs
complexes, nettoyer la déduplication (ex : plusieurs enregistrements pour un même
client), unifier les types de données, les longueurs, les contraintes...
Exemples : soient les données suivantes
1) Source 01 : vente_nord (num_vente, montant)

Source 02 : vente_sud (numero_vente, volume)
→ Entrepôt : Ventes (no_ventes, montant, id_région)
Region (id_region, designation_region)
2) Source 01 : montant (‘DA’)
Source 02 : montant (‘EUR’)
Source 03 : montant (‘USD’)
→ Entrepôt : montant (‘EUR’)
3) Source 01 : personne (num_personne, nom_prénom, adresse)
Source 02 : personne (code_per, nom, prénom, code_postal)
→ Entrepôt : personne (num_personne, nom, prénom, adr_num, adr_rue,
adr_code_postal)
4)
1.2.2. Comptoirs des données opérationnelles (Operational Data Store)
Un comptoir de données opérationnelles est une base de données d’intégration qui

permet de stocker les données intégrées (extraites et transformées) avant de les charger dans un
entrepôt de données.
1.3. Chargement
C’est l’opération qui consiste à charger les données nettoyées et préparées dans
l’entrepôt de données. C’est une phase plutôt mécanique et la moins complexe.

Le chargement nécessite la mise en place des stratégies pour assurer de bonnes

conditions à sa réalisation et la définition d’une politique de rafraîchissement. En conséquence,
on peut distinguer deux types de chargement dans un processus ETL :
- Chargement initial : le chargement s’effectue une seule fois en désactivant les

contraintes d’intégrités afin de paralléliser et accélérer l’alimentation de l’entrepôt de
données.
- Chargement incrémental : le chargement s’effectue chaque fois qu’un changement de
données se produit ou à des intervalles périodiques (exemple de changement : ajout,
suppression ou modification des enregistrements).
1.4. Les métadonnées (données sur les données)
Les métadonnées sont des informations qui définissent et décrivent les structures, les
opérations, et le contenu du système décisionnel. Les métadonnées permettent d’automatiser
certains composants d’entreposage (dont l’ETL) et assurent les liens entre les sources de
données et l’entrepôt de données. On distingue trois types de métadonnées : les métadonnées
techniques, d’affaires, et de processus
- Méta-données techniques : les métadonnées de l’outil ETL (les sources, les

transformations, les règles d’affaires…etc.), métadonnées du modèle de stockage (table,
champs, types, dimensions…etc.), et les métadonnées de présentation (les modèles de
données, les rapports, …etc.).
- Méta-données d’affaires : décrivent le contenu de l’entrepôt de données dans des
termes compréhensibles par les utilisateurs d’affaires. Exemple : les indicateurs de
performance, formules de calcul, …etc.
- Méta-données de processus : décrivent les résultats de diverses opérations du système
d’informatique décisionnelle. Exemple : les logs "ETL" (début, fin, écritures disques,),
les statistiques sur les requêtes, … etc.
2. Datawarehouse
Un entrepôt de données (DW : Datawarehouse) est une grande base de données dans
laquelle sont déposées après nettoyage et homogénéisation les données en provenance des

différents systèmes de production de l’entreprise. Les datawarehouses seront l’objet du chapitre

suivant.
3. OLAP
Le modèle multidimensionnel présente une vue statique des données. Il a besoin d’être
manipulé pour extraire des informations nécessaires à la prise de décision. L’exploitation des
données multidimensionnelles peut se faire par divers outils (OLAP, outils de Reporting, fouille
de données).
OLAP (On Line Analytical Processing) est un concept proposé par Codd en1993. Il peut
être défini comme étant l’analyse rapide d’information multidimensionnelle partagée.
Une analyse de type OLAP repose sur les principes suivants :
- Analyse en ligne.
- Permettre l’exploration et la navigation dans les données.
- Passage entre différents niveaux d’agrégation.
- Possibilité de sélection des données détaillées ou agrégées.
3.1. Notion de cube (hypercube) de données
Les fonctionnalités OLAP s’appliquent sur une structure de données

multidimensionnelle qui s’appelle l’hypercube de données.
- Un hypercube représente l’information dans un cube à N dimensions.

- Il peut être extrait d’un entrepôt de données ou d’un magasin de données pour effectuer
l’OLAP.
- Il peut contenir les données à la base (les plus détaillées) ou les données agrégées
(cuboïde).
Exemple

3.2. Composantes d’un cube de données
Un cube de données possède les caractéristiques suivantes :
- Chaque cellule du cube correspond à une occurrence du fait.

- Chaque cellule contient des indicateurs (variables, métriques, ou mesures).
- Les axes d’analyse, également appelés dimensions, contiennent un ensemble de
valeurs.
- Des hiérarchies sont spécifiées sur les dimensions afin de permettre une consolidation
des indicateurs.
- Chaque indicateur a une fonction d’agrégat afin d’être exploité sur la hiérarchie.
Exemple : le cube ci-dessus représente le fait ventes d’une entreprise selon les dimensions
produits, magasin, et dates.
▪ Chaque cellule de cube contient le montant de ventes et la quantité vendue :

Mesure_1 = montant de ventes.
Mesure_2 = quantité vendue.
▪ Hiérarchies des dimensions :
Magasin : ville ← pays ← continent.
Produit : désignation_produit ← catégorie_produit.

Dates : mois (bimestre) ← année.
3.3. Opérations OLAP
Trois types d’opérations OLAP :
Opérations liées à la structure

✓ Rotate/Pivot (rotation) : effectuer à un cube une rotation autour d’un de ses trois axes
passant par le centre de deux faces opposées, de façon à présenter un ensemble de faces
différents. C’est une sorte de sélection de faces et non des membres.
✓ Switch (permutation) : consiste à inter-changer (permuter) la position des membres
d’une dimension.
✓ Split (division) : consiste à présenter chaque tranche du cube et de passer d’une
présentation tridimensionnelle d’un cube à sa présentation sous la forme d’un ensemble
de tables.
✓ Nest (emboitement) : imbrication des membres à partir du cube.
✓ Push (enfoncement) : consiste à combiner les membres d’une dimension aux mesures
du cube.
Opérations liées au niveau de granularité des données
✓ Roll-up : consiste à représenter les données du cube à un niveau de granularité
supérieur conformément à la hiérarchie définie sur la dimension. Une fonction
d’agrégation (somme, moyenne, etc.) en paramètre de l’opération indique comment sont
calculées les valeurs du niveau supérieur à partir de celles du niveau inférieur.

✓ Drill-down : consiste à représenter les données du cube à un niveau de granularité

inférieur, donc sous une forme plus détaillée (selon la hiérarchie définie de la
dimension).
Opérations ensemblistes
✓ Slice (projection) : correspond à une projection selon une dimension du cube.
✓ Dice (sélection) : correspond à une sélection du cube.
4. Data mining
Le terme Data Mining ou fouille de données fait référence au domaine d’application et

de recherche qui s’intéresse à fouiller les données pour extraire des informations pertinentes
utiles à la construction des connaissances à partir des volumes colossaux de données. Il se situe
à l’intersection de quatre disciplines : l’intelligence artificielle, l’apprentissage automatique, les
statistiques et les systèmes des bases de données.
Les propriétés clés de Data Mining sont les suivantes :
- La découverte automatique des motifs de données.

- La prédiction des résultats et des faits probables.
- La création de l’information actionnable.
- L’intérêt porté sur les grandes ensembles et bases de données.
4.1. Data Mining pour la BI
Etant donné des ensembles de données de volumes et de qualités suffisants, la

technologie du Data Mining peut générer des nouvelles opportunités économiques et
commerciales en produisant les capacités suivantes :
- La prédiction automatique des tendances et des comportements de consommation :

l’exemple typique d’un problème prédictif est le marketing ciblé. Le Data Mining utilise
les données pour le profilage des consommateurs et l’identification des clients cibles
qui peuvent probablement maximiser le retour d’investissement.
- La découverte automatique des motifs de données et des informations préalablement
cachés ou inconnus : un exemple de découverte des motifs de données est l’analyse des
données de ventes pour identifier des produits apparemment non reliés que les
consommateurs parfois les achètent ensemble.

4.2. Tâches de Data Mining
Le Data Mining inclut six tâches importantes :
- La détection des anomalies (en anglais, outlier detection) : l’identification

d’enregistrements de données inhabituels, qui pourraient être intéressants ou de données
erronées qui nécessitent un traitement ou une analyse plus approfondie.
- Analyse des règles d’association (modélisation des dépendances) : c’est la recherche
des relations entre les variables. Par exemple, un supermarché peut collecter des
données sur les habitudes d’achat des clients. En utilisant l’analyse des règles
d’association, le supermarché peut déterminer quels produits sont fréquemment achetés
ensemble et utiliser ces informations à des fins de marketing. C’est ce qu’on appelle
parfois l’analyse du panier de consommation.
- Clustering : le regroupement de données est la tâche de découvrir des groupes et des
structures dans les données qui sont d’une manière ou d’une autre proches ou
‘similaires’, sans utiliser de classes ou structures connues à l’avance dans les données.
- Classification : est la tâche d’attribuer une catégorie ou une classe connue à l’avance à
des nouvelles données dont la classification est inconnue. Prenant par exemple, un
service de messagerie qui classe un e-mail comme « spam » ou « non-spam ».
- Régression : consiste à trouver une fonction qui modélise les données avec le moins
d’erreurs.
- Récapitulation de données (en anglais, summarization) : est la tâche de fournir une
représentation plus compacte de l’ensemble de données, y compris la visualisation et la
génération de rapports.
5. Reporting
On désigne par Reporting la tâche qui permet l’extraction des données de diverses
sources pour les représenter sur des tableaux, des graphiques, des présentations visuelles ou
d’autres styles présentatifs afin que les informations soient plus faciles à comprendre, à analyser
et à explorer. Le Reporting vise à rassembler, organiser et analyser des données dans des
rapports significatifs qui peuvent être imprimés ou redistribués d’une manière ou d’une autre.
Il existe de nombreux types d’outils de Reporting, tels que les tableaux de bord, les outils de
visualisation de données, les rédacteurs de rapports ad-hoc, etc. Quelques exemples intéressants
incluent :

- Un tableur, tel que Microsoft Excel, peut agir en lui-même comme un outil BI de
Reporting simple mais efficace. Les données peuvent être téléchargées et stockées dans
la feuille de calcul, puis analysées pour produire des informations, puis présentées sous
forme de graphiques et de tableaux. Ce système offre une automatisation limitée à l’aide
de macros et d’autres fonctionnalités. Les fonctions analytiques comprennent des
fonctions statistiques et financières de base. Les tableaux croisés dynamiques
permettent d’effectuer des analyses de simulation sophistiquées. Des modules
complémentaires peuvent être installés pour permettre une analyse statistique assez
sophistiquée.
- Un système de tableau de bord, tel que Tableau, peut offrir un ensemble d’outils pour
la collecte, l’analyse et la présentation des données. Du côté de l’utilisateur, les tableaux
de bord modulaires peuvent être conçus et repensés facilement avec une interface
utilisateur graphique. Les tableaux de bord sont liés à des entrepôts de données pour
s’assurer que les tableaux et graphiques et autres éléments du tableau de bord sont mis
à jour en temps réel.
- Les systèmes de fouille de données, tels que IBM SPSS Modeler et Weka, sont des
systèmes puissants qui offrent des capacités importantes pour appliquer une large
gamme de modèles analytiques sur de grands jeux de données.
L’efficacité d’un outil BI de Reporting dépend plusieurs critères. Nous citons entre
autres : la simplicité et la convivialité de l’interface d’utilisateur (UI), l’intuitivité, l’évolutivité
et la flexibilité des rapports générés, la capacité à extraire les données à partir de différents
types de sources de données.
Conclusion
Les systèmes BI explorent les données de l’entreprise avec des technologies et des outils
analytiques puissants pour présenter les informations complexes et concurrentielles aux
planificateurs et aux décideurs sous forme de rapports informatifs et compréhensibles.
L’objectif étant d’améliorer la rapidité et la qualité du processus de prise de décision et de
permettre un bon contrôle sur l’environnement dynamique et évolutive de l’entreprise.

Chapitre 04 : Entrepôts de données pour l’aide à la décision 30
Introduction
Un entrepôt de données (en anglais, datawarehouse) est une grande base de données
dans laquelle sont déposées après nettoyage et homogénéisation les données en provenance des
différents systèmes de production de l’entreprise.
Les entrepôts de données permettent de produire des rapports qui répondent à la question « Que
s’est-il passé ? », mais ils peuvent être également conçus pour répondre à la question analytique
« Pourquoi est-ce que cela s’est passé ? » et à la question pronostique « Que va-t-il se passer ? ».
Dans un contexte opérationnel, ils répondent également à la question « Que se passe-t-il en ce
moment ? », voire dans le cas d’une solution d’entrepôt de données actif « Que devrait-il se
passer ? ».
1. Caractéristiques des données d’un entrepôt de données
Selon Bill Inmon (1996) : « Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un
processus d’aide à la décision ».
- Orientées sujet : les données sont organisées autour des sujets majeurs de l’entreprise.
Un entrepôt de données présente une vue synthétique des données selon les sujets
intéressant les décideurs.
- Intégrées : les données sont construites en intégrant des sources de données multiples
et hétérogènes (bases de données relationnelles, fichiers, enregistrements de
transactions…). Elles doivent être mises en forme et unifiées afin d’avoir un état
cohérent.
- Historisées : un entrepôt de données assure la conservation de l’historique des données
et de son évolution. Un référentiel temps doit être associé aux données pour permettre
les analyses comparatives (par exemple, d’une année sur l’autre, etc.).
- Non volatiles : les données d’un entrepôt de données sont stables, non modifiables, et
en lecture seule (conséquence de l’historisation). L’objectif est de conserver la
traçabilité des informations et des décisions.

2. Comparaison entre un entrepôt de données et une base de données

opérationnelle
Le tableau ci-dessous résume les différences principales entre les entrepôts de données
et les bases de données relationnelles :
Tableau 4.1. Comparaison entre un entrepôt de données et une base de données

opérationnelle
BD opérationnelle Entrepôt de données

But Gestion de données Aide à la décision
opérationnelles
Données Courantes Historiques
Détaillées Consolidées
Dynamiques Statiques
Non volumineuses Volumineuses
Intégration Orientée application Orientée sujet
Utilisateurs Nombreux Peu nombreux
Utilisateurs variés Décideurs
Accès aux données Lecture/écriture Lecture seule
Requêtes simples Requêtes complexes
3. Modèles des entrepôts de données

3.1. Entrepôt de données d’entreprise
Un entrepôt d’entreprise collecte toutes les informations sur des sujets couvrant
l’ensemble des activités de l’organisation (entreprise).
- Il fournit une intégration de données à l’échelle de l’entreprise, généralement à partir

d’un ou plusieurs systèmes opérationnels ou de fournisseurs d’informations externes. Il
a une portée inter fonctionnelle.
- Il contient généralement des données détaillées ainsi que des données agrégées, et sa
taille peut aller de quelques Giga-octets à des centaines de Giga-octets, de Téra-octets
ou plus.
- Un entrepôt de données d’entreprise peut être mis en œuvre sur des ordinateurs centraux
traditionnels, des super-serveurs informatiques ou des plates-formes d’architecture
parallèle. Il nécessite une modélisation commerciale approfondie et peut prendre des
années à concevoir et à construire.

3.2. Magasin de données
Un magasin de données (datamart) est un sous-ensemble de données ciblé sur un sujet

unique pour un groupe d’utilisateurs spécifique. Le champ d’application est limité à des sujets
spécifiques sélectionnés. Par exemple, un datamart de marketing peut limiter ses sujets au
client, au produit et aux ventes. Les données contenues dans les magasins de données ont
tendance à être agrégées.
- Les magasins de données sont généralement implémentés sur des serveurs

départementaux à faible coût basés sur UNIX/LINUX ou Windows. Le cycle de mise
en œuvre d’un datamart est plus susceptible d’être mesuré en semaines plutôt qu’en
mois ou en années. Cependant, il peut impliquer une intégration complexe à long terme
si sa conception et sa planification n’étaient pas à l’échelle de l’entreprise.
- Selon la source des données, les magasins de données peuvent être classés comme
indépendants ou dépendants. Les magasins de données indépendants proviennent de
données capturées à partir d’un ou plusieurs systèmes opérationnels ou fournisseurs
d’informations externes, ou à partir de données générées localement au sein d’un
département ou d’une zone géographique particulière. Les magasins de données
dépendants proviennent directement des entrepôts de données d’entreprise.
Figure 4.1. Le magasin de données
3.3. Entrepôt virtuel de données
Un entrepôt virtuel est un ensemble de vues matérialisées sur des bases de données
opérationnelles.
- Pour un traitement efficace des requêtes, seules certaines des vues récapitulatives
possibles peuvent être matérialisées.
- Un entrepôt virtuel est facile à construire mais nécessite une capacité excédentaire sur
les serveurs de base de données opérationnels.

4. Modélisation conceptuelle d’un entrepôt de données
Généralement, la modélisation d’une base de données se fait sur trois niveaux : niveau
conceptuel, niveau logique, niveau physique. La modélisation conceptuelle d’un entrepôt de
données est de type multidimensionnel et la modélisation logique suit des différents modèles
des systèmes OLAP. Au niveau physique, les structures de stockage utilisées sont les entrepôts
de données ou les magasins de données.
4.1. Modélisation multidimensionnelle des données
La modélisation dimensionnelle souvent appelée modélisation OLAP (On-Line

Analytical Processing) se présente comme une alternative au modèle relationnel. Elle
correspond mieux aux besoins du décideur tout en intégrant la modélisation par sujet. Elle
repose sur les principes suivants :
- L’intérêt est porté sur une partie des données et non pas sur la totalité des
données (seulement les données nécessaires à la prise de décision).
- L’intuitivité du modèle de données.
- La tolérance à la violation de certains principes de modélisation classiques (formes
normales) en renforçant les contrôles d’intégrité.
- La vision analytique des données où l’objectif est d’analyser les performances et
l’activité d’une entreprise
4.2. Le concept de cube de données
La modélisation multidimensionnelle considère un sujet analysé comme un point dans

un espace à plusieurs dimensions. Les données y sont organisées de façon à mettre en évidence
le sujet analysé et les différentes perspectives de l’analyse.
Exemple : soit les données relatives à l’activité ‘ventes’ d’une entreprise de distribution 𝑋 à
l’année 2017 :
Tableau 4.2. Un exemple illustratif : les données de l’activité ‘ventes’ de l’entreprise 𝑋
Catégories des produits Régions Montant des ventes

Electroménager BBA 50
Electroménager Msila 40
Electroménager Sétif 30
Imprimantes BBA 60
Imprimantes Bouira 50

Bricolage Msila 30
Bricolage BBA 30
On peut distinguer différentes perspectives pour observer ces données :
• Une dimension relative à la catégorie de produit.

• Une dimension relative à la région.
Figure 4.2. Un exemple illustratif : représentation de données de l’activité ‘ventes’ de

l’entreprise 𝑋
❖ Selon la dimension catégorie : Montant de ventes=50+40+30 pour la catégorie

Electroménager, 60+50 pour Imprimantes, et 30+30 pour Bricolage
❖ Selon la dimension région : Montant de ventes=50+60+30 pour BBA, 40+30
pour Msila, 50 pour Bouira, 30 pour Sétif.
❖ Selon les deux dimensions catégorie et région : Montant de ventes=50 pour la
catégorie Electroménager et la région de BBA, 40 pour la catégorie
Electroménager et la région de Msila, …etc.
Considérons plusieurs tables des ventes de chaque année entre 2015 et 2017. On peut
alors observer les données dans un espace à trois dimensions :
• La dimension catégories des produits.

• La dimension régions.
• La dimension temps.

Figure 4.3. Un exemple illustratif : les tables des ventes de l’entreprise 𝑋 des années 2015,
2016 et 2017
Chaque intersection de ces dimensions représente une cellule comportant le montant

des ventes :
Figure 4.4. Un exemple illustratif : représentation des données de ‘ventes’ de l’entreprise 𝑋

par le cube de données
4.3. Le concept de ‘Fait’ et le concept de ‘Dimension’
La modélisation multidimensionnelle se base sur la dualité Fait/Dimension

(Fact/Dimension). En d’autres termes, elle vise à analyser un ensemble de faits qui se
produisent dans la réalité par rapport à des dimensions pour les comprendre et mieux les
expliquer.
De l’exemple illustratif précédent, on peut définir comme fait « le montant des ventes » et
comme dimensions d’analyse la « catégorie de produit », la « région », et le « temps ».
En résumé, un Fait :
▪ modélise le sujet de l’analyse.

▪ est analysable selon des indicateurs appelés mesures.
▪ ces mesures correspondent aux informations de l’activité analysée.

▪ ces mesures sont numériques et généralement valorisées de façon continue, on peut les
additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne.
Le fait est analysé selon différentes dimensions. Une Dimension :
▪ modélise un thème, ou un axe selon lequel les mesures seront analysées.

▪ explique le fait ou bien le contexte de fait (qui ?, quoi ?, quand ?, où ?, pourquoi ? et
comment ?).
▪ chaque dimension comporte un ou plusieurs paramètres (attributs).
▪ peut être hiérarchisée pour permettre différents groupements de données.
Exemple : le fait de « Vente » peut être constitué des mesures d’activités suivantes :
✓ Quantité de produits vendus.

✓ Montant total des ventes.
Le fait « Vente » peut être analysé suivant différentes perspectives correspondant à trois
dimensions : la dimension Temps, la dimension Géographie et la dimension Catégorie :
4.4. Hiérarchie des paramètres d’une dimension (niveaux de granularité)
La hiérarchie de paramètre d’une dimension définit les niveaux de détail de l’analyse sur
cette dimension.
Exemple : de l’exemple précédent, on peut définir les hiérarchies suivantes :
▪ Dimension Temps : jour← mois ←trimestre ←année.

▪ Dimension Géographie : ville ←département (wilaya) ←région ←pays.
▪ Dimension Catégorie : couleur ←nom de produit ←gamme ←type de produit.

5. Modélisation logique d’un entrepôt de données
Il existe trois méthodes pour l’implémentation d’un entrepôt de données :
- ROLAP (Relational OLAP) : les données sont stockées dans un SGBD relationnel et un
moteur OLAP permettant de simuler le comportement d’un SGBD multidimensionnel est
utilisé.
- MOLAP (Multidimensional OLAP) : la structure de stockage est en cube et l’accès est
direct aux données des cubes.
- HOLAP (Hybrid OLAP) : les données sont stockées dans un SGBD relationnel
(données de base) tandis que la structure de stockage est en cube (données agrégées).
5.1. ROLAP pour les entrepôts des données
L’approche ROLAP est la plus utilisée pour implémenter un entrepôt de données. Le

modèle multidimensionnel est alors traduit de la manière suivante :
- Une (ou plusieurs) table(s) de faits contenant les mesures (les faits).
- Plusieurs tables de dimension contenant les paramètres de description des mesures (les
dimensions).
Une table de dimension contient un ensemble de paramètres (attributs) descriptifs. Elle

est définie par une clé primaire qui lui permet de réaliser des jointures avec la table de faits.
Une table de faits contient un ou plusieurs mesures de performance numériques. Les

mesures peuvent être des mesures de base ou des mesures calculées. Elles peuvent être au
niveau le plus bas de détail ou agrégées. Une table de faits est définie par une clé composite
constituée de plusieurs clés étrangères. Les clés étrangères font référence à chaque table de
dimension.
Exemple : la table ‘Vente’ correspond au fait et les tables ‘Temps’, ‘Géographie’, ‘Catégorie’
représentent les dimensions.
▪ Vente (CleTps, CleGeo, CleCat, Quantite, Montant)

▪ Temps (CleTps, année, trimestre, mois, jour)
▪ Géographie (CleGeo, pays, région, département, ville)
▪ Catégorie (CleCat, type_prod, gamme, nom_prod, couleur)

5.2. Schémas logiques des données
Trois schémas typiques sont proposés pour représenter un entrepôt de données : schéma
en étoile, schéma en flocon de neige, et schéma en constellation de faits.
Schéma en étoile
- Une table de faits centrale et plusieurs tables de dimensions dénormalisées.
- Les mesures sont stockées dans la table de faits.
- Il existe une table de dimension pour chaque dimension avec tous les niveaux
d’agrégation.
- Les tables de dimension n’ont pas de liens entre elles.
Figure 4.5. Schéma en étoile
Schéma en flocon de neige
Figure 4.6. Schéma en flocon de neige
- Version normalisée (3FN) du schéma en étoile.

- Traitement explicite des hiérarchies de dimension (chaque niveau est représenté dans une
table différente).
- Plus facile à maintenir, plus lent lors de l’interrogation.
Schéma en constellation de faits

- La modélisation en constellation consiste à fusionner plusieurs modèles en étoile qui
utilisent des dimensions communes.
- Un modèle en constellation comprend donc plusieurs tables de faits et des tables de
dimensions communes ou non à ces tables de faits.
Figure 4.7. Schéma en constellation de faits
6. Processus de conception de l’entrepôt de données
Un entrepôt de données peut être construit en utilisant une approche descendante, une
approche ascendante ou une combinaison des deux.
- L’approche descendante commence par la conception et la planification générale. Il est

utile dans les cas où la technologie est mature et bien connue et les problèmes
commerciaux qui doivent être résolus sont clairs et bien compris.
- L’approche ascendante commence par des expérimentations et des prototypes. Ceci est
utile au début de la modélisation commerciale et du développement technologique. Il
permet à une organisation d’avancer à un coût considérablement moindre et d’évaluer
les avantages de la technologie avant de prendre des engagements importants.

- Dans l’approche combinée, une organisation peut exploiter la nature planifiée et

stratégique de l’approche descendante tout en conservant la mise en œuvre rapide et
l’application opportuniste de l’approche ascendante.
Le processus de conception d’entrepôt comprend les étapes suivantes :
- Choisir un processus métier pour modéliser, par exemple, les commandes, les factures,
les expéditions, l’inventaire, l’administration des comptes, ou les ventes. Si le processus
métier est organisationnel et implique plusieurs collections d’objets complexes, un
modèle d’entrepôt de données (datawarehouse) doit être suivi. Sinon, si le processus est
départemental et se concentre sur l’analyse d’un type de processus métier, un modèle
de magasin de données (datamart) doit être choisi.
- Choisir la granularité du processus d’affaires. La granularité est le niveau atomique
fondamental des données à représenter dans la table de faits pour ce processus, par
exemple, les transactions individuelles, les instances quotidiens individuels, etc.
- Choisir les dimensions qui s’appliqueront à chaque enregistrement de table de faits. Les
dimensions typiques sont le temps, le produit, le client, le fournisseur, le type de
transaction et le statut.
- Choisir les mesures qui rempliront chaque enregistrement de table de faits. Les mesures
typiques sont des quantités additives numériques telles que les chiffres d’affaires et les
quantités vendues.
Conclusion
L’émergence du concept de l’entrepôt de données en tant qu’un nouveau référentiel pour

le stockage de données avec les capacités accrues du matériel et des logiciels et l’approche de
modélisation multidimensionnelle, présentent des avancées très intéressantes pour la prise de
la décision au sein d’une entreprise. Ces avantages permettent de créer un environnement BI
plus riche, plus approprié et plus flexible au changement continue du contexte commerciale et
économique de l’entreprise.

Chapitre 05 : Entrepôts de données numériques et en ligne 41
Introduction
Au cours de ces dernières années, les habitudes d’achats de produits et de prestations de

services des consommateurs du monde ont considérablement évolué. On assiste à un shift de
plus en plus appuyé vers les achats des produits ou des services sur le Web, en utilisant les
nouvelles technologies de paiement électronique.
De nombreuses données intéressantes pourraient être automatiquement capturées lors de la

navigation des clients sur les sites Web. Un entrepôt de données adapté au contexte numérique
et digital doit être capable de capturer les habitudes de navigation des cyberconsommateurs
pour accroitre les profits de l’entreprise et fidéliser sa clientèle.
L’objet de ce dernier chapitre est les entrepôts de données pour le commerce et le business
électronique.
1. Généralités
1.1. Architecture client/serveur
Un site Web est un ensemble de pages web et de ressources reliées par des hyperliens,
défini et accessible par une adresse web. Un site Web est hébergé sur un serveur web accessible
via le réseau mondial Internet.
Un serveur Web est une machine physique située quelque part dans le monde sur
laquelle est installé :
✓ Un système d’exploitation (Windows Server, Linux Debian …etc.).

✓ Un service de protocole HTTP (HyperText Transfer Protocol). Exemple : Apache pour
Linux, Nginx pour Linux, IIS (Internet Information Services) pour Windows…etc. Le
protocole HTTP permet de répondre aux requêtes faites depuis un navigateur Web.
✓ Un serveur de gestion de base de données. Exemple : MySQL.
✓ Un interprète PHP.
Un serveur Web est identifié par une « adresse IP ». Exemple : 66.249. 64.125.
La figure ci-dessous montre les interactions entre un navigateur web (client web) et un site web
(serveur web).
1. L’utilisateur saisit un URL sur le navigateur Web. Exemple d’URL :

http://www.google.fr.

2. Pour récupérer l’adresse IP du serveur associé au domaine http://www.google.fr, le

navigateur web doit communiquer avec le serveur DNS. Un serveur DNS (Domain
Name System) est un service qui permet de traduire un nom de domaine en une adresse
IP.
3. L’adresse IP du serveur Web récupérée, le navigateur envoie la requête HTTP au
serveur Web.
4. Le serveur Web traite la requête et retourne la page web correspondante.
Figure 5.1. Interaction Client/Serveur
Une visite, ou une session Web, est une période délimitée d’interaction entre un
navigateur (client Web) et un site Web (serveur Web).
1.2. e-Commerce vs. e-Business
Les deux termes e-commerce et e-business sont fréquemment utilisés comme

synonymes. Les définitions ci-après illustrent les conceptions généralement adoptées par les
pratiquants de ce type d’affaires.
1.2.1. e-Commerce (commerce électronique)
Le commerce électronique décrit souvent le processus d’achat, de vente, de marketing,

de paiement ou d’échange des produits, des services par le biais de l’Internet et les réseaux de
télécommunication en général.
Néanmoins, l’Organisation mondiale du commerce (OMC), propose une autre conception très
large qui englobe également la production. Elle définit le commerce électronique par « la
production, publicité, vente et distribution de produits par des réseaux de télécommunication ».

Une autre définition de la Fédération de l’e-commerce et de la vente à distance (Fevad) envisage

l’e-commerce comme une forme de vente à distance selon les modes de commande (courrier,
téléphone fixe ou mobile, Internet, etc.).
1.2.2. e-Business (affaires électronique)
On appelle e-Business l’ensemble des processus économiques de l’entreprise effectués

et coordonnés par le recours aux applications des TIC (Technologies de l’Information et de la
Communication). Les technologies utilisées sont principalement celles de l’Internet mais
peuvent se faire par des réseaux privés ou par téléphone.
Les affaires électroniques précèdent et prolongent les échanges purement transactionnels liés
au commerce électronique pour l’achat, la vente et le paiement des biens et services. Leur
domaine d’application est plus large que le commerce électronique. Il concerne aussi bien
l’organisation du travail dans une organisation que sa façon de communiquer et d’échanger des
données avec ses clients, ses sous-traitants, ses fournisseurs et ses partenaires.
Figure 2.5. e-Commerce vs. e-Business
1.3. e-Business intelligence (Web-enabled business intelligence)
En se basant sur les définitions précédentes, le concept « Web-enabled Business

Intelligence », plus largement, le « e-Businnes Intelligence » réfère à l’application et
l’exploitation des différentes techniques de BI (Business Intelligence) dans les domaines de «
e-business » et « e-commerce » afin de bien gérer le processus commercial de l’entreprise dans
un environnement basé principalement sur l’Internet et les technologies de l’information et de
la communication.

Par conséquent, un système décisionnel intégrant ces technologies numériques de

communication peut comporter davantage les éléments suivants :
- Les données Web et les données numériques qui proviennent des outils et des systèmes
numériques de communication à distance.
- Un système ETL qui permet l’extraction, la transformation, et le chargement de ces
types de données dans l’entrepôt de données de l’entreprise qui contient déjà de
nombreux flux provenant de systèmes de traitement des transactions.
- Un entrepôt de données qui consolide les données préparées par l’ETL dans des
nouvelles tables de dimensions et tables de faits.
Dans ce chapitre, on va se concentrer sur deux aspects importants :
- Les données Web comportementales.

- Les entrepôts de données en ligne (données Web).
2. Les données Web et le flux interactif
Les données web peuvent être classées en trois catégories :
- Données liées à la structure Web : elles capturent les liens entre les pages Web.
- Données liées au contenu Web : elles capturent le contenu statique ou dynamique,
textuel ou multimédia des sites Web.
- Données liées à l’utilisation de Web : elles capturent l’identité d’un utilisateur et son
comportement de navigation.
Dans un contexte décisionnel intégrant les données en ligne, on s’intéresse particulièrement aux
données comportementales de navigation des utilisateurs. Ce type de données est appelé « flux
interactif » ou « flux de clics » (clickstream, en anglais).
Le traitement de données sources de type flux interactif est indispensable pour le processus
décisionnel des entreprises qui sont de plus en plus actives sur le web. En effet, mesurer et
comprendre le comportement de l’utilisateur Web conduit toutes les techniques de marketing
en ligne, qu’il s’agisse de programmes de promotion des ventes d’une durée de plusieurs
semaines ou de messages de bienvenue instantanés affichés sur l’écran de l’utilisateur. Dans
tous ces cas, les informations comportementales brutes doivent être apportées à une base de
données performante pour l’analyse. La base de données est, bien sûr, l’entrepôt de données,
que nous appelons le « data webhouse » ou bien l’entrepôts de données Web.

3. Le flux interactif (Clickstream)

3.1. Définition
Dans sa forme la plus élémentaire, le flux interactif se compose de tous les évènements
de page web enregistrés par chacun des serveurs web. En d’autres termes, le flux de clics est
littéralement un journal de chaque geste effectué par chaque visiteur d’un site Web commercial,
lorsqu’il navigue sur Internet ou lorsqu’il utilise un autre outil informatique. Il comporte des
informations personnelles qui concerne l’utilisateur, des statistiques sur les visites effectuées
sur le site web, des informations démographiques extraites depuis les cookies liés aux
utilisateurs …etc.
3.2. Sources des données flux interactif
Pour collecter les données flux interactif, un certain nombre de sources existent. Les
deux sources les plus utilisées sont : les fichiers journaux et les cookies.
3.2.1. Les fichiers journaux
Les serveurs Web produisent des quantités riches de données journaux. Un serveur Web
enregistre tout évènement déclenché pendant l’interaction client web, site web. Il sauvegarde
tout fichier ou image téléchargée, tout page web ouverte...etc.
Le serveur web journalise chaque requête HTTP dans un fichier journal ASCII enregistré dans
le fichier système. Les informations généralement contenues dans chaque entrée de fichier
journal incluent : adresse IP, date et heure, requête HTTP, et le type du navigateur Web et sa
version. Chaque entrée est typiquement formatée suivant les spécifications CLF (Common Log
Format). Bien que le format du fichier journal soit finalement lié au choix du propriétaire du
serveur Web, les quatre formats suivants sont parmi les plus populaires : NCSA Common Log,
NCSA Combined Log, NCSA Separate Log et W3C Extended Log.
Figure 5.3. Exemple d’une entrée dans un fichier journal
Une entrée typique dans un fichier journal se compose des champs suivants :

✓ Host : adresse IP du client web.

✓ Identification : informations sur le système qui a effectué la requête. Ce champ est
rarement utilisé.
✓ Authuser : un champ pour les utilisateurs authentifiés.
✓ Time : date/heure de la requête client.
✓ Request : requête HTTP,
✓ Status : état de la requête (réussie, échouée, …etc.).
✓ Bytes : nombre de bits transférés au client web.
En plus de ces champs communs, une forme extensible d’une ligne d’informations dans un
fichier journal peut comporter deux autres champs :
✓ Referrer (prescripteur) : est un texte en chaine de caractères envoyé par le client Web
pour indiquer l’origine de la requête ou du lien en cas où il a accédé au site web d’une
manière indirecte depuis un lien dans un autre site web ou une autre application.
✓ Agent : ce champ identifie le programme client (Crawlers ou Spiders des moteurs de
recherches) ou le navigateur qui a effectué la requête.
3.2.2. Les cookies
Le cookie est l’équivalent d’un fichier texte de petite taille au format alphanumérique,
stocké sur le terminal du client web par le serveur web du site visité ou par un serveur tiers
(régie publicitaire, service de web analytique, etc.).
Les cookies permettent aux serveurs web de :
- Conserver des données utilisateur afin de faciliter la navigation et de permettre certaines

fonctionnalités.
- Établir l’identité de l’utilisateur dans une session unique ou entre diverses sessions.
- Produire un moyen efficace pour lier n’importe quelle visite effectuée par un client web
à une session précise ou un ensemble de sessions spécifiques qu’il s’agisse d’un accès
via un serveur proxy, une nouvelle adresse IP, ou un système partagé avec d’autres
utilisateurs.
Un navigateur Web crée un fichier « cookie » à la demande d’un serveur Web. Le cookie réside
dans la mémoire lorsque le navigateur est ouvert. Lorsque le navigateur est fermé, les cookies
sont écrits sur le disque dur. Le serveur Web demande la création d’un cookie avec un entête

de type « Set-Cookie HTTP Response ». Le format d’un entête « Set-Cookie HTTP Response »
est comme suit :
Set-Cookie: Name=value; expires=date; path=path;

domain=domain; secure
Exemple :
Set-Cookie: user=foo_0710_109; expires=01-Jan-2100;

path=/freds_books; secure
Tel que :
✓ Name=value : est un champ obligatoire. Le nom peut être n’importe quelle séquence
de caractères. Les cookies peuvent stocker plus de 4 KB de données (typiquement entre
50 et 150 Bytes).
✓ Expires=date : le navigateur supprime le cookie du disque dur à cette date.
✓ Path=path : le champ « path » indique au navigateur à quelle adresse URL le cookie
doit être envoyé.
✓ Domain=domain : indique pour quel nom de domaine le cookie est valide.
✓ Secure : un cookie sécurisé est envoyé uniquement sur le serveur HTTPS (HTTP sur
SSL). Pour que le cookie soit envoyé, la communication doit être sécurisée.
3.2.3. Les fournisseurs d’accès Internet
Un FAI (Fournisseurs d’Accès Internet, en anglais Internet Service Provider, ISP) est
le prestataire qui assure la liaison entre un réseau domestique ou d’entreprise et le reste de
l’Internet. Il peut être propriétaire de la liaison physique, câble, fibre ou paire téléphonique qui
sépare un client de son Point de Présence (PoP) le plus proche, ou la louer à un autre opérateur.
Il est seul responsable de cette liaison, des services offerts et des adresses IP fournies. Par
conséquent, le FAI possède naturellement une perspective bien complète sur toutes les données
de navigation correspondantes à ses clients.
3.2.4. Les services de surveillance du Web
La surveillance ou le « monitoring » est une activité essentielle pour la plupart des

entreprises qui ont des sites Web fournissant des services de marketing ou de commerce

électronique. Elle consiste à vérifie la disponibilité, les performances et la fonctionnalité d’un

site Web ou d’un service Web lié à l’entreprise.
Un service de surveillance utilise les scripts, les agents, les cookies ou le code côté serveur pour
suivre les performances du site Web à mesure que chaque visiteur accède au site. Il repose sur
l’interaction de l’utilisateur avec le site Web pour capturer les données réelles des clients qui
seront ensuite analysées afin de déterminer le bon fonctionnement des transactions client/site
web.
3.2.5. Les moteurs de recherche
Les données de comportement interactif peuvent être collectés en analysant les requêtes
de recherche et les spécifications entrées par l’utilisateur avant d’être finalement dirigé vers le
site web marchand.
3.3. Caractéristiques de données flux interactif
Les données flux interactif sont :
✓ Evolutives : le flux interactif est en réalité une collection de sources de données en

perpétuelle évolution.
✓ Différents structures et formats : Il existe plus d’une douzaine de formats différents
de fichiers de journalisation de serveur web où sont saisies les données de flux interactif.
Le niveau d’expressivité des formats (par exemple XML) a certainement une incidence
sur la source de données flux interactif.
✓ Non synchronisées : Le Web étant par nature distribué, les données flux interactif sont
souvent collectées simultanément par différents serveurs physiques, même lorsque le
visiteur pense n’interagir qu’avec un seul site web. Même si les fichiers journaux sur
lesquels ces différents serveurs recueillent les informations sont compatibles, leur
synchronisation ultérieure pose un problème. Un serveur web très actif peut traiter des
centaines d’évènements page web par seconde. Il y a peu de chance pour que les
horloges de serveurs distincts soient synchronisées au centième de seconde.
4. Suivi d’un utilisateur Web
Les actions d’un internaute peuvent être motivées par un certain nombre de besoins
différents, et ces besoins peuvent changer d’un instant à un autre au cours d’une session de
navigation. Voici quelques-unes des actions les plus courantes qu’un utilisateur peut effectuer

au cours d’une session Web. Il est important de noter que les visiteurs peuvent à tout moment
faire des va-et-vient entre ces actions et peuvent facilement se perdre dans un labyrinthe de
pages et de liens sans être en mesure de retrouver leur chemin vers l’endroit où on souhaite
qu’ils se concentrent.
- Recherche : recherche d’un produit, d’un service ou d’une source d’informations

spécifique.
- Collecte d’informations : comparer les produits et les prix, lire les FAQ.
- Divertissement : lecture, jeu coopératif.
- Éducation : utilisation de manuels, de cours interactifs, de livres et d’articles en ligne.
- Communication : rejoindre des groupes de discussion en utilisant la messagerie
électronique basée sur un navigateur.
- Téléchargement : récupération d’images, audio / vidéo réels, logiciels.
- Shopping et commande : sélectionner et acheter des biens matériels ou non, souvent
avec une carte de crédit.
- Entrée accidentelle : clic sur le mauvais bouton ou objet, erreurs d’URL, liens rompus.
Dans un environnement de e-commerce basé sur le Web, le client peut être identifié et suivi
tout au long du parcours d’achat. Les sites Web marchands intègrent des outils de suivi des
visiteurs et de leurs actions, afin de mesurer l’efficacité et l’impact du site. Ces informations de
suivi sont ensuite utilisées pour personnaliser le contenu dynamique du site, augmentant ainsi
la pertinence et l’intérêt du contenu à mesure que la session se continue ou que l’utilisateur
revient sur le site à une date ultérieure.
4.1. Analyse comportementale
Le comportement d’un utilisateur lors d’une visite du site Web marchand peut fournir
des informations précieuses sur l’efficacité du site, ainsi que sur les habitudes de navigation de
l’utilisateur. La valeur réelle de l’identification du comportement est d’améliorer la qualité de
l’interaction de l’utilisateur avec l’entreprise. L’amélioration de l’interaction se traduit
directement par la fidélité des clients, une augmentation des revenus et des bénéfices accrus.
De nombreux aspects du comportement peuvent être mesurés et enregistrés par un site Web
correctement organisé. Les aspects les plus importants peuvent inclure :
- Événement d’achat réussi.

- Événement d’achat annulé, incomplet ou inutile.

- Informations recherchées trouvées, informations recherchées non disponibles.

- Événement « Session Killer » (l’utilisateur a quitté le site).
- Affichage incomplet des informations, mais l’utilisateur est encore présent sur le site
(exemple : clic rapide vers la page suivante).
- Affichage incomplet des informations : l’utilisateur quitte le site avant que la page ne
soit chargée.
- Mauvais chemin pris.
- L’utilisateur est insatisfait.
- L’utilisateur est satisfait.
- L’utilisateur est rassuré.
4.2. Eléments de suivi
D’où vient le visiteur ? Comment a-t-il trouvé le site Web ? Comment est-il arrivé à une
page, une image ou un bon de commande en particulier ? Les réponses à ces questions sont
d’une importance singulière pour le service marketing car elles déterminent l’efficacité de la
promotion du site. Attirer des visiteurs peut être extrêmement coûteux, et de nouvelles façons
d’attirer des visiteurs sont constamment inventées. Il existe un certain nombre de méthodes
courantes pour attirer les utilisateurs sur un site web donné.
1. Identification de l’origine du visiteur web

Le visiteur peut accéder à un site web de manières différentes :
✓ Directement si le site web est la page par défaut du navigateur du visiteur.
✓ Indirectement depuis un moteur de recherche, depuis le dossier de sites favoris, ou
depuis un lien dans un autre site web (les liens simples gratuits ou les liens de
publicité payés).
Dans certains cas, on remonte en arrière pour trouver les informations de prescription
(referrer) dans les fichiers journaux du Web, mais dans d’autres cas ces informations ne
sont pas disponibles.
2. Identification d’une session complète : les sessions HTTP ne sont pas délimitées.
L’utilisation de cookies est le meilleur mécanisme pour définir une session, mais on ne
parvient pas à expliquer tous les intervalles de temps entre des demandes de pages.
3. Identification du visiteur web : même avec un cookie, on ne peut pas être sûr de connaitre
la personne qui se trouve à l’autre bout. Les cookies fournis par les serveurs identifient un

ordinateur, non un individu. En outre, on doit être capable à différencier un visiteur normal
d’un visiteur de type robot ou crawler.
4. Le traitement des serveurs proxy : un serveur proxy intercepte les demandes de page de
visiteur. On peut empêcher l’utilisation des serveurs proxy ou dans certains cas on peut
obtenir les fichiers journaux de ces serveurs.
5. Le flux interactif pour l’analyse comportementale
L’analyse du flux interactif comporte trois composants essentiels :
1. Analyse des prescripteurs (Referral Analysis) : un prescripteur est un lien qui fait
référence à un site web e-commerce. L’analyse des prescripteurs vise à répondre à la
question « comment un visiteur arrive à un site web donné (d’où il vient ?) ». C’est une
question très importante pour suivre l’utilisation des liens externes à un site web.
2. Analyser le chemin d’achat : analyse comment les clients arrivent à passer une
commande, ou quand est ce qu’ils abandonnent une commande.
3. Analyse des visites répétées (Repeat Visitor Analysis) : suivre comment et quand est
ce que les visiteurs retournent à un site web.
6. Traitement et transformation des données du flux interactif
L’exploitation des données du flux interactif doit être précédée par une étape de
nettoyage, de traitement et de préparation. Parmi les transformations indispensables, on peut
citer les procédures suivantes :
- Rendre les URLs plus compréhensibles (contenu dynamique, titres de page).

- Convertir les adresses IP numériques en noms de domaine alphanumériques.
- Délimiter et organiser les sessions à l’aide des cookies ou d’autres techniques.
- Filtrer et identifier les collecteurs (crawlers) et les robots : les crawlers et les robots
sont les programmes automatisés qui naviguent à travers les sites web pour des fins
divers (crawlers de recherche, shopping bots, collecteurs des emails, évaluateurs de
performance, …etc.).
- Calculer les attributs de niveau session (nombre de pages, temps passé, les étapes
importantes de la session…etc.)
- Le profilage du consommateur en se basant sur l’historique de la navigation.
Exemples de profiles consommateurs : visiteur/acheteur répété ou initial,

visiteur/acheteur récent, visiteur/acheteur fréquent, lecteurs ou navigateurs, dépensier

léger, référant original.
- Utiliser les produits et les attributs de contenu.
- Calculer les abstractions des attributs existants : par exemple, hiérarchies de produit,
référant, navigateurs, régions.
- Calculer les attributs date/heure.
- Suivre les visiteurs dans une session à l’aide des URLs référents, les URLs spéciaux,
…etc., et entre les sessions à l’aide des adresses IPs, des cookies, ou des informations
offertes par le visiteur.
7. Les entrepôts de données Web

7.1. Définition
L’entrepôt de données web, que l’on appelle data webhouse, est l’instanciation Web de
l’entrepôt de données classique que l’on appelle data warehouse. D’autres termes qui réfèrent
à la même définition sont aussi utilisés comme : entrepôt de données numériques ou entrepôt
de données en ligne.
Figure 5.4. Le consommateur, le site web et le webhouse (Kimball & Merz, 2000)
Le data webhouse joue un rôle crucial et central dans l’architecture décisionnelle d’une
entreprise active sur le Web. Pour réaliser ce potentiel, le data webhouse :
• Héberge les données de flux interactif et d’autres données Web comportementales qui
permettent de comprendre le comportement des clients en ligne.

• Est conforme aux autres magasins de données (data marts) de l’entrepôt de données
d’entreprise, de sorte que tous ces magasins de données puissent être utilisés ensemble.
• Est une source d’information adaptative et résiliente. Il peut répondre aux nouvelles
questions commerciales qui se posent à l’entreprise sur l’environnement virtuel.
• Est extensible aux nouveaux médias du Web, y compris les images fixes, les graphiques,
l’audio et la vidéo.
• Est la base du processus de la prise de décision qui tient en compte les données Web
(web-enabled decision making). Là encore, les données webhouse doivent permettre à
ses utilisateurs de prendre des décisions visant le Web, ainsi que de prendre des
décisions en utilisant le Web.
7.2. Architecture de data Webhouse
Avec la croissance de la consommation en ligne, le rythme de la prise de décision

commerciale s’est considérablement accéléré. Cette situation exige à repenser l’architecture
classique des entrepôts de données pour une nouvelle conception qui doit prendre en
considération les trois facteurs techniques suivants :
- La rapidité : comprendre et gérer la demande doit être en temps réel.

- Le volume de données : les données du flux interactif exigent un espace de stockage
très élevé.
- Le temps de réponse : pour assurer la pérennité commerciale en ligne, le temps de
réponse aux exigences des consommateurs en ligne doit être minimale.
La figure ci-dessous montre l’architecture d’un Webhouse de données, proposée par Kimball
et Merz (2000). Les éléments de cette architecture : le serveur web, le serveur des transactions
commerciales et le système du data Webhouse sont supposés appartenir à une seule entité
commerciale.

Figure 5.5. Architecture du data webhouse (Kimball & Merz, 2000)
• L’utilisateur et le FAI : l’utilisateur est connecté au Web via un fournisseur d’accès

Internet (FAI, ISP en anglais). Le FAI possède toutes les informations et les données de
navigation qui concernent l’utilisateur.
• Le serveur Web public (Public Web Server) : le but du serveur Web est de prendre des
commandes de produits auprès de l’entreprise ou d’effectuer d’autres types de transactions
commerciales significatives.

Les connexions du serveur Web public vers d’autres serveurs doivent être bien sécurisées
afin de minimiser le risque extérieur de compromettre les données de ces serveurs à partir
du serveur Web.
• Le serveur des transactions commerciales (Public Application and Business
Transaction Server) : le travail du serveur de transactions commerciales est d’enregistrer
les transactions commerciales d’une manière juridiquement et financièrement responsable
et de ne jamais perdre ces transactions. La fonction de serveur de transaction commerciale
est très différente de la fonction de serveur Web, et dans toute entreprise sérieuse, ces deux
serveurs doivent être séparés logiquement et physiquement.
• Le cache de réponse instantanée (Hot Response Cache) : une façon de réduire la pression
sur les principaux moteurs de base de données consiste à créer un puissant cache de réponse
instantanée. Le cache de réponse instantanée est un serveur de fichiers conçu pour anticiper
autant de demandes d’informations prévisibles et répétées que possible. Le cache de réponse
instantanée est un complément des serveurs d’applications qui alimentent le serveur Web
public et le point d’entrée du pare-feu privé pour les employés.
• Le système de data webhouse (Data Webhouse Server Suite) : le data Webhouse est en
fait un système distribué, dont tous les composants sont dupliqués plusieurs fois dans une
grande organisation typique. Les quatre types de serveurs dans le système de Webhouse :
le cache de réponse instantanée, les moteurs du SGBD relationnel et d’OLAP, le serveur
d’application de données Webhouse et le serveur multimédia ; jouent des rôles très
différents.
Le cache de réponse instantanée est une sorte d’un comptoir de données opérationnelles qui
peut répondre instantanément aux besoins du serveur Web public. En général, le cache de
réponse instantanée n’exécute pas des requêtes complexes. Il incombe au serveur
d’applications Webhouse de données et aux moteurs de base de données relationnelle de
préparer la plupart des résultats instantanés nécessaires à la récupération d'informations en
temps réel et de les télécharger dans le cache de réponse instantanée.
Le Webhouse est également disponible via le pare-feu privé pour les utilisateurs qualifiés
sur le Web. Ces utilisateurs sont généralement des employés et des partenaires
commerciaux de l'entreprise.
Le serveur d’application des données Webhouse est le standard pour toutes les activités des
utilisateurs qualifiés. Il est capable d’accéder au cache de réponse instantanée, à tous les
moteurs de bases de données relationnelles et aux autres serveurs de documents et
multimédias. Le serveur d’applications Webhouse fournit tout dans un format compatible

avec le navigateur. Peu importe que l’utilisateur se trouve dans l’entreprise ou qu’il soit
réellement localisé à distance sur le Web.
8. Entreposage de données flux interactif

8.1. Dimensions
En général, un entrepôt de données ou un magasin de données intégrant les données flux

interactif doit comporter en plus des dimensions habituelles comme « Produit », « Client »,
« Vendeur », « Employé », « Temps » (heure/minute/seconde) et « Date », les quatre
dimensions suivantes :
Prescripteur
CLE_prescripteur SESSION
Type_prescripteur CLE_session PAGE
URL_prescripteur Type_session CLE_page
Site_prescripteur Contenu_local Nom_page Evènement
Domaine_prescripteur Contexte_session Source_page CLE_event
Type_recherche Statut_session Fonction_page Type_event
Specifications_recherche Statut_visiteur Graphic_page Contenu_event
• Dimension Page
Décrit le contexte de la page web. Elle peut inclure entre autres les attributs suivants : clé
primaire de la dimension, nom de page, source de page (statique ou dynamique), fonction de
page (page d’accueil, page de recherche, page de description d’un produit), type de graphiques
de page (GIF, GPG...), …etc.
• Dimension Evènement
Décrit que ce qu’il se produit sur une page particulière à un instant particulier. Les attributs de
la dimension Evènement sont : clé primaire de la dimension, type d’évènement (les évènements
principaux d’une page sont : ouvrir la page, actualiser la page, cliquer sur un lien dans la page,
entrer des données), contenu de l’évènement.
• Dimension Session
Produire un niveau de diagnostic sur la session d’un visiteur d’un site web. Elle peut inclure
entre autres les attributs suivants : clé primaire de la dimension, type de session (classifiée, non
classifiée, inapplicable), contenu local (contexte dérivé de la page, par exemple : demande des

informations sur un produit), contexte de la session (contexte dérivé de la trajectoire du

visiteur), séquence d’actions (toutes les actions effectuées pendant la session), statut de session
(session accomplie ou inaccomplie), statut de visiteur consommateur (consommateur de haut
niveau, consommateur fiable, nouveau consommateur…etc.).
• Dimension Prescripteur (Referrer)
Décrit comment le visiteur est arrivé au site web en question. Elle peut inclure entre autres les
attributs suivants : clé primaire de la dimension, type de prescripteur (moteur de recherche,
blog, site de publicité…), URL de prescripteur (exemple :
www.organization.site.com/linkspage), site de prescripteur (exemple :
www.organization.site.com), domaine de prescripteur (exemple : site.com), type de recherche
(correspondance textuelle simple, logique de correspondance complexe), spécification (mots
clés utilisés), cible (lieu où la recherche a trouvé la correspondance : titre de page, contenu de
page, tags de page…).
8.2. Schéma multidimensionnel des données de flux interactif
On peut concevoir des différents modèles multidimensionnels pour intégrer les données
de flux interactif dans un entrepôt de données selon les objectifs et les besoins de l’entreprise.
Par exemple, Kimball et Ross (2002) ont proposé deux modèles. Le premier modèle (Figure
5.6) est un magasin de donnés de flux interactif qui est basé uniquement sur les données dérivées
des fichiers journaux de site Web marchand. Dans le but d’empêcher la table de faits de croître
de manière astronomique, les auteurs ont défini le niveau de granularité pour chaque session
client terminée. Le niveau de granularité du deuxième modèle (Figure 5.7) est défini pour
chaque évènement individuel d’une page dans chaque session client.

Figure 5.6. Schéma de flux interactif au niveau Session (Kimball & Ross, 2000)
Figure 5.7. Schéma de flux interactif au niveau Evènement-Page (Kimball & Ross, 2000)
Conclusion
L’ajout de l’aspect du commerce électronique à l’entrepôt de données apporte à la fois
de la complexité et de l’innovation au processus décisionnel de l’entreprise. L’entreposage de

données reliées aux habitudes de la navigation des visiteurs des sites Web pourrait être exploité
pour accroitre les ventes en ligne et hors ligne et attirer de la clientèle.

Etude d’un cas pratique 60
Générer un rapport à partir d’un modèle dimensionnel en utilisant l’outil

Power BI Desktop
1. Cas d’étude
Vous travaillez chez AdventureWorks et votre responsable souhaite voir un rapport sur vos
derniers chiffres de vente. Il vous a demandé un rapport de synthèse de ce qui suit :
✓ Quel jour y a-t-il eu le plus de ventes en février 2019 ?

✓ Dans quel pays la société rencontre-t-elle le plus de succès ?
✓ Quelles sont les catégories de produits et les types de revendeurs dans lesquels
l’entreprise doit continuer à investir ?
Dans ce cas d’étude extrait d’un tutoriel Power BI disponible sur le lien :
https://docs.microsoft.com/en-us/power-bi/create-reports/desktop-dimensional-model-report,
notre objectif est de :
▪ Préparer les données avec quelques transformations.

▪ Créer un rapport avec un titre, trois visuels et un segment.
2. Prérequis
Pour appliquer ce cas d’étude, on a besoin de :

▪ L’outil de la Business Intelligence Power BI Desktop téléchargeable sur le lien :
https://docs.microsoft.com/fr-fr/power-bi/fundamentals/desktop-get-the-desktop
▪ Les données AdventureWorks. Le classeur Excel de données AdventureWorks
Sales est disponible sur le lien : https://github.com/microsoft/powerbi-desktop-
samples/blob/main/AdventureWorks Sales Sample/AdventureWorks Sales.xlsx
3. Chargement de données
Après le téléchargement du classeur AdventureWorks Sales :

1. Ouvrez Power BI Desktop.
2. Dans la section Données du ruban Accueil, sélectionnez Excel.
3. Accédez à l’emplacement où vous avez enregistré le classeur, puis
sélectionnez Ouvrir.

4. Préparation de données
Dans le volet Navigateur, on a la possibilité de transformer ou de charger les données.
Pour transformer les données avant le chargement :
1. Sélectionnez toutes les tables, puis choisissez Transformer les données. Veillez à ne
pas sélectionner les feuilles (étiquetées _data).
2. Vérifiez que les types de données des colonnes correspondent à ceux du tableau suivant :
Requête Colonne Type de données

Customer CustomerKey Nombre entier
Date DateKey Nombre entier
Date Date
MonthKey Nombre entier
Produit ProductKey Nombre entier
Standard Cost Nombre décimal
List Price Nombre décimal
Reseller ResellerKey Nombre entier

Sales SalesOrderLineKey Nombre entier

ResellerKey Nombre entier
CustomerKey Nombre entier
ProductKey Nombre entier
OrderDateKey Nombre entier
DueDateKey Nombre entier
ShipDateKey Nombre entier
SalesTerritoryKey Nombre entier
Order Quantity Nombre entier
Unit Price Nombre décimal
Extended Amount Nombre décimal
Unit Price Discount Pct Pourcentage
Product Standard Cost Nombre décimal
Total Product Cost Nombre décimal
Sales Amount Nombre décimal
SalesTerritory SalesTerritoryKey Nombre entier
SalesOrder SalesOrderLineKey Nombre entier
Pour permettre à Power BI de détecter les types de données :
▪ Sélectionnez une requête, puis choisissez une ou plusieurs colonnes.

▪ Sous l’onglet Transformer, sélectionnez Détecter le type de données.
▪ Pour apporter des modifications au type de données détecté, sous l’onglet Accueil,
sélectionnez Type de données et le type de données approprié dans la liste.

▪ De retour sous l’onglet Accueil, sélectionnez Fermer et appliquer.
5. Modélisation de données
Les données chargées sont presque prêtes pour la création de rapports. Nous allons
maintenant inspecter le modèle de données et apporter quelques modifications. Sélectionnez
Vue du modèle sur la gauche. Le modèle de données généré est illustré ci-après :

Le modèle généré est un schéma en étoile qui contient une table de faits nommée Sales avec
six tables de dimensions : SalesTerritory (Secteur de vente), Reseller (Revendeur), SalesOrder
(Commande_Client), Customer (Client), Product (Produit), Date. La table de faits contient des
informations numériques sur les transactions de vente, telles que le montant des ventes et le
coût standard du produit. Les dimensions fournissent un contexte qui nous permet entre autres
d’analyser les éléments suivants :
✓ Quel produit a été vendu ?

✓ À quel client ?
✓ Par quel revendeur ?
✓ Dans quel secteur de vente ?
5.1. Créer de nouvelles relations
Sur le modèle généré, toutes les tables Dimension sont liées à la table de fait Fact par
une relation, à l’exception de la table Date. Pour ajouter des relations à la table Date :
1. Faites glisser DateKey de la table Date vers OrderDateKey sur la table Sales. Vous avez
créé une relation « un-à-plusieurs » de Date à Sales, comme indiqué par le 1 et
l’astérisque * (plusieurs) aux deux extrémités de la ligne.
Il s’agit d’une relation « un-à-plusieurs », car nous avons une ou plusieurs commandes Sales
pour une Date donnée. Si chaque date n’avait qu’une seule commande Sales, il s’agirait d’une
relation « un-à-un ». La petite flèche au milieu de la ligne indique la « direction de filtrage
croisé ». Elle indique que nous pouvons utiliser des valeurs de la table Date pour filtrer la table
Sales ; la relation nous permet donc d’analyser le moment où une commande a été passée.

La table Sales contient plus d’informations sur les dates relatives aux commandes Sales, telles
que la date d’échéance et la date d’expédition. Ajoutons maintenant deux relations
supplémentaires à la table Date en faisant glisser :
✓ DateKey vers DueDateKey

✓ DateKey vers ShipDateKey
On remarque que la première relation, sur OrderDateKey, est active, ce qui est indiqué
par une ligne continue. Les deux autres sont inactives, ce qui est indiqué par des lignes en
pointillés. Power BI utilise la relation active par défaut pour mettre en relation Sales et Date.
Ainsi, une somme de SalesAmount est calculée par date de commande, et non par date
d’échéance ou date d’expédition.
5.2. Masquer les colonnes clés
Le schéma en étoile classique contient plusieurs clés qui contiennent les relations entre
les faits et les dimensions. Normalement, nous ne souhaitons pas utiliser de colonnes clés dans
nos rapports. Nous allons masquer les colonnes clés de la vue, afin que la liste des champs
affiche moins de champs et que le modèle de données soit plus facile à utiliser.
Passez en revue toutes les tables et masquez toutes les colonnes dont le nom se termine par Key
:
1. Sélectionnez l’icône Œil en regard de la colonne, puis choisissez Masquer dans la vue
rapport. Vous pouvez également sélectionner l’icône Œil en regard de la colonne dans
le volet Propriétés.

Les champs masqués ont cette icône, un œil barré d’une ligne.
On veut masquer ces champs :
Table de charge de travail Colonne

Customer CustomerKey
Date DateKey
MonthKey
Produit ProductKey
Reseller ResellerKey
Sales CustomerKey
DueDateKey
OrderDateKey
ProductKey
ResellerKey
SalesOrderLineKey
SalesTerritoryKey
ShipDateKey
SalesOrder SalesOrderLineKey
SalesTerritory SalesTerritoryKey
Notre modèle de données doit maintenant ressembler à celui-ci, avec des relations entre Sales
et toutes les autres tables, et tous les champs clés masqués :

5.3. Créer des hiérarchies

Maintenant que notre modèle de données est plus facile à consommer en raison des
colonnes masquées, nous pouvons ajouter quelques hiérarchies afin de simplifier encore
davantage l’utilisation du modèle. Les hiérarchies facilitent la navigation parmi les

regroupements. Par exemple, les villes sont dans un état ou une province, qui se trouve dans un
pays ou une région. Créez les hiérarchies suivantes.
1. Cliquez avec le bouton droit sur le champ de niveau le plus élevé, ou le moins
précis, de la hiérarchie, puis choisissez Créer une hiérarchie.
2. Dans le volet Propriétés, définissez le Nom de la hiérarchie et définissez les
niveaux.
3. Ensuite, sélectionnez Appliquer les changements de niveau.
Nous pouvons également renommer des niveaux dans une hiérarchie dans le volet
Propriétés après les avoir ajoutés. Nous devons renommer les niveaux Year et Quarter de la
hiérarchie Fiscal dans la table Date. Voici les hiérarchies que nous devons créer.
Table de charge de travail Nom de la hiérarchie Niveaux

Customer Geography Pays-Région
État-Province
City
Code postal
Client
Date Fiscal Année (Exercice fiscal)
Trimestre (Trimestre fiscal)
Month
Date

Product Produits Category

Sous-catégorie
Modèle
Product
Reseller Geography Pays-Région
État-Province
City
Code postal
Reseller
SalesOrder Sales Orders Commande client
Sales Order Line
SalesTerritory Sales Territories Group
Country
Région
Notre modèle de données doit maintenant ressembler au suivant. Il a les mêmes tables, mais
chaque table de dimension contient une hiérarchie :

5.4. Renommer des tables

Pour terminer la modélisation, nous allons renommer les tables suivantes dans le volet
Propriétés :

Ancien nom de table Nouveau nom de table

SalesTerritory Sales Territory
SalesOrder Sales Order
5.6. Écrire une mesure en DAX

L’écriture de mesures dans le langage de formule DAX est super puissante pour la
modélisation des données. Il y a beaucoup à apprendre sur DAX dans la documentation de
Power BI. Pour le moment, nous allons écrire une mesure de base qui calcule le montant total
des ventes par date d’échéance sur la commande au lieu de la date de commande par défaut.
Cette mesure utilise la fonction USERELATIONSHIP pour activer la relation entre Sales et
Date sur Due Date pour le contexte de la mesure. Elle utilise ensuite CALCULATE pour
additionner le montant des ventes dans ce contexte.
1. Sélectionnez Vue de données sur la gauche.

2. Sélectionnez la table Sales dans la liste Champs.
3. Dans le ruban Accueil, sélectionnez Nouvelle mesure.
4. Sélectionnez ou tapez cette mesure pour calculer le montant total des ventes par date
d’échéance sur la commande au lieu de la date de commande par défaut :
Sales Amount by Due Date = CALCULATE (SUM (Sales[Sales Amount]),

USERELATIONSHIP(Sales[DueDateKey],'Date'[DateKey]))
5. Cochez la case pour valider.
6. Créer un rapport
Maintenant que nous avons modélisé les données, il est temps de créer notre rapport.
1. Accédez à la vue Rapport.

2. Dans le volet Champs à droite figurent les champs du modèle de données que nous
avons créé. Nous allons créer le rapport final, un visuel à la fois.

Après la création du rapport, on peut utiliser les différentes options de visualisation pour
modifier, supprimer ou ajouter de nouveaux graphiques. Nous avons appliqué les changements
suivants :
1. Ajouter un titre (Visuel 1).

2. Créer un graphique en courbes pour voir le mois et l’année où le montant des ventes a
été le plus élevé (Visuel 2).
3. Créer une carte pour voir dans quel pays les revendeurs ont la quantité de commandes
la plus élevée (Visuel 3).
4. Créer un histogramme pour savoir quels produits sont vendus par quel type de revendeur
(Visuel 4).
5. Créer un segment pour examiner en détail les performances de chaque mois, trimestre
et année (Visuel 5).
6. Mettre en forme à ce rapport pour le rendre un peu plus attrayant (thème, format, ajout
de titres aux graphiques, couleurs, …etc.)
Le rapport final est montré ci-après. En résumé, ce rapport répond aux principales questions
des responsables des propriétaires de données AdventureWorks :
✓ Quel jour y a-t-il eu le plus de ventes en février 2019 ? Le 25 février, avec un montant
de ventes de $253 915,47.

✓ Dans quel pays la société rencontre-t-elle le plus de succès ? Aux États-Unis, avec 132
748 commandes.
✓ Quelles sont les catégories de produits et les types de revendeurs dans lesquels
l’entreprise doit continuer à investir ? L’entreprise doit continuer à investir dans la
catégorie Bikes et dans les types de revendeurs Value Added Reseller et Warehouse.
Enfin, on doit enregistrer le rapport par la sélection de la commande Enregistrer du menu

Fichier.

Exercices 74
Exercice 01
Distinguez les décisions stratégiques, les décisions tactiques, et les décisions opérationnelles :
- Y-a-t-il suffisamment de produits en stocks pour honorer cette commande ?

- Devons-nous augmenter nos parts de marché ou plutôt accroitre nos marges ?
- Quelles sont nos meilleures offres de services ou nos produits les plus vendus ce
trimestre ?
- Quelle est la meilleure distribution de tâches possible ?
- Quelle est notre meilleure offre en termes de mix-produit, de coût, et de pricing qui
préserve nos marges et accroît notre résultat ?
- Quels canaux de distribution devons-nous privilégier ?
Exercice 02
Q : Etant donné le processus décisionnel d’une entreprise (voir le cours e-BI/Chapitre 01) ;
quels sont, à vos avis, les moyens qui permettent de parvenir aux objectifs du système
décisionnel ?
Exercice 03
Un tableau de bord est un outil de pilotage et d’évaluation qui regroupe un ensemble cohérent
d’indicateurs clés de performance qui ont été retenus pour mesurer la performance et la
rentabilité d’une entreprise. Il permet de contrôler la réalisation des objectifs fixées en
identifiant les écarts par rapport à des valeurs de référence et en effectuant les actions
correctives nécessaires dans les délais appropriés.
Le tableau de bord de l’entreprise reflète les résultats des analyses sous forme
d’indicateurs, dans une représentation synthétique et compréhensible.
Q : Citez quelques exemples des indicateurs qui permettent de contrôler la performance de

l’entreprise ?
Exercice 04
On voudrait concevoir une application ETL qui nous permet de nettoyer et transformer
les données d’une entreprise qui proviennent des services de ventes, de stock, des ressources
humaines et de réapprovisionnement.
• Détectez les anomalies dans les données ci-dessus.

Exercices 75
• Proposez des transformations adéquates.
Service de ventes Service de stock
Code_prod Prix Gamme Libellé Code_prod Poids Taille Cout_fabrication

0001 700 DA gamme1 Pro_A P_0001P 1 kg 20 cm 1000 DA
0040 80 EUR gamme3 Pro_Z P_0040G 80 g 10 cm 400 DA
0210 900 DA gamme1 Pro_X P_21G 10 g 05 cm 600 DA
Service RH
Service R&D
Code_emp Nom_emp Adresse Genre
Emp_01 K. Said 8, R Masculin Code_prod Prix Gamme Libellé
BV, P_0001 700 DA gamme1 Pro_A
BBA P_0210 900 DA gamme1 Pro_X
Emp_04 M. Adam 9, R FB, F
Setif
Exercice 05
On veut construire un entrepôt de données pour une société qui gère des salles de concert. Les
salles de concert sont situées dans différents établissements, chacun pouvant disposer de
plusieurs salles de concert. On connait pour chaque salle la capacité en nombre de places. Les
places étant de différentes catégories (1ère classe, 2ème classe…etc.). Plusieurs œuvres musicales
peuvent être auditionnées lors de chaque concert. L’entrepôt de données doit permettre de
répondre à des questions comme :
• Le chiffre d’affaires pour chaque mois, trois mois, et pour chaque année.
• Le coût moyen pour les concerts.
• Nombre moyen d’effectifs mises en disposition pour les concerts
• Quel est l’auteur (ou quels sont les auteurs) d’une œuvre musicale ?
• Quels musiciens participent à un concert ?
• Quel est le rôle d’un musicien dans un œuvre donné lors d’un concert ?
• Ou et quand a lieu un concert ?
• Quel est le concert le plus populaire ?
• Quels sont les dates les plus convenables à organiser des concerts ?

Exercices 76
Questions
1. Indiquez quelles sont les tables de faits et les tables de dimension du schéma en étoile de
cet entrepôt.
2. Tracez le schéma en étoile en précisant pour chaque table sa nature dimensionnelle (table
de faits ou table de dimension), ses clés, ainsi que la nature des champs.
3. On veut transformer ce schéma en schéma en flocon. Donnez la nouvelle représentation de
l’entrepôt de données.
Exercice 06
On veut établir un entrepôt de données pour une bibliothèque d’un syndicat intercommunal qui
consiste en cinq points de prêt. Un client qui s’inscrit à la bibliothèque verse une caution.
Suivant le montant de cette caution il aura le droit d’effectuer en même temps de 1 à 10
emprunts. La valeur de la caution est différente d’un client à un autre (étudiant/enseignant,
employé/non employé…etc.). Le délai d’emprunt d’un livre est de trois semaines, il peut
cependant être prolongé exceptionnellement à cinq semaines. Un livre est caractérisé par son
numéro dans la bibliothèque, son éditeur et son (ses) auteur(s), sa date d’achat et son état. Les
livres sont organisés selon leurs catégories (Littérature, Sciences, …etc.).
Toutes les semaines, on édite la liste des emprunteurs en retard : nom et adresse du client, date
de l’emprunt, numéro(s) et titre(s) du (des) livre(s) concerné(s) ;
La bibliothèque veut pouvoir obtenir :
• Le chiffre d’affaires pour chaque six mois et pour chaque année.

• Pour chaque client les emprunts qu’il a effectués : nombre, numéro et titre de livre, date
de l’emprunt…etc. au cours des trois derniers mois.
• Les livres et les catégories des livres les plus demandés.
• Durée moyenne de restitution des ouvrages.
• Le nombre des cas de « livre non restitué » pour chaque emprunteur.
Questions
1. Donner le schéma multidimensionnel en flocons de neige du cas ci-dessus.

2. Quelles sont les hiérarchies, si elles existent, contenues dans le schéma ?

Exercices 77
Exercice 07
Un hôtel est composé d'au moins deux chambres. Chaque chambre dispose d'une salle d’eau :
douche ou bien baignoire. Un hôtel héberge des personnes. Il peut employer du personnel et il
est impérativement dirigé par un directeur. On ne connaît que le nom et le prénom des employés,
des directeurs et des occupants. Certaines personnes sont des enfants et d'autres des adultes
(faire travailler des enfants est interdit). Un hôtel a les caractéristiques suivantes : une adresse,
un nombre de pièces et une catégorie.
Une chambre est caractérisée par le nombre de lits qu'elle contient, son prix et son numéro. On
veut pouvoir savoir qui occupe quelle chambre à quelle date. Pour chaque jour, semaine et mois
de l'année, on veut pouvoir calculer le loyer de chaque chambre en fonction de son prix et de
son occupation (le loyer est nul si la chambre est inoccupée). La somme de ces loyers permet
de calculer le chiffre d'affaires de l'hôtel entre deux dates.
Questions
1. Tracez le schéma en étoile en précisant pour chaque table sa nature dimensionnelle

(table de faits ou table de dimension).
2. Transformez le schéma précédent en schéma multidimensionnel en flocons de neige.
Exercice 08
Une entreprise vend principalement des ouvrages de divertissement de type science-

fiction, thriller, policier... Elle dispose pour cela de plusieurs magasins de vente dans les centres
des grandes villes du pays. La direction de l'entreprise souhaite faire une étude large sur les
ventes de l'année passée afin de prendre des orientations stratégiques nouvelles. Elle voudrait
dans ce cadre mettre en place une solution logicielle permettant d'intégrer les données
pertinentes et de pouvoir les interroger efficacement sous des angles divers.
La direction marketing est en charge de l’implantation des magasins dans les

départements et de l'organisation des rayonnages (type de rangement et présence de rayons
spécifiques pour les best-sellers). Elle cherche à savoir si l'organisation du rayonnage des
magasins a une influence sur les volumes ventes, et si cela varie en fonction des jours de la
semaine ou de certaines périodes de l'année. Elle voudrait également savoir si certains magasins
ou départements sont plus dynamiques que d'autres.

Exercices 78
La direction éditoriale de l’entreprise se demande si certains livres se vendent mieux à

certaines dates et/ou dans certains magasins ou départements. Elle aimerait également savoir si
certains auteurs ou éditeurs se vendent mieux, et s'il existe un lien entre l'ancienneté des livres
et les ventes. Elle se demande aussi si certaines périodes sont plus propices que d'autres à
l'écoulement des livres les plus anciens.
Questions
1. Proposez une modélisation dimensionnelle en étoile pour chaque contexte d’usage

(directions marketing et éditoriale).
2. Tracez le schéma dimensionnel globale.
Exercice 09
Une entreprise à caractère commercial souhaite développer un outil qui lui permettra de
structurer et d'analyser les données générées par la navigation des internautes sur son site puis
de visualiser ces informations sous forme de rapports mensuels, hebdomadaires, et quotidiens.
Les données de navigation sont extraites depuis les fichiers journaux et les cookies et sont
stockées dans un datawarehouse externe. Cet outil comporte plusieurs modules de présentation
de données, on cite entre autres :
• Statistiques générales : nombre de requêtes pour la page d'accueil, nombre de visiteurs

qui ont visité le site une fois, nombre de visiteurs qui ont visité le site plus d'une fois,
• Statistiques de publicité : nombre et pourcentage de visualisation et de clics.
• Statistiques sur les sites d'origine et les mots-clés : sites d'origine principaux, phrases
et mots-clés les plus utilisés.
• Statistiques sur les ressources accédées : pages les plus/moins populaires.
Questions
1. Quelles sont les principales informations contenues dans un fichier log ?
2. Quelle est la différence entre un fichier journal et un cookie ?
3. Proposez trois autres mesures de performance pour le site de l’entreprise ?
4. Tracez le schéma en flocons de neige de l’entrepôt de données.
5. Faites une représentation en cube OLAP avec hiérarchies pour cet entrepôt ?

Exercices 79
Exercice 10
On veut construire un magasin de données afin d’étudier les résultats obtenus par les élèves de
niveau secondaire de quatre établissements : Lycée 1, Lycée 2, Lycée 3 et Lycée 4 :
• Les lycées choisis sont situés dans des villes différentes (V1, V2, V3, V4). V2 et V3
suivent le même département régional (D2). Les deux autres villes V1 et V4 suivent le
département régional D1 et D3 respectivement.
• Les matières concernées par cette étude (Mth : Mathématiques, Tc : Technologie, Ang :
Anglais, Sp : Sport) sont de différentes catégories (Sc : Scientifique, T : Technique, L :
Littéraire, A : Activité). La catégorie d’une matière détermine sa priorité :
fondamentale (F) ou bien secondaire (S). La note d’une matière est évaluée sur 20.
• Les résultats obtenus doivent être visualisés par trimestre ou par semestre (une année
scolaire = 09 mois).
Les résultats obtenus en 2017 sont les suivants :
Lycée 1 Mth Tc Ang Sp Lycée 2 Mth Tc Angl Sp

Trimestre 1 12 15 18 16 Trimestre 1 15 16 15 17
Lycée 3 Mth Tc Ang Sp Lycée 4 Mth Tc Ang Sp

1. Complétez la représentation de cube de données de cas ci-dessus en montrant les

dimensions de cube et la hiérarchie de chaque dimension.
Sc Math 10 08 09
F
T Techno 11 10 13
Figure.1 L Anglais 17 15 12
S
A Sport 16 17 16
2. Quel est le nombre de cuboïdes prévus dans ce magasin de données ?

Exercices 80
Sc Math 10 08 09
F
T Techno 11 10 13
L Anglais 17 15 12
S
A Sport 16 17 16
3. Donnez les détails des opérations OLAP permettant de répondre aux questions suivantes :
✓ Quelle est la note annuelle (/60) de chaque matière pour chaque lycée ?
✓ Quelle est la note trimestrielle de chaque catégorie de matière pour chaque
département ?
✓ Quel est le lycée qui a obtenu la meilleure note en mathématiques en 2ème
semestre ?
4. Complétez la représentation des cuboïdes ci-dessous en montrant leurs dimensions et la
hiérarchie de chaque dimension.
5. Donnez les détails des opérations OLAP qui ont permis d’obtenir ces cuboïdes à partir de
cube de données précédent (Figure.1).
12 16 18 15
17 34 15 16 16 17
39 22
31 32 54 114 61 14 16 17 13
65 28
(1) (2) (3) (4)
6. Quels sont les résultats des opérations OLAP suivantes sur le cube de données de la
Figure.1 :
✓ Slice (“Matière”, “Etablissement”)
✓ Nest (“Trimestre”, “Etablissement”)
✓ Push (“Semestre”)
✓ Split (“Math”)
7. Déduisez le schéma multidimensionnel en étoile de ce magasin de données.
Exercice 11
On veut construire un magasin de données afin d’étudier la production scientifique (nombre

d’articles scientifiques produits) de 03 laboratoires de recherche (L1, L2, L3) appartenant à 02
universités (U1, U2). Les données du magasin de données sont analysées par date (trimestre,

Exercices 81
année), par domaine (exemple, MI : Maths et Info, ST : Sciences Techniques), par filière
(exemple : Mathématiques, Informatique, Physique).
Quels sont les résultats des opérations OLAP suivantes sur le cube de données ci-dessous :
✓ Roll-up (“Domaine”)
✓ Nest (“Laboratoire”, “Trimestre”)
✓ Push (“Université”)
Mathématiques 11 08 15
MI
Informatique 05 03 12
ST Physique 10 06 07
Trim1 Trim2 Trim3
Année
11 08 15 12 10 13 04 17 20
05 03 12 11 05 04 06 05 14
10 06 07 17 02 11 12 09 18
Exercice 12
Le tableau ci-après représente les prêts de documents (papier, vidéo, son…etc.) réalisés par les
clients de 03 librairies situées dans des adresses (numéro de rue, rue, ville) différentes :
2017 2018 2019

Librairie 01 Livres 250 Livres 300 Livres 221
Journaux 25 Journaux 15 Journaux 15
Microfilms 19 Microfilms 21 »( Microfilms 14
CDROM Sept CDROM 20 CDROM 17
Journaux Journaux 15 Journaux 23
Microfilms 14 Microfilms 06 Microfilms 05
CDROM 07 CDROM 14 CDROM 11
Journaux 13 Journaux 11 Journaux 21
Microfilms 11 Microfilms 09 Microfilms 18
CDROM 05 CDROM $$ CDROM 03

Exercices 82
Il existe plusieurs types de documents :
• Les livres, et parmi eux des livres spéciaux qui seront consultables uniquement sur
place. Un livre est repéré par un code, un titre, un auteur.
• Les journaux qui seront uniquement consultables sur place. Un journal est repéré par
son titre et sa date.
• Les microfilms, qui portent sur des livres ou des journaux déjà référencés dans la
bibliothèque et qui ne pourront être visualisés que sur les écrans de la bibliothèque. Un
microfilm est repéré par son titre et sa date.
• Les CDROM documentaires (encyclopédies, visites de musées…) qui pourront être

prêtés avec une caution. Un CDROM est repéré par un code, un titre, un auteur.
Questions
1. Quelle est la (les) nature(s) des anomalies figurant dans le tableau ? comment peut-on
les traiter ?
2. Tracez le cube de données correspondant en montrant :
• Les dimensions du cube et leurs hiérarchies ;
• Les membres du cube avec leurs valeurs.
3. Donnez les détails de l’opération OLAP qui a permis d’obtenir le tableau précédent à
partir du cube de données déduit.
4. Complétez la représentation des deux cuboïdes (1) et (2) en montrant leurs dimensions.
254 13 16
301 480 11 09
307 21 21
(1)
(2)
• Donnez les détails des opérations OLAP qui ont permis d’obtenir les cuboïdes (1) et
(2) ?
5. Combien de cuboïdes peut-on extraire du cuboïde (2) ?

Solutions des exercices 83
Exercice 01
- Y-a-t-il suffisamment de produits en stocks pour honorer cette commande ?

Décision opérationnelle
- Devons-nous augmenter nos parts de marché ou plutôt accroitre nos marges ?
Décision stratégique
- Quelles sont nos meilleures offres de services ou nos produits les plus vendus ce trimestre ?
Décision tactique
- Quelle est la meilleure distribution de tâches possible ?
Décision tactique
- Quelle est notre meilleure offre en termes de mix-produit, de coût, et de pricing qui préserve
nos marges et accroît notre résultat ?
Décision tactique
- Quels canaux de distribution devons-nous privilégier ?
Décision stratégique
Exercice 02
Q : Etant donné le processus décisionnel d’une entreprise ; quels sont, à vos avis, les moyens
qui permettent de parvenir aux objectifs du système décisionnel ?
L’objectif d’un système décisionnel est de connaître, mesurer, prévoir et agir. Les moyens pour
y parvenir sont :
1. Une information riche, pertinente, détaillée, historisée, fiable ;
2. Des outils d’analyse et de restitution puissants et adaptés ;
3. Des indicateurs qui favorisent le pilotage et favorisent l’action.
Exercice 03
Q : Citez quelques exemples des indicateurs qui permettent de contrôler la performance de

l’entreprise ?
Indicateurs importants
Le tableau de bord est structuré autour de trois catégories :
- Les indicateurs financiers : Chiffre d’affaires mensuel, Dépenses mensuelles,

Trésorerie disponible.

- L’avancement commercial : Nombre de clients payants, Taux de transformation

client.
- La satisfaction client : fidélité client, taux de référence, revenu moyen par client.
Indicateurs généraux
1. Indicateurs de performance commerciaux : Nombre de nouveaux clients, Nombre de

prospects et taux de transformation, Délai de transformation ou cycle de vente, Taux de
fidélité, Nombre de commandes annulées.
2. Indicateurs de performance pour les abonnements : Taux de résiliation, Taux de

renouvellement, Age moyen des contrats
3. Indicateurs de performance pour l’exploitation : Taux d’utilisation effective, Taux

de disponibilité, Taux d’indisponibilité, Taux de rendement synthétique TRS, Taux de
retard de service, Temps d’attente dans la file, Nombre de défaut en sortie, Nombre
d’heures supplémentaires, Rotation de stock
4. Indicateurs de performance pour le service après-vente SAV : Délai de réponse,

Nombre de nouveaux tickets
5. Indicateurs de performance pour la gestion de projet : Vélocité, Age moyen des

tâches, Tâches créées vs Tâches résolues, Temps moyen de traitement d’une tâche
6. Indicateurs de performance administratifs et financiers : Délai moyen de paiement

client, Délai moyen de paiement fournisseur, Taux de blocage de paiement, Taux de
clients à risque, Créances clients, Retour Sur Investissement ROI
7. Indicateurs de performance pour les ressources humaines : Turnover RH, Nombre

de candidats, Taux de survie à l’essai
Exercice 04
Anomalies
• Code_prod : incohérence : différente codification pour la même entité
• Prix : incohérence : différentes unités pour le même attribut
• Poids : incohérence : différentes unités pour le même attribut
• Genre : F : codification incorrecte et incomplète
• Nom_emp : attribut incompréhensible

• Adresse : noms des rues incompréhensibles

Transformation
1) La fusion de données
Produit (code_prod, libellé, gamme, prix, poids, taille, coût_fabrication)
2) La conversion de format
Type Code_prod (service R) = alphanumérique
Type Code_prod (service ventes) = numérique
→ adopter un seul format. Exemple : Type Code_prod (service R) = alphanumérique
3) La conversion de code
Remplacer Valeur Par
P_0001P P_0001
P_0040G P_0040
P_21G P_0210
0001 P_0001
0040 P_0040
0210 P_0210
Masculin M
4) L’éclatement des données

Nom_emp → Prenom_emp, Nom_emp
Adresse → num_rue, nom_rue, ville, code_postal
5) Les calculs
Prix (EUR) → Prix (DA)
Poids (Kg) → Poids (G)
6) Erreur probable
L’employé Emp_04, Genre = « Masculin » = M
Exercice 05
Fait : analyser le CA (Chiffre d’affaires) des concerts + la popularité des concerts -> Mesures :
✓ Prix de réservation d’une place pour un concert donné.
✓ Nombre de places réservées pour un concert donné.
Dimensions : Etablissement, Œuvre Musicale, Date.

Schéma en étoile
Etablissement (Id_étab, salle, nbr_places, catégorie_place)

Œuvre Musicale (id_oeuvre, titre_oeuvre, auteur, musicien, rôle_musicien)

Date (id_date, jour, mois, trimestre, année)
Concerts (Id_étab, id_oeuvre, id_date, prix_ réservation_place, nbr_places_reservés)
Hiérarchies
Etablissement : Nom_étab (ou Id_étab) ← Salle ← Place ← Catégorie.
Œuvre Musicale Titre_oeuvre (ou Id_oeuvre) ← Auteur.
Titre_oeuvre (ou Id_oeuvre) ← Musicien ← Rôle.
Date : Jour ← Mois ← Trimestre ← Année.
Exercice 06
Fait : analyser le CA (Chiffre d’affaires) d’emprunts + les livres, les catégories des livres les
plus demandés + durée moyenne de restitution des ouvrages + nombre de livres non restitués -
> Mesures :
✓ Prix d’emprunt pour chaque livre, pour chaque client.

✓ Nombre d’emprunts pour un livre donné.

✓ Durée d’emprunt pour chaque livre (= date de restitution – date d’emprunt).
✓ Nombre de livres non restitués (= la somme des états « livre_non_restitué » dans
l’entrepôt de données).
Dimensions : Livre, Client, Date.
Hiérarchies
Client : Nom_client (ou Id_client) ← Catégorie_client.
Livre Titre_livre (ou Num_livre) ← Auteur.
Titre_livre (ou Num_livre) ← Catégorie_livre.
Date : Jour ← Semaine ← Mois ← Trimestre ← Semestre ← Année.

Exercice 07
Fait : analyser le CA (Chiffre d’affaires) + somme de loyer -> Mesures :
✓ Chiffre d’affaires.
✓ Loyer (= prix unitaire de réservation* nbr_jours de réservation).
Dimensions : Hôtel, Chambre, Date, Occupant (Client), Employé, Directeur.
Hiérarchies
Chambre : id_chambre ← Type_chambre (avec une salle d’eau baignoire ou douche).
Hôtel : id_hôtel ← Catégorie_hôtel.
Occupant : id_occupant ← Catégorie_occupant (adulte ou enfant).
Date : Jour ← Semaine ← Mois.

Exercice 08
• Service de marketing
• Service éditoriale

❖ Représentation du cube OLAP
Auteur→Livre
Livre
Editeur→Livre
Parution→Livre Date : Jour →Mois→ Année
Magasin : Département →Magasin

• Schéma en globale
Exercice 09
Q.01 : Quelles sont les principales informations contenues dans un fichier log ?
1. Adresse IP du client web ;

2. Date et heure de la requête client ;
3. Requête HTTP ;
4. Type de navigateur web et sa version (identification).
5. Etat de la requête (réussie ou échouée).
6. Nombre de bits transférés au client web.
Q.02 : Quelle est la différence entre un fichier journal et un cookie ?
1. Un fichier journal (.log) est un fichier texte qui enregistre tout évènement déclenché
pendant l’interaction client web, site web. Il est stocké sur le serveur web du site visité
par l’utilisateur.
2. Le cookie est un fichier texte qui enregistre les données utilisateur afin de faciliter sa
navigation. Il est stocké sur le terminal du client web par le serveur web du site visité
par l’utilisateur.
Q.03 : Proposez trois autres mesures de performance pour le site de l’entreprise ?

On peut proposer plusieurs mesures pour évaluer la performance d’un site e-commerce. Par
exemple :
Nombre de ventes, nombre d’achats effectués par les visiteurs du site, nombre de
téléchargements de catalogue du site, coût d’acquisition d’un client, nombre de conversions
(transformation visiteur->client), panier moyen (taux d’achats en moyen), taux d’abandon de
panier (taux des achats inachevées), pourcentage de visiteurs connus, pourcentage des
nouveaux visiteurs…etc.
Q.05 : Faites une représentation en cube OLAP avec hiérarchies pour cet entrepôt ?
Prescripteur
Specification→Prescripteur
Date : Jour →Semaine→ Mois
Page : Page →Fonction_page

Exercice 10
1. Cube OLAP
Sc Math 10 08 09
F
T Techno 11 10 13
L Anglais 17 15 12
S
A Sport 16 17 16
Tri1 Tri2 Tri3

Sem 1 Sem 2
Année
2. Nombre de cuboïdes
Matière : matiere→catégorie_mat→priorité_mat, all
Etablissement : etablissement →ville_etab → departement_etab, all
Date : trimestre→semestre→année, all
Nombre de cuboïdes = 4×4×4 = 64 cuboïdes
3. Opérations OLAP
Roll up on Date to Roll up on Date to Année Roll up on Date to Semestre
Année Roll up on Matière to Catégorie Dice ((Matière = “Math”) &
Roll up on Etablissement to Note (Math) = Max (Note))
Département
4. Cuboïdes OLAP
12 16 18 15
27 34 15 16 16 17
39 22
31 32 54 114 61 14 16 17 13
65 28
(1) (2) (3) (4)
Dim1: F, S – Dim2:Semestre1, Trim3 – Dim1: L1, L2 – Dim2: F, S – Dim3: Trim1,

Dim3 : L4, L3,L2,L1 Trim2, Trim3
1) Roll up on Matière to Priorité 2) Roll up on Matière to Priorité
Roll up on Date to Semestre Dice (Date = Trim1)
Dice (Etab = Lycée1 OR Etab =
Lycée2)

Dim1 : Trim1 – Dim2 : D1, D2, D3 – Dim1 : Trim1, Trim2, Trim3 – Dim2 :
Dim3 :Tout_matières Math, Sport, Anglais, Techno – Dim3 : L1
3) Rotate 4) Split (Lycée1)
Roll up on Matière Rotate
Roll up on Etablissement to Switch (“Techno”, “Sport”)
Departement
5. Opérations OLAP
Push (Semestre)
Slice (Matière, Etablissement) Math Techno Anglais Sport

L1 S1 27 S1 32 S1 34 S1 32
L1 L2 L3 L4 S2 29 S2 30 S2 33 S2 32
Math 41 35 30 27 L2 S1 29 S1 33 S1 29 S1 32
Techno 45 51 35 34 S2 30 S2 35 S2 31 S2 31
Anglais 51 46 35 44 L3 S1 20 S1 25 S1 25 S1 30
Sport 48 48 47 49 S2 21 S2 21 S2 22 S2 32
L4 S1 18 S1 21 S1 32 S1 33
S2 17 S2 23 S2 27 S2 33
Nest (Trimestre, Etablissement)
Math Techno Anglais Sport

Trim1 L1 12 15 18 16
L2 15 16 15 17 Split (Math)
L3 09 14 13 15
L4 10 11 17 16 10 08 09
Trim2 L1 15 17 16 16 09 11 10
L2 14 17 14 15
15 14 16
L3 11 11 12 15
L4 08 10 15 17 12 15 14
Trim3 L1 14 13 17 16
L2 16 18 17 16
L3 10 10 10 17
L4 09 13 12 16
6. Schéma multidimensionnel en étoile

Exercice 11
Q.01 : Quelle est la(les) nature(s) des anomalies figurant dans le tableau ? comment peut-on les
traiter ?
Anomalie Nature Traitement
Librairie 01 -> 2018 -> microfilms Valeur incorrecte 1. Ignorer la valeur.
21 »( (Faute de frappe) 2. Transformer en type
Librairie 01 -> 2018 -> CDROM numérique.
$$ 3. Utiliser une valeur par
Librairie 02 -> 2017 -> journaux Valeur nulle défaut.
Case vide 4. Utiliser une valeur
moyenne, min ou max ;
Librairie 01 -> 2018 -> CDROM Valeur
déduite depuis les
Sept incohérente
valeurs précédentes et
Valeur incorrecte suivantes de la même
(Valeur case.
incompréhensible) 5. …etc.
Q.02 : Tracez le cube de données correspondant.
Livres 250 300 221

Document
Type_prêt
Journaux 25 15 15
Microfilms 19 21 14
CDROM 07 20 17
2017 2018 2019

Date
Dimensions : Librairie, Document, Date.

Hiérarchies
• Librairie : nom_librairie (Lib01, Lib02, Lib03) → Ville (V1, V2, V3).

• Document : désignation_document (Livres, Journaux, Microfilms, CDROM) →
Type_prêt (empruntable ou consultable uniquement sur place).
• Date : Année.
Membres du cube
250 300 221 132 111 95 254 480 307
15 23 13 11 21
25 15 15
19 21 14 14 06 05 11 09 18
07 20 17 07 14 11 05 $$ 03
Librairie 01 Librairie 02 Librairie 03
Q.03 : Donnez les détails de l’opération OLAP qui a permis d’obtenir le tableau précédent à
partir du cube de données déduit. Push (Document)
Q.04 : Complétez la représentation des deux cuboïdes (1) et (2) en montrant leurs dimensions.
254 13 16
301 480 11 09
Dim 1
Dim 2 307 21 21
(1) (2)
Cuboïde (1) Cuboïde (2)

Dimensions Dim 1 : Lib1 Dim 1 : Date
Dim 2 : All (Date) Dim 2 : Document (Livres, Journaux, {Microfilms
Dim 3: All U CDROM})
(Document) Dim 3 : Lib3
Opérations Roll up on Date Split (Lib3)
appliqués Roll up on Document Rotate
Dice (Lib1) N.B : Une fonction d’agrégation SUM doit être
appliquée sur les deux documents Microfilms et
CDROM
Q.05 : Combien de cuboïdes peut-on extraire du cuboïde (2) ?

Dimensions du cuboïde (2) et leurs hiérarchies

• Librairie : nom_librairie → Ville.
• Document : désignation_document → Type_prêt.
• Date : Année.
Nombre de cuboïdes = nbr_niveaux (Librairie) * nbr_niveaux (Document) *
nbr_niveaux (Date)
En ajoutant le niveau ALL pour les trois dimensions :
Nombre de cuboïdes = (2+1)*(2+1)*(1+1) = 3*3*2= 18 cuboïdes
Exercice 12
Nest (Laboratoire, Trimestre)
Math Info Phys Push (Université)

L1 Trim1 04 06 12
Trim2 17 05 09 Math Info Phys
Trim3 20 14 18 Trim1 U1 16 S1 17 S1 29
L2 Trim1 12 11 17 U2 11 S2 05 S2 10
Trim2 10 05 02 Trim2 U1 27 S1 10 S1 11
Trim3 03 04 11 U2 08 S2 03 S2 06
L3 Trim1 11 05 10 Trim3 U1 23 S1 18 S1 29
Trim2 08 03 06 U2 15 S2 12 S2 07
Trim3 15 12 07
Roll-up (Domaine)
L3 L2 L1
Trim1 26 17 34
Trim2 40 17 28
Trim3 22 31 52

EBI Cours Final DjamilaMOHDEB

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

EBI Cours Final DjamilaMOHDEB

Transféré par

Droits d'auteur :

Formats disponibles

COURS E-BUSINESS INTELLIGENCE

Niveau : 2ème Année Master TIC (Technologies de l’Information

Dr. Djamila MOHDEB, M.C.B

Intitulé de la matière : e-Business Intelligence

Semestre : 3 (2ème année Master TIC)

Unité d’enseignement : UF1T

Connaissances préalables recommandées

Base de données, fouille de données.

1. Introduction à l’informatique décisionnelle

Examen écrit, Contrôle continue

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Table des matières

Chapitre 1 : Introduction à l’informatique décisionnel

Chapitre 2 : Processus du décisionnel

Chapitre 3 : Technologies et outils du décisionnel

Chapitre 04 : Entrepôts de données pour l’aide à la décision

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

1. Caractéristiques des données d’un entrepôt de données ................................................... 30

Chapitre 05 : Entrepôts de données numériques et en ligne

Etude d’un cas pratique ........................................................................................................ 60

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

La suite de ce cours est organisée en cinq chapitres :

- Le premier chapitre introduit les concepts de base liés à l’informatique décisionnelle.

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

L’entreprise est une unité économique autonome disposant de moyens humains et

L’entreprise entreprend des relations avec un environnement externe qui comprend

1.2. Les sous-systèmes composants d’une entreprise

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Le système d’information et le système opérant coopèrent en échangeant des informations

- Le système opérant (système de production) réalise la production physique des biens

Figure 1.1. Les différents sous-systèmes d’une entreprise

1.3. La décision au sein de l’entreprise

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

Figure 1.2. Niveaux d’importance des décisions dans l’entreprise

1.4. La prise de décision au sein de l’entreprise

Quel que soit la décision à prendre dans l’entreprise, le processus de la prise de la

1) Définir le problème à résoudre.

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

4) Mettre en œuvre la décision en mobilisant tous les moyens matériels et financiers

1.5. Les indicateurs de performance d’une entreprise

Un indicateur clé de performance KPI (Key Performance Indicator), est un paramètre

On distingue plusieurs familles d’indicateurs présents dans les tableaux de bord :

- Les indicateurs de production : capacité de production, capacité de production inutilisée,

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

- Les indicateurs de qualité : délai de fabrication, satisfaction des clients, réclamation.

Figure 1.3. Exemple d’un tableau de bord

2. L’informatique décisionnelle (Business Intelligence)

L’Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est un terme

De point de vue de l’entreprise, la Business Intelligence est une stratégie commerciale

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

La Business Intelligence (BI) par conséquence, englobe l’ensemble de processus,

Figure 1.4. Données, informations et connaissances

3. Outils de la Business Intelligence

La Business Intelligence représente une large catégorie d’applications et de technologies

• Les systèmes d’aide à la décision

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

• L’exploration de données (data mining)

4. Historique de la Business Intelligence

Les systèmes informatiques de « Business Intelligence » remontent, sous une forme ou

Au fur et à mesure que l’analyse commerciale se développait du Reporting périodique de base

Dr. Djamila MOHDEB | UNIVERSITE DE BORDJ BOU ARRERIDJ

5. L’utilité de la Business Intelligence