Vous êtes sur la page 1sur 34

Entrepôt de données

Dr. Amarouche idir amine


i.a.amarouche@gmail.com
Objective du cours

Le cours est organisé autour des trois objectifs suivants:


- Capacité de concevoir, de développer et d'évaluer un entrepôt
de données;
- Capacité d'utiliser efficacement un entrepôt de données pour
résoudre des problèmes d’aide à la prise de décision;
- Capacité d'identifier et d‘estimer les complexités de
l'entreposage de données.

- Perspectives du cours: (1) un ingénieur concevant et


développant un entrepôt, (2) un analyste métier ou de données,
et (3) un décideur exécutif.
Objectifs
• Découvrir la relation entre le SI opérationnel et SID
• Comprendre le rôle des SID dans une organisation
• Pourquoi un entrepôt de données ? Pourquoi ne
pas exploiter directement les bases de données
d’un SI opérationnel ?
• Conception d’un entrepôt de données
• Alimentation de l’entrepôt de données (ETL)
• Environnement d’analyse en ligne (OLAP) dédié
pour l’exploitation d’un entrepôt de données ?
Prérequis
• Systèmes d’information
• Bases de données
• Langage SQL
Références
• «Data Warehouse Design: Modern Principles and
Methodologies » de Matteo Golfarelli et Stefano Rizzi, 2009,
Ed: Osborne/McGraw-Hill.
• «Olap Solutions: Building Multidimensional Information
Systems » de E. Thomsen, 2002, Ed: John Wiley &Sons Inc.
• Chaudhuri S. and Dayal U. An overview of data warehousing
and OLAP technology. ACM SIGMOD Rec., 26(1):65–74, 1997.
• Inmon W.H. Building the Data Warehouse, 3rd edn. Wiley, New
York, 2002.
• Kimball R. and Ross M. The Data Warehouse Toolkit, 2nd edn.
Wiley, New York, 2002.
Organisation du cours

1. Chapitre 01: Contexte et problématique


2. Chapitre 02: Entrepôt de données
3. Chapitre 03: Modélisation multidimensionnelle
-Niveau conceptuel,
-Niveau logique
-SQL OLAP
1. Chapitre 06: Aspects physiques
2. Chapitre 07: Processus ETL
3. Chapitre 08: Cycle de vie
4. Chapitre 09 : Evolution du BI
Chapitre 1 :
Contexte et problématique

• Contexte
• Problématique
• Processus de prise de décision
• Aide à la décision et BI
• Terminologie
Contexte (1)
• Besoin: Prise de décisions stratégiques et tactiques.
• Pourquoi : Réactivité .
• Qui : Les décideurs (non informaticiens) .
• Comment : Répondre aux demandes d’analyse de données,
dégager de nouvelles informations qualitatives.
Contexte (2)
Les données utilisées par les décideurs
• Type de données: Données opérationnelles (de production)
telles que les bases de données, des Fichiers, ………………..,

• Caractéristiques des données :
• Distribuées : systèmes éparpillés
• Hétérogènes: systèmes et structures de données différents
• Détaillées : organisation de données selon les processus
fonctionnels et données trop abondantes pour l’analyse
• Peu/pas adaptées à l’analyse: des requêtes lourdes
peuvent bloquer le système transactionnel
• Volatiles : pas d’historisation systématique
Contexte (3) : problèmes clés
1 Complex and unusable models in operational systems :
Many DB models are difficult to understand
DB models do not focus on a single clear business purpose
2 Same data found in many different systems Examples:
customer data in many different systems, residential address of citizens
in many public administration DBs, etc.
The same concept is defined and stored differently
3 Data is suited only for operational systems
Accounting, billing, etc.
Do not support analysis across business functions
4 Data quality is bad
Missing data, imprecise data, different use of systems
5 Data are volatile
Data deleted in operational systems (6 months)
Data change over time no historical information
Contexte (3) : requêtes spéciales

Query Q1: On October 11, 2000, find the 5 top-selling products


for each product subcategory that contributes more than 20%
of the sales within its product category.
Query Q2: As of March 15, 1995, determine shipping priority
and potential gross revenue of the orders that have the 10
largest gross revenues among the orders that had not yet
been shipped. Consider orders from the book market segment
only.
Regular DB models and systems are not suitable for this type
of queries complicated to formulate queries inefficient query
evaluation ⇒ New models and instruments are needed!
Problématique (1)
Nous avons donc :
• Une grande masse de données: Distribuées, Hétérogènes et
très détaillées

• A traiter: Synthétiser / Résumer, Visualiser, Analyser

• Pour une utilisation par des :


• Experts / analystes d’un métier
• Non informaticiens
Problématique (2)
• Comment répondre aux besoins de décideurs afin d’améliorer
les performances décisionnelles de l’entreprise?
• En donnant un accès rapide et simple à l’information stratégique
• En donnant du sens aux données
• En donnant une vision transversale des données de l’entreprise (intégration
de différentes sources de données)
• En extrayant, groupant, organisant, corrélant et transformant (résumé,
agrégation) les données

- Mettre en place un SI dédié aux applications décisionnelles : un entrepôt de


données (datawarehouse)
- Transformer des données de production en informations stratégiques
Le processus de prise de décision (1)
Le processus de prise de décision (2)
Raisons d’être d’un entrepôt de données

• Pourquoi le data warehouse ?


• Rassembler les données de l’entreprise dans un même lieu
sans surcharger les BD (systèmes opérationnels)
• Permettre un accès universel à diverses sources de données et
assurer la qualité des données
• Extraire, filtrer, et intégrer les informations pertinentes, à
l’avance, pour des requêtes ultérieures
• Dégager des connaissances et faire un apprentissage sur
l’entreprise, le marché et l’environnement
• Comment?
• En répondant aux demandes d’analyse des décideurs
Aide à la Décision: Mise en Situation
• Le chiffre d’affaires a baissé en octobre. Pour y remédier, des
décisions sont à prendre. Mais pour prendre la bonne décision,
il faut savoir:
– Pourquoi le chiffre d’affaires a-t-il baissé?
– Comment a-t-il baissé?
– Dans quelle gamme de produits ?
– Dans quels pays, quelles régions ?
– Dans quel segment de distribution ?
– N’avait-on pas une baisse semblable en octobre chaque
année ?

17
Illustration d’un reporting imprécis

18
En fait, l’important est dans la variation

19
Mais une information peut en
cacher une autre…

20
Terminologie : Business Intelligence
- Terme générique qui englobe les applications, l’infrastructure, les
outils et les meilleures pratiques permettant l’accès et l’analyse de
l’information afin d’améliorer et d’optimiser les décisions et les
performances. Source : Gartner
- Un ensemble de solutions informatiques permettant l’analyse des
données de l’entreprise, afin d’en dégager les informations
qualitatives nouvelles qui vont fonder des décisions, qu’elles soient
tactiques ou stratégiques. Source : Smile (Open Source Solutions)

21
Terminologie : Business Intelligence
Un ensemble de concepts, de méthodologies et d’applications pou
r rassembler stocker, analyser et permettre d’accéder aux
données, dans le but d’aider les utilisateurs
d’entreprises dans leur processus de décision. Le BI Inclut:
– L’entreposage de données;
– Les requêtes et le reporting;
– L’analyse multidimensionnelle;
– L’analyse statistiques;
– La prédiction;
– Le forage de données.
Business Intelligence: STEFANO RIZZI
University of Bologna, Bologna, Italy
- Business intelligence refers to a set of tools and techniques that enable a
company to transform its business data into timely and accurate information
for the decisional process, to be made available to the right persons in the
most suitable form. Business intelligence systems are used by decision
- BI includes not only the tools to gather, provide access to, and analyze data
and information about company operations, but also a wide array of
technologies used to support a closed decisional loop (known as Business
Performance Management) where the company performance is measured
by a set of indicators (commonly called Key Performance Indicators, KPIs)
whose target values are determined by the company strategy, and where
the actions taken are aimed at matching current and target values for these
indicators.
- From an architectural point of view, the core of a BI system is usually a data
warehouse. A number of applications may be built around the data
warehouse, for instance aimed at supporting OLAP analysis, data mining,
what-if analysis, forecasting, balanced scorecards preparation, geospatial
analysis, click-stream analysis.
The BI pyramid
What-if Analysis
• What-if analysis is a data-intensive simulation whose goal is to
inspect the behavior of a complex system under some given
hypotheses (called scenarios)
• What-if analysis measures how the changes in a set of
independent variables affect the values of a set of dependent
variables with reference to a simulation model; this model gives
a simplified representation of business, tuned on historical
enterprise data
Terminologie: Donnée

• Donnée:
Donnée
– Résultat direct d’une mesure
– Peut être collectée par un outil de mesure, ou être
présente dans une base de données
– Ne permet pas de prendre de décision sur une action à
lancer

• Exemple
– Le mois dernier, on a enregistré 1217 incidents au centre
de services
– 10 nouveaux prestataires ont été employés à la direction
informatique
26
Terminologie: Information
Information

Donnée

• Information:
– Donnée à laquelle un sens et une interprétation ont été
donnés
– Permet au responsable de prendre une décision sur une
action

• Exemple
– Le mois dernier, on a enregistré une augmentation de
240% du nombre d’incidents par rapport au mois précédent
– L’emploi des 10 prestataires est lié à une augmentation
temporaire de la charge de travail 27
Terminologie: Connaissance
Connaissance

Information

• Connaissance: Donnée

– Résultat d’une réflexion sur les informations analysées


– Se base sur les expériences, les idées, valeurs, avis
des personnes consultées

• Exemple
– Les gestionnaire de changement peut établir une
corrélation entre l’arrivée des nouveaux prestataires et
l’augmentation du nombre d’incidents en ayant
connaissance de certains éléments

28
Terminologie: Sagesse
Sagesse
Connaissance

Information

• Sagesse: Donnée

– État d’esprit général de discernement final sur le


contenu et de jugement de bon sens
– Permet de lancer des actions d’adaptation de
l’organisation, des personnes, des processus et outils

• Exemple
– Le responsable sénior de l’organisation prend des
décisions à long terme et des décisions stratégiques
pour l’organisation informatique.

29
Les outils d’analyse de données
Rapports et requêtes simples
– « Dis moi ce qui s’est passé ».
Analyse d’affaires
– « Dis moi ce qui s’est passé et pourquoi ».
Tableaux de bord
– « Donne moi l’information mais ne me fait pas travailler
pour obtenir les réponses ».
Forage de données
– « Dis moi quelque chose de nouveau et d’intéressant sans
que j’aille à le demander ».
Cas d’étude: Police de Richmond [1/4]

• Objectif:
– Réduire le crime en anticipant les activités criminelles.
• Données:
– Données actuelles et historiques d’appels au 911;
– Informations relatives aux événements de la ville et des régions
limitrophes;
– Conditions météorologiques;
– etc.
• Méthode:
– Analyser les interactions entre les données actuelles et
historiques.
Cas d’étude: Police de Richmond [2/4]
• Composantes technologiques:

• Outil de visualisation:
Représentation des indicateurs sur la carte graphique de la
ville.
Cas d’étude: Police de Richmond [3/4]
Cas d’étude: Police de Richmond [4/4]

Résultats:
– Affectation optimale des ressources policières;
– Meilleure anticipation des activités criminelles;
– Le crime a été réduit de 49 %;
– Moins d’appels au 911.

Vous aimerez peut-être aussi