Vous êtes sur la page 1sur 22

COURS :

ENTREPÔTS DE DONNÉES

Auditoire : 3ème année LSI -ADBD

Responsable du cours : Inès ZOUARI TURKI


ines.zouari@isims.usf.tn

Année universitaire : 2022 - 2023


Plan du cours

Chapitre I : Contexte et définitions

Chapitre II : Construction d’un entrepôt de données

Chapitre III : Analyse multidimensionnelle (OLAP)

2
Chapitre I :

CONTEXTE ET DÉFINITIONS

3
Contexte
Système d’information

 Le système d'information est un ensemble organisé de


ressources (personnel, matériel, logiciel) permettant de
collecter, de stocker, de traiter et de communiquer des
informations de toutes formes dans une organisation

 Principales fonctions d’un SI


 Saisie : saisie des données faisant partie du SI pour qu’elles aient une existence réelle
 Mémorisation : permet de retrouver les données ultérieurement (Persistance)
 Traitement : permet d’accéder aux données, les mettre à jour et les mettre en forme
 Communication : permet la communication entre le SI et son environnement

4
Contexte
Système d’information

Modèle systémique des organisations [Gouarné 1997]

 Le SI est le système de couplage entre le système opérant et le système de


pilotage. C’est le véhicule de la communication dans l’entreprise

5
Contexte
Système d’information

 Les SI traditionnels sont des systèmes opérationnels :


 ils sont créés pour répondre aux besoins de traitements de
transactions en ligne (OLTP) et le traitement en batch

 ils sont conçus pour les tâches répétitives et planifiées

(transactions fréquentes : Ecriture, Lecture)

 ils garantissent la cohérence des données

 Exemples :
 calculer les quantités produites d’un produit
 calculer le prix de revient moyen
 calculer le coût de traitement d’une commande

6
Contexte
Besoin de SI décisionnel – Business Intelligence

 Une entreprise dispose de données provenant soit de son système


opérationnel soit de l’extérieur :
 L’entreprise actuelle croule sous les données
 Surabondance de données : cette surabondance
a comme effet direct un rejet par saturation
 Les données peuvent avoir, en plus d’une utilisation opérationnelle,
une utilisation stratégique
 Les données représentent une mine d’informations dont l’entreprise
doit tirer profit

 L’entreprise a besoin d’informations pertinentes pour faire face à :


 des clients de plus en plus exigeants (il faut anticiper leurs nouveaux besoins)
 une concurrence de plus en plus forte (mondialisation, ouverture des marchés)
7
Contexte
Besoin de SI décisionnel – Business Intelligence

 But recherché :
 Améliorer les performances décisionnelles de
l'entreprise en répondant aux demandes d’analyse des
décideurs non informaticiens et non statisticiens
 Exemples :
 Analyse clientèle :
 Qui sont mes clients ? Pourquoi sont ils mes clients ?
 Comment les conserver ou les faire revenir ?

 Marketing, actions commerciales :


 Quels sont les produits à succès ?
 Où placer ces produits dans les rayons du magasin ?
 Télécommunications :
 Classification des clients, détection des pannes, détection des fraudes.

8
L’entreprise ne doit pas avoir seulement une vue verticale de ses métiers mais aussi une vue transversale

Contexte
Besoin de SI décisionnel – Business Intelligence

 Problème : Les données d’analyse existent dans des BD


de production (SI opérationnel) Mais :
 sont éparpillées, disparates, mal organisées et trop détaillées …
 Focalisées sur l’amélioration du quotidien
 ne correspondent pas au « langage métier » du décideur
=> Se prêtent mal à l’analyse

L’entreprise ne doit pas avoir


une vue seulement verticale de
ses métiers mais aussi une vue
transversale

9
Contexte
Besoin de SI décisionnel – Business Intelligence

 Solution : Système d’information décisionnel


 Intermédiaire entre les données de base et le décideur
 Utilise les données du SI opérationnel et dispose en plus de ses
propres informations
 permet de mesurer, analyser, évaluer, prévoir
 Fournit un accès aisé aux informations via des outils spécialisés :
Outils OLAP, Reporting, Data mining

Données Information Décision

10
Contexte
Historique des Systèmes décisionnels
 Infocentre (début des années 80) - époque des mainframes

 Une copie des données de production est enregistrée sur des serveurs
distincts afin d’avoir une vue d’ensemble des activités passées et des
informations utiles pour la prise de décision

 Une copie souvent partielle et mise à jour périodiquement  pas de


historisation

 EIS : Exécutive Information System (né en même temps que les PC)

 Outil de restitution permettant d’organiser et de mettre en forme les


données afin de construire des tableaux de bord (analysés par les dirigeants)
 Tableau permanent visualisant les indicateurs clés de l’entreprise

 Visualiser quelques indicateurs - Mécaniques complexes d’agrégation et de calcul

11
Contexte
Historique des Systèmes décisionnels

 Entrepôt de données (début des années 90)


 Évolution intelligente des infocentres
 Mettre en place un ED dédié au stockage des données décisionnelles
 on y verse une copie historisée des données issues des différentes applications de
l’entreprise ainsi que des données issues de l’exterieur
 Des outils informatiques, appelés ETL (Extract, Transform and Load) permettent
cette collecte
 Exploité à travers des applications de type OLAP, reporting, data mining
 Business intelligence et Big Data (début du XXIème siècle)
 Puissance des ordinateurs et des softwares  traitement des données en temps réel
Grande
 Montée en puissance d’interfaces ergonomiques, l’explosion du web
révolution
 Le défi est de contrôler l’augmentation exponentielle de data et leur grande diversité
 Un défi qui dépasse les compétences humaines mais pas celles du traitement des big
data par le machine learning
 Grâce à des super algorithmes, l’analyse des données non structurées produit
aujourd’hui des modèles prédictifs (data mining) pouvant couvrir tout le spectre de
l’activité d’une entreprise

12
Entrepôt de données (ED)
Définition

 D’après Bill Inmon [Inmon 94] :


« Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées,
organisées pour le support d’un processus d’aide à la
décision. »

13
Entrepôt de données
Définition
 Orientées sujet (thématiques) :  Intégrées :
 les informations sont assemblées par thème.  Les données alimentant l’ED proviennent de

 Grâce à cette orientation sujet, l’entreprise multiples applications hétérogènes : BD

pourra développer son système décisionnel relationnelles, fichiers plats, etc.


d’une manière incrémentale (sujet par sujet)  Ces données doivent être converties,
reformatées et nettoyées, de façon à avoir une
seule vision globale dans l’ED.

 Non volatiles :  Historisées :


Afin de conserver la traçabilité des informations  L'historisation est nécessaire pour suivre dans
et des décisions prises, les informations stockées le temps l'évolution des différentes valeurs des
au sein de l’entrepôt de données ne peuvent être indicateurs à analyser.
supprimées.  Chaque nouvelle insertion de données ne
détruit pas les anciennes valeurs, mais créée une
nouvelle occurrence de la donnée.

14
Entrepôt de données
Caractéristiques d’un ED
Entrepôt de données BD traditionnelle
Données Orientées activité (thème, sujet), Orientées application, détaillées,
intégrées, agrégées précises au moment de l’accès
- Structuration Multidimensionnelle Relationnelle
Forte dénormalisation, redondance Normalisation respectée, pas de
redondance
- Historisation L’axe temporel est fondamental généralement peu présente

- Usage Utilisées de façon aléatoire (ad-hoc) répétée - opérations journalières

- Accès - Utilisées uniquement en consultation Consultation, suppression, modification


- MAJ réservées uniquement à l’admin.  MAJ destructives
 MAJ incrémentales
Unité de travail Requête complexe Transaction simple

Temps de réponse quelques dizaines de secondes à instantané


quelques minutes
Taille 100 GB – TR (téraoctet) 100 MB - GB

Utilisateurs - décideurs - Employés


- Pas nombreux - Nombreux et concurrents

15
Entrepôt de données
Architecture décisionnelle

16
Entrepôt de données
Architecture décisionnelle

 Sources de données : Données sources utilisées pour


alimenter l’ED. Ces données regroupent :
 données de production

 informations internes ou information externes , quel que soit leur mode

de stockage

 les données commerciales, les données du système comptable, les

données sur le personnel, des informations sur la concurrence, des

informations externes produites par divers organismes nationaux ou

internationaux, etc.

17
Entrepôt de données
Architecture décisionnelle

 ETL : Extract - Transform - Load


Les outils ETL sont utilisés pour extraire les données à partir des
sources, les nettoyer, les transformer et les charger dans l’ED
 Extraction : réplication des données à travers une procédure de sélection à
partir d’une ou plusieurs sources de données.  Les programmes extracteurs
doivent travailler de façon native avec les SGBD des sources.
 utilisation d’une méta-base qui va documenter les règles utilisées pour
déterminer quelles données ont été extraites des systèmes sources.

 Transformation : suite d’opérations permettant de rendre les données


cibles homogènes  transformer revient tout d’abord à nettoyer les données en
les filtrant pour éliminer les faits contenant des valeurs manquantes, des valeurs
nulles et des valeurs redondantes ; puis à intégrer et restructurer les données en
supprimant les incohérences sémantiques entre les sources de données.

 Chargement : charger les données nettoyées et préparées dans l’ED.


 Il faut mettre en place des stratégies pour assurer de bonnes conditions à sa
réalisation et définir la politique de rafraîchissement.
18
Entrepôt de données
Architecture décisionnelle

 Entrepôt de données (Data Warehouse)


 C’est le lieu de stockage centralisé et extrait des sources. Il intègre et
«historise » l’ensemble des données utiles pour les prises de décisions. Son
organisation doit faciliter la gestion des données et la conservation des
évolutions.

 Magasin de données (Data Mart)


 Chaque magasin est un extrait de l’entrepôt. Les données extraites sont
adaptées à un groupe de décideurs ou à un usage particulier

 Un magasin ne contient que les données d’un métier de l’entreprise alors


que l’ED contient toutes les données décisionnelles de l'entreprise pour
tous les métiers

Exemple : le magasin « Marketing » contient toutes les informations


nécessaires au service marketing

19
Entrepôt de données
Architecture décisionnelle

 Méta-données
Ce sont les données sur les données. Elles décrivent :
 les données entreposées, leur format, leur signification

 Les processus d’extraction des données à partir des sources

 La date du dernier chargement de l’entrepôt

 L’historique des données sources et de celles de l’entrepôt

20
Entrepôt de données
Architecture décisionnelle

 On Line Analytical Processing (OLAP)


C’est une catégorie d'applications et de technologies permettant de collecter,
stocker, traiter et restituer des données multidimensionnelles à des fins
d'analyse

 Outils de visualisation - Restitution


C'est l'élément le plus important pour l'utilisateur car il correspond à la partie
visible du système. Quelles que soient les solutions retenues, elles doivent être
simples à utiliser et compréhensibles par les décideurs non informaticiens.

La restitution peut intervenir avec des modalités différentes :

 Outils de requêtes

 Outils de data mining


21
Annexe

22

Vous aimerez peut-être aussi