Vous êtes sur la page 1sur 30

Les Entrepôts de Données

1. Généralités

2. L’entreposage des données (Data warehousing)


2.1. Modélisation des EDs
2.2. Construction d’un ED
2.3. Alimentation d’un ED
2.4. Administration d’un ED

3. L’analyse multidimensionnelle (OLAP)


3.1. Approche OLTP contre Approche OLAP
3.2. Représentation des données
3.3. Les différentes approches (ROLAP, MOLAP, HOLAP)
3.4. Les magasins et les cubes de données
3.5. Les différentes opérations d’OLAP
Système d’information opérationnel et
système d’information Décisionnel
Un système d’information opérationnel (SIO) a pour objectif de
supporter la réalisation des activités courantes d’une organisation.

Par exemple, un SIO dédié au processus de vente assistera les


commerciaux dans l’enregistrement des commandes des clients et des
expéditions des articles commandés. Un SIO RH permettra
l’enregistrement d’informations sur les salariés, les contrats de travail,
les salaires et les primes, les entretiens de carrière et permettra
également la génération des fiches de paie.

SIO : Systèmes transactionnels


Chaque fois qu’une activité est réalisée dans un SIO, on dit que l’on a
réalisé une transaction.
Système d’information opérationnel et
système d’information Décisionnel
SIO : Systèmes de production de données
Les SIO sont considérés efficaces pour produire et stocker des
données. ils ne sont pas adaptés à restituer de l’information aux
décideurs. Les raisons de ce constat sont les suivantes :

• Traitement ligne par ligne


Un SIO est conçu pour permettre l’exécution de transactions
(autrement dit d’insertions, de mises à jour et de suppressions) «
unitaires » (ou « atomiques ») dans une base de données. En
effet, dans un système de gestion des ventes, on va enregistrer
les ventes ou les expéditions une par une ; dans un système de
gestion des ressources humaines, on enregistrera les
informations salarié par salarié.
Système d’information opérationnel et
système d’information Décisionnel

Les informations utiles à la prise de décision doivent être accédées


non pas unitairement mais en masse (par exemple, l’ensemble des
ventes effectuées au cours de l’année 2012).

• Les transactions dans un SIO sont prédéfinies et prévisibles


Les transactions exécutées dans les SIO sont « prévisibles » : elles
sont connues à l’avance car elles sont programmées au sein du
logiciel autour duquel est conçu le SIO.

Contrairement aux transactions effectuées dans les SIO, les


demandes d’informations de la part des décideurs de l’entreprise
sont par nature imprévisibles (processus exploratoire).
Système d’information opérationnel et
système d’information Décisionnel
• Les schémas des données d’un SIO sont hautement
normalisés
Pour que l’exécution des transactions unitaires et prévisibles soit
efficace et s’effectue sans erreur, le modèle de données sous-
jacent au SIO doit être un modèle de type entité-association et
hautement normalisé (3FN).

• Historique des données


Dans un SIO, les données enregistrées sont constamment
modifiées et parfois supprimées sans que les anciennes valeurs
de ces données ne soient conservées : une fois qu’une
commande a été livrée, l’historique des différents statuts par
lesquels cette commande est passée (« en attente de traitement
», « en préparation », « expédiée ») peut souvent être supprimé.
Système d’information opérationnel et
système d’information Décisionnel

Lorsqu’un client change d’adresse, son ancienne adresse est


remplacée par la nouvelle car la conserver est inutile pour le
système de gestion des ventes.

En revanche, l’historique des valeurs modifiées constitue un


ensemble d’informations utiles pour les décideurs d’une
entreprise ou d’une organisation : par exemple, connaître
l’adresse d’un client au moment où il a passé une commande (et
non pas son adresse actuelle) est utile en matière de
géomarketing.
Système d’information opérationnel et
système d’information Décisionnel

• Duplication et Hétérogénéité des données des SIO


Même si depuis la fin des années 1990, de nombreux projets de
rationalisation du SI ont vu le jour par l’intermédiaire de la mise en
place de progiciels de gestion intégrés (PGI, ERP en anglais), les SIO
d’une organisation ne sont en règle générale pas intégrés :

Ils ont été construits brique par brique, sans cohérence


d’ensemble, au fur et à mesure de l’émergence de nouveaux
besoins d’automatisation de processus métier. Ils fonctionnent le
plus souvent « en silo », relativement indépendamment les uns des
autres, ne s’échangeant des données les uns avec les autres que
par l’intermédiaire d’interfaces point à point.
Système d’information opérationnel et
système d’information Décisionnel
Chaque SIO possède sa propre base de données, d’où une très grande
redondance de données au sein de l’ensemble du système
d’information de l’organisation. De plus, les données redondantes
(c’est-à-dire présentes dans plusieurs SIO) sont souvent incohérentes
car elles ne peuvent pas être mises à jour en même temps dans
chaque SIO dans lesquels elles sont présentes ; elles ne sont
synchronisées que périodiquement.

Conséquence : les informations nécessaires à la prise de décision sont


le plus souvent éparpillées dans de multiples SIO ; il est donc
nécessaire de les rassembler dans un endroit unique et de les mettre
en cohérence pour pouvoir les exploiter de manière optimale.

Le constat de l’inaptitude des SIO à restituer les données qu’ils


stockent a amené les organisations à construire des systèmes à part,
dédiés à la restitution d’informations, que l’on appelle systèmes
d’information décisionnels (SID).
Système d’information opérationnel et
système d’information Décisionnel
Par opposition à un SIO dont l’objectif est l’exécution d’un
processus métier, un SID a pour but l’évaluation de la
performance des processus. Il a pour vocation de faciliter la prise
de décision en fournissant des réponses à des questions telles
que :

Quelle fut l’évolution du chiffre d’affaires et de la marge brute


pour chaque catégorie de produits entre le premier semestre de
cette année et celui de l’année précédente ? Quelle est la
rentabilité moyenne des clients du secteur des grandes
entreprises par rapport à celui des PME ? Quelle fut l’évolution
annuelle des encours de crédit octroyés à la clientèle
professionnelle par les différentes agences de mon réseau
bancaire ?
Système d’information opérationnel et
système d’information Décisionnel

Un SID est donc un système d’information dédié aux décideurs


d’une organisation et permettant, au moyen d’une base de
données et d’une interface d’accès aux données, d’obtenir des
informations utiles à la prise de décision.

Le tableau 1 illustre les principales différences entre les SIO et les


SID.
Le décisionnel ?
Les entreprises passent à l’ère de l’information.

Défi
Transformer leur système d’information qui avait
une vocation de production à un SI décisionnel
dont la vocation de pilotage devient majeure.
Le décisionnel ?

Un système d’information décisionnel (S.I.D.) est un


ensemble de données organisé de façon spécifique,
approprié à la prise de décision.

Finalité d’un système décisionnel :


pilotage de l’entreprise
Le décisionnel ?
S.I.D : pilotage de l’entreprise

Outils : Data warehouse ; OLAP


Le décisionnel ?

Les systèmes de gestion sont dédiés aux métiers


(vue verticale); tandis que les systèmes
décisionnels sont dédiés au pilotage de l’entreprise
(vue transversale) ;
Passage des données de production aux données
décisionnelles

Les bases de production : toutes les sources de données


(légales, juridiques, fiscales, politiques, techniques,
marketing…)

Comment organiser ces différentes données dans un


ensemble cohérent afin de procéder à toutes les analyses
nécessaires pour construire les indicateurs indispensables
au pilotage de l’entreprise ?

Par un processus d’entreposage de données


(Data Warehousing)
Architecture Décisionnelle
Qu’est ce que l’Entreposage des données ?
Qu’est ce que l’Entreposage des données ?
Les différentes phases
OLAP
OLAP (On-Line Analytical Processing) est défini
comme étant « ... le nom donné à l’analyse
dynamique requise pour créer, manipuler, animer et
synthétiser l’information par des modèles d’analyse
de données selon des formules » Codd et al. [1993].

En d’autres termes, il s’agit d’applications de


modélisation descriptive et d’analyse exploratoire
des données, conçues à des fins de prise de décision.
OLAP
Nigel Pendse auteur de OLAP Report
(www.olapreport.com/fasmi.htm) récapitule la
Définition de l'OLAP en cinq mots :

Fast Analysis of Shared Multidimensional


Information (FASMI)

traduit en français par :


‘’Analyse Rapide d'Information
Multidimensionnelle Partagée’’
Data warehouse : Définition
(ou entrepôt de données)

Un ED (DW) est une structure informatique dans laquelle est


centralisé un volume important de données consolidées à partir
des différentes sources de données d'une entreprise
(notamment les BDs internes) et qui est conçue de manière que
les personnes intéressées aient accès rapidement à l'information
stratégique dont elles ont besoin.

Dans un ED , les données sont : sélectionnées et préparées (pour


répondre aux questions vitales de l'entreprise), intégrées (à
partir des différentes sources de données) et datées (elles
gardent la trace de leur origine).
Data warehouse : Définition
Bill Inmon a proposé les termes de :
Entreprise Data warehouse (EDW) ou
Corporate Information Factory (CIF)

 Le DWH est orienté sujets : les données collectées doivent être orientées
‘’métier’’ et donc triées par thème

 Le DWH est composé de données intégrées : un ‘’nettoyage’’ préalable des


données est nécessaire dans un souci de rationalisation et de normalisation

 Les données du DWH sont non volatiles : une donnée entrée dans l'entrepôt
n'a pas vocation à être supprimée ;

 Les données du DWH doivent être historisées, donc datées


Data warehouse : Définition
D’après BILL Inmon :

“Un ED est une collection de données thématiques,


intégrées, non volatiles et historisées, organisées pour
la prise de décision.”

• Thématiques : thèmes par activités majeures ;


• Intégrées : divers sources de données ;
• Non volatiles : ne pas supprimer les données du DW ;
• Historisées : trace des données, suivre l’évolution des
indicateurs.

 Pb de volumétrie, de stockage, d’accès.


Architecture de Data warehouse
Architecture de Data warehouse
Architecture prônée par Bill Inmon :

• L'ODS : est l'acronyme pour Operational Data Store ou (Magasin de données


opérationnelles). Il joue deux rôles :

- sert à stocker les données extraites des systèmes sources.


- intègre les données sources dans le but de présenter toute l'information
nécessaire à prendre des décisions.

• L'Entreprise Data warehouse : Les données de l'ODS sont transférées vers le


DWH. Ce dernier est central (d’où son appellation Entreprise Data Warehouse
(EDW)). Il contient toutes les données de l'entreprise.

• Les datamarts dépendants : Ils peuvent être alimentés soit de L'EDW soit de
l'ODS.

• La zone de présentation : Une fois les données chargées dans le Data


warehouse et les datamarts dépendants, les utilisateurs peuvent y accéder
pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et
visualiser l'information…
Caractéristiques d’utilisation : OLTP vs OLAP
Caractéristiques OLTP OLAP

Portée de l’interaction Transaction BD entière


utilisateur
Qte de data affectées par Enregistrements Groupes
l’interaction individuels d’enregistrements
Temps de réponse Secondes Secondes à minutes

Mode d’utilisation Stable Dynamique

Nature des données Primitives (au plus bas Dérivées (agrégées)


niveau de détail)
Mode d’accès à la BD Accès prédéfini Accès indéfini ou
dynamique
Volatilité des données Elevée Faible

Priorités Haute performance, Grande souplesse,


grande disponibilité grande autonomie

Vous aimerez peut-être aussi