Vous êtes sur la page 1sur 82

FSB – Département Informatique GLSI2 - 2021

Entrepôt de données /
Data Warehouse
Préparé par: Dr. Olfa DRIDI
Plan

1. Introduction : Le marché du décisionnel

2. Les entrepôts de données (ED)


3. Alimentation d’un ED
4. Modélisation d’un ED
5. Les datamarts

2
© OD - 2021
Objectifs
Ø Le cours Entrepôt de données est destiné aux
administrateurs des bases de données ou futurs data
scientist, ou tout autre acteur mené à structurer et/ou
analyser , jouer avec les données volumineuses

3
© OD - 2021
Références bibliographiques
Ø Le data warehouse : Guide de conduite de projet- Ralph Kimball,
2005.
Ø Modélisation des Systèmes d'Information Décisionnels :
Techniques de modélisation conceptuelle et relationnelle des
entrepôts de données - Emmanuel Ferragu, 2013.

4
© OD - 2021
FSB – Département Informatique GLSI2 - 2021

Introduction aux
systèmes d’information
Notion d’information
Ø Une information, c’est une donnée qui a un sens pour celui qui en a
besoin.

Le modèle est connu,


l’interprétation donne Le modèle est inconnu,
du sens aux données le sens est plus difficile à
percevoir ou incomplet

6
6
© OD - 2021
Définitions

Bien distinguer :
Donnée-Information-Connaissance
Ø Donnée : Fait
Ø Information : Fait qui a un sens pour quelqu’un
Ø Connaissance : L’information devient connaissance quand elle est traitée
dans le cerveau des individus.
Ø Connaissance : C’est de l’information combinée avec l’expérience, le
contexte, l’interprétation et la réflexion.

7
© OD - 2021
Donnée, information et connaissance

8
© OD - 2021
L’information est un facteur de production
presque comme les autres
Ø L’information a une valeur, variable selon son importance, son
ancienneté…
Ø L’information doit être
extraite,
stockée,
traitée,
maintenue…
à c’est la tâche du système d’information !

9
9
© OD - 2021
Définition SI
En informatique et en télécommunications, et plus généralement dans le
monde de l'entreprise, le terme système d'information (ou SI) possède les
significations suivantes :

1. Un ensemble organisé de ressources (personnel, données, procédures,


matériel, logiciel, …) permettant d'acquérir, de stocker, de structurer et de
communiquer des informations sous forme de textes, images, sons, ou de
données codées dans des organisations. Selon leur finalité principale, on
distingue :

a. des systèmes d'information supports d'opérations (traitement de


transaction, contrôle de processus industriels, supports d'opérations de
bureau et de communication)

b. des systèmes d'information supports de gestion (aide à la production de


rapports, aide à la décision…).

10
10
© OD - 2021
Définition SI
2. Un système ou sous-système d'équipements, d'informatique ou de
télécommunication, interconnectés dans le but de l'acquisition, du
stockage, de la structuration, de la gestion, du déplacement, du
contrôle, de l'affichage, de l'échange (transmission ou réception) de
données sous forme de textes, d'images, de sons, et/ou, faisant
intervenir, du matériel et des logiciels.

Le système d'information coordonne grâce à l'information les


activités de l'organisation et lui permet ainsi d'atteindre ses objectifs.
Il est le véhicule de la communication dans l'organisation. De plus, le
SI (système d'information) représente l'ensemble des ressources (les
hommes, le matériel, les logiciels) organisées pour : collecter,
stocker, traiter et communiquer les informations.

11
11
© OD - 2021
Définition SI

12
12
© OD - 2021
Le système d’information
Ø Différentes missions du SI
• Collecter (sources externes et internes)
Saisie, numérisation
Extraction
• Stocker
Supports divers et multiples
Indexation, mots clés, thésaurus…
Maintenir en état d’utilisation sur une période longue
• Traiter
Produire des informations sous la forme appropriée aux besoins de
l’utilisateur
• Restituer, diffuser (sous différentes formes)
Électronique ou papier
Importance des formats de fichiers
Supports de communication (filaire, non-filaire…)

13
© OD - 2021
Notion de système d’information
Activité :
contraintes ØRéfléchir : adaptation
à l’environnement,
conception
Flux de décisions ØDécider : prévisions,
planification
Système de
ØContrôler
pilotage

Activité :
Générer des
Flux d’informations informations
Système d’information
Mémoriser
Diffuser
Traiter

Entrées Sorties Activité :


Système opérationnel
Transformer
Produire

14
14
© OD - 2021
Le système de pilotage
Ø Appelé également système de décision
Ø Exploite les informations qui circulent
Ø Organise le fonctionnement du système
Ø Décide des actions à conduire sur le système opérant
Ø Raisonne en fonction des objectifs et des politiques de l’entreprise

15
15
© OD - 2021
Le système opérant
Ø Reçoit les informations émises par le système de pilotage
Ø Se charge de réaliser les tâches qui lui sont confiées
Ø Génère à son tour des informations en direction du système
de pilotage
Ø Il englobe toutes les fonctions liées à l’activité propre de
l’entreprise :
Facturer les clients, régler les salaires, gérer les stocks, …

16
© OD - 2021
SI et nouveaux métiers
Ø Directeur de SI
Ø Intégrateur : chargé d’adapter une solution logicielle à la
réalité de l’entreprise
Ø Architecte, urbaniste de SI
Ø Chef de projet sécurité des SI
Ø ….

17
17
© OD - 2021
Évolution des systèmes d’information au cours des
40 dernières années
Ø «Quel que soit son métier, une organisation doit pour
réussir maîtriser un tripode formé des RH, de la finance
et des systèmes d’information»
• Accélération de la vie des organisations et des affaires
• Environnement de plus en plus large (notion d’entreprise
étendue)
• Évolution permanente et rapide des technologies
• Complexité plus grande à gérer
• Tendance à l’externalisation des services informatiques
• Accroissement des risques

18
18
© OD - 2021
Problématique
Ø Pourquoi un entrepôt de données?
Améliorer les performances décisionnelles de l’entreprise.
Ø Comment?
En répondant aux demandes d’analyse des décisdeurs.
Ø Exemples:
Clientèle: Qui sont mes clients? Pourquoi sont-ils mes clients?
Comment les conserver ou les faire revenir (préférenced’achat,
habitudes, …) ? Ces clients sont-ils vraiment intéressants pour moi?
Marketing, actions commerciales: Où placer ce produit dans des
rayons?

19
© OD - 2021
Problématique 20

Ø Comment les décideurs prennent-ils les décisions?

20
© OD - 2021
Contexte 21

Ø Aujourd’hui, les entreprises produisent et stockent d’énormes quantités


de données. Ces données, qui constituent un extraordinaire gisement
d’informations sur ses activités et son positionnement dans le contexte
économique, sont souvent insuffisamment exploitées.

21
© OD - 2021
Types de données 22

u Données détaillées:
u courantes ou anciennes
u données opérationnelles (de production)
u Données opérationnelles archivées
u Données agrégées
u Faiblement ou fortement
u Pour mieux répondre aux questions des gestionnaires
u Données sur les données :
u règles d’extraction, de conversion, d’agrégation, ...

22
© OD - 2021
Informatique Décisionnelle (ID) 23

Ø L’informatique décisionnelle ou la Business intelligence est


l’ensemble des moyens, des outils et des méthodes qui permettent de
collecter, intégrer, distribuer et de restituer les informations en vue
d’offrir une aide à la décision.
Ø L’informatique décisionnelle permet la collecte, l’organisation et le
stockage des données ainsi que l’extraction et la restitution des
informations pertinentes.

Ø Elle permet aux responsables de la stratégie d’une entreprise


d’avoir une vision synthétique de leurs activités, les aidant ainsi à
orienter leurs décisions.
Ø

23
© OD - 2021
Informatique Décisionnelle (ID) 24

Ø L’Informatique Décisionnelle (ID) ou la Business Intelligence (BI),


est l'informatique à l'usage des décideurs et des dirigeants des
entreprises
Ø Les systèmes de ID/BI sont utilisés par les décideurs pour obtenir une
connaissance approfondie de l'entreprise et de définir et de soutenir
leurs stratégies d'affaires, par exemple :
d’acquérir un avantage concurrentiel,
d’améliorer la performance de l’entreprise,
de répondre plus rapidement aux changements,
d’augmenter la rentabilité, et
d’une façon générale la création de valeur ajoutée de l'entreprise.

24
© OD - 2021
BI
Ø Informatique décisionnelle (business intelligence) : à l’usage des
décideurs
• Accéder rapidement et simplement aux informations stratégiques
• Donner du sens aux données
• Donner une vision transversale des données d’une organisation
• Extraire, grouper, organiser, agréger corréler les données

Quelle est Quelle est


Qui sont l’évolution du l’efficacité des
mes taux politiques
meilleurs d’occupation publiques en
clients ? des chambres matière
? d’écologie ?

25
© OD - 2021
Introduction aux
entrepôts de données
Les fondateurs

27
© OD - 2021
Définition d’un entrepôt de données

Ø Un entrepôt de données est une collection de


données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d'un
processus d'aide à la décision.
W.H. Inmon, 1991
Ø « Un entrepôt de données ne s’achète pas, il se
construit... »

28
© OD - 2021
Définition d’un entrepôt de données 29

u Un entrepôt de données (ED) est une base de données construite par


copie et réorganisation de multiples sources (dont principalement le
système transactionnel de l'entreprise), afin de servir de source de
données à des applications décisionnelles :
u il agrège de nombreuses données de l'entreprise (intégration) ;
u il mémorise les données dans le temps (historisation) ;
u il les organise pour faciliter les requêtes de prise de décision
(optimisation).
(Goglin, 2001)

29
© OD - 2021
Données orientées sujets
Ø Organisé autour d’un sujet bien précis, ex: client, produit, ventes.
Ø S’intéresse à la modélisation et l’analyse des données pour aider les
décideurs, non pas pour des activités quotidiennes ou traitement
transactionnel
Ø Fournit une vue simple et concise concernant un sujet particulier en
excluant les données qui ne servent pas à la prise de décision

30
© OD - 2021
Données intégrées
Ø Elles proviennent de systèmes sources hétérogènes
Ø Cohérence, normalisation, maîtrise de la sémantique, prise
en compte des contraintes référentielles et des règles de
gestion.
Ø Définition d’un référentiel unique

31
© OD - 2021
Données historisées / datées
Ø La portée temporelle des données dans un data warehouse
est plus longue que celle des bases opérationnelles
ü Base opérationnelle: valeur courante des données.
ü Data warehouse: fournit des infos sous une perspective
historique (ex: 5 à 10 dernières années)
Ø Dans un data warehouse, en général, chaque donnée fait
référence au temps
ü Mais dans une base opérationnelle les données peuvent
ne pas faire référence au temps

32
© OD - 2021
Données historisées / datées

33
© OD - 2021
Data Warehouse est Non-Volatile
Ø Un support de stockage séparé
Ø Les mises à jour de la base opérationnelle n’ont pas lieu au
niveau de la data warehouse
ü On n’a pas besoin de modules de gestion de
transactions (concurrence, reprise sur panne ...)
ü On n’a besoin que de deux opérations pour accéder aux
données : Chargement initial des données et
interrogation (lecture).

34
© OD - 2021
Objectif d’un DW 35

Ø L'objectif du data warehouse est de permettre des requêtes sur de


grands ensembles des données, la plupart du temps sous forme
d’agrégats (GROUP BY) afin d'en obtenir une vision synthétique (propre
à la prise de décision).
Ø Le data warehouse dédié au décisionnel est séparé du système
transactionnel dédié à la gestion quotidienne.
Ø Un est uniquement destiné à l’exécution de questions statistiques sur
des données statiques (ou faiblement dynamiques).

35
© OD - 2021
Objectif d’un DW 36
Ø Objectif
Retrouver une information historique et transversale à l’entreprise

§Données réparties

§Vue «au-jour-le-jour »

Ø Comment
Fédérer/Regrouper l'ensemble des données de l'entreprise

§Recoupements d’informations

§Vue sur l’évolution des informations

36
© OD - 2021
Architecture d’un ED

37
© OD - 2021
Architecture d’un ED

38
© OD - 2021
Alimentation d'un Entrepôt de
données
Processus d’alimentation d’un ED
Ø Le processus d'alimentation d'un ED (ou entreposage des données)
consiste à :
• rassembler de multiples données sources souvent hétérogènes
• les homogénéiser
Ø Homogénéisation faite selon des règles précises
Ø Ces règles:
• sont mémorisées sous forme de méta-données (information sur les
données) stockées dans le dictionnaire de données
• permettent d'assurer des tâches dʼadministration et de gestion
des données entreposées.

40
© OD - 2021
Processus d’alimentation d’un ED
Après avoir conçu le modèle des données, comment alimenter
lʼED ?
à Problématique de lʼETL (Extracting Transforming and
Loading)
4 étapes :
Ø Sélection des données sources
Ø Extraction des données
Ø Nettoyage et Transformation
Ø Chargement

41
© OD - 2021
Sélection des données sources
Quelles données de production faut-il sélectionner pour alimenter
lʼED?
Ø Toutes les données sources ne sont forcément pas utiles
Ex : Doit-on prendre l'adresse complète ou séparer le code postal ?

Ø Les données sélectionnées seront réorganisées pour devenir des


informations.
• La synthèse de ces données sources a pour but de les enrichir.
• La dénormalisation des données crée des liens entre les données
et permet des accès différents

42
© OD - 2021
Sources de données
Ø Enterprise resource planning (ERP):
– Gèrent les processus opérationnels d'une entreprise (ex: ressources
Ø humaines, finances, distribution, approvisionnement, etc.).
Ø Customer relationship management (CRM):
– Gèrent les interactions d’une entreprise avec ses clients (ex: marketing,
ventes, après-vente, assistance technique, etc.).
Ø Systèmes « legacy »:
– Matériels et logiciels obsolètes mais difficilement remplaçables.
Ø Point of sale (POS):
– Matériels et logiciels utilisés dans les caisses de sorties d’un magasin.
Ø Externes:
– Ex: données concurrentielles achetées, données démographiques.

43
© OD - 2021
Nettoyage et transformation des données
Objectifs du nettoyage :
Ø résoudre le problème de consistance des données au sein de chaque
source
• une centaine de type d'inconsistances ont été répertoriées
• 5 à 30 % des données des BD commerciales sont erronées
Types d'inconsistances :
Ø présence de données fausses dès leur saisie :
• fautes de frappe
• différents formats dans une même colonne
• valeur nulle
• incompatibilité entre la valeur et la description de la colonne
• duplication d'information, ...
Ø persistance de données obsolètes
Ø confrontation de données sémantiquement équivalentes mais
syntaxiquement différentes
44
© OD - 2021
Nettoyage de données
Ø fonctions de normalisation
Ø fonctions de conversion
Ø usage de dictionnaires de synonymes ou dʼabréviations
Ø Définition de table de règles :

45
© OD - 2021
Transformation de données
Objectifs :
Suppression des incohérences sémantiques entre les sources
pouvant survenir lors de l'intégration :
• des schémas :
ü problème de modélisation : différents modèles de données sont utilisés
ü problèmes de terminologie : un objet est désigné par 2 noms différents, un
même nom désigne 2 objets différents
ü incompatibilités de contraintes : 2 concepts équivalents ont des contraintes
incompatibles
ü conflit sémantique : choix de différents niveaux d'abstraction pour un même
concept
ü conflits de structures : choix de différentes propriétés pour un même concept
ü conflits de représentation : 2 représentations différentes choisies pour les
mêmes propriétés d'un même objet
• des données :
ü Equivalence de champs
ü Equivalence d'enregistrements : fusion d'enregistrements
46
© OD - 2021
Transformation de données
Exemples:
Ø Unifier les données
• Ex. dates : MM/JJ/AA -> JJ/MM/AA
• Ex. noms : D-Naiss, Naissance, Date-N -> « Date-Naissance »
Ø Trier, Nettoyer
• Eliminer les doubles
• Jointures, projection, agrégation (SUM, AVG, ...)
• Gestion des valeurs manquantes (NULL) (ignorer ou corriger ?)
• Gestion des valeurs erronées ou inconsistantes (détection et
correction)
• Vérification des contraintes d’intégrité (pas de violation)

47
© OD - 2021
Chargement
Objectif :
charger les données nettoyées et préparées dans lʼED
Ø C'est une opération :
• qui risque d'être assez longue
• plutôt mécanique et la moins complexe.
Ø Il est nécessaire de définir et mettre en place :
• des stratégies pour assurer de bonnes conditions à sa
réalisation
• une politique de rafraîchissement.

48
© OD - 2021
Méta-données
Ø Le rôle de ces méta-données est ainsi de permettre :
• la définition des données
• la fabrication des données
• le stockage des données
• l'accès aux données
• la présentation des données

49
© OD - 2021
Datamart
Ø Un DataMart (magasin de données) est un sous-ensemble
d’un Data Warehouse destiné à fournir des données aux
utilisateurs, et souvent spécialisé vers un groupe ou un type
d’affaire.
Ø Quelques exemples de Datamart :
• Datamart commercial
• Datamart RH
• Datamart financier

50
© OD - 2021
Exploitation d’un
entropôt de données
Principales applications autour dʼun ED
Ø Réalisation de rapports divers (Reporting)

Ø Réalisation de tableaux de bords (Dashboards)

Ø Analyse en ligne diverses (OLAP)

Ø Fouille de données (Data Mining)

Ø Visualisations autour d'un ED (visualizations)

Ø ...

52
© OD - 2021
Exploitation d’un ED (1)
Rapports (Reporting) :
Ø Pour les utilisateurs qui ont besoin d'un accès régulier à des
informations d’une manière presque statique
Ex: les hôpitaux doivent envoyer des rapports mensuels à des agences
nationaux.
Ø Un rapport est défini par une requête (plusieurs requêtes) et une mise en
page (diagrammes, histogrammes, etc.)
Ø Les rapports peuvent être exécutés automatiquement ou manuellement.

53
© OD - 2021
Exploitation d’un ED (2)
Tableaux de bords (Dashboards) :
Ø Affichent une quantité limitée d’informations dans un format graphique
facile à lire.
Ø Fréquemment utilisés par les cadres supérieurs qui ont besoin d’un
rapide aperçu des changement les plus importants.
Ex : un aperçu en temps réel d’évolutions
Ø Pas vraiment utile pour une analyse complexe et détaillée

54
© OD - 2021
Exploitation d’un ED (3)
Analyse OLAP (On-Line Analytical processing) :
Ø Techniques OLAP apparues en recherche dans les années 70 mais ont
été développées dans les années 90 dans l'industrie
Ø Permettent de réaliser des synthèses, des analyses et de la
consolidation dynamique de données multidimensionnelles
Ø Constitue la façon la plus naturelle d'exploiter un ED du fait de son
organisation multidimensionnelle

55
© OD - 2021
Exploitation d’un ED (4)
Fouille de données (Data mining)
Ø Recherche de connaissance, sous forme de modèle de
comportement, cachés dans les données
Ø Domaine jeune à lʼintersection de lʼIntelligence Artificielle, les
Statistiques, les BD
Ø Nombreuses techniques de fouille : régression linéaire, induction
dʼarbres de décision, algorithmes génériques, réseaux de neurones, ...
Ø Les techniques de fouille sont en pleine évolution et sont de plus en
plus intégrées dans les ED

56
© OD - 2021
Exploitation d’un ED (5)
Visualisation autour d'un ED
Ø Facilitent l'analyse et l'interprétation de données
Ø convertissent des données complexes en images, graphiques en 2 et 3
dimensions, voire en animations
Ø Sont de plus en plus intégrées dans les ED

57
© OD - 2021
Réalisation d’un ED
Voici 5 étapes importantes pour la réalisation d’un DW :
1. Conception
2. Acquisition des données
3. Définition des aspects techniques de la réalisation
4. Définition des modes de restitution
5. Stratégies d’administration, évolution, maintenance

58
© OD - 2021
Conception
Ø Les deux méthodes les plus connues dans la conception d’un entrepôt
de données sont les approches introduites par Bill Inmon « top-down » et
Ralph Kimball « bottom-up ».
Ø Inmon (le père du Data Warehouse) a contribué à la définition de ses
fondements. Selon son point de vue, le DW sera déterminé en fonction
des besoins de l’utilisateur final. Concevoir un modèle de données
normalisé en premier et ensuite créer à partir de cet entrepôt les
données dimensionnelles qui contiennent les données requises pour les
processus métiers spécifiques aux départements.
Ø Ralph Kimball (un informaticien et chef d’entreprise américain) a écrit
plusieurs ouvrages informatiques, notamment concernant les sujets liés
au décisionnel. Son approche pour la conception d’un DW s’oppose à
celle d’Inmon, un DW doit être rapide et compréhensible. Le contenu du
DW est déterminé selon les sources de données.

59
© OD - 2021
Conception
Ø Définir la finaliteé du DW :
• Quelle activité de l’entreprise faut-il piloter?
• Quel est le processus de l’entreprise à modéliser?
• Qui sont les décideurs?
• Quels sont les faits numériques?
o Qu’est ce qui va être mesurer?
• Quelles sont les dimensions ?
o Comment les gestionnaires décrivent-ils des données qui
résultent du processus concerné?
Ø Définir le modèle de données :
• Modèle en étoile / flocon ?
• et/ou Cube?
• et/ou Vues matérialisées?

60
© OD - 2021
Acquisition des données
Ø Pour l’alimentation ou la mise à jour de l’entrepôt
• Mise à jour régulière

Besoin d’un outil pour automatiser les chargements de l’entrepôt :


ETL (Extract, Transform, Load)

61
© OD - 2021
Aspects techniques
Ø Contraintes
• logicielles,
• matérielles,
• humaines,
• ...

62
© OD - 2021
Restitution
Ø But du processus d’entreposage,
Ø Conditionne souvent le choix de l’architecture et de la construction du
DW,
Ø Toutes les analyses nécessaires doivent être réalisables,
Ø Types d’outils de restitution :
• Requêteurs et outils d’analyse
• Outils de data mining

63
© OD - 2021
Administration, maintenance
Ø Toutes les stratégies à mettre en place pour l’administration, l’évolution
et la maintenance
Ø Ex : fréquences des rafraichissements (global ou plus fin?)

64
© OD - 2021
Domaines d'application
des entrepôts

Les domaines privilégiés :


• Domaine bancaire
• Domaine de la grande distribution
• Domaine des télécommunications
• Domaines de lʼassurance et de la pharmacie
• Domaine de la santé, ...
Domaines privilégiés : Bancaire
Domaine bancaire : un des premiers utilisateurs des ED
Ø Pour une banque, il est important de pouvoir regrouper les
informations relatives à un client afin de répondre à ses demandes de
crédit par exemple
Ø Des mailing ciblés doivent aussi être rapidement élabores à partir de
toutes les informations disponibles sur un client lors de la
commercialisation d'un nouveau produit
Ø L'utilisation de cartes de crédit nécessite des contrôles à posteriori,
par exemple pour la recherche de fraudes : la mémorisation des
mouvements peut rendre de grands services
Ø Les échanges d'actions et de conseils de courtages sont facilités
par une mémorisation de l'histoire et une exploitation par des outils
décisionnels avancés par exemple pour déterminer des tendances de
marchés

66
© OD - 2021
Domaines privilégiés : Grande distribution
Domaine de la grande distribution fortement demandeur dʼED :
Ø intéressant de regrouper les informations de ventes pour déterminer
les produits à succès, mieux suivre les modes, détecter les habitudes
dʼachats, les préférences des clients par secteur géographique
Ø La fouille de données a permis de développer des techniques
sophistiquées dʼexploitation de données qui aident à mettre en
évidence les règles de consommation
Ø Explorer le panier de la ménagère est devenu un exercice facile : il
sʼagit de trouver à partir de lʼenregistrement des transactions quelles
sont les habitudes dʼachats, plus précisément quels sont les produits
achetés en même temps.
Apports constatés dans la grande distribution :
• augmentation des ventes grâce à un meilleur marketing
• amélioration des taux de rotation de stocks
• élimination des produits obsolètes
• réduction des rabais, des remises
67
• meilleure négociation des achats © OD - 2021
Domaines privilégiés : Télécommunications
Domaine très concurrentiel des télécommunications : utilise beaucoup
les ED
Ø grande masse de données concernant les abonnés et les appels est
enregistrée
Ø Plusieurs mois de description détaillée des appels comprenant, pour
chaque appel appelant, appelé, heure et durée sont disponibles chez les
opérateurs
En respectant les lois de sécurité et liberté, que peut-on faire de telles
données ?
Ø Couplées ou non avec des informations comptables, lʼexploitation de
ces données regroupées en ED par des techniques dʼanalyse et
dʼexploration permet :
• Dʼanalyser le trafic
• De mieux cerner les besoins des clients,
• De classer les clients par catégories,
68
• De comprendre pourquoi certains changent d'opérateurs et mieux
répondre à leur besoins © OD - 2021
Domaines privilégiés : Assurance et de la
pharmacie
Domaines de lʼassurance et de la pharmacie :
Ø Lʼexercice de base de lʼassureur est de déterminer le facteur de
risque dʼun assuré
Ø Celui dʼun producteur pharmaceutique est de détecter lʼimpact dʼun
médicament
Ø Plus généralement, le suivi des informations relatives à la liaison
produit-client sur un ED est souvent synonyme de gains importants :
meilleure connaissance des produits, détection des défauts, meilleure
connaissance des clients, détection de rejets, ciblage du marketing, etc
Ø Le couplage aux technologies du Web ouvre aussi des horizons
nouveaux pour le suivi des produits, des clients, des concurrents : notion
émergente de « Data Webhouse »

69
© OD - 2021
Pourquoi pas un SGBD?
Fonctions d’un SGBD :
Ø Systèmes transactionnels (OLTP: OnLine Transaction Processing)
Ø Permettre d’insérer, modifier, interroger rapidement, efficacement et en
sécurité les données de la base
Ø Sélectionner, ajouter, mettre à jour, supprimer des tuples
Ø Répondre à de nombreux utilisateurs simultanément
Fonctions d’un ED:
Ø Systèmes pour l’aide à la prise de décision (OLAP: OnLine Analytical
Processing)
Ø Regrouper, organiser des informations provenant de sources diverses
Ø Intégrer et stocker les données pour une vue orientée métier
Ø Retrouver et analyser l’information rapidement et facilement

70
© OD - 2021
OLAP
Ø Les systèmes OLAP sont également appelés “Systèmes d’information
décision- nels”. Ces systèmes doivent, selon leur inventeur, respecter 12
règles (Codd et al., 1993). Ces règles ayant été édictées dans le cadre
d’un projet pour une entreprise privée, elles ont parfois été remises en
question, ou du moins remaniées.
Ø Un système OLAP est composé de trois éléments : la base de données
multidimensionnelle, un serveur OLAP et le client OLAP qui permet aux
usagers d’effectuer les différentes analyses via une interface spécialisée
et des opérateurs adaptés. La base de données multidimensionnelle
correspond à un entrepôts de données et ses magasins de données.
L’interface OLAP permet à l’utilisateur de créer des requêtes
multidimensionnelles via une interface graphique. Le serveur OLAP
analyse et traduit les requêtes OLAP en requêtes pour la base de
données, puis organise le résultat de la requête fourni par le système de
gestion de base de données selon un format multidimensionnel, pour
l’afficher à l’utilisateur.
71
© OD - 2021
OLTP à DW 72

Ø Données de production : l Objectif d’obtention de données :


u SGBD et supports physiques ¡ centralisées
hétérogènes ¡ fiables
u Qualité inégale des données ¡ interprétables
u Représentations hétérogènes
72
© OD - 2021
SGBD et ED

73
© OD - 2021
DW vs Data mart 74

Un data warehouse et un data mart se distinguent par le spectre qu'il


recouvre :
l Le data warehouse recouvre l'ensemble des données et
problématiques d'analyse visées par l'entreprise.
l Le data mart recouvre une partie des données et problématiques
liées à un métier ou un sujet d'analyse en particulier

l Un data mart est fréquemment un


sous-ensemble du data warehouse
de l'entreprise, obtenu par
extraction et agrégation des
données de celui-ci.

74
© OD - 2021
OLTP vs OLAP 75

OLTP OLAP
•Informatique opérationnelle •Informatique décisionnelle
•Opérations journalières •Support décisionnel
•Orienté applications •Orienté sujet
•Usage répétitif •Usage occasionnel
•Requête simple, courte •Requête complexe
•Sur peu de données •Sur des millions de données
•Beaucoup d’utilisateurs •Très peu d’utilisateurs

75
© OD - 2021
OLTP vs DW 76
Bases de Production Entrepôt de Données
(OLTP) (DW)

§atomiques §résumés
§orienté application §orienté sujet
Données
§à jour §historiques
§dynamiques §statiques

§employés de bureau §analystes


§nombreux §peu
§concurrents §non concurrents
Utilisateurs §mises à jour §interrogations
§requêtes prédéfinies §requêtes "one-use"
§réponses immédiates §réponses moins rapides
§accès à peu de données §accès à beaucoup d’information
76
© OD - 2021
Architecture générale Data Warehouse
Généralement, un entrepôt de données adopte une architecture à trois niveaux :
Ø Niveau inférieur ou Bottom Tier : composé généralement du système de base
de données relationnel de l’entrepôt. Les programmes d’applications et les
utilitaires ETL sont utilisés pour fournir les données au niveau inférieur.
Ø Niveau intermédiaire ou Middle Tier : le niveau où se trouve le serveur OLAP
implémenté par deux modèles OLAP relationnel (ROLAP) et OLAP
multidimensionnel (MOLAP).
Ø Niveau supérieur ou Top Tier : c’est la couche client. Elle contient les outils de
requête et les outils de génération de rapports, les outils d’analyse et les outils
d’exploration des données.

77
© OD - 2021
Quelques solutions open source

78
© OD - 2021
Quelques solutions commerciales

79
© OD - 2021
Ø Cognos: https://www.ibm.com/fr-fr/products/cognos-analytics

80
© OD - 2021
Quelques termes du domaine
Ø BPM : Business Process Management ou Gestion des processus métiers
Ø CRM = GRC : Customer Relation Management ou Gestion de la relation client
Ø Datamining : Technique d’exploitation des masses de données du SI
Ø EAI : Enterprise Application Integration ou Intégration des applications de
l’entreprise
Ø EDI : Échange de données informatisées
Ø EFI: Échange de formulaires informatisés
Ø ERP = PGI : Entreprise Resource Planning ou Progiciel de gestion intégré
Ø ESB : Enterprise Service Bus, nouveau type d’outils d’intégration des
applications
Ø Interopérabilité et intégration
Ø KM : Knowledge Management ou Management des connaissances
Ø Portail : Porte d’entrée vers les données du SI, déclinable en EAP, EIP, EEP
Ø Workflow : Flux de travail, modélisation des tâches associées à un processus
métier
81
81
© OD - 2021
Questions???

82
© OD - 2021

Vous aimerez peut-être aussi