Vous êtes sur la page 1sur 103

Chapitre 1 :

Le Système d’information décisionnel : SID

1
Enjeux des entreprises
 Objectifs stratégiques
 Améliorer les performances décisionnelles de l’entreprise.
 Identifier les tendances du marché.
 Connaître le passé pour anticiper sur le futur.
 Simuler des situations.
 Augmenter le rendement des actions commerciales.
 Augmenter les services fournis.
 Fidéliser sa clientèle.
 Transformer les données du si en informations cohérentes et de
qualités.
 Meilleure connaissance de son activité.
 Disposer d’un pilotage fiable.
 Réaliser des analyses.
 Présenter des statistiques.
 Forer les informations.

2
Enjeux des entreprises
 Comment ?
 En répondant aux demandes d’analyse des décideurs.
 Réponses correctes et rapides
 Exemple :
 Clientèle : Qui sont mes clients ? Comment les conserver
, les fidéliser ou les faire revenir ? Qui sont mes meilleurs
clients depuis 5 ans.
 Marketing : comment améliorer le ciblage de mes actions
commerciales ? Ou placer ce produit dans les rayons.
 Simuler les risques

3
Enjeux des entreprises
 Défi :
 Transformer leur système d’information qui avait une
vocation de production à un SI décisionnel dont la
vocation de pilotage devient majeure:

 Évoluer d’un SI production à un SI production + un SI


décisionnel.

( Si = système d’information ) .

4
Problématique
 Une grande masse de donnée :
 Éparpillées
 Volatiles
 Incohérentes
 Pas ou peu de données externes.
 Pour une utilisation par :
 Décideur
 Pilotage par agrégats , investigations, analyses transversales
 Gestionnaire
 Préparation de décision, simulation…
 Opérationnel
 Accès à l’information élémentaires, requêtes adhoc

 = utilisation par des NON INFORMATICIENS

5
Problématique
 Utilisation par des NON INFORMATICIENS :

 Informations fiables et documentées.


 Accès à l’information via des outils conviviaux et intuitifs.
 Des temps de réponses acceptables.

6
Métiers du décisionnel
 SPM : Strategic performance management.
 Déterminer et controler les indicateurs clé de la performance de
l’entreprise.
 FI : Finance intelligence.
 Planifier, analyser et diffuser l’information financière.
 Mesurer et gérer les risques.
 CRM : Customer relationship management.
 Améliorer la connaissance client. Identifier et prévoir la
rentabilité client.
 Accroître l’efficacité du marketing client.
 SRM : Supplier relationship management.
 Classifier et évaluer l’ensemble des fournisseurs.
 Planifier et piloter la stratégie Achat.

7
la solution : Le sid
 L’ information courante et passée devient vitale pour
l’ entreprise.

 Toutes les données utiles , qu’ elles proviennent du


système de production de l’entreprise ou qu’elles
soient achetées vont devoir être :
 Organisées dans un ensemble cohérent.
 Intégrées.

 Stockées.

  Pour constituer la mémoire de l’entreprise.


 Modèle d’intégration

  Pour donner à l’utilisateur une vue intégrée et orientée


métier de ces informations.

8
la solution : le data warehouse
 Le système d’information décisionnel :

est un système d’information dédié aux applications


décisionnelles :

 En aval des bases de production ( des bases


opérationnelles )
 En amont des prises de décision

  sid = data warehouse

9
chapitre 2 :

Définitions et objectifs du data


warehouse.

10
L’entrepot de données : data
warehouse
 Définition de Bill Inmon (1996) :
 Le data warehouse est une collection de données orientées
sujet, intégrées, non volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision.

 Définition utilisateur :
 Un ensemble de données organisées spécifiquement et utilisées
pour l’aide à la décision.
 Une transformation et une représentation intelligente des
données en informations.
 Un pole d’informations détaillées, fiables,historisées et
facilement accessible et compréhensible.

11
L’entrepot de données : data
warehouse
 Des données aux informations :

 Exemple :
 Le profil client à partir des données :

- Emprunts
- Épargne
- Carte de crédit

12
Les notions fondamentales :
 Les données du data warehouse sont :
 Orientées sujet.
 Intégrées.
 Non volatiles.
 Agrégées en fonction du temps.
 Documentées.

  Mémoire de l’entreprise

13
orientées sujets
 Disposer de l’ensemble des informations utiles sur un
sujet le plus souvent transversal aux structures
fonctionnelles et organisationnelles de l’entreprise.

 Le data warehouse est organisé autour des sujets


majeurs de l’entreprise.
 Client ; contrat ; contrôle de gestion ; salariés ..ect

 Structuration par thème.

 A noter : les données des différents sujets seront intégrées


dans un modèle de données unique.

14
Données intégrées
 Divers sources de données.
 A noter : possibilité de source externe.
 Il faut les collecter.
 Elles ne sont pas structurées à l’identique.
 Il faut les filtrer, les transformer,les contrôler,les synchroniser.

 Chaque donnée doit avoir :


 une seule définition.
 Un seul codage.
 Pas de redondance dans le modèle de donnée :
 un attribut unique

  Afin de garantir :
 Qualité de la donnée.
 Cohérence des résultats.

15
Données non volatiles
 Ne pas supprimer les données du DW.
 Les données sont datées.
 Pas d’annule et remplace.
 Historique :
 On conserve les données détaillées avec un historique de
plusieurs années
 Objectif : analyser les tendances.
 La nouvelle valeur d’une donnée fait passer l’ancienne en
historique
 Objectif : analyser à périmètre fonctionnel stable.
 il faudra choisir les données à historiser.

16
données agrégées en fonction
du temps
 Les données sont historisées pour suivre leurs
évolutions.
 Les données récentes :
 sont disponibles en ligne.
 Sont détaillées au niveau le plus fin.
 Concernent des utilisateurs experts et peu nombreux.
 Les données anciennes :
 Ne sont plus disponibles en ligne au niveau détail le plus
fin, mais néanmoins archivées.
 Sont disponibles en lignes consolidées, agrégées.
 Concernent la plupart des utilisateurs.

17
données documentées : les
metadonnées
 Les métadonnées ou dictionnaire des données :
 Description technique des processus.
 Collecte : source et transformation des données.
 Description technique des données.
 Description utilisateurs des données.
 Sémantique des données.
 Règle de gestion.
 Localisation.

 Les métadonnées sont mises à disposition dans un


ou des référentiels.

18
données documentées : les
metadonnées
 Pour chaque colonne de chaque table :
 L’origine ( en production ).
 L’évolution : processus de transformation.
 L’historique : date des changements.
 La signification.

 Ce référentiel sert :
 Aux processus d’alimentation.
 Aux utilisateurs.

19
Sio / sid : des objectifs différents
SIOpérationnel SIDécisionnel
Activité au quotidien Analyse et aide à la décision
Orienté mise à jour Lecture uniquement
Requêtes simples Requêtes évoluées
Faible volume manipulé Gros volume manipulé ( par
(par transaction ) requêtes )

Consommation maîtrisée Consommation aléatoire


Temps de réponse en Temps de réponse en
seconde minutes ou heures

Critique stratégique 20
Chapitre 3 :

Architecture du data warehouse

21
Systèmes intermédiaires
 L’ exploitation informationnelle des données de
production est antérieure à l’apparition du sid.

 Mise a disposition des décideurs, de données assimilées


à des informations de pilotage via des systèmes
intermédiaires :
 Tableaux de bord opérationnels à partir du sio.
 Outils de requêtes sur les données du sio.
 Outils de requêtes sur des données dédiées et copiées à
partir du sio.
 Outils de requêtes sur des données dédiées, organisées à
partir des données du sio
  ne sont pas un sid.

22
Systèmes intermédiaires
 Tableaux de bord opérationnels à partir du
sio.
 L’ application de production ne dispose que de ses
propres données et n’ offre pas de vision
informationnelle adaptée au périmètre du domaine
d’analyse.

 Toute nouvelle requête informationnelle :


 Maintenance difficile, voir sur la structure des

données.
 Délai d’attente prohibitifs.

23
Systèmes intermédiaires
 outils de requêtes sur les données du sio.

 Données hétérogènes et incohérentes.


 Données non préparées à l’analyse décisionnelle.
 Dépendance aux contraintes de la production.
 Temps de réponse élevés.

  correspond à un outil de présentation


adossé aux données de production.

24
Systèmes intermédiaires
 Outils de requêtes sur des données dédiées et
copiées à partir du sio.
 Avantage:
 Données séparées entre les bases de production et les

bases d’analyse.
 Inconvénients :
 Données hétérogènes et incohérentes.

 Données non intégrées , non unifiées, non

documentées
 Difficulté d’écriture des requêtes.

  correspond à une organisation de type infocentre.

25
Systèmes intermédiaires
 Outils de requêtes sur des données dédiées et
partiellement organisées.
 Avantages:
 Données séparées entre les bases de production et les

bases d’analyse.
 Bribes de modèle de données unifiées et organisées pour

une analyse métier.


 Inconvénients :
 Pas de modèle de donnée complet.

 Pas ou peu de transformation des données.

 Pas ou peu de documentation.

 Difficulté d’écriture des requêtes.

  correspond à une organisation de type infocentre évolué.

26
architecture de référence du sid
 Nécessite deux dispositifs distincts :

 Entrepôt ou data warehouse :


 Stockage des informations en un point unique.

 Magasin de données ou Datamart :


 Stockage des données nécessaires à l’analyse d’un thème
(sujet ).

 Un entrepôt unique.
 N Datamart suivant les thèmes à analyser.

27
architecture de référence du sid
Données de production

sci

Entrepôt de données

sdp
datamart datamart …… datamart

Outils de présentation

Utilisateurs finaux 28
architecture de référence du sid
 Deux dispositifs distincts :

 1. Le système de collecte et d’intégration :

 La Fonction de collecte assure l’ approvisionnement des données


du sid à partir des données de production.

 La Fonction d’intégration des données assure la cohérence


globale et le stockage en un point unique.

 stocke les données dans l’entrepôt de données.

29
architecture de référence du sid
 Deux dispositifs distincts :
 2. Le système de diffusion et de présentation :

 La Fonction de diffusion met à disposition des applications


décisionnelles les données sous une forme dimensionnelle.
  stocke les données orientées sujet dans un

magasin de données.

 La Fonction de présentation gère l’accès de l’utilisateur


final aux données stockées sous forme dimensionnelle.
  puise les données dans les magasins de données

( datamart ).
 Fonction assurée par les outils de présentation.

30
l’entrepôt de données
 Mémoire de l’entreprise.
 Stockage des données en un point unique.
 Données unifiées et documentées.

 Modèle conceptuel de données classique :


 Type entité/association.
 Normalisé en 3éme forme normale.

31
l’entrepôt de données
 Partie la plus complexe et difficile du sid.
 En autres :
 Capture des données sans impacter le sio.
 Mode d’alimentation globale.
 Mode d’alimentation incrémentale.
 Modèle conceptuel évolutif. (gestion du temps)
 Volumétrie très importantes.
 Charge de recette importantes.
 Contrôle qualité des données avant chargement.
 Temps de chargement.
 Documentation
 Procédure de reprise des données
 ….

32
datamart
 Base de données thématique :
 Stocke les données nécessaires à l’analyse du sujet.

 Modéliser l’activité que l’on souhaite analyser.

 Modélisation sous forme multidimensionnelle.


 Modèle en étoile.
 Modèle en Flocon.
 Cube multidimensionnel.

 Orienté utilisateur finale :


 Compréhensible par l’utilisateur.
 Temps de réponse acceptable.

33
Architecture du sid
 Dans un sid :

 Un entrepôt de données unique.

 Un ensemble de datamart par sujet à traiter.

34
Chapitre 4 :

Construction du data warehouse

35
le système de Collecte et
d’intégration : le sci
 Objectif : alimenter le socle sur lequel repose le sid :
 Socle = entrepôt de données.

 L’ entrepôt de données est la base de données unique pour


toutes les applications du système de diffusion et de
présentation.

 Le système sci :
 La partie du sid la plus complexe.

 Nombre de traitement important et lourd.

 Prototypage de la solution finale difficile.

 Ne doit pas perturber le système de production.

 Architecture propre à chaque entreprise.

36
le système de Collecte et
d’intégration : le sci
 Fonctions :
 Extrait, transforme, unifie et charge les données à partir
des sites de production.
 Génération des niveaux d’agrégation.
 Génération des règles de correspondance des méta
données.
 Génération des fichiers d’audit.
 Technologie utilisée :
 Code manuel.
 Outils d’ extraction automatique : ETL
 Etl = extract transformation loading

37
le système de Collecte et
d’intégration : sci
 Conception :
 Pour chaque table de l ’entrepôt :
 Création de l’identifiant :
 Les identifiants sont propres à l’entrepôt.

 Pour chaque donnée de la table :


 Recherche de la ou les données source dans le sio.

 Définition des règles de transformation.

 Définition des règles d’agrégation.

 Définition de la périodicité de rafraîchissement.

 Définition des règles et mode de contrôle des données


avant intégration dans l’entrepôt de données.

38
le système de Collecte et
d’intégration : sci
 Architecture technique :
 Choix du mode de capture des données.
 Localisation des traitements :
 Machine sio et/ou machine sid
 Procédure de contrôle des données.
 Procédure de réfection des données.

39
le système de Collecte et
d’intégration : sci
 Solution de collecte via un ods:

 Ods : opérationnel data store :


 Les applications de production « déversent « les données
nécessaires au data warehouse dans un ensemble de
fichiers normalisés.
 L’ods sera la source de l’alimentation de l’entrepôt de
données.

  permet une indépendance entre le monde de la


production et le monde du décisionnel.
  simplifie la synchronisation des données entre les
applications de production.

40
le système de présentation
 Le sdp est un ensemble d’applications destiné à
répondre aux demandes d’information des
utilisateurs :
 États prédéfinis.
 Requêtes paramétrables.
 Requêtes adhoc ( non connues à l’avance).
 Manipulation main libre.
 Simulation.
 Recherche de connaissance (corrélation des données;
data mining)
 Alertes.
 Applications verticales.

41
la modélisation dimensionnelle
 Les Datamarts se modélisent sous forme
multidimensionnelle :
 Contient les informations destinées à répondre aux
requêtes des utilisateurs.
 objectifs datamart :
 Accessibilité des informations :
 Facile à comprendre, donc facile à utiliser.

 Informations cohérentes :
 Une seule réponse possible.(un seul chemin sql)

 Incomplétude signalée.

 Temps de réponse acceptable.

42
la modélisation dimensionnelle
 Différentes formes de modélisation.

 Modèle en étoile.
 Modèle en flocon.
 Cube multidimensionnelle : olap

43
Modèle en étoile
 Datamart analyse des frais de déplacement des
commerciaux par région et véhicule :
Dimension Dimension
employé véhicule
Clé_employé Clé_véhicule
Table de Faits
Nom Immatricula
Prénom Puissance
fonction 0,N Clé_employé 0,N Marque
Clé_région
Clé_véhicule
Clé_mois

Dimension Frai_deplac Dimension


région Kilométrage mois
0,N
Clé_mois
Clé_région 0,N
Mois
Région Trimestre
pays Semestre
annéé
44
Modèle en étoile
 Une association unique et des entités.

 La Table de fait = Association unique.


 Contient les faits ( mesure , indicateur ). Une

information déterminée par la combinaison de


deux ou plusieurs entités.

 Les Tables entités = les Dimensions.


 Contiennent les conditions : caractéristique d’

une entité susceptible d’intervenir comme critère


de définition d’une requête.

45
Modèle en étoile
 Les questions :
 Quels ont été les frais de déplacement et le kilométrage des
commerciaux de la région pays de la loire ayant des véhicules
de 12 à 14 cv en juillet 1996.

 La liste des noms des commerciaux de la région pays de la


loire ayant des véhicules de 12 à 14 cv avec, pour chacun, les
frais de déplacement, le kilométrage, et la marque de
véhicule pour juillet 1996.

 La liste des régions avec, pour chacune, les frais de


déplacements de l’année en cours.

 La liste des véhicules ayant parcouru plus de 50 000 km cette


année.

46
Modèle en étoile
 hiérarchies:
 Exemple : Département,région,pays
 Représente pour l’utilisateur des chemins de
consolidations d’indicateurs.
 Sont stockées dans les dimensions.

 Résister à une normalisation sous forme entité


association.
 Modèle en flocon.

 Une dimension peut comporter plusieurs


hiérarchies.

47
Modèle en étoile
 le grain :
 Le grain d’une dimension est le niveau de sélection
le plus fin possible de cette dimension.

 Le grain d’un datamart est le niveau de détail


pouvant être obtenu par la requête la plus sélective
et la plus fine possible mettant en jeu toutes les
dimensions.

48
Modèle en étoile
 Propriété d’ additivité des faits :
 Fait additif.
 Additionnable suivant toutes les dimensions.

 Fait semi-additif.
 Additionnable seulement suivant certaines

dimensions.
 Fait non additif.
 Non additionnable quelque soit la dimension.

49
Modèle en étoile
 Les règles de base :
 Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle
entre deux entités appartenant à des dimensions
différentes.

 Règle 2 : Tous les faits doit etre définis d’une maniére


cohérente pour toutes les combinaisons dimensionnelles.

 Règle 3 : Tous les faits doivent etre définis pour le grain.

 Règle 4 : le graphe de chaque dimension doit être


acyclique.

50
Modèle en flocon
 Datamart analyse des frais de déplacement des
commerciaux par région et véhicule :
fonction Dimension Dimension
employé marque
véhicule
Clé_fonction Clé_employé Clé_véhicule Clé_marque
Table de Faits Immatricula Constructeur
Grade Nom
sal_min Prénom Puissance Pays_contruc
0,N
Sal_max Fonction # Clé_employé 0,N Marque # ….
Clé_région
Dimension Clé_véhicule
Clé_mois Dimension
pays région mois
trimestre semestre Année

Frai_deplac Clé_
Clé_pays 0,N 0,N Clé_ Clé_
Clé_région Kilométrage semestre Clé_
mois trimestre
Année
Pays Lib_sem
Région Mois Lib_trim
Continent Année # Typ_année
Pays # Trimestre # Semestre #
Devise

51
Modèle en flocon
 Modèle en flocon = modèle en étoile +
normalisation des dimensions
 Lorsque les tables sont trop volumineuses.
 Avantages :
 Réduction du volume

 Inconvénients :
 Nombreuses jointures.

 Performances dégradées.

Règles : Préférer le modèle en étoile au


modèle en flocon.

52
les faits
 Faits dynamiques et faits statiques.

 Un fait dynamique représente un flux affectant le système


observé.
 Ex : montant d’un dépôt, d’un retrait
 Sont généralement additif.
 Peuvent se produire un nombre quelconque de fois au cours
d’une période.

 Un fait statique est un élément descriptif de l’état du


système à un instant donné.
 Ex : solde d’un compte courant.
 Sont généralement semi-additif ( excepté sur la dimension
temps )

53
Les faits.
 Faits dynamiques et faits statiques.
 En théorie : un fait statique peut être reconstitué à
partir de l’histoire d’un fait dynamique.
 Ne nécessite pas de stockage.

 En pratique : le stockage des faits statiques peut


apporter une valeur ajoutée :
 Pas de nécessité de stocker l’ensemble des faits

dynamiques.
 L’utilisateur peut s’intéresser uniquement aux

faits statiques.

54
Les faits.
 Faits dynamiques et faits statiques.

  coexistence de faits statiques et


dynamiques dans le datamart.

 Implique des comportements différents des faits


dans les hiérarchies.
 Implique présentation des méthodes de
consolidation des faits aux utilisateurs.
 Les méthodes de consolidation des faits doivent faire
partie intégrante des méta-données.

55
Les formes dimensionnelles
complexes.
 Dérives dimensionnelles :
 Dérive de contenu.
 Dérive de périmètre.
 Les indicateurs qualifiés.
 Dimension douteuse.
 Dimension dégénérée.
 Dimension causale.
 Dimension temps.
 Inégalité temporelle.
 Les grandes dimensions.
 Les entités hétérogènes.
 Table de faits sans fait.
 Les agrégats.

56
Dérive de contenu
 Modification des attributs des dimensions :
 L’ écoulement du temps :
 Ajoute de nouveaux faits.
 Modifie les attributs des dimensions :
 changement de situation de famille

 changement de condition de log

 Ces dérives dimensionnelles doivent être


prises en compte dés la conception du modèle
dimensionnel.

57
Dérive de contenu
 Dimensions à évolution lente :
 Dimension presque constante mais dont certains
attributs changent de valeurs dans le temps.

 Solutions :
 1 type : Perdre les valeurs anciennes.

 2 type : Créer un nouveau enregistrement.

 3 type : Créer des champs actuels et historiques

à l’intérieur de l’enregistrement d’origine.

 Ne pas tout mettre dans la table de faits.

58
Dimension à évolution lente du 2 éme type

 Créer un nouveau enregistrement.

 Nécessite une extension de la clé primaire.


 Clé étendue = Clé primaire + suffixe de version

 Clé étendue gérée par l’équipe de l’entrepôt.

 Deux possibilités :
 Attributs permanents et mouvants dans la table

de dimension. (modèle en étoile )


 Création d’une table avec uniquement les

attributs changeants. ( modèle en flocon )

59
Dimension à évolution lente du 2 éme type

 Partitionne l’historique :

 la table de faits assurera la relation à l’enregistrement


actuel ou historique de la dimension à évolution lente.

 Pas de nécessité de gérer des dates d’effet dans la


dimension à évolution lente.

 Ne permet pas le what if sur l’histoire. (ce que l’histoire aurait


été si la situation avait été celle-là depuis le début).

 Tous les changements sont conservés.

60
Dimension à évolution du 3éme type
 Créer des champs actuels et historiques à
l’intérieur de l’enregistrement d’origine.
 Attribut actuel et attribut d’origine + date effet de
l’attribut actuel.
 Pas de partitionnement de l’historique dans la table
de fait.
 Nécessite d’utiliser la date effet pour partitionner
l’historique.
 Les valeurs intermédiaires sont perdues.

 Permet de suivre à la fois l’ancienne et la


nouvelle valeur.

61
Dérive de périmètre
 Les dérives de périmètre sont des changements
de dimension liés généralement à des mutations
que traversent les entreprises ( fusions, cessions,
réorganisations internes).

 Elles sont parfois assimilables à des dérives de


contenu et peuvent être traitées selon cette
méthode.

62
Dérive de périmètre
 exemple
 Changement de périmètre d’une région commerciale :

 Ajout du département de la Loire atlantique.


 Les analyses peuvent s’intéresser au périmètre de la région
tel qu’il était au début de la période analysée,ou tel qu’il
est aujourd’hui.
 Si ce besoin d’analyse à périmètre variable est vérifié alors
nécessité de représenter cette dérive dans le datamart.

 Autre Solution possible : la méthode des indicateurs


qualifiés

63
Les indicateurs qualifiés
 Plusieurs indicateurs d’un domaine d’analyse peuvent
correspondre en réalité à plusieurs façons de
représenter un même indicateur fonctionnel.

 Un même montant peut ainsi être exprimé :


 hors taxes et taxes incluses.
 en euros, en dollars.
 selon plusieurs unité de mesure.
 Ce sont des faits différemment qualifiés,différemment
représentés ou encore exprimés selon des métriques différents.

 Ne spécifier comme faits que les indicateurs


véritablement distincts.

64
Les indicateurs qualifiés
 Implémentation :
 Le fait qualifié ( fondamental ) est présent une seule
fois en tant que fait dans la table des faits.

 Toutes ses qualifications possibles sont définies par


des dimensions supplémentaires d’un type
particulier, pouvant se combiner avec les autres
dimensions.
 Ce sont des dimensions qualificatives.

 Exemple : avoir plusieurs indicateurs


correspondants chacun à un certain découpage
régional passé ou actuel.

65
Dimension douteuse
 Dimension contenant :
 De nombreux doublons.
 Des informations douteuses.
 Exemple : une dimension client dans laquelle la même

personne peut apparaître de nombreuses fois,


éventuellement avec des orthographes de nom légèrement
différentes, et d’autres attributs.

 Liée à une qualité médiocre des informations en


production.
 Si dimension douteuse alors étudier la possibilité de nettoyer
les données de production.
 La qualité d’un sid repose sur la qualité des données en
production.
 « Le sid ne doit pas masquer les problèmes de production. »

66
Dimension dégénérée
 Une clé de dimension, tel qu’un numéro de
facture, un numéro de ticket qui n’a pas d’
attribut, et donc n’a pas de table de dimension.

 Exemple : un modèle dimensionnel avec une


table de fait contenant la clé date et sans table
de dimension temps.

67
Dimension Causale

 Dimension qui provoque le fait.

 Ex : Dans une analyse des ventes liée au suivi


des promotions d’un magasin, la dimension
promotion est supposée avoir provoquée le
fait.

68
Dimension temps
 Commune à tout datamart. (sauf exception)

 2 choix d’implantation :

 Type sql date sans dimension temps.


 Jour,mois,trimestre calculés à partir de la clé

date de la table de fait.

 Dimension temps.
 Jours fériés, vacances, période fiscale….

 Événement ( match de finale de coupe du

monde)

69
Inégalité du temps
 Forte inégalité du grain temporel invoqué
par les utilisateurs.
 Fréquemment, les utilisateurs analysent :
 Les données journalières du mois en cours.

 Les données agrégées sur les mois de l’année en

cours. (ou la photo des données à fin de mois)


 Les données agrégées sur l’année des années

précédentes. (ou la photo des données au


31/12).
 Ces fortes différences temporelles d’analyse seront à
traiter dans l’ analyse des agrégats.

70
Les grandes dimensions
 Les minidimensions :
 Objectifs :
 Améliorer les temps de réponse.

 Dans une dimension :


 Bon nombre de champs ne sont presque jamais

la source de contraintes.
 Souvent, les champs source de contraintes sont

parfaitement connus.

Exemple : soit une dimension client :


les champs fortement utilisés sont les champs
démographiques, tels que l’age, le sexe, le nombre d’enfants, le
niveau de ressources, le niveau d’éducation et des mesures de
comportement en matière d’achat et de crédits.

71
Les grandes dimensions
 Solution : créer des minidimensions

 En regroupant dans une minidimension des attributs


choisis pour ne comporter qu’un nombre limité de
combinaison de valeurs.
 Les attributs type age seront des fourchettes de valeurs.
 Soit directement liée à la table de fait, soit liée à la table
de dimension « mère « .
 A noter : possible d’ intégrer la clé primaire de la
minidimension dans la table mère.

Conseil : moins de 100 000 combinaisons distinctes des


attributs choisis.

72
Les entités hétérogènes
 Dans un contexte d’analyse ou les attributs des
dimensions et des faits sont hétérogènes
 Il est recommandé de :
 Créer une table de faits réduite et une table de dimension réduite
permettant aux requêtes de naviguer dans les types disparates.
 Créer une table de fait particularisée et une table de dimension
particularisée pour faire des requêtes en profondeur sur chaque
type particulier.

 Exemple : dans une banque :


- table de faits et dimensions réduites de tous les comptes.
- table de faits et dimension particularisée des comptes de chèques
- table de faits et diemension particularisée des comptes épargne
- …ect

73
Table de faits réduites et
particularisées.
 Application avec des produits hétérogènes
 Des attributs et faits commun.
 De nombreux Attributs et faits valables pour un seul
produit.
 Compte de chèque, compte d’ épargne, compte titre…
 Police et sinistre automobile, habitation…
 Objectifs :
 Permettre une analyse globale.
 Permettre une analyse détaillée.
 En veillant :
 Compréhension du datamart
 Économie de place.

74
Table de faits réduites et
particularisées.
 Solution:
 Créer un datamart générique avec :
 Table de fait réduite
 Table de dimension réduite.
 Créer des datamarts spécialisés métiers :
 Table de fait particularisé.
 Table de dimension particularisé.

 A noter : tous les faits du datamart générique


sont présents dans la table de fait
particularisée.

75
Table de faits sans fait
 Table de faits composée uniquement de clés
sur les dimensions.
 Absence de faits mesurés.

 Deux principales variétés de table de fait sans


fait :
 Tables de suivi d’événement
 Tables de couverture

76
Table de faits sans fait
 Tables de suivi d’événement

 Exemple : Analyse de la fréquentation journalière


dans une université.
 Dimension

Cours , Étudiant, heure/date, professeur, salle


de cours.
 Table de fait :

Clé cours,clé étudiant, clé heure/date, clé


professeur, clé salle de cours.

77
Table de faits sans fait
 Tables de couverture : des tables d’événement
qui n’ont pas eu lieu.
 Exemple : quels articles étaient en promotion et ne
se sont pas vendus :
 Dimension

Temps, magasin, produit, promotion.


 Table de couverture :

indique quels produits étaient ou sont en


promotion.

78
Les agrégats
 Gestion des agrégats dans le système de collecte et
d’intégration.
 Objectifs :
 Réduire le volume de l’entrepôt et simplifier sa

structure.
 Comment :
 Éliminer les données opérationnelles détaillées et les

remplacer par des données plus synthétiques.


 Les valeurs détaillées ne sont pas enregistrées dans

l’entrepôt ( attention au reprise ! ).


 Seules les valeurs synthétiques sont stockées dans

l’entrepôt.
 Remarques :
 N’introduit pas de dénormalisation.

 A effectuer le plus en amont des traitements.

79
Les agrégats
 Gestion des agrégats dans le système de diffusion et de
présentation. ( au niveau datamart )
 Objectifs :
 Améliorer de façon significative les temps de réponse.

 Réduire le volume des données.

 Comment :
 Créer des datamarts agrégés dans lesquels seront pré calculer

les informations très utilisées par les utilisateurs à partir des


données élémentaires.
 Conserver les données élémentaires.

 Remarques :
 Introduit de la redondance des données.

 Les données élémentaires sont toujours disponibles.

80
Les agrégats
 Gestion des agrégats dans le système de diffusion et de
présentation. ( au niveau datamart )

 Exemples :
 Cumul des ventes par mois et vendeur à partir des

données journalières.
 Cumul des ventes par année et vendeur à partir des

données journalières.
 Les données ventes journalières sont disponibles sur

trois mois glissants.

 Détention contrat d’un foyer à partir des détentions


contrats des membres du foyer.

81
olap
 Objectifs :
 Permettre à l’utilisateur une navigation main libre
dans les données.
 Manipulation libres et intuitives.

 Pas de nécessité d’ écrire ou de lancer une

requête pour continuer l’analyse.


 Temps de réponse très courts.
 Les agrégats sont pré-calculés.

 S’appuie sur un stockage des données sous forme


d’hypercube. ( structure matricielle ).

82
olap
 Contraintes :
 Temps de construction du cube.
 Temps de calcul des combinaisons

dimensionnelles.
 Base de stockage est « souvent « propriétaire.
 La pré agrégation génère des volumes de

données totales importantes.


 Ajout d’axes peut s’avérer difficile.

 Temps de chargement prohibitifs.

 Maintenance peut s’avérer difficile.


 Le périmètre d’analyse est figé.

83
olap
 Quand utiliser l’ olap :

 Intéressant lorsque les angles d’analyse sont parfaitement


connus.

 Généralement, correspond à des applications mises à


disposition d’utilisateur presse bouton devant naviguer
facilement et rapidement dans un ensemble de données
importants :

 Navigation main libre :


Drill down : zoom sur les données
Slice and dice : changement d’axe d’analyse

84
olap : les architectures
 Deux architectures : se distinguent sur le mode de
stockage des données.
 Molap : Multidimensionnel Olap
 Logiciel de manipulation des données adossé à une base
de donnée matricielle de type propriétaire.
 Hypercube local ou partagé.
 Coût élevé des licences en général.

 Rolap : Relationnel Olap


 Logiciel de manipulation des données adossé à une base
de données relationnelles
 Présentation multidimensionnelle.(hypercube virtuelle).
 Peut autoriser l’utilisateur à passer « à travers « 
l’hypercube pour exécuter des requêtes directes.

85
Chapitre 5 :

La démarche

86
La démarche
 Comment procéder : deux étapes
fondamentales.

1ére étape :

 Définition des objectifs stratégiques du sid.


 Priorisation des objectifs stratégiques.
 Choix de l’architecture technique globale.

87
La démarche
 2éme étape : Pour chaque projet :
 L’étude préalable.
 Réalisation entrepôt :
 Alimentation de l’entrepôt.

 Dictionnaire des données.

 Recette données entrepôt.

 Réalisation datamart :
 Création des datamarts.

 Dictionnaire des données.

 Recette données datamart.

 Mise en œuvre outil de restitution.


 Dictionnaire utilisateur.
 Recette utilisateurs finaux.
 Déploiement.
 Formation.

88
Définition des objectifs
stratégiques du sid.
 Identifier la stratégie globale du sid :
 Synergie entre les objectifs du datawarehouse et la stratégie
de l’entreprise.
 Projet d’entreprise validé par la direction générale, construit
par itération.
 Identifier le sponsor :
 Fonctionnel, surtout pas technique.

 Mandaté par le management.

 Connaissance de l’entreprise.

 Chargé de mettre en place une équipe motivée,écoutée

et connaissant le métier à modéliser


 Gestionnaire du projet globale.

 Définir les objectifs fondamentaux.


 Estimer Budget et calendrier de réalisation.

89
Priorisation des objectifs
 La démarche de mise en œuvre est :
 Itérative
 Incrémentale
 « Fonctionner par lot « 

 Un data warehouse réussi n’est jamais terminé.

 Il faut prioriser les objectifs.

90
Choix de l’architecture
technique globale
 Objectifs :
 Avant le démarrage du premier projet, choisir
l’architecture globale de votre datawarehouse.
 En particulier :
 Règles de capture et transformation des données.
 Règle d’impact sur la production

 Modèle conceptuel de votre entrepôt.


 Le modèle devra être évolutif.

 Vision des outils nécessaires à la diffusion et présentation


des données.
 Machines.

91
l’étude préalable
 Mise en place du groupe d’utilisateurs
pilotes.
 Expressions des besoins.
 Réunions difficiles à organiser.
 Recherche des données sources.
 Choix des datamarts.
 Etude de faisabilité
 Coût et délai

92
Facteur de succès :
 Un projet d’entreprise.
 Une équipe pluri-disciplinaire.
 La direction générale.
 Le sponsor du projet (connaissance métier)
 Le chef de projet
 La direction informatique (étude et exploitation)
 Les spécialistes technique
 Choisir le bon sponsor utilisateur.
 Choisir un « premier « projet visible et utile.
 Procéder par étapes.
 Documenter les données en amont (informatique) et en
aval (utilisateur ).
 Communiquer.

93
Éviter les écueils :
 Choisir un chef de projet technologique.
 Faire trop de promesses au début.
 Raisonner données et non informations
 Faire l’impasse sur les métadonnées.
 Surcharger l’entrepôt d’informations.
 Privilégier l’approche pharaonique.

94
Référentiel
 Le dictionnaire ou référentiel de données
est l’ensemble des méta-données.
 Renferme des informations :
 Technique :
 Modèle de l’entrepôt.

 Règles d’alimentation et de transformation des

données
 Utilisateurs :
 Définition des datamarts.

 Définition des données.

 Règles d’ utilisation des données.

95
Chapitre 6 :

Les outils

96
les outils
 Rappel : l’important est de disposer d’une architecture, une
base décisionnelle autour de laquelle greffer les outils les
mieux adaptés à chaque besoin.

 Envisageable de disposer de plusieurs outils.(la suite


décisionnelle).

 L’ architecture doit être indépendante du choix de ces outils.

 L’ approbation de l’outil par les utilisateurs est cependant un


prérequis.

97
panorama des outils
 Les outils d’infocentre ( les Requeteurs )
 Business Objects :
 www.businessobjects.com
 Cognos : impromptu
 www.cognos.com
 Ibf information builders : focus
 www.ibi.com
 Sas : Enterprise reporter
 www.sas.com
 Oracle : discoverer
 www.oracle.com

98
panorama des outils
 Les outils multidimensionnels (Analyse
main libre )
 Cognos : Powerplay
 Oracle : Express
 Hyperion : Essbase
 Discoverer
 Microstrategy : Dss server
 Sas : sas mddb
 Microsoft plato

99
panorama des outils
 Les outils datamining : Recherche de
tendances ou corrélations entre les
données.
 Ibm : intelligent miner
 Sas : Enterprise Miner.
 Isoft : Alice
 Neural connection :Spss

100
Chapitre 7 :

Divers

101
Critères de choix du sgbr/r
 Mécanisme de fragmentation des tables.
 Partitionnement d’une table.
 Chargement et indexation rapides des données.
 Compression des tables et des indexs.
 Exécution des requêtes en mode parallèle.
 Réplication des données.

 Technique d’index adaptée aux requêtes décisionnelles.


 Index bit map
 Technique de chemin d’accès adaptée aux requêtes
décisionnelles.
 Arrêt automatique des requêtes.

102
vocabulaire :
 Drill down : aller vers les données détaillées ( forer vers
le bas )
 Drill up : aller du détail vers le global.
 Drill across : changer de dimension d’analyse
 Slice and dice : couper en tranches et couper en dés.
vocable regroupant drill down, drill accross.
 Eis : executive information system :
 Système d’information des décideurs sous forme de
tableau de bord automatisé.
 Siad : système interactif d’aide à la décision :
 Outil de représentation interactive des données
permettant une navigation libre dans les données.

103

Vous aimerez peut-être aussi