Académique Documents
Professionnel Documents
Culture Documents
1
Enjeux des entreprises
Objectifs stratégiques
Améliorer les performances décisionnelles de l’entreprise.
Identifier les tendances du marché.
Connaître le passé pour anticiper sur le futur.
Simuler des situations.
Augmenter le rendement des actions commerciales.
Augmenter les services fournis.
Fidéliser sa clientèle.
Transformer les données du si en informations cohérentes et de
qualités.
Meilleure connaissance de son activité.
Disposer d’un pilotage fiable.
Réaliser des analyses.
Présenter des statistiques.
Forer les informations.
2
Enjeux des entreprises
Comment ?
En répondant aux demandes d’analyse des décideurs.
Réponses correctes et rapides
Exemple :
Clientèle : Qui sont mes clients ? Comment les conserver
, les fidéliser ou les faire revenir ? Qui sont mes meilleurs
clients depuis 5 ans.
Marketing : comment améliorer le ciblage de mes actions
commerciales ? Ou placer ce produit dans les rayons.
Simuler les risques
3
Enjeux des entreprises
Défi :
Transformer leur système d’information qui avait une
vocation de production à un SI décisionnel dont la
vocation de pilotage devient majeure:
( Si = système d’information ) .
4
Problématique
Une grande masse de donnée :
Éparpillées
Volatiles
Incohérentes
Pas ou peu de données externes.
Pour une utilisation par :
Décideur
Pilotage par agrégats , investigations, analyses transversales
Gestionnaire
Préparation de décision, simulation…
Opérationnel
Accès à l’information élémentaires, requêtes adhoc
5
Problématique
Utilisation par des NON INFORMATICIENS :
6
Métiers du décisionnel
SPM : Strategic performance management.
Déterminer et controler les indicateurs clé de la performance de
l’entreprise.
FI : Finance intelligence.
Planifier, analyser et diffuser l’information financière.
Mesurer et gérer les risques.
CRM : Customer relationship management.
Améliorer la connaissance client. Identifier et prévoir la
rentabilité client.
Accroître l’efficacité du marketing client.
SRM : Supplier relationship management.
Classifier et évaluer l’ensemble des fournisseurs.
Planifier et piloter la stratégie Achat.
7
la solution : Le sid
L’ information courante et passée devient vitale pour
l’ entreprise.
Stockées.
8
la solution : le data warehouse
Le système d’information décisionnel :
9
chapitre 2 :
10
L’entrepot de données : data
warehouse
Définition de Bill Inmon (1996) :
Le data warehouse est une collection de données orientées
sujet, intégrées, non volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision.
Définition utilisateur :
Un ensemble de données organisées spécifiquement et utilisées
pour l’aide à la décision.
Une transformation et une représentation intelligente des
données en informations.
Un pole d’informations détaillées, fiables,historisées et
facilement accessible et compréhensible.
11
L’entrepot de données : data
warehouse
Des données aux informations :
Exemple :
Le profil client à partir des données :
- Emprunts
- Épargne
- Carte de crédit
12
Les notions fondamentales :
Les données du data warehouse sont :
Orientées sujet.
Intégrées.
Non volatiles.
Agrégées en fonction du temps.
Documentées.
Mémoire de l’entreprise
13
orientées sujets
Disposer de l’ensemble des informations utiles sur un
sujet le plus souvent transversal aux structures
fonctionnelles et organisationnelles de l’entreprise.
14
Données intégrées
Divers sources de données.
A noter : possibilité de source externe.
Il faut les collecter.
Elles ne sont pas structurées à l’identique.
Il faut les filtrer, les transformer,les contrôler,les synchroniser.
Afin de garantir :
Qualité de la donnée.
Cohérence des résultats.
15
Données non volatiles
Ne pas supprimer les données du DW.
Les données sont datées.
Pas d’annule et remplace.
Historique :
On conserve les données détaillées avec un historique de
plusieurs années
Objectif : analyser les tendances.
La nouvelle valeur d’une donnée fait passer l’ancienne en
historique
Objectif : analyser à périmètre fonctionnel stable.
il faudra choisir les données à historiser.
16
données agrégées en fonction
du temps
Les données sont historisées pour suivre leurs
évolutions.
Les données récentes :
sont disponibles en ligne.
Sont détaillées au niveau le plus fin.
Concernent des utilisateurs experts et peu nombreux.
Les données anciennes :
Ne sont plus disponibles en ligne au niveau détail le plus
fin, mais néanmoins archivées.
Sont disponibles en lignes consolidées, agrégées.
Concernent la plupart des utilisateurs.
17
données documentées : les
metadonnées
Les métadonnées ou dictionnaire des données :
Description technique des processus.
Collecte : source et transformation des données.
Description technique des données.
Description utilisateurs des données.
Sémantique des données.
Règle de gestion.
Localisation.
18
données documentées : les
metadonnées
Pour chaque colonne de chaque table :
L’origine ( en production ).
L’évolution : processus de transformation.
L’historique : date des changements.
La signification.
Ce référentiel sert :
Aux processus d’alimentation.
Aux utilisateurs.
19
Sio / sid : des objectifs différents
SIOpérationnel SIDécisionnel
Activité au quotidien Analyse et aide à la décision
Orienté mise à jour Lecture uniquement
Requêtes simples Requêtes évoluées
Faible volume manipulé Gros volume manipulé ( par
(par transaction ) requêtes )
Critique stratégique 20
Chapitre 3 :
21
Systèmes intermédiaires
L’ exploitation informationnelle des données de
production est antérieure à l’apparition du sid.
22
Systèmes intermédiaires
Tableaux de bord opérationnels à partir du
sio.
L’ application de production ne dispose que de ses
propres données et n’ offre pas de vision
informationnelle adaptée au périmètre du domaine
d’analyse.
données.
Délai d’attente prohibitifs.
23
Systèmes intermédiaires
outils de requêtes sur les données du sio.
24
Systèmes intermédiaires
Outils de requêtes sur des données dédiées et
copiées à partir du sio.
Avantage:
Données séparées entre les bases de production et les
bases d’analyse.
Inconvénients :
Données hétérogènes et incohérentes.
documentées
Difficulté d’écriture des requêtes.
25
Systèmes intermédiaires
Outils de requêtes sur des données dédiées et
partiellement organisées.
Avantages:
Données séparées entre les bases de production et les
bases d’analyse.
Bribes de modèle de données unifiées et organisées pour
26
architecture de référence du sid
Nécessite deux dispositifs distincts :
Un entrepôt unique.
N Datamart suivant les thèmes à analyser.
27
architecture de référence du sid
Données de production
sci
Entrepôt de données
sdp
datamart datamart …… datamart
Outils de présentation
Utilisateurs finaux 28
architecture de référence du sid
Deux dispositifs distincts :
29
architecture de référence du sid
Deux dispositifs distincts :
2. Le système de diffusion et de présentation :
magasin de données.
( datamart ).
Fonction assurée par les outils de présentation.
30
l’entrepôt de données
Mémoire de l’entreprise.
Stockage des données en un point unique.
Données unifiées et documentées.
31
l’entrepôt de données
Partie la plus complexe et difficile du sid.
En autres :
Capture des données sans impacter le sio.
Mode d’alimentation globale.
Mode d’alimentation incrémentale.
Modèle conceptuel évolutif. (gestion du temps)
Volumétrie très importantes.
Charge de recette importantes.
Contrôle qualité des données avant chargement.
Temps de chargement.
Documentation
Procédure de reprise des données
….
32
datamart
Base de données thématique :
Stocke les données nécessaires à l’analyse du sujet.
33
Architecture du sid
Dans un sid :
34
Chapitre 4 :
35
le système de Collecte et
d’intégration : le sci
Objectif : alimenter le socle sur lequel repose le sid :
Socle = entrepôt de données.
Le système sci :
La partie du sid la plus complexe.
36
le système de Collecte et
d’intégration : le sci
Fonctions :
Extrait, transforme, unifie et charge les données à partir
des sites de production.
Génération des niveaux d’agrégation.
Génération des règles de correspondance des méta
données.
Génération des fichiers d’audit.
Technologie utilisée :
Code manuel.
Outils d’ extraction automatique : ETL
Etl = extract transformation loading
37
le système de Collecte et
d’intégration : sci
Conception :
Pour chaque table de l ’entrepôt :
Création de l’identifiant :
Les identifiants sont propres à l’entrepôt.
38
le système de Collecte et
d’intégration : sci
Architecture technique :
Choix du mode de capture des données.
Localisation des traitements :
Machine sio et/ou machine sid
Procédure de contrôle des données.
Procédure de réfection des données.
39
le système de Collecte et
d’intégration : sci
Solution de collecte via un ods:
40
le système de présentation
Le sdp est un ensemble d’applications destiné à
répondre aux demandes d’information des
utilisateurs :
États prédéfinis.
Requêtes paramétrables.
Requêtes adhoc ( non connues à l’avance).
Manipulation main libre.
Simulation.
Recherche de connaissance (corrélation des données;
data mining)
Alertes.
Applications verticales.
41
la modélisation dimensionnelle
Les Datamarts se modélisent sous forme
multidimensionnelle :
Contient les informations destinées à répondre aux
requêtes des utilisateurs.
objectifs datamart :
Accessibilité des informations :
Facile à comprendre, donc facile à utiliser.
Informations cohérentes :
Une seule réponse possible.(un seul chemin sql)
Incomplétude signalée.
42
la modélisation dimensionnelle
Différentes formes de modélisation.
Modèle en étoile.
Modèle en flocon.
Cube multidimensionnelle : olap
43
Modèle en étoile
Datamart analyse des frais de déplacement des
commerciaux par région et véhicule :
Dimension Dimension
employé véhicule
Clé_employé Clé_véhicule
Table de Faits
Nom Immatricula
Prénom Puissance
fonction 0,N Clé_employé 0,N Marque
Clé_région
Clé_véhicule
Clé_mois
45
Modèle en étoile
Les questions :
Quels ont été les frais de déplacement et le kilométrage des
commerciaux de la région pays de la loire ayant des véhicules
de 12 à 14 cv en juillet 1996.
46
Modèle en étoile
hiérarchies:
Exemple : Département,région,pays
Représente pour l’utilisateur des chemins de
consolidations d’indicateurs.
Sont stockées dans les dimensions.
47
Modèle en étoile
le grain :
Le grain d’une dimension est le niveau de sélection
le plus fin possible de cette dimension.
48
Modèle en étoile
Propriété d’ additivité des faits :
Fait additif.
Additionnable suivant toutes les dimensions.
Fait semi-additif.
Additionnable seulement suivant certaines
dimensions.
Fait non additif.
Non additionnable quelque soit la dimension.
49
Modèle en étoile
Les règles de base :
Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle
entre deux entités appartenant à des dimensions
différentes.
50
Modèle en flocon
Datamart analyse des frais de déplacement des
commerciaux par région et véhicule :
fonction Dimension Dimension
employé marque
véhicule
Clé_fonction Clé_employé Clé_véhicule Clé_marque
Table de Faits Immatricula Constructeur
Grade Nom
sal_min Prénom Puissance Pays_contruc
0,N
Sal_max Fonction # Clé_employé 0,N Marque # ….
Clé_région
Dimension Clé_véhicule
Clé_mois Dimension
pays région mois
trimestre semestre Année
Frai_deplac Clé_
Clé_pays 0,N 0,N Clé_ Clé_
Clé_région Kilométrage semestre Clé_
mois trimestre
Année
Pays Lib_sem
Région Mois Lib_trim
Continent Année # Typ_année
Pays # Trimestre # Semestre #
Devise
51
Modèle en flocon
Modèle en flocon = modèle en étoile +
normalisation des dimensions
Lorsque les tables sont trop volumineuses.
Avantages :
Réduction du volume
Inconvénients :
Nombreuses jointures.
Performances dégradées.
52
les faits
Faits dynamiques et faits statiques.
53
Les faits.
Faits dynamiques et faits statiques.
En théorie : un fait statique peut être reconstitué à
partir de l’histoire d’un fait dynamique.
Ne nécessite pas de stockage.
dynamiques.
L’utilisateur peut s’intéresser uniquement aux
faits statiques.
54
Les faits.
Faits dynamiques et faits statiques.
55
Les formes dimensionnelles
complexes.
Dérives dimensionnelles :
Dérive de contenu.
Dérive de périmètre.
Les indicateurs qualifiés.
Dimension douteuse.
Dimension dégénérée.
Dimension causale.
Dimension temps.
Inégalité temporelle.
Les grandes dimensions.
Les entités hétérogènes.
Table de faits sans fait.
Les agrégats.
56
Dérive de contenu
Modification des attributs des dimensions :
L’ écoulement du temps :
Ajoute de nouveaux faits.
Modifie les attributs des dimensions :
changement de situation de famille
57
Dérive de contenu
Dimensions à évolution lente :
Dimension presque constante mais dont certains
attributs changent de valeurs dans le temps.
Solutions :
1 type : Perdre les valeurs anciennes.
58
Dimension à évolution lente du 2 éme type
Deux possibilités :
Attributs permanents et mouvants dans la table
59
Dimension à évolution lente du 2 éme type
Partitionne l’historique :
60
Dimension à évolution du 3éme type
Créer des champs actuels et historiques à
l’intérieur de l’enregistrement d’origine.
Attribut actuel et attribut d’origine + date effet de
l’attribut actuel.
Pas de partitionnement de l’historique dans la table
de fait.
Nécessite d’utiliser la date effet pour partitionner
l’historique.
Les valeurs intermédiaires sont perdues.
61
Dérive de périmètre
Les dérives de périmètre sont des changements
de dimension liés généralement à des mutations
que traversent les entreprises ( fusions, cessions,
réorganisations internes).
62
Dérive de périmètre
exemple
Changement de périmètre d’une région commerciale :
63
Les indicateurs qualifiés
Plusieurs indicateurs d’un domaine d’analyse peuvent
correspondre en réalité à plusieurs façons de
représenter un même indicateur fonctionnel.
64
Les indicateurs qualifiés
Implémentation :
Le fait qualifié ( fondamental ) est présent une seule
fois en tant que fait dans la table des faits.
65
Dimension douteuse
Dimension contenant :
De nombreux doublons.
Des informations douteuses.
Exemple : une dimension client dans laquelle la même
66
Dimension dégénérée
Une clé de dimension, tel qu’un numéro de
facture, un numéro de ticket qui n’a pas d’
attribut, et donc n’a pas de table de dimension.
67
Dimension Causale
68
Dimension temps
Commune à tout datamart. (sauf exception)
2 choix d’implantation :
Dimension temps.
Jours fériés, vacances, période fiscale….
monde)
69
Inégalité du temps
Forte inégalité du grain temporel invoqué
par les utilisateurs.
Fréquemment, les utilisateurs analysent :
Les données journalières du mois en cours.
70
Les grandes dimensions
Les minidimensions :
Objectifs :
Améliorer les temps de réponse.
la source de contraintes.
Souvent, les champs source de contraintes sont
parfaitement connus.
71
Les grandes dimensions
Solution : créer des minidimensions
72
Les entités hétérogènes
Dans un contexte d’analyse ou les attributs des
dimensions et des faits sont hétérogènes
Il est recommandé de :
Créer une table de faits réduite et une table de dimension réduite
permettant aux requêtes de naviguer dans les types disparates.
Créer une table de fait particularisée et une table de dimension
particularisée pour faire des requêtes en profondeur sur chaque
type particulier.
73
Table de faits réduites et
particularisées.
Application avec des produits hétérogènes
Des attributs et faits commun.
De nombreux Attributs et faits valables pour un seul
produit.
Compte de chèque, compte d’ épargne, compte titre…
Police et sinistre automobile, habitation…
Objectifs :
Permettre une analyse globale.
Permettre une analyse détaillée.
En veillant :
Compréhension du datamart
Économie de place.
74
Table de faits réduites et
particularisées.
Solution:
Créer un datamart générique avec :
Table de fait réduite
Table de dimension réduite.
Créer des datamarts spécialisés métiers :
Table de fait particularisé.
Table de dimension particularisé.
75
Table de faits sans fait
Table de faits composée uniquement de clés
sur les dimensions.
Absence de faits mesurés.
76
Table de faits sans fait
Tables de suivi d’événement
77
Table de faits sans fait
Tables de couverture : des tables d’événement
qui n’ont pas eu lieu.
Exemple : quels articles étaient en promotion et ne
se sont pas vendus :
Dimension
78
Les agrégats
Gestion des agrégats dans le système de collecte et
d’intégration.
Objectifs :
Réduire le volume de l’entrepôt et simplifier sa
structure.
Comment :
Éliminer les données opérationnelles détaillées et les
l’entrepôt.
Remarques :
N’introduit pas de dénormalisation.
79
Les agrégats
Gestion des agrégats dans le système de diffusion et de
présentation. ( au niveau datamart )
Objectifs :
Améliorer de façon significative les temps de réponse.
Comment :
Créer des datamarts agrégés dans lesquels seront pré calculer
Remarques :
Introduit de la redondance des données.
80
Les agrégats
Gestion des agrégats dans le système de diffusion et de
présentation. ( au niveau datamart )
Exemples :
Cumul des ventes par mois et vendeur à partir des
données journalières.
Cumul des ventes par année et vendeur à partir des
données journalières.
Les données ventes journalières sont disponibles sur
81
olap
Objectifs :
Permettre à l’utilisateur une navigation main libre
dans les données.
Manipulation libres et intuitives.
82
olap
Contraintes :
Temps de construction du cube.
Temps de calcul des combinaisons
dimensionnelles.
Base de stockage est « souvent « propriétaire.
La pré agrégation génère des volumes de
83
olap
Quand utiliser l’ olap :
84
olap : les architectures
Deux architectures : se distinguent sur le mode de
stockage des données.
Molap : Multidimensionnel Olap
Logiciel de manipulation des données adossé à une base
de donnée matricielle de type propriétaire.
Hypercube local ou partagé.
Coût élevé des licences en général.
85
Chapitre 5 :
La démarche
86
La démarche
Comment procéder : deux étapes
fondamentales.
1ére étape :
87
La démarche
2éme étape : Pour chaque projet :
L’étude préalable.
Réalisation entrepôt :
Alimentation de l’entrepôt.
Réalisation datamart :
Création des datamarts.
88
Définition des objectifs
stratégiques du sid.
Identifier la stratégie globale du sid :
Synergie entre les objectifs du datawarehouse et la stratégie
de l’entreprise.
Projet d’entreprise validé par la direction générale, construit
par itération.
Identifier le sponsor :
Fonctionnel, surtout pas technique.
Connaissance de l’entreprise.
89
Priorisation des objectifs
La démarche de mise en œuvre est :
Itérative
Incrémentale
« Fonctionner par lot «
90
Choix de l’architecture
technique globale
Objectifs :
Avant le démarrage du premier projet, choisir
l’architecture globale de votre datawarehouse.
En particulier :
Règles de capture et transformation des données.
Règle d’impact sur la production
91
l’étude préalable
Mise en place du groupe d’utilisateurs
pilotes.
Expressions des besoins.
Réunions difficiles à organiser.
Recherche des données sources.
Choix des datamarts.
Etude de faisabilité
Coût et délai
92
Facteur de succès :
Un projet d’entreprise.
Une équipe pluri-disciplinaire.
La direction générale.
Le sponsor du projet (connaissance métier)
Le chef de projet
La direction informatique (étude et exploitation)
Les spécialistes technique
Choisir le bon sponsor utilisateur.
Choisir un « premier « projet visible et utile.
Procéder par étapes.
Documenter les données en amont (informatique) et en
aval (utilisateur ).
Communiquer.
93
Éviter les écueils :
Choisir un chef de projet technologique.
Faire trop de promesses au début.
Raisonner données et non informations
Faire l’impasse sur les métadonnées.
Surcharger l’entrepôt d’informations.
Privilégier l’approche pharaonique.
94
Référentiel
Le dictionnaire ou référentiel de données
est l’ensemble des méta-données.
Renferme des informations :
Technique :
Modèle de l’entrepôt.
données
Utilisateurs :
Définition des datamarts.
95
Chapitre 6 :
Les outils
96
les outils
Rappel : l’important est de disposer d’une architecture, une
base décisionnelle autour de laquelle greffer les outils les
mieux adaptés à chaque besoin.
97
panorama des outils
Les outils d’infocentre ( les Requeteurs )
Business Objects :
www.businessobjects.com
Cognos : impromptu
www.cognos.com
Ibf information builders : focus
www.ibi.com
Sas : Enterprise reporter
www.sas.com
Oracle : discoverer
www.oracle.com
98
panorama des outils
Les outils multidimensionnels (Analyse
main libre )
Cognos : Powerplay
Oracle : Express
Hyperion : Essbase
Discoverer
Microstrategy : Dss server
Sas : sas mddb
Microsoft plato
99
panorama des outils
Les outils datamining : Recherche de
tendances ou corrélations entre les
données.
Ibm : intelligent miner
Sas : Enterprise Miner.
Isoft : Alice
Neural connection :Spss
100
Chapitre 7 :
Divers
101
Critères de choix du sgbr/r
Mécanisme de fragmentation des tables.
Partitionnement d’une table.
Chargement et indexation rapides des données.
Compression des tables et des indexs.
Exécution des requêtes en mode parallèle.
Réplication des données.
102
vocabulaire :
Drill down : aller vers les données détaillées ( forer vers
le bas )
Drill up : aller du détail vers le global.
Drill across : changer de dimension d’analyse
Slice and dice : couper en tranches et couper en dés.
vocable regroupant drill down, drill accross.
Eis : executive information system :
Système d’information des décideurs sous forme de
tableau de bord automatisé.
Siad : système interactif d’aide à la décision :
Outil de représentation interactive des données
permettant une navigation libre dans les données.
103