Académique Documents
Professionnel Documents
Culture Documents
Système SI Système de
Gestion des Système
d'information décisionnel Pilotage
Données résumées, contrats Opérant
agrégats, indicateurs opérationnel
Applications
financière But
• Réduire le temps
Gestion des
d'acquisition des données
commandes • Transparence de
• Déluge de données
l'hétérogénéité
• Flexibilité, évolutivité • Pénurie de connaissances sur ces
données
Notion de donnée et
Exemple: un DW dans les télécoms
notion d'information
– Sujets
Date Heure Numéro Destinat Durée Coût • suivi du marché: lignes installées/ désinstallées, services
et options choisis, répartition géographique, répartition
5-3 07:05 00216188 Tunisie 04:08 6.30
5-3 16:12 00216188 Tunisie 08:10 11.50
entre public et différents secteurs d'organisations
6-3 09:40 00441216 UK 10:20 16.45 • comportement de la clientèle
6-3 20:20 04426576 BdRhnes 16:30 8.40 • Comportement du réseau
– Historique
• 5 ans pour le suivi du marché
• 1 an pour le comportement de la clientèle
• 1 mois pour le comportement du réseau
– Sources
• fichiers nouveaux clients élaborés par les agences
régionales
6 8 10 12 14 16 18 L M M J V S D • fichier facturation de l'entreprise
• sources externes: études INSEE
• Le volume du DW détermine le type de serveur de BD à – les modifications sur les sources internes ne sont pertinentes que
utiliser et les développements à réaliser si elles représentent plus de 1% du volume total des données.
• AT&T: 20TB pour le suivi des appels sans fil – Les modifications sur les sources externes sont acquises
• Wal-Mart: BD consommateurs: 70TB périodiquement une fois par mois.
Requêtes Application de production v.s
application d'aide à la décision
• Sujet: Comportement clientèle –Les applications de production sont constituées
–Nombre moyen d'heures par client, par mois et par de traitements factuels concernant les produits,
région
les ressources ou les clients de l'entreprise
–Répartition des appels clients sur la semaine • OLTP: On Line Transaction Processing
–Répartition des appels clients sur la journée
–Les applications d'aide à la décision sont
–Nombre moyen de numéros appelés représentant 20%
constituées de traitements ensemblistes
d'une facture, 50% d'une facture
réduisant une population à une valeur ou un
–Durée moyenne d'une communication urbaine par ville
comportement
–Durée moyenne d'une communication internationale
• OLAP: On Line Analytical Processing
7 18 5 5 8 25
5 17
Janv 7 18 5 5 Dept Région Mois
8
12
Févr 15 9 8 12 6
Mars 18
25 22 12 18 Dept,Région Région,Mois
Dept,Mois
Dept,Région,Mois
Roll-up Janv
IDF 15,6 16,3 8,3 11,6
ll-
20,1
up
Févr
15,6 16,3 8,3 11,6
(T
Mois 20,1
22
r
Mars
im
)
Dept,Région Région,Mois
Dept,Mois
Dept,Région,Mois
Gestion de l’hétérogénéité des Exemples de problèmes
données sur une source
Contradiction Incohérence
Incohérence
• types d’anomalies
• anomalies mono-sources NSS Nom Age Sex Adresse Tel
• anomalies multisources 1450578… Dupont 48 F Lyon 013925…
Source 2
Source 1
U Source 2
CAR Num Color X CAR Num Color Y Source 1
azura 10 blue
1
2 vermilion 2O blue CAR Num Color X CAR Num Color X
30 red azura 1 blue
4 green 1
40 green vermilion 2 blue
2
4 green 3 red
4 green
Approche de résolution: Utilisation de
graphes conceptuels Définition du niveau de précision
T T
Light blue deep blue vermilion ruby Level of Light blue deep blue vermillon ruby
accuracy
• Transformation (T)
– Graphe orienté acyclique ou programme structuré (type L4G) contenant des
opérations de transformations de données
Lexical Relations Semantic Relations
Synonymy Hyponymy/Hypernymy (isa) • Chargement (L)
Nominal/Verbal Meronymy/Holonymy (partof) – Chargement du résultat d’un processus de transformation de données dans un
Casual, Spatial, Attr système cible (le + souvent une BD)
Converse
• Planification
– Regroupement de plusieurs processus de transformation/chargement
Axiomes: Disjointness, covering, narrow/broader – Planification calendaire ou événementielle de leur exécution
La phase de chargement initial Caractéristiques
S1
History management
History management After-Integration event AfterIntegration
Before-Propagation event
EveryBeginingTrimester Data Integration
Data Integration Temporal/external event BeforeIntegration
S1 DataCleaning S2 DataCleaning
Before-Integration event History management
After-Cleaning event
AfterExtraction
S2 History management
DataCleaning AfterExtraction
S1 Data Extraction S2 Data Extraction S3 Data Extraction
BeforeCustomization
Customization
Update Propagation
Update Propagation
BeforePropagation
Data Integration
BeforeIntegration Data Integration
S1 DataCleaning S2 DataCleaning
AfterExtraction AfterExtraction
S1 DataCleaning S2 DataCleaning
– permettent de coordonner des activités avec des sémantiques Data Stage Graphe + langage type Basic;
mode pas à pas; saisie
Interprétation;
exécution parallèle et
Explicites + logs; nettoyage 100 K! +
avec Quality Stage
encapsulées interactive flux tendu
– permettent de décomposer/recomposer récursivement les Informatica Graphe complet + appels à des Interprétation; Explicites + logs; 100 K! +
procédures; pas à pas exécution parallèle et
activités flux tendu
– permettent une réorganisation dynamique de l'orchestration Genio Langage L4G + appels Interprétation Analyse d’impact 50 K!
procédures
• Intuitivité Sunopsis Graphe complet + appels à des Interprétation Explicites et modules de 35 K!
procédures; pas à pas connaissance
– facilité d'utilisation
Sagent Graphe complet + appels à des interprétation Explicites + logs; Address 50 K!
– facilité de lecture / validation procédures; pas à pas Cleanser, Merge and Purge
ev el
v
• Nommage des données (lexique)
ca l L e
el
Inter-ressources
el
ev
L o p tu a
lL
lL
• Formattage des données (format caché)
ic a
nc
gi
Co
ys
Ph
• Contraintes sur les données (explicites ou implicites)
S
CE
Client Views
AN
• Historique des évolutions des données
ST
IN
Business Schema
TA
• Statistiques sur l'utilisation des données (fréquence
DA
Source schemas
accès/màj, sélectivité)
DATA TYPES • Qualité des données
Mappings –…
inter-niveaux
META MODEL
CLIENT ENTREPRISE SOURCE
mapping mapping
PERSPECTIVE PERSPECTIVE PERSPECTIVE
mapping mapping
S
S
CE
PE
AN
TY
ST
TA
IN
DA
TA
DA
Standards de méta modèles Le référentiel MOF
MOF DTD/Schema
• IRDS (ANSI) : relationnel Niveau M3 vocabulaire générique
Méta-Métamodèle
• MOF (OMG) : objet CWM, EAI, IDL,
Schéma Middleware
• CWM (OMG) : sous cas de MOF Niveau M2
vocabulaire / domaine
Métamodèles
• Dublin Core: objet, XML
Business Models, DTDs,
• … Classes Java
Niveau M1 Schémas BD/Apps
• Implémentations restreintes Modèles Apps
Objets utilisateurs
• Support pour l’ingénierie dirigée par les modèles (outils Docs XML
CASE, MDA, MDE) Niveau M0 Objets Java
Objets Données
Common Warehouse model Couche de Base
(CWM, OMG)
Management 4 couches de description
toutes modélisées en UML
Contributeurs
IBM, Unisys, NCR, Hyperion, Oracle, Genesis,
Analysis
UBS, Dimension EDI...
Sauf Microsoft qui a sa propre offre
Adopté par l'OMG en juin 2000 (Oslo)
Resource différentes implémentations (partielles)
Environnement de
modélisation
Notation UML
méta modèle UML
Foundation étendu aux concepts des
DW
Base
*
ModelElement
autres packages
Clés et les Indexes +ownedElement *
(from Core)
• Problème
– difficile d’accéder à toute l’information de
l’entreprise