Novembre 2012
Sommaire
Business Intelligence
BI: Dfinition
BI: Apport
BI: Caractristique
BI: Caractristique
Business Intelligence
Collecte,
L'intgration,
La diffusion et
La prsentation des donnes.
La collecte
La collecte des donnes (parfois appele data pumping)
est l'ensemble des tches consistant dtecter,
slectionner, extraire et filtrer les donnes brutes issues
des environnements pertinents compte tenu du primtre
du SID.
Les sources de donnes internes et/ou externes tant souvent
htrognes tant sur le plan technique que sur le plan smantique
(donnes complexes)
Lintgration
La diffusion
La diffusion, ou la distribution d'informations labores partir des
donnes dans des contextes appropris aux besoins des individus ou
des groupes de travail utilisateurs. c'est--dire elle met les donnes la
disposition des utilisateurs, selon des schmas correspondant au profil
ou au mtier de chacun.
La prsentation
Cette quatrime fonction, la plus visible pour l'utilisateur, rgit les
conditions d'accs de l'utilisateur aux informations.
Elle assure le fonctionnement du poste de travail, le
contrle d'accs, la prise en charge des requtes, la
visualisation des rsultats sous une forme ou une autre. Elle
utilise toutes les techniques de communication possibles
(outils bureautiques, requteurs et gnrateurs d'tats
spcialiss, infrastructure web, tlcommunications
mobiles, etc.).
Ladministration
Ladministration, qui gre le dictionnaire de donnes et le processus
d'alimentation de bout en bout, car le systme
dinformation dcisionnelle doit tre lui-mme pilot. C'est
la fonction transversale qui supervise la bonne excution
de toutes les autres. Elle pilote le processus de mise jour
des donnes, la documentation sur les donnes (les mta
donnes), la scurit, les sauvegardes, la gestion des
incidents.
Business Intelligence
Remarque
En pratique, les fonctions de collecte et d'intgration sont troitement
lies entre elles, et sont gnralement associes au data warehouse.
De mme, diffusion et prsentation sont des fonctions fortement
"orientes sujet", tournes vers l'utilisateur et son mtier, manipulant
des contenus forte valeur ajoute informationnelle et non des
donnes brutes; elles sont donc fortement imbriques logiquement et
techniquement
Orientes sujet
Donnes intgres
Donnes non volatiles
Donnes dates ,et historises
Donnes multidimensionnelles
Besoins fonctionnels
Expectations sur les donnes, sources de donnes, entretiens
avec les utilisateurs finaux, limites et complexits
Data Profiling
Qualit, primtre, contexte des sources de donnes, donnes
manquantes ou nulles, intervention humaine, suppression des
donnes, planification de dveloppement pragmatiques.
Pr requis de scurit
Un paradoxe:
Entrept de donnes: publier largement les donnes
Scurit: restriction des donnes pour ceux qui en auront besoin
Scurit pour les dveloppeurs .
Architecture
Outil ETL vs. dveloppement spcifiques
Processus en batch vs. Streaming des donnes
Automatiser lordonnancement
Qualit des donnes/Nettoyage des donnes
Mtadonnes
Scurit
Staging
OLTP
DW
Orient transaction
Orient analyse
Orient application
Orient sujet
Donnes courantes
Donnes historises
Donnes dtailles
Donnes agrges
Donnes volutives
Donnes statiques
Utilisateurs nombreux,
administrateurs/oprationnels
Sources
Entrept
BD
Fichiers (Texte,
Tableaux)
Dfinition optionnelle
Magasin
Magasin Tableaux croiss
dynamiques
Tableu
r
Mois
Magasin 1
(Tous)
2
70
30
20
40
160
(Tous)
5
120
5
40
5
170
9
120
10
60
10
200
10
85
30
90
30
235
12 Total
40 480
105
120 335
50 220
210 1140
Magasin 2
Somme Vente
Client
Zone
Employ
A
B
C
D
E
F
Total
NORD
2
105
105
3
55
280 335
Somme NORD
160
280 440
SUD
1
120
260
100
480
4
115
105
220
Somme SUD
120
260
215
105
700
Total
120
260
215
105
160
280 1140
ED
Employ
1
1
1
1
Zone
SUD
SUD
SUD
SUD
Client
B
B
B
B
Date
Mois Vente
17/09/2002
9
70
16/05/2002
5
90
02/02/2002
2
60
04/01/2002
1
40
Inconvnient : pas
de manipulation
possible
Sources
BD
Fichiers (Texte,
Tableaux)
Entrept
BD
relationnelle
Environnemen
Magasin
Magasin
t spcifique
(vue)
(univers BO,)
SQL
Requteur graphique
(BO, Impromptu,
Discoverer)
Magasin
Environnement
Magasin
spcifique
Requteur
graphique
Sources
BD
Fichiers (Texte, Tableaux)
Entrept
Magasin BD multidimensionnelles
Outils OLAP (Power Play,
Express,)
CATEGORIES
codeCa
designation
codeCaSup#
PRODUITS
codeP
description
prix_unit
codeCa#
LIGNES_FACT
refF#
codeP#
qte
FACTURES
refF
dateF (jj-mm-aa)
codeC#
CLIENTS
codeC
nom
prenom
adr_lib
adr_ville
LIGNES_FACT
refF#
codeP#
qte
CATEGORIES
codeCa
FACTURES
designation
volutions des prix ? refF
codeCaSup#
dateF (jj-mm-aa)
jour inutile
codeC#
Inadquations :
adresse
dtaille
inutile
Absence de connaissance
Information inutile
pays ?
Forme inadapte
Non mise en vidence des analyses possibles
ventes mensuelles
CLIENTS
codeC
nom
prenom
adr_lib
adr_ville
PRODUITS
codeP
description
prix_unit
CodeCa#
CLIENTS ventes
mensuelles
suppressioncodeC
de l'adressenom
prenom
suppression
ville
du jour
codeP#
HISTO_PRIX
codeP#
date (jj-mm-aa)CATEGORIES
codeCa
prix_unit
designation
codeCaSup#
pays
PAYS
codeP
pays
Inadquations
Absence de connaissance
Information inutile
Forme inadapte, mais nombreuses jointures
Non mise en vidence des analyses possibles
LIGNES_FACT
refF#
codeP#
qte
montant
FACTURES
refF
dateF (mm-aa)
codeC#
Modlisation
multidimensionnelle
Plan
Modlisation dimensionnelle
Faits & Dimensions
Hirarchies
Modle en flocon
Assemblage des modles dimensionnels
Dimensions volutions lentes
Mthode de conception
Modlisation multidimensionnelle
Modlisation E/R
La modlisation entit/relation est adapte aux systme OLTP.
Elle vise liminer les redondances
Il est bien adapt aux transactions
Modlisation multidimensionnelle
Table de faits
Une table de faits est une table qui contient les donnes analyser.
Une table de fait est souvent reconnaissable par sa taille. En effet,
lorsqu'on visualise un schma, c'est celle qui est au centre et
qui est la plus grande.
Ce type de table est aussi facilement reconnaissable car elle comporte
un grand nombre de cls trangres afin de la lier avec des
tables de dimensions.
Les faits
La table de faits peut aussi contenir des champs qui ne sont pas des cls
trangres. Ce sont les faits (ou mesures).
Une mesure est un indicateur danalyse de type numrique et
cumulable
Les faits doivent tre valoriss de faon continues et tre additifs.
Certains faits sont drivs de faits lmentaires, on les nomme des
faits calculs.
Ils doivent tre pris en compte lors de la modlisation
Ils peuvent tre physiquement stocks ou non dans la tables
de faits.
Concepts de base
Table de dimensions
SELECT *
FROM Locations, States, Countries
where Locations.State_Id = States.State_Id
AND Locations.Country_id=Countries.Country_Id
AND Country_Name='USA'
Loc_cd
Name
State_NM
Country_NM
1001
IL01
Chicago
Loop
Illinois
USA
1002
IL02
Arlington
Illinois
USA
1003
NY01
Brooklyn
New York
USA
1004
TO01
Toronto
Ontario
Canada
1005
MX01
Mexico
City
Distrito
Federal
Mexico
SELECT *
FROM Location_dim
where Country_Name='USA'
Redondance
Attributs ou Faits
Dimension Temps
Dimension Temps
Dim_id
Month
MonthName
Quarter
QuarterName
Year
1001
Jan
Q1
2005
1002
Feb
Q1
2005
1003
Mar
Q1
2005
1004
Apr
Q2
2005
1005
May
Q2
2005
Dimension Produit
Category
1001
STD
Short-Term-Disability
Disability
1002
LTD
Long-Term Disability
Disability
1003
GUL
Life
1004
PA
Personal Accident
Accident
1005
VADD
Voluntary Accident
Accident
Schmas en toiles
Schmas en toiles
Avantages:
-Simple comprendre
-Plus performant
-extensible
Schma en toile
Avantages
Facilit de navigation
Performances : nombre de jointures limit ; gestion des
donnes creuses.
Gestion des agrgats
Fiabilit des rsultats
Simple comprendre & extensible
Inconvnients
Toutes les dimensions ne concernent pas les mesures
Redondances dans les dimensions
Alimentation complexe.
Dimensions et hirarchies
Exemple de hirarchies
Dimension de production
Catgories,
Dpartement, etc.
Dimension gographique,
Villes
Rgion
Pays, etc.
Dimension temporelle
Annes
Trimestre
Mois, etc.
Exemple
Exemple
S = ('VAnalyse', F, < D1, D2, D3>)
F = ('VENTES', {montant, qte})
D1 = ('TEMPS', {codeT, num_mois, lib_mois, annee}, <H1>)
D2 = ('PRODUITS', {codeP, description, prix_unit, sous_categ, categorie},
<H2>)
D3 = ('CLIENTS', {codeC, nom, prenom, ville, pays}, <H3>)
H1 = ('H_AN', <codeT, num_mois, annee>, {(num_mois, lib_mois)})
H2 = ('H_PROD', <codeP,sous_categ, categorie>, {(codeP, description)})
H3 = ('H_CLI', <codeC, ville, pays>, {(codeC, nom),(codeC, prenom)})
Rponse
Une dimension hirarchise peut tre stocke dans une table unique.
Des attributs seront rpts, non respect des formes
normales.
On a un schma en toile
Une dimension hirarchise peut tre stocke dans n tables en
relation pre-fils
On parle de schma en flocon
Schma flocon
Schma flocon
Modle en flocon
Avantages
Plus propre, respect de la 3NF
Gain de place de stockage (!)
Inconvnients
Plus complexe pour l utilisateur final
Plus de jointures, donc plus lent
Selon les spcialistes :
Evitez le floconage des dimensions, mme si elles sont
grandes, car les performances seront mauvaises !
Approche itrative
Schma constellation
B . Schmas multidimensionnels
Schma en Constellation
Schma en constellation
Schma constellation
Schma en constellation :
Gnralisation des schmas en toile
Plusieurs faits et dimensions partages ou non
Une fois les datamarts recenss, il faut les consolider pour dterminer
les dimensions conformes et les faits standards
Faits conformes
Grandes dimensions
Mini dimensions
Processus de conception
Principes de modlisation
Normalisation
Les interviews
Mapping
Business Intelligence
Sommaire
Outils ETL
Techniques
Mthodologies
Meilleurs pratiques
Alimentation des tables de dimension dans lentrept de donnes
Un outil ETL est un outil qui lie les donnes dune ou plusieurs sources,
transforme les donnes de faon tre compatible avec la destination, et
charge les donnes vers cette destination
Solution ETL
Acheter ou construire
Outils ETL traitent les changements dans les systmes sources, ce qui permet
une rduction dans leffort du processus ETL et de sa maintenance
Les outils ETL rendent les processus dextraction et de transformation plus
rigoureux
Les prix des outils ETL nont pas vraiment chut durant les dernires annes,
mais ils permettent plus de fonctionnalits et de performances
Un conflit entre:
Rgle gnrale
Quand une dimension est peuple par plusieurs systmes distincts, il est
important d'inclure lidentificateur unique de chacun de ces systmes
dans la dimension cible de l'entrept de donnes. Ces identificateurs
peuvent tre visualises par des utilisateurs pour leur assurer que la
dimension reflte leurs donnes du systme transactionnel.
Table Dimension
Granularit de la dimension
Dimension date
Entier?
ou 20051010 10 Oct., 2005? ( en rservant 9999999 pour
NA ?)
Mme les entiers sont utilises, avec les nombres tries (pour
permettre le partitionnement de la table de fait par temps)
Sites Web
TDWI: http://www.tdwi.org/
Inmon: http://www.inmoncif.com/home/
Kimball: http://www.ralphkimball.com/