Vous êtes sur la page 1sur 70

Enregistrement

Enregistrement N
N
12\541\12

SQL Server Business Intelligence


Sance 01: Les concepts fondamentaux de linformatique dcisionnelle

Prparation aux examens de


Microsoft (MCTS, MCSA,
MCSE)
+
Ateliers 100% Pratiques

LOGO

Tl: +216 71 750 902

GSM: +216 27 519 405


www.gtec.com.tn

E-mail: contact@gtec.com.tn

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

Le contexte
Mondialisation
Les concurrents sont plus
nombreux et plus innovants

Changement de
comportement
dachat
Dcision
Lorganisation
doit tre
centre client, les produits
sont de plus en plus
personnaliss

Lacclration effrne
du monde

Le critre de la disponibilit
de linformation est 7j/7j et
24H/24H

Les organisations taient


organises de faon pyramidale

La naissance des systmes dcisionnels


4

Les systmes dcisionnelles


Chaine
Systme
dcisionnelle
dcisionnel

Pass

Futur

Lalimentation

Lanticipation du
futur

Connaitre et
lanalyse de
pass

La restitution
& lanalyse

Prsent
La reprsentation du
prsent
5

Quelques mtiers du dcisionnel


Strategic Performance Management
Dterminer et contrler les indicateurs cl de la performance de lentreprise
Finance Intelligence
Planifier, analyser et diffuser linformation financire. Mesurer et grer les
risques

Human Capital Management (gestion de la relation avec les employs)


Aligner les stratgies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Amliorer la connaissance client, identifier et prvoir la rentabilit client,
accroitre lefficacit du marketing client

Supplier Relationship Management (gestion de la relation fournisseur)


Classifier et valuer lensemble des fournisseurs. Planifier et piloter la
stratgie Achat.
6

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

Dfinition dun DW
Data Warehouse, ou entrept de donnes, est une base de
donnes ddie au stockage de l'ensemble des donnes utilises
dans le cadre de la prise de dcision et de l'analyse dcisionnelle.
Le Data Warehouse est exclusivement rserv cet usage

Bill Immon Le data Warehouse est une collection de donnes


orientes sujet, intgres, non volatiles et historises, organises
pour le support dun processus daide la dcision

Les 4 caractristiques des DW

Les caractristiques: orient sujet


Au cur du Data warehouse, les donnes sont
organises par thme. Les donnes propres un
thme, les ventes par exemple, seront rapatries
des diffrentes bases OLTP de production et
regroupes.

10

Les caractristiques: intgr


Les donnes proviennent de sources htrognes
utilisant chacune un type de format. Elles sont
intgres avant d'tre proposes utilisation

h,f
1,0

h,f

homme, femme

11

Les caractristiques: Non volatile


Les donnes ne disparaissent pas et ne changent pas au
fil des traitements, au fil du temps (Read-Only).
Traabilit des informations et des dcisions prises

Bases de production

Entrepts de donnes

Ajout
Suppression
Accs
Modification

Chargement

12

Les caractristiques: Historis (dat)


Les donnes sont aussi horodates :On peut visualiser
l'volution dans le temps d'une valeur donne.

Image de la base en Mai 2005

Rpertoire

Rpertoire

Base de
production

Entrept
de
donnes

Image de la base en Juillet 2006

Nom

Ville

Nom

Ville

Dupont

Paris

Dupont

Marseille

Durand

Lyon

Durand

Lyon

Rpertoire

Calendrier

Code Anne

Mois

Code Anne

Mois

2005

Mai

Dupont

Paris

2006

Juillet

Durand

Lyon

Dupont

13 13
Marseille

OLTP VS DW
OLTP

DW

Orient transaction

Orient analyse

Orient application
Donnes courantes
Donnes dtailles
Donnes volutives

Orient sujet
Donnes historises
Donnes agrges
Donnes statiques

Utilisateurs nombreux,
Utilisateurs peu nombreux,
administrateurs/oprationnels manager
Temps dexcution: court

Temps dexcution: long


14

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

15

Datamart
Sous-ensemble dun entrept de donnes
Destin rpondre aux besoins dun secteur ou dune
fonction particulire de lentreprise
Point de vue spcifique selon des critres mtiers
Datamarts du
service Marketing

DW de lentreprise

Datamart du
service Ressources
Humaines 16

Intrt des datamart


Nouvel environnement structur et format en fonction
des besoins dun mtier ou dun usage particulier
Moins de donnes que DW

Plus facile comprendre, manipuler


Amlioration des temps de rponse

Utilisateurs plus cibls: DM plus facile dfinir

17

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

18

Architecture gnrale
Zone de stockage

Zone de prparation
E
X
T
R
A
C
T
I
O
N

Sources de
donnes

Transformations:
Nettoyage
Standardisation

C
H
A
R
G
E
M
E
N
T

Data
warehouse

Zone de
prsentation

Requtes
Rapports
Visualisation
Data Mining

Datamart

19

Zone de prparation (Staging


area)

Zone temporaire de stockage des donnes extraites


Ralisation des transformations avant linsertion dans
le DW:
Nettoyage
Normalisation
Donnes souvent dtruites aprs chargement dans le
DW

20

Zone de stockage (DW, DM)

On y transfre les donnes nettoyes


Stockage permanent des donnes

21

Zone de prsentation

Donne accs aux donnes contenues dans le DW


Peut contenir des outils danalyse programms:
Rapports
Requtes

22

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

23

Modlisation des DW
Nouvelle mthode de conception autour des concepts
mtiers

Ne pas normaliser au maximum

Introduction de nouveaux types de table:

Table de faits
Table de dimensions

Introduction de nouveaux modles:

Modle en toile
Modle en flocon

24

Table de faits
Table principale du modle dimensionnel
Contient les donnes observables (les faits) sur le sujet tudi selon divers
axes danalyse (les dimensions)

Cls trangres
vers les
dimensions
Les mesures

Table de faits des ventes


Cl date (CE)
Cl produit (CE)
Cl magasin (CE)
Quantit vendue
Cot
Montant des ventes
25

Table de faits (suite)


Fait:

Ce que lon souhaite mesurer


Quantits vendues, montant des ventes

Contient les cls trangres des axes danalyse


(dimension)
Date, produit, magasin

Trois types de faits:


Additif
Semi additif
Non additif
26

Typologie des faits


Additif: additionnable suivant toutes les
dimensions

Quantits vendues, chiffre daffaire


Peut tre le rsultat dun calcul:

Bnfice = montant vente cot

Semi additif: additionnable suivant certaines


dimensions

Solde dun compte bancaire:

Pas de sens dadditionner sur les dates car cela reprsente des instantans
dun niveau
sur les comptes: on connat ce que nous possdons en banque

Non additif: fait non additionnable quelque soit la


dimension

Prix unitaire: laddition sur nimporte quelle dimension


donne un nombre dpourvu de sens
27

Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes
observables (faits)
Contient le dtail sur les faits

Dimension produit
Cl de substitution

Attributs de la
dimension

Cl produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Poids
28

Table de dimension (suite)


Dimension = axe danalyse

Client, produit, priode de temps

Contient souvent un grand nombre de colonnes

Lensemble des informations descriptives des faits

Contient en gnral beaucoup moins denregistrements


quune table de faits

29

La dimension Temps
Commune lensemble du
DW

Dimension Temps

Cl temps (CP)
Jour
Relie toute table de faits
Mois
Trimestre
Semestre
Anne
Num_jour_dans_anne
Num_semaine_ds_anne

30

volution des dimensions


Dimensions volution lente

Un client peut se marier, avoir des enfants


Un produit peut changer de noms ou de formulation:
Raider en Twix
yaourt la vanille en yaourt saveur vanille

Gestion de la situation, 3 solutions:


crasement de lancienne valeur
Versionnement
Valeur dorigine / valeur courante

Dimensions volution rapide

Changements frquents des attributs dont on veut garder


lhistorique
Clients pour une compagnie dassurance

Isoler les attributs qui voluent vite

31

Dimensions volution lente (1/3)


crasement de lancienne valeur :
Correction des informations errones

Avantage:
Facile mettre en uvre

Inconvnients:
Perte de la trace des valeurs antrieures des attributs
Perte de la cause de lvolution dans les faits mesurs

Cl produit Description du produit Groupe de produits


12345

Intelli-Kids

Logiciel
Jeux ducatifs
32

Dimensions volution lente (2/3)


Ajout dun nouvel enregistrement:
Utilisation dune cl de substitution

Avantages:
Permet de suivre lvolution des attributs
Permet de segmenter la table de faits en fonction de lhistorique

Inconvnient:
Accroit le volume de la table

Cl produit Description du produit Groupe de produits


12345

Intelli-Kids

Logiciel

25963

Intelli-Kids

Jeux ducatifs

33

Dimensions volution lente (3/3)


Ajout dun nouvel attribut:
Valeur origine/valeur courante

Avantages:
Avoir deux visions simultanes des donnes :
Voir les donnes rcentes avec lancien attribut
Voir les donnes anciennes avec le nouvel attribut
Voir les donnes comme si le changement navait pas eu lieu

Inconvnient:
Inadapt pour suivre plusieurs valeurs dattributs intermdiaires

Cl produit Description du Groupe de


produit
produits
12345
Intelli-Kids
Logiciel

Nouveau groupe
de produits
Jeux34ducatifs

Dimensions volution rapide


Dim client
Dim client

Faits

Cl_client

Cl_client

Cl_client

Nom

Faits

Nom

Prnom

Cl_client

Adresse

Cl_dmog

Prnom
Adresse
Date_nais

Date_naissance

Dim_dmographique

Revenus

Cl_dmog

Niveau_tude

Revenus

Nb_enfants

Niveau_tude

Statut_marital

Nb_enfants

Profil_financier

Statut_marital

Profil_achat

Profil_financier

35

Profil_achat

Les types de modles

Modle en toile

Modle en flocon
36

Modle en toile
Une table de fait centrale et des dimensions
Les dimensions nont pas de liaison entre elles
Avantages:
Facilit de navigation
Nombre de jointures limit

Inconvnients:
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les mesures

37

Modle en toile

Dimension Magasin
ID magasin
description
ville
surface

Dimension Region
ID rgion
pays
description
district vente
.

Dimension Temps
ID temps
anne
mois
jour

Table de faits Achat


ID client
ID temps
ID magasin
ID rgion
ID produit
Quantit achete
Montant des achats

Dimension produit
ID produit
nom
code
prix
poids
groupe
famille

Dimension Client
ID client
nom
prnom
adresse

38

Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies
On a un seul niveau hirarchique dans une table de dimension
La table de dimension de niveau hirarchique le plus bas est relie
la table de fait. On dit quelle a la granularit la plus fine

Avantages:
Normalisation des dimensions
conomie despace disque

Inconvnients:
Modle plus complexe (jointure)
Requtes moins performantes

39

Modle en flocon

Dimension Magasin
ID magasin
description
ville
surface

Dimension Temps
ID temps
annee
mois
jour

Dimension Region
ID rgion
ID division vente
pays
description
.
Dimension
Division vente
ID division vente
description
.

Dimension produit
ID produit
ID groupe
nom
code
prix
poids

Table de faits Achat


ID client
ID temps
ID magasin
ID rgion
ID produit
Quantit achete
Montant des achats
Dimension Client
ID client
nom
prnom
adresse

Dimension groupe
ID groupe
ID famille
nom

Dimension Famille
ID famille
nom

40

Mthodologie de Ralph Kimball


Le cycle de vie dimensionnel

Dfinition
Dfinition de
de
larchitecture
larchitecture
technique
technique

Dfinition
Dfinition
des
des
besoins
besoins
de
de
lentrepri
lentrepri
se
se

Planificatio
Planificatio
nn du
du projet
projet

Installation
Installation et
et
slection
slection des
des
produits
produits

Conception
Conception de
de
modle
modle
physique
physique

Modlisation
Modlisation
dimensionnelle
dimensionnelle

Maintenance
Maintenance
et
et croissance
croissance

Dploiement
Dploiement

Dveloppemen
Dveloppemen
tt de
de
lapplication
lapplication
utilisateur
utilisateur

Spcification
Spcification
de
de lapplication
lapplication
utilisateur
utilisateur

Conception
Conception et
et
Dveloppemen
Dveloppemen
tt de
de la
la zone
zone de
de
prparation
prparation
des donnes
donnes
des

41

41

Exercice
On vous demande de crer un data Mart (une toile) pour l'analyse de l'activit
des reprsentants d'une entreprise de vente d'imprimantes.
Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. Les employs
font ils leur travail, quelle est la zone de couverture des vendeurs, ou sont les
endroits o les vendeurs sont le moins efficaces, quelle est la moyenne de
ventes des reprsentants, etc., etc. L'entreprise possde un systme de gestion
de ressources humaines, un systme de gestion des ventes et des feuilles de
routes avec des informations concernant les vendeurs : kilomtres parcourus,
litres d'essence utilise, frais de voyage, ventes, promesses de ventes, etc.

42

Analyse
Le but est de dceler les axes d'analyses (les dimensions) avec leurs attributs
ainsi que les lments analyser (les faits)
Date

Vendeur Produit

Annes
Mois
Jours
Heures

Nom
Prnom
Salaire

Catgorie
Type
Groupe

Zone
gographique
Pays
Province
Ville

Client
Nom
Adresse
Pays

Analyse
: consommation
d'essence,
Qte
commande, Qte prcommande, kilomtrage,
nombre de visites, etc.

Explications :
le tableau suivant a t rempli pendant la phase d'analyse, en posant des
questions aux dcideurs du type :
Que voulez vous analyser (la dernire ligne du tableau) ?
Quels sont vos critres d'analyse (la premire ligne du tableau) ?
Jusqu' quel niveau de dtail voulez vous aller (les cellules
43
l'intrieur) ?

Solution

44

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

45

Alimentation/ mise jour de lentrept


Entrept mis jour rgulirement
Besoin dun outil permettant dautomatiser les
chargements dans lentrept
Utilisation doutils ETL (Extract, Transform, Load)

46

Dfinition dun ETL


Permet dextraire les donnes partir de
sources htrognes
Permet de transformer les donnes
Permet de charger les donnes dans un
entrept

47

Extraction
Extraire des donnes des systmes de production
Dialoguer avec diffrentes sources:
Base de donnes,
Fichiers,
Bases propritaires

Utilise divers connecteurs :


ODBC,
SQL natif,
Fichiers plats

48

Transformation
Rendre cohrentes les donnes des diffrentes
sources
Transformer, nettoyer, trier, unifier les donnes
Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA)

Etape trs importante, garantit la cohrence et la


fiabilit des donnes

49

Chargement
Insrer ou modifier les donnes dans lentrept
Utilisation de connecteurs:
ODBC,
SQL natif,
Fichiers plats

50

Aperu dun ETL

51

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

52

OLTP VS OLAP
Produits
oranges
poires

Produit
PK id_produit

Espagne
Allemagne

pommes

Libell
Famille

Pays

Achat

France

PK id_achat
FK id_client

client
PK

id_client
Nom

id_produit
Quantit

janvier

avril
fvrier

Temps

adresse
53

Vente de
pommes en
Allemagne
en avril

ROLAP
Relational OLAP

Donnes stockes dans une base de donnes relationnelles


Un moteur OLAP permet de simuler le comportement dun SGBD
multidimensionnel

Plus facile et moins cher mettre en place


Moins performant lors des phases de calcul
Exemples de moteurs ROLAP:

Mondrian

54

MOLAP
Multi dimensional OLAP:
Utiliser un systme multidimensionnel pur qui gre les
structures multidimensionnelles natives (les cubes)
Accs direct aux donnes dans le cube

Plus difficile mettre en place


Formats souvent propritaires
Conu exclusivement pour lanalyse
multidimensionnelle
Exemples de moteurs MOLAP:
Microsoft Analysis Services
Hyperion

55

HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes dans SGBD
relationnel (donnes de base)
donnes agrges stockes dans des cubes

Solution hybride entre MOLAP et ROLAP


Bon compromis au niveau cot et performance

56

Le cube
Modlisation multidimensionnelle des donnes
facilitant lanalyse dune quantit selon diffrentes
dimensions:

Temps
Localisation gographique

Les calculs sont raliss lors du chargement ou de la


mise jour du cube

57

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure

Rotation (rotate): prsenter une autre face du cube

05
uf

06

07

221 263 139

Viande 275 257 116

05

06

07

Idf 101 120 52


Ain 395 400 203

58

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure

Tranchage (slicing): consiste ne travailler que sur


une tranche du cube. Une des dimensions est alors
rduite une seule valeur

05
uf

06

06

07

Idf 220 265 284

uf

Idf 265

Ain 225 245 240

Ain 245

Viande Idf 163 152 145

Viande Idf 152

Ain 187 174 184

Ain 174

59

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure

Extraction dun bloc de donnes (dicing): ne travailler


que sous un sous-cube

05
uf

06

07

Idf 220 265 284

05

06

07

Ain 225 245 240

uf Idf 220 265 284

Viande Idf 163 152 145

Ain 225 245 240

Ain 187 174 184

60

Manipulation des donnes multidimensionnelles


Opration agissant sur la granularit
Forage vers le haut (roll-up): dzoomer

Obtenir un niveau de granularit suprieur


Utilisation de fonctions dagrgation

Forage vers le bas (drill-down): zoomer

Obtenir un niveau de granularit infrieur


Donnes plus dtailles

61

Drill-up, drill-down
Roll up

05

07

Dimension
Temps

Alim. 496 520 255

Roll up
05-07
Fruits

06

623

Viande 648

05
Fruits

06

07

221 263 139

Viande 275 257 116

1S05 2S05 1S06 2S06 1S07


Fruits

100

121

111

152

139

Viande 134

141

120

137

116

05 06 07
Pomme

20 19 22

Boeuf

40 43 48

Dimension
Produit

Drill down

Drill down
62

MDX (Multidimensional Expressions)


Langage de requtes pour les bases de donnes
multidimensionnel
Equivalent de SQL pour le monde OLTP
Origine: Microsoft

63

MDX, exemple
Fournir les effectifs dune socit pendant les annes
2004 et 2005 croiss par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,


{[Pay].[Pay Type].Members} ON ROWS
FROM RH

Dimensions,
axes danalyse

Cube

WHERE ([Measures].[Count])
2004 2005
Heure 3396 4015
Jour

3678 2056

64

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

65

Le march du dcisionnel

66

Quelques solutions open source


ETL

Entrept
de donnes

OLAP

Octopus

MySql

Mondrian Birt

Weka

Kettle

Postgresql

Palo

Open Report
Jasper

R-Project

Report
JFreeReport

Xelopes

CloverETL Greenplum/Biz
Talend

gres

Reporting

Data Mining

Orange

Intgr
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI

67

Plan
1. Introduction
2. Les entrepts de donnes
3.Les datamarts
4.Architecture
5.Modlisation
6.Alimentation
7.Les bases de donnes multidimensionnelles
8.Le march du dcisionnel
9.Prsentation de la solution MS BI

68

Prsentation de la solution MS BI
Stockage des donnes
Datamart
/ DWH

Permet de crer, grer


et publier des rapports
rsultant des analyses
ralises lors de
S.S.A.S

Lintgrer des donnes


provenant de
diffrentes sources
pour les ranger dans
un entrept central

Lanalyse les donnes,


agrges lors de S.S.I.S

69

Sance 2

S.S.I.S