Vous êtes sur la page 1sur 434

TYPE DOUVRAGE

L'ESSENTIEL

SE FORMER

RETOURS
D'EXPRIENCE

MANAGEMENT DES SYSTMES


D'INFORMATION

TUDES, DVELOPPEMENT,
INTGRATION
EXPLOITATION
ET ADMINISTRATION

BUSINESS INTELLIGENCE
AVEC SQL SERVER 2005

RSEAUX
& TLCOMS

Mise en uvre d'un projet dcisionnel


Ce livre sadresse aux directeurs informatiques, administratifs,
financiers et oprationnels, ainsi qu tout responsable informatique
ayant mettre en uvre des systmes dcisionnels. Il intressera
aussi les consultants et les architectes en systmes dinformation.
On assiste aujourd'hui une dmocratisation de l'informatique
dcisionnelle. Chaque dcideur qui le souhaite peut dsormais
disposer de puissants outils d'analyse, de reporting ou de data
mining.
Cet ouvrage donne un cadre mthodologique la mise en uvre
dun projet dcisionnel complet, en sappuyant sur les nouvelles
fonctions de Business Intelligence offertes par SQL Server 2005.
Aprs avoir pass en revue les principes fondamentaux qui prsident
la ralisation dun projet dcisionnel, il identifie les piges
viter et les facteurs cls de succs. Il montre ensuite comment
une solution de Business Intelligence peut analyser les
renseignements stratgiques de l'entreprise, quels sont les diffrents
indicateurs disponibles, et comment les interprter pour dfinir
des cibles, des prvisions ou des tendances.
Des cas concrets expliquent comment mettre en uvre la Business
Intelligence dans lentreprise avec SQL Server 2005.
De nombreuses ressources complmentaires sont disponibles sur
le site www.buroformatic.com.

6639389
ISBN 978-2-10-050536-4

www.dunod.com

BERTRAND BURQUIER
est consultant et ingnieur
en systmes dinformation,
spcialis dans la Business
Intelligence. Il dirige depuis
1985 le cabinet de conseil
BuroFormatic. Il est
galement formateur en
entreprise et enseigne la
Business Intelligence
lInstitut de management de
luniversit de Savoie.

BUSINESS INTELLIGENCE

APPLICATIONS
MTIERS

Bertrand Burquier

APPLICATIONS & MTIERS

B. BURQUIER

INFOPRO

BUSINESS
INTELLIGENCE
AVEC

SQL SERVER 2005


Mise en uvre
d'un projet dcisionnel

Bertrand Burquier

burquier_prelims.fm Page I Vendredi, 8. dcembre 2006 2:01 14

BUSINESS
INTELLIGENCE
AVEC

SQL SERVER 2005


Mise en uvre
dun projet dcisionnel

Bertrand Burquier
Consultant et ingnieur en systmes dinformation

burquier_prelims.fm Page II Vendredi, 8. dcembre 2006 2:01 14

Toutes les marques cites dans cet ouvrage sont des


marques dposes par leurs propritaires respectifs.
Photographie de couverture : Bertrand Burquier
Lac dAnnecy

Dunod, Paris, 2007


ISBN 978-2-10-050536-4

Table des matires

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Chapitre 1 La business intelligence . . . . . . . . . . . . . . . . . . . . . .

1.1 La business intelligence pour qui, pour quoi ? . . . . . . . . . . . . . . .

1.2 Objectifs et enjeux du dcisionnel . . . . . . . . . . . . . . . . . . . . .

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision .

1.3.1 Comprendre les besoins daide la dcision . . . . . . . . . . . . . . .

1.3.2 Agir, analyser, dcider, agir . . . . . . . . . . . . . . . . . . . . .

1.3.3 Tableau de bord et business intelligence . . . . . . . . . . . . . . . . .

11

1.3.4 En quoi la BI est-elle utile lentreprise ? . . . . . . . . . . . . . . . .

14

1.4 Les modles daccs linformation . . . . . . . . . . . . . . . . . . . . .

25

1.4.1 La dictature de linformation . . . . . . . . . . . . . . . . . . . . . .

25

1.4.2 Lanarchie de linformation . . . . . . . . . . . . . . . . . . . . . . .

26

1.4.3 La dmocratie de linformation . . . . . . . . . . . . . . . . . . . . .

26

Chapitre 2 Lapproche mthodologique . . . . . . . . . . . . . . . . . . . .

29

2.1 Les tapes dun projet informatique . . . . . . . . . . . . . . . . . . . . .

30

2.1.1 Le cycle en V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

2.1.2 La mthode agile . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

2.1.3 Ltude de faisabilit . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.1.4 Le cycle de vie du projet BI selon Ralph Kimball . . . . . . . . . . . .

33

IV

Business Intelligence avec SQL Server 2005

2.2 Pourquoi un tableau de bord ? . . . . . . . . . . . . . . . . . . . . . . . .

34

2.3 Les diffrents types dindicateurs . . . . . . . . . . . . . . . . . . . . . . .

35

.
.
.
.
.
.
.

36
37
38
39
41
42
43

2.4 Deux mondes diffrents : OLTP et DW . . . . . . . . . . . . . . . . . . .

45

2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
2.4.1
2.4.2
2.4.3
2.4.4
2.4.5

Fonction Commerciale . . . . . . . . . . . . . .
Fonction Direction gnrale . . . . . . . . . . .
Fonction Ressources humaines . . . . . . . . . .
Fonction Production et recherche dveloppement
Fonction Logistique et approvisionnements . . . .
Fonction Achats . . . . . . . . . . . . . . . . .
Fonction Informatique tudes Exploitation .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Quest-ce quune transaction ? . . . . . . . . . . . . . .


Les utilisateurs et les gestionnaires . . . . . . . . . . . .
La dimension temporelle . . . . . . . . . . . . . . . . .
Le modle de donnes entit-relation pour les dveloppeurs
Le modle dimensionnel pour les analystes . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.

53
55
56
56

2.6 OLAP ou reporting ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

2.7 Le processus dcisionnel


avec SQL server 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

2.8 Les erreurs viter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

2.8.1 Le facteur Humain . . . . . . . . . . . . . . . . . . . . . . . . . . .


2.8.2 Le facteur Technique . . . . . . . . . . . . . . . . . . . . . . . . . .

62
65

2.9 Les rgles du succs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

2.9.1 Rgle 1 Comprendre les utilisateurs . . . . . . . . . . . . . . . . . .


2.9.2 Rgle 2 Distinguer les dcisions stratgiques ou tactiques . . . . . . . .

67
68

2.10 Construire le tableau matriciel des besoins . . . . . . . . . . . . . . . . .

69

Chapitre 3 Comment reprsenter les donnes ? . . . . . . . . . . . . . . . .

73

3.1 Concepts gnraux et pratiques . . . . . . . . . . . . . . . . . . . . . . .

74

3.1.1 Tableaux ou graphiques ? . . . . . . . . . . . . . . . . . . . . . . . .


3.1.2 Donnes quantitatives ou catgorielles ? . . . . . . . . . . . . . . . . .

74
75

Le modle transactionnel (OLTP) . .


Le modle multidimensionnel (OLAP)
Synthse OLTP et OLAP . . . . . .
Modle simplifi FASMI . . . . . . .

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

2.5.1
2.5.2
2.5.3
2.5.4

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

53

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

2.5 Comparatif des deux modles de stockage des donnes . . . . . . . . . . .


.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

46
46
47
49
49

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

Table des matires

3.2 Les nouveaux outils offerts par le complment Proclarity . . . . . . . . .

84

3.2.1 Larbre de dcomposition . . . . . . . . . . . . . . . . . . . . . . . .


3.2.2 La carte de performance . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 La vue en perspective . . . . . . . . . . . . . . . . . . . . . . . . . .

84
85
86

Chapitre 4 Entrept de donnes et analyse dcisionnelle . . . . . . . . . .

89

4.1 Architecture de la plate-forme dcisionnelle . . . . . . . . . . . . . . . .

92

4.2 Les amliorations de SQL Server 2005 par rapport la version 2000 . . .

94

4.2.1 Actuellement, comment dveloppons-nous un projet BI ? . . . . . . . .


4.2.2 Quels sont les dfis relever ? . . . . . . . . . . . . . . . . . . . . .

94
94

4.3 Les nouveaux composants dans SQL Server 2005 . . . . . . . . . . . . .

96

4.3.1
4.3.2
4.3.3
4.3.4

Les vues des sources de donnes (Data Source Views, DSV)


Les cubes et UDM . . . . . . . . . . . . . . . . . . . . .
Les perspectives . . . . . . . . . . . . . . . . . . . . . . .
Le cache proactif . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

96
97
97
98

. . . . . . . . .

98

4.4.1 La mise en miroir des bases de donnes . . . . . . . . . . . . . . . . .


4.4.2 Une cration facilite de rapports
sous SAP NetWeaver business intelligence . . . . . . . . . . . . . . .

98

4.5 Les services de notification . . . . . . . . . . . . . . . . . . . . . . . . .

99

Chapitre 5 Introduction Integration Services . . . . . . . . . . . . . . . .

101

5.1 Prsentation de SQL Server Integration Services (SSIS) . . . . . . . . .

101

5.2 Migrer un package DTS 2000 . . . . . . . . . . . . . . . . . . . . . . . .

112

5.3 Migrer une base SQL Server 2000 vers SQL Server 2005 . . . . . . . . .

113

5.4 Tches dintgration services . . . . . . . . . . . . . . . . . . . . . . . .

114

5.5 Composants des flux de donnes . . . . . . . . . . . . . . . . . . . . . .

129

Chapitre 6 Rgles dETL et assistants . . . . . . . . . . . . . . . . . . . .

145

6.1 Utiliser lassistant pour gnrer un lot import . . . . . . . . . . . . . . .

146

4.4 Les amliorations apportes avec SQL Server 2005 SP1

6.1.1
6.1.2
6.1.3
6.1.4
6.1.5
6.1.6

Crer le projet dimportation . . . . . . . . . . . .


Excuter le lot . . . . . . . . . . . . . . . . . . .
Modifier le lot . . . . . . . . . . . . . . . . . . .
Migration de lots DTS de la version 2000 vers 2005
Dploiement de packages SSIS . . . . . . . . . . .
Automatisation de lexcution des packages . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

99

146
154
155
163
167
169

VI

Business Intelligence avec SQL Server 2005

6.2 Concept de packages dynamiques . . . . . . . . . . . . . . . . . . . . . . 171


6.2.1
6.2.2
6.2.3
6.2.4

Les expressions . . . . .
Les variables . . . . . . .
Les configurations . . . .
La gestion des vnements

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

171
172
174
176

6.3 Planification du projet ETL . . . . . . . . . . . . . . . . . . . . . . . . . 176


6.3.1 La carte de haut niveau . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.4 Les 38 rgles qui rgissent lETL . . . . . . . . . . . . . . . . . . . . . . . 177
Chapitre 7 Analysis Services . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.1 OLAP et le data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.2 Points damlioration entre Analysis 2000 et SSAS 2005 . . . . . . . . . 183
7.3 Mthodologie de cration dune base de donnes
depuis une source existante . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.4 Cration de notre premier cube . . . . . . . . . . . . . . . . . . . . . . . 194
7.4.1
7.4.2
7.4.3
7.4.4

Mesures . . . . . . . . . . . . . . . . . . . .
Dimensions . . . . . . . . . . . . . . . . . .
Le schma en flocons . . . . . . . . . . . . .
Crer le projet Mon Premier Cube laide
de lenvironnement UDM dAnalysis Services .

. . . . . . . . . . . . . 197
. . . . . . . . . . . . . 197
. . . . . . . . . . . . . 198
. . . . . . . . . . . . . 199

7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227


Chapitre 8 Mthode de conception des cubes avec SSAS . . . . . . . . . . . 229
8.1 Organisation logique des cubes . . . . . . . . . . . . . . . . . . . . . . . 230
8.1.1
8.1.2
8.1.3
8.1.4
8.1.5
8.1.6
8.1.7
8.1.8
8.1.9
8.1.10
8.1.11

Dfinition de la structure OLAP .


Dfinir les dimensions . . . . . .
Modification du cube . . . . . .
Lutilisation des dimensions . . .
Les calculs . . . . . . . . . . . .
Ajouter de la business intelligence
Les indicateurs cl de performance
Les actions . . . . . . . . . . . .
Les perspectives . . . . . . . . .
Les traductions . . . . . . . . .
Le navigateur de donnes . . . .

. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
(KPI)
. . . .
. . . .
. . . .
. . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

230
232
239
242
244
245
246
249
249
250
250

Table des matires

8.2 Lorganisation physique du cube . . . . . . . . . . . . . . . . . . . . . .

250
252
253
256
257

8.3 Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

258

Chapitre 9 Le data mining . . . . . . . . . . . . . . . . . . . . . . . . . . .

259

9.1 Mthodologie de cration du modle de data mining . . . . . . . . . . .

260

Chapitre 10 Reporting Services . . . . . . . . . . . . . . . . . . . . . . . .

289

10.1 Quest-ce que Reporting Services ? . . . . . . . . . . . . . . . . . . . . .

289

10.1.1 quoi sert Reporting Services ? . . . . . . . . . . . . . . . . . . . . .


10.1.2 Fonctionnalits de Reporting Services . . . . . . . . . . . . . . . . . .

290
291

10.2 La cration de rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . .

294

10.3 La gestion des rapports . . . . . . . . . . . . . . . . . . . . . . . . . . .

308

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

309
318
318
321
323

10.4 Reporting la demande avec Report Builder . . . . . . . . . . . . . . .

324

10.3.1
10.3.2
10.3.3
10.3.4
10.3.5

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

287

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

9.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

265
265
270

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

9.3.1 Crer la source des donnes . . . . . . . . . . . . . . . . . . . . . . .


9.3.2 Crer la vue de source des donnes . . . . . . . . . . . . . . . . . . .
9.3.3 Crer le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

264

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

9.3 Crer le modle dune campagne cible . . . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

262

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

9.2 Quelles sont les tches du data mining ? . . . . . . . . . . . . . . . . . .

La scurit . . . . . . . .
Les rapports lis . . . . . .
Lexcution de rapports . .
Lhistorisation des rapports
Abonnements aux rapports

.
.
.
.
.
.
.

.
.
.
.
.

260
261
261
261
261
262
262

Dfinition du problme rsoudre .


Prparation des donnes . . . . . .
Construction du schma de donnes
Cration du modle . . . . . . . . .
Exploration du modle . . . . . . .
Validation du modle . . . . . . . .
Dploiement du modle . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

9.1.1
9.1.2
9.1.3
9.1.4
9.1.5
9.1.6
9.1.7

.
.
.
.
.
.
.

. . . .
. . . .
cube ?
. . . .
. . . .

250

.
.
.
.
.

8.2.1
8.2.2
8.2.3
8.2.4
8.2.5

Les groupes de mesures et les partitions . .


Les diffrents modes de stockage . . . . .
Comment SSAS rafrachit-il les donnes du
Paramtrer les agrgations . . . . . . . .
Processus de mise jour des cubes . . . .

VII

.
.
.
.
.

VIII

Business Intelligence avec SQL Server 2005

10.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329


Chapitre 11 Lanalyse de donnes avec Excel . . . . . . . . . . . . . . . . . 331
11.1 Lanalyse ad hoc grce aux tableaux croiss dynamiques . . . . . . . . . . 332
11.2 Complment Microsoft Office Excel
pour SQL Server Analysis Services . . . . . . . . . . . . . . . . . . . . . 340
11.3 Reporting interactif sur le web avec OWC . . . . . . . . . . . . . . . . . 344
11.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
Chapitre 12 Lanalyse de donnes sur le Web . . . . . . . . . . . . . . . . . 347
12.1 Proclarity for Business Scorecard Manager . . . . . . . . . . . . . . . . . . 348
12.1.1 Larbre de dcomposition . . . . . . . . . . . . . . . . . . . . . . . . 348
12.1.2 La carte de performance . . . . . . . . . . . . . . . . . . . . . . . . . 350
12.1.3 La vue en perspective . . . . . . . . . . . . . . . . . . . . . . . . . . 351
12.2 Proclarity Analytics Server (PAS) . . . . . . . . . . . . . . . . . . . . . . . 351
12.3 Dashboard Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Chapitre 13 Passez laction ! . . . . . . . . . . . . . . . . . . . . . . . . . 361
13.1 Les caractristiques du chef de projet dcisionnel

. . . . . . . . . . . . . 362

13.2 Quel est le retour sur investissement ? . . . . . . . . . . . . . . . . . . . . 365


13.3 Faire une offre de solution dcisionnelle . . . . . . . . . . . . . . . . . . 368
Un ETL dentreprise, Integration Services . . . . . . .
Un SGBD pour la gestion des gros volumes de donnes
Une architecture qui garantit la disponibilit des donnes
Compatibilit, ouverture . . . . . . . . . . . . . . . .
Productivit dans le dveloppement dapplications
lies SQL Server 2005 . . . . . . . . . . . . . . . .
13.3.6 Administration renforce . . . . . . . . . . . . . . . .
13.3.7 Scurit . . . . . . . . . . . . . . . . . . . . . . . .
13.3.8 Analysis Services . . . . . . . . . . . . . . . . . . .
13.3.9 Reporting . . . . . . . . . . . . . . . . . . . . . . .
13.3.10 Donner un vritable cockpit de pilotage de lactivit
adapt aux diffrents niveaux de lorganisation . . . .

13.3.1
13.3.2
13.3.3
13.3.4
13.3.5

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

369
370
371
371

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

371
372
372
372
372

. . . . . . . . . 373

13.4 Comment mettre en place un projet dcisionnel ? . . . . . . . . . . . . . 374


13.4.1 Objectifs de la preuve de faisabilit . . . . . . . . . . . . . . . . . . . . 375
13.4.2 Faisabilit sur site . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375

Table des matires

13.4.3
13.4.4
13.4.5
13.4.6

Livrables . . . . . . . . . . . . . . . . .
Planning pour le dploiement de la solution
Prototype/pilote . . . . . . . . . . . . . .
Oprations . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

IX

.
.
.
.

375
375
376
376

13.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

376

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

377

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

379

A Petit historique de la BI . . . . . . . . . . . . . . . . . . . . . . . . . . .

383

B Le march mondial de la BI aujourdhui . . . . . . . . . . . . . . . . . .

386

C Les diffrentes versions de SQL Server 2005 . . . . . . . . . . . . . . .

391

D Les profils dapprentissage des diffrents acteurs de la BI . . . . . . . .

395

E Glossaire de la BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

405

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

417

Introduction

Voudriez-vous me dire, sil vous plat,


quel chemin je dois prendre pour men aller dici ?
Cela dpend beaucoup de lendroit o tu veux aller, rpondit le chat.
Peu mimporte lendroit dit Alice.
En ce cas, peu importe la route que tu prendras, rpliqua-t-il.
pourvu que jarrive quelque part, ajouta Alice en guise dexplication.
Oh, tu ne manqueras pas darriver quelque part,
si tu marches assez longtemps.
Alice au Pays des Merveilles Lewis Carroll
Bien longtemps, linformatique dcisionnelle a t rserve des secteurs dactivit friands de reporting financiers et danalyse marketing, tels que les banques,
les assurances et plus gnralement les grands comptes. Ces organisations taient
les seules tirer parti dinvestissements lourds aussi bien en termes dquipes
projet quen termes dinfrastructures matrielles et logicielles. Le cot dun projet
dcisionnel ntait jamais infrieur 0,5 m et dpassait frquemment 1,5 m.
Ds le dbut des annes quatre-vingt-dix, partant du constat que les ERP (ou
programmes de gestion intgrs, PGI) taient dans lincapacit de fournir des
ditions et rapports synthtiques personnaliss, de nouveaux acteurs tels que
Hyperion, Business Objects et Cognos, ont apport une rponse en matire de
restitution de linformation.
Un nouveau type dorganisation des donnes appeles hypercubes OLAP, et
de nouvelles interfaces ont permis aux managers daccder leurs donnes.

Introduction

Cependant, la complexit de mise en uvre du datawarehouse et la cration des


cubes multidimensionnels demeurait forte. Si bien quun certain nombre de
grands diteurs ont tent de dvelopper des applications analytiques mtier .
Celles-ci ont eu tendance, comme les ERP quelques annes plus tt, faire entrer
lentreprise dans un schma analytique standard tout en faisant de nouveau
exploser la facture finale.
Le vritable lifting de linformatique dcisionnelle a eu lieu en 2000, lorsque
Microsoft, qui ntait alors que challenger, rendit disponible la version SQL Server 2000. Outre le fait que lditeur cherchait simposer sur le march des
SGBD face Oracle et IBM, le leader mondial des logiciels introduisait le germe
de la business intelligence par lajout dun composant dcisionnel appel Analysis
Services.
Lorgane dobservation indpendant OlapReport a mesur la progression fulgurante de Microsoft en termes de parts de march OLAP. Ds 2002, lditeur
de Redmond a pris la place de leader mondial pour ne jamais plus la quitter.
Larrive de SQL Server 2005, disponible depuis le 8 novembre 2005, a eu
un grand retentissement. Cette nouvelle version intgre les dveloppements les
plus rcents en matire de business intelligence. Les dveloppeurs et administrateurs de bases de donnes ont t entendus et disposent dsormais doutils
complets tous les niveaux de la fabrication de la chane de valeur de linformation.
Malgr ces avances technologiques, le constat est affligeant. Aujourdhui, la
plupart des entreprises, y compris les PME/PMI, disposent dune masse dinformations de plus en plus importante sur leurs clients, leurs ventes, leurs produits,
leurs fournisseurs leurs concurrents dont elles ne font rien ! Croises, analyses, filtres, ces informations pourraient pourtant devenir un formidable tremplin pour se diffrencier de la concurrence, amliorer les rsultats de lentreprise,
suivre avec prcision ses activits ou fidliser les clients. Les entrepreneurs aviss
sont pourtant demandeurs de synthses rapides, de tableaux de bord clairs pour
ne plus piloter leur entreprise lintuition.
Il est pourtant vident que les informations stockes dans les nombreux silos
de donnes rpartis dans lentreprise ne peuvent plus tre traites de manire
artisanale. Il nest pas rare de constater que certains cadres passent leur temps
ressaisir dans Excel des donnes puises dans des documents fournis par les systmes oprationnels (ERP, comptabilit, stocks, production, ventes, RH, etc.).
Lobjectif est cependant louable : il sagit de crer son tableau de bord personnel.
Naturellement chaque division procde de la mme manire pour laborer
son propre tableau de synthse. Par consquence, lorsque les cadres se runissent en
comit interdpartementaux, il nest pas rare dobserver des synthses incohrentes

Introduction

ou contradictoires. Au-del du fait que linformatique est une fois de plus montre du doigt et discrdite, les dcisions qui devraient naturellement dcouler
de ces runions sont reportes sine die.
En revanche, les entreprises concurrentes qui ont dploy des outils de business intelligence perdent moins de temps en runion et en discussion striles, car
les indicateurs sont en permanence connus de tous, chaque cadre oprationnel disposant des leviers permettant dagir avec intelligence dans des dlais trs courts.
Que signifie le terme intelligence ?
Le Petit Larousse donne la dfinition suivante : facult de connatre, de comprendre .
Et lexpression business intelligence ?
Wikipedia (encyclopdie libre sur le net) donne la dfinition suivante de la
business intelligence (ou informatique dcisionnelle) :
Linformatique dcisionnelle (DSS, Decision Support System ou encore BI,
business intelligence) dsigne les moyens, les outils et les mthodes qui permettent
de collecter, consolider, modliser et restituer les donnes dune entreprise en
vue doffrir une aide la dcision et de permettre aux responsables de la stratgie
dune entreprise davoir une vue densemble de lactivit traite.
Cet ouvrage a pour ambition doffrir une vision mthodologique de la fabrication de la chane dcisionnelle, un tat de lart des outils disponibles, ainsi quun
mode opratoire permettant de raliser vous-mme le dploiement de fonctions
de business intelligence au service du mtier de votre entreprise.
Public concern
La business intelligence en tant quoutil de pilotage sadresse essentiellement aux
dcideurs confronts chaque jour des choix stratgiques et tactiques dans leur
entreprise. Il est donc bien naturel que les dirigeants (direction gnrale et directions oprationnelles) disposent dun langage commun partag avec les techniciens
de linformation. Cet ouvrage leur est particulirement destin car il prsente une
mthodologie de valorisation de linformation des fins stratgiques.
Les contrleurs de gestion, directions financires, commerciales, marketing, ressources humaines, production verront les aides que peut apporter la business intelligence leurs tches quotidiennes.
Les directeurs informatiques, responsables informatiques et bureautiques, disposeront dune mthode de mise en uvre de la chane dcisionnelle au service
des acteurs oprationnels de lentreprise.

Introduction

Les consultants, architectes et urbanistes en systmes dinformation, assistants


matrise douvrage, chef de projet informatique, tudiants en informatique de gestion
disposeront dun outil mthodologique bas sur des cas concrets dentreprise. Ils
disposeront dune panoplie doutils leur permettant de raliser rapidement des
projets dcisionnels.
Les SSII soucieuses dapporter des prestations nouvelles leurs clients, les
organismes de formation, les socits de VPC, les hbergeurs dapplications sur
Internet, les banques et assurances, les socits de service, les socits fiduciaires,
les socits industrielles quelle que soit leur taille dcouvriront avec intrt le
potentiel de la business intelligence.
Objectifs atteindre
Lobjectif de cet ouvrage est de fournir aux dirigeants la culture ncessaire la
comprhension des mthodes et outils ncessaires la mise en uvre du tableau
de bord de lentreprise. Il permet galement de comprendre les mcanismes sousjacents qui participent la fabrication de la chane dcisionnelle. Linformatique
dcisionnelle se fonde sur des concepts spcifiques et un vocabulaire appropri
dtaills en annexe.
Il a galement pour objectif daider dfinir les tapes cls dun projet dcisionnel, identifier les processus mtier, modliser les donnes mtier, identifier
les outils qui participent la conception du datawarehouse, comprendre les outils
danalyse et de restitution. Communiquer avec ses partenaires grce un portail
dcisionnel.
Quelles sont les qualits et comptences requises pour tre un bon chef de
projet dcisionnel ? Calculer le retour sur investissement et faire une offre concrte
sont souvent voqus dans la littrature dcisionnelle mais rarement explicits.
Lauteur de cet ouvrage espre participer au mouvement de la dmocratisation du dcisionnel dans les petites et moyennes entreprises. Les sminaires de
formation quil anime sur le sujet montrent bien lintrt croissant que tous les
acteurs de lentreprise portent ce domaine. Lauteur espre qu travers cet
ouvrage, un dialogue constructif stablira entre les deux mondes, parfois loigns, quil rencontre dans ses consultations : les informaticiens et les managers
dentreprise.

1
La business intelligence

1.1 LA BUSINESS INTELLIGENCE


POUR QUI, POUR QUOI ?
Aide la dcision, datawarehouses, entrepts de donnes, ETL, EIS, SIAD, structures multidimensionnelles OLAP, business intelligence, extranets, portails dcisionnels, datamarts les acronymes et termes relatifs la business intelligence sont
particulirement riches. Mais ces termes abondants, parfois abscons, qui reviennent de manire rcurrente dans la bouche des spcialistes, ne permettent pas
doffrir aux acteurs de lentreprise une vision claire sur le sujet.
Dun ct, les discours marketing centrs sur la BI sadressent la population
parfaitement identifie des dirigeants oprationnels des entreprises. Il sagit
doffrir des solutions particulirement innovantes autour du mtier du dirigeant.
Nous verrons dans le chapitre suivant le large ventail des domaines dans lesquels la BI offre des rponses concrtes.
De lautre ct les diteurs de logiciels de BI sadressent aux informaticiens
dans le but bien naturel de raliser des volumes importants de licences. Le discours est dans ce cas trs technique et sattache mettre en avant les performances, la simplification et la richesse des fonctionnalits des produits.
Entre ces deux mondes, il rside un foss dincomprhension. Pourquoi ? Les
dirigeants oprationnels (finance, marketing, commercial, RH) ont un besoin
crucial dinformations concernant le droulement de leur activit. Ils rclament
rgulirement des rapports nouveaux auprs des informaticiens dans le but de satisfaire des besoins danalyse de lactivit immdiate de lentreprise. Dans le

1. La business intelligence

meilleur des cas, un dlai de quelques jours sera ncessaire aux programmeurs
pour dlivrer lesdits rapports. Dans le pire des cas ces dveloppements ne verront
jamais le jour soit de par la complexit apparente de la demande, soit tout
simplement par la non-disponibilit des dveloppeurs, trs chargs par ailleurs.
En ralit, on saperoit que les mtiers de linformatique voluent vers des
tches dadministration de systmes dinformation de plus en plus complexes,
qui ncessitent tous les jours davantage de soins et dattention, sans parler de la
scurit omniprsente. Paradoxalement, linformaticien est de plus en plus au
service de la machine et de moins en moins au service du mtier de lentreprise.
Malgr des russites videntes, le dploiement des ERP (progiciels de gestion
intgre) a ncessit des ressources importantes dans les entreprises qui les ont
mis en place. Des quipes de projet se sont bien souvent puises faire entrer
le mtier de lentreprise dans des standards. Tout naturellement, les entreprises
ont donc standardis leur mtier. Elles cherchent aujourdhui, juste titre,
des facteurs de diffrenciation.
La business intelligence est un systme permettant aux dirigeants danalyser
et dinterprter, laide doutils simples, les donnes complexes de lentreprise
et de son environnement conomique.
Les donnes brutes sont transformes et restitues dans des entrepts structurs,
afin de permettre danalyser et de suivre les indicateurs stratgiques de lentreprise.
Ces outils doivent permettre de dcouvrir et de partager la stratgie tous les
niveaux de lentreprise. Grce ses outils multidimensionnels la BI est particulirement adapte lanalyse immdiate. Elle offre la capacit de suivre au
quotidien les indicateurs mtiers et de les comparer aux objectifs oprationnels
dfinis par la direction.
Bien sr, le discours marketing ambiant tente de dmontrer quil suffit
dacqurir tel ou tel produit dcisionnel pour que la magie opre. Comme on dit
communment, si ctait aussi simple a se saurait . quoi serviraient alors
les SSII, les intgrateurs et les consultants spcialiss en systmes dcisionnels ?
Seraient-ils devenus inutiles parce que les diteurs ont mis en place des assistants
visant simplifier le processus de cration de la chane dcisionnelle ? Rien nest
moins sr.
Nous verrons au fil de cet ouvrage les piges quil est ncessaire de connatre
avant dentreprendre un projet BI. Nous dcouvrirons que la phase la plus dlicate de la chane dcisionnelle ne rside ni dans la conception du cube, ni dans
la restitution. Nous verrons galement quun cadre mthodologique est ncessaire la cration de lentrept de donnes, centre nvralgique des applications
dcisionnelles.

1.2 Objectifs et enjeux du dcisionnel

Toute interrogation mtier, selon quelle est stratgique ou tactique, ncessite


des outils appropris quil faut identifier dans la panoplie offerte par les diteurs
de logiciels. Nous verrons quels processus se mettent en place lors de la prise de
dcision. Nous montrerons comment, grce des outils appropris, tre tantt
larchitecte du projet, tantt le consommateur de linformation. Chaque rle,
trs complmentaire, revt une importance capitale dans la mise en uvre de
la BI en entreprise.

1.2 OBJECTIFS ET ENJEUX DU DCISIONNEL


Lobjectif dun systme dcisionnel est de :
connatre;
mesurer;
prvoir;
agir.
Les moyens pour y parvenir sont :
une information riche, pertinente, dtaille, historise, fiable;
des outils danalyse et de restitution puissants et adapts;
des indicateurs qui favorisent le pilotage et favorisent laction.
Le cycle du projet comprend plusieurs tapes :
Slectionner les axes de progrs.
Slectionner le ou les processus analyser.
Dfinir les objectifs.
Dfinir les indicateurs.
Btir le portail dcisionnel.

1.3 LE PROCESSUS DE DCISION OU LE FACTEUR


HUMAIN DANS LA PRISE DE DCISION
Dans un contexte dinflation des donnes dentreprises, plusieurs technologies
rcentes arrivent point nomm pour rpondre concrtement laugmentation
des besoins danalyse et de prise de dcisions mis par les dirigeants oprationnels.

1. La business intelligence

Parmi ces innovations, il en est une qui offre la plus grande avance en
matire daide la dcision. La technologie OLAP (On Line Analytic Processing)
qui pendant quelques annes a servi de niche technologique certains diteurs
bien connus, vient de faire une avance remarquable du fait de lamlioration
des performances des ordinateurs et de la dcouverte de nouveaux algorithmes.
OLAP reprsente lavance la plus spectaculaire en matire de business intelligence depuis la dcouverte des bases de donnes relationnelles, dont les fondements ont t tablis par Chris Date et Edgar Codd en 1993.
Bien que de nombreux articles aient t publis dcrivant le fonctionnement
des technologies OLAP, trs peu ont mis en avant quand et comment
utiliser ces technologies dans le cadre de laide la dcision.
Dans ce chapitre, nous mettrons en vidence les deux volets de la prise de
dcision : le volet quelque peu mcaniste de la cration dinformation partir
des donnes de base et le volet humain, qui permettra de dcouvrir LA bonne
information.
Divers outils de reporting bass sur les bases de donnes relationnelles existent et sont largement utiliss dans les entreprises. Les tableurs sont galement
des outils dsormais banaliss. Bien que demeurant dconnects des systmes centraux, ils sont devenus indispensables aux financiers et contrleurs de gestion
dans des tches quotidiennes de collecte dinformations et de consolidation.
Mais quel que soit le soin apport la gestion de ces donnes, leur restitution
ne reprsente quune partie de la prise de dcision. Lautre partie, nos yeux la
plus importante, est de savoir comment les dcisionnaires consomment les
informations, les comprennent et agissent enfin.

1.3.1 Comprendre les besoins daide la dcision


Une tude rcente du Forester Research montre que 66 % des utilisateurs de
rapports sont insatisfaits. Les programmeurs qui dveloppent ces rapports expriment galement leurs frustrations en ces termes :
Nous apportons aux utilisateurs ce quils demandent mais ces derniers ne
sont toujours pas satisfaits.
Les utilisateurs ne savent pas ce quils veulent. Ils changent souvent davis.
Nos donnes posent problme mais nous ny pouvons rien.
Nous avons construit lentrept de donnes, mais il ne semble pas que
les utilisateurs sen servent.
Nous avons beaucoup investi dans le stockage des donnes, cependant
chacun semble encore disposer de ses propres chiffres et de sa propre vrit.

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

Ces commentaires suggrent que les technologies actuelles sont inadquates


dans le cadre de laide la dcision. Cependant, ces rflexions nous aident
comprendre la complexit et la nature des attentes des utilisateurs.

1.3.2 Agir, analyser, dcider, agir


Utiliser des donnes dans le but de prendre des dcisions pertinentes reprsente
la part humaine du processus de dcision. Ce processus dbute lors de la mise
disposition des donnes auprs du dcisionnaire jusqu la dcision finale.
Toute action dans lentreprise implique den conserver la trace. Les systmes ERP
(PGI) enregistrent chaque seconde les oprations lmentaires (factures, achats,
commandes, clients). Une action dont la trace est conserve dans des journaux
(log) ressort du domaine transactionnel.
Les dcideurs observent comment vont les choses afin confronter leur stratgie la ralit. Ils cherchent dcouvrir les faits qui expliquent la marche de
lentreprise. Ils laborent une modlisation de causes effets. Ils en dduisent
les dcisions prendre. Le domaine analytique permet de passer de lanalyse
la dcision.

Figure 1.1 Le cycle dcisionnel dans lentreprise

10

1. La business intelligence

La comprhension du mode de consommation des informations et de la faon


dont les acteurs de lentreprise prennent leur dcision est la cl ncessaire la
mise en place de solutions daide la dcision.
Gnralement, le processus de prise de dcision requiert les comptences
dune personne ayant une vision claire des donnes afin den tirer pleinement
du sens, den comprendre les causes, et de prendre les dcisions et les actions qui
simposent. Par ailleurs, on peut identifier trois concepts fondamentaux qui
influent sur la prise de dcision : le rfrentiel mtier, le niveau dabstraction et le
processus dapprentissage.
La mise en place du rfrentiel mtier
Le rfrentiel mtier apporte la signification et la pertinence des donnes. Il transforme des donnes brutes en informations utiles aux dcisionnaires, par lajout
de calculs, de slections complmentaires, de regroupements et de prsentation.
Un fichier rempli de nombres est sans intrt tant quil na pas t transform
en tendances, ratios financiers ou taux de pntration de march.
Le rfrentiel dune organisation reprsente le composant essentiel de sa proprit intellectuelle et de son avantage comptitif. La comprhension et linterprtation sont bases non seulement sur les donnes mais aussi sur la manire
dont les donnes sont transformes en une information porteuse de sens. Par exemple, une tendance la baisse du taux de pntration peut conduire un changement dans la distribution des produits ou de nouvelles campagnes promotionnelles
dans les diffrents canaux de vente.
La manire dont le rfrentiel mtier est gr dans un systme daide la
dcision dtermine sa mise en valeur auprs des dcisionnaires et est dterminant
pour leur productivit. En effet, dans lentreprise, le rfrentiel mtier est-il facilement accessible ? Est-il centralis sur un serveur partag ou bien stock localement dans des tableaux Excel ? Est-il correctement gr et maintenu jour ?
Un puissant rfrentiel mtier largement accessible et facile utiliser offre une
forte valeur ajoute aux dcisionnaires.
Les niveaux dabstraction
Le niveau dabstraction permet aux utilisateurs de rsoudre des problmes dans
un contexte propre au mtier pratiqu. Par exemple, un administrateur de bases
de donnes manipule des objets fort niveau dabstraction que sont les tables,
les colonnes les jointures et les index. Paralllement, dans la mme organisation,
les dirigeant traitent des allocations de ressources, de productivit, de satisfaction
clients, de lignes de produits ou de priodes fiscales. Bien que la matire brute
reprsente par les donnes soit naturellement la mme pour ces deux acteurs,
celles-ci sont manipules et interprtes de faon diffrente.

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

11

Le bon niveau dabstraction de manipulation des donnes est fondamental


pour la prise de dcision. La rflexion des cadres dans le domaine des ventes se
concentrera autour des rgions, des quotas, des commissions et de la productivit
de lquipe. Les cadres financiers vont manipuler des notions telles que commandes, chiffre daffaire, marge et retour sur investissement. Aucun de ces acteurs
ne sattend devoir manipuler des requtes, des colonnes ou des agrgats.
Le processus dapprentissage
Lorsque les donnes sont organises en rfrentiel mtier et prsents au niveau
dabstraction adquat, les dcisionnaires peuvent alors les utiliser et les comprendre. Le processus dapprentissage implique des rflexions itratives de la part du
dcisionnaire. Celles-ci se matrialisent par des requtes successives dont les
rponses engendrent naturellement de nouvelles questions.
De manire similaire, nous pouvons attribuer le succs sans prcdent du
Web par lapplication de ces trois principes : organisation, navigation et visualisation.
Pour trouver une information sur un DVD, nous tapons ces deux mots DVD
NomDuChanteur dans un moteur de recherche. Ce dernier propose plusieurs
sites commerciaux. Nous pouvons facilement comparer, naviguer, approfondir notre
recherche en cliquant sur des hyperliens.
Le second point repose sur le fait que le processus dapprentissage est rarement
linaire. Le Web est particulirement adapt ce mode de fonctionnement. Les
hyperliens nous permettent de passer dun sujet un autre. Les boutons de retour
en arrire du navigateur permettent de revoir toutes les tapes du cheminement.
Cette approche est particulirement efficace lors dune dcouverte non structure.
Enfin, la visualisation enrichie du Web prsente une information dans sa
forme la plus comprhensible. Des images animes, des graphiques pour exprimer
des tendances, des tableaux pour comparer, etc. Tous ces modes de reprsentation, exprims selon une organisation intuitive et flexible, font du Web une des
inventions les plus efficaces qui soit dans le domaine de linformation.

1.3.3 Tableau de bord et business intelligence


Le cockpit
Si vous vous tes dj trouv sur un vol long courrier, vous navez pas pu chapper
ces crans qui vous permettent de suivre en temps rel votre parcours, reproduisant de manire fidle la position de votre avion et du chemin dj parcouru.
De quoi sagit-il ? Lcran qui servira plus tard divertir le voyageur, affiche
chaque instant la position de lavion par rapport aux villes survoles, laissant
une trace du chemin dj ralis. Au fur et mesure de la progression du vol,

12

1. La business intelligence

des vues diffrentes permettent dobserver le chemin parcouru, le chemin qui reste
parcourir et lorientation que prend lavion.
Lorsque nous observons ces images, nous navons pas ide de la masse de donnes quil est ncessaire de collecter dans le but de restituer sur lcran une vue
comprhensible par le voyageur. Et lorsque lcran steint, nous nous trouvons
subitement plong dans linconnu. On ne peut alors que faire des suppositions
sur lidentification de la rgion survole.
Maintenant, le commandant de bord vous invite pntrer dans le cockpit
de lavion afin de vous faire dcouvrir le tableau de bord de pilotage mis sa
disposition. Aprs quelques explications simples des crans daffichage, vous dcouvrez la signification des diffrentes jauges et autres voyants lumineux.
Progressivement, vous vous familiarisez avec les indicateurs tels que position
(latitude, longitude), altitude, vitesse, consommation de krosne, temprature
extrieure, etc. Les cadrans donnent un ensemble dinformations qui situent prcisment laronef dans son environnement gographique en trois dimensions.
Concentr sur son tableau de bord, le copilote actionne un levier qui permet
lavion de corriger imperceptiblement sa trajectoire puis de se stabiliser nouveau.

Figure 1.2 Dans le cockpit : suivre le plan de vol

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

13

Les voyants affichent immdiatement de nouvelles donnes refltant la nouvelle orientation de lavion. La trace est immdiatement perceptible dans la cabine
pour lensemble des passagers.
Quel parallle avec la business intelligence ?
Le plan de vol (dpart Roissy, arrive Los Angeles 11 heures plus tard) reprsente
le plan de vol suivre afin de mener lavion bon port dans le dlai convenu
davance.
En business intelligence, nous parlerons de la stratgie de lentreprise.
La trace que laisse lavion sur lcran matrialise la collecte de donnes de
positionnement et de progression de lavion. Ces donnes sont naturellement stockes dans la bote noire de lappareil. La mmoire du vol est ainsi historise dans
ce dispositif ultra-scuris, pouvant rsister aux chocs les plus violents. Lensemble
des voyageurs visualise en cabine ces informations de positionnement grce
lcran GPS.
En business intelligence, nous parlerons de processus ETL (Extract, Transforming, Loading) qui reprsente le mcanisme dalimentation et de stockage des
donnes de lentreprise dans un entrept centralis (datawarehouse). Lentreprise
structure ses donnes parses, les rend homognes, les stocke et les dlivre.
Les indicateurs de vol fournis au copilote grce aux diffrents cadrans mis
sa disposition forment son espace danalyse, qui vise suivre la progression de
lavion.
En business intelligence, nous disposerons de manire similaire doutils de
visualisation des indicateurs de performance sous forme de reporting, danalyse
multidimensionnelle et de data mining (dcouverte des causes et des effets) synthtis dans un tableau de bord. Il sagit de focaliser les collaborateurs sur ce qui
est important et dattirer leur attention en permanence.
Tour cart de trajectoire est corrig par le pilote.
En business intelligence, nous parlerons dcarts sur objectifs prvisionnels,
doptimisation, de planning, de prvu/ralis.
Toute dcision de correction de trajectoire entrane une action dans le poste
de pilotage.
En business intelligence dentreprise, les carts entre le prvu et le ralis
vont engendrer des actions correctives.
Des indicateurs externes lavion (radar dtectant la prsence dun autre
avion proximit, perturbations atmosphriques prvisibles sur carte mto, fortes turbulences en vue), vont amener le pilote changer de trajectoire

14

1. La business intelligence

Latterrissage est maintenant proche, le pilote sapprte agir sur la trajectoire


et laltitude.
En business intelligence, la direction gnrale sapprtera agir par la mise en
place dactions oprationnelles. Dans lentreprise, cela peut entraner des changements de comportements pour atteindre les objectifs.
Voici synthtis le modle du processus de prise de dcision transpos lentreprise.

Figure 1.3 Les tapes de la prise de dcision dans lentreprise

1.3.4 En quoi la BI est-elle utile lentreprise ?


De la donne brute linformation
Selon lenqute de PricewaterhouseCoopers ralise en 2001, les socits qui
utilisent leurs donnes en tant que ressource stratgique et investissent dans leur
qualit, en tirent dj un avantage en terme de rputation et de profitabilit .
Selon une vision traditionnelle, les donnes sont le carburant qui pilote les
processus, tant entendu que lentreprise utilise lordinateur pour laider raliser
son business. La connaissance stratgique est dduite de la vision prospective, ellemme base sur les donnes de lentreprise.

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

15

Interrogeons-nous un instant : Une chane de supermarch a-t-elle pour objet


de vendre de la nourriture ou bien son activit ne consiste-t-elle pas exploiter
la connaissance des prfrences du client, de son positionnement gographique,
de la logistique et des cots dapprovisionnement ? Le cycle de vie des produits,
des informations sur la concurrence, le niveau dinventaire, le prix propos et la
disposition du produit en rayon ne doivent-ils pas tre considrs comme autant
dinformations pour accrotre la marge ralise sur chaque article vendu ?
lre de lInformation, la rponse que vous ferez ces questions dterminera
la viabilit long terme de votre entreprise.
Trs bien me direz-vous ! Mais comment transformer les donnes en ressource
stratgique ? Une partie de la rponse rside dans lapplication adquate des nouvelles technologies sur vos donnes. Mais la plus grande part de la rponse consiste
comprendre et de manire subsquente construire son business autour de la
valeur de linformation. On le voit bien, cet exercice dabstraction est particulirement dlicat, aussi nous observerons dans ce chapitre la diffrence fondamentale qui rside entre une approche traditionnelle base sur une technologie
transactionnelle des fins de reporting et une vision moderne de lutilisation des
donnes des fins danalyse prospective.
Nous introduirons la notion du dirigeant sachant . En effet, celui-ci base
son observation sur les faits, cest--dire les donnes stockes dans lentreprise.
Nous aborderons les aspects de linformation qui rvlent de la valeur et quels
sont les processus mettre en place afin dextraire cette valeur des donnes.
Nous prsenterons galement quelques applications de business intelligence afin
dillustrer la mthodologie propose dans cet ouvrage.

Les atouts de linformation et lvaluation des donnes


Les donnes peuvent-elles tre considres comme un actif ?
Bien que personne nait jamais observ dans un bilan de socit la moindre
ligne concernant les donnes de lentreprise, ni du ct de lactif, ni du passif,
il convient de considrer cependant que certains cots associs la gestion des
donnes le cot de stockage, la maintenance, la surface utilise, lquipe, etc.
apparaissent bien au compte dexploitation comme des charges relles.
En contrepartie, les donnes doivent tre considres comme de lactif, parce
que celles-ci sont employes gnrer des bnfices, sont contrles par lorganisation, et sont le rsultat de transactions lies lactivit de lentreprise (soit parce
quelles sont gnres en interne, soit parce quelles ont t acquises lextrieur).
Traiter des donnes comme un actif reprsente un intrt pour lentreprise
car cela peut tre de nature justifier un investissement en business intelligence.

16

1. La business intelligence

Lentreprise sera en mesure de montrer comment la valeur dactif des donnes


sest enrichie.
Cela implique naturellement de pouvoir mesurer la valeur des donnes, et cest
bien l que nous bloquons dans notre rflexion.
Il existe cependant des cas concrets o nous pouvons attribuer prcisment
une valeur linformation. Prenons par exemple le cas dune demande au service
des renseignements tlphoniques dont le cot est, par exemple, de 1 euro alors
que linformation demande peut tre obtenue gratuitement grce un annuaire
tlphonique sur internet. Le cot de la transaction accept par le client est
cependant justifi par un service immdiat. Quel que soit lendroit o il se
trouve, et le moment de son choix, le demandeur obtient linformation capitale.
Dune manire gnrale, la valeur de linformation dpend dun certain nombre de facteurs que nous voquerons. Il est intressant de constater que plus nous
pouvons prciser ces facteurs et plus nous sommes en mesure dlaborer le modle
dvaluation de linformation.

La valeur temps des donnes


Afin dillustrer la contrepartie montaire de la valeur temps , prenons un exemple simple. Nous sommes le 1er mars et je rencontre un gourou de la finance
qui minforme que suite un accord entre la socit Alcatel et un Consortium
chinois, laction de lquipementier clturera demain 2 mars, en hausse probable
de 5 euros. Je mempresse de passer mes ordres dachat auprs de mon broker en
ligne. Lexcution de lordre est immdiate. Le 2 mars peu avant la clture, je
revends mes actions et prends mon bnfice. Si au lieu de recevoir cette information le 1er jen prends connaissance le 3 mars, inutile de dire que laction
mener serait tout autre.
Cet exemple montre bien que la valeur de linformation se dgrade dans le
temps. Parce que les donnes stockes reprsentent un instantan de la situation,
il parat vident quen labsence de toute ractualisation, et parce que le monde
change tout instant, notre photographie tend devenir obsolte trs rapidement.

Linformation en tant que ressource partageable


Contrairement toute autre ressource matrielle utilise dans le processus de
fabrication, les donnes sont des ressources qui non seulement ne saltrent pas
mais dont la valeur informationnelle saccrot par lusage dun plus grand nombre
dutilisateurs. La connaissance dun tel processus sillustre par exemple dans le
cas dun vendeur, alert du moment le plus opportun pour contacter un prospect.
Cette connaissance peut rationaliser le travail des vendeurs. Et mme si plusieurs
vendeurs partagent la mme connaissance avec dautres membres de lquipe,

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

17

cette connaissance transmise aux autres ne subit aucune dgradation. Cela veut
dire que grce son partage, la valeur de linformation est proportionnelle au
nombre de personnes qui la possdent.
Dans le contexte de la business intelligence, cela se traduit par le stockage
des donnes dans le datawarehouse. Cet entrept centralis offre de nombreux
accs aux utilisateurs qui observent tous la mme information. Et puisquelle est
utilise par des observateurs distincts, sa valeur est multiplie par le nombre de
personnes qui lutilisent.
Bernard Liautaud, prsident et PDG de Business Objects a crit dans un
ouvrage remarquable, que la valeur dune information augmente avec le carr
du nombre dutilisateurs pouvant accder linformation, multipli par le nombre de services dans lesquels ces utilisateurs travaillent . (e-business intelligence,
ditions Maxima).
Valeur de linformation =
(Nombre dutilisateurs) (Nombre de dpartements de lentreprise)
Cette formule est emprunte une rflexion de Bob Metcalfe, linventeur de
lInternet, qui avait formul la loi qui porte son nom comme suit : la valeur
dun rseau varie en fonction du carr du nombre dunits interconnectes .
Il ne fait pas de doute que plus le nombre de personnes disposant de la mme
information augmente, mieux elles communiquent et plus elles prennent des
dcisions collectives et pertinentes.
La transversalit de linformation peut sillustrer de la manire suivante : si
je fournis une quipe commerciale les outils pour analyser ses ventes par produit, par clients, par mois, par vendeur, cela constitue une arme qui sera utilise
dans la dmarche commerciale face aux clients. Cette mme information transmise au contrleur de gestion, qui ajoutera lindicateur du plan prvisionnel, lui
fournira immdiatement une vue complmentaire utile au pilotage.

Laccroissement de la valeur proportionnellement son usage


Pour la plupart des actifs immobiliss, plus leur usage est frquent, plus leur
valeur diminue. Par exemple, chaque kilomtre parcouru par une automobile
diminue sa valeur. A contrario, la valeur des donnes ne dcrot pas lors de leur
usage, car elles ne subissent aucune dgradation lorsquelles sont utilises.
Si dans lorganisation, chacun sait comment accder linformation et comment lexploiter, la valeur de cette information crot rapidement. Si les donnes
stockes ne sont jamais utilises, elles napportent aucune valeur ajoute et deviennent rapidement une charge.

18

1. La business intelligence

Laccroissement de la valeur au travers de la qualit


Si lon reprend lexemple de notre gourou qui, au lieu de nous prdire une hausse
de laction, envisage au contraire une baisse probable du cours Alcatel de 5 euros,
la probabilit de raliser une perte plutt quun bnfice devient forte.
Ceci met en vidence la valeur lie lexactitude de linformation et la ncessit dobtenir une information de haute qualit mais aussi de mettre en place les
moyens de la mesurer. Ainsi, grce linterprtation de cette mesure de qualit,
il sera plus ais de dterminer le risque associ la prise de dcision.

Laccroissement de la valeur grce la fusion


La combinaison des lments de la connaissance fournit un levier puissant au
fur et mesure de laccroissement de la valeur. Si je dispose dinformations sur
mes canaux de vente, je possde une certaine valeur. Si je possde une information sur le processus dapprovisionnement, je dispose galement dune valeur
informationnelle. Mais si je combine ces deux informations entre elles, jobtiens
une connaissance prcise sur le mouvement des produits depuis le fournisseur
jusquau consommateur.
Il est ais de comprendre que la valeur de linformation saccrot lorsquelle
peut tre combine avec dautres sources dinformation. Le processus de BI concerne la capacit collecter, agrger, et plus important encore de rapprocher
plusieurs sources entre elles. En dautres termes, si nous pouvons rapprocher deux
informations, les lier entre elles, et en dduire quelque chose de nouveau qui
naurait pu tre dcouvert autrement, nous pouvons exploiter cette dcouverte
pour en tirer un avantage concurrentiel.

La valeur face au volume


Contrairement au comportement de certains actifs, nous nobtenons pas ncessairement plus de valeur par laccroissement dinformation. La quantit phnomnale dinformation produite chaque anne est stupfiante. La complexit de
lintgration des donnes crot proportionnellement au nombre de sources de
donnes.
Toute la difficult rside dans le fait de mesurer lapport dune source nouvelle
de donnes eu gard la complexit tre intgre dans le rfrentiel existant.
Il faut comprendre que chaque ajout dune nouvelle source de donnes induit
un mode daccs nouveau (connecteur). Tout nouveau connecteur implique un
soin particulier pour la mise jour des donnes dans le rfrentiel centralisateur.
Il faut galement considrer une diffrence importante en matire de qualit
entre lacquisition de donnes provenant de sources disparates de celles qui sont
puises la mme source. Par exemple, conserver une grande quantit de don-

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

19

nes sur les ventes ralises depuis plusieurs annes peut apporter plus de valeur
sil sagit danalyser des tendances.

La mesure de la valeur de linformation


Le cot historique : cette mthode consiste valuer la valeur base sur le cot
dacquisition de linformation ou le cot de remplacement.
La valeur march : cette mthode value la valeur en fonction de ce quun oprateur est susceptible de payer pour lacqurir.
La valeur utile : cette mthode consiste estimer la valeur en fonction du bnfice
attendu.
Les applications de la business intelligence

Lanalyse Client
Les termes CRM (Customer Relationship Management) et en franais GRC (gestion de la relation clients) ont t utiliss abondamment. Ils sont devenus en
quelque sorte des mots tarte la crme souvent vids de leur sens initial par
des vendeurs plus prompts vendre des licences en grand nombre plutt que
dcouter le besoin du client et dapporter une rponse adapte.
Pour amliorer la relation client, point nest besoin de monter une usine
gaz . Le challenge consiste mieux comprendre le client afin de lui apporter le
produit ou le service quil dsire. On le comprend bien, il sagit de satisfaire un
client grce son profil parfaitement identifi.
Les rubriques numres ci-dessous ont pour but daugmenter la visibilit des
services ventes, marketing et dune manire gnrale tout dpartement qui interagit avec le client final.
Profil Client
La plus grande partie des actions marketing consiste ratisser large et esprer
capturer le plus grand nombre de clients possibles. Aprs les tudes trs dtailles
de Martha Rodgers consacres au marketing one to one , les entreprises prennent de plus en plus conscience que les prospects sont diffrents les uns des autres
et que leur approche doit tre adapte en fonction du profil du prospect. Des
informations comportementales, prfrentielles, gographiques et sociologiques
concernant le prospect permettent dadapter individuellement le discours.
Le ciblage marketing
La connaissance des ressemblances et dissemblances permet de constituer des
ensembles de prospects ayant des comportements similaires afin dlaborer une
communication adquate.

20

1. La business intelligence

La personnalisation
Lanalyse fine du caddie, que ce soit au supermarch ou sur un site marchand en
ligne, permet en temps rel de connatre les produits achets en magasin ou sur
le site et den dduire immdiatement des analyses fines et deffectuer les actions
qui simposent. cet gard, le navigateur web est un formidable outil de dcouverte de linternaute, tant les traces numriques laisses lors de ses recherches et
hsitations sont rvlatrices du comportement de ce dernier. Le serveur web a
la capacit dinteragir avec linternaute afin de laider dans sa recherche ou mme
de suggrer des achats complmentaires.
Les cookies permettent lidentification dun individu sur un site. Lors dun
accs ultrieur il devient possible de dialoguer intelligemment avec linternaute
et dagir en tant que conseil auprs de celui-ci.
Le filtrage collaboratif
Si vous tes dj all sur des sites de ventes en ligne tels quAmazon.com ou
Fnac.com, cette notion de filtrage collaboratif ne vous a sans doute pas chapp.
Lors du choix dun CD ou dun livre, le site vous suggre des achats alternatifs
ou complmentaires bass sur les prfrences dautres clients. Linformation affiche sur la page web est trs suggestive : Les gens qui ont achet le produit X
ont galement achet le produit Y. Les processus de filtrage collaboratif valuent
la similitude des prfrences entre des groupes de consommateurs. Ces recommandations crent en gnral des opportunits de cross-sell (ventes croises) et de
up-sell (ventes additionnelles).
La satisfaction du client
Un des avantages induits par le profilage est de connatre la satisfaction dun
client par rapport des produits ou services. Un rapide sondage permet de collecter le niveau de satisfaction dun client, de comparer par rapport lensemble
des clients. Lhistorisation des donnes permet de connatre la tendance de la
satisfaction gnrale de la cible et naturellement de ragir avant quil ne soit
trop tard.
La dure de vie dun client
Comment les entreprises dterminent quels sont leurs meilleurs clients ? Quand
on connat le cot induit par la recherche et lacquisition dun nouveau client,
la dure de vie dun client devient naturellement une mesure de profitabilit.
Lanalyse Client permet de mettre en place des indicateurs afin de mesurer la
dure de vie dun client.
La fidlit du client
On a coutume de dire que les meilleurs nouveaux clients dune entreprise sont
les clients actuels. Cela veut dire que les plus belles opportunits de raliser de

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

21

nouvelles ventes se font auprs des clients de lentreprise qui sont heureux de
travailler avec vous et satisfaits de vos produits et services.
Lanalyse des clients en portefeuille est une aide efficace.

Lanalyse de la productivit du capital humain


Lutilisation et loptimisation du centre dappels
Si vous avez dj fait lexprience des longues minutes dattente passes au tlphone avant dobtenir le service souhait et lirritation naturelle qui en dcoule,
vous comprendrez sans difficult la valeur qui rsulte de lanalyse du temps
dattente du client au sein de votre entreprise. Lorsquon sait par ailleurs que les
appels entrants proviennent en grande partie de clients non satisfaits, la dure
dattente aura un effet dplorable sur la qualit du dialogue qui suivra.
La rentabilit effective
Cette notion regroupe la performance, le cot du travail et le rendement de la
production; autant de facteurs qui montrent comment les membres du personnel
travaillent. Cette information peut tre intgre dans le rfrentiel et apporter
une valeur supplmentaire lanalyse globale.

Lanalyse de la productivit
Ce domaine danalyse trs rpandu gnre un grand nombre dindicateurs et
danalyses.
Lanalyse des produits dfectueux
Alors que les entreprises se battent quotidiennement afin damliorer la qualit
des produits quelles fabriquent, des facteurs affectent le nombre de produits
dfectueux, dont les causes sont les matires premires utilises ou les personnels
qui les fabriquent. Il est ais de suivre ces facteurs grce aux indicateurs de productivit.
Le suivi du planning et loptimisation des ressources
La comprhension de lutilisation des ressources qui composent lactif dune
usine (machines, personnel, rendements attendus, matires premires, entrepts,
production en flux tendus, etc.) peut tre grandement facilite par lusage de la
business intelligence.
Le reporting financier
Les contraintes svres lies lindustrie obligent les entreprises et maintenant
les administrations (LOLF, loi organique relative aux lois de finances promulgue le 1er aot 2001) fournir de nombreux rapports financiers afin de prsenter
leurs rsultats. Ces contraintes se sont encore alourdies suite aux scandales financiers qui ont dfray rcemment la chronique. Indpendamment de leur carac-

22

1. La business intelligence

tre obligatoire, les analyses qui en rsultent sont un excellent moyen de prendre
le pouls de lentreprise et de reprer des secteurs ncessitant une surveillance
particulire.
Dans cet esprit, le Congrs amricain a fait adopter en juillet 2002 la loi
Sarbane-Oxley contraignant ainsi les entreprises cotes communiquer rapidement leurs rsultats financiers.
Larticle 404 de la loi vise renforcer la fiabilit de linformation financire
dlivre et rend obligatoire lutilisation dun cadre danalyse reconnu en matire
de contrle interne et cite en substance le rfrentiel COSO (Committee of Sponsoring Organizations, association amricaine ayant pour objectif dtablir des rgles
de contrle financier interne et damliorer la qualit des reporting financiers).
La gestion du risque
Cest la capacit trouver des solutions pour minimiser les consquences des
vnements associs une situation.
La prcision de lobservation dans le suivi de lactivit et de la productivit
offre aux gestionnaires la capacit de prendre de meilleures dcisions, par exemple sur lallocation de ressources dans le but de rduire le risque de lorganisation.
De plus lanalyse du risque peut apporter des rponses dans le cadre de la ngociation de contrats avec les fournisseurs et les partenaires en gnral.
La mise en place du nouveau rglement Ble 2 vise amliorer la qualit du
systme bancaire grce la transparence dans la gestion des risques oprationnels.
Le juste temps
Le concept de production en juste temps doit aboutir une diminution des
risques lis la volatilit des prix des produits. Il est fortement recommand de
pouvoir corrler les informations reues au travers du canal de ventes afin de
ragir le plus rapidement en termes dapprovisionnement et de production.

Lanalyse des canaux de vente


Le marketing
La capacit de rgler finement un programme de marketing ainsi que la mesure
de lefficacit dudit programme, dcoulent en partie de lanalyse du canal de
ventes. Le processus itratif classique consiste identifier des profils de groupes
de clients et de rgler sa stratgie sur ces observations. Lefficacit de la stratgie
sera fortement dpendante des donnes recueillies par le canal de vente. Les
rsultats seront naturellement compars avec les objectifs attendus. La convergence ou la divergence des rsultats par rapport aux objectifs prcisera de
manire itrative de nouvelles stratgies.

1.3 Le processus de dcision ou le facteur humain dans la prise de dcision

23

Lanalyse de la performance des ventes


Les rsultats de lquipe de vente permettent didentifier des variables qui agissent sur le cycle des ventes, tels que les vendeurs, les rgions, le type dindustrie,
la qualit des contacts, la rcurrence et la frquence des contacts.

Lanalyse de la chane dapprovisionnement


Lanalyse de la chane dapprovisionnement permet de caractriser les fournisseurs afin de mieux les comparer.
La gestion des vendeurs des fournisseurs
Un grand nombre dorganisations sont dans lincapacit didentifier prcisment
qui sont les vendeurs qui leur fournissent biens et services. Lanalyse de la chane
dapprovisionnement permet aux gestionnaires de tracer la performance et la
fiabilit des fournisseurs, dvaluer et de classer la qualit des produits fournis et
ainsi doptimiser la relation avec le fournisseur en ce qui concerne les dpenses,
les dlais de livraison et les risques.
Lexpdition
Il existe diffrentes mthodes pour livrer des marchandises auprs des clients,
chacune gnrant des cots diffrents. Par exemple, il sera plus coteux de livrer
des produits par avion plutt que par transport routier, mais les produits arriveront destination plus rapidement. Ce dlai plus court peut tre exploit pour
rpondre une demande dont il faut mesurer la justification.

Lanalyse du comportement
Il est utile de reprer des modles de comportement qui sont le prsage dvnements significatifs. Ce type danalyse fait un usage abondant des donnes afin
de reprer des modles susceptibles de gnrer tel ou tel vnement. Le but de
lanalyse consistera donc reprer la mise en place de tels modles dans le but
de prdire lapparition des phnomnes attendus. Ces tudes sont fortement utilises en analyse technique boursire. Lanalyse dune action sur une dure significative permet de mettre en vidence des modles susceptibles de prdire des
changements de tendance. Lanalyse chartiste est base sur ces phnomnes.
Les tendances dachats
Bien quil soit possible de connatre avec prcision le cycle de vie des produits,
il existe des tendances qui chappent ce schma. Les cas les plus parlants sont
les produits effet de mode. Lapproche des ftes de Nol rend parfois difficile
toute prvision, faisant flamber tel article de jouet ou seffondrer tel autre produit. Dans le domaine de la mode, il est frquent dobserver une corrlation entre
la tenue vestimentaire dune star invite une mission grand public et le dcollage soudain des ventes du mme article en magasins.

24

1. La business intelligence

Lactivit du Web
Nous lavons dj signal prcdemment, lanalyse du comportement dachat sur
un site de commerce lectronique est relativement aise. Elle donne de surcrot
des indications dachat et de tendance en temps rel. Cette dtection des modles de comportement dachat peut tre lorigine dun modelage du site afin de
mieux prendre en compte les attentes des internautes.
La dtection des fraudes
Les comportements abusifs ou frauduleux sont frquemment modlisables. Par
exemple dans le domaine de la sant, il est ais de constater que certains praticiens ont tendance prescrire des mdicaments onreux ou en surnombre. Une
fois ces comportements modliss, zoomer sur les auteurs de tels actes devient
un jeu denfant.
Lattrition du client
Un problme rcurrent pour un grand nombre dorganisations est lattrition du
client ou la capacit de ce dernier quitter son fournisseur habituel. Dans les
industries caractre comptitif, il est bien plus profitable de convaincre un
client de rester fidle un fournisseur avant quil nait pris la dcision de le
quitter plutt quaprs. On constate cela frquemment dans la lutte effrne que
se livrent les oprateurs tlphoniques pour conqurir de nouveaux clients. Les
cots de sduction de ces nouveaux clients sont proprement exorbitants. Le reprage des clients susceptibles de quitter lentreprise par une observation fine des
modles de comportements (historiques des appels et des plaintes) permettrait
de proposer des offres personnalises susceptibles de retarder le dpart voire
mme de lviter.

Le tableau de bord de lintelligence


Un indicateur cl de performance (KPI, Key Performance Indicator) est une mesure
objective dun aspect de lactivit qui est critique pour le succs de lentreprise.
De tels indicateurs sont les composants du tableau de bord reprsentatif de lactivit de lentreprise. Il synthtise les diffrentes activits et mesures de cette dernire telles que la satisfaction du client, la productivit, la performance du canal
dapprovisionnement et la profitabilit. Il synthtise galement la qualit des
hommes et des femmes de lentreprise, la qualit des outils qui leur sont mis
disposition.
Le tableau de bord de lintelligence dentreprise reflte les rsultats des analyses sous forme dindicateurs, dans une reprsentation synthtique et comprhensible. Des alerteurs visuels, de diffrentes couleurs, attirent le regard pour une
comprhension plus rapide. Ce tableau de bord dynamique permet en outre de
zoomer sur tel ou tel indicateur et dapprofondir lanalyse jusqu remonter la
cause premire des phnomnes.

1.4 Les modles daccs linformation

25

Voici quelques-uns de ces indicateurs :


graphe des ventes rgionales par ville;
statistiques du personnel;
rapport dapprovisionnement par fournisseur;
mesure de la satisfaction client;
mesure de la productivit de lusine, dun dpartement, dun atelier, etc.;
moyenne de la profitabilit client.

La valeur ajoute de la business intelligence


Au cours de nos ralisations, et au vu des avantages instantans que nos clients
ont obtenus, nous avons acquis la ferme conviction que la business intelligence
permet dinsuffler un niveau de connaissance jusqualors ingal dans lentreprise. La qualit du dialogue des dirigeants par le partage de la connaissance
objective sen trouve amliore. La connaissance transversale, par la suppression
des cloisonnements dpartementaux dans lentreprise, sont autant de facteurs
gnrateurs dobservations nouvelles.

1.4 LES MODLES DACCS LINFORMATION


Bernard Liautaud, dans louvrage dj mentionn, fait une analyse sans complaisance de la situation des trois modles qui gouvernent laccs linformation
dans lentreprise. Il cite :
La dictature de linformation, o seuls quelques initis ont accs aux donnes.
Lanarchie de linformation, o chacun recre son propre systme dinformation
provoquant un vritable chaos de donnes.
La dmocratie de linformation, o linformation bien gre circule librement.

1.4.1 La dictature de linformation


Le premier cas met en vidence une attitude dictatoriale vis--vis du partage et
de la diffusion de linformation dans lentreprise. Dans les annes quatre-vingt,
les donnes taient stockes sur des serveurs centraux hautement protgs. La
diffusion de linformation se faisait au travers de listings volumineux, dupliqus,
et regorgeant souvent de donnes inexploitables. Les analyses taient confies
des quipes dexperts qui grce des logiciels spcifiques, parvenaient extraire
des analyses quils diffusaient ensuite auprs des personnels concerns. Ctait le
rgne des infocentres dots parfois de tableaux de bord centraliss appels EIS
(Executive Information System).

26

1. La business intelligence

1.4.2 Lanarchie de linformation


Dans les annes quatre-vingt-dix, grce la diffusion massive de la micro-informatique, silos de donnes et applicatifs personnels vont progressivement se mettre en place, faisant apparatre un nouveau comportement anarchique. En effet,
pour se librer du carcan impos par les structures centralises, les directeurs des
dpartements oprationnels vont rapidement comprendre que les outils bureautiques peuvent rpondre de nombreux besoins rests jusque-l sans rponse.
Les managers vont se doter massivement doutils tels quExcel et Access dans le
but de rpondre quasi instantanment leur demande de tableaux de bord et de
reporting. Cest le dbut de la multiplication des organismes de formation en
bureautique. Les personnels oprationnels rapidement forms vont sapproprier
des donnes qui jusque-l leur taient inaccessibles.
De la gnralisation des bases de donnes et tableurs va natre un autre
phnomne : la multiplication des silos de donnes. De nouvelles plates-formes
matrielles et logicielles htrognes fleurissent alors dans les entreprises. La
communication entre ces matriels parfois incompatibles rend difficile la centralisation des donnes. Chaque dpartement tend garder jalousement les informations qui lui sont propres, rendant difficile une consolidation de lensemble
des donnes stratgiques et oprationnelles de lentreprise. Lincohrence des
informations se manifeste lors de runions regroupant plusieurs dpartements o
les managers finissent par sinterroger sur la validit des tableaux dindicateurs
souvent monts la hte peu de temps avant la runion.
On comprend aisment que la diversit des applicatifs entrane une complexit croissante des structures de donnes. De plus, ces donnes sont stockes
dans des fichiers de types diffrents tels que tableur, base de donnes, ERP, comptabilit, GPAO, CRM, ventes, etc.
Les approches traditionnelles ont trs vite montr leurs limites. Le dveloppement de lInternet et la mondialisation ont ouvert les frontires de lentreprise
lensemble de ses partenaires. Le partage de linformation stratgique et la capacit deffectuer tous types danalyse sont devenus une demande pressante des
acteurs de lentreprise.
Dans ce contexte anarchique, linformatique dcisionnelle va donc rapidement simposer.

1.4.3 La dmocratie de linformation


De par sa dmarche structurante, la business intelligence offre un nouveau paradigme :
Partager le mtier de lentreprise et la transparence de linformation tous
les chelons de la hirarchie.

1.4 Les modles daccs linformation

27

Disposer doutils danalyse conviviaux et accessibles en tous lieux (y compris sur Internet) sans laide dun spcialiste.
Rduire les cots de mise disposition des informations stratgiques de
lentreprise.
Librer les ressources humaines des contraintes fortes des systmes informatiques au profit du mtier de lentreprise.
Scuriser linformation selon le profil des utilisateurs.
Assurer la qualit et la pertinence de linformation.
Augmenter la ractivit des personnels et la souplesse de lentreprise grce
la connaissance.
Permettre de dcouvrir des informations enfouies dans les donnes, que
ltre humain ne pourrait extraire seul.
Faciliter la prise de dcision grce la cohrence des donnes.
Partager la vrit de linformation.
Accder sans dlai linformation.

2
Lapproche
mthodologique

Lorsquun projet dcisionnel est dcid dans lentreprise plusieurs composantes


vont interagir :
La composante humaine est le moteur du projet et il est important de disposer dun sponsor de poids dans lentreprise (la direction gnrale dans
une PME ou une direction fonctionnelle dans un grand compte).
La composante technique est larbre de transmission qui garantira aux
rouages un fonctionnement harmonieux.
La composante financire rsulte des deux composantes prcdentes. Tout
projet BI ncessite une demande dautorisation dinvestissement (DAI).
Cet engagement de dpense fait suite une estimation fine des lments
conomiques du projet (nombre de jours/homme dtude, de dveloppement, dintgration, dexploitation, cots des licences, cots des platesformes matrielles, etc.).
En gnral il faut assortir cette dmarche dune analyse de la valeur permettant de calculer le retour sur investissement (ROI). Cette tude est prsente en
dtail dans le chapitre 13. Ds maintenant nous pouvons mettre en avant des
avantages tels que :
laugmentation de la productivit grce une information disponible plus
rapidement;

30

2. Lapproche mthodologique

une information plus fiable;


un gain de temps mesurable pour rassembler les informations utiles;
un travail plus facile pour les collaborateurs itinrants;
une diffusion automatise et conomique des informations oprationnelles.
Autant que faire se peut, on cherchera identifier les facteurs de diffrentiation
par rapport aux concurrents et mettre en place des indicateurs permettant de
mesurer les gains rels.

2.1 LES TAPES DUN PROJET INFORMATIQUE


2.1.1 Le cycle en V
Les projets informatiques traditionnels avaient coutume de prsenter un enchanement linaire des sept tapes. Les voici rsumes :
Expression des besoins et faisabilit.
Analyse et spcifications.
Conception.
Programmation.
Tests.
Intgration.
Recette et mise en production.
Lorsque lon constate un problme technique ou fonctionnel dans une tape
de la partie montante du cycle dit en V, le retour ne seffectue pas ltape
prcdente mais au niveau de ltape conceptuelle correspondante (identifie
par les flches horizontales de la figure 2.1).

2.1.2 La mthode agile


Lquipe
La mthode du cycle en V a pour but de prsenter les processus et les outils mais
ne fait pas suffisamment apparatre les interactions entre les acteurs du projet.
La composante humaine est primordiale pour la russite dun projet BI. Il est de
loin prfrable quune quipe soit soude et anime par la volont partage de
russir plutt que compose dindividualits brillantes ayant peu le sens de la
communication.

2.1 Les tapes dun projet informatique

Expression des
besoins
Et faisabilit

31

Recette et Mise
en production

Analyse et
spcifications

Intgration

Conception

Tests

Dveloppements
Et
programmation

Figure 2.1 Les sept tapes dun projet informatique

Priorit lapplication
Il est vital que lapplication fonctionne selon les spcifications demandes. Il ne
sert rien de documenter lexcs des procdures techniques. On le sait, les
programmes ont tendance tre modifis rgulirement mais pas la documentation associe rendant cette dernire suspecte. Il est prfrable de commenter
abondamment les programmes et de mettre jour les lignes de commentaires
lors de lapport de modifications. Il est infiniment plus utile dobtenir en ligne
un commentaire sur lorigine dune information (clic droit ou aide) plutt que
den chercher le sens dans un cahier gnralement introuvable au moment
opportun. La documentation fonctionnelle doit tre accessible en ligne.
Il est galement important de dfinir un binme technique (deux personnes
ayant une bonne comprhension des processus informatiques, une forte complmentarit et pouvant assurer un dpannage en cas dabsence de lautre).
La collaboration avec lutilisateur
Le client ou utilisateur final doit tre impliqu chaque tape du dveloppement. Le primtre du projet doit tre dfini avec soin lors du contrat initial
(cahier des charges). Mais le client doit pouvoir intervenir trs tt et collaborer
avec lquipe ralisatrice afin dapporter un feed-back continu. Il sagit dviter
leffet tunnel trop souvent observ dans les projets denvergure. Le client cherchant se rassurer doit pouvoir se projeter dans son application future aussi bien

32

2. Lapproche mthodologique

sur le fond, en termes de contenu, que sur la forme (ergonomie de loutil). La


communication lors dune conversation en face face est le meilleur vecteur de
comprhension.
Lacceptation du changement
Il nest jamais agrable au cours du dveloppement de revenir sur des spcifications ou des procdures codes. Cependant, afin dviter la frustration du client,
il est impratif daccepter des modificatifs mineurs. La planification du projet
doit rester flexible afin den tenir compte. Le choix de loutil de dveloppement
est cet gard trs important.

2.1.3 Ltude de faisabilit


Lorsquun projet dcisionnel nest pas totalement formalis, il peut tre judicieux
de mettre en uvre une tude de faisabilit. Cette dmarche a pour but de rassurer les deux parties (fournisseur et client) en apportant au fournisseur une connaissance suffisante sur le mtier du client et au client une bonne perception sur la
capacit dcoute et de comprhension du prestataire. Cette tude de faisabilit
a pour objectifs de permettre, dans un dlai trs court (5 10 jours) :
de formaliser les attentes du client;
de les matrialiser au travers dun prototype personnalis laide de donnes relles;
de cerner les capacits de la solution;
dacqurir les connaissances de base;
dtre une base de travail et de discussion avec les utilisateurs.
Cette tude permet deffectuer une sorte de carottage dans les strates fonctionnelles (dcouverte dun domaine parmi finances, achats, commercial, communication, RH) et techniques (dcouverte des systmes utiliss : systme
dinformation, SGBD, systme dexploitation, etc.).
Les livrables sont :
un document de synthse;
un prototype de lapplication cible;
une licence dure limite du produit utilis.
La dmarche projet prsente plus haut est naturellement applique lors de
cette tude de faisabilit.
lissue de cette tude, le prestataire dispose dlments concrets lui permettant de chiffrer avec plus de prcision le dveloppement et le dploiement de la
solution globale.

2.1 Les tapes dun projet informatique

33

Aprs un temps de rflexion, le client dispose de la facult de stopper son


exprience ou au contraire de mettre en uvre tout ou partie du projet.
Le chapitre 13 prsente les composants de ltude de faisabilit.

2.1.4 Le cycle de vie du projet BI selon Ralph Kimball


Ralph Kimball, qui est considr par beaucoup comme lexpert mondial de la
business intelligence, a dfini trs prcisment les modules mthodologiques participant au cycle de vie dun projet BI :
Lanalyse des besoins.
Les donnes :
Modlisation dimensionnelle des donnes.
Modle physique des donnes.
Dfinition des tapes de chargement du datawarehouse.
La technologie :
Dfinir larchitecture technique.
Choix et installation des outils.
Lapplication :
Spcification de lapplication.
Dveloppement de lapplication utilisateur.
Le dploiement.
La maintenance.
Lvolution.
En voici un schma synthtique (figure 2.2).

Dfinir
larchitecture
technique

Slection et
installation
des outils

Croissance
et
volution

Technologie

Planification
du projet

Analyse
des
besoins
mtiers

Modlisation
dimensionnelle
des donnes

Modlisation
physique
des donnes

tapes du
chargement du
datawarhouse

Dploiement

Donnes
Maintenance
Spcification
de
lapplication

Dveloppement
de lapplication

Application

Figure 2.2 Gestion du cycle de vie dimensionnel (selon Ralph Kimball)

34

2. Lapproche mthodologique

2.2 POURQUOI UN TABLEAU DE BORD ?


Lorsque lon aborde un projet BI, il faut rsister la tentation de mettre en avant
loutil plutt que la dmarche qui consiste dcouvrir le mtier du client et la
nature de ses besoins. Pourquoi me mettrais-je au volant de mon vhicule si je
ne sais o aller ? Nous avons vu au paragraphe prcdent que le projet BI consistait
bien apprhender le mtier du client et de dlimiter le primtre fonctionnel
avant de procder toute tape de dveloppement. Les diteurs de logiciels ont
une tendance naturelle mettre en avant la palette des fonctionnalits de leur
produit. Ils offrent rarement une rponse lattente mtier du client.
Lors de nos consultations en entreprise nous rencontrons gnralement deux
profils : le chef dentreprise qui intuitivement souhaite disposer du meilleur tableau
de bord de pilotage et le DSI qui a tendance mettre laccent sur les aspects
techniques de loffre BI. Pour des raisons historiques voire culturelles ou scuritaires, le DSI sera attir par les solutions proposes par un diteur dj install
dans les lieux. Cependant, un comparatif ralis auprs de plusieurs diteurs peut
parfois aboutir des conclusions inattendues. Vous trouverez dans les rfrences
bibliographiques disponibles la fin de cet ouvrage un lien proposant des critres
de comparaison des fonctionnalits et de lergonomie des outils de BI.
Nous dconseillons toujours de mettre en uvre un projet BI sil nest pas
sponsoris par une direction fonctionnelle ou oprationnelle. En matire de BI,
il existe un facteur dterminant de succs : la recherche de lamlioration de la
valeur. Ce facteur servira de fil conducteur tout au long de la ralisation du projet.
En 1992, Robert Kaplan et David Norton ont avanc pour la premire fois
lexpression balanced scorecard (BSC) dans un article de la Harvard Business
Review. En 1996, les mmes auteurs publient un livre sur ce sujet, traduit en
franais sous le titre Le tableau de bord prospectif, pilotage stratgique : les quatre
axes du succs (ditions dOrganisation, 1998). Les auteurs proposent de sortir
du traditionnel tableau de bord financier tout en faisant apparatre une vision
multidimensionnelle de la performance. Ils dfinissent quatre axes privilgis de
la performance, chaque axe tant motiv par le mme moteur : la stratgie de
lentreprise (figure 2.3).
On distingue clairement les quatre axes ou perspectives stratgiques :
la perspective financire;
la satisfaction des clients;
les processus internes;
lapprentissage organisationnel.

2.3 Les diffrents types dindicateurs

35

Mon personnel est-il heureux ?


Comment amliorer
la comptence des hommes et
dvelopper les outils performants ?

Quelle est
ma stratgie
de dveloppement ?

Mes
actionnaires,
quattendentils de moi ?

Quels processus amliorer


pour satisfaire et conserver
mes clients ?

Que dois-je
apporter mes clients ?
Que font mes concurrents ?

Figure 2.3 Le balanced scorecard et les axes privilgis danalyse de la performance

Dans les annes quatre-vingt, les entreprises privilgiaient la mesure de leur


entreprise aux rsultats financiers. Aujourdhui les organisations ne se contentent
plus de mesurer leur efficacit par une approche comptable. Norton et Kaplan
ont montr comment des activits immatrielles dans lentreprise ont une incidence forte sur le rsultat. Ils ont dmontr quel point la satisfaction de lactionnaire (axe finance) rsulte fortement de la satisfaction du client (axe clients), ellemme trs lie aux processus de lentreprise (axe processus internes). Les processus
de lentreprise sont eux-mmes servis par des hommes dont il est indispensable
de connatre le niveau dimplication (axe apprentissage organisationnel).
La grande force du BSC fut de montrer quil existait dautres composantes
qui participent la valeur ajoute. Norton et Kaplan ont nomm ces composantes intangible value drivers et ont tent de dfinir des indicateurs de performance
derrire chacun des axes.

2.3 LES DIFFRENTS TYPES DINDICATEURS


Les tapes suivre lors de la construction du tableau de bord sont les suivantes :
Dfinir les objectifs.
Identifier les variables daction.

36

2. Lapproche mthodologique

Choisir les indicateurs.


Mettre en place les clignotants.
Il ne rentre pas dans la mission de cet ouvrage de dvelopper dans le dtail
la mthodologie participant llaboration des tableaux de bord ou balanced scorecard, sujet sur lequel il existe une littrature abondante (se rfrer la bibliographie en fin douvrage). En revanche, nous donnerons titre dexemple
quelques indicateurs qui nous paraissent essentiels au bon pilotage de lentreprise. Nous distinguerons plusieurs fonctions dans lentreprise et pour chacune
delles nous rpartirons les indicateurs selon quatre orientations :
indicateur dactivit;
indicateur qualit;
indicateur de cot;
indicateur dclairage.

2.3.1 Fonction Commerciale


Quantits vendues par secteur, par produit,
par client

Par secteur, par produit,


par client

Nouveaux clients
Nombre de commandes
Activit

Clients nayant pas command depuis x temps


Nombre de prospects visits
Nombre de devis mis
Taux de transformation sur devis
Nombre de rclamations reues et traites
Dlai de livraison client

Qualit

Taux de renouvellement des contrats


dentretien
Taux de rupture
Frais commerciaux

Par nature, par secteur

Contribution/cot

Par agence

Cot

2.3 Les diffrents types dindicateurs

37

Promotions
Engagements publicitaires

Par famille de produit

Frais de voyage et dplacement

Par secteur

Cot
Cot des stocks obsoltes
Indices dvolution dachat de vente
Observation

Suivi de la comptitivit
Concurrence
Effectifs
Embauches

Humains

Dmissions
Primes verses
Nouveaux projets

2.3.2 Fonction Direction gnrale


CA net, Quantits nettes
Marge brute
Part de march
Activit

Croissance du march
Rentabilit des capitaux investis
Fonds de roulement
Taux de rotation des clients, fournisseurs, stocks
Carnet de commandes
Indice de qualit selon mtier de lentreprise

Qualit

Dlai de livraison
Nombre de rclamations

Par secteur, par produit,


par client

38

2. Lapproche mthodologique

Main duvre de production


Cot de revient des produits
Cot

Frais gnraux

Par nature

Frais commerciaux

Par secteur

Sous-traitance
Indices dvolution dachat de vente
Suivi de la comptitivit
Observation

Concurrence
Grands projets dinvestissements
Nouveaux projets
Effectifs (internes/externes), embauches,
dmissions

Humains

Taux dabsentisme
Moral des troupes
Frquence des accidents du travail

2.3.3 Fonction Ressources humaines


Niveau de salaire en % du CA, en % des cots

Par dpartement

Nombre daugmentations de salaires

Par catgorie

Nombre de personnes recrutes


Budget formation
Activit

Nombre de candidatures pour pourvoir


un poste
Nombre de candidatures spontanes
Effectif
Effectif interne/externe

Par catgorie, par sexe,


par ge

2.3 Les diffrents types dindicateurs

Activit

Productifs/Improductifs
Nombre de dparts en priode dessai
Dlai moyen dun recrutement
ge moyen

Par catgorie

% de postes pourvus en interne


Qualit

% de postes en binme
Nombre dannonces ncessaires
pour pourvoir un poste
Nombre de licenciements
Turnover
Cot moyen dun recrutement

Cot

Salaires

Par dpartement,
catgorie

Prvisions des dparts en retraite


Observation

Prvision de cration de postes


Nouvelles formations
Heures supplmentaires
Taux dabsentisme

Humains
M3oral des troupes
Mobilit du personnel

2.3.4 Fonction Production et recherche dveloppement


Capacit de production

Activit

Cot de revient des produits

Standard/rel

Valeur ajoute

Par atelier

Quantits produites/heures productives


Quantits produites/effectif total

39

40

2. Lapproche mthodologique

Quantits produites/heures machines


Consommation de matires premires/
quantits produites
Activit

Quantits produites

Tonnes, units

Maintenance prventive
Niveau des stocks/activit par nature

matires premires,
produits semi-finis,
produits finis

Taux de retouches, taux de dchets,


taux darrts techniques
Nombre de rclamations, retours clients,
retours fournisseurs
Qualit

Nombre de ruptures de stock


Respect du dlai clients,
suivi du dlai fournisseurs
Dlai de fabrication
Retard moyen des projets et tudes
Consommation dheures
Cot de main duvre de R&D

Cot
Sous-traitance
nergie
Planning de production
Observation

Carnet de commandes
volution du prix des matires premires
Effectif interne/externe
Embauches dmissions

Humains

Absentisme/turnover
Qualification du personnel
Taux dimproductifs

Par atelier et par produit

2.3 Les diffrents types dindicateurs

2.3.5 Fonction Logistique et approvisionnements


Produits expdis (tonnes, units et valeur)
Valeur totale des stocks

Standard/rel

Analyse ABC des stocks


Taux de rotation des stocks
Activit

carts sur inventaire


% de stock mort
Surface de stockage utilise
Nombre de transporteurs
Nombre de rfrences gres en stock
Taux de retouches, taux de dchets, taux
darrts techniques
Dlai moyen de livraison au client
Dlai moyen dapprovisionnement/
fournisseur
Temps moyen et changement de vhicules

Qualit

Retards de livraison

En jours et en valeur

Nombre de ruptures de stock

Matires premires
et produits semi-finis

Nombre de litiges transport, de livraison


Nombre davoirs
Taux de remplissage
Cot total du transport
Cot transport

Par transposteur/
m3 transport

Cot moyen dacheminement

Par fournisseur

Cot des stocks

Par m3, total

Cot

Observation

Carnet de commandes

41

42

2. Lapproche mthodologique

Effectif interne/externe
Embauches dmissions
Humains
Absentisme/turnover
Qualification du personnel

2.3.6 Fonction Achats


Montant annuel des achats
Montant moyen dachat

Par commande,
par personne

Nombre de commandes traites par personne


Taux de remise obtenu par personne
Conditions de paiement ngocies
Nombre de rfrences
Nombre de demandes dachat
Activit

Nombre dappels doffre


Nombre de ngociations
Nombre de commandes
Nombre de comptes fournisseurs
Nombre de fournisseurs en activit
Nouveaux fournisseurs
Turnover fournisseurs
Part des importations

Qualit

Dlai moyen de traitement dune commande


fournisseur
Nombre de relances

Par tranches de valeur

2.3 Les diffrents types dindicateurs

Nombre davoirs, de litiges


Performance des fournisseurs
Qualit
Qualit des ngociations
Taux de couverture des besoins
Salaires
Dpenses de fonctionnement
Cot
Cot moyen de traitement dune commande

Total/par fournisseur

Cot moyen de recherche de fournisseur


tudes de march fournisseurs
Observation

volution du march
Carnets de demandes dachats
Effectif interne/externe
Embauches dmissions

Humains
Absentisme/turnover
Qualification du personnel

2.3.7 Fonction Informatique tudes Exploitation


Rentabilit des investissements
Marge de contribution dune nouvelle
application
Analyse des temps dtude
Activit

Dveloppement

Planifi non planifi

Nombre dheures de test


Nombre dheures sous-traites
Nombre dheures ingnieur

Par projet

43

44

2. Lapproche mthodologique

Heures dtudes

Activit

Lignes produites

Par programmeur/
priode

Nombre de transactions

Par heures

Nombre de programmes en exploitation


Nombre dheures machines
Nombre de pages dites
Respect du budget
Retard moyen
% heures de tests/heures dtudes
% maintenance/tudes nouvelles
Dlai de rponse aux demandes
Qualit
Dlai moyen dune demande
Nombre dincidents par priode
Nombre derreurs de manipulation
Nombre dincidents matriels
Nombre dheures indisponibles
Dpenses globales
Ventilation des dpenses

Par logiciel/personnel,
tudes/exploitation

Salaires

Ingnieurs, techniciens,
dveloppeurs

Cot
Heures machines de tests/Production
Heures ingnieur
Cot moyen par transaction

2.4 Deux mondes diffrents : OLTP et DW

45

Carnet de commandes
Nouvelles applications
Planning prvisionnel de charge
Observation

Hausse des volumes traits

Par rapport aux annes


prcdentes

Hausse des heures-machine

Idem

Remplacement de matriel/amortissement
Nouvelles versions des logiciels/utilit
Effectif interne/externe
Embauches/dmissions
Humains
% de sous-traitance
Qualification du personnel

2.4 DEUX MONDES DIFFRENTS : OLTP ET DW


Avant de dvelopper les techniques ncessaires la dfinition de lentrept de
donnes, nous devons avoir conscience des diffrents niveaux de stockage des
donnes, chacun dentre eux tant destin des tches diffrentes pour des utilisateurs diffrents. Le processus transactionnel (OLTP, Online Transaction Processing) est totalement orient vers lutilisateur qui alimente au quotidien les
bases de production. En revanche, le modle dimensionnel du datawarehouse
(DW) est destin aux analystes mtier.
Le premier joue le rle de rcepteur des donnes originelles quels quen soient
les supports et les outils (saisie sur Internet, alimentation de lERP, comptabilit
dentreprise, saisie dans des tableaux Excel, etc.). Le second joue le rle de concentrateur des donnes afin de leur confrer une cohrence globale et partage par
lensemble des acteurs de lentreprise. Le DW peut prendre une forme particulire de stockage, OLAP, qui nest quune reprsentation optimise du datawarehouse. OLAP prsente en effet lavantage de fournir une information prdigre
selon les diffrents points de vue des gestionnaires de lentreprise.
Les utilisateurs de chaque niveau ne sont pas les mmes, les structures de donnes
sont diffrentes, ladministration est diffrente ainsi que la gestion quotidienne.

46

2. Lapproche mthodologique

2.4.1 Quest-ce quune transaction ?


Un systme OLTP tel quun ERP ou un PGI traite des centaines voire des milliers
de transactions par jour. Chaque transaction est le reflet soit dune mise jour,
soit dune suppression ou encore dun ajout de donnes nouvelles. A contrario le
datawarehouse ne fera lobjet que dune seule transaction dont la frquence est
gnralement quotidienne. En revanche cette transaction reprsente des centaines de milliers denregistrements. De plus, elle seffectue exclusivement en mode
dajout de donnes sans aucune modification ni suppression des donnes existantes. Lhistorique des mouvements est donc intgralement conserv. Ce mcanisme participe la sacro-sainte traabilit de linformation en entreprise
(loi SOX). Ce processus porte le nom dETL : extraction, transformation, chargement (load).
Un soin particulier sera apport lors du processus dETL la consistance des
bases avant et aprs le chargement. En effet, le processus de chargement peut
faire lobjet dune interruption intempestive laissant le systme dans un tat
dinconsistance. Bien quun processus de rollback puisse tre mis en place, il sera
souvent prfrable de procder une restauration de la base DW dans ltat o
elle tait avant le dbut du chargement. On verra que les ETL proposent des
solutions de reprise intermdiaire bases sur des points de contrle (checkpoint)
certaines tapes du processus.

2.4.2 Les utilisateurs et les gestionnaires


Les utilisateurs des systmes OLTP sont des acteurs qui alimentent en permanence les bases de donnes oprationnelles des organisations. Ils prennent des
commandes, enregistrent des paiements, procdent des rglements, saisissent
de nouveaux clients, enregistrent des rclamations, font des rservations, entrent
de nouvelles donnes et en corrigent danciennes. Lorganisation des systmes
OLTP doit permettre la mise jour instantane de toutes ces donnes.
Les gestionnaires (DBA, DataBase Administrator) de systmes OLTP sont obsds par la performance, la fiabilit et la scurit des SGBD dont ils ont la responsabilit. Si le systme OLTP sarrte, cest toute lentreprise qui est bloque.
Il nest donc pas question deffondrer les performances des systmes par des
requtes ou des rapports de synthse qui seraient excutes par les analystes
mtier dans lentreprise.
Ces analystes sont les observateurs de lorganisation. Ils sont naturellement de
gros consommateurs des datawarehouses. Leur mtier consiste comptabiliser
les nouvelles commandes, chercher comprendre les motifs qui poussent les
clients partir, analyser les rclamations, comparer lactivit dune anne sur

2.4 Deux mondes diffrents : OLTP et DW

47

lautre, observer des tendances. Ils dtectent parfois des anomalies dans les systmes sous-jacents.
Ces gestionnaires observent les donnes un niveau lev de synthse. Ils
prouvent rarement le besoin daccder des informations dtailles. Ils sinterrogent sans cesse sur la manire dont les affaires se droulent, passent rapidement
de rapports en analyse, de requtes en nouvelles interrogations dans le but de
dceler du sens dans la marche de lentreprise. Les rponses leurs interrogations
doivent tre immdiates, quelques secondes tout au plus et ceci quelle que soit
la complexit de la requte.
Le reporting est souvent lobjet principal du datawarehouse (80 % des cas).
Aujourdhui il nest plus question dimprimer des listings volumineux dans lesquels bien souvent une seule ligne (en gnral la dernire) est utile pour lanalyse. Il sagit au contraire de mettre en place un reporting utile et personnalis
en fonction du besoin du lecteur. Dans les chapitres qui suivent, nous verrons
comment un utilisateur peut souscrire un abonnement tel ou tel rapport, le
recevoir dans sa messagerie quotidiennement ou mettre en place des alertes afin
dtre prvenu lors de telle ou telle transaction ou franchissement de seuil.

Figure 2.4 Voici un tableau qui doit pouvoir tre fourni


par un systme bas sur un datawarehouse

Lexemple de la figure 2.4 montre les nouvelles fonctionnalits du traitement


des indicateurs cls (KPI) proposs par le logiciel de requtage de cubes OLAP
Proclarity 6. Ce tableau synthtique, relativement complexe dvelopper en
programmation pure, est un jeu denfant crer avec les assistants mis la disposition de lutilisateur final (lanalyste mtier).

2.4.3 La dimension temporelle


Les systmes OLTP et les datawarehouses traitent le temps de faon trs diffrente. Le meilleur des systmes OLTP est en perptuel changement, du fait des
traitements de mise jour constants. Ralph Kimball, dans son ouvrage de rf-

48

2. Lapproche mthodologique

rence The data warehouse toolkit, Practical techniques for building dimensional data
warehouses, Editions Wiley, parle alors de base de donnes scintillante. On comprend bien que des changements constants dans la base ou des r-critures sur
des donnes anciennes sont de nature perturber les analyses. Un systme OLTP
en perptuel mouvement ne produira pas deux analyses identiques des
moments diffrents dans une mme journe.
Ces problmes de changements permanents sont dfinitivement rsolus par
la mise en uvre de lentrept de donnes dont lobjet est de stocker une succession dinstantans en provenance du systme oprationnel et selon une frquence rgulire. Un peu comme des gologues capables dexpliquer la formation
des montagnes en observant les couches successives de sdiments, le datawarehouse permet de reconstituer lvolution de lactivit dune organisation grce
des photographies instantanes prises des priodes rgulires. De la mme faon
que les gologues creusent les couches sdimentaires afin danalyser les volutions dans le temps, le manager utilise la technique de forage (drill down) afin
de mesurer et de comprendre les actions qui se sont succdes dans la ralisation
des affaires.
Nous introduirons galement la notion de dimensions variation lente
(slowly changing dimensions). Cette technique est fondamentale pour reprsenter
correctement les variations qui se sont succdes dans le pass. En effet, il est
frquent que des modifications surviennent dans les gammes de produits, chez
les clients et fournisseurs. Bien souvent, le manager souhaitera conserver la trace
de ces variations.
La technique des instantans statiques qui alimentent rgulirement le
datawarehouse rgle deux problmes connus dans les bases transactionnelles :
la diffrence de lOLTP, le datawarehouse est au repos lorsque les utilisateurs lancent leurs requtes car le scintillement nest pas permis.
Le soin apport lors du stockage des informations dans le datawarehouse
autorise une reprsentation temporelle des donnes qui nest pas native
dans les systmes OLTP. Avec le datawarehouse, il est en effet possible de
rapprocher des informations de ventes ou de production sur des priodes
de temps comparables. Il est naturel danalyser les donnes sur plusieurs
annes en year to date (cumul depuis le dbut de lanne). Il est galement
ais de connatre les nouveaux clients depuis telle date ou au contraire
ceux qui ont quitt lentreprise.
Nous verrons dans le chapitre 5 comment lETL (Integration Services dans
SQL Server 2005) permet de mettre en uvre le processus de stockage des instantans dans le datawarehouse.

2.4 Deux mondes diffrents : OLTP et DW

49

2.4.4 Le modle de donnes entit-relation pour les dveloppeurs


Une autre diffrence majeure entre les systmes transactionnels et les datawarehouses rside dans le modle relationnel. La modlisation dun systme OLTP
vise essentiellement rduire la redondance des donnes de telle sorte que les
transactions modifient les donnes un endroit unique. Le modle entit-relation sur lequel sont bass les systmes OLTP met en uvre une organisation trs
complexe avec de nombreuses tables relies entre elles selon des jointures prcises
garantissant par ailleurs lintgrit de la base. Il en rsulte une grande difficult
de comprhension du schma relationnel. Il nest pas facile de comprendre au
premier coup dil quelles sont les tables importantes et celles qui le sont moins,
quelles tables contiennent des donnes dynamiques et celles qui sont plutt statiques, quelles tables prsentent des mesures de performance, quelles tables sont
plutt descriptives.
Voici quelques consquences lies cette organisation :
Le modle entit-relation, compte tenu de la complexit de son organisation, prsente des temps de rponse excellents lors dajout ou de mise
jour mais catastrophiques lorsquil sagit deffectuer des requtes des fins
danalyse.
Il rsulte du point prcdent que seules quelques requtes peuvent tre
envisages dans une journe.
Compte tenu de la complexit du schma des tables, le dpartement informatique est contraint dcrire des requtes pour les utilisateurs mtier.
Dans les bases de donnes relationnelles normalises, les requtes qui sont
de simples questions en termes mtier, sont trs complexes crire en langage SQL et ne peuvent donc tre labores que par des spcialistes.
Les utilisateurs sont frustrs de ne pouvoir eux-mmes effectuer leurs
requtes et analyses.

2.4.5 Le modle dimensionnel pour les analystes


Le modle qui est le plus proche des utilisateurs et qui dcrit le mieux lactivit
de lentreprise est le modle dimensionnel appel galement schma en toile .
Ce schma a t initialement mis en vidence par des fournisseurs de donnes
tels que A.C. Nielsen, IRI, IMS et Walsh America. Ce schma rsulte dune
demande lgitime damlioration des temps de rponse lors de laccs de trs
grosses bases de donnes et galement dune volont de simplification de la
vision quun utilisateur peut avoir lors de lanalyse des donnes mtier.

50

2. Lapproche mthodologique

Le modle dimensionnel est compos dune table centrale entoure dun certain nombre de tables. la diffrence dun modle entit-relation, la table centrale est la seule qui prsente des jointures avec les autres tables. La table centrale
est appele table de faits, et les autres tables, tables de dimensions.
Dans le schma en toile de la figure 2.5, la table de faits centrale est InternetSales. Cette table historise lensemble des ventes effectues sur Internet. Les
tables dimensionnelles caractrisent les clients, les produits et le temps.

Figure 2.5 Un modle dimensionnel type.


Le schma en toile

Le schma en flocon prsente les mmes caractristiques que le schma en


toile avec cependant des branches dimensionnelles normalises (plusieurs
tables en cascade). Dans la figure 2.6, les branches Customer et Geography sont
normalises.
La table de faits renferme les donnes qui mesurent la performance ou lactivit
de lentreprise; par exemple les ventes quotidiennes, les quantits fabriques, les
heures travailles. Les mesures stockes dans ces tables sont exclusivement numriques et additives, cest--dire quelles pourront tre agrges dans le temps.

2.4 Deux mondes diffrents : OLTP et DW

51

Exemple : le cumul des ventes quotidiennes, mensuelles, annuelles. Ces mesures


rpondent la question Combien ? .

Figure 2.6 Schma en flocon

Les tables de dimensions prsentent souvent des descriptions textuelles. Par


exemple, on effectuera des requtes par produit ou par client. Dans ce cas, les
produits ou les clients sont des axes dobservation mtier. Ces axes danalyse
rpondent souvent aux questions Quoi ? (quel produit), O ? (chez quel
client), Comment ? (quel canal de vente), Qui ? (quel vendeur).
Tableau 2.1 Le croisement des dimensions permet
danalyser les indicateurs selon de nombreuses perspectives
Quand ?
Anne (historique
sur 10 ans)
Mois
Jour
Cumul ce jour

Qui ?

Quoi ?

O ?

Indicateurs
(Combien ?)

quipes

diteur

Enseigne

CA & Qt vendues

Reprsentants

Catg. Prod.

Libraire

CA & Qt retournes

Collection

Remise en % et valeur

Titre de louvrage

Retours en % et valeur

52

2. Lapproche mthodologique

Tableau 2.2 Lanalyse dimensionnelle offre des combinaisons


multiples et quasi illimites. Chaque dimension peut comporter
des niveaux hirarchiques permettant daffiner les analyses
Dimensions

Indicateurs

Temps

De rsultat

Gographie

Nombre dunits vendues


Part de march

Usine

Nombre de clients traits


Commandes prises

Canaux de ventes

Taux de produit dfectueux


Pices produites

Organisation

Pices en rebut
Cot

Temps (calendaire/fiscal)

Budget/ralis
Contribution/marges
Ratios

De moyens
Matire consomme/unit produite
Heures de main douvre
Davancement et plan daction
% personnel form
Nombre de cercles de qualit
Denvironnement
Cours des matires premires
Taux de change
Taux financier

Dans la figure 2.7, les flches reprsentant les artes du cube symbolisent les
axes dobservation (Gographie, Produits et Temps). Les cellules du cube matrialisent les mesures ou indicateurs (nombre dunits, CA, marge, etc.).

2.5 Comparatif des deux modles de stockage des donnes

53

Axe danalyse : La gographie


(Pays - rgion - ville)

Indicateurs :
Nb units, CA, marge...
Axe danalyse : Les produits
(diteur, Collect, titre)
Axe danalyse : Le temps
(Anne, trimestre, mois, jour)

Figure 2.7 Reprsentation habituelle


du modle multidimensionnel sous forme de cube

2.5 COMPARATIF DES DEUX MODLES


DE STOCKAGE DES DONNES
En guise de synthse, nous proposons un comparatif entre les modles de stockage dit transactionnels et multidimensionnels. Ces rgles ont t dfinies par
deux thoriciens amricains, E.F. Codd et C.J. Date.

2.5.1 Le modle transactionnel (OLTP)


Les douze rgles du relationnel (dfinies par Codd et Date)
Rgle 1 : Toute information dune base de donnes relationnelle est reprsente
par des valeurs insres dans des tables composes de lignes et de colonnes.
Rgle 2 : Toute donne ou toute valeur atomique dans une base de donnes
relationnelle doit tre accessible grce la connaissance dun nom de table, de
la valeur dune cl primaire et dun nom dattribut (colonne).
Rgle 3 : Les valeurs nulles (distinctes dune chane de caractres vide ou dune
chane de caractres blancs ou de zro ou tout autre nombre) sont supportes
par un SGBD relationnel en tant que reprsentation dinformation manquante.
Rgle 4 : La description de la base de donnes est reprsente au niveau logique
de la mme manire que des donnes ordinaires, de sorte que des utilisateurs
privilgis (bnficiant des bonnes autorisations) peuvent utiliser le mme lan-

54

2. Lapproche mthodologique

gage (SQL) afin daccder aux donnes utilisateurs ou aux mtadonnes (structure des tables).
Rgle 5 : Un systme de gestion de donnes relationnel peut accepter plusieurs
langages et plusieurs interfaces utilisateurs. Cependant, il doit y avoir au moins
un langage dont les commandes sont exprimables grce une syntaxe bien spcifie exprime sous forme de chanes de caractres. Ces commandes sont :
la dfinition des donnes;
la dfinition des vues;
la manipulation des donnes (interactive et laide de programmes);
les contraintes dintgrit;
les autorisations;
les limites de transaction (dbut, fin, commit).
Rgle 6 : Toutes les vues que lon peut thoriquement mettre jour peuvent aussi
tre mises jour par le systme (ce qui inclut insertion, modification, suppression).
Rgle 7 : La possibilit de manipuler une relation de la base ou relation drive
comme un oprande unique sapplique non seulement la recherche de donnes
mais aussi linsertion, la modification et la destruction.
Rgle 8 : Les programmes dapplication et les interfaces cran demeurent logiquement inchangs si on modifie les mthodes de stockage ou les mthodes daccs.
Rgle 9 : Les programmes dapplication et les interfaces cran demeurent logiquement inchangs si des modifications sont effectues dans les tables.
Rgle 10 : Les contraintes dintgrit spcifiques pour une base de donnes relationnelle doivent tre dfinissables dans le langage de manipulation de la base
et stockables dans le catalogue, et non dans les programmes dapplication :
Intgrit de lentit : aucun composant de la cl primaire nest autoris
tre nul.
Intgrit rfrentielle : pour chaque cl trangre distincte non nulle dune
base de donnes relationnelle, il doit exister une cl primaire correspondante du mme domaine (dans une autre table).
Rgle 11 : Une base de donnes relationnelles est indpendante vis--vis de la
rpartition. Autrement dit, les programmes dapplication et les interfaces cran
demeurent logiquement inchangs :
si on introduit un nouveau modle de rpartition des donnes,
si les donnes sont distribues sur plusieurs serveurs (dans le cas o le
SGBD gre la rpartition).

2.5 Comparatif des deux modles de stockage des donnes

55

Rgle 12 : Si un systme relationnel est interfac avec un langage de bas niveau,


ce langage ne peut pas enfreindre ou contourner les rgles dintgrit exprimes
par le langage de haut niveau (de type ensembliste).
Ces rgles ont t dfinies par C.J. Codd en 1985. Depuis, elles ont fait lobjet
damlioration.

2.5.2 Le modle multidimensionnel (OLAP)


Voici les douze rgles caractrisant le modle multidimensionnel (C.J. Codd).
Rgle 1 : Offre une vue permettant des manipulations simples sur les donnes :
rotation, pivot ou vue par tranche, permutation daxes (slice and dice) ou en cascade (drill anywhere).
Rgle 2 : Offre une transparence du serveur OLAP diffrents types de logiciels.
Permet dimplanter le systme OLAP sans affecter les fonctionnalits du systme
central.
Rgle 3 : Doit tre accessible de nombreuses sources de donnes. Les outils
OLAP ont leur propre schma logique de stockage de donnes physiques mais
doivent accder aux donnes et raliser nimporte quelle conversion pour prsenter une vue simple et cohrente des donnes. Ils doivent savoir do proviennent les donnes.
Rgle 4 : Laugmentation du nombre de dimensions ou du volume de la base de
donnes ne doit pas entraner de dgradation de performance visible par lutilisateur.
Rgle 5 : La plupart des donnes OLAP sont stockes sur des systmes puissants
et sont accessibles via des postes individuels. Il est donc ncessaire que les produits OLAP travaillent en environnement client/serveur.
Rgle 6 : Toutes les dimensions doivent tre quivalentes en structures et en
calcul. Il ne doit exister quune seule structure logique pour toutes les dimensions.
Rgle 7 : Loptimisation des matrices creuses est ncessaire afin de tenir compte
des combinaisons vides (dans une analyse la fois sur les produits et les clients,
tous les produits ne sont pas vendus chez tous les clients).
Rgle 8 : Le systme doit offrir des accs concurrents, garantir lintgrit et la scurit afin que plusieurs utilisateurs puissent accder au mme modle danalyse.
Rgle 9 : Tout outil OLAP doit grer au moins 15 20 dimensions.
Rgle 10 : Les oprations doivent seffectuer sur toutes les dimensions (agrgats)
et ne pas demander lutilisateur dintervenir pour dfinir un calcul hirarchique.

56

2. Lapproche mthodologique

Rgle 11 : Toute manipulation de donnes doit tre intuitive. Elle doit tre
accomplie via une action directe sur les cellules du modle sans utiliser de menus
ou des chemins multiples travers linterface utilisateur.
Rgle 12 : Doit offrir une souplesse et une grande facilit de constitution des
rapports. Doit permettre de prsenter les rsultats sous forme de donnes synthtiques ou en fonction de lorientation du modle.

2.5.3 Synthse OLTP et OLAP


Tableau 2.3 Comparaison des deux modles de stockages des donnes
OLTP (bases
transactionnelles
de production)

OLAP (cubes
analytiques)

Utilisateur

Collaborateur, cadre
oprationnel

Cadre fonctionnel, dcideur

Fonction

Saisie journalire

Aide la dcision

Base de donnes

Oriente application (ERP)

Oriente mtier

Donnes

Dynamique

Historique

Usage

Rpt

la demande (ad hoc)

Lecture/criture

Lecture seule (criture


de simulation possible)

Transaction (insertion/
suppression, mise jour).
Langage SQL

Requte complexe
hirarchique.
Langage MDX

Nb enregistrements utiliss

Quelques enregistrements

Millions denregistrements

Nb utilisateurs

Centaines

Dizaines

Volume de la Base

GB

TB

Accs

Unit de travail

2.5.4 Modle simplifi FASMI


Les douze rgles de Codd ont t simplifies, compltes et synthtises par lacronyme FASMI (Fast Analysis Shared Multidimensional Information) :
Fast. Le systme est conu afin de dlivrer aux utilisateurs la plupart des
rponses en moins de 5 secondes.

2.6 OLAP ou reporting ?

57

Analysis. Le systme doit pouvoir rpondre toute problmatique mtier,


tout type danalyse et toute statistique approprie lapplication. Laccs
linformation doit tre ais et rpondre rapidement aux besoins de lutilisateur.
Shared. Les donnes sont centralises et partages avec tous les niveaux de
scurit et confidentialit ncessaires. Le systme doit tre capable de tenir
compte des accs multiples en criture des cubes OLAP. (Microsoft Analysis Services est un exemple doutil scuris de mise jour de cubes des
fins de simulation.)
Multidimensional. Cette notion est la cl de la dfinition de lOLAP. Le
systme doit tre en mesure de fournir lutilisateur une vue multidimensionnelle et hirarchique, offrant une vision proche de celle de la structure
de lorganisation de lentreprise.
Information. Toute linformation pertinente de lentreprise doit pouvoir tre
stocke sans considration de limitation de taille ou du nombre de composants.

2.6 OLAP OU REPORTING ?


Le propos est de mettre en avant les avantages et les inconvnients des deux
systmes (OLAP et reporting) afin de choisir loutil le mieux adapt pour rpondre un besoin utilisateur spcifique.
Approche du problme
Les techniques daide la dcision font appel deux approches complmentaires.
Lune est centre sur les donnes produire, lautre sur lutilisateur. Dans le cas
de lapproche centre sur les donnes, on examine les caractristiques des donnes produire et on choisit la technologie la mieux adapte pour cela.
Dans le cas de lapproche centre sur lutilisateur, la rflexion est mene
autour des besoins exprims par le demandeur. En effet, vous cherchez connatre qui sont les consommateurs dinformation et quelles sont leurs attentes :
sagit-il de prendre des dcisions, de suivre la performance dune unit oprationnelle, ou de partager linformation avec dautres collaborateurs. Lorsque le
besoin sera dfini, il sagira de dterminer la meilleure technologie susceptible
daider les utilisateurs accomplir leurs tches.
Les critres de dcision
Linformation doit-elle tre dlivre telle quelle ou doit-elle faire lobjet dune
interprtation ? Un grand nombre de projets BI a seulement pour but de dlivrer

58

2. Lapproche mthodologique

un ensemble de rapports une population dindividus dtermine. Certains projets ont pour but de comprendre le sens des donnes sous-jacentes et de produire
des informations utiles destination des dcisionnaires soucieux de la performance de leur organisation.
Par exemple, dans le cas dune relation de partenariat entre deux acteurs, la
fourniture dinformation sur un tat de compte ou des factures en cours est un
schma de type centr sur les donnes. Le but tant de fournir aux utilisateurs un
accs ais et rapide des enregistrements spcifiques pour un compte donn.
Dans un tel projet, on ne recherche pas connatre lusage qui sera fait de telles
donnes par lutilisateur. Le seul objectif est de fournir des donnes sans se soucier de leur interprtation.
Dun autre ct, la mise disposition dinformation dans le but de permettre
un dcisionnaire de mieux contrler le niveau dinventaire ou de suivre les
ventes au quotidien dun produit afin doptimiser le circuit de livraison et le
niveau de stock, est un projet BI orient comprhension. Parce quune rponse
une question induit naturellement toute une srie dautres questions/rponses,
dont le cheminement nest pas connu par avance, loutil qui permettra dapporter
une aide ce schma sera bas sur un modle Multidimensionnel.
Quel est le pourcentage de donnes pour lesquelles la lecture est connue
davance, et quel est le pourcentage des informations connues dynamiquement ?
Dans le premier cas les rapports traditionnels sont bien adapts. Les donnes et
calculs associs, vues et filtres divers sont prdfinis. Ces rapports statiques dans
leur forme, sont disposs sur des serveurs de rapports et dlivrs tels quels auprs
des managers oprationnels.
Si au contraire, votre projet ncessite de raliser des requtes dynamiques et
non prdfinies, les outils analytiques OLAP sont les plus judicieux. Ils le sont
double titre.
Les utilisateurs peuvent naviguer verticalement dans une unit fonctionnelle et transversalement travers les dpartements de lentreprise.
Les informaticiens disposent doutils trs sophistiqus permettant de laisser
la machine le soin de rpondre des interrogations complexes qui ncessiteraient des jours de programmation dans des environnements de dveloppement traditionnels.
Voici deux exemples de requtes quil est ais de traiter au travers dun systme OLAP et trs complexe avec le langage SQL de base :
Quels sont les clients dont la part cumule progresse le plus vite depuis le
dbut de lanne ?

2.6 OLAP ou reporting ?

59

Quelle est la variation des ventes cumules et compares sur trois ans pour
mes cinquante plus gros clients ?
Comment les donnes sont-elles fournies ?
Les outils de reporting ont tendance produire des rapports avec des prsentations formates. Les technologies OLAP sont optimises pour des analyses
temps rel (navigation non prvisible, calculs la vole, et scnarios de type
what if permettant de raliser des simulations sur les donnes oprationnelles). Ces technologies permettent des restitutions dynamiques au travers de navigateurs Internet ou peuvent tre encapsuls dans des tableurs.
Quels sont les types dinterrogation et de temps de rponse
attendus par les utilisateurs ?
Dun ct, les rapports prdfinis sont envoys limprimante qui par dfinition est un priphrique lent. Cette tche est le plus souvent planifie et peut
durer des heures. Dun autre ct, un utilisateur analyste navigue sur des Giga
octets de donnes ralisant des requtes complexes avec des temps de rponse
infrieurs la seconde.
Ltat de lart en matire de technologie OLAP, utilise des algorithmes dagrgation et de compression de donnes dans le but de garantir toutes les combinaisons utiles au sein du cube. Cette organisation permet de disposer de requtes
dont les temps de rponse sont quasi immdiats. Pour offrir des temps daccs
aussi rapides, il est impratif dagrger les donnes et de ne pas conserver le
niveau atomique gnralement stock dans les bases de production. Par exemple, si des centaines de transactions sont stockes pour le mme client dans la
mme journe, il suffira de stocker dans le cube une seule ligne reprsentant le
cumul journalier pour le client. Le niveau de granularit du cube est souvent un
agrgat des donnes de production.
En effet si cette condition nest pas respecte, on constate une hypertrophie
du cube pouvant amener une explosion de la structure.
On la compris, si lon doit analyser les donnes au niveau de la transaction,
la structure relationnelle est naturellement mieux adapte.
Quelles sont les tailles acceptables ?
Historiquement, les technologies OLAP ont montr certaines limitations
rduisant le champ des problmes quelles taient censes rsoudre. Les technologies OLAP rcentes ont considrablement repouss les limites de taille. Il nest
pas rare de rencontrer des cubes de quelques giga-octets avec des performances
tout fait acceptables.
Si les donnes sont volumineuses et utilises leur niveau le plus bas, le stockage relationnel est probablement le meilleur choix. En revanche, si les donnes

60

2. Lapproche mthodologique

sont volumineuses, mais que lanalyse seffectue un niveau agrg des donnes,
la structure OLAP est le meilleur choix.
Pourquoi un rfrentiel mtier unique ?
SQL, le langage des bases de donnes relationnelles, na pas t dfini pour
des calculs et filtrages complexes. Pour dtourner ces limitations, les utilisateurs
sorientent souvent vers le tableur afin de raliser des calculs complexes. Au
mieux, lutilisation de ces outils reprsente un risque cause de la technique du
copier-coller . Au pire ces techniques base de tableurs mnent lanarchie
des rapports o chaque collaborateur dispose de sa propre version de la vrit.
On observe trop frquemment dans les organisations des cadres passant une
bonne partie de leur temps consolider des tableaux rpartis dans un grand nombre de stations de travail. Nous verrons au chapitre 11 que le tableur Excel est
particulirement adapt lanalyse pour autant quil puise des donnes directement sur le serveur de DW.
La centralisation du rfrentiel mtier, utilis par les dcisionnaires pour llaboration des indicateurs cls de performance (KPI), apporte une comprhension
des affaires grce une standardisation des concepts et au partage collaboratif.
La vue synthtique des objets mtiers rpertoris dans le dictionnaire global de
lentreprise, amliore la comprhension, et la productivit lors de lextraction
des donnes et de la construction des tableaux.
Les donnes ont-elles besoin dtre agrges ou bien traites
au niveau le plus bas ?
Nous lavons vu, le but des bases multidimensionnelles est danalyser et de
manipuler de grandes quantits de donnes. Le type mme de structure cubique
permet la cration de nouveaux algorithmes dagrgation et de synthse. Lintrt dune telle structure est que les calculs dagrgation et de totalisation des
indicateurs sont stocks dans un rfrentiel unique, partag par tous. La restitution de linformation est ainsi considrablement fiabilise rduisant le risque
derreur dinterprtation.
Par ailleurs le type de structure rsultant de lorganisation des cubes induit
naturellement une vision commune et un partage naturel et complmentaire des
observations de chacun dans lentreprise.
Quel est le besoin de la modlisation de la dcision ?
De nouvelles recherches se sont dveloppes autour de la structure multidimensionnelle de donnes. De nouvelles possibilits sont alors apparues en particulier dans le domaine de lanalyse prdictive et de la segmentation.
Un type danalyse assez frquent est bas sur la question suivante que se
passerait-il si ? . En effet il peut tre intressant dans un modle conomique

2.7 Le processus dcisionnel avec SQL server 2005

61

de faire varier tel ou tel facteur sur les donnes relles de lentreprise et den
mesurer limpact. Une autre dmarche consiste ajouter ou retirer une variable
dans un contexte prvisionnel et den mesurer limpact immdiatement. Les
structures multidimensionnelles dites en criture permettent de stocker temporairement ces donnes de simulation et den mesurer les consquences sur
lensemble du modle.
Un autre volet consiste raliser des analyses prdictives. Certains algorithmes
statistiques permettent de se projeter dans le futur et ainsi de prvoir des rsultats
avant mme que la ralit ne se produise. Cette analyse est particulirement
utile aux gestionnaires qui basent leurs projections sur les donnes historiques
de lentreprise. Aujourdhui malheureusement, ce type danalyse est souvent ralis partir doutils disparates dans lentreprise, visant consolider manuellement
les informations puises dans les divers silos de donnes. On le comprend bien,
ces mthodes artisanales mme si elles rsultent dun travail commun non
ngligeable, ne permettent pas de profiter des bnfices lis la centralisation
et au partage de quantits importantes de donnes de lentreprise. Les technologies OLAP apportent naturellement des rponses cette problmatique.
En conclusion
Les techniques bases sur des structures de donnes relationnelles sont efficientes
lorsquelles visent distribuer des donnes dtailles aux utilisateurs au travers
de rapports prformats.
Les technologies OLAP sont plus appropries lorsque les utilisateurs dsirent
explorer et comprendre les donnes agrges afin de rpondre rapidement des
besoins stratgiques de lentreprise. Lutilisation partage dun rfrentiel mtier
de lentreprise favorise le dialogue et le partage naturel de la stratgie entre les
acteurs des diffrents dpartements de lentreprise.

2.7 LE PROCESSUS DCISIONNEL


AVEC SQL SERVER 2005
Les diffrentes tapes du processus dcisionnel sont maintenant clairement dfinies
et synthtises dans la figure 2.8.
Collecte des donnes depuis les diffrentes sources oprationnelles (Oracle,
DB2, SQL, Sybase, ODBC, OLE DB).
Intgration dans un ou plusieurs datamart mtier selon un modle multidimensionnel (schma en toile relationnel). Cette fonction est remplie
par Integration Services.

62

2. Lapproche mthodologique

Transformation du modle multidimensionnel relationnel en modle hypercube OLAP. laboration de KPI (Indicateurs cl de performance). Fouille de
donnes visant dcouvrir du sens dans les entrepts. Cette recherche est
confie des algorithmes spcialiss de data mining grce Analysis Services.
Restitution de linformation sous forme de rapports ou danalyses croises
la demande. Reporting Services, Report Builder, Proclarity, Excel, participent la restitution.
Prsentation synthtique des rsultats danalyse dans un tableau de bord
(Business scorecard Manager intgr dans Sharepoint Portal).
Nous dvelopperons chacune des composantes partir du chapitre 5.

2.8 LES ERREURS VITER


Plusieurs facteurs sont prendre en compte dans la cration dun projet BI afin
danticiper les risques dchec.

2.8.1 Le facteur Humain


La comptence et les motivations des utilisateurs sont mal interprtes
Dans lentreprise, il existe quatre catgories dutilisateurs de linformation :
Les utilisateurs non techniques ayant une forte implication mtier.
Les Analystes mtier.
Les Analystes avancs (Key Users) qui ont une connaissance forte du mtier
et une bonne comptence des techniques de requtage.
Les Dveloppeurs ou Administrateurs de base de donnes (DBA) dont la
vocation est de mettre disposition des utilisateurs mtier, les donnes de
lentreprise. Ces techniciens de linformation (voir en annexe les diffrents
profils) ont une forte comptence en matire dinfrastructure des systmes
dinformation mais peuvent faire montre dune connaissance relative du
mtier de lentreprise.
Dans la plupart des entreprises, les utilisateurs non techniques reprsentent
en moyenne 80 pourcent des utilisateurs de linformation, alors que les analystes
avancs et les analystes mtier se partagent les 20 % restant. Cette population
danalystes, souvent proche des directions oprationnelles, a trs vite compris
lintrt prsent par les outils de restitution sophistiqus (Powerplay, BO, Crystal). Ils ont souvent jou le rle de facilitateurs lors de lacquisition doutils
daide la dcision. En arrire-pense ils visaient recouvrer une certaine ind-

2.8 Les erreurs viter

63

ERP
Prog. Gestion
intgre

Datamart
Processus
internes

Datamart
Clients

Datamart
Apprentissage

Structures de donnes
Multidimensionnelles
Analysis Services

Modeliser

Datamart
Finance

90 80
70 60
70
% %
50 40
50 60
% %
%
30 40
%
% %
%
%
%

Analyses, Reporting, Data Mining

Piloter

100 %

Restituer

CUBE OLAP
perspectives
multiples

Tableau de bord
BSM

Restitution et analyses
Excel, Proclarity

Comptabilit,
RH,
Production
Extraire,
Nettoyer,
Transformer,
rafraichir

SGBD (Oracle/
DB2, SQL, Ole
DB)

Entrepts
de donnes
Integration Services

Sources de
donnes multiples

Processus dcisionnel avec SQL server 2005

Figure 2.8 Les diffrentes composantes du processus dcisionnel avec SQL Server 2005

64

2. Lapproche mthodologique

pendance lgard des informaticiens qui jusque-l taient les seuls concepteurs
de leurs requtes.
Nous le verrons plus loin, SQL Server 2005 apporte des rponses cette catgorie dutilisateurs grce Report Builder. (outil de cration de requtes et rapports usage des non-techniciens). Excel offre une rponse grce aux tableaux
croiss dynamiques connects directement sur les Cubes OLAP.

Le partage de linformation reste encore tabou dans les entreprises


Un pige classique dans le cycle de la BI est de penser que seuls les dveloppeurs
et Administrateurs des bases de donnes peuvent accder et manipuler linformation des bases de donnes. Cette croyance est directement lie au fait quil
nest pas concevable de fournir un utilisateur laccs direct au SGBD sur lequel
est bas lERP. De nombreuses raisons, souvent justifies, sont mises en avant.
La sacro-sainte scurit dans les entreprises a contribu loigner les utilisateurs
des sources de donnes. Les risques de dgradation des performances et la non
comprhension du modle de donnes ont longtemps t un frein la mise
disposition doutils de requtage destination des utilisateurs finals.
Une rponse est la mise disposition dun datawarehouse dconnect de
lERP. Microsoft SQL Server 2005 propose la mise en place dUDM permettant
de saffranchir de la complexit du modle de donnes sous-jacent. LUDM, souvent cr par ladministrateur des bases (DBA) est une interface visant permettre lanalyste daccder aux donnes de lentreprise en toute scurit. De
plus lUDM offre une vision claire des donnes au travers du rfrentiel mtier.

La culture de la mesure nest pas intgre par le personnel


Si les dirigeants sont les seuls prendre le plus grand soin mesurer lactivit et
les revenus qui en dcoulent, on observe que parmi les utilisateurs de linformation susceptibles dapporter du changement dans lentreprise, peu nombreux sont
ceux qui en tirent un avantage au quotidien.
Cependant lorsque lon offre chacun la possibilit dobserver sa propre efficacit en la comparant dautres employs de lentreprise, le comportement
change radicalement. La mise en uvre de tableaux de bord prsentant des indicateurs de performance des Business Units, sous forme trs visuelle telle que
feux tricolores vert/jaune/rouge, reprsente un aiguillon redoutable. Pour
autant il convient de fournir lemploy la rgle qui permet dinfluer sur lindicateur et les moyens daction pour parvenir au rsultat attendu.
La difficult dans un grand nombre de socits rside dans le fait que les
employs sont peu informs de la stratgie mene par la direction gnrale. Dans
ces conditions comment lemploy samliorer ? Lapport du Balanced Scorecard
est de ce point de vue fondamental.

2.8 Les erreurs viter

65

2.8.2 Le facteur Technique


Les facteurs humains, sont naturellement fondamentaux dans la russite du projet BI mais il ne faut pas ngliger les aspects techniques qui, sils ne sont pas
matriss, peuvent tre lorigine de naufrages (Le Titanic a sombr cause dune
erreur de positionnement).
Vous ne devrez jamais perdre de vue que la plus grande partie de votre attention doit tre focalise sur lalimentation de lentrept de donnes, sorte de bote
noire de lactivit de lentreprise sur laquelle sont bases toutes les hypothses
des analystes et le reporting dentreprise.
Voici une liste des erreurs et des piges les plus communment observs dans
le dploiement de projet BI.
Les donnes sources sont :

Incompltes
Enregistrements manquants.
Champs manquants conduisant des cellules vides.
Description denregistrements errons.

Incorrectes
Mauvaise codification (altration des codes dans le temps).
Agrgations dj ralises dans les sources de donnes.
Calculs errons. (champs numriques rsultant de calculs imprcis ou errons).
Enregistrements doublonns impactant les tables de faits.
Double excution du processus de chargement. Cette erreur peut se produire lors du dclenchement du processus sur la prsence dun fichier smaphore mal matris.
Mauvaise information entre dans le systme source telle quune inversion
de date 12/01/2006 ou 01/12/2006.

Incomprhensibles
Donnes en provenance dun champ unique devant tre clat en plusieurs champs dans le datawarehouse. Ex. : John F. Kennedy .
Codifications inconnues du systme. (Fuzzy lookup).
Donnes non structures en provenance de traitement de texte (nombres
formats avec des espaces en tant que sparateurs de milliers).
Jointures de tables avec des relations plusieurs plusieurs non identifies.

66

2. Lapproche mthodologique

Incohrentes
Codifications versatiles ( M et F ou 1 et 2).
Codifications changeantes lies des rorganisations dans lentreprise.
(Dimensions variation lente). Risque de perdre lantriorit de lhistorique.
Multiplication de codes diffrents pour une mme entit (ex. : client ou
produit ayant chang plusieurs fois de codification dans le temps).
Plusieurs codes distincts reprsentant la mme entit.
Noms et adresses lgrement diffrentes mais identifiant la mme entit.
Calculs dagrgations errons dans les sources de donnes (la somme des %
de deux nombres nest pas gale au % de la somme de ces deux nombres).
Le niveau de granularit des donnes doit tre comparable (ex. : les dpenses sont connues au niveau poste de charge, les budgets sont tablis au
niveau du regroupement de charges).
Les donnes agrges concernent des priodes diffrentes (ex. : fourniture
de donnes en provenance dorganismes extrieurs sur la base de la semaine,
alors que le traitement dalimentation est quotidien).
Les champs Null, espace ou vides ne possdent pas la mme codification
interne.
Manque dintgrit rfrentielle dans les donnes sources (chiffre daffaire
ralis sur le produit A alors que le client nest pas rfrenc).
La mise jour de la table de faits dans le datawarehouse est quotidienne
alors que la table de dimension associe est mensuelle (risque de non correspondance des donnes).
Des lignes de donnes peuvent intgrer les lignes dtail ainsi que les totaux
(risque de doubler les valeurs).
La phase de prparation du chargement des donnes dans le datawarehouse
(ETL) est longue, fastidieuse, et coteuse en temps. Elle ncessite de multiples
contrles afin dassurer une totale cohrence des donnes. Les journaux de chargement devront tre tudis avec attention. Des procdures dalertes en cas de
plantage devront tre mises en uvre (envoi de mail ou SMS). Des procdures de reprises doivent tre dfinies.
Il est ais de comprendre que la complexit dun entrept de donnes crot
de manire exponentielle avec le nombre de sources de donnes en entre.
Il ne faut pas non plus ngliger le fait que la connaissance des piges et de
leur identification peut disparatre avec les personnes.
Le poste dETL devra faire lobjet dune documentation extrmement prcise
et complte.

2.9 Les rgles du succs

67

2.9 LES RGLES DU SUCCS


2.9.1 Rgle 1 Comprendre les utilisateurs
Les utilisateurs mtiers non techniques
Cette population nous lavons vu reprsente 80 % des utilisateurs. Leur tche
au quotidien est de servir les processus de lentreprise et ils nont par consquent ni le temps ni le loisir danalyser sans cesse les donnes. Ils demandent
un accs sans effort aux donnes. Ils sabonnent une fois pour toutes afin de
recevoir par mail chaque jour le compte-rendu de lactivit, les objectifs dfinis
et les carts.
En regard de cette population nous mettrons en action un outil tel que reporting services. Ladministrateur (DBA) effectuera pour eux un abonnement. Ils
recevront les documents au format quils jugeront utile (mail, ou support papier).
Ils dfiniront galement la frquence de rception.
Les dirigeants qui ont besoin dune vision synthtique, consulteront les informations au travers de scorecard (Business Scorecard Management ou Office 2007)
ou des tableaux de bord via une interface Web (Sharepoint Portal, Panorama
software, Proclarity).
Les Analystes mtier
Ils ont une connaissance plus approfondie de loutil informatique et en particulier matrisent bien Excel. Ils sont tout fait capables de trier, filtrer les donnes.
Ils utilisent les tableaux croiss dynamiques en accs direct sur les cubes Olap.
Les donnes sont naturellement extraites du datawarehouse et ne souffrent daucune
saisie manuelle par lutilisateur.
Les Analystes qui recherchent lorigine des causes et lanalyse de croissance
ont besoin doutils puissants (Report Builder, Excel for Olap, ou Proclarity).
Les Analystes mtier, techniciens de linformation (Key Users)
Ces utilisateurs ont la capacit de crer eux-mmes leurs requtes et rapports.
Ils matrisent Reporting services. Ils peuvent laborer des tableaux de bord
sophistiqus et sont en gnral de vritables rfrents pour lensemble des utilisateurs mtiers. Ils communiquent avec les techniciens de linformation et peuvent apporter leur contribution dans llaboration du datawarehouse et de lUDM.
Les statisticiens
Les statisticiens disposeront doutils puissants leur permettant danalyser les corrlations, ou deffectuer des analyses prdictives. Ils se spcialiseront dans lusage
des outils de data mining (fournis dans la version SQL Server S005 standard et

68

2. Lapproche mthodologique

Enterprise). Ils pourront galement se livrer des scnarios afin den mesurer les
impacts (Les cubes en criture associs des outils tels que Desktop Professionnal
de Proclarity, permettront aisment de rpondre ce type danalyse). Rappelons
quExcel dispose en standard de fonctions de simulations (Scnario) ou de rsolution de problme (Solver). Ces outils ncessitant une petite formation sont
malheureusement peu utiliss.
En conclusion nous pouvons affirmer que plus de 80 % des utilisateurs mtier
ne dsirent pas passer leur temps crer des rapports, ou manipuler de linformation. En revanche ils dsirent des rapports cibls, concis, avec des graphiques
clairs. Ils veulent passer le moins de temps possible dchiffrer et prendre rapidement les dcisions ncessaires laction. Les 20 % restant reprsentent les analystes. Ils font le plus grand usage doutils dynamiques et interactifs.

2.9.2 Rgle 2 Distinguer les dcisions stratgiques ou tactiques


Chaque jour des centaines voire des milliers de dcisions tactiques sont prises
dans les organisations. Ces dcisions sont prises tous les niveaux de la hirarchie.
Exemples de dcisions tactiques :
Y a-t-il suffisamment de produits en stock pour honorer cette commande ?
Quelles sont nos meilleures offres de services ou nos produits les plus vendus ce trimestre ?
Quelle est notre meilleure offre en termes de mix-produit, de cot, et de
pricing qui prserve nos marges et accrot notre rsultat ?
Les dcisions stratgiques sont la plupart du temps prises au sommet de la
hirarchie dans lorganisation. Du fait quelles impactent en profondeur lorganisation, elles sont moins frquentes que les dcisions tactiques.
Exemple de dcisions stratgiques :
devons-nous entrer sur le march avec une nouvelle ligne de produits ?
Quels canaux de distribution devons-nous privilgier ?
Devons-nous augmenter nos parts de march ou plutt accrotre nos marges ?
Devons-nous augmenter notre budget marketing, ou tre plus efficient en
matire de production ou dvelopper un nouveau produit ?
Selon que lutilisateur manipulera des informations tactiques, stratgiques ou
les deux, les outils mis sa disposition ne seront pas les mmes.

2.10 Construire le tableau matriciel des besoins

69

2.10 CONSTRUIRE LE TABLEAU MATRICIEL


DES BESOINS
Dans un souci damlioration du dialogue avec les utilisateurs et afin de permettre aux chefs de projets de disposer dun outil de rflexion on sera bien inspir
de mettre en place quelques tableaux synthtiques dfinissant les besoins des
utilisateurs.
Un tableau gnral permettra de dfinir le primtre du projet en recensant
les diffrents thmes analytiques dvelopper ainsi que les axes dobservation.
Les projets dentreprise recensent les besoins suivants :
Tableau 2.4 Dfinir la matrice des besoins mtiers

Profitabilit
par clients/produits

Finance.
Balance

Production
Gestion de la capacit

X
X

Comptes

Organisation

Revendeur

Clients

Produits

Analyse des ventes

Processus Mtier

Ateliers

Temps

Axes dobservation ou Dimensions

Ltape suivante consiste slectionner un processus mtier puis dcomposer les axes dimensionnels et introduire les indicateurs.
Prenons le processus mtier Analyse des ventes . Celui-ci se dcompose
selon le tableau 2.5.
Afin de communiquer de faon trs visuelle avec lutilisateur il est recommand de prsenter une bauche du rsultat final. Excel ou ACCESS permettront de maquetter lapplication finale et de simuler rapidement le rsultat
attendu.
Dans lexemple prsent la figure 2.9, Excel permet lutilisateur de se
dterminer rapidement sur le rsultat attendu par lutilisateur.

70

2. Lapproche mthodologique

Analyse des ventes anne 2005


150 000
100 000

Qts cdes

50 000
0

Qtes
vendues
Retours
Roman

Sciences
humaines

Informatique

Figure 2.9 Une reprsentation visuelle


est toujours plus parlante pour lutilisateur

Le tableau 2.5 est un outil incontournable favorisant la reprsentation des


besoins exprims par lutilisateur.
Tableau 2.5 Tableau des dimensions et indicateurs
de la fonction Analyse des ventes
Dimensions
Temps
Anne
Trimestre
Mois

Produits

Revendeur

Clients

Ligne
de produit

Grossiste

Enseigne

Distributeur

Groupement

Marques

VAR

Magasins

Organisation

Indicateurs

quipe de vente Qts


cdes
Vendeur
Qt
vendues

Jour

Catgorie
de produits

YTD
(cumul)

Collection

Remises

Produit

% remise

Croissance
par priode

Point de vente

Marge

Prix
moyen

On peut galement dfinir un jeu de test et prsenter une bauche au travers


dun tableau crois dynamique.
Toutes les versions dExcel (depuis 97) permettent de prsenter des rsultats
sous forme de tableaux croiss dynamiques. Voici titre dexemple linterface
dExcel 2007 permettant de construire des tableaux croiss dynamiques. Rappelons que les sources des tableaux croiss peuvent tre indiffremment des tables,
des listes ou des cubes OLAP.

2.10 Construire le tableau matriciel des besoins

Figure 2.10 Tableau crois dynamique avec Excel (Ici version 2007)

71

3
Comment reprsenter
les donnes ?

Laptitude reprsenter graphiquement des donnes numriques nest pas intuitive. Elle requiert certaines comptences qui doivent tre acquises. Ce chapitre
introduit les meilleures pratiques en matire de conception graphique.
Dans le monde des affaires, aucune information nest plus importante quune
information quantitative. Les nombres mesurent la performance, reprent les
opportunits et prvoient le futur. Linformation quantitative est souvent prsente sous forme de graphique. Malheureusement, la plupart des graphes utiliss
dans le monde des affaires sont mal conus. Pourquoi ? Tout simplement parce
que la plupart des auteurs qui les produisent, y compris des spcialistes tels que
les financiers et les dveloppeurs de rapports, nont pas t forms la reprsentation graphique efficace.
Ce chapitre est une introduction la reprsentation pratique des donnes,
dans le but dtablir une meilleure communication entre le crateur dun tableau
et son lecteur. Heureusement, les comptences ncessaires pour traduire et communiquer efficacement la plupart des donnes daffaires ne requirent pas un
diplme spcialis en statistiques. En fait, ces comptences sont aises acqurir
mais un apprentissage est nanmoins ncessaire.
Le processus tient dans les six tapes suivantes :
Prciser le message communiquer et identifier les donnes ncessaires
sa communication.
Dterminer si un tableau de chiffres, un graphe ou une combinaison des
deux est ncessaire la communication.

74

3. Comment reprsenter les donnes ?

Si un graphe est ncessaire, on observe alors les quatre tapes suivantes :


Dterminer le meilleur moyen pour reprsenter visuellement les valeurs
numriques.
Dterminer comment afficher chaque variable.
Dterminer le meilleur rendu graphique.
Dterminer si des donnes particulires doivent tre mises en vidence. Si
oui, comment ?

3.1 CONCEPTS GNRAUX ET PRATIQUES


Avant dapprofondir le processus de conception des graphes, il y a quelques
concepts gnraux que le lecteur doit connatre et qui sappliquent en toutes
circonstances.

3.1.1 Tableaux ou graphiques ?


En gnral, lorsque lon compare les modes de reprsentation dans le but de prsenter des donnes quantitatives, il ny a pas prfrer a priori entre une reprsentation sous forme de tableaux de chiffres ou de graphes. Les deux modes de
reprsentation sont simplement diffrents.
Dfinissons quelques termes.
Tableau

Graphique

Les donnes sont reprsentes sous


forme de nombres.

Les donnes sont traduites en images.

Les donnes sont disposes en lignes


et colonnes.

Les donnes sont affiches en relation


sur un ou plusieurs axes matrialiss
par une chelle qui donne du sens aux
valeurs.

Les tableaux sont particulirement utiles lorsquil sagit de montrer des


valeurs prcises.
En revanche les graphiques sont prfrs lorsque le message communiquer
rside davantage dans la forme que la prcision des valeurs (cest--dire des
modles, des tendances ou des exceptions).
Dans le tableau suivant, on observe des taux de change prsents par anne
et par mois.

3.1 Concepts gnraux et pratiques

75

Figure 3.1 Tableau de valeurs

Si vous dsirez connatre une valeur prcise telle que le taux de mai 1996, le
tableau permet dy rpondre de la meilleure faon possible. En revanche, si vous
dsirez connatre lvolution du taux sur lanne 1996 ou de la comparer avec
lanne 1997, le graphique sera une bien meilleure reprsentation (figure 3.2).

Figure 3.2 Reprsentation graphique de donnes

3.1.2 Donnes quantitatives ou catgorielles ?


Les donnes quantitatives ne renferment pas seulement des nombres, mais aussi
des donnes qui identifient le sens des donnes.
Dans un graphique on distingue les donnes quantitatives les nombres
des donnes catgorielles les tiquettes qui prcisent ce que les nombres
mesurent.

76

3. Comment reprsenter les donnes ?

Le graphe ci-dessous (figure 3.3) met en vidence la distinction entre les donnes catgorielles reprsentes par ltiquette de chaque srie de donnes et les
donnes quantitatives sur laxe vertical des ordonnes.

Figure 3.3 Graphe prsentant des donnes catgorielles et quantitatives

Les trois types dchelles catgorielles


Les chelles catgorielles se subdivisent en trois types fondamentaux : nominal,
ordinal et intervalle (figure 3.4).
Lchelle nominale consiste en des donnes discrtes qui appartiennent une
catgorie commune, sans prsenter de rapport avec dautres donnes. Typiquement nous retrouvons des notions de rgions (Amrique, Asie, Europe, etc.) ou
dpartements (ventes, marketing, finance, production).
Les donnes qui relvent dune chelle ordinale ont un ordre intrinsque mais
ne reprsentent pas de donnes numriques. Il sagit par exemple de classements

Figure 3.4 Les trois types dchelles catgorielles

3.1 Concepts gnraux et pratiques

77

tels que petit, moyen, grand, ou mauvais, mdiocre, moyen, bon, excellent ou
rouge vert, bleu, jaune.
Les donnes qui qualifient des intervalles non seulement dfinissent un certain ordre mais reprsentent galement des valeurs. Il sagit par exemple de sries
de plages de valeurs de taille gale. Exemple : tranche 1 de 0 99, tranche 2 de 100
199, tranche 3 de 200 299, tranche 4 de 300 399, etc.
Les sept relations en donnes quantitatives
Un nombre en tant que tel ne prsente pas dintrt. En revanche, lorsquil est
compar dautres nombres il prend tout son sens. 7 500 de consommation
lectrique dans mon immeuble cette anne nest pas trs rvlateur. En revanche
lorsque jobserve que cette valeur est 40 % suprieure celle de lanne dernire
pareille poque, cela devient une alerte qui sera probablement suivie dune
action (recherche de la cause et mise en place du remde).
La plupart des donnes quantitatives peuvent tre classifies selon leur mode de
relation entre elles. Voici les types de relation les plus frquemment rencontrs.

1. Relations de sries temporelles


Lorsque des valeurs quantitatives reprsentent une srie de mesures prises intervalles rguliers, ce type de relation est appel srie temporelle (figure 3.5) Il sagit
du type de graphe le plus rpandu. En effet, 75 % des graphiques dentreprises
concernent des sries temporelles. Le temps peut tre divis en priodes de dures
variables telles que annes, trimestres, mois, semaines, jours, heures et secondes.

Figure 3.5 Graphique reprsentant une srie temporelle

78

3. Comment reprsenter les donnes ?

Ce type de graphique montre bien les mouvements la hausse ou la baisse


au fil du temps. Les sries temporelles, rvlent des tendances ou des modles quil
est ncessaire de dcrypter afin de prendre les dcisions qui simposent.

2. Relations de classement avec tri par ordre croissant


Lorsque des donnes quantitatives sont prsentes selon un ordre croissant ou
dcroissant ce type de relation porte le nom de classement.
Adhrent actif 1

REGION (Tous)

Rpartition par fonction


Nb Adhrents

Nombre de membres

18
40
107

Dposer
champs
de sries
ici

190
350
643
708
1279
0

200

400

600

800

1000

1200

1400

P.
D

Type de fonction

Di
Di
.G
Di
re
re
Vi
Au
re
.o
ct
Au
ct
c
ct
eu
tre
u
tre
eu
eu D.G
r d e- p
Pr
rg
di
r
r
.
f
s
o
'ac
G
ad
de
re
si
n
n

id
ct
ct
de
tiv
jo
ra
sit
r
en
io
io
in
it
nt
nt
n
al
e
n
t
t

10

Fonction

Figure 3.6 Relation de classement dcroissant

On utilise souvent ce mode de reprsentation pour classer les performances


des vendeurs ou les dpenses effectives des dpartements de lentreprise. Ce type
de graphe rvle non seulement lordre de classement mais permet galement de
rapprocher et de comparer certains groupes entre eux.

3. Relations de partie dun tout


Dans ce contexte, les valeurs affiches rvlent le poids de chaque part en rapport avec la globalit. Ce type de reprsentation est utile pour reprsenter la
faon dont une entit est divise en parties. Dans lexemple de la figure 3.7, on
observe la rpartition en pourcentage des membres dune association par type de
fonction.
Pour montrer la part des diffrents lments par rapport lensemble, le meilleur
moyen est dutiliser un arbre de dcomposition (voir la section 3.2.1).

3.1 Concepts gnraux et pratiques

79

Rpartition des membres en %


40,0%

38,2%

35,0%
30,0%
25,0%

21,2%

20,0%

19,2%

15,0%

10,5%

10,0%

5,7%

Vice-pr
s ident

1,2% 0,5% 0,3%

Dir ec te
ur d'ac
tiv it

on

Dir ec te
ur de s
ite

Autre fo
ncti

G ra nt

Autre d
ir ecti on

Dir ec te
ur gn
ral

P.D.G .
ou P r
sid ent

0,0%

D.G . a
djo int

3,2%

5,0%

Type de m em bres

Figure 3.7 Graphe de relation de type partie dun tout

4. Relations dcart ou de dviation


Lorsque des valeurs affichent des carts entre des objectifs prvisibles et des ralisations effectives, on utilise une relation de type cart (figure 3.8).

Production Prvu/Ralis
30

25

en M

25

20

20
15

20

18

17

Prvu

14 13
10

Ralis

10
5
0
Janvier

fvrier

mars

Avril

Anne 2006
Figure 3.8 Graphe de type cart

3. Comment reprsenter les donnes ?

Un exemple courant de ce type de graphe est celui qui rapproche des donnes
actuelles, par exemple des dpenses, par rapport des donnes prvues celles
dun budget.
Lexemple de la figure 3.9 prsente une variante du graphe dcart. Seul
lcart constat est reprsent. Il apparat soit en positif (au-dessus de laxe des
abscisses) soit en ngatif (en dessous de laxe des abscisses).
Dans le cas prsent on crera une mesure calcule cart telle que :
cart = Ralis Prvu.

carts de production

20
15
15

en M

80

10
3

5
2

fvrier

mars

0
Janvier

Avril

Anne 2006
Figure 3.9 Variante du graphe dcart

Ce type de rapport ne permet cependant pas de mesurer si lcart est matris


ou considr comme normal. La technique du KPI (indicateur cl de performance) permet de pallier cela par lajout dune composante telle que la tendance.
Exemple des ventes
Supposons que vous dsiriez un tat et une tendance des ventes et rapprocher
la cible de la mesure de prvision.
La figure 3.10 montre le nouvel indicateur cl de performance (KPI) pour les
catgories de produit. La couleur des drapeaux (Vert, rouge ou blanc) permet
didentifier immdiatement le statut de lindicateur (Bon, Mauvais, Moyen). La
figure 3.10 permet dobserver que les ventes des Business PCs ont enregistr

3.1 Concepts gnraux et pratiques

81

une meilleure performance que les prvisions. Nous observons galement que les
ventes de serveurs ont t bonnes jusquau dernier trimestre o elles ont chut
de manire significative par rapport aux prvisions.
Les flches quant elles, montrent les volutions de croissance. Les flches
sont orientes vers le haut lorsque la croissance est suprieure la priode prcdente, vers le bas lorsque la croissance est ngative.

Figure 3.10 Reprsentation dun KPI. Avec reprsentation de la tendance

5. Relation de distribution
Un graphe de distribution permet de reprsenter comment un ensemble de donnes se rpartit au sein dun spectre unique. Il permet de reprsenter des phnomnes de concentration ou dabsence de donnes. On peut parfois observer des
phnomnes de symtrie (courbe normale, ou courbe en cloche).
Lexemple de la figure 3.11 montre un pic de participation un club professionnel entre 44 et 55 ans, puis un dpart brutal 60 ans.
120

100

80

60

40

20

25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
72
73
79

Figure 3.11 Rpartition des membres par ge

82

3. Comment reprsenter les donnes ?

6. Relation de corrlation
Un graphe de corrlation mesure le rapport qui existe ou non entre deux variables. Dans lexemple ci-dessous il ne semble pas exister de rapport entre la taille
dun employ et son salaire (la rpartition des points est disparate).
Lorsquune corrlation est observe, les points ont tendance se superposer
une droite souvent matrialise par la diagonale du graphe (figure 3.12).

Figure 3.12 Relation de corrlation

7. Relation de comparaison nominale


Dans un graphe de comparaison nominale, il nexiste pas de lien entre les variables portes sur laxe des X. Dans la figure 3.13, les quatre rgions gographiques

Figure 3.13 Graphe prsentant la relation de comparaison nominale

3.1 Concepts gnraux et pratiques

83

nont aucun lien entre elles et leur ordre ne prsente pas dimportance. Tout au
plus, est-il possible de prsenter les variables selon un ordre croissant ou dcroissant afin dtablir un classement.
Exemple de cheminement dune analyse des ventes
La figure 3.14 montre que les performances des ventes au troisime trimestre
ont t particulirement leves pour la Californie. Le lecteur peut souhaiter
tudier plus en dtails ces chiffres. Il peut tre amen se poser des questions
complmentaires, par exemple : dans quelles villes ces ventes ont-elles t
ralises ? Quels produits ont contribu ce rsultat et dans quelles proportions ?
Nous verrons plus loin que la technique du forage progressif (drill down) permet
de rpondre quasi instantanment de nombreuses questions selon un cheminement priori imprvisible.

Figure 3.14 Graphe danalyse des ventes

Dterminer le meilleur moyen pour reprsenter les valeurs


Tableau 3.1 Type de relation et mthode de reprsentation
Type de relation

Mthodes privilgies pour la reprsentation

Sries temporelles

Lignes mettant en exergue lvolution des donnes


dans le temps

Classement

Barres horizontales ou verticales


Points

84

Type de relation

3. Comment reprsenter les donnes ?

Mthodes privilgies pour la reprsentation

Tout ou partie

Barres
Barres empiles
Secteurs dont les parties sont matrialises par un %

Dviation/cart/
Budget/Ralis

Histogrammes double par mesure


Histogramme reprsentant lcart

Frquence de distribution

Barres verticales (histogrammes)


Lignes (polygone de frquence)

Corrlation

Nuage de points avec ligne de tendance

Comparaison nominale

Barres horizontales ou verticales


Points

cart sur objectifs


et tendances

KPI (feux tricolores, flches)

3.2 LES NOUVEAUX OUTILS OFFERTS


PAR LE COMPLMENT PROCLARITY1
3.2.1 Larbre de dcomposition
Larbre de dcomposition permet danalyser des donnes selon des cheminements non dtermins lavance. Dans lexemple ci-dessous, nous dsirons
approfondir lactivit de ventes par produits et par ville dans ltat de Californie.
State
California
3M

100 %

City
San Jose
2 304 K

74 %

Los Angeles

San Francisco

773 K

46 K

25 %

1%

Product
Alpha IIp750

Alpha IIp1K

Omega J 500

Ml-562

837 K

435 K

404 K

158 K

36 %

19 %

18 %

7%

Omega J 750 Mx

Mark Xl/136

10 derniers

141 K

65 K

262 K

6%

3%

11 %

Figure 3.15 La reprsentation en arbre


de dcomposition permet une analyse non dterministe
1. Proclarity : socit ditrice de logiciels bass sur les technologies OLAP de Microsoft. Cette socit
a t acquise par Microsoft en avril 2006.

3.2 Les nouveaux outils offerts par le complment Proclarity

85

3.2.2 La carte de performance


Vous souhaitez analyser les ventes du troisime trimestre et leur augmentation
ville par ville en Californie. Les cartes de performances sont un outil idal pour
analyser les performances et volutions relatives. Nous commenons avec une
grille reprsentant les ventes et leur augmentation par rapport la priode prcdente pour les villes de Los Angeles, San Francisco et San Jose pour le troisime
trimestre 2002.

Figure 3.16 La carte de performance

Les villes sont maintenant regroupes par ligne de produits (PC et priphriques). Les ventes sont en hausse dans toutes les villes, lexception des ventes
de PC Los Angeles. (Los Angeles a subi une baisse de 77,6 % de ses ventes).
La croissance la plus leve a t enregistre pour les ventes de priphriques
San Jose, comme lindique la couleur claire en bas droite.
Supposons maintenant que vous souhaitiez connatre le profil des clients
lorigine de cette hausse des ventes de priphriques San Jose. Il faut afficher
uniquement les donnes relatives aux priphriques et dcomposer les ventes de
priphriques ralises San Jose par type de client (figure 3.17).

86

3. Comment reprsenter les donnes ?

Figure 3.17 Autre reprsentation de la carte de performance

3.2.3 La vue en perspective


Supposons maintenant que vous souhaitiez modifier votre analyse pour connatre
le rapport entre le volume des ventes et celui de la facturation pour chaque ville.
Pour comparer un vaste volume de donnes entre deux mesures, vous utiliserez
une vue en perspective.

Figure 3.18 Vue en perspective

3.2 Les nouveaux outils offerts par le complment Proclarity

87

Les vues en perspective sont un outil trs utile pour dtecter les carts et
identifier ainsi les reprsentations de donnes qui sortent nettement de la norme.
Par exemple, la ville de New York (reprsentation de donnes en haut droite)
se distingue clairement puisquelle prsente la fois le volume de ventes et le
volume de factures le plus lev.
Cette vue en perspective fait ressortir dautres informations :
par rapport New York, Chicago (reprsentation de donnes comprise
entre 6 et 8 millions de dollars de ventes) a enregistr pratiquement autant
de factures, mais nettement moins de ventes;
aucune ville ne prsente un ratio trs dsquilibr Volume de factures faible/
Volume de ventes lev;
dans la zone reprsentant moins de 2 millions de dollars de ventes, une
ville prsente un volume de factures lev pour des ventes mdiocres (Cleveland).

4
Entrept de donnes
et analyse dcisionnelle

Ce chapitre prsente succinctement les outils ainsi que les nouvelles mthodes
de dveloppement de processus dcisionnels qui en dcoulent.
Lors des consultations de business intelligence et de tableaux de bord que
nous donnons en entreprise, nous sommes souvent confronts deux types de
raction de la part des managers et responsables informatiques.
Dun ct, les managers qui rflchissent en termes de mtier comprennent
aisment le concept dentrept de donnes centralisateur de toutes les informations de lentreprise et de leur historisation. Ils adhrent volontiers la notion
de tableau de bord de pilotage et comprennent spontanment le concept dindicateurs et daxes danalyse de leur mtier. Les responsables oprationnels sinterrogent mme sur le fait que de telles solutions nont pas dj t mises en place
dans leur organisation. Intuitivement, ils conoivent que linformatique devrait
les aider dans ce domaine. Et pourtant la technique de collecte des donnes de
lentreprise ressemble souvent au parcours du combattant avec ses innombrables
ressaisies manuelles, ses tableaux mensuels dconnects les uns des autres ne permettant aucune consolidation annuelle. Lanalyse sur deux annes nest souvent
pas lordre du jour. La synthse seffectue dans un document final souvent ralis grce un logiciel de PAO. Les cadres, dont la vocation est de rflchir
la stratgie de lentreprise, passent une grande partie de leur temps collecter
linformation. Privs de leur capacit danalyse, ils sinterrogent sur leur valeur
ajoute dans lorganisation. Par manque de temps et surtout doutils daide la
dcision, ils ne peuvent prendre suffisamment de hauteur. Ils restent dpendants

90

4. Entrept de donnes et analyse dcisionnelle

dun systme dinformation vis--vis duquel ils mesurent leur incapacit le faire
voluer.
Dun autre ct, les responsables des systmes dinformation passent une
grande partie de leur acticit maintenir en tat de fonctionnement des organisations techniques complexes. Les nombreuses fusions et acquisitions constates ces dernires annes ont contraint les responsables IT faire communiquer
des systmes qui a priori navaient rien de commun tant sur le plan technique
que fonctionnel. Par ailleurs, les systmes dcisionnels disponibles depuis quelques annes sur le march ncessitaient des quipes ultra-spcialises tous les
niveaux de la conception, les rendant de ce fait trs couteux.
Tableau 4.1 Rpartition des modules SQL Server 2005 par composants
Composant

Module SQL
Server 2005

Destination
dans lentreprise

Extract, Transform,
Load (ETL)

Integration services

Administrateur de bases
de donnes

Entrept de donnes
relationnel et
multidimensionnel

Base de donnes
relationnelle SQL Server
2005

Administrateur
et dveloppeur

Base de donnes
multidimensionnelle
analytique

Analysis services

Dveloppeur et utilisateur
ayant des connaissances
mtier (Key User)

Exploration de donnes

Data Mining intgr


Analysis services

Statisticien et/
ou (Key User)

Cration de rapports
et modles de base

Reporting Services

Dveloppeur et Key User

Requtes et analyses
spcifiques

Report Builder, Excel 200X,


Proclarity, Office web
component. (Excel 2007
pour la lecture des KPI)

Analystes mtier

Dveloppement
dapplication BI

SQL Server business


intelligence Development
Studio

Dveloppeur

Outils de gestion de base


de donnes

SQL Server Management


Studio

Administrateurs/
dveloppeurs

Services de notification

SQL Server Notification


Services

Alertes envoyes aux


managers sur des
vnements mtier
(rupture de stock, etc.)

Entrept de donnes et analyse dcisionnelle

91

Conscient de ces faiblesses et profitant dune exprience de plus de quinze


annes, Microsoft a tent de mettre en place une solution susceptible de satisfaire
aussi bien les managers soucieux de maitriser leur mtier que les techniciens
garants de lintgrit des systmes dinformation de lentreprise.
La premire tentative de Microsoft dans le domaine de la BI fut russie grce
lintroduction de DTS et Analysis Services dans la version de SQL Server 7
puis 2000. Fort de cette exprience mais conscient galement de certaines lacunes de cette premire version, Microsoft vient de mettre sur le march sa toute
dernire version : SQL Server 2005, fruit dune longue rflexion alimente par
les pratiques des meilleurs consultants de la plante en matire de SGBD et
danalyse dcisionnelle.
Le tableau 4.1 prsente une vue densemble des composants dun systme de
business intelligence et de leur destination dans lentreprise.
On peut galement rpartir les outils selon un axe fonctionnel (tableau 4.2).
Tableau 4.2 Rpartition des modules par tche fonctionnelle
Fonction

Outil disponible

Particularit

Conception BIDS (business intelligence


Development Studio) construit
sur Visual Studio 2005

Le dveloppement de script permet


un dbogage dans tous les
composants BI

Synthse

DTS entirement rcrit porte le nom


dIntegration Services dans la version
SQL Server 2005

Prsente une vision transparente


des donnes de sources htrognes.
Le partitionnement simplifie la gestion
des donnes historiques

Stockage

UDM (Unified Data Model) permet


dunifier le monde relationnel
et multidimensionnel

La mise en cache proactive permet un


stockage en temps rel des donnes
transactionnelles

Analyse

Les cubes multidimensionnels,


les perspectives, les algorithmes
de data mining ont t enrichis

Les KPI (indicateurs cls


de performance) participent
llaboration du tableau de bord

Restitution

Reporting Services et Report Builder La diffusion est automatise


sont administrs via des services Web. sous forme dabonnement auprs
Les formats de restitution sont divers des utilisateurs
(Excel, PDF, XML, CSV, etc.)

Gestion

SQL Server Management studio


intgre la gestion de tous
les composants de SQL Server 2005

Administration centralise et intuitive


permettant une mise en uvre aise
dans les petites et moyennes
structures

Alertes

SQL Notification Services

Transmission de messages de
notifications sur la base dvnements
programms

92

4. Entrept de donnes et analyse dcisionnelle

4.1 ARCHITECTURE DE LA PLATE-FORME


DCISIONNELLE
Lorsque les administrateurs mettent en uvre SQL Server 2005, les modules
suivants sont installs :
Moteur de la base de donnes relationnelle;
Integration services;
Analysis Services;
Reporting Services (ncessite le gestionnaire des services Internet IIS install et configur sur le serveur);
SQL Server Management Studio pour la gestion des bases de donnes;
BIDS (business intelligence Development Studio) pour le dveloppement
dapplications BI.
Les informations de mtadonnes dAnalysis Services sont stockes sous
forme de fichiers XML et totalement gres par Analysis Services. Cette innovation peut cependant drouter lorsque lon est habitu au mode de fonctionnement de la console dAnalysis Services 2000. Les fichiers XML, dont les
formats sont documents par Microsoft, sont observables via un diteur XML ou
un simple bloc-notes.
Dans le module SSIS (SQL Server Integration Services), certains paramtrages
ncessitent dintervenir manuellement dans des fichiers de configuration XML.
Cette pratique est pour le moins surprenante de la part de Microsoft qui a mis
sur une interface trs conviviale par ailleurs. Gageons que ces quelques lacunes
seront combles par les prochaines versions.
BIDS est conu pour dvelopper et dboguer les applications BI tandis que
Management Studio permet dutiliser et de grer les objets de bases de donnes.
Le modle dimensionnel unifi intgre dfinitivement les bases de donnes
relationnelles et la modlisation multidimensionnelle OLAP.
Les dfis et les promesses de lanalyse dcisionnelle reposent sur la communication aux employs dinformations correctes, au moment opportun. La mise
en uvre de cet objectif requiert une analyse dcisionnelle exhaustive, scurise,
intgre aux systmes oprationnels et disponible 24 heures sur 24, 7 jours sur 7.
Cet objectif est atteint grce la nouvelle architecture de SQL Server 2005.
Les amliorations en termes danalyse dcisionnelle incluent :
Plate-forme intgre. SQL Server 2005 constitue une plate-forme danalyse dcisionnelle et analytique de bout en bout qui intgre OLAP (On

4.1 Architecture de la plate-forme dcisionnelle

93

Line Analytical Processing), lexploration de donnes, les outils ETL


(Extract, Transform and Load) dextraction, de transformation et de chargement de donnes, les entrepts de donnes et des fonctionnalits de rapports.
Prise de dcision amliore. Les amliorations des fonctions dcisionnelles existantes, comme OLAP et lexploration de donnes, et lintroduction
dun nouveau serveur de rapports fournissent aux entreprises les moyens
dexploiter les informations pour de meilleures prises de dcision, tous
les niveaux.

Figure 4.1 Le modle dimensionnel unifi (Unified Dimensional Model)


se substitue Analysis Services

Scurit et disponibilit. Des amliorations en termes de capacit monter en charge, de disponibilit et de scurit offrent aux utilisateurs un
accs ininterrompu aux rapports et aux applications dcisionnelles.
Fonctionnalits danalyse au niveau de lentreprise. Un outil ETL amlior permet aux organisations dintgrer et danalyser plus facilement les
donnes en provenance de diverses sources dinformations. En analysant
les donnes sur une large gamme de systmes oprationnels, les organisations pourront obtenir un avantage sur leurs concurrents grce une
meilleure comprhension de leurs activits.

94

4. Entrept de donnes et analyse dcisionnelle

4.2 LES AMLIORATIONS DE SQL SERVER 2005


PAR RAPPORT LA VERSION 2000
SQL Server 2005, en plus doffrir des innovations nombreuses en matire de
SGBD, rpond plusieurs dfis propres la business intelligence. De nouveaux
composants intgrs dans linterface graphique de Visual Studio permettent un
dveloppement et un dploiement aiss de la BI. Au risque dapparatre moins
acadmique que ses concurrents, Microsoft veut dmocratiser la business intelligence en la rendant accessible au plus grand nombre.

4.2.1 Actuellement, comment dveloppons-nous un projet BI ?


Avec Ralph Kimball, nous avons appris au chapitre prcdent quelles sont
les rgles fondamentales observer dans le cadre dun projet BI. Rappelonsles brivement : les donnes sont extraites des systmes oprationnels (ERP,
comptabilit, paie, etc.) en gnral chaque jour. Ltape suivante consiste
transformer les donnes brutes avant de les charger dans un datawarehouse
relationnel / multidimensionnel. Une fois le datawarehouse mis jour, les donnes sont nouveau extraites dans un ou plusieurs cubes OLAP hirarchiques/
multidimensionnels afin dtre prsentes sous une forme plus lisible aux utilisateurs. Pendant la journe, les dcisionnaires effectuent toutes sortes de requtes sur les cubes. La nuit suivante, le cycle est nouveau rpt, et les datamarts
sont rafrachis grce aux nouvelles donnes de la veille. En gnral, les administrateurs de systmes BI prfrent dfinir plusieurs datamarts mtier plutt quun
unique datawarehouse. Nous verrons dans les chapitres suivants que les notions
de datamart et datawarehouse peuvent tre dsormais confondues dans le nouveau modle UDM (Unified Dimensional Model) dAnalysis Services 2005. Ce
nouveau modle tente de relever plusieurs dfis.

4.2.2 Quels sont les dfis relever ?


Le processus dcrit ci-dessus est le plus couramment suivi par les entreprises. Il
a le mrite dtre comprhensible et donne souvent satisfaction. Cela ne veut
pas dire quil est parfait. Loin sen faut !
Dfi n 1 : Diffrentes versions de la vrit
Un problme majeur, engendr par lutilisation de multiples modles dimensionnels rside dans le rapprochement de plusieurs cubes. Un peu comme une requte
ou vue compose de plusieurs tables jointes entre elles par des cls, il est possible
de crer un cube virtuel en fusionnant plusieurs cubes, cela si les cubes lmentaires partagent les mmes dimensions.

4.2 Les amliorations de SQL Server 2005 par rapport la version 2000

95

Par exemple si nous disposons de trois cubes diffrents, chacun prsente une
dimension Client propre. Dans le premier cube, la notion de client se dfinit
comme : toute personne qui a command un article depuis 2 ans . Dans le
deuxime, un client reprsente toute personne qui prsente un chiffre daffaires
de plus de 10 k . Dans le troisime cube, le client est toute personne qui
dispose dune adresse complte et valide . Nous le voyons, ces trois cubes ont
t dvelopps pour des dpartements diffrents et prsentent un sens diffrent.
Maintenant, imaginez que le directeur de chaque dpartement dcide de prsenter dans un tableau de synthse les dpenses annuelles de publicit ralises par
client. Les rsultats, bien que diffrents, paratront chacun cohrents. Si les
trois dirigeants tentent maintenant de confronter leurs rsultats, des carts sensibles apparatront. La raison en est que la dimension Client est interne chaque
cube et non partage par lensemble des trois cubes. Nous montrerons comment
UDM fournit une rponse lgante ce problme.
Dfi n 2 : Recopie multiple des donnes
Les modles classiques de BI maintiennent au moins deux copies des donnes
en plus de la donne originale; une dans le datawarehouse global, une autre dans
le datamart mtier. Comme les cubes sont indpendants, il nest pas rare non
plus de constater que les donnes sont dupliques entre les datamarts. Non seulement cette technique est trs coteuse en espace disque, mais elle met encore
une fois en vidence la notion de versions diffrentes de la vrit .
Dfi n 3 : La localisation des donnes est difficile
La localisation est le procd qui permet de prsenter linformation aux diffrents
utilisateurs dans leur propre langue et dans la monnaie de leur pays. Les systmes
actuels ne permettent pas de disposer de traductions des hirarchies de dimensions ainsi que des contenus des membres de dimensions.
Lors dune interrogation de la base articles, si votre langue naturelle est celle
de Molire, laquelle de ces deux rponses prfrez-vous recevoir du systme ?
Item : Road-550-W Yellow, 40 Same technology as all of our Road series bikes,
but the frame is sized for a woman. Perfect all-around bike for road or racing.
Ou
Article Vlo de route 550 W jaune, 40 quip de la mme technologie que
tous nos vlos de route, avec un cadre femme. Idal pour la promenade ou la
course sur route.
Dfi n 4 : Le schma en toile ne permet pas de modliser la complexit des donnes
Un modle dimensionnel traditionnel dvelopp avec Analysis Services de SQL
Server 2000 est un schma en toile constitu dune table de fait centrale et
dun certain nombre de dimensions. Il existe des options pour la cration de

96

4. Entrept de donnes et analyse dcisionnelle

schma en flocon, de dimensions de type parent-enfant ou la mise jour de


dimensions variation lente . Mais, dans la vie courante, il nest pas exclu
de rencontrer des relations plusieurs plusieurs au niveau des tables de faits
(exemple : un compte bancaire est ouvert au nom de plusieurs propritaires et
chaque propritaire dispose dun ou plusieurs comptes bancaires. Une commande
peut faire tat de plusieurs adresses dexpdition, une adresse peut son tour
faire lobjet de plusieurs commandes).
Un autre exemple concerne les dimensions multiples hirarchies. En effet,
la dimension temporelle est-elle base sur le calendrier classique ou le calendrier
fiscal ?
Que penser encore des dimensions composes uniquement dattributs non hirarchiques. Par exemple, les clients ont des attributs tels que le genre, lge, le
nombre denfants, la tranche de revenus etc. lvidence, ces attributs appartiennent bien au mme client mais ne prsentent pas de caractre hirarchique
entre eux. Dans Analysis Services 2000, ces attributs gnraient des dimensions
diffrentes.
Dfi n 5 : Les systmes BI actuels ne permettent pas le rafrachissement
de donnes OLAP en temps rel
Les dcisionnaires rclament des informations jour avant de prendre leurs dcisions. Il existe de plus en plus de situations dans lesquelles lanalyse des donnes
en temps rel est ncessaire (exemple : dans un hypermarch, lanalyse dun
rayon quart dheure par quart dheure permet de suivre lefficacit des messages
sonores diffuss dans le magasin. Lanalyse du ticket de caisse en quasi temps rel
permet de dtecter des corrlations entre la vente de certains produits et la prsence dun commercial sur le terrain).

4.3 LES NOUVEAUX COMPOSANTS


DANS SQL SERVER 2005
SQL Server 2005 rpond tous ces dfis en offrant plusieurs composants nouveaux. Les plus largement comments sont UDM (Unified Dimensional Model)
et le cache Proactif. Voici quelques-unes des innovations.

4.3.1 Les vues des sources de donnes (Data Source Views, DSV)
Les systmes BI extraient leurs donnes dun grand nombre de sources diffrentes.
La nouvelle technologie du DSV permet ladministrateur du cube de concevoir
un accs aux donnes des ERP ou dautres systmes oprationnels. Les adminis-

4.3 Les nouveaux composants dans SQL Server 2005

97

trateurs dERP, trs soucieux de conserver lintgrit et la scurit des donnes


dont ils ont la responsabilit, apprcient particulirement cette technologie qui
scurise les accs aux tables tout en offrant aux dveloppeurs de cube une vue
slective des donnes de base. Les DSV permettent daccder toutes sortes de
sources diffrentes tels que fichiers XML, fichiers textes, fichiers Excel, tout en
les considrant comme des tables. De plus, les DSV permettent de renommer des
champs de manire plus conviviale, ou de crer des relations virtuelles entre les
tables sans jamais toucher la structure des tables sous-jacentes.

4.3.2 Les cubes et UDM


UDM est un outil de modlisation multidimensionnelle. De ce fait, il ressemble
loutil Analysis Services 2000. Cependant, loutil de modlisation a t profondment remani dans SQL Server 2005. Alors quavec Analysis Services 2000
il tait ncessaire de crer autant de cubes que de types danalyses (table de fait
unique), UDM peut crer un modle dimensionnel unique applicable lensemble de lentreprise en regroupant dans un schma synthtique toutes les tables
de faits et de dimensions.
En regard des commentaires que nous faisions plus haut, cette technique
apporte une srieuse rponse dans le cadre de la non-redondance dinformation
et donc satisfait notre recherche de centralisation de la vrit .
On le voit, UDM rpond notre dfi n 1, les diffrentes versions de la
vrit , tout en offrant une richesse supplmentaire la construction du modle.
De plus le nouveau modle permet de construire des dimensions non hirarchiques bases sur les attributs de dimensions et cela sans perte de performance.
Cette amlioration rpond notre dfi n 4 le schma en toile ne permet pas
de modliser la complexit des donnes .
Alors que les outils du march privilgient encore la multiplication des datamarts, lUDM consolide la plate-forme centrale tout en la rendant plus cohrente.
Il nexiste plus quune seule vue analytique de linformation de lentreprise. Le
terme unifi du modle UDM (Unified Dimensional Model) prend tout son sens.

4.3.3 Les perspectives


La consquence de ce qui prcde entrane une plus grande complexit du modle
multidimensionnel. Si tous les indicateurs de lentreprise se retrouvent maintenant dans un unique modle, il va falloir offrir aux utilisateurs un moyen de
clarifier leurs recherches. Do la notion de perspectives permettant des observations dans le cube en fonction du mtier et du dpartement de lutilisateur.
Lenjeu consiste donc cacher des mesures qui ne sont pas pertinentes lanalyse.

98

4. Entrept de donnes et analyse dcisionnelle

4.3.4 Le cache proactif


Maintenant que nous avons matris le modle danalyse, le rendant adapt aux
diffrents groupes de travail, il sagit de matriser le processus dalimentation du
cube et en particulier de dfinir la cadence de rafrachissement des donnes en
provenance des sources oprationnelles. Le cache proactif permet de dfinir la
frquence de mise jour des donnes, soit en fonction du temps (plusieurs fois
par heure) soit en fonction dvnements notifis par la base oprationnelle.
(exemple : la mise jour du contrat dun client entrane une rpercussion immdiate dans le cube et donc sa mise jour). Cela rpond au dfi n 5 : les systmes BI actuels ne permettent pas le rafrachissement de donnes OLAP en
temps rel . Dans la pratique les donnes intermdiaires sont stockes dans un
espace mmoire temporaire (cache proactif) grce Notification Services puis
appliques dfinitivement lors du traitement complet du cube.

4.4 LES AMLIORATIONS APPORTES


AVEC SQL SERVER 2005 SP1
Le Service Pack 1 (SP1) de Microsoft SQL Server 2005 intgre de nouvelles
fonctionnalits comme la mise en miroir des bases de donnes (database mirroring) ou encore SQL Server Reporting Services (SSRS) ainsi quun nouvel outil
dadministration pour SQL Server Management Studio Express. Le SP1 offre
galement des mises jour de SQL Server 2005 Express dition destination
des diteurs de logiciels indpendants qui dsirent tirer parti de fonctionnalits
innovantes.

4.4.1 La mise en miroir des bases de donnes


Cette nouvelle fonctionnalit complte les fonctions existantes de SQL Server
2005 afin dassurer une disponibilit totale des donnes, comme le cluster de
basculement, les clichs instantans de bases de donnes, lisolation de ces derniers ou lenvoi de journaux de transactions.
De nouvelles fonctionnalits intgres SQL Server 2005 Express dition
Le SP1 tend les possibilits des petites entreprises et des diteurs de logiciels
indpendants qui utilisent la version gratuite SQL Server 2005 Express Edition.
Cette dernire intgre dsormais la fonction SQL Server Reporting Services
(SSRS), la recherche de texte intgral, et galement le nouvel outil, SQL Server
Management Studio Express.

4.5 Les services de notification

99

4.4.2 Une cration facilite de rapports


sous SAP NetWeaver business intelligence
Afin doffrir une vision complte de lactivit de lentreprise via la gnration
de rapports sur SAP NetWeaver business intelligence, le SP1 apporte des complments loutil SSRS. Il sappuie sur deux nouveaux composants : un fournisseur de donnes Microsoft.NET pour SAP NetWeaver business intelligence et
un nouveau concepteur de requtes MDX. Cette nouvelle fonctionnalit tend
les bnfices de la gnration de rapports dentreprise sous SQL Server, en permettant aux clients SAP de crer et grer des rapports partir dinformations
rsidant dans un entrept de donnes SAP BW.

4.5 LES SERVICES DE NOTIFICATION


SQL Server 2005 a introduit le concept de notification dvnements programms. Le service de notification offre au dveloppeur une plate-forme permettant
davertir lutilisateur lorsque des vnements particuliers sont reprs dans le
SGBD. Lalerte peut tre donne au moyen de dispositifs varis tels que plateformes mobiles, organiseurs personnels (PDA), tlphones cellulaires ou tout
autre dispositif.
Voici quelques exemples qui entrent dans le champ daction de Notification
Services. :
alerter lorsque louvrage Harry Potter atteint le seuil de rupture de stock
et dclencher une nouvelle commande;
prvenir lorsque le tableau Excel que je partage avec des collgues a fait
lobjet de modification;
tre inform lorsque mon compte bancaire est dcouvert;
tre inform lorsquune valeur boursire a atteint telle limite;
avertir le chef de production lorsquune pice fabrique est dfectueuse;
avertir le client sans dlai lorsque tel article est nouveau disponible en
stock.
Notification Services est utile chaque fois quun utilisateur dsire sabonner
un service de rception automatique de documents ou lorsque des vnements
se produisent sur tel ou tel critre. On parlera de souscription dabonnements
pilots par les donnes.

5
Introduction
Integration Services

Quel que soit le projet de business intelligence, le processus dETL a pour seul but
de fournir de solides fondations au rfrentiel de donnes et aux fonctions de reporting et danalyse. Nous pensons que la phase dETL doit tre mene avec une vigilance toute particulire car elle conditionne la qualit de la chane dcisionnelle.
Ce chapitre a pour objectif de prsenter les diffrents composants dIntegration Services associ business intelligence Development Studio. Nous introduirons diffrents concepts tels que les flux de contrle et les flux de donnes. Nous
prsenterons les nombreux outils et assistants dont la vocation est de simplifier
le travail de programmation ou dadministration des techniciens de la business
intelligence. Afin dillustrer SSIS, nous procderons la gnration automatique
dun lot visant alimenter une table de dimension dans lentrept de donnes.
Nous prsenterons les diffrentes tches qui ont t cres automatiquement et
dcouvrirons leur contenu avant de crer un lot de toutes pices.
Nous donnerons galement un aperu de lensemble des tches inclus dans
les flux de contrle et les flux de donnes.

5.1 PRSENTATION DE SQL SERVER


INTEGRATION SERVICES (SSIS)
SSIS met la disposition de ladministrateur de base de donnes et du dveloppeur un ensemble doutils permettant de rsoudre, quasiment sans programmation, des tches qui rentrent naturellement dans le dveloppement dapplications

102

5. Introduction Integration Services

dcisionnelles mais galement dans tout processus de manipulation de donnes


(figure 5.1). Les administrateurs de base de donnes et les dveloppeurs avaient
lhabitude de coder les tches dadministration. Au prix dun nouvel apprentissage, ils trouveront dornavant des outils damlioration de leur productivit.

Figure 5.1 Positionnement de Integration Services dans la chane dcisionnelle

Integration Services (SSIS) est le successeur de DTS (Data Transformation


Services) inclus dans la version SQL Server 2000. Integration services a t entirement rcrit. Il reprend bien sr les fonctionnalits de DTS et apporte un cortge de nouveauts fort apprciables des professionnels de la BI. SSIS offre une
nouvelle interface graphique dont le but est dallger grandement le travail de
programmation.
En annexe, nous prsentons les diffrents profils IT gravitant autour de SSIS.
Rappelons-les brivement :
administrateur de base de donnes;
administrateur de serveur de rapports (informatique dentreprise);
expert en scurit;
administrateur dentrepts de donnes.
Bien que la fonction principale dun ETL rside dans lalimentation du datawarehouse, SSIS fournit de nombreux outils visant automatiser un grand nom-

5.1 Prsentation de SQL Server Integration Services (SSIS)

103

Figure 5.2 Le cycle Integration Services (source Microsoft)

bre de tches qui participent de prs ou de loin la construction de lentrept


de donnes.
La figure 5.2 montre le regroupement dun grand nombre de tches dans un
mme et unique module. Cette dmarche permet la modularit de tches complexes et en mme temps leur centralisation dans un mme processus. On peut
synthtiser les amliorations de SSIS par rapport DTS comme suit :
lintgration des donnes et la cration de lentrept sont ralises au
moyen dune seule opration;
la rcupration, la prparation et le chargement des donnes seffectuent
dans un seul processus auditable;
la gestion de trs gros volumes de donnes est possible.
Afin dillustrer concrtement le domaine dapplication de SSIS, nous allons
passer en revue quelques-unes des fonctionnalits.
Fusion de donnes partir de bases htrognes
Nous lavons dj dit, les donnes dentreprises sont gnralement stockes au
sein de diffrents silos rpartis sur des plates-formes gographiquement loignes
et dans des formats disparates (Excel, Access, Oracle, DB2, ERP propritaire, etc.).
SSIS permet daccder un grand nombre de sources de donnes (.NET, OLE
DB, ODBC, XML, fichiers plats) afin de les rendre compatibles entre elles dans
leur format physique et homognes dans leur contenu.

104

5. Introduction Integration Services

Ce processus est pris en charge par le mcanisme des flux de donnes. Ce


dernier utilise trois types de composants : sources des flux de donnes, transformation des flux de donnes, destination des flux de donnes.
Alimentation des entrepts de donnes et datamart
Par nature, un ETL est charg dextraire des donnes, de les transformer et de
les charger dans un entrept mtier galement appel datamart. SSIS nchappe
pas cette rgle. Ces tches rptitives et parfois complexes, doivent tre consignes dans un enchanement de tches lmentaires. Chacune de ces tches est
destin la manipulation des donnes. Quel que soit le degr de simplicit ou
de complexit du traitement de la donne, celui-ci est pris en charge grce de
multiples assistants. Ceux-ci sont regroups au sein dune interface graphique et
relguent au rang des oubliettes les antiques lignes de code en C# ou Visual
Basic. Rassurons immdiatement les dveloppeurs : ils continueront manipuler
du code SQL, des procdures stockes et pourquoi pas du code VB ou C# lorsque
les assistants auront atteint leurs limites fonctionnelles.
Les tches dintgration sont rassembles dans un package ou lot. Le flux de
contrle tablit lenchanement des tches du package. Certaines tches ont pour
vocation dassurer la transformation de donnes. On les appelle tches de flux
de donnes.

Figure 5.3 Un package enchane


diffrents types de tches dans le flux de contrle

Les flux de donnes traitent essentiellement des fonctions de transformation


de donnes. Elles sont au minimum composes dune source de donnes, dune
transformation et dune destination.

5.1 Prsentation de SQL Server Integration Services (SSIS)

105

Les tches de SSIS peuvent galement excuter des sauvegardes de bases


compltes ou traiter des cubes et des dimensions Analysis Services. Le traitement
automatis de bout en bout permet de maintenir une parfaite synchronisation
entre les donnes de lERP, du datawarehouse et des cubes OLAP associs.
Une des grandes tches dun ETL est de procder la dnormalisation des
tables lors du passage du modle oprationnel (OLTP) au modle multidimensionnel (DW). LETL profite galement de ces transformations pour introduire
des fonctions dagrgation telles que SUM, COUNT et AVERAGE dans lentrept de donnes (DW).
Nettoyage et standardisation des donnes
Quelle que soit lorigine des donnes (OLTP, OLAP, Excel, Access, fichiers plats,
etc.), elles doivent tre pralablement nettoyes et standardises. En voici quelques illustrations :
Les succursales dune mme organisation utilisent des conventions et des
standards qui leur sont propres.
Les donnes peuvent tre acquises auprs de loueurs professionnels. Avant
dtre exploites, il est ncessaire de les standardiser et de les rendre compatibles avec les donnes dj existantes dans lentreprise.
Certaines donnes peuvent tre spcifiques des critres rgionaux (formats
numriques, date et heure). Avant de les charger, il est ncessaire de les
convertir en un mme rfrentiel.
Un lot SSIS peut galement substituer des valeurs de champs par recherche
de valeurs issues dune table de rfrence (fonction lookup). SSIS dispose dalgorithmes de recherche exacte ou floue des fins de substitution et de standardisation. Par exemple, dans les cas dune rcupration dadresses de prospects, la ville
peut tre mal orthographie (Pari au lieu de Paris). Lalgorithme de recherche
floue permet de conserver la bonne orthographe et ainsi de standardiser les
valeurs dans le rfrentiel de lentreprise. Ce mme type dalgorithme permet
galement de dtecter des doublons lors de lintroduction de nouvelles adresses
et ainsi deffectuer un traitement spcifique.
La transformation de donnes intelligentes
SSIS prsente des fonctions de transformation dynamique afin de sadapter aux
donnes auxquelles il accde. En fonction du contenu de donnes en entre, SSIS
permet de fusionner plusieurs lignes source en une seule ou au contraire de fractionner des lignes en plusieurs destinations. Il est possible galement dappliquer
diffrentes fonctions dagrgation selon les donnes source.

106

5. Introduction Integration Services

Les conteneurs permettent de grouper certaines tches participant un mme


objectif. On attribuera ces conteneurs des variables partages par toutes les
tches le constituant. Les conteneurs rptitifs permettent galement deffectuer
des itrations pour chaque lment constitutif du conteneur. Par exemple, une
tche FTP transfre quotidiennement des fichiers en provenance des succursales
dans un rpertoire de destination. Lorsque tous les fichiers ont t transfrs et
sans en connatre le nombre exact, SSIS balaie squentiellement le contenu du
rpertoire, traitant les uns aprs les autres tous les fichiers du rpertoire.
Automatisation des fonctions dadministration
SSIS permet dautomatiser des tches dadministration telles que sauvegardes et
restaurations de bases de donnes. Il est galement possible de copier des bases
de donnes SQL Server ou certains objets quelles contiennent vers dautres instances ou dautres bases.
Un package SSIS peut excuter dautres packages. Cela permet au dveloppeur ou ladministrateur de morceler son travail en sous-ensembles cohrents, et den assurer plus facilement la maintenance ou la rutilisation.
Un package peut utiliser une tche de bouclage afin de scanner un certain
nombre de serveurs et ainsi raliser des fonctions similaires sur plusieurs serveurs.
SSIS dispose dun numrateur qui passe en revue les objets SMO (SQL Management Object).
Les packages SSIS peuvent tre planifis laide de lagent SQL Server.
Synthse de larchitecture de SSIS
Nous lavons vu, SSIS est compos de packages ou lots. Chaque package comprend
un ou plusieurs flux de contrle. Certains flux de contrles englobent leur tour
des tches de flux de donnes (tche de transformation).
Le concepteur graphique de SSIS est scind en quatre modules distincts matrialiss par des onglets diffrents visant :
construire le flux de contrle qui squence lensemble des tches du package;
construire le flux de donnes et les transformations lmentaires entre
une source et une destination;
mettre en uvre un gestionnaire dvnements permettant de ragir
certains vnements lors du traitement tels que en cas derreur, en cas de
bon fonctionnement, en cas darrt du lot, etc.);
afficher le contenu et la progression de lexcution du package, ce qui
facilite le dbogage.

5.1 Prsentation de SQL Server Integration Services (SSIS)

107

Figure 5.4 Schma global des composants de SSIS

Les enchanements de tches ou workflow intgrent des fonctions comme des


transferts de fichiers (FTP), lexcution dinstructions SQL, de procdures stockes, lenvoi de messages par courriel. La prise en compte dun grand nombre de
sources de donnes permet des connexions en provenance de multiples bases de
donnes. Integration Services permet dautomatiser des tches de transformation, de nettoyage, dagrgation, de fusion et de copie de donnes. Des interfaces
de programmation sont fournies permettant aux dveloppeurs dintgrer ces API
dans leurs dveloppements.

108

5. Introduction Integration Services

Dans ce chapitre, vous apprendrez utiliser SSIS pour crer un lot dont la
finalit sera de rcuprer des donnes en provenance de Access et Excel, puis
dinsrer ces donnes dans une table de dimension de lentrept de donnes.
Structure dun package SSIS
Business intelligence Development Studio (BIDS) est une interface conviviale
visant construire des packages Integration Services.
Lorsque nous utilisons BIDS, plusieurs onglets sont notre disposition.

Longlet Flux de contrle


Il permet :
de crer des conteneurs qui dfinissent des flux de travail rptitifs;
de subdiviser des tches en sous-ensembles cohrents;
de crer des tches de flux de donnes;
de prparer les donnes;
de crer des scripts;
dordonner les flux en appliquant des contraintes de prcdence.

Figure 5.5 Longlet Flux de contrle et le gestionnaire de connexions

5.1 Prsentation de SQL Server Integration Services (SSIS)

109

La figure 5.9 prsente les lments du flux de contrle.

Longlet Flux de donnes


Il permet :
dajouter une ou plusieurs sources de donnes;
dajouter des gestionnaires de connexion;
de crer des transformations afin de rpondre aux besoins mtier;
dajouter une ou plusieurs destinations telles que des tables ou bases de
donnes;
de dtecter des erreurs lors des transformations et de traiter les exceptions.

Figure 5.6 Longlet flux de donnes

Longlet Gestionnaire dvnements


Il permet :
traiter les vnements qui se dclenchent lors du traitement du package
(exemple : envoyer un message lectronique lors de lchec ou lachvement dun package);
traiter les vnements pour tous les types de tches du package.
La figure 5.7 montre linterception de lerreur lors de lexcution du package,
et lenvoi dun courriel dinformation.

110

5. Introduction Integration Services

Figure 5.7 Le gestionnaire dvnements permet de dclencher


des tches en cas derreur (ou autres vnements)

Longlet Explorateur de Package


Il permet :
de fournir un aperu du package;
de lister les excutables;

Figure 5.8 Longlet prsentant lexplorateur des objets contenus dans un package

5.1 Prsentation de SQL Server Integration Services (SSIS)

Figure 5.9 Liste des outils mis disposition


de ladministrateur pour le flux de contrle

Figure 5.10 Liste


des tches disponibles
dans DTS 2000

111

112

5. Introduction Integration Services

de lister les contraintes de prcdence qui relient les tches;


de lister le gestionnaire dvnements;
de lister le gestionnaire de connexions.
titre de comparaison, linterface DTS de SQL Server 2000 prsentant les
tches est donne figure 5.10.

Figure 5.11 Liste des connecteurs standard disponibles dans DTS 2000

5.2 MIGRER UN PACKAGE DTS 2000


Les packages dfinis dans SQL Server 2000 peuvent tre rcuprs dans SSIS
selon trois stratgies :
Migrer les packages DTS au format SQL Server 2005. Cette migration
nest possible que si les lots DTS 2000 nutilisent que des fonctionnalits
ayant un quivalent dans SSIS 2005. Si lors de la migration lassistant
dtecte des erreurs, il convient alors dutiliser une des deux stratgies suivantes.

5.3 Migrer une base SQL Server 2000 vers SQL Server 2005

113

Excuter les lots DTS en utilisant le runtime DTS de SQL Server 2000.
Intgrer ou encapsuler les lots DTS dans une solution SSIS 2005.
Ces assistants sont disponibles dans les versions SQL Server 2005 Standard,
Enterprise ou Developer.
Lassistant de migration est intgr SSIS. Projet puis Migrer un package
DTS 2000.
Le site msdn de Microsoft recense les problmes connus lis la migration des
packages 2000 vers 2005 (http://msdn2.microsoft.com/fr-fr/library/ms143462.aspx).

5.3 MIGRER UNE BASE SQL SERVER 2000


VERS SQL SERVER 2005
Le processus de migration dune base de donnes SQL Server 2000 vers 2005 peut
tre ralis grce une sauvegarde de la version 2000 (exemple Northwind.bak).
Dans Management Studio 2005, procder la cration de la base NorthWind.
La restauration de la base SQL 2000 vers SQL Server 2005 ncessite dtablir
la compatibilit descendante vers SQL Server 2000 lors de la cration de la base
dans SQL Server Management Studio 2005.

Figure 5.12 Assurer un niveau de compatibilit SQL Server 2000

114

5. Introduction Integration Services

Le processus de restauration se droule selon les tapes suivantes :


Spcifier lemplacement de la sauvegarde.
Dans les options, cocher la case Remplacer la base existante.
La restauration seffectue normalement.
Aprs la restauration, passer le niveau de compatibilit SQL Server 2005
afin de bnficier des fonctionnalits avances.
Nous verrons dans le paragraphe suivant que SSIS dispose galement dune
fonction permettant deffectuer le transfert de base du format SQL 2000 vers
SQL 2005.

5.4 TCHES DINTGRATION SERVICES


Tches des lments de flux de contrle
La bote outils de flux de contrle recense lensemble des tches du plan de
maintenance et de flux permettant denchaner des processus de traitement de
donnes.

Conteneur de boucle Foreach


Le conteneur de boucle Foreach excute un ensemble de tches autant de fois
quil y a dlments dans la collection qui les contient.
Plusieurs types de collections peuvent tre utiliss :
fichiers prsents dans un rpertoire et rpondant un critre particulier;
chaque ligne dun recordset ADO ou ADO.NET dataset;
chaque ligne de toutes les tables dun dataset ADO.Net;
chaque table dun dataset ADO.Net;
chaque lment dune variable qui comporte une collection dobjets;
chaque nud dune liste XML;
chaque objet dune collection SMO.
Dans la figure 5.13, la tche Create tables est incluse dans la boucle qui
porte le nom Run SQL Statements . Cette tche sera donc rpte.
La liste des fichiers dans le conteneur de type rpertoire est donne figure 5.14.

5.4 Tches dintgration services

115

Figure 5.13 Boucle excutant des commandes SQL de cration de table

Figure 5.14 Liste de fichiers dans un conteneur de type rpertoire

Pour information voici le contenu du fichier portant le nom CreateProspectTableTerr1.SQL.


/* Creates the Territory table*/
IF NOT EXISTS (SELECT * FROM AdventureWorks.sys.tables WHERE
type = Uand name = Territory1)
CREATE TABLE AdventureWorks.dbo.Territory1 (
[CustomerKey] [int] IDENTITY (1, 1) NOT NULL,
FirstName nvarchar (15),
MiddleInitial nchar (1),
LastName nvarchar (20),
BirthDate datetime,
MaritalStatus nchar (5),
Gender nchar (1),
Salutation nvarchar (10),
EmailAddress nvarchar (100),
YearlyIncome int,
TotalChildren tinyint,
NumberOfChildrenAtHome tinyint,
Education nvarchar(40),
Occupation nvarchar(30),

116

5. Introduction Integration Services

HomeOwner nchar (3),


NumberCars tinyint,
AddressLine1 nvarchar (50),
City nvarchar (30),
State nchar (3),
PostalCode nvarchar (10),
Phone nvarchar (20),
Territory int
)
ELSE TRUNCATE TABLE AdventureWorks.dbo.Territory1

La figure 5.15 montre une collection dune collection dobjets constitus des
fichiers contenus dans un rpertoire donn. La boucle ForEach balaie le rpertoire
la recherche de fichiers dont lextension est .SQL.

Figure 5.15 Lditeur de boucle Foreach

chaque boucle, le nom de fichier est transmis la variable utilisateur vFileName.


Le gestionnaire de connexion CreateTableSQL transmet le nom de fichier la
tche Create Tables .
chaque boucle, la variable @[User::vFileName] reoit le nom du fichier et
modifie dynamiquement la connexion.
La tche dexcution SQL puise sa requte dans le fichier source grce au
gestionnaire de connexion CreateTableSQL.

5.4 Tches dintgration services

Figure 5.16
Variable utilisateur
dans lditeur
de boucle

Figure 5.17 Proprit de la connexion CreateTableSQL

117

118

5. Introduction Integration Services

Figure 5.18 Lditeur de tche dexcution dune commande SQL

Conteneur de boucle For


Le conteneur de boucles For dfinit un flux de contrle rptitif dans un package.
La mise en uvre de la boucle est similaire la structure de bouclage For Next
des langages de programmation. Lors de chaque rptition de la boucle, le conteneur de boucles For value une expression et rpte son flux de travail jusqu
ce que lexpression renvoie la valeur False.

Figure 5.19 boucle For

Conteneur de squences
Le conteneur de squences regroupe un sous-ensemble de tches pour mieux
structurer le package. Il offre lavantage de pouvoir tre dsactiv, ce qui a pour
consquence de dsactiver toutes les tches qui le composent. Cette fonctionnalit est particulirement intressante en phase de dbogage. Il est possible galement de dfinir des proprits sur le conteneur plutt que sur chacune des
tches qui le composent.

5.4 Tches dintgration services

119

Tche DDL dexcution SQL Server Analysis


La tche DDL dexcution de Analysis Services excute des instructions qui peuvent crer, modifier ou supprimer des cubes multidimensionnels et des dimensions. La tche DDL utilise un gestionnaire de connexion Analysis Services.

Tche de flux de donnes


Cette tche permet de copier des donnes entre des sources et des destinations
tout en offrant la possibilit de transformer, nettoyer et modifier les donnes. La
tche de flux de donnes reprsente le conteneur dont le dtail des tches est
fourni dans longlet Flux de donnes .
les sources prcisent les connecteurs vers les sources de donnes (fichiers
plats, tables ou vues SQL);
les transformations modifient les donnes;
les destinations chargent les donnes.
Lors de lexcution, la tche cre un plan dexcution partir du flux de donnes. Le moteur de flux de donnes excute le plan.

Source

Transformation

Transformation

Destination
Figure 5.20 La tche de flux de donnes alimente une destination (table SQL Server,
fichier plat, etc.) partir des donnes sourcesTche de requte dexploration de donnes

Cette tche excute des requtes bases sur des modles prdictifs intgrs
Analysis Services. Par exemple, lors du chargement de donnes dans une base,
une telle requte peut prdire si un nouveau prospect est susceptible dacheter
ou non tel ou tel article et disoler les cas dans des tables intermdiaires. La
requte est une instruction DMX (Data Mining Extensions).

120

5. Introduction Integration Services

Tche de script
Cette tche permet au programmeur de raliser des fonctions non disponibles
dans les tches intgres de SSIS.

Figure 5.21 La tche de script ActiveX envoie un message


en cas derreur (incohrence entre les deux tables)

Le code ci-dessous permet de vrifier la cohrence des donnes entre une


table de faits (FactFinance) et une table de dimension (DimActivity) sur un serveur SQL 2000 (Provider=SQLOLEDB.1).
Const DB_CONNECT_STRING = "Provider=SQLOLEDB.1;Data
Source=Monserveur\sql2000; Initial Catalog=Pubs;user
id = sa;password=sa"
Dim OK_or_KO

Name :
Auteur
Objectif :
Retour

Function ExecuteSQL
B. Burquier
Executes a SQL statement
ADO Recordset

Function Main()
Call Process_Control()
If OK_or_KO = "OK" then
Main = DTSTaskExecResult_Success
Else erreur
Main = DTSTaskExecResult_FAilure
End if
End Function

5.4 Tches dintgration services

121

Sub Process_Control()
Dim rstResult
Requete de non correspondance
StrQuery = "SELECT FactFinance.CompanyId, FactFinance.AccountId,
FactFinance.ActivityId, FactFinance.CurrencyId, FactFinance.ProjectId, FactFinance.TimeId, FactFinance.AppealId, FactFinance.ScenarioId, FactFinance.DataCHF, FactFinance.DataLocalCurr,
FactFinance.LineDescription FROM FactFinance LEFT JOIN DimActivity ON
FactFinance.ActivityId = DimActivity.ActivityId WHERE DimActivity.ActivityId Is Null"
Get the ADO Recordset
Set rstResult = ExecuteSQL(strQuery)
If the Recordset is not empty then proceed
If Not (rstResult.Eof and rstResult.Bof) Then non vide
Msgbox "Non vide = failure"
OK_or_KO = "KO"
Else vide
MsgBox "vide = Success"
OK_or_KO = "OK"
End If
Clean up variables
Set rstResult = Nothing
End Sub

Name :
Function ExecuteSQL
Author :
B Burquier
Purpose :
Executes a SQL statement
Return
ADO Recordset

Function ExecuteSQL(mySQLCmdText)
instantiate the ADO objects
Dim myConn
Dim myRecordset
set myConn = CreateObject("ADODB.Connection")
set myRecordset = CreateObject("ADODB.Recordset")
set the connection properties to point to the database using
the constant
myConn.Open = DB_CONNECT_STRING
myRecordset.Open mySQLCmdText, myConn
Set ExecuteSQL = myRecordset
End Function

122

5. Introduction Integration Services

Tche de service Web


Cette tche permet dexcuter une mthode de service web. Elle rcupre dans
une variable ou un fichier, des valeurs renvoyes par la mthode de service Web.
Le gestionnaire de connexions HTTP permet de pointer vers un site web ou un
fichier WSDL (Web Service Description Langage). Exemple : http: //MyServer /
MyWebService/MyPage.asmx?WSDL

Tche de systme de fichiers


Cette tche effectue des oprations sur les fichiers et les rpertoires. Il est possible
de copier un rpertoire et son contenu, de dplacer des fichiers, den modifier
les attributs, etc. Le gestionnaire de connexion permet de choisir le serveur sur
lequel effectuer les oprations. Les tches de systme sur les fichiers et rpertoires
sont les suivantes :
copier un rpertoire;
copier un fichier;
crer un rpertoire;
supprimer un rpertoire;
supprimer le contenu dun rpertoire;
supprimer un fichier;
dplacer un rpertoire;
dplacer un fichier;
renommer un fichier;
dfinir des attributs des fichiers ou des rpertoires.

Tche de traitement Analysis Services


Cette tche permet de traiter les objets Analysis Services (cubes, dimensions,
modles de data mining).

Tche de transfert de base de donnes


Cette tche permet de copier des bases SQL entre des instances SQL Server
2000 et/ou SQL Server 2005. Toutes les combinaisons sont possibles.

Tche de transfert de connexions


Cette tche permet de transfrer une ou plusieurs connexions entre diffrentes
instances de SQL Server (figure 5.22).

Tche de transfert de messages derreur


Elle transfre des messages derreur entre plusieurs instances de SQL Server et
permet de grer les cas de doublons de messages derreur.

5.4 Tches dintgration services

123

Figure 5.22 Formulaire de slection des connexions


transfrer entre deux instances de SQL Server

Tche de transfert de procdures stockes


La tche de transfert de procdures stockes de master transfre une ou plusieurs
procdures stockes dfinies par lutilisateur entre les bases de donnes master
sur des instances de SQL Server. Pour transfrer une procdure stocke partir
de la base de donnes master, le propritaire de la procdure doit tre dbo.

Tche de transfert dobjets SQL Server


La tche de transfert dobjets SQL Server transfre un ou plusieurs types dobjets
dune base de donnes SQL Server entre des instances de SQL Server. Il est
possible de transfrer des tables, des procdures stockes, des fonctions et types
de donnes dfinis par les utilisateurs entre des versions 2000 et 2005.
Les rles de serveur, les rles et les utilisateurs de la base de donnes spcifie
peuvent tre copis, ainsi que les autorisations pour les objets transfrs.
Certaines fonctions sont rserves SQL Server 2005 (partitions, schmas,
assemblies, agrgations, schma XML).

Tche dexcution de package


Cette tche tend les fonctionnalits dentreprise de SSIS en permettant des
packages den excuter dautres au sein dun flux de travail. Un package qui en
excute dautres est gnralement appel package parent , tandis que les packages excuts par un flux de travail parent sont appels packages enfants .

Tche dexcution de package DTS 2000


La tche dexcution de package DTS 2000 excute les lots dvelopps laide
de DTS 2000. Cette tche permet dexcuter des packages DTS SQL Server 2000
dans les solutions de transformation de donnes SQL Server 2005.

124

5. Introduction Integration Services

Tche dexcution de processus


Cette tche excute une application (Word, Access, Excel, etc.) ou un fichier
de commandes dans le cadre dun flux de travail. Elle permet par exemple de
dmarrer une application VisualBasic ou une macro Access charge de gnrer
quotidiennement un rapport sur les ventes.

Figure 5.23
Excution
dun processus
de dcompression
dun fichier zipp
(expand.exe)

Tche dexcution de requtes SQL


Cette tche excute des instructions ou des procdures stockes. La tche peut
contenir une seule ou plusieurs instructions SQL sexcutant de faon squentielle.
Exemple : code SQL de cration de cl primaire.
IF NOT EXISTS (SELECT * FROM AdventureWorks.sys.tables WHERE
type = Uand name = Lineage_Fact_Table)
CREATE TABLE dbo.Lineage_Fact_Table
(
[Column 0] NVARCHAR(50),
[Column 1] NVARCHAR(50),
[Column 2] NVARCHAR(50),
[Column 3] NVARCHAR(50),
[Column 4] NVARCHAR(50),
[Column 5] NVARCHAR(50),
[Column 6] NVARCHAR(50),
[Column 7] NVARCHAR(50),
[File Name] NVARCHAR(260),
[User Name] NVARCHAR(70),
[Execution Start Time] DATETIME
)
ELSE
TRUNCATE TABLE AdventureWorks.dbo.Lineage_Fact_Table

5.4 Tches dintgration services

125

Tche dinsertion en bloc


Il sagit dun moyen trs rapide de copier de gros volumes de donnes dans une
table ou une vue SQL Server. Pour des raisons de performance, cette tche ne
permet pas deffectuer des transformations de donnes lors du chargement. La
tche dinsertion en bloc ne peut transfrer des donnes que depuis un fichier
texte vers une table ou une vue SQL Server. Si la table ou la vue de destination
contient dj des donnes, les nouvelles donnes sont ajoutes la table existante. Si vous souhaitez remplacer les donnes, utilisez une tche dexcution SQL
DELETE ou TRUNCATE avant de lancer la tche dinsertion en bloc.

Tche Envoyer un message

Figure 5.24 Formulaire permettant de configurer


les proprits pour lenvoi dun message lectronique

Figure 5.25 Formulaire de prparation de connexion SMTP

126

5. Introduction Integration Services

Elle permet un package denvoyer des messages en cas de russite ou dchec


des tches du flux de travail, ou denvoyer des messages en rponse un vnement dclench par le package au moment de lexcution. Par exemple, la tche
peut notifier un administrateur de base de donnes la russite ou lchec de la
tche de sauvegarde de base de donnes ou de limport de donnes.

Tche FTP
Cette tche permet de tlcharger des fichiers de donnes entre serveurs. Par exemple, elle peut rcuprer quotidiennement tous les fichiers des ventes des succursales sur un serveur central excutant la consolidation dans le datawarehouse.

Tche Lecteur de donnes WMI


WMI (Windows Management Instrumentation) permet docculter la complexit
lie lenvironnement du systme. Le schma CIM (Common Information Model)
rsulte de la norme DMTF. Il prsente une vue cohrente et unifie des diffrents
types dobjets logiques et physiques contenus dans lenvironnement tels des composants de logiciel, des services, des imprimantes. Les utilisateurs des services
WMI souscrivent des vnements choisis et reoivent des alertes lorsque des
vnements se ralisent.
La tche Lecteur de donnes WMI excute des requtes au moyen du langage
de requte WMI. Il est possible dinterroger les journaux des vnements Windows sur un serveur distant puis dcrire les informations dans un fichier des
fins danalyse.

Tche MSMQ
La tche MSMQ (Microsoft Message Queuing) permet denvoyer et recevoir des
messages entre diffrents packages Integration Services ou denvoyer des messages une file dattente traite par une application personnalise. Par exemple,
la tche peut mettre en file dattente les messages destins aux ordinateurs portables hors connexion des reprsentants commerciaux.

Tche de Transfert de travaux


Elle transfre un ou plusieurs travaux dagent SQL Server entre des instances de
SQL Server.

Tche observateur dvnements WMI


Cette tche permet dobserver les vnements WMI (Windows Management Instrumentation) laide dune requte dvnement WQL (Management Instrumentation Query Language) pour spcifier les vnements dignes dintrt.
Il est ainsi possible dutiliser lobservateur dvnements WMI afin dattendre
la notification signalant que des fichiers sont ajouts un dossier lors dun transfert FTP, puis de dmarrer le traitement au signal de fin de transfert.

5.4 Tches dintgration services

127

Tche XML
La tche XML est utilise pour travailler avec des donnes XML. Il est possible
de remettre en forme un document XML et de lui appliquer une feuille de style
XSLT.
Tches du plan de maintenance

Excuter la tche de linstruction T-SQL


Cette tche est similaire la tche dexcution SQL. Toutefois, elle ne permet
pas dexcuter des requtes paramtres, denregistrer les rsultats des requtes
dans des variables ou dutiliser des expressions de proprit. Pour cela, vous devez
utiliser la tche dexcution SQL et non pas la tche Excuter linstruction T-SQL.

Tche de nettoyage de maintenance


La tche de nettoyage de maintenance supprime les fichiers rsiduels rsultant
de lexcution du plan de maintenance.

Tche de nettoyage dhistorique


La tche de nettoyage dhistorique supprime des entres dans les tables dhistorique Backup et Restore de la base de donnes SQL Server msdb, dans lhistorique
des travaux de SQL Server Agent et du plan de maintenance.

Figure 5.26 Formulaire de tche de nettoyage dhistorique

Tche Excuter le travail de lagent SQL Server


Cette tche excute des travaux dagent SQL Server. Il est possible dexcuter
des travaux qui excutent des instructions T-SQL et des scripts ActiveX, des
tches de maintenance, de rplication ou dexcution de lots SSIS.

Tche Mettre jour les statistiques


La tche Mettre jour les statistiques permet un package de mettre jour les
statistiques dune ou plusieurs bases de donnes.

128

5. Introduction Integration Services

Figure 5.27 Formulaire permettant


de dfinir la tche de mise jour des statistiques

Tche Notifier loprateur


Un oprateur dagent SQL Server est un alias dune personne ou dun groupe
qui peut recevoir des notifications lectroniques. La tche Notifier loprateur
envoie des messages de notification aux oprateurs dAgent SQL Server. Elle
utilise le service SQLiMail. Pralablement la mise en place dune telle tche,
un oprateur doit tre dfini avec une adresse courriel valide.

SQL script
EXECUTE sendmail_sp Service Broker
queue

SMTP Server

sqlimail90.exe

msdb
SQLiMail Configuration
sendmail_sp Stored Procedure

Service Broker

mailhost
Email messages
Logs

Figure 5.28 Flux des processus dans SQLiMail

5.5 Composants des flux de donnes

129

Tche Reconstruire lindex


La tche Reconstruire lindex reconstruit les index dans les vues et les tables de
base de donnes SQL Server.

Tche Sauvegarder la base de donnes


Grce cette tche, il possible dautomatiser des sauvegardes totales ou diffrentielles. Une ou plusieurs bases de donnes peuvent tre sauvegardes dans des
fichiers ou groupes de fichiers.
Le formulaire cran fourni par SSIS permet de gnrer la commande SQL qui
sera excute :
BACKUP DATABASE [AdventureWorksDW] TO DISK = NC :\Program
Files\Microsoft SQL Server\MSSQL.1\MSSQL\Backup\AdventureWorksDW_backup_200609201344.bakWITH NOFORMAT, NOINIT,
NAME = NAdventureWorksDW_backup_20060920134425, SKIP, REWIND,
NOUNLOAD, STATS = 10

Tche Vrifier lintgrit de la base de donnes


Cette tche contrle lallocation et lintgrit de la structure de tous les objets
de la base de donnes spcifie. Il est possible de vrifier plusieurs bases de donnes et de contrler les index des bases.

5.5 COMPOSANTS DES FLUX DE DONNES


SSIS offre trois types de composants de flux de donnes. Les sources, les transformations et les destinations. Dans le schma de la figure 5.29, nous observons
que les sources puisent leurs donnes dans les colonnes externes en provenance
dune base de donnes ou dun fichier plat en sappuyant pour cela sur une connexion
pointant vers la source de donnes. Le mode daccs prcise le type de source
(vue, table, fichier, etc).
Les sources comportent des colonnes externes en entre et des colonnes de sortie.
Il est possible de slectionner les colonnes externes qui participent la slection de sortie normale.
La sortie derreur dune source contient les mmes colonnes que la sortie normale plus deux colonnes supplmentaires : ErrorCode indique le code erreur et
ErrorColumn indique la colonne contenant lerreur. Les colonnes de sortie deviennent leur tour les colonnes dentre du composant de transformation.
Les transformations comportent des colonnes dentre et des colonnes de sortie.
Certaines transformations permettent de fusionner plusieurs entres en une seule
colonne de sortie ou dclater une entre en plusieurs colonnes de sortie.

130

5. Introduction Integration Services

Les destinations comportent des colonnes dentre. Une destination crit directement dans une table de la base de donnes ou dans un dataset en mmoire.
Des colonnes de sortie derreur peuvent intercepter des traitements ne pouvant
aboutir, par exemple la mise jour dun champ de la table avec une valeur null
alors que ce champ nautorise pas les valeurs nulles.

Figure 5.29 Un flux de donnes est compos


dune source, dune transformation et dune destination

Sources des flux de donnes

Source DataReader
La source DataReader accde des donnes dun fournisseur.NET laide du
gestionnaire de connexion ADO.NET. Vous devez saisir une commande SQL
telle que SELECT * FROM sales.customer. Le mappage entre les colonnes externes et
les colonnes de sortie se ralise automatiquement, voir figure 5.30.

5.5 Composants des flux de donnes

131

Figure 5.30
Mappage
des colonnes dans
le cas dune source
DataReader

Source de fichier brut


La source de fichier brut lit des donnes directement dans un fichier lui-mme
gnr par SSIS. Cette source nutilise pas de gestionnaire de connexion.

Source de fichier plat

Figure 5.31 Formulaire


permettant dtablir
une connexion
avec un fichier plat

132

5. Introduction Integration Services

Un fichier plat peut tre de format texte, avec des champs dlimits par des caractres spciaux, de largeur fixe, ou les deux.
Dans le formulaire de la figure 5.31, on prcisera le type de sparateur de ligne
et de colonnes (tabulateur, guillemet, virgule).
Le choix des paramtres rgionaux permet de dfinir le format des donnes
selon la localisation de la source (format date anglo-saxon ou franais, format
numrique, etc.). Dans la figure 5.31, on observe une source de donnes au format anglais (tats-unis).
Laffichage des colonnes aprs dfinition des types de colonne est montr
figure 5.32.

Figure 5.32 Affichage des colonnes du fichier plat

Source Excel
La source Excel extrait des donnes de feuilles de calcul Excel entires ou de
plages nommes. Les formats pris en compte sont Excel 3, 4, 5 et les versions 97
2005.

Source OLE DB
La source OLE DB pointe sur des tables relationnelles. La figure 5.33 prsente
les diffrents fournisseurs OLE DB fournis par le gestionnaire de connexion.

5.5 Composants des flux de donnes

133

Figure 5.33 Liste des fournisseurs OLE DB


pour les sources et destinations de donnes

Transformations du flux de donnes

Agrgation
La transformation dagrgation permet de regrouper un certain nombre de lignes
du flux de donnes. La fonction dagrgation effectue un regroupement grce
la clause GROUP BY sur une ou plusieurs colonnes, puis applique une fonction dagrgation telle que Moyenne, Comptage, Comptage distinct, Somme, Max, Min.

Audit
La transformation daudit permet dajouter des colonnes au flux de donnes, afin
dobtenir des informations relatives lenvironnement au moment de lexcution. Les colonnes daudit concernent lidentifiant GUID, lidentificateur du
package, le nom ou la version du package, lheure laquelle le package a commenc, le nom de lordinateur et de la tche excute.

Colonne drive
Une colonne drive rsulte de lapplication dune fonction qui sapplique sur
dautres colonnes ou variables du package. Par exemple, la colonne drive NomComplet rsulte de lexpression Prnom + " " + Nom. Lexpression DATEPART ("year",
GETDATE()) renvoie lanne en cours.

Commande OLE DB
La transformation de commande OLE DB excute une instruction SQL pour
chaque ligne dun flux de donnes. Il est ainsi possible dexcuter une instruction
SQL qui insre, met jour ou supprime des lignes dune table de base de donnes.
DELETE FROM Dimcustomer WHERE CustomerKey = ?

134

5. Introduction Integration Services

Dans notre exemple, le ? remplace la colonne externe Param_0 mappe


la colonne dentre CustomerKey.

Composant script
Ce composant permet dcrire du code de script personnalis. Le composant
script peut tre utilis en tant que source, transformation ou destination. On utilise
le composant script lorsquil sagit de lire un fichier dont le format nest pas pris
en charge par le gestionnaire de connexion de SSIS. Un script peut appliquer
plusieurs transformations simultanes. Un script peut naturellement excuter des
fonctions personnalises qui nexistent pas dans la bibliothque des fonctions
fournies nativement par SSIS.

Figure 5.34 Slectionner un des trois types de composant de script

La figure 5.35 montre lenvironnement de dveloppement en visual basic.net.

Conversion de donnes
Ce composant permet de convertir les donnes dune colonne dentre en un
type de donnes diffrent. La donne convertie peut soit remplacer la colonne
existante, soit tre ajoute dans une nouvelle colonne.

Copie de colonnes
Cela permet de crer de nouvelles colonnes qui sont la copie de colonnes existantes. Les nouvelles colonnes permettent de fournir une plus grande flexibilit
dans le cadre de nouveaux calculs, de transformation ou de mapping avec des
colonnes de destination.

5.5 Composants des flux de donnes

135

Figure 5.35 Visual Studio for Application souvre pour crer le script

Dimension variation lente


SSIS prsente un mcanisme qui permet de traiter les trois types de variation
dimensionnelle. En effet, les axes dimensionnels ont tendance voluer dans le
temps. Il sagira par consquent de se dterminer sur la traabilit de la variation
des dimensions dans le temps ou bien de ne pas en tenir compte. Un client qui
change de pays est toujours client de lentreprise. Vouloir analyser le chiffre
daffaires ralis dans tel pays ou tel autre peut avoir un sens. Si cest le cas, on
parlera de variation de dimension de type 2. A contrario, la distinction relative
au changement dadresse peut ne pas tre pertinente. Dans ce cas, la nouvelle
adresse du client remplacera purement et simplement lancienne et nous perdrons toute capacit suivre lvolution du client dans le temps. Il sagit de variation dimensionnelle de type 1.
Chacun de ces types de transformation de dimension variation lente ncessite de prendre en charge quatre types de modifications :
modification dattribut;
modification dattribut dhistorique;
modification dattribut fixe;
modification de membre infr.
Les modifications modification dattribut remplacent les enregistrements existants. Ce type de modification est quivalent une modification de type 1. La

136

5. Introduction Integration Services

transformation de dimension variation lente dirige ces lignes vers une sortie
nomme Sortie de mises jour dattribut de validation.
Les modifications dattribut dhistorique crent de nouveaux enregistrements
au lieu de mettre jour les enregistrements existants. La seule modification autorise dans un enregistrement existant est une mise jour dune colonne qui indique si lenregistrement est actif ou expir. Ce type de modification qui prserve
lhistorique quivaut une variation de type 2. La transformation de dimension
variation lente dirige ces lignes vers deux sorties : Sortie dinsertions dattribut
dhistorique et Nouvelle sortie.
Les modifications dattribut fixe indiquent que la valeur de colonne ne doit pas
changer. La transformation de dimension variation lente dtecte les modifications
et peut diriger les lignes modifies vers une sortie nomme Sortie dattribut fixe.
Membre infr indique que la ligne est un enregistrement de membre dduit
dans la table de dimension. Un enregistrement de membre infr est un membre
de dimension inconnu. Un enregistrement de membre infr minimal est cr
en prvision des donnes de dimension pertinentes, qui sont fournies dans un
chargement ultrieur des donnes de dimension. La transformation de dimension
variation lente dirige ces lignes vers une sortie nomme Sortie de mises jour
de membre dduit.
Comment fonctionne lassistant de cration de dimension variation lente
Slectionnez le gestionnaire de connexions pour accder la source de donnes
qui contient la table de dimension mettre jour.
Vous pouvez effectuer une slection dans une liste de gestionnaires de
connexions inclus dans le package.
Slectionnez la table ou vue de dimension mettre jour.
Aprs avoir choisi le gestionnaire de connexion, vous pouvez slectionner la
table ou la vue partir de la source de donnes.
Slectionnez les attributs cls sur les colonnes et mappez les colonnes dentre
aux colonnes de la table de dimension.
Vous devez slectionner au moins une colonne de cl dentreprise dans la table
de dimension et la mapper une colonne dentre. Dautres colonnes dentre
peuvent tre mappes des colonnes de la table de dimension en tant que mappages non-cls.
Slectionnez le type de modification pour chaque colonne :
Modification dattribut remplace les valeurs existantes dans les enregistrements.

5.5 Composants des flux de donnes

137

Figure 5.36 La Cl dentreprise prsente la cl invariante


de la table dimensionnelle

Attribut dhistorique cre des enregistrements au lieu de mettre jour des


enregistrements existants.
Attribut fixe indique que la valeur de colonne ne doit pas changer.

Figure 5.37 Lassistant prsente les trois types dattribut de dimension

Si vous configurez des colonnes de faon utiliser le type de modification


Attribut dhistorique, vous devez choisir comment effectuer la distinction entre
les enregistrements actifs et expirs. Vous pouvez utiliser une colonne dindicateurs de lignes actives ou deux colonnes de date pour identifier les lignes actives
et expires. Si vous utilisez la colonne dindicateurs de lignes actives, vous pouvez

138

5. Introduction Integration Services

lui affecter les valeurs Current et True pour les lignes actives et Expired et False
pour les lignes expires. Vous pouvez galement entrer des valeurs personnalises. Si vous utilisez deux colonnes de date, une de dbut et une de fin, vous
pouvez spcifier la date utiliser lors de la dfinition des valeurs de colonnes de
date en tapant une date ou en slectionnant une variable systme et en utilisant
sa valeur.

Figure 5.38 Lassistant permet de paramtrer les options dattribut dhistorique

Dans lexemple ci-dessus les enregistrements expirs continent une date de


dbut et une date de fin. Les enregistrements actifs contiennent uniquement une
date de dbut. Ci-dessus, la variable systme Creationdate sert alimenter les dates
de dbut et fin.
Spcifiez si ncessaire la prise en charge des membres infrs et slectionnez
les colonnes que lenregistrement de membre infr contient.
Lors du chargement de mesures dans une table de faits, vous pouvez crer des
enregistrements minimaux pour les membres infrs qui nexistent pas encore.
Lorsque, par la suite, des donnes significatives seront disponibles, les enregistrements de dimension pourront tre mis jour. Il est possible de crer les types
denregistrements minimaux suivants :
un enregistrement dans lequel toutes les colonnes avec des types de modification sont nulles;
un enregistrement dans lequel une colonne boolenne indique que lenregistrement est un membre infr.
Examinez les configurations cres par lassistant Dimension variation lente.
En fonction des types de modifications pris en charge, diffrents ensembles de
composants de flux de donnes sont ajouts au package.

5.5 Composants des flux de donnes

139

Figure 5.39 Un enregistrement de membre infr


est un membre de dimension inconnu

La figure 5.40 illustre un exemple de flux de donnes qui prend en charge les
modifications dattributs fixes, dattributs variables et dattributs dhistorique, et
les modifications denregistrements correspondants.

Figure 5.40 SSIS gnre automatiquement les tches ncessaires


la cration de dimensions variation lente par insertion
dattribut dhistorique, par nouvelle sortie

1. Dans la cas de la conservation des attributs historiques (branche de droite) :


la colonne drive Sales_Person_SCD_End_Date prend la valeur de la
date de cration @[System::CreationDate].

140

5. Introduction Integration Services

La Transformation OLE DB permet de mettre jour la date de fin


Sales_Person_SCD End_Date en fonction de la cl invariante [Sales_Person_SCD_Original_ID] selon la commande SQL :
UPDATE [MaxMinSalesDM].[Sales_Person] SET [Sales_Person_SCD_End_Date] = ?
WHERE [Sales_Person_SCD_Original_ID] = ? AND [Sales_Person_SCD_End_Date]
IS NULL

2. Dans tous les cas :


la Transformation unir tout permet de fusionner les deux sources (source
de lignes en ajout pur et simple et lignes en modification + ajout.
La Transformation colonne drive 1 permet dattribuer la date de cration au champ date de dbut : Sales_Person_SCD_Start_Date. Ce champ
prend la valeur de la date de cration : @[System::CreationDate].
La transformation finale permet dinsrer dans la table de destination un
nouvel enregistrement compos de la cl invariante Sales_Person_SCD_Original_ID de la date de dbut Sales_Person_SCD_Start_Date et enfin du
nom du reprsentant Sales_Person_Name.

chantillonnage de ligne
Il permet de slectionner un sous-ensemble des donnes sources de manire alatoire. Lchantillonnage est bas sur un nombre de ligne extraire.

chantillonnage du pourcentage
Il permet de slectionner un sous-ensemble des donnes sources de manire alatoire. Lchantillonnage est bas sur un nombre de ligne correspondant un
pourcentage du flux dorigine.

Importation de colonne
Importe les donnes de fichiers vers les lignes dun dataset. Il est possible de
spcifier les colonnes de donnes extraire puis de slectionner ligne ligne le
fichier de destination.

Jointure de fusion
Elle tablit une fusion entre des donnes en provenance de deux flux de donnes.
Cela quivaut effectuer une jointure entre deux tables. Ainsi, par exemple,
une table Produits peut tre jointe une table Catgorie de produit par une cl
trangre (CatProd) permettant dtablir la jointure entre les deux tables. Il est
possible dtablir des jointures FULL, LEFT, INNER. Les colonnes qui tablissent la jointure doivent tre de type compatible. Les deux tables doivent tre
tries pralablement sur le champ permettant la jointure.

5.5 Composants des flux de donnes

141

Multidiffusion
La transformation de multidiffusion dirige sa sortie vers une ou plusieurs sorties.
Chaque ligne dentre dirige ses donnes vers chaque sortie.

Nombre de lignes
Cette transformation dtermine le nombre de lignes dans le flux de donnes. Le
compteur est ensuite stock dans une variable du package. La variable peut
ensuite tre rcupre afin de modifier le flux de contrle ou le flux de donnes.

Recherche
Cette transformation excute une requte dans un ensemble de rfrence (table,
vue). Le paramtre dextraction est fourni par une colonne du flux dentre. La
table de rfrence renvoie un ou plusieurs champs en retour.

Recherche de terme
On recherche les occurrences dun ensemble de mots ou de phrases dans un flux
de donnes comportant du texte libre. Le rsultat de cette transformation est un
ensemble de lignes prcisant le comptage doccurrences trouves et le terme de
la table de rfrence.

Recherche floue
La transformation de recherche floue permet deffectuer des tches de nettoyage
dans le but de corriger, puis de standardiser les donnes. Lalgorithme de recherche floue permet galement de fournir des donnes manquantes. Cette transformation prsente un fort intrt lorsque les donnes en entre ont fait lobjet
dune saisie libre et nont pas t contrles la source.

Regroupement probable
La transformation de regroupement probable identifie des lignes de donnes susceptibles dtre des doublons. Une correspondance exacte garantit que seules les
colonnes possdant des valeurs identiques dans cette colonne seront regroupes.
Une correspondance approximative regroupe des lignes ayant des donnes
approchantes. Cest lutilisateur qui dfinit le score de similarit bas sur une
notion de distance entre deux chanes de caractres. Paris et Pari ont une distance de 1 car un seul caractre spare les deux mots. Idem pour Cathy et Kathy.
En revanche Kathy et Kathryn ont une distance de 2.

Requte dexploration de donnes


Une requte dexploration de donnes utilise un modle de data mining afin de
raliser des prdictions sur chaque ligne du flux de donnes. Cest ainsi par exemple quil est possible de prdire si un client sera un bon candidat pour lachat de
tel produit. Lalgorithme de prdiction se base sur des requtes DMX (Data Mining
Extension).

142

5. Introduction Integration Services

Supprimer le tableau crois dynamique (transformation Unpivot)


Une fonction Unpivot transforme un flux de donnes dnormalis, en un flux
normalis.
ClientID

Tl. Domicile

Tl. Travail

Tl. Mobile

Fax

1234

04 50 60 01 02

01 69 30 03 04

06 80 47 13 15

2345

05 06 07 08 09

05 07 08 09 10

05 07 08 09 11

Figure 5.41 Exemple de flux dnormalis

Voici le data set aprs transformation.


Client ID

Type de tel

N de ligne

1234

Domicile

04 50 60 01 02

1234

Travail

01 69 30 03 04

1234

Mobile

06 80 47 13 15

2345

Domicile

05 06 07 08 09

2345

Travail

05 07 08 09 10

2345

Fax

05 07 08 09 11

Figure 5.42 Flux normalis

Tableau crois dynamique (transformation Pivot)


Une fonction Pivot ( linverse de Unpivot) transforme un flux de donnes normalis en un flux dnormalis (exemple inverse du prcdent).

Table de caractres
La transformation de table de caractres permet deffectuer des conversions sur
des colonnes de type chane de caractres. Il est possible de convertir des chanes
en minuscules ou majuscules, dinverser lordre des caractres.

Tri
Cette fonction trie les donnes dentre dans lordre croissant ou dcroissant et
copie les donnes tries dans la sortie. Plusieurs imbrications de tri sont possibles
et pour chaque colonne trie, il est possible de prciser lordre ascendant ou descendant.

5.5 Composants des flux de donnes

143

Unir tout
La transformation dunion totale permet de combiner plusieurs entres en une
seule sortie. On reparle de concatnation des sources de donnes. La premire
entre fournit le format qui servira mapper les colonnes avec le flux de sortie.
Destinations du flux de donnes

Figure 5.43 Destination du flux de donnes

Les donnes ont maintenant t transformes dans le format attendu, nous


devons maintenant les stocker dans une destination. Voici les options disponibles pour le stockage des donnes (figure 5.43) :
Apprentissage du modle dexploration de donnes : les donnes reues
par la destination sont transmises au modle dexploration (algorithme de
data mining) afin dtre exerces. Plusieurs modles peuvent faire lobjet
dun apprentissage.
Destination DataReader permet dutiliser ADO.NET pour le stockage des
donnes de destination.
Destination de fichier brut permet dcrire un flux de donnes dans un
fichier au format natif de SSIS. Ce type de fichier est utilis afin dobtenir
des performances maximales.
Destination de fichier plat ou fichier au format TXT.
Destination de lensemble denregistrements insre un Recordset dans
une variable dont le contenu peut tre affich en dehors du flux de donnes.
Destination Excel envoie un flux de donnes dans une feuille Excel.

144

5. Introduction Integration Services

Destination OLE DB transfert le flux de donnes vers toute table dune


base de donnes compatible OLE DB.
Destination pour SQL Server envoie le flux de donnes directement dans
une table ou vue SQL Server. Cette fonction est quivalente la tche
de Bulk Insert. Cette tche offre de grandes performances.
Destination de SQL Server Mobile envoie un flux de donnes vers la
version mobile de SQL Server.
Traitement de dimension envoie un flux de donnes visant ajouter des
donnes nouvelles dans une dimension de Analysis Services.
Traitement de Partition permet dalimenter une partition dun cube dans
Analysis Services.

6
Rgles dETL
et assistants

Nous lavons vu dans le chapitre prcdent, la grande force de business intelligence Visual Studio est de simplifier en profondeur la tche des programmeurs,
en offrant une large panoplie doutils dutilisation simple. Lessentiel des fonctions de manipulation des donnes se retrouve dans les flux de contrle et les
flux de donnes. Ces outils de base peuvent cependant drouter le dveloppeur
habitu raliser des tches identiques en codant des lignes en C++, C# ou VB.
En effet, le choc culturel nest pas neutre, car le dveloppeur habitu grer la
complexit va tre fortement concurrenc par la mise disposition de nouveau
outils simplificateurs. Lentreprise et son personnel devraient cependant y trouver un avantage de taille. En effet, la finalit de toute organisation est de rester
centre sur son propre mtier et non de grer la complexit des outils susceptibles
de laider dans son activit.
La rponse de SQL Server 2005 et son outil de dveloppement intgr business intelligence Development Studio consiste occulter une grande partie
de cette complexit et damener progressivement lutilisateur rflchir sur son
mtier.
Microsoft a envisag daccompagner le DBA dans son volution vers lenvironnement SQL Server 2005 et SSIS dispose dun grand nombre dassistants
permettant deffectuer ces migrations. Outre le fait quils prsentent une relle
utilit, ils ont le mrite dtre formateurs. Voyons dans le dtail quelques-uns
des assistants de haut niveau.

146

6. Rgles dETL et assistants

6.1 UTILISER LASSISTANT


POUR GNRER UN LOT IMPORT
6.1.1 Crer le projet dimportation
Lassistant dimportation et dexportation permet deffectuer des transferts
dobjets entre plusieurs bases de donnes elles-mmes rparties sur des serveurs
diffrents. Lassistant permet galement de crer un package SSIS qui pourra tre
excut ultrieurement. Afin de lancer lassistant, dans BI Studio vous pouvez
excuter la squence suivante :
Dmarrer le programme : Programmes/SQL server 2005/SQL Server business
intelligence Developpement Studio.
Appeler le menu.
Fichier/Nouveau/Projet/Projet Integration Services.

Figure 6.1 Nommer le projet

SSIS dtermine un emplacement par dfaut pour le projet. Cet emplacement


est naturellement modifiable.
La validation du projet entraine la cration du projet.

6.1 Utiliser lassistant pour gnrer un lot import

147

Figure 6.2 Assistant Projet dImportation/Exportation SQL Server

Pour notre exemple, choisissons deux sources de donnes au format diffrent.


La source de donnes Produits sera puise dans une base Comptoir dAccess.
La source de donnes Clients sera puise dans un tableau Excel. Ces deux tables

Figure 6.3 La table source Produits stocke dans Microsoft Access

148

6. Rgles dETL et assistants

dimensionnelles seront stockes dans lentrept de donnes grce notre procdure dimport. Afin de simplifier, nous faisons lhypothse que les tables
Clients et Produits sont recres chaque transfert.
Voici laffichage de la table Produits dans Access (figure 6.3).
Choisissons la source de donnes Access et la base Comptoir.mbd (figure 6.4).

Figure 6.4 Dfinition de la source de donnes

Choisissons la destination SQL Native Client sur le serveur local (figure 6.5).

Figure 6.5 Dfinition de la base de donnes destination

Voici laffichage de la table Customers dans Excel.


Choisissons la source de donnes Excel et le fichier Customers.xls.
Lassistant demande de spcifier les donnes sources transfrer (tables ou
vues/requtes). Faisons le choix de Copier les donnes partir dune ou plusieurs tables ou vues plutt que dcrire une requte.

6.1 Utiliser lassistant pour gnrer un lot import

149

Figure 6.6 Fichier Customers stock dans une feuille Excel

Parmi la liste des sources disponibles dans Access, slectionnons la table Produits (figure 6.7).

Figure 6.7 Cet cran permet de slectionner les tables


ou requtes en provenance de la source de donnes

150

6. Rgles dETL et assistants

Par dfaut, la table de destination porte le nom de la table en entre. Celuici est naturellement modifiable.

Figure 6.8 Cet cran montre la phase


de cration de la table Produits dans la base de destination

La figure 6.8 montre la mise en correspondance des colonnes source et de


destination. Le nommage des champs de destination et leur type sont dduits
des attributs des colonnes source.
Le bouton Modifier SQL permet de contrler laction effectue par
lassistant.
CREATE TABLE [AdventureWorksDW].[dbo].[Produits] (
[Rf produit] int NOT NULL,
[Nom du produit] nvarchar(40) NOT NULL,
[N fournisseur] int,
[Code catgorie] int,
[Quantit par unit] nvarchar(30),
[Prix unitaire] money,
[Units en stock] smallint,
[Units commandes] smallint,
[Niveau de rapprovisionnement] smallint,
[Indisponible] bit NOT NULL
)

ce stade, il est possible dafficher le contenu de la table source grce au bouton Aperu.

6.1 Utiliser lassistant pour gnrer un lot import

151

Lassistant rcapitule laction quil va entreprendre.


Cliquez sur Terminer pour effectuer les actions suivantes :
Copier les lignes de Produits vers [AdventureWorksDW].[dbo].[Produits].
La table cible sera supprime puis recre.
Le package sera enregistr dans le fichier de package C :\Documents
and Settings\Administrateur\Mes documents\Visual Studio 2005\Projects\Projet Import de donnes\Projet Import de donnes\Package1.dtsx .
Le package ne sera pas excut immdiatement. Lassistant termine sa tche
en crant les tches ncessaires lexcution du lot.

Figure 6.9 Le rapport dexcution de lassistant Importation et Exportation

Aprs cette excution, lassistant cre le nouvel environnement du projet


dans Visual Studio.
Quelles tches ont t cres par lassistant ?
deux connexions (une connexion pour la source des donnes et une pour
leur destination);
trois tches de flux de contrle :
tche de suppression de la table Produits :
drop table [AdventureWorksDW].[dbo].[Produits]
GO

152

6. Rgles dETL et assistants

Figure 6.10 Un package est automatiquement cr

tche de cration de table Produits (nomme Tche SQL de prparation dans la figure 6.10) :
CREATE TABLE [AdventureWorksDW].[dbo].[Produits] (
[Rf produit] int NOT NULL,
[Nom du produit] nvarchar(40) NOT NULL,
[N fournisseur] int,
[Code catgorie] int,
[Quantit par unit] nvarchar(30),
[Prix unitaire] money,
[Units en stock] smallint,
[Units commandes] smallint,
[Niveau de rapprovisionnement] smallint,
[Indisponible] bit NOT NULL
)
GO

tche de flux de donnes, elle-mme compose dun ensemble de soustches dveloppes dans longlet Flux de donnes (figure 6.11).
La figure 6.12 dtaille la source de donnes Produits et montre les colonnes
externes constitutives de la source OLE DB (Access). Loprateur a la capacit
de ne slectionner que certaines dentre elles et ou de renommer les champs en
sortie.

6.1 Utiliser lassistant pour gnrer un lot import

Figure 6.11 Longlet Flux


de donnes est compos
dune source de donnes
et dune destination

Figure 6.12 Lditeur de source OLE prsente les colonnes sources

153

154

6. Rgles dETL et assistants

Figure 6.13 diteur de destination OLE DB

La fonction mappage de lditeur de destination OLE DB permet de relier les


champs sources avec les champs de la table de destination. Dans la figure 6.13
on observe un mappage des champs de la table Produits dAccess avec les champs
de la table Produits de AdventureWorksDW.
Les champs qui portent des noms identiques sont mapps automatiquement.
Il conviendra au dveloppeur de sassurer que les types des champs source et destination sont compatibles entre eux.

6.1.2 Excuter le lot


Lexcution du package est lance laide de la touche F5 ou Dboguer/Dmarrer
le dbogage.
Lexcution du package est lance. La progression est vrifie laide de couleurs diffrentes que prend successivement chaque tche. La couleur jaune indique que la tche est active. La couleur verte indique que la tche a t ralise
avec succs. La couleur rouge indique que la tche a t mise en chec.

6.1 Utiliser lassistant pour gnrer un lot import

155

Dans notre exemple, lors de la premire excution, la premire tche (tche


de suppression de table) est mise en chec puisque la table nexiste pas dans la
base de destination. Les autres tches sont excutes avec succs.
Longlet Rsultat dexcution permet de connaitre le droulement du lot, le temps
pass pour chacune des tches et le rsultat de leur excution.

Figure 6.14 Onglet rsultat dexcution

lissue du traitement, ne pas oublier de stopper le mode dbogage.

6.1.3 Modifier le lot


Nous allons apporter une modification notre lot en y ajoutant le transfert de
donnes en provenance dune table Excel. Il sagit de la table Clients.
La table Clients doit exister dans la base AdventureWorks avant de procder
au transfert depuis Excel.
ce stade, nous avons la possibilit de coder la main la procdure de suppression de la table Clients suivie de sa cration.
Une faon simple de gnrer un code parfait est de procder limport du
fichier Excel dans la base AdventureWorksDW puis dutiliser lassistant de gnration de scripts de table.

156

6. Rgles dETL et assistants

laide de SQL server Management studio, nous allons effectuer un import


du fichier Excel afin de crer la table dans la base AdventureWorks. laide
dun clic droit sur la base AdventureWorks Tches/Importer les donnes. Puis
on utilise lassistant pour importer les donnes Excel.
Ensuite nous utilisons lutilitaire qui permet de gnrer le code T-SQL de
cration de table.
Dans Management Studio, on dplie la liste des tables (clic droit sur la table
Clients).

Figure 6.15 Management studio permet de gnrer des scripts SQL

Dans la figure ci-dessus lassistant de management studio (CREATE to) cre


un script SQL de cration de la table Clients.
Clic droit sur la table Clients puis Gnrer un script de la table en tant que/
CREATE To/nouvelle fentre de lditeur de requte.
USE [AdventureWorksDW]
GO
/****** Objet : Table [dbo].[Clients]
SET ANSI_NULLS ON
GO

6.1 Utiliser lassistant pour gnrer un lot import

157

SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[Clients](
[FirstName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[MiddleInitial] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[LastName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[BirthDate] [datetime] NULL,
[MaritalStatus] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[Gender] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[EmailAddress] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[YearlyIncome] [float] NULL,
[TotalChildren] [float] NULL,
[NumberChildrenAtHome] [float] NULL,
[Education] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[Occupation] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[HouseOwnerFlag] [float] NULL,
[NumberCarsOwned] [float] NULL,
[AddressLine1] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[AddressLine2] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[City] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[State] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[ZIP] [float] NULL,
[Phone] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL
) ON [PRIMARY]

Nous avons galement besoin de supprimer la table avant sa cration. Voici


le code gnr par lassistant :
USE [AdventureWorksDW]
GO
/****** Objet : Table [dbo].[Clients]Date de gnration du script :
05/27/2006 20:59:59 ******/
IF EXISTS (SELECT * FROM sys.objects WHERE
object_id = OBJECT_ID(N[dbo].[Clients]) AND type in (NU))
DROP TABLE [dbo].[Clients]

Revenons dans notre projet dimport des donnes dans Visual Studio.
Dans longlet Flux de donnes, glissons deux reprises une tche dexcution
de requte SQL. La premire consiste effectuer un DROP de la table Clients.

158

6. Rgles dETL et assistants

Figure 6.16 Ajouter la connexion


puis le code qui permet de supprimer la table Clients

Figure 6.17 Ajouter


la connexion puis la requte SQL
gnre dans SQL Server
Management Studio

6.1 Utiliser lassistant pour gnrer un lot import

159

Complter la connexion puis le code SQL par un copier-coller en provenance


du rsultat du query de SQL Server Management Studio.
Reliez les tches entre elles laide des flches comme prcis dans la figure 6.18.

Figure 6.18 Se positionner dans longlet Flux de donnes


et faire apparatre la bote doutils gauche (Affichage/Bote doutils)

Depuis les sources de flux de donnes, faire glisser la source Excel sur longlet
Flux de donnes, puis double-cliquez sur la tche Source Excel.
Figure 6.19 La source Excel est cre. Le signe stop
droite indique que le fichier source nest pas prcis.
Le gestionnaire de connexion Excel souvre. Une nouvelle
connexion doit tre cre vers le fichier source Excel

Figure 6.20
Le gestionnaire
de connexion Excel
permet dtablir
un lien avec le fichier
Customers.xls

160

6. Rgles dETL et assistants

Dans le gestionnaire de connexion OLE DB, choisir Gestionnaire de connexions Excel.


Dans le champ mode daccs aux donnes, choisir Table ou Vue.
Dans le champ nom de la feuille Excel, choisir Customers$.
Le gestionnaire de connexion fait immdiatement apparatre la nouvelle
connexion Excel.
Par un glisser-dplacer depuis la barre doutils, crons maintenant la destination OLE DB. Complter le gestionnaire de connexion OLE DB puis indiquer
le nom de la table rceptrice [dbo].[Clients].
Nous relions maintenant les deux tches laide de la flche verte. Le mappage des champs se ralise automatiquement.
Renommez les tches afin de les rendre plus comprhensibles.
Longlet Flux de donnes doit ressembler lcran de la figure 6.21.

Figure 6.21 Onglet Flux de donnes

Sauvegardez tous les fichiers puis excutez le lot par la touche F5.
Les tches se droulent en parallle.
Stoppez le dbogage aprs excution.
Prenez la prcaution de contrler le contenu des deux tables Clients et Produits laide de Management Studio. Faire un clic droit sur le nom de la table
puis ouvrir la table. Observez le contenu de la table et le nombre denregistrements situ en bas de page.
Ajoutons prsent une tche denvoi de courriel ladministrateur afin dtre
prvenu en cas dachvement sans chec ou en cas dchec.
Dans longlet Flux de contrle, ajoutons deux tches Envoyer un message .
Crez une connexion SMTP pour lenvoi de courriel (figure 6.22).

6.1 Utiliser lassistant pour gnrer un lot import

161

Figure 6.22 diteur


du gestionnaire de connexion FTP

Configurez les proprits pour le message lectronique (figure 6.23).

Figure 6.23 diteur de tche denvoi de mail

Lditeur de tche denvoi de message lectronique permet de prciser le serveur SMTP denvoi de mail. Il permet de prciser le ou les destinataires du mail.
Les pices jointes peuvent tre des fichiers danomalies gnrs lors de lexcution
du package ou tout autre fichier. Les variables systmes ou utilisateurs peuvent
tre introduites dans le corps du texte rendant ainsi les messages dynamiques.

162

6. Rgles dETL et assistants

Relier les tches entre elles laide des flches vertes.


Double-cliquez sur la flche afin de paramtrer des contraintes en cas dchec
de lopration ou en cas de succs.

Figure 6.24 Lenvoi de message est fonction de lexcution


avec ou sans chec de la tche de flux de donnes

Il est possible de traiter le lot complet.

Figure 6.25 Longlet gestionnaire dvnements


permet deffectuer des tches en fonction dvnements lors de lexcution du lot

6.1 Utiliser lassistant pour gnrer un lot import

163

6.1.4 Migration de lots DTS de la version 2000 vers 2005


Nous lavons vu, SSIS comprend toutes les fonctionnalits de DTS 2000 et bien
plus. Cependant, la migration de certaines fonctionnalits en provenance de
DTS 2000 ne se fait pas. Cest les cas notamment des paramtres grs par DTS
et de faon totalement diffrente avec SSIS.
Cest pour cette raison que SSIS permet dexcuter des lots DTS 2000 sans
aucune migration. Lorsque SSIS doit excuter DTS 2000, il est ncessaire quune
instance de SQL Server 2000 soit disponible sur un serveur ou que SQL server
2000 DTS Run-time soit install sur la machine excutant SSIS. Si les lots doivent tre modifis, il est ncessaire que SQL Server 2000 Enterprise Manager
soit install. SSIS permet dinstancier DTS 2000 comme une tche excutable.
SSIS dispose dun assistant de migration pour la conversion des lots DTS en
lots SSIS 2005. Les lments de DTS sont convertis en tches SSIS. Chaque
lment qui ne peut tre converti est plac dans un nouveau package DTS puis
appel par SSIS.
La migration des lots DTS se fait grce un assistant de SQL Server BI Studio. Ouvrez ou crez un projet de type Integration services. Lassistant va vous
permettre de migrer un package DTS 2000 au travers des tapes qui suivent.

Projet/Migrer un package DTS 2000/

Figure 6.26 Assistant migration de package

164

6. Rgles dETL et assistants

Prciser le nom du Serveur SQL 2000 renfermant le lot DTS.

Figure 6.27 Selectionner le serveur qui renferme le lot DTS

Choisir la destination.

Figure 6.28 Slectionner le serveur qui renferme la base de destination

6.1 Utiliser lassistant pour gnrer un lot import

Figure 6.29 Choisir le lots DTS 2000 migrer vers 2005

Figure 6.30 Lassistant demande de prciser un fichier journal


dans lequel il va stocker le droulement des tapes de migration

Cliquez sur Terminer pour mettre fin aux oprations suivantes :


Migrer le package vers SQL Server Integration Services.

165

166

6. Rgles dETL et assistants

Figure 6.31 Formulaire de synthse des actions menes par lassistant

Les options suivantes ont t slectionnes :


Source partir de laquelle les packages sont migrs :
Type de source = Microsoft SQL Server.
Nom de la source = SERVEURDELL.
Destination o doivent tre stocks les packages migrs :
Type de la destination = Microsoft SQL Server.
Nom de la destination = (local).
Le nom du fichier journal est C :\Documents and Settings\Administrateur\DTSlogBB.log.
Les packages suivants seront migrs :
EssaiDTS EssaiDTS.
Nombre total de packages lemplacement source = 1.
Nombre de packages qui seront migrer = 1.
Nombre de packages qui ne seront pas migrs = 0.

6.1 Utiliser lassistant pour gnrer un lot import

167

Les paramtres attachs aux lots DTS 2000 ne sont pas rcuprs par SQL
Server 2005.

6.1.5 Dploiement de packages SSIS


Le processus de dploiement de package se droule en deux tapes :
1. La premire tape consiste crer le projet Integration Services afin de
crer un utilitaire de dploiement de package.
2. La seconde tape consiste copier le dossier de dploiement cr en
mme temps que le projet Integration Services sur lordinateur cible, puis
excuter lAssistant Installation de package pour installer les packages.
Crer lutilitaire de dploiement
Pour accder aux proprits dun projet Integration Services, cliquez avec le bouton droit sur le nom du projet, puis cliquez sur Proprits.
Passer True la variable CreateDeploymentUtility.
Puis OK.

Figure 6.32 Lattribut CreateDeployementUtility doit tre True

Lorsque vous gnrez un projet Integration Services, un fichier manifeste,


<nom de projet>.SSISDeploymentManifest.xml et des copies des packages du
projet et des dpendances de package sont crs et ajouts dans le dossier
bin\Deployment dans le projet ou lemplacement spcifi dans la proprit

168

6. Rgles dETL et assistants

DeploymentOutputPath. Le fichier manifeste rpertorie les packages, les configurations de package et tous les divers autres fichiers du projet.
Installation du dploiement
L installation du dploiement permet de stocker le package sur le serveur Integration services.
LAssistant Installation de package vous accompagne dans le processus dinstallation des packages sur le systme de fichiers et sur SQL Server.
Clic droit sur <nom de projet>.SSISDeploymentManifest. puis deploy.

Figure 6.33 Ouvrir


lassistant de dploiement
de package

Figure 6.34 Lassistant


permet de dployer
des packages SSIS
soit sous forme de systmes
de fichiers XML
ou dans SQL Server

6.1 Utiliser lassistant pour gnrer un lot import

169

Figure 6.35 Lassistant permet


de slectionner un dossier dinstallation

Conserver le dossier par dfaut puis Suivant deux fois.


Vous pouvez vrifier la bonne installation du package en vous connectant au
serveur Integration services. Dans File System retrouvez votre projet puis excutez le package.
Lorsque le package est oprationnel dans le serveur Integration Services vous
pouvez en planifier lexcution.

6.1.6 Automatisation de lexcution des packages


Lautomatisation de lexcution de packages permet de planifier tous types de
tches et en particulier des tches quotidiennes dalimentation de lentrept de
donnes. Les administrateurs pourront utiliser cette facilit pour excuter des
tches de sauvegardes, ou de r indexation des bases oprationnelles.
Dans Management studio Dmarrer le service SQL Server Agent. Ce service
peut tre dmarr automatiquement lors du dmarrage de SQL server. SQL server Agent peut tre dmarr manuellement lors de la connexion au moteur de
base de donnes SQL server.
Clic droit sur SQL server Agent puis dmarrer.
Ouvrir SQL server Agent.

170

6. Rgles dETL et assistants

Clic droit sur Travaux.

Figure 6.36 Lassistant permet de crer un nouveau travail

Lors de lexcution dun travail de lagent SQL prciser quil sagit dun package SQL Server Integration services et que la source de fichiers est Systme de
fichiers (pour les packages au format XML). Vous devez galement fournir lemplacement du package dploy prcdemment sur le serveur SSIS.
Avant de planifier lexcution du package vous pouvez le tester dans son environnement de production (Clic droit puis excuter le package).
Ci-dessus nous avons programm une excution du package leon 1.dtsx toutes les nuits du lundi au vendredi 0 h 00.
Le moniteur dactivit des travaux de SQL server Agent permet de suivre
lexcution des travaux et leur traabilit.
Vous pouvez galement consulter la visionneuse du fichier journal.

6.2 Concept de packages dynamiques

171

Figure 6.37 Interface du planificateur de tches intgr SQL Agent

6.2 CONCEPT DE PACKAGES DYNAMIQUES


Il existe un grand nombre doutils visant modifier les tches quun package
(lot) peut excuter. Pour ce faire, SSIS dispose dun jeu de variables et dexpressions utilises dans le flux de contrle et les transformations des flux de donnes.
Les configurations ont pour but de modifier lenvironnement de travail dun package
SSIS (par exemple, changement de serveur et des sources de donnes lors de la
mise en production).

6.2.1 Les expressions


SSIS intgre un langage permettant de spcifier les transformations dans les flux
de donnes. La plupart des expressions ont une syntaxe relativement simple telle
que A + B ou A >= B, ou une fonction de type GetDate(). On trouve de telles
expressions dans des transformations du flux de donnes de type clatement conditionnel des tables ou colonnes drives.
Les expressions permettent de modifier le comportement dun package en
valuant des expressions afin de modifier les proprits lors de lexcution.

172

6. Rgles dETL et assistants

Les identificateurs sont utiliss dans des expressions qui sont inconnues jusqu
lexcution du package. Les identifiants peuvent reprsenter des variables :
@Filename
@_LoopCounter
@PakageName
Les identificateurs qui reprsentent des variables sont toujours prcds par
le caractre @.
Les fonctions mathmatiques sont supportes par les expressions.

Exemple
ABS(-1234)

fournit le rsultat

234

ROUND(12.3456)

fournit le rsultat

12.35

On retrouve galement des fonctions sur les chanes de caractres : TRIM(),


UPPER(), SUBSTRING(), etc.
Des fonctions portant sur les dates existent galement : DATEDIFF(), DATEPART(),
GETDATE(), MONTH (), YEAR(), etc.

6.2.2 Les variables

Figure 6.38 Longlet Variables liste toutes les variables


(systme et utilisateur) connues dans le package DimEmployee

6.2 Concept de packages dynamiques

173

Les variables sont utilises pour passer des informations entre les diffrentes parties dun package. Elles peuvent tre passes dune tche de transformation de
donnes un autre ou dune tche de contrle vers le gestionnaire de connexion.
Cest le cas par exemple lorsquune tche a pour but de balayer tout un rpertoire
afin de traiter tour tour chacun des fichiers qui le compose. La tche recueille
donc chaque fichier puis passe dans une variable, au gestionnaire de connexion,
le nom du fichier en cours de traitement.

Figure 6.39 Tableau des variables utilisateur. Les noms de variables


sont sensibles la casse (majuscules et minuscules doivent tre respectes)

Figure 6.40 Tche de requte SQL

174

6. Rgles dETL et assistants

Figure 6.41 Mappage des paramtres


entre les variables systme et les paramtres

Les variables peuvent tre cres grce au bouton dajout de variable. Les
noms de variables et leur type doivent tre fournis lors de la cration. Il est possible galement dallouer une valeur initiale. Afin de prserver les performances
de SSIS lors de lexcution, les variables sont fortement types. Ltendue de la
variable dfinit la visibilit de celle-ci dans le package.
La tche dexcution SQL de la figure 6.40 est dveloppe ci-dessous. Cette
requte permet dinsrer des lignes dans la table AuditPkgExecution tout en
recueillant les valeurs partir de variables alimentes au cours de lexcution du
package. Dans la figure 6.41 les variables systme et utilisateurs sont transfres
aux paramtres. A leur tour, ces paramtres (dont le nom commene par le signe @)
sont transmis dans la requte SQL (voir requte ci-dessous).
Cet exemple montre comment il est possible dauditer les tches qui sexcutent dans un package. Dans lexemple ci-dessus on conserve la trace des traitements dans une table de lentrept de donnes(AuditPkgExecution) recevant
les variables systme ou utilisateur, en particulier le nom du package lanc et
la date de dbut de lexcution. Voici la requte correspondant la tche Get
PkgExecKey.
INSERT INTO AuditPkgExecution
(PkgName, PkgGUID, PkgVersionGUID, PkgVersionMajor, PkgVersionMinor,
ExecStartDT, ParentPkgExecKey)
Values
(@PkgName, @PkgGUID, @PkgVersionGUID, @PkgVersionMajor, @PkgVersionMinor, @ExecStartDT, @ParentPkgExecKey)

6.2.3 Les configurations


La technique des configurations rpond un besoin dadaptation divers environnements dexploitation. Les valeurs prises par dfaut peuvent tre modifies
dynamiquement lors de lexcution du package. Lapplication dun fichier de

6.2 Concept de packages dynamiques

175

configuration permet dinitialiser des variables. Un des points majeurs du systme


de configuration consiste modifier dynamiquement les connexions aux serveurs
sans modifier le contenu du package. Plusieurs packages peuvent utiliser le mme
fichier de configuration. Il est galement possible de dfinir lordre dans lequel
les fichiers de configuration doivent sappliquer.
SSIS peut charger les configurations partir de plusieurs types de source :
SQL Server, un fichier XML, une variable dun package parent, une variable
denvironnement de Windows ou une entre du registre.
Le lancement du gestionnaire de configuration seffectue partir du menu
disponible; choisir Gestionnaire de configurations comme indiqu dans la
figure 6.37.

Figure 6.42 SSIS permet de crer un fichier


de paramtres grce au gestionnaire de configurations

Lexcution dun package SSIS seffectue gnralement grce aux commandes


DTExecUI ou DTExec. Dans la ligne de commande, il est possible de fournir le nom
du fichier de configuration excuter.

Figure 6.43 Fichier de configuration au format XML

Dans le fichier XML de la figure 6.43 le nom du rpertoire a t pass en paramtres entre les balises ConfiguredValue.

176

6. Rgles dETL et assistants

6.2.4 La gestion des vnements


Le gestionnaire dvnement permet entre autres de contrler ltat de fonctionnement dun serveur ou denvoyer un e-mail ladministrateur lorsquune erreur
survient dans lexcution dun package.
On trouve des vnements de type OnError, OnPreExecute, OnPostExecute, etc.
Par exemple un vnement OnError permet de dclencher la restauration
dune base en cas danomalie lors du droulement.

6.3 PLANIFICATION DU PROJET ETL


6.3.1 La carte de haut niveau
La connaissance des outils de base, exposs dans les prcdents paragraphes, permet de mieux comprendre les mcanismes de SSIS et ainsi de dfinir un schma
de haut niveau permettant le dialogue entre utilisateurs mtier et dveloppeurs.
Dfinir une carte des tches un niveau lev.
Dployer une copie du systme et travailler sur la copie.
Dcouvrir des donnes grce des outils simples de requtage (Access en
lien ODBC vers SQL Server). Cette dmarche permet de dcouvrir les
diffrents domaines traiter, les relations entre les donnes et la qualit
des donnes.
Dtailler sous forme synthtique (tableau Excel) les tables source et les
tables de destination en effectuant un mappage des donnes et leur
transformation.
Dterminer la frquence de chargement de chaque table (dimensions et faits).
Dterminer les donnes historiques de chaque table pour le premier chargement.
Dterminer une stratgie de partitionnement des tables de faits aussi bien
dans le modle relationnel du datawarehouse que dans le modle OLAP.
Dfinir une stratgie dextraction des donnes pour chaque source systme.
Supprimer les doublons par des algorithmes adapts.
Sur le site de lauteur www.buroformatic.com vous pourrez tlcharger
des modles permettant de reprsenter les grandes tches qui participent la
construction du schma ETL.

6.4 Les 38 rgles qui rgissent lETL

177

6.4 LES 38 RGLES QUI RGISSENT LETL


Afin de crer et de russir la mise en uvre dun entrept de donnes, Ralph
Kimball a nonc trente-huit rgles qui participent au processus dextraction, de
transformation et de chargement. Le processus dETL consomme environ 70 %
du temps et de leffort de construction dun datawarehouse. On peut retrouver
ces rgles sur le site http://www.intelligententerprise.com/showArticle.jhtml?articleID=54200319.
Par chance, SQL Server Integration Services et Analysis Services fournissent
un certain nombre dassistants qui participent naturellement la mise en place
dun grand nombre de ces rgles.

7
Analysis Services

SQL Server Analysis Services (SSAS) est une plate-forme de dveloppement et


dadministration permettant de crer des applications OLAP (On Line Analytical
Processing) et de data mining (fouille de donnes). Cette plate-forme est naturellement incluse dans SQL Server 2005 et a pour but daider les utilisateurs
analyser les donnes historiques et dcouvrir des corrlations ou des modles
de comportement entre les donnes.
Ct client, un outil de requtage et de filtrage doit tre install (Excel ou
tout autre outil tiers : Proclarity, Panorama, Powerplay, Crystal, etc.).
Ct serveur, Analysis Services doit tre install et correctement paramtr
au niveau de la scurit afin dautoriser laccs aux donnes selon le profil des utilisateurs.
Le composant central de linfrastructure OLAP est le cube multidimensionnel. Il sagit dune base de donnes spcialement conue pour permettre un accs
immdiat aux donnes dentreprise stockes dans les entrepts de donnes.
Analysis Services est indpendant des sources de donnes de mme que Integration services et Reporting Services. Par exemple, une entreprise utilisera Analysis Services dans le but de crer des cubes partir de donnes stockes dans
des bases telles quOracle, DB2 dIBM, SQL Server, Access ou autres bases compatibles ODBC et OLE DB.
Enchanement des donnes en business intelligence
Dans la figure 7.1, on observe le positionnement de la brique Analysis Services
dans le cheminement habituel des donnes, depuis les sources oprationnelles
( gauche) jusqu la restitution via Excel ( droite).

180

7. Analysis Services

Figure 7.1 Analysis Services dans la chane dcisionnelle

Bien que non obligatoire pour la cration des cubes OLAP, ltape de cration
du datawarehouse est fortement conseille.
Une plate-forme de dveloppement flexible
Compare la version 2000, Analysis Services 2005 offre aux dveloppeurs en
entreprise et intgrateurs plus de flexibilit dans la modlisation des cubes et les
sources de donnes. Cette plate-forme propose en effet de nouveaux outils de
cration de cubes ainsi que huit nouveaux algorithmes de data mining. Ces amliorations aident les dveloppeurs dlivrer des solutions plus compltes tout en
rduisant le temps ncessaire au dveloppement et au dploiement.

7.1 OLAP ET LE DATA MINING


OLAP (On line Analytical Processing) et le data mining (fouille de donnes) font
partie des technologies que les managers utilisent pour rassembler, stocker, interroger et analyser des donnes historiques. Ces technologies font partie des outils
daide la dcision. Les applications OLAP sont gnralement utilises pour
fournir des rponses aux questions relatives aux performances de lentreprise. Par
exemple, une chane de distribution utilisera un cube dcisionnel afin dlaborer
des graphiques des ventes pour un grand nombre de lignes de produits croiss
avec des rgions et des priodes de temps afin de pouvoir par exemple rpondre

7.1 OLAP et le data mining

181

la question : Quels sont les ventes ralises en quantit et valeur par point
de vente pour chaque collection douvrages ? . Sil le dsire, lanalyste peut simplement ajouter un critre supplmentaire afin dobtenir le mme tableau en
comparant 2004 avec 2005 en cumul depuis le dbut de lanne.
Le data mining en revanche, utilise des algorithmes de reconnaissance de
modles afin de dtecter des comportements particuliers, des corrlations ou des
tendances dans les donnes. Une fois dtects, ces modles et tendances sont
utiliss des fins de prdiction dans le cadre de processus daffaires telles que
prvisions des ventes, segmentation de populations dindividus aux comportements similaires. Ces techniques sont galement utilises afin de mettre en place
des systmes de ventes additionnelles (up-sell) ou ventes croises (cross-sell).
Les cubes OLAP et les techniques de data mining sont bases sur des donnes
collectes et agrges au sein des entrepts de donnes.
Rappelons que la finalit dun entrept de donnes (datawarehouse) est de
stocker et historiser des volumes importants de donnes. Ce processus a t illustr au chapitre prcdent grce SSIS. Nous lavons vu, les entrepts de donnes
sont aliments grce des outils ETL (Extract, Transform, and Load). Ces outils
ont pour vocation dextraire et de structurer les donnes en provenance des bases
de donnes oprationnelles dites OLTP (On Line Transactional Processing). La
phase dETL ralise galement un nettoyage des donnes suivi gnralement
dune phase dagrgation au sein des entrepts.
leur tour, ces donnes agrges font lobjet dune alimentation dans des
bases de donnes multidimensionnelles appeles cubes OLAP.
Un cube est dfini par un certain nombre de dimensions ou axes dobservation.
Au croisement de ces dimensions se trouvent des mesures ou indicateurs. En
gnral, le cube permet des analyses ad hoc et des requtes dynamiques ayant un
caractre naturel et intuitif.
Les utilisateurs accdent aux cubes OLAP grce des outils danalyse offrant
ainsi la capacit de raliser la vole des tableaux de synthse et rapports graphiques.
La structure hirarchise des dimensions permet une analyse en profondeur
des donnes grce la technique du drill down et du roll-up. Ces techniques permettent un forage progressif des donnes en passant du niveau le plus lev au
niveau de dtail le plus fin (drill down) ou selon un cheminement invers (drill up).
Par exemple, un utilisateur peut effectuer un drill down sur la dimension temporelle afin de visualiser des indicateurs de ventes ou de revenus par anne, puis
par trimestre, par mois et enfin par jour. Il sera alors ais de dceler des variations
saisonnires ou des tendances partir des graphes dynamiques gnrs automatiquement. De la mme manire, un chef de ventes sera capable danalyser, pour

7. Analysis Services

un produit donn, les ventes effectues la veille par point de vente puis dagrger
rapidement les donnes au niveau semaine, mois, trimestre ou anne (drill up).
Les technologies OLAP, par leur aspect dynamique, et synthtique compltent les outils de reporting tels que Reporting Services (inclus dans SQL Server
2005). Les outils de reporting sont gnralement utiliss afin de fournir des vues
statiques au travers de rapports instantans partir des donnes de lentrept.
la diffrence des outils de requtage OLAP, les fonctions de forage dynamique
et de changement daxes la demande y sont absentes.
Lexemple de la figure 7.2 montre la structure du cube faisant apparatre les
trois dimensions ou axes danalyse : dimension Produits, dimension Rgion, dimension Temps. La mesure analyse au croisement des trois axes est lindicateur de
volume en valeur.

Le cube et sa reprsentation multidimensionnelle

Quel a t le volume de commande


Pour le Produit veste
Dans la rgion ouest
Pour le mois de mars

9 000
Mars
Fevr.
Janvier

Est

Rgions

182

Ouest

Nord

Sud

Chaussure

Bonnet

Veste

Produit

Figure 7.2 Le cube et sa reprsentation multidimensionnelle (source : Microsoft)

Dans cet exemple, loutil de restitution du cube est le tableau crois dynamique dExcel. On observe lindicateur de volume du chiffre daffaires (9 000 )
ralis sur les ventes des vestes pour la rgion Ouest et pour le mois de mars. On
verra lors de ltude des outils de restitution que cette analyse ne prend que quelques secondes au manager oprationnel ou au contrleur de gestion dot de son
outil favori : Excel.

7.2 Points damlioration entre Analysis 2000 et SSAS 2005

183

7.2 POINTS DAMLIORATION ENTRE ANALYSIS 2000


ET SSAS 2005
Passons rapidement en revue les fonctionnalits de SSAS aussi bien dans le
domaine du dveloppement dapplication que de ladministration du rfrentiel.
UDM (Unified Dimensional Model) combine en un seul rfrentiel les caractristiques des modles multidimensionnels (DW) et relationnels (ERP).
Le cache proactif permet une alimentation des cubes en quasi temps rel
chaque modification des donnes dans le systme de donnes oprationnelles.
Les KPI (indicateurs cls de performance) sont un nouveau mcanisme qui
permet de dfinir des indicateurs mtiers bass sur des valeurs dobjectif, dcart
et de tendance. La notion de feu tricolore est une illustration assez courante de
ces KPI. Nous aurons loccasion de traiter ce sujet dans le chapitre sur la restitution des donnes.
Les translations prsentent un mcanisme de traduction multilingue du rfrentiel de donnes (metadata). Cette fonctionnalit permet aux dveloppeurs de
crer un unique rfrentiel et aux utilisateurs de crer des analyses dans leur
propre langue.
Les scripts MDX sont des nouveaux mcanismes utiliss pour la dfinition
des membres calculs, des ensembles nomms et des cellules calcules. La syntaxe
est simplifie et amliore. Les scripts peuvent tre dbogus ligne ligne.
Les procdures stockes de SSAS permettent de crer des routines en langage
de programmation CLR (Common Langage Runtime) tels que C ou VB.
Les fonctions de writeback (criture dans le cube) ont t amliores puisquil
est dsormais possible dcrire dans des cellules agrges (et non pas uniquement
au niveau de granularit le plus bas).
De nouveaux outils et assistants permettent se simplifier la cration de :
mesures semi-additives;
dimensions temporelles intelligentes;
de compte;
dagrgations financires;
de conversions montaires.
Les vues des sources de donnes permettent de saffranchir de la complexit
des sources de donnes du SGBD source.

184

7. Analysis Services

Le nouveau langage de dfinition des donnes (DDL dans SSAS 2000) est
maintenant au format XML. XML/A (XML for Analysis) est le nouveau protocole qui assure la communication avec le serveur Analysis. Ainsi, de nouvelles
sortes dapplications sont rendues plus faciles dvelopper et permettent aux
postes client daccder directement des services web sans installation locale.
Les calculs sont centraliss sur le serveur et non plus sur le poste client supprimant ainsi le cache client et lamlioration des calculs complexes.
Le nouvel environnement de dveloppement dapplications est maintenant
unifi dans business intelligence Development Studio. Le nouvel environnement
dadministration est SQL Server Management Studio (Enterprise Manager dans
la version SQL Server 2000).
Un nouveau modle dautorisations daccs a t redfini. Les nouveaux rles
sont :
administrateur de serveur;
administrateur de base de donnes;
droits sur les objets de processus et de structure.
Le modle de scurisation des objets SSAS a t redfini :
scurisation par objets de la base de donnes;
cryptage des cubes;
SSAS sexcute avec le niveau le plus bas dautorisation;
les communications entre le client et le serveur sont cryptes assurant un
renforcement de la scurit face des techniques comme le sniffing ou le
spoofing.
La traabilit des vnements est maintenant possible grce au gestionnaire
de profil de SQL Server. Il existe un journal des audits daccs aux donnes et
aux applications. Un journal des erreurs est galement disponible.
Lamlioration des performances porte essentiellement sur le mode de restitution des cellules calcules.
les calculs effectus sur le serveur sont mis en cache;
loptimiseur de requtes redfinit les requtes clientes dans le but damliorer les performances;
les performances sur les rseaux tendus permettent des accs simultans
de plusieurs centaines dutilisateurs.

7.2 Points damlioration entre Analysis 2000 et SSAS 2005

185

SQL Server Management Studio administre aussi bien les bases de donnes
SQL Server que les bases Analysis.

Figure 7.3 Interface prsentant SSMS (SQL Server Management Studio)

Dans la figure 7.3, le volet de gauche fait apparatre les composants de SQL.
On observe galement le serveur Analysis Services avec ses composants UDM.
La nouvelle console dadministration remplace en les regroupant Enterprise
Manager et Analysis Manager de SQL Server 2000.
Les requtes SQL et MDX sont analyses dans le mme outil.
Le nouveau modle objet AMO (Analysis Management Objects) remplace DSO.
Pour des raisons de compatibilit, DSO est support.

186

7. Analysis Services

Les dimensions et leurs attributs


SSAS 2005 dfinit les dimensions des cubes grce aux attributs des champs des
tables dimensionnelles et galement sur les hirarchies comme cela tait le cas
dans AS 2000. En effet, dans AS 2000, une dimension tait dfinie grce des
structures hirarchiques fortes comme anne/mois/jour ou pays/rgion/ville. Il
tait possible de dfinir des dimensions virtuelles partir des proprits des membres. Cependant, les performances sur ce type de dimensions ntaient pas au
rendez-vous. Les dveloppeurs ne dployaient que rarement ces dimensions et
toujours sur des volumtries rduites.
SSAS 2005 dfinit une dimension partir de nombreux attributs, chacun
dentre eux servant effectuer du slice (tranche de cube) et du filtrage des donnes. Chaque attribut peut participer la dfinition de hirarchies selon les relations entre les donnes.
Les notions de hirarchie naturelle continuent dexister et devront tre dfinies avec soin. Les performances qui rsultent de ces hirarchies sont amliores.
Dans lexemple suivant considrons la dimension Client. La table qui renferme la source de donnes contient huit colonnes : Cl client, nom du client, ge,
genre (masculin/fminin), e-mail, ville, rgion, pays.
On observe une hirarchie naturelle telle que (pays, rgion, ville, nom du
client). Bien que moins naturel, on peut dfinir un second axe dobservation
(ge, genre).
Les avantages lis cette nouvelle structure de dimensions sont les suivants :
Il nest pas ncessaire de charger en mmoire les dimensions. Il en rsulte
quaucune limitation de taille nest impose pour une dimension donne
(certaines dimensions peuvent comporter des centaines de millions de
membres).
Les attributs des hirarchies peuvent tre ajouts ou supprims sans reprocesser la dimension. Le cube reste donc disponible aux utilisateurs pendant la rindexation de la dimension.
Les dimensions dupliques sont limines. Les dimensions sont plus compactes.
La performance du processus de construction des dimensions est amliore
et exploite naturellement le mcanisme de processus parallle.
Types de dimensions
Analysis Services 2000 comporte deux types de dimensions : hirarchique rgulire
et parent-enfant.

7.2 Points damlioration entre Analysis 2000 et SSAS 2005

187

Analysis Services 2005 offre de nouvelles structures de dimensions :


Rles. Une dimension peut jouer plusieurs rles en fonction du contexte.
Par exemple la dimension Temps peut tre utilise indiffremment pour la
date de commande et la date de livraison. Dans SSAS 2005, la dimension est
stocke une seule fois mais aura une signification diffrente en fonction du
contexte.
Dimension de fait. En ralit ce type de dimension est peu utilis par Analysis puisquelle identifie un objet au niveau le plus fin. Elle prend toute
son importance lors de lidentification des lignes dtail qui participent au
contenu dune cellule agrge.
Dimension de rfrence. Ce type de dimension nest pas en rapport direct
avec la table de faits. Par exemple une dimension gographie peut aussi
bien sappliquer la dimension Client et la dimension quipe de vente.
Les donnes de la dimension sont acquises partir de tables externes et
sont indpendantes de la table de faits.
Dimension de data mining. Les dimensions de type data mining rsultent
de modles mathmatiques tels que les arbres de dcision, les rgles dassociation, les rseaux de neurones, les clusters, etc. Nous donnerons une liste
exhaustive des diffrents algorithmes dans le chapitre consacr au data
mining.
Dimension de type plusieurs plusieurs. Ce type de dimension tend le
schma en toile dans lequel il est habituel de constater quun champ de
la table de faits est en relation avec un et un seul enregistrement de la
table de dimension lie.
Groupes de mesures et Perspectives
SSAS 2005 introduit la notion de groupe de mesures et de perspectives afin de
simplifier la cration et le dploiement de base de donnes analytiques. Avec
SSAS 2000, un cube tait fond sur une et une seule table de faits. Plusieurs
cubes taient ncessaires lorsque des analyses portaient sur plusieurs tables de
faits. Le moyen pour rapprocher deux cubes tait de constituer un cube virtuel.
Ce dernier tait en quelque sorte une vue synthtique base sur une jointure de
plusieurs cubes.
Dans SSAS 2005, le dveloppeur construit un seul cube. Le cube contient
un ou plusieurs groupes de mesures. Un groupe de mesures est attach une et
une seule table de faits. Le niveau de granularit de chaque groupe de mesures
dpend de son intersection avec le niveau hirarchique de chaque dimension.
Du fait de la complexit croissante de la navigation dans le cube lie au nombre potentiellement important de mesures et dimensions, il a t mis en place

188

7. Analysis Services

la technique des perspectives qui consiste crer une vue reprsentant un sousensemble de mesures et dimensions. Des niveaux daccs scuriss peuvent tre
attribus chaque perspective.
Il rsulte de cette nouvelle organisation de meilleures performances. Des
mesures peuvent renfermer des cellules ayant des valeurs nulles (et non zro).
Calculs et analyses
Une mesure est dite additive lorsquelle sagrge quel que soit le niveau dobservation (exemple : le total des ventes pour tous les produits, tous les clients et tous
les temps).
Au contraire, une mesure semi-additive peut tre additive pour certaines dimensions et pas pour dautres. Prenons lexemple dun tat des stocks dun entrept;
le nombre darticles en stock aujourdhui nest bien videmment pas la somme
de la situation constate hier augmente de celle daujourdhui. Dans SSAS, on
dispose nativement dagrgations semi-additives qui permettent de rsoudre des
problmatiques dinventaire telles que :
La moyenne des quantits et des valeurs en stock sur une priode donne.
La balance douverture et de clture sur une priode.
La variation dinventaire entre des priodes conscutives ou parallles.
Le niveau dinventaire minimum et maximum sur une priode donne.
La contribution relative dun article en stock par rapport la valorisation
total du stock.
Lassistant de calcul des dimensions temporelles apporte une aide non ngligeable dans le cas de calcul dagrgation comparer sur des priodes de temps diffrentes (calcul du cumul des ventes depuis le dbut de lanne compar sur les
trois dernires annes). Cette fonction est native alors quauparavant il tait
ncessaire de dvelopper une fonction MDX de type ytd().
MDX Scripts
Le langage multidimensionnel MDX (Multidimensional Expressions) est un langage dinterrogation des cubes, aussi complexe que puissant. SSAS 2005 propose
un nouveau modle de calcul qui simplifie la construction et la syntaxe des
requtes.
Des outils tels que les tableaux croiss dynamiques accdant aux cubes utilisent une technique intuitive de glisser-dposer. Derrire cette apparente simplicit, la technologie pivot table gnre des requtes en langage MDX occultant
ainsi la complexit de la syntaxe.

7.2 Points damlioration entre Analysis 2000 et SSAS 2005

189

MDX est aussi le langage naturel utilis par SSAS pour construire les cubes.
Lorsquun cube est trait, les donnes sont mises jour seulement au niveau
de dtail le plus fin (le niveau feuille). Cest lorsque la demande sera formule
par lutilisateur que les niveaux dagrgation intermdiaires seront calculs la
vole . On imagine le gain despace procur par cette technologie.
Procdures stockes
Analysis Services 2005 introduit la notion de procdures stockes afin dtendre
les capacits de traitement (UDF). Une procdure stocke peut tre crite dans
nimporte quel langage tel que C++, VB ou C#. Les procdures stockes simplifient le dveloppement et limplmentation par la cration unique de scripts
cods rutilisables par dautres procdures stockes ou requtes des utilisateurs.
Les procdures stockes fournissent des mcanismes afin dtendre les fonctions
de base du langage MDX. Ces procdures permettent galement de raliser des
tches spcifiques comme le rafrachissement dun cube ou la mise jour partielle
dune portion du cube.
Indicateurs cls de performance
Une innovation de taille dans SSAS 2005 rside dans la mise disposition de
la technologie des KPI. Il sagit de suivre des indicateurs mtier pour lesquels des
objectifs ont t fournis pralablement. Typiquement, ces indicateurs se retrouvent dans des rapports, des portails dcisionnels et des tableaux de bord. Loutil
de restitution est le portail Business Scorecard Management non inclus dans
SQL Server 2005. Des outils tiers qui exploitent cette technologie sont dj disponibles sur le march (Panorama software, Proclarity, etc.). Les KPI sont ds
prsent pris en charge par les tableaux croiss dynamiques de Excel 2007.
Dune manire gnrale, un KPI est compos des lments suivants :
la valeur mesurer (ventes, profit, etc.);
lobjectif de la valeur atteindre (valeur ou pourcentage);
ltat de la mesure permettant de juger de lcart par rapport lobjectif.
Une expression MDX value une valeur courante de la mesure dans une
plage allant de 1 (trs mauvais) + 1 (trs bon);
la tendance : valeur prcisant si la valeur de la mesure se rapproche de
lobjectif ou sen loigne.
Voici une illustration de trois KPI affichs dans une page web (figure 7.4):
KPI du chiffre daffaires trimestriel (feu vert car le revenu dpasse le but
de 12,87 %);

190

7. Analysis Services

KPI de la satisfaction client (feu vert);


KPI du taux dadoption du march (feu rouge car infrieur aux prvisions).

Chiffre daffaires trimestriel

Satisfaction client

Le chiffre daffaire
trimestriel dpassera
les prvisions
de 12,87 %.

Les clients ont t


extrmement satisfaits
en dcembre 2001.
Voir le rapport complet

Taux dadoption du march


Le taux dadoption
de XYZ a t infrieur
de 17,2 % aux prvisions.
Voir le rapport complet

Voir le rapport complet

Figure 7.4 Tableau de bord rassemblant trois KPI

Business intelligence en temps rel


Les entrepts de donne et les applications de business intelligence reposent traditionnellement sur des donnes historiques rafrachies mensuellement, ou quotidiennement. Il est admis que les applications dcisionnelles stratgiques ne
ncessitent pas de frquence de rafrachissement infrieure au jour. Nous pensons
que la business intelligence doit tre omniprsente dans lentreprise et non seulement rserve quelques dcideurs tactiques ou stratgiques. On le constate
par exemple lorsquun directeur de supermarch souhaite connatre en quasi
temps rel les produits qui se vendent le mieux en fonction des annonces publicitaires diffuses dans le magasin. Dans ce cas, le temps dattente entre la ralisation dun fait et sa mesure est quasi instantan.
Alors que AS 2000 offrait un mode de rafrachissement des cubes bas sur le
modle pull (DTS dclenche une tche heure fixe), SSAS 2005 fournit un
nouveau modle qui offre un temps de latence trs rduit entre le stockage de
la donne dans lERP et sa constatation dans le cube.
Le modle push dclench par le pipeline DTS permet aux donnes dtre
immdiatement transfres dans une partition dAnalysis Service sans stockage
intermdiaire.
Le modle de cache proactif permet de dfinir trs prcisment la dure
dattente avant la prise en compte des nouvelles donnes. La frquence des mises
jour des bases dimensionnelles peut tre programme.

7.2 Points damlioration entre Analysis 2000 et SSAS 2005

191

Grce ces mcanismes optimiss, il nest pas rare de constater que les donnes rafrachies et agrges sont accessibles plus rapidement dans la base OLAP
que dans la base relationnelle source.
Les paramtres ajustables du cache proactif sont :
La priode silencieuse qui dfinit la dure pendant laquelle la source de
donne na pas reu de nouvelle transaction avant de lancer le processus
de traitement. Ce paramtre est gnralement dfini moins de 10 secondes. Cette priode dattente protge le systme de reconstructions frquentes du cache dans le cas o il y aurait de nombreuses transactions de mises
jour sur la source relationnelle.
La priode de latence : dure qui garantit une priode maximale au-del
de laquelle un rafrachissement des donnes seffectue.
Lintervalle de latence : il sagit de la dure maximum entre la notification
de changement et le dmarrage du processus de cache proactif. Si la base
de donnes est rafrachie constamment, ce paramtre annule le paramtre
de priode de silence.
Lintervalle de reconstruction force : ce paramtre est utilis dans le but
de fournir un simple cache sur des systmes dont les bases de donnes
source ne disposent pas des fonctionnalits de notifications de mise jour.
LUDM remplace-t-il dfinitivement la construction du datamart ?
Le modle UDM permet dans certains cas de saffranchir de construire le datamart. En considrant les fonctionnalits cites prcdemment, il peut tre tentant
de passer directement du systme oprationnel (OLTP) au mode multidimensionnel (OLAP) via UDM.

Systme
Oprationnel
OLTP

UDM

(Oracle,
Db2, SQL Server)

Cube
Analysis
Services
OLAP

Figure 7.5 Le processus UDM

Il existe cependant des situations qui ne permettent pas de crer ou mettre


jour un cube via UDM.

192

7. Analysis Services

1. UDM ncessite une connexion OLE DB. Si la source de donnes se


trouve dans un format diffrent (texte, XML) ou dans un format propritaire, il sera ncessaire de passer par le datamart.
2. UDM ncessite une connexion permanente avec la source des donnes.
En particulier, si des fichiers doivent tre reus de diffrentes plates-formes
via FTP ou cdrom avant dtre traits, il sera ncessaire de passer par un
datamart.
3. UDM alimente le cube partir de donnes propres, ne ncessitant pas
de transformations pralables. Si le systme oprationnel contient des
erreurs ou des informations ncessitant dtre nettoyes, il sera indispensable
de passer par la phase dalimentation du datamart via Integration Services.

Systme
Oprationnel
OLTP (Oracle,
DB2, SQL
Server)

Intgration

Services

Data Mart
Mtier

UDM

(Oracle,
DB2, SQL
Server)

Cube
Analysis
Services
OLAP

Figure 7.6 Dans la plupart des cas, la cration


du datamart est la solution la plus judicieuse

7.3 MTHODOLOGIE DE CRATION DUNE BASE


DE DONNES DEPUIS UNE SOURCE EXISTANTE
La mthode la plus simple consiste concevoir une base de donnes Analysis
Services en partant dune base de donnes relationnelle quelle quen soit la
source (ERP, PGI, ODS, Oracle, DB2, SQL Server, Access, etc).
Dune manire gnrale, il est fortement conseill de crer une base de donnes relationnelle servant dentrept de donnes. En effet, le datawarehouse qui
sert de source la cration des hypercubes joue le rle dinterface entre les bases
oprationnelles multiples et les cubes. On comprend aisment que cette interface
est ncessaire pour des contraintes de performances, de nettoyage des donnes
source, et dhistorisation de celles-ci. Les bases de donnes oprationnelles sont
volatiles et pour des raisons de performance sont vides rgulirement des donnes les plus anciennes (donnes indispensables aux cubes).
Cependant, il peut tre astucieux et peu onreux de commencer dvelopper
une application dcisionnelle en partant directement de la base de donnes transactionnelle (OLTP) sans mettre en uvre ds le dpart un entrept de donnes.

7.3 Mthodologie de cration dune base de donnes depuis une source existante

193

Cest le cas lorsque les donnes ncessitent peu de transformations, de nettoyage


et dagrgation. Dans ce cas, SSAS sera vu comme un environnement complmentaire au systme de reporting existant. On gagnera dans ce cas lavantage de
linteractivit et on fera une conomie non ngligeable sur lETL.
Sources de donnes et vues sur les sources de donnes
Le point de dpart pour la cration dune application dcisionnelle consiste
crer un nouveau projet dans linterface business intelligence Development Studio.
Une fois que le squelette du projet est cr par lassistant, vous pouvez crer vos
sources de donnes pour vous connecter nimporte quelle source relationnelle.
Les vues sur les sources de donnes contiennent des informations sur des
tables constitutives des diffrentes sources de donnes. Il est possible non seulement daccder aux tables et leurs champs mais galement dtablir des jointures
entre les diffrentes tables source. Il est parfois judicieux de renommer les tables
et les champs par des appellations plus proches du rfrentiel mtier de lutilisateur. Parfois, on sera amen crer des champs calculs drivs des champs
existants.
Lavantage de ces vues pour le dveloppeur rside dans le fait quelles sont
partages entre les projets SSAS et SSIS au sein dun mme projet, ce qui est
particulirement apprciable dans les cas suivants :
La base de donnes dorigine comporte des centaines de tables dont seulement quelques-unes sont utiles au projet BI.
Les sources de donnes sont multiples (serveurs distincts, SGBD distincts,
plateformes diffrentes, fichiers plats, etc.).
Le dveloppeur BI na pas besoin de disposer des privilges dadministration sur les sources de donnes oprationnelles des ERP ou DW.
Le dveloppeur BI peut procder au dveloppement dapplication en mode
dconnect (les sources de donnes ne sont pas ncessaires pour le dveloppement).
Cette phase de normalisation sera payante tout au long du processus de dveloppement des applications BI jusqu leur restitution.
Cration des dimensions des mesures et des cubes
Aprs que les vues sur les sources de donnes ont t cres, vous allez procder
la cration des cubes OLAP. Une batterie dassistants est disponible afin de
crer les mesures (mtriques) et les dimensions du cube (axes dobservation). La
technologie Intellicube examine la base de donnes et les cardinalits dans les
jointures des tables et, tout naturellement, va dterminer les tables de faits et la

194

7. Analysis Services

tables de dimensions. Lassistant tente de crer des structures hirarchiques parmi


les attributs des dimensions. En gnral, il est conseill de laisser lassistant raliser ce travail prliminaire quitte revenir ultrieurement sur des choix qui ne
seraient pas conformes la dfinition du cahier des charges.
Maintenant que les dimensions et les mesures ont t dfinies avec soin, ltape
suivante consiste construire et dployer le cube sur le serveur.
Cration et dploiement du cube
Jusquici les tapes prcdentes de cration de dimension et de dfinition de
cubes ont gnr sur la machine de dveloppement des fichiers intermdiaires
au format XML. Les processus de cration et de dploiement vont maintenant
fournir toutes ces donnes sur le serveur cible. Par dfaut, le serveur de dveloppement rside sur votre machine locale. Il est naturellement possible au moment
du dploiement de choisir le serveur qui hbergera lapplication BI.
Aprs cette tape de cration, il convient de contrler le prototype et en particulier le comportement des mesures au travers des dimensions. Il est prfrable
de dmarrer avec une base de donnes disposant de peu dinformations mais suffisamment significatives afin de dtecter rapidement toute anomalie ventuelle.
Ltape suivante consiste crer des composants BI tels que les KPI (Key Performance Indicators), les actions, les calculs drivs. Selon que les utilisateurs couvrent des mtiers diffrents, vous crerez des perspectives diffrentes. Ces
perspectives sont en ralit des vues diffrentes des donnes lintrieur dun
mme cube selon des profils diffrents. Ces profils disposent galement de droits
de consultation diffrents sur les donnes du cube. Si vous dployez des cubes
pour une consultation internationale ou multilingue, vous serez amens
dployer les fonctions de traduction (Translations). Lors de la cration du
cube vous, vous poserez la question de son mode dalimentation et de la frquence de son rafrachissement. Cela fera intervenir des notions de Partition et
de cache proactif.
Une fois que la base Analysis Services a t ralise, les objets sont dploys
pour des tests dalimentation et de performance sur le serveur de production.

7.4 CRATION DE NOTRE PREMIER CUBE


Afin de raliser cet exemple, les composants suivants doivent tre installs sur
le poste de travail :
Microsoft SQL Server 2005 Database Engine.
Microsoft SQL Server 2005 Analysis Services.

7.4 Cration de notre premier cube

195

Business intelligence Studio.


AdventureWorks DW sample Database (option slectionner).
Vous devez tre membre du groupe local administrateurs sur le serveur et
disposer des autorisations en lecture sur la base AdventureWorks DW.
Bien vrifier la slection des options ci-dessus lors de linstallation de SQL
Server 2005.
Le scnario suivant sinspire dune socit fictive Cycles et Aventure qui fabrique et distribue des bicyclettes en matriaux mtalliques et composites. La
socit emploie plusieurs quipes commerciales dans le but de couvrir un march
qui stend sur trois continents : Amrique du Nord, Europe et Asie.
Pour rpondre aux besoins en analyse des donnes des quipes commerciales
et marketing, ainsi que de la direction, lentreprise rcupre actuellement les
donnes transactionnelles dans la base de donnes Base_Oprationnelle et les
donnes non transactionnelles comme les quotas des ventes dans des feuilles de
calcul, et consolide ces donnes dans lentrept de donnes relationnelles
Base_Entrepot. Cependant, lentrept de donnes relationnelles prsente les problmes suivants :
Constat
Actuellement, les rapports prdfinis fournis par le systme oprationnel sont
statiques. Lorsque les utilisateurs dsirent tablir des tableaux de synthse, ils
doivent ressaisir les donnes dans le tableur Excel. Ils peuvent ensuite laborer
des graphes. Les donnes de synthse saisies manuellement dans Excel ne permettent pas dexplorer des niveaux de dtail plus fins. Dans ce contexte, il
nexiste pas de lien permettant de retrouver les donnes dtailles qui constituent les donnes de synthse.
Les utilisateurs nayant pas connaissance des technologies OLAP se contentent bien souvent des rapports quils impriment selon leurs besoins. Parmi ces
utilisateurs, certains souhaiteraient accder directement aux donnes de la base
oprationnelle. Ils disposent parfois doutils de requtage. Cependant, du fait de
la complexit du schma de la base, ils renoncent laborer eux-mmes les rapports dont ils ont besoin et finissent par solliciter les services informatiques.
Dans les environnements o lentrept de donnes na pas t mis en place,
les utilisateurs constatent avec stupeur que les donnes des annes antrieures
ne sont plus accessibles. Les processus de nettoyage visant amliorer les performances du systme transactionnel ont eu raison de lhistorique des donnes.
Les temps de rponse sont alatoires (plusieurs minutes voire plusieurs heures
lorsque les volumtries sont importantes).

196

7. Analysis Services

La solution passe naturellement par lentrept de donnes visant organiser


les donnes en tables dimensionnelles et la technologie OLAP dont un des objectifs est de permettre des analyses croises dynamiques.
Dans lexemple qui suit, nous allons montrer comment la technologie UDM
va nous permettre dlaborer rapidement un cube OLAP.
Un peu de mthode avant de commencer.
La cration dun cube passe par quatre tapes indispensables.
tape 1 : Dfinir le processus analyser
Cette premire tape est souvent attache un besoin mtier . Ce besoin est
gnralement exprim par un manager oprationnel de lorganisation sous forme
dinterrogation : quelles sont les ventes ralises sur Internet compares sur les
trois dernires annes par rgions et par lignes de produit ?
tape 2 : Dterminer le niveau de granularit des donnes
Les donnes proviennent des tables de faits pour les mtriques et des tables de
dimension pour les axes dobservation. La granularit reprsente le niveau de
dtail auquel le manager souhaite parvenir. Bien souvent, les analyses se font sur
des donnes agrges apportant ainsi une vision globale de lactivit, mais il est
galement ncessaire de connatre les donnes dtailles qui composent la donne synthtique. Le niveau de granularit le plus fin est conditionn par la ligne
de dtail stocke dans la table de faits. Ainsi, pour une analyse des ventes ralises sur Internet, il sera ncessaire didentifier la table de faits susceptible de
renfermer cette donne. Une table candidate est naturellement la table VentesInternet. Le niveau de granularit le plus bas sera donc reprsent par la ligne
de facture des ventes internet. En gnral, cette ligne de facture reprsente un
niveau de dtail suffisamment fin pour connatre larticle vendu, par qui et
quand, puis de connatre la quantit vendue et le montant. Ralph Kimball et
Margy Gross recommandent que la table de faits stocke la donne un niveau
atomique cest--dire au niveau le plus fin. Cependant, si vous dcidez dagrger les donnes dans la table de faits de lentrept de donnes et que vous dsirez
accder au niveau de dtail le plus fin, vous devrez envisager que UDM puisse
accder la source reprsente par la base transactionnelle OLTP.
tape 3 : Choisir les dimensions
Lanalyse smantique de la question pose par notre manager permet de dterminer assez facilement les tables dimensionnelles devant intervenir dans llaboration du cube. En effet, lorsque le responsable demande une analyse par
Rgions et par ligne de produit, il identifie clairement les axes dobservation,
donc les dimensions du cube OLAP. La rgion tant dtermine par le client,
la table dimensionnelle Clients sera introduite par lUDM dans le rfrentiel.

7.4 Cration de notre premier cube

197

La notion de ligne de produit et produit est dtermine par deux champs de la


table Produit. Nous devrons donc intgrer la table dimensionnelle Produit.
Notre manager prcise galement quil dsire effectuer la mme analyse sur
les trois dernires annes. Cette requte implique par consquent une notion
temporelle. Il sera donc ncessaire dintroduire la dimension Temps. Il est noter
que cette table Temps nexiste nullement dans la base oprationnelle. Elle est
un artifice introduit uniquement dans la base entrept de donnes. Son but est
de partager plusieurs datamarts selon le mme axe temporel. La table Temps est
jointe la table de faits centrale grce une cl temporelle ajoute la table de
faits et alimente au moment de la phase dETL (fonction lookup).
Le niveau de granularit du cube sera dtermin par le niveau hirarchique
le plus bas de chacune des dimensions qui composent le cube.
tape 4 : Identifier les mtriques
La dernire tape consiste identifier les donnes numriques qui rpondent
la question de notre manager.

7.4.1 Mesures
Dans lexemple prsent ci-aprs, les mesures sont dfinies par la table VentesInternet et sont les suivantes :

quantit commande;
prix unitaire;
quantit tendue;
remise unitaire;
montant de la remise;
cot standard du produit;
cot total du produit;
montant des ventes;
montant de la taxe.

7.4.2 Dimensions
Notre manager veut effectuer des analyses selon divers axes dobservation.
Laxe clients se dcompose de la faon suivante :
rgion;
province;
ville;

198

7. Analysis Services

nom;
laxe produits;
catgorie de produit;
sous-catgorie;
ligne produit;
produit;
laxe du temps;
anne;
trimestre;
mois;
jour.

7.4.3 Le schma en flocons


Les datamarts sont constitus dune table de faits centrale autour de laquelle
gravitent des tables de dimensions. Selon que laxe dimensionnel est compos
dune seule table ou de plusieurs, le schma sera appel en toile ou en flocon.
Dans lexemple ci-dessous, la table de fait centrale est la table FaitVentesInternet. La dimension Client est compose de deux tables lies (DimClients et
DimGeographie). De ce fait nous parlerons dun schma en flocons.

Figure 7.7 Schma en flocon compos


dune table de faits et de trois axes dimensionnels

7.4 Cration de notre premier cube

199

La dimension Produits est constitue partir de trois tables lies DimProduit,


DimSousCatgorieProduit et DimCatgorieProduit).
Dans la figure ci-dessus, laxe Produits est lui-mme compos de trois tables.
On parle donc dun schma en flocons.

7.4.4 Crer le projet Mon Premier Cube laide


de lenvironnement UDM dAnalysis Services
Un projet Analysis Services se dcompose en deux phases. La premire consiste
dfinir lenvironnement des sources qui alimentent le cube. La seconde permet
de crer le cube en introduisant la notion de mesures et dimensions.
Dfinir lenvironnement des sources de donnes.
Slectionner Dmarrer, cliquer sur Microsoft SQL Server 2005 ensuite cliquez
sur SQL Server business intelligence Development Studio.
Lenvironnement business intelligence de Visual Studio souvre :
Nouveau projet
Dans la fentre Project types slectionner business intelligence Projects.
Dans la fentre Visual studio Modles Visual Studio effectuez un double-clic
sur : Projet Analysis Services.

Figure 7.8 Formulaire de cration dun projet SSAS

200

7. Analysis Services

Dans le champ Nom, nommer le projet : Projet Mon Premier Cube.


Dans le champ Emplacement, dfinir un chemin daccs aux projets ou conserver
celui propos par VS. Dans le champ Solution, saisir Solution Mon Premier Cube.

Figure 7.9 Composants crs en standard lors de la cration dun projet SSAS

Crer la source de donnes :


Clic droit sur Source de donnes.
Assistant Source de donnes.
Cliquer sur Suivant.
Slectionner la mthode de dfinition de la connexion.
Cliquer sur le bouton Nouveau.
Dans la liste propose choisissez OLE DB natif\SQL Native Client.

Figure 7.10 Choix des types de connexion

Choisir le fournisseur daccs la base Entrepot.

7.4 Cration de notre premier cube

201

Figure 7.11
Le gestionnaire
de connexion

Le bouton Tester la connexion permet de vrifier la connexion au serveur.


Figure 7.12
Le Gestionnaire
de connexion vrifie
le lien avec la base
de donnes source

Puis OK deux fois.

Figure 7.13 Lassistant


montre les paramtres
de la connexion de donnes

202

7. Analysis Services

Puis dans lcran suivant, slectionnez le choix Utiliser le compte de service.

Figure 7.14 Information sur lidentit


de lutilisateur accdant la source de donnes

Figure 7.15 Chane de connexion fournie par lassistant

Puis cliquez sur Terminer.


Dans lexplorateur de solutions, nous constatons la prsence de la nouvelle
source de donnes : Base_Entrepot.ds.

Figure 7.16 La source


de donnes dans lexplorateur
de solutions

7.4 Cration de notre premier cube

203

Ltape suivante consiste crer une nouvelle vue de source de donnes.


Clic droit sur Vues de sources de donnes.

Figure 7.17 Cration


dune nouvelle vue de source
de donnes

Validez Nouvelle vue de source de donnes


Lassistant de source de donnes dmarre.
Bouton Suivant.

Figure 7.18 Formulaire de slection des tables


qui entrent dans le rfrentiel du modle en toile ou en flocon

204

7. Analysis Services

Slectionnez la source de donnes qui vient dtre cre Base Entrepot.


Bouton Suivant.
Dans le formulaire suivant vous allez slectionner les tables de Base entrepot
qui sont inclure dans la vue de source de donnes.
Grce au bouton

> slectionnez la table de faits FaitVentesInternet.

Cliquez sur le bouton Suivant.


Puis validez la fin de la cration de source de donnes en cliquant sur le bouton Terminer.
Dans lexplorateur de solution vous observez la cration de la vue Base Entrepot.dsv.
Vous obtenez le schma suivant (figure 7.19).

Figure 7.19 Source de donnes selon un schma en flocon

Crer le cube laide de lassistant


La phase de cration du cube permet de dterminer les dimensions et les mesures
qui participent son laboration.
Dans lexplorateur de solutions, effectuez un clic droit sur Cubes puis validez
Nouveau Cube
Lassistant de cration de cube est sollicit.
Puis cliquez sur le bouton Suivant.

7.4 Cration de notre premier cube

205

Figure 7.20 Cration dun cube


laide de lassistant UDM

Slectionnez la Vue de source de donnes Base Entrepot puis cliquez sur le


bouton Suivant.
Lassistant tente de dtecter automatiquement les tables de faits et de dimension.
Puis cliquez sur le bouton Suivant.
Vous vrifiez que la table de faits est bien FaitsVentesInternet. Toutes les
autres tables sont des tables de dimension.
Prcisez lassistant quelle est la table de dimension temporelle. Pour cela,
slectionnez la table de dimension temps DimTemps.
Dans lcran prsent dans la figure 7.21, vous devez prciser la table qui joue
le rle de dimension de temps.

Figure 7.21 Lassistant dtecte les tables de dimension et tables de faits

206

7. Analysis Services

Figure 7.22
Identifier les tables
de faits et de dimension

Figure 7.23 Crer une hirarchie dans la dimension temporelle

7.4 Cration de notre premier cube

207

Sur la figure 7.22, le diagramme fait apparatre le schma en toile ou flocon en


distinguant les tables de dimension et les tables de faits (au centre du diagramme).
Puis cliquez sur le bouton Suivant.
Sur la figure 7.23, lassistant dfinit une hirarchie pour la dimension Temps.
la diffrence de AS 2000 qui dduit automatiquement la hirarchie temporelle
partir dune date, SSAS 2005 doit recevoir un mappage manuel entre les
proprits de la hirarchie et les champs slectionns dans la table de dimensions. On remarquera que les valeurs anne, trimestre, mois, etc. doivent exister
dans la table dimensionnelle.
Lorsque la table dimensionnelle nexiste pas dans le modle (cas frquent) il
est ncessaire den gnrer une grce lassistant de cration de dimension temporelle sans source de donnes.
Figure 7.24 Lorsque
la table temps nexiste
pas, il est impratif de la
crer grce lassistant
dimension temps.
Cette tche a pour but
de crer une nouvelle
table dans lentrept
de donnes

Figure 7.25 Fournir les bornes pour la construction de la table temporelle

208

7. Analysis Services

Il est ncessaire de fournir les bornes pour la construction de la table.


Puis cliquez sur le bouton Suivant.
Lassistant dtermine les mesures en fonction des champs numriques dtects dans la base de faits. Conservez uniquement les mesures qui ont un sens
tre agrges (mesures additives) comme ci-dessous.

Figure 7.26 Slectionnez les mesures ou indicateurs pertinents

Par dfaut, lassistant repre les champs au format numrique et tente den
crer des mesures. Dcochez les cls qui ne constituent pas des mesures dans la
base de faits.
Puis cliquez sur le bouton Suivant.
Lassistant dtecte automatiquement les hirarchies.
Puis cliquez sur le bouton Suivant.
Dployez les nouvelles dimensions dtectes afin de contrler les choix effectus par lassistant.
Vrifiez la pertinence des hirarchies et des attributs.
Puis cliquez sur le bouton Suivant.

7.4 Cration de notre premier cube

209

Figure 7.27 Dcochez les attributs de dimensions


qui ne dfinissent pas des axes danalyse (le champ Photo nest pas un axe danalyse)

Figure 7.28 Lassistant


de cration de cube
affiche la structure
des nouvelles dimensions

210

7. Analysis Services

Figure 7.29 Lassistant affiche les groupes de mesures


et les dimensions quil vient dattribuer au cube MonPremierCube

Puis cliquez sur le bouton Terminer.

Figure 7.30 Le concepteur de cube prsente lexplorateur


de solutions, les groupes de mesures, les dimensions incluses
dans le cube et la vue de source de donnes

7.4 Cration de notre premier cube

211

Dans la vue de la source de donnes, vous observez la table de faits au centre


du schma en flocon (figure 7.30).
Le concepteur de cube contient les onglets suivants, qui affichent diffrentes
vues du cube.

Structure de cube
Cet onglet permet de modifier larchitecture dun cube et den modifier les composants.

Utilisation de la dimension
Cet onglet permet de dfinir les relations entre des dimensions et des groupes
de mesures, ainsi que la granularit de chaque dimension au sein de chaque
groupe de mesures. Si vous utilisez plusieurs tables de faits, il se peut que vous
deviez identifier si les mesures sappliquant ou non une ou plusieurs dimensions.
Chaque cellule reprsente une relation potentielle entre le groupe de mesures et
la dimension intersecte.

Calculs
Cet onglet permet dtudier les calculs dfinis pour le cube, de dfinir de nouveaux calculs pour le cube dans sa totalit ou pour un sous-cube, de rorganiser
les calculs existants et de dboguer les calculs, pas pas, en saidant des points
darrt. Les calculs permettent de dfinir de nouveaux membres et mesures bass
sur des valeurs existantes, tels que des calculs de profit, et de dfinir des jeux
nomms.

KPI
Cet onglet permet de crer, diter et modifier les indicateurs de performance
cls (KPI) dans un cube. Ceux-ci permettent au concepteur de dterminer rapidement les informations utiles relatives une valeur et par exemple, de dterminer si la valeur dfinie est suprieure ou infrieure un objectif ou si la
tendance que suit la valeur dfinie augmente ou diminue.

Actions
Cet onglet permet de crer ou de modifier des extractions, des rapports et dautres
actions pour le cube slectionn. Il contient des informations contextuelles sur
les applications clientes, les commandes et les rapports auxquels les utilisateurs
finaux peuvent accder.

Partitions
Les partitions permettent de stocker les sections dun cube dans diffrents emplacements avec des proprits diffrentes, telles que des dfinitions dagrgations.

212

7. Analysis Services

Perspectives
Une perspective est un sous-ensemble dfini dun cube et sert rduire la complexit dun cube du point de vue de lutilisateur.

Traductions
Cet onglet permet de crer et grer les noms traduits des objets de cube, tels que
les noms de mois ou de produits.

Navigateur
Cet onglet permet dafficher les donnes du cube selon une prsentation proche
du tableau crois dynamique.
Lexplorateur de solutions prsente les nouvelles dimensions (figure 7.31).

Figure 7.31 Lexplorateur de solution prsente trois dimensions partages


alors que le cube lui-mme en contient cinq (la dimension temps
est triple dans le cube car il existe trois dates diffrentes lies la table temps)

Dans le menu de Visual studio slectionnez Fichiers puis cliquez sur Enregister tout.

Modification des mesures et dimensions cres par dfaut


Slectionnez longlet Structure du cube puis dpliez les mesures de Fait Ventes
Internet.
Le volet Dimensions de longlet Structure de cube affiche les dimensions qui
ont t cres ltape prcdente. Les dimensions Produit et Clients apparaissent clairement. En revanche, la table de dimension Dim Temps a gnr trois
dimensions de cube temporelles. Ces dimensions temporelles correspondent aux
champs de type date observs dans la table de faits : date de livraison, date de
commande et date expdition.

7.4 Cration de notre premier cube

Dans le volet Dimensions, dveloppez Dim Clients, puis cliquez sur le


lien Modifier Dim Clients.
Le concepteur de dimension apparat. Vous observez trois onglets :
Structure de dimension, Traductions
et Navigateur.
Longlet Concepteur de dimension Figure 7.32
Groupe
contient son tour trois onglets :
de mesures
Attributs, Hirarchies et niveaux et et dimensions
vue source de donnes.
du cube
Les choix effectus par lassistant
ne nous conviennent pas. Par consquent, vous allez procder la modification de la hirarchie de la dimension.
Commencez par renommer la hirarchie en Clients.

Figure 7.33 Longlet structure de dimension se dcompose en Attributs,


Hirarchies et vue source de donnes propre la dimension

213

214

7. Analysis Services

Clic droit sur len-tte de la hirarchie, puis


Renommer, puis saisissez Clients.
Vous allez reconstruire les niveaux hirarchiques de la dimension clients.
Vous allez supprimer les niveaux actuels par un
clic droit sur chaque niveau puis Supprimer.
Grce la fonction glisser dplacer, vous reconstituez la hirarchie de la dimension Clients.
Dans lordre, glissez tout dabord Nom Rgion
Franais puis immdiatement en-dessous Nom
Province puis Ville et enfin Nom.

Figure 7.34 Supprimer


ou renommer un niveau
dans la hirarchie

Vous obtenez ainsi la nouvelle hirarchie


Clients.

Figure 7.35 Grce un glisser-dplacer


depuis la source de donnes vers la hirarchie il est possible
de construire une ou plusieurs hirarchies de dimension

Vous allez effectuer le traitement de rorganisation sur la dimension Produit.


Dans lexplorateur de solution slectionnez la dimension Dim Produit.

7.4 Cration de notre premier cube

215

Les trois onglets Structure de dimension, Traductions et Navigateur souvrent


de nouveau. Longlet Hirarchie est vide.

Figure 7.36 Pour crer une hirarchie,


faites glisser une colonne ou un attribut sur la partie centrale

Vous allez crer de toute pice une nouvelle hirarchie Produit en incluant
la hirarchie LigneProduit et Produit.
Avant de crer cette nouvelle hirarchie et afin de mieux slectionner les
champs, vous allez observer le contenu de la table DimProduit partir de laquelle
vous allez reconstituer la hirarchie.
Dans longlet Vue Source de donnes, faites un clic droit sur la table DimProduit puis Explorer les donnes.
En cliquant sur len-tte de colonne, vous pouvez trier en ordre croissant ou
dcroissant les donnes (ici NomProduitFranais).

216

7. Analysis Services

Figure 7.37 Un clic droit sur une table


dans la source de donnes permet dexplorer le contenu de la table

Dans la hirarchie Produit, vous allez slectionner Ligne de produit puis


immdiatement en dessous, NomProduitFranais.
Revenez sur longlet DimProduit puis glissez le champ LigneProduit de la
Vue source de donnes vers Hirarchie et Niveaux.

Figure 7.38
Glisser dplacer
un champ de la vue
source de donnes
dans la hirarchie

7.4 Cration de notre premier cube

217

Une nouvelle hirarchie vient dtre cre avec un


seul lment LigneProduit.
Vous obtenez une nouvelle hirarchie.

Hirarchie temporelle
Dans lexplorateur de solutions, cliquez sur la dimen- Figure 7.39 Hirarchie
aprs introduction
sion Dim Temps. Dans longlet Hirarchie et niveaux,
dun nouveau champ
renommez la hirarchie en Dates.
Dans le menu Fichiers, choisissez alors Enregistrer
tout.
Pour afficher les donnes du cube dans le projet, il
est ncessaire de dployer le projet sur une instance
spcifie de Analysis Services, puis traiter le cube et
ses dimensions.
Le dploiement dun projet Analysis Services entrane
la cration des objets dfinis dans une instance de
Analysis Services. Le traitement des objets dans une
Figure 7.40 Renommer instance de Analysis Services, entrane la copie des
une hirarchie
donnes partir des sources de donnes sous-jacentes
dans les objets du cube.

Dployez le cube
Faites un clic droit sur MonPremierCube puis slectionnez Dployer.

Figure 7.41 Dployer le cube permet de crer la structure


du cube sur le serveur Analysis Services

218

7. Analysis Services

lissue du dploiement, lassistant rcapitule lensemble des actions quil a


ralises.
Aprs que le cube est dploy puis trait sur le serveur, il est possible de
naviguer dans le cube grce longlet Navigateur.

Figure 7.42 Rcapitulatif du dploiement du cube sur le serveur

Dans le rpertoire Cubes de lexplorateur de solutions, double-cliquez sur


MonPremierCube.cube puis dans la fentre de gauche, slectionnez longlet
Navigateur.
Vous observez un affichage proche du tableau crois dynamique dExcel. Vous
allez progressivement dplacer les champs de mesures et dimension vers ce
tableau vierge.
Tout dabord, glissez-dplacez la mesure Quantit commande dans la partie
centrale du rapport.
Les champs de dimension vont tre dirigs vers les en-ttes de lignes et de
colonnes.
Glissez-dplacez la dimension Dim Clients vers les en-ttes de lignes puis
Dim Produit dans en-ttes de colonnes.

7.4 Cration de notre premier cube

219

Figure 7.43 Onglet de navigation dans le cube

Figure 7.44 La mesure Quantit


commande a t glisse
sur la partie dtail du navigateur

Figure 7.45 Le champ Ligne Produit dfinit les colonnes et Rgion dfinit les lignes

Glissez-dplacez la dimension temporelle Cl Date Commande vers lemplacement des champs de filtre. Dans la liste droulante dslectionnez toutes les
annes sauf 2003.

220

7. Analysis Services

Figure 7.46 La date de commande remplit le rle de filtre

En cliquant sur le signe + associ aux champs, vous allez pouvoir forer
dans la hirarchie des dimensions. Cette technique est galement appele drill
down. Le signe permet deffectuer un drill up.

Figure 7.47 Les signes + et permettent deffectuer drill down et drill up

Faites un clic droit sur lespace du tableau puis slectionnez Commandes et


Option puis comportement puis cochez les cases Barre de titre et Barre doutils.
Vous pouvez obtenir un contexte proche de celui des tableaux croiss dynamiques dExcel.
Rappelons que loutil de navigation nest pas mis la disposition de lutilisateur final. Dans la phase de dveloppement, il est utile au dveloppeur et
ladministrateur (au travers de la console de management) des fins de contrle.

7.4 Cration de notre premier cube

221

Figure 7.48 Formulaire permettant de dafficher des lments


afin de rendre le navigateur proche du tableau crois dynamique

Figure 7.49 Linterface est maintenant celle du tableau crois dynamique dExcel

Vous pouvez continuer de dposer des champs mesures et/ou dimensions


partir de la liste des champs disponibles.
Vous pouvez galement retirer des champs (mesures ou dimensions) en slectionnant len-tte du champ et en glissant celle-ci hors du tableau.

Crer une nouvelle hirarchie de dimension


La dimension Produit contient actuellement deux niveaux (Ligne produit et Produit). Lanalyste souhaite tablir une subdivision par catgorie de produit et souscatgorie de produit.

222

7. Analysis Services

Lobservation du diagramme de la base Base_Entrepot dans SQL Management


Studio fait clairement apparatre les liens dintgrit qui existent entre les tables
DimProduit, DimSousCatgorieProduit et DimCatgorieProduit.
La cl trangre ClSousCatgorie de la table DimProduit et en jointure avec
la cl principale ClSousCatgorieProduit de la table DimSousCatgorieProduit.
De mme la cl trangre ClCatgorieProduit de la table DimSousCatgorieProduit et en jointure avec la cl principale ClCatgorieProduit de la table DimCatgorieProduit.

Figure 7.50 De nouvelles tables (catgories et sous-catgories) doivent tre ajoutes


au modle en flocon. Ci-dessus, reprsentation des tables dans Management Studio

Afin dajouter les niveaux hirarchiques Sous-catgorie de produit et Catgorie de produit, il est ncessaire dajouter les deux tables correspondantes dans
la vue Base Entreprot.dsv.
Dans lexplorateur de solutions, cliquez avec le bouton droit sur la vue Base
entrepot.dsv.
Puis slectionnez concepteur de cube.
Dans longlet de dfinition de vue, vous allez ajouter deux tables supplmentaires. Dans le menu BI studio, choisissez Vue des sources de donnes puis
Ajouter/Supprimer des tables

7.4 Cration de notre premier cube

223

Dans la partie droite de lcran (figure 7.51), cliquez sur la table dbo.DimProduit puis actionnez le bouton Ajouter des tables associes.

Figure 7.51 Ajouter des tables une vue des sources


de donnes grce aux tables associes

Figure 7.52 Ajouter des tables associes

Retirez la table FaitVentesRevendeur qui nest pas utile pour le moment, puis
cliquez sur DimSousCatgorieProduit et actionnez de nouveau le bouton Ajouter des tables associes.

224

7. Analysis Services

Lassistant dtecte automatiquement les jointures entre les tables puis les
intgre automatiquement la vue.

Figure 7.53 Objets inclus dans la vue finale

Cliquez sur OK.


Les deux nouvelles tables font maintenant partie de la vue Base Entrepot.dsv.
Sauvegardez tout.
Vous allez maintenant ajouter deux niveaux supplmentaires dans la hirarchie Produit.
Dans lexplorateur de solution, double-cliquez sur la dimension DimProduit.dim.
Dans la vue Source de donnes, utilisez le clic droit et loption ajouter les
tables Vous ajoutez les deux tables suivantes DimSousCatgorieProduit et
DimCatgorieProduit (figure 7.54).

Figure 7.54 Ajouter les tables


DimSousCatgorieProduit
et DimCatgorieProduit au schma en flocon

7.4 Cration de notre premier cube

225

Figure 7.55 Glisser-dplacer


un champ dune table vers la hirarchie

Grce au glisser-dplacer, vous allez insrer le champ NomFranaisSousCatgorie au-dessus de ligne Produit. Vous allez faire de mme en amenant le
champ NomFranaisCatgorieProduit au-dessus du champ prcdent.
Renommez galement le titre de la hirarchie en Produit et Catgories.

Figure 7.56 La nouvelle hirarchie


aprs introduction des champs de catgorie

Puis dployez le cube : clic droit dans lexplorateur de dimension puis


Dployer.
Dans lexplorateur de solution, effectuez un clic droit sur la dimension Dim
Produit.dim, puis dans longlet central Navigateur, choisissez la hirarchie globale Produit et catgories puis droulez larborescence des catgories de produit.

226

7. Analysis Services

Figure 7.57 Navigateur


de dimension

Figure 7.58 Il est possible de naviguer dans tous les attributs de la dimension

7.5 Conclusion

227

Vous pouvez changer de niveau hirarchique et observer les membres selon


le nouvel axe dimensionnel.
La navigation dans le cube fait clairement apparatre la nouvelle hirarchie
Produit et Catgorie.

Figure 7.59 Les attributs catgories


et sous catgories sont maintenant intgrs au cube

7.5 CONCLUSION
Ce chapitre nous a permis de comprendre les diffrentes tapes qui participent
la cration dun cube. Nous avons successivement dfini les sources de donnes.
Nous avons dfini un schma en flocon faisant apparaitre clairement la table de
faits centrale et les tables descriptives appeles dimensions. Lors de la cration
du cube lassistant a dtect le rle des tables en prsence. Il a dtermin la table
de faits comportant les mesures (mtriques), puis les tables dimensionnelles. Il
a dtermin le niveau de granularit et les liaisons entre tables de faits et tables
de dimension.
Le dploiement du cube sur le serveur Analysis Services a ensuite permis de
naviguer dans le cube grce loutil intgr BI studio.
Dans le chapitre suivant nous apporterons un clairage complmentaire en
prsentant de faon plus dtaille les composants essentiels du cube afin de
rpondre plus prcisment des problmatiques mtier.

8
Mthode
de conception
des cubes avec SSAS

Nous lavons vu, crer un cube OLAP avec lassistant ne prsente pas de difficult majeure, en particulier si lon respecte les paramtres standard fournis par
loutil. La base de donnes relationnelle sous-jacente est indispensable la fabrication du cube, mais de par sa structure tabulaire et linaire, elle reste difficilement exploitable pour lanalyse. Le langage SQL, seul outil de requtage, permet
de raliser des rapports simples bas sur des notions de listes dont la valeur ajoute consiste effectuer des regroupements matrialiss par des sous-totaux intermdiaires de colonnes et totaux gnraux. Un vritable serveur analytique
dispose de la couche OLAP offrant des performances constantes quelle que soit
la volumtrie. la vision purement squentielle de linformation, OLAP en apporte
une transverse permettant ainsi de mettre en relation des donnes non contigus
dans lentrept. Cette capacit dfinir des rapprochements structurs dans
lespace est rendue possible grce au langage MDX.
De telles performances sont rendues possibles grce une gestion simplifie
des agrgations. Celles-ci rsultent de calculs visant regrouper des donnes
numriques puises dans les tables de faits. Ces calculs sont prstocks dans le
cube OLAP des niveaux variables de regroupement, rendant possible un affichage instantan. Cette technique de regroupement de donnes sous forme pragrge est de loin plus efficace que la mthode ancienne qui consistait indexer

230

8. Mthode de conception des cubes avec SSAS

des vues SQL. Cette technique dindexation tait galement accompagne dune
mise niveau coteuse des matriels afin de rpondre toujours plus dexigence.
Lobjectif principal est de dterminer les agrgations qui rpondent le mieux
aux besoins mtier et didentifier la frquence de mise jour des agrgats. Un
autre enjeu consiste dcider de la faon de conserver lhistorique et particulirement sil est ncessaire de tracer les changements dtats successifs au niveau
des axes dobservation (produits, clients, fournisseurs, etc.).
La mise en place dagrgations permet de prvenir des risques de mauvaise
interprtation des donnes. En effet, dans un modle relationnel, comment
sassurer que lutilisateur qui dsire suivre son stock semaine par semaine ne va
pas par erreur additionner des stocks successifs au lieu de ne considrer que la variation constate dune semaine sur lautre. Nous lavons dj vu, il sagit l dune
notion de mesure semi-additive, totalement prise en compte par OLAP. Un autre
aspect naturellement pris en compte par OLAP est le rapprochement de donnes
des niveaux de granularit diffrents (budget dfini un niveau trimestriel,
compar des donnes journalires).
Une fois que les membres de lorganisation ont dcid des besoins mtiers,
ils vont alors prciser comment ils souhaitent y accder (Internet, intranet, via
Excel ou autre outil tiers) et la manire dont ils veulent naviguer au sein de
leurs donnes (forage progressif selon diffrents niveaux dagrgation).

8.1 ORGANISATION LOGIQUE DES CUBES


8.1.1 Dfinition de la structure OLAP
Plusieurs tapes sont respecter lors du dveloppement dun projet Analysis Services.
Dmarrer le projet OLAP
Vous devez disposer de loutil client BI Development Studio sur votre machine
de dveloppement. Votre ordinateur doit pouvoir tre connect au serveur de
donnes de SQL Server 2005 afin daccder au datawarehouse. Il doit galement
tre connect au serveur danalyse de SQL Server 2005. De nombreux dveloppeurs qui travaillent en mode dconnect installent les composants serveur
sur leur machine de dveloppement. BI Studio sert concevoir et dvelopper
la base Analysis Services. Management Studio a pour vocation de maintenir la
base de donnes danalyse (ajout et excution de partitions, sauvegarde, etc.). La
rgle est que tout dveloppement ou toute modification de dfinition des cubes
doit tre ralise dans BI Studio puis dploye sur le serveur. Plutt que daccder

8.1 Organisation logique des cubes

231

directement aux tables des bases sources, Analysis Services accde celles-ci au
moyen dune couche dexposition qui simplifie grandement le processus de maintenance. Cest galement grce ces vues que le dveloppeur exposera les champs
de donnes selon des rgles de nommage mtier comprhensible par lutilisateur final.
Bien quil faille attendre que la phase de dfinition du datawarehouse soit termine avant dentamer celle de la construction des cubes OLAP, il nest cependant pas ncessaire que la phase dETL soit termine. Il est tout fait possible
et mme recommand de ne pas attendre la fin du processus Integration Services
pour dmarrer le projet SSAS. Bien souvent on se contentera de quelques donnes de test, que lon pourra modifier manuellement afin de crer diffrentes situations. Les rsultats seront dautant plus faciles contrler que les donnes sont
peu nombreuses (contrle des moyennes, et des mesures semi-additives). Le
temps de rafrachissement des cubes sera rduit dautant.
Crer le projet et la vue des sources de donnes
Afin de contrler une solution globale faisant intervenir des projets divers tels
que SSIS, SSAS, SSRS, il est fortement conseill de crer une seule solution
intgrant elle-mme les trois projets diffrents.
Cette stratgie permet de crer une vue des
sources de donnes qui sera partage dans lensemble de la solution. Les sources de donnes partages sont plus aises maintenir parce quelles sont
dfinies un endroit unique (figure 8.1).
Lassistant des sources de donnes peut en crer
une nouvelle base sur une existante dans la mme
solution ou crer une source de donnes base sur
un projet Analysis Services existant.

Figure 8.1 Trois projets


dans la mme solution

Figure 8.2 Le menu ci-contre permet deffectuer


toutes les modifications sur une vue de donnes

232

8. Mthode de conception des cubes avec SSAS

Lors de lajout de tables dans la vue (choix Ajouter/Supprimer des tables,


figure 8.2), les jointures existantes dans la base de donnes sous-jacente sont
immdiatement reconstitues. On peut vouloir crer de nouvelles jointures entre
des champs de tables. Un simple glisser-dplacer suffit. Il est important deffectuer le glisser depuis le champ reprsentant la cl trangre de la table ct n,
vers le champ reprsentant la cl unique dans la table ct 1 (figure 8.3).
Les attributs de description des tables et des champs seront remplis avec soin
car Analysis Services utilise ces donnes lors de la cration du cube. On vitera
de stocker les commentaires dans le cube lui-mme car il seraient alors remplacs
chaque retraitement du cube.
Il est possible dajouter dans la vue des tables en provenance de serveur tiers (Oracle, DB2, etc.). Dune manire gnrale, on prfrera effectuer des jointures sur des
tables de bases de donnes tiers dans lenvironnement propre du datawarehouse.

Figure 8.3 Les jointures sont reconstitues lors de lajout de tables

8.1.2 Dfinir les dimensions


Dune manire gnrale, les
dimensions sont construites
partir du schma en toile ou en
flocon et sont a priori indpendantes de tout cube.
Les dimensions sont par nature
partageables entre plusieurs
cubes. Lors de la construction du
cube les dimensions sont slectionnes. La figure 8.4 montre
des dimensions qui peuvent tre
partages entre plusieurs cubes.
Une dimension standard
contient une cl (Product Name
dans la figure 8.6) un ou plusieurs
attributs, et une ou plusieurs hi-

Figure 8.4 Dans le projet Analysis Services


Tutorial, huit dimensions ont t prpares

8.1 Organisation logique des cubes

233

Figure 8.5 Le cube est compos


de dix dimensions (trois dimensions
temporelles, Due date, Order date, Ship
date, sont drives des trois champs
de type Date dans la table de faits).
La figure 8.5 montre les dimensions
utilises par le cube
Analysis Services Tutorial

rarchies. Analysis Services cre des dimensions partir de tables dnormalises.


Le passage de la troisime forme normale une forme de table plate permet
de rpondre des critres de performance.

Figure 8.6 Les dimensions sont caractrises


par des attributs et des hirarchies

Une dimension peut inclure des hirarchies de type parent/enfant. Une


dimension peut tre variation lente de type 1 (ne tient pas compte de lhistorique) ou de type 2 (garde la trace des changements). Une dimension peut prsenter les deux types simultanment. En effet les types de raffectation sont
dfinis au niveau de chaque attribut de dimension et non pas au niveau global.
Une dimension de type 2 est toujours prfre au type 1, car il ny a pas de
raffectation globale sur lhistorique chaque rechargement de la table dimensionnelle. Les traitements de reconstruction des cubes sont allgs dautant.

234

8. Mthode de conception des cubes avec SSAS

Modifier les proprits des dimensions


Une dimension possde plusieurs proprits modifiables. Les plus importantes sont :
Le nom de la dimension est visible de lutilisateur. Il convient de le dfinir
de faon trs reprsentative du mtier.
La description est galement expose lutilisateur.
Le type peut revtir des usages diffrents : les plus importants sont Regular,
Time, Accounts. Le type, dduit par lassistant lors de la cration de la
dimension, est naturellement modifiable et permet SSAS dtablir un
certain nombre de contrles lors de la cration des cubes.
Nous donnons la dfinition de quelques proprits de dimension :
AttributeAllMemberName : affiche le texte au niveau le plus lev de la hirarchie de dimension (exemple : All Customers).
ErrorConfiguration : SSAS dtecte de lui-mme des incohrences au
niveau des donnes de dimensions comme des cls dupliques ou des violations dintgrit rfrentielle. Il sagit dun paramtre de gestion des
erreurs configurable pour grer les cls dupliques, les cls inconnues, les
limitations des erreurs, laction lors de la dtection derreurs, le fichier
journal des erreurs et les cls NULL.
La figure 8.7 montre les diffrentes options offertes par la gestion des erreurs
lors de lalimentation dune dimension. Les options par dfaut sont affiches et
sont explicites. Il est possible de tracer dans un fichier journal la liste des erreurs
rencontres lors du traitement. Le choix pour cette option est personnalis ou par
dfaut. Il est souhaitable de laisser loption par dfaut.
Processing Mode : indique si lindexation et lagrgation doivent se produire
durant le traitement (Regular) ou aprs le traitement (Lazy).

Figure 8.7 Options disponibles


en cas de personnalisation de la configuration des erreurs

8.1 Organisation logique des cubes

235

Processing priority : dtermine la priorit de traitement du cube durant les


oprations en arrire-plan, telles que les agrgations et lindexation diffres. La valeur par dfaut est 0.
ProactiveCaching : paramtres de mise en cache proactive pour le cube.
Source : prcise la vue de source de donnes utilise pour le cube.
StorageLocation : emplacement de stockage du systme de fichiers pour le
cube. Si aucun nest spcifi, lemplacement est hrit de la base de donnes qui contient le cube.
StorageMode : mode de stockage pour le cube; les valeurs sont MOLAP, ROLAP
ou HOLAP comme illustr dans la figure 8.8.
Visible : dtermine si le cube est visible ou non.

Figure 8.8 Paramtres de stockage pour la dimension Customer

Modifier les attributs des dimensions


La plupart des attributs de dimensions sont dfinis correctement par lassistant
de cration de dimension. Quelques proprits utiles ne sont cependant pas
gres par lassistant.
Usage : Key est lusage rserv la cl de substitution (ou cl unique).
Lusage Regular sera choisi pour lensemble des attributs une exception :
une dimension parent-enfant prsentera un usage Parent.
Keycolumns : reprsente la colonne source de la table de dimension relationnelle. En gnral, il sagit de la cl unique reprsente par la cl de
substitution.
OrderBy et OrderByAttribute : permettent de trier un attribut par la valeur
de la cl ou par le nom de lattribut. Il est possible galement de trier un
attribut selon lattribut reli.

236

8. Mthode de conception des cubes avec SSAS

Figure 8.9 Les attributs sont organiss en trois ensembles homognes


(Contacts, Demographic, Location)

IsAggregatable : un attribut peut tre ou non agrg. La valeur par dfaut


est vrai.
AttributeHierarchyDisplayFolder : il est possible de regrouper artificiellement
plusieurs attributs. Il suffit de saisir un libell dans la zone rserve cet
effet. Celui-ci enrichit une liste droulante qui peut tre rutilise pour
dautres attributs.
AttributeHierarchyVisible : permet de cacher des attributs que lon ne souhaite pas exposer lutilisateur. Un attribut peut tre cach mais participer
une hirarchie de dimension.
AttributeAllMemberName : est compos de all plus le nom de la hirarchie.
Il est cependant possible den modifier le contenu.
Attribut parent-enfants Une hirarchie parent-enfant est une hirarchie
dans une dimension standard qui contient un attribut parent. Un attribut
parent dcrit une relation dauto-rfrencement, ou jointure rflexive, dans
une table de dimension principale. Les hirarchies parent-enfant sont
construites partir dun seul attribut parent. La figure 8.10 montre une
relation parent-enfant. La jointure rcursive permet de faire pointer le
champ EmployeeKey vers le champ ParentEmployeeKey dans la mme
table Employee.

8.1 Organisation logique des cubes

237

Figure 8.10 Attribut parent-enfant de la dimension Employee

RootMemberIf : permet didentifier le membre parent le plus lev dans la


hirarchie.
NamingTemplate : le modle de nom de niveau dtermine les noms de
niveaux affichs pour les utilisateurs lorsquils parcourent le cube. Par exemple, Employee Level * permet dafficher (Tout); Employee Level 02 ; Employee
Level 03 ; Employee Level 04 ; etc.) en fonction du niveau slectionn. Il
est possible de prciser manuellement des noms de niveaux distincts.
Modifier les attributs lis des dimensions
Figure 8.11 Lattribut date est reli lattribut
Month name, lui-mme reli lattribut Calendar
Quarter, lui-mme reli Calendar Semester lui-mme
reli Calendar Year dans une cardinalit de type
plusieurs et un type de relation flexible

La notion dattributs lis est une caractristique


quil est important de connatre car sa matrise
conditionne grandement les performances dinterrogation du cube. Les attributs relis participent
un mcanisme qui permet dtablir une intgrit
rfrentielle entre plusieurs attributs dune mme
dimension. Lors de la cration de la dimension,
lassistant affecte la cl de la dimension un lien
dintgrit de type un plusieurs avec lensemble des autres attributs de la
dimension. Le paramtre RelationShipType indique si une relation change dans
le temps. Les valeurs sont les suivantes :

238

8. Mthode de conception des cubes avec SSAS

Rigid : signifie que les relations entre les membres ne changent jamais dans
le temps.
Flexible : indique un changement possible dans le temps.
Crer des hirarchies ou modifier les attributs de hirarchie de dimensions
La cration dune hirarchie rsulte dun besoin mtier ou de contraintes de
navigation.

Structure de dimension
Certaines hirarchies sont naturelles telles que anne/mois/jour ou catgorie de
produit/sous-catgorie de produit/produit. Dautres sont moins naturelles telles
que frquence de commande/nom du revendeur.

Figure 8.12 Crer des hirarchies et des niveaux par un glisser-dplacer


des attributs des dimensions vers la fentre hirarchies et niveaux

Les niveaux des hirarchies sont construits partir des attributs des hirarchies. Les proprits de chaque niveau sont galement empruntes aux attributs
correspondants et ne peuvent tre modifis au sein de chaque hirarchie.
Pour une hirarchie rgulire, utilisez la proprit HideMemberIf dun niveau
dune hirarchie pour masquer les membres manquants aux utilisateurs finaux.

Traductions
Les traductions permettent au serveur de prendre en charge les applications
clientes en adaptant le langage de prsentation selon la langue du client. Il est
utile de pouvoir traduire divers lments dun cube et de ses dimensions dans
une langue diffrente, de sorte que des personnes de divers pays puissent afficher
et comprendre le cube. Au moment de laffichage de la requte, un dialogue

8.1 Organisation logique des cubes

239

stablit entre la station du client et le serveur. Le client renvoie la langue utilise


au serveur qui renvoie son tour le rsultat de la requte dans la langue de lutilisateur.

Navigateur
Longlet Navigateur permet dexplorer les attributs ou les hierarchies de dimension. La figure 8.13 montre une navigation dans la hierarchie Product Categories.
Aprs toute modification dun attribut ou hirarchie il est ncessaire de se reconnecter au cube avant dexplorer nouveau les donnes.
Avant de parcourir les donnes il est ncessaire de traiter la dimension. Il
nest cependant pas ncessaire de dployer le cube ou de traiter la base de donnes du cube.
Dans la figure 8.13, si une traduction avait t dveloppe, la liste droulante
ferait apparatre les membres dans la langue adquate.

Figure 8.13 Choisir une hirarchie ou un attribut et parcourez la liste des donnes

8.1.3 Modification du cube


Nous lavons vu, lassistant permet de crer rapidement un cube en prcisant :
la vue de la source de donnes;
les tables de dimensions;
les tables de faits;
les tables qui servent de passerelles dans des relations de dimensions de
type plusieurs plusieurs.

240

8. Mthode de conception des cubes avec SSAS

Aprs que le cube a t cr grce lassistant, il est possible de revenir sur


tous les composants du cube grce au concepteur de cube. Il est possible de tester
le cube, dajouter de nouvelles dimensions des groupes de mesures et dajouter
des groupes de mesure.
Les objets qui composent le cube sont prsents ci-aprs.
Les mesures sont des donnes en provenance des tables de faits. On distingue :
les mesures physiques dfinies partir des colonnes de la vue source;
les mesures calcules drives dautres colonnes de la table de faits. Les calculs sont labors grce au langage MDX (Multidimensional Expressions);
les fonctions dagrgation permettent des fonctions de type sum, count, min,
max, distinct count.
Les groupes de mesures rassemblent des mesures extraites dune mme table
de fait et dont la granularit est dfinie par les dimensions.
Le cube rassemble dimensions, mesures et groupes de mesure. Ceux-ci se
comportent comme les cubes virtuels de la version MSAS 2000, les cubes virtuels tant le rsultat de jointure de cubes physiques distincts.

Figure 8.14 Cellules feuilles

8.1 Organisation logique des cubes

241

La base de donnes Analysis Services peut hberger plusieurs cubes. Pour


une bonne organisation, il est prfrable de ne traiter quun seul cube par base
de donnes.
Lorsque de nombreuses mesures et dimensions sont disponibles dans le cube,
il est souhaitable de prsenter les informations dentreprise en fonction du mtier
de lutilisateur. Cest le rle des perspectives. Cette fonctionnalit est disponible
uniquement dans la version SQL Server Enterprise.
Les cellules se distinguent en cellules feuilles (terminales) et cellules non
terminales non-feuilles. Dans SSAS, la cellule reprsente lunique intersection
logique dun membre de nimporte quelle dimension rfrence dans un cube.
Un cube se compose essentiellement de cellules, rassembles dans des groupes
de mesures et classes par dimension.
Un membre non-feuille est un membre qui possde un ou plusieurs membres
enfants. Dans ce cas, la valeur de la cellule drive le plus souvent de lagrgation
de membres enfants associs au membre non-feuille.
Dans la figure 8.14, une seule cellule est ombre. Cette cellule est lintersection des membres suivants :
le membre avion de la dimension Itinraire;

Figure 8.15 Cellules non-feuilles

242

8. Mthode de conception des cubes avec SSAS

le membre Afrique de la dimension Source;


le membre quatrime trimestre de la dimension Temps;
la mesure Packages.
La valeur de la mesure Packages (240 dans notre exemple) peut tre extraite
directement de la colonne correspondante dune ligne de la table de faits, car
tous les membres sont terminaux (feuilles).
Dans lexemple fourni par la figure 8.15, les deux cellules en gris reprsentent un agrgat du 3e et 4e trimestre soit le 2e semestre. Le membre du 2e semestre
est non-feuille car tous les membres qui lui sont associs doivent tre agrgs.
La dimension Mesures fait lobjet dun traitement particulier. Cette dimension regroupe les donnes numriques faisant lobjet de traitement dagrgation.

8.1.4 Lutilisation des dimensions


Longlet utilisation de la dimension permet rapidement dobserver quelles
dimensions participent quels groupes de mesures.
La structure du cube fait apparatre le groupe de mesures ainsi que les dimensions gnres avec lassistant. Chaque groupe de mesures rassemble des donnes
en provenance dune mme table de faits. On observe que les trois dates diffrentes dans les tables de faits ont gnr trois axes dimensionnels diffrents (Due
Date, Order Date, Ship Date).

Figure 8.16 La structure du cube prsente


les groupes de mesures et le dimensions du cube

8.1 Organisation logique des cubes

243

Longlet Utilisation de la dimension permet, pour chaque groupe de mesures,


de prciser si telle ou telle dimension participe ce groupe et quel niveau de
granularit. On trouve frquemment des niveaux de granularit diffrents. Cest
le cas lorsque lon dsire comparer des prvisions (table de faits prvus) connues
un niveau trimestriel alors que la table de faits raliss fournit des donnes
quotidiennes.

Figure 8.17 Longlet utilisation de la dimension

Chaque table de faits dans la vue des sources de donnes constitue un groupe
de mesures.
Chaque dimension peut participer ou non une agrgation de mesure.
chaque intersection dune mesure et dune dimension, on peut trouver diffrents types de relations entre les tables de faits et les dimensions :
Aucune dimension : la table de faits et la table de dimension ne sont pas
associes.
Normale : la table de dimension est directement jointe la table de faits.
Fait : la table de dimension est la table de fait.
Rfrenc : la table de dimension est jointe une table intermdiaire, ellemme jointe la table de faits.

244

8. Mthode de conception des cubes avec SSAS

Plusieurs plusieurs : la table de dimension est jointe une table de faits


intermdiaire, elle-mme jointe un table de dimension qui son tour est
jointe une table de dimension intermdiaire, cette dernire tant jointe
la table de faits. SSAS simplifie en proposant une jointure entre la dimension et un groupe de mesures intermdiaire.
Exploration des donnes : la dimension cible est base sur un modle dexploration de donnes (voir algorithmes dans le chapitre Data mining ).

8.1.5 Les calculs


La cration de calculs portant sur diffrents objets du cube (mesures, dimensions,
membres, etc.) ncessite lutilisation du langage MDX. Parce quil est dans la
nature humaine de rsister tout nouvel apprentissage, SSAS fournit encore
une fois un point dentre relativement ais grce un assistant dont le but est
docculter une grande part de complexit. Il sagit de loutil dajout de business
intelligence qui permet de crer plusieurs types de calculs.

Figure 8.18 Formulaire permettant de crer une mesure calcule

De nombreux calculs sont aiss crer tels que des sommes de mesures ou
des ratios. Les mesures calcules sajoutent la liste des mesures existantes. Pour
lutilisateur final, il nexiste pas de diffrences entre une mesure physique et une
mesure calcule.
Dans lexemple ci-dessous, nous crons une mesure calcule nomme MoyenneDesVentes dont lexpression de calcul est obtenue par glisser dplacer des mesures

8.1 Organisation logique des cubes

245

du volet de gauche vers le champ Expression. La fonction division a t fournie


manuellement.
Lassistant gnre la commande MDX suivante :
CALCULATE;
CREATE MEMBER CURRENTCUBE.[MEASURES].MoyenneDesVentes
AS [Measures].[Internet Sales-Sales Amount]/[Measures].[Internet
Sales Count],
FORMAT_STRING = "Percent",
VISIBLE = 1;

Une liste de fonctions est fournie grce longlet Fonction. On y retrouve


des fonctions statistiques (arithmtiques), temporelles, de manipulation de chane
de caractres, conditionnelles, etc.
Il faudra rester vigilant sur la complexit des calculs car les mesures calcules
font lobjet de traitement dagrgation la vole, au moment de laffichage. Les
mesures calcules ne sont pas stockes dans le cube.
Les membres calculs sont dfinis lintrieur des dimensions plutt que dans
les mesures.
Les jeux nomms reprsentent un ensemble de membres de dimensions. Par
exemple, un jeu nomm peut reprsenter un groupe de produits, ou un sousensemble de clients que lon veut identifier rapidement.

8.1.6 Ajouter de la business intelligence


moins que vous ne soyez un expert en langage MDX, la meilleure mthode
pour vous initier au langage MDX est dutiliser lassistant de business intelligence.
Cet assistant propose un ensemble de calculs que lon rencontre frquemment
dans lentreprise.
Le bouton Ajouter de la business intelligence vous permet de lancer lassistant qui propose un certain nombre damliorations telle que :
Assistant Time Intelligence : permet dajouter des vues supplmentaires
paramtres en fonction du temps et du niveau hirarchie slectionn. Il
est ainsi possible de calculer des mesures de type Year to Date (priode-date), moyenne mobile, moyenne sur douze mois et comparaison de priodes en valeur et en pourcentage. Cet assistant ne fonctionne que si au
moins une dimension date existe dans le cube.
Intelligence comptable : permet dattribuer des classifications comptables
standard, par exemple les bnfices et les dpenses, aux membres dun
attribut de compte. Le serveur utilise ces classifications pour agrger les
comptes (dbit/crdit, positif ou ngatif).

246

8. Mthode de conception des cubes avec SSAS

Intelligence des dimensions : identifie une dimension et ses attributs


comme tant de types prdfinis tels que produits, clients, taux, temps etc.
Lorsque le type de dimension a t dfini, des valeurs calcules additionnelles peuvent tre cres en utilisant la dfinition de la dimension.
Oprateur unaire pour remplacer lagrgation par dfaut qui est associe
aux membres dans une hirarchie parent-enfant.
Formule de membre personnalise : pour remplacer lagrgation par
dfaut dune hirarchie par les rsultats dune expression MDX.
Ordre de classement des attributs pour spcifier comment les membres dun
attribut sont classs. Ils peuvent tre classs daprs le nom ou la cl de
lattribut, ou daprs le nom ou la cl dun autre attribut. Par dfaut, les
membres sont classs par le nom.
criture diffre de la dimension permet aux utilisateurs de modifier
manuellement la structure de la dimension. Les mises jour effectues sur
une dimension active en criture sont enregistres directement dans la
table de la dimension.
Comportement semi-additif dfinit la mthode dagrgation pour les mesures ou les membres individuels dun attribut de type compte.
Conversion montaire dfinit les rgles de conversion et danalyse des
donnes multinationales du cube. Les rgles de conversion sappliquent au
niveau du cube dans le script de calcul.

8.1.7 Les indicateurs cl de performance (KPI)


Les indicateurs cl de performance mesurent la sant de lentreprise. Ces dispositifs sont gnralement mis disposition des managers afin de leur permettre de
piloter leur business. linstar dun tableau de bord de voiture qui regroupe les
cadrans essentiels pour la conduite du vhicule, on retrouve ces indicateurs de
pilotage de lentreprise au sein du digital dashBoard ou tableau de bord numrique de lentreprise. Celui-ci offre une vue synthtique de lactivit et grce
des systmes dalerte permet en un seul coup dil de contrler toute drive au
sein de lentreprise.
Afin dinterprter ces indicateurs visuels, il est ncessaire de disposer doutils
capables de lire et de restituer les KPI de SQL Server 2005. On dispose doutils
tels quExcel ( partir de la version 2007) ou Panorama Software.
Un indicateur cl de performance reflte cinq niveaux dobservation : trs bon,
bon, moyen, mauvais, trs mauvais.

8.1 Organisation logique des cubes

247

Un indicateur cl est conu partir de quatre composants :


Lexpression de valeur rsulte dune simple mesure
ou dun membre calcul. Exemple : [Measures].[Reseller Sales-Sales Amount].
Lexpression de lobjectif atteindre, en gnral une
expression MDX, ou peut-tre un membre ou un
attribut de dimension. Exemple : [Measures].[Sales
Amount Quota].

Figure 8.19 Liste


des indicateurs dtat

Ltat avec son indicateur dtat trs visuel.


Tapez lexpression MDX qui renvoie la valeur dtat de lindicateur de performance cl lorsque ce dernier est excut.
Faites glisser les lments slectionns du volet Outils de calcul vers cette
option pour inclure la syntaxe MDX des lments slectionns.
Il est recommand que cette expression renvoie une valeur dcimale comprise
entre 1 et 1. Une valeur infrieure zro reprsente une situation ngative
alors quune valeur suprieure zro reprsente une situation positive.
Exemple de code calculant ltat de lindicateur :
Case
When KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
>=.95
Then 1
When KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
< .95
And
KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
>=.85
Then 0
Else 1
End

La tendance.
La tendance est reprsente par des valeurs numriques qui se traduisent graphiquement par des flches.
Case
When IsEmpty
(
ParallelPeriod
(
[Date].[Calendar Time].[Calendar Year],
1,

248

8. Mthode de conception des cubes avec SSAS

[Date].[Calendar Time].CurrentMember
)
)
Then 0
When (
KpiValue("Reseller Revenue")
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
>=.02
Then 1
When (
KpiValue("Reseller Revenue")
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
<=.02
Then 1
Else 0
End

Le rsultat affich dans le navigateur de longlet KPI est montr figure 8.20.
Microsoft dispose dores et dj dun outil trs labor de dfinition et de
restitution des KPI. Business Scorecard Manager permet de dfinir ses propres
KPI puis de les intgrer grce des webpart dans le portail maison SharePoint
Portal.
Les KPI sont maintenant interprts par les tableaux croiss dynamiques
dExcel version 2007.

8.1 Organisation logique des cubes

249

Figure 8.20 Le navigateur dans SSAS


permet dafficher la valeur, lobjectif, ltat et la tendance

8.1.8 Les actions


SSAS permet dexcuter des commandes sur le serveur. Les actions sont dfinies
grce au langage MDX. Une action peut tre dclenche par lutilisateur en
effectuant un clic droit sur une cellule agrge dun tableau afin de connatre les
lignes qui participent la valeur de la cellule.
Plusieurs types daction peuvent tre envisags :
laccs au dtail (drillthrough);
lexcution dun rapport grce Reporting services (voir chapitre 10);
lexcution dune action gnrique telle que lappel dune URL ou lexcution dun commande. Une action est une instruction MDX et peut tre
excute par lutilisateur en cliquant (droit) sur la valeur contenue dans
une cellule ou sur le nom du membre de la cellule. Laction reoit en paramtres des donnes du cube qui sont transmises lapplication cliente.
Lors de la modification dune action dans le cube il nest pas ncessaire de
retraiter les donnes. Seules les mtadonnes doivent tre dployes.

8.1.9 Les perspectives


Une perspective sapparente une vue qui sapplique au sommet de la base de
donnes et qui permet de limiter laccs certaines dimensions et groupes de
mesures. Dans certaines organisations, on cherche mme ne prsenter que certaines perspectives certains utilisateurs autoriss. Il est possible galement de
cacher le cube
Les perspectives ne sont disponibles que dans la version SQL Server 2005
Enterprise ou Developer. Si vous disposez de la version standard avec un modle

250

8. Mthode de conception des cubes avec SSAS

de cube qui intgre des perspectives, vous devrez les supprimer avant de dployer
le cube.

8.1.10

Les traductions

Longlet Traductions permet dexposer les mtadonnes du cube selon la langue


de lutilisateur. Il est possible dapporter des traductions aux groupes de mesure,
aux mesures, aux dimensions, aux KPI, aux actions, aux jeux nomms et aux
membres calculs.
Le choix de la langue est dtermin en fonction des paramtres rgionaux
stocks sur le poste client.

8.1.11

Le navigateur de donnes

Le dernier onglet du concepteur de cube offre lopportunit de tester le cube.


Avant de pouvoir naviguer dans les donnes du cube, vous devez traiter et
dployer le cube. Le navigateur qui sapparente au tableau crois dynamique
dExcel, permet de contrler rapidement leffet de modifications apportes dans
le cube. Il nest donc pas ncessaire de disposer dun outil tiers tel quExcel ou
Proclarity pour procder aux tests de validation.

8.2 LORGANISATION PHYSIQUE DU CUBE


8.2.1 Les groupes de mesures et les partitions
Lors de la cration du cube via lassistant, celui-ci cre automatiquement une
partition par groupe de mesures.

Figure 8.21 Longlet Partitions montre les partitions lies aux groupes de mesures

8.2 Lorganisation physique du cube

251

Lassistant attribue un nom chaque partition emprunt au groupe de mesure


auquel il est li. La source prcise la table ou la vue qui alimente la partition. La
source est identique celle sur laquelle repose le groupe de mesures. Un groupe
de mesure repose sur une table de faits.

Figure 8.22 Chaque partition


correspond un groupe de mesure du cube

La colonne agrgations prcise le mode de stockage des agrgations de donnes. Dans certains cas, il sera ncessaire de crer plusieurs partitions pour un
mme groupe de mesures. Chaque partition dispose de sa propre source de donnes qui peut se traduire par une vue filtre. Les partitions sont associes dans
le groupe de mesure.

Figure 8.23 Groupe de mesure avec plusieurs partitions


temporelles en provenance dune mme table de faits

252

8. Mthode de conception des cubes avec SSAS

8.2.2 Les diffrents modes de stockage


Par dfaut, SSAS propose le mode de stockage MOLAP (Multidimensional OLAP)
qui est de loin le plus performant. Le mode MOLAP est adapt au modle dimensionnel. Il utilise un algorithme de compression des donnes et des techniques
dindexation offrant dexcellentes performances. MOLAP sera prfr aux vues
indexes aussi bien en termes despace requis pour le stockage des index quen
termes de performances. Dans le mode MOLAP, toutes les donnes sont stockes
dans le cube selon une organisation dimensionnelle.
Il est cependant possible de stocker les dimensions dans deux autres modes
appels ROLAP (Relational Olap) et HOLAP (Hybride OLAP).
Lorsque les donnes sont stockes dans lordinateur sur lequel la partition est
dfinie, une partition locale est cre. Lorsque les donnes sont stockes sur un
autre serveur Analysis Services, une partition distante est cre. La structure multidimensionnelle qui stocke les donnes de la partition se situe dans un sousdossier du dossier Data des fichiers programmes de Analysis Services.
Dans le mode ROLAP, les donnes de dtail et les agrgats sont stocks dans
des tables relationnelles. Lorsque les rsultats ne peuvent pas tre drivs des
agrgations ou du cache de requte, le systme accde la table de faits de la
source de donnes pour rpondre aux requtes. Ce mode offre des performances
infrieures aux deux autres modes. Le mode ROLAP permet dconomiser de
lespace de stockage pour les grands datasets qui sont rarement interrogs, comme
les donnes purement historiques. Si une partition utilise le mode de stockage
ROLAP et que ses donnes sources sont stockes dans SQL Server 2005 Analysis
Services, Analysis Services tente de crer des vues indexes pour contenir les
agrgations de la partition. La cration et lutilisation de vues indexes pour les
agrgations exigent que la partition ROLAP et les tables de son schma remplissent les conditions suivantes :
la partition ne peut contenir de mesures qui utilisent la fonction Min()
ou Max() ;
chaque table de la partition ne peut tre utilise quune seule fois;
les colonnes source ne doivent pas contenir de donnes NULL.
Dans le mode HOLAP, les donnes de dtail sont stockes dans des tables
relationnelles tandis que les agrgats le sont dans un format multidimensionnel.
Le mode de stockage HOLAP convient pour les partitions de cubes qui ncessitent des rponses rapides aux requtes sur des donnes de synthse calcules
partir dun volume important de donnes source. Les performances sont intermdiaires entre MOLAP et ROLAP.

8.2 Lorganisation physique du cube

253

8.2.3 Comment SSAS rafrachit-il les donnes du cube ?


Le service de notification de SQL Server 2005 informe Analysis Services lorsque
des changements surviennent dans les tables sources. Lorsquune partition est
lie une vue, il est ncessaire de prciser la table de suivi

Figure 8.24 Paramtrer les options de stockage

Figure 8.25 Prciser la table de suivi


qui informe SSAS en cas de modification

Linterrogation planifie interroge rgulirement la base afin de dterminer


si des donnes ont chang.

254

8. Mthode de conception des cubes avec SSAS

Dans le cas du mode ROLAP temps rel, les donnes sont directement stockes dans la table relationnelle. Il ny a pas besoin de notification ni de cache
proactif. Les donnes sont toujours jour mais ce au dtriment des performances.
Aprs le dploiement du cube, SQL Server Management Studio permet dobserver le cube et ses dimensions attaches chaque groupe de mesures.

Figure 8.26 Management studio


prsente les partitions associes aux groupes de mesures

Du fait de sa capacit optimiser les accs aux donnes, le partitionnement


est indispensable lorsque les groupes de mesures sont volumineux (millions ou
milliards de lignes). Il est galement plus rapide dajouter des donnes dans une
nouvelle partition plutt que dans une partition dj trs volumineuse. Le partitionnement est galement utile lorsque lon dsire conserver des donnes sur
une priode glissante (par exemple, lorsque lon souhaite conserver les trois dernires annes ou les 90 derniers jours). Dans ce cas, il suffit de supprimer la partition plutt que de supprimer des lignes dans une norme partition. Enfin, le
partitionnement amliore les performances lors du processus de traitement complet dun groupe de mesures.
Le partitionnement multiple peut tre envisag pour de trs gros volumes. Il
est possible par exemple de crer des partitions par mois et par catgorie de produits. Cette fonctionnalit est rserve SQL Server Enterprise Edition.

8.2 Lorganisation physique du cube

255

Figure 8.27 Les proprits de la partition sont modifiables


dans Management Studio telles que le mode
de stockage et la mise en cache proactif

Lorsque vous tablirez des partitions, soyez vigilants aux bornes que vous
devez dfinir dans la clause WHERE. BI Studio ne permet pas de dtecter si des donnes en provenance des tables de faits sont doubles ou manquantes.
Lors du dveloppement avec BI Studio, vous pouvez prciser ldition du serveur de dploiement (Enterprise ou Standard). Ce dispositif permet de fournir
BI Studio les fonctionnalits autorises ou non, et de signaler toute incohrence
avant le dploiement.

Figure 8.28 Dans les proprits du projet,


prcisez ldition du serveur de dploiement

256

8. Mthode de conception des cubes avec SSAS

8.2.4 Paramtrer les agrgations


Le paramtrage des agrgations permet de dfinir les limites de stockage ou de
performance des agrgations gnres.

Figure 8.29 Le formulaire Dfinir les options dagrgations


permet de dfinir les limites de stockage
ou de performance des agrgations gnres

Lespace de stockage estim atteint xxx Mo


Limite les agrgations en indiquant lespace disque autoris pour gnrer les agrgations.
Les gains de performance atteignent xx %
Limite la conception dagrgation en dfinissant le pourcentage maximal de gain
de performance estim que la conception dagrgation peut fournir.
Je clique sur Arrter
Arrte la conception dagrgation en cliquant sur Arrter au cours du processus
de conception.
Ne pas crer dagrgations (0 %)
On utilise cette option pour supprimer des agrgations existantes pour une partition, un groupe de mesures ou un cube.

8.2 Lorganisation physique du cube

257

Dmarrer
Dmarre le processus de conception dagrgation.
Arrter
Arrte le processus de conception dagrgation.

8.2.5 Processus de mise jour des cubes


Il existe plusieurs mthodes dalimentation du cube. Depuis SQL Server 2005,
une mthode rside dans la technique du cache proactif. Lalimentation seffectue partir des tables oprationnelles lors de leurs mises jour. Il est possible
galement dalimenter directement le cube partir de SSIS laide du flux de
donnes multidiffusion afin dalimenter simultanment le datawarehouse et le
cube multidimensionnel. Sauf cas exceptionnel, nous conseillons toujours de passer par ltape du datawarehouse qui, son tour, sert alimenter le cube.
Plusieurs mthodes peuvent tre mises en uvre.

Retraitement complet
Cette mthode consiste retraiter la totalit du cube chaque ajout de donnes
dans un groupe de mesures. Il sagit naturellement de la mthode la plus simple
mettre en uvre et probablement la plus sre. Elle est choisie par la plupart
des administrateurs. Elle est naturelle et mme conseille si les cubes ont une
faible volumtrie et, par consquent, un temps de retraitement court. Cette mthode
est proscrire si les mises jour des tables de faits sont quotidiennes avec des
volumtries trs leves (centaines de milliers denregistrements). Dans ce cas,
nous aurons recours la mthode de traitement incrmentiel.

Traitement incrmentiel
Le traitement incrmentiel consiste filtrer les donnes les plus rcentes des
tables de faits afin de ne traiter quun nombre rduit de lignes. Cette technique
est sduisante mais elle ncessite une trs grande rigueur lors de la phase dalimentation. Le risque naturel est de traiter deux fois les mmes donnes ou tout
simplement domettre de les traiter. Malheureusement, SQL Server 2005 ne dispose pas de solution intgre. Le dveloppeur doit mettre en place un mcanisme
daudit qui consiste marquer les lignes ayant fait lobjet dun traitement
afin de sassurer de ne pas les traiter une seconde fois. Labsence de traitement
ou un traitement partiel sont plus dlicats grer puisquils ne laissent aucune
trace. Dans ce cas, on pourra dvelopper un script MDX qui tablira un contrle
quotidien avec la base de production pour dtecter des carts ventuels et retraiter la partition incrimine.

258

8. Mthode de conception des cubes avec SSAS

8.3 RECOMMANDATIONS
Bien que les assistants soient nombreux dans Analysis Services, ce logiciel est
complexe et ncessite beaucoup de soin dans sa conception. Lors de la mise au
point initiale, testez, contrlez autant que vous le pourrez. Aprs la mise en production du cube, donnez-vous les moyens de croiser des donnes du cube avec
dautres sources telles que le datawarehouse sous-jacent. Il ny a rien de plus efficace pour jeter le discrdit sur votre uvre quun utilisateur qui lance en pleine
runion que le cube donne des rsultats incohrents. Testez avec les utilisateurs,
observez leur faon dinterprter et de contrler les donnes. Mettez en production les automates de contrle et faites-vous alerter par SSIS au moindre cart.
Soyez le premier alerter les utilisateurs quun dysfonctionnement a eu lieu plutt que dapprendre par un utilisateur que votre cube est faux.

9
Le data mining

Un diffuseur douvrages distribue plusieurs sortes de magazines : sciences humaines, philosophie, roman, sport et beaux-arts. Il souhaite mieux tudier ses clients
pour dcouvrir de nouveaux marchs ou vendre plus de nouveauts ses libraires.
Les questions quil se pose sont les suivantes :
Combien de libraires ont achet des ouvrages de sport cette anne ?
A-t-on vendu plus douvrages de sport cette anne que lanne dernire
la mme priode ?
Les libraires qui achtent des ouvrages de philosophie achtent-ils galement des ouvrages de beaux-arts ?
Quels sont les critres qui caractrisent une librairie oriente sport ou
sciences humaines ?
Comment puis-je prdire la perte des clients et les actions ncessaires pour
la rduire ?
Les rponses aux questions 1 et 2 peuvent tre fournies par de simples outils
de requtage de type SQL.
La question 1 trouvera une rponse en excutant une requte SQL sur la base
de donnes oprationnelle ou mieux sur lentrept de donnes. Les critres dextraction sont dans ce cas lanne de lachat et le type douvrage (sport).
La question 2 implique de conserver en ligne deux annes de ventes, puis de
comparer lagrgat des ventes ralises en Year to date (cumul depuis le dbut de
lanne) et den dduire lcart en valeur. La rponse sera fournie trs facilement

260

9. Le data mining

par une requte MDX excute sur le cube OLAP. Excel fournira une rponse,
grce au tableau crois dynamique.
La question 3 permet de dterminer la probabilit que la rgle dassociation
entre plusieurs lments est vrifie. Il sagit dun type de recherche dirige car
lobjectif est totalement identifi. Si la valeur de la probabilit est leve, le
diffuseur serait avis deffectuer des offres promotionnelles en associant les deux
produits. La rponse cette question sera fournie par un des algorithmes de data
mining.
La question 4 est de nature exploratoire. Il sagit de dcouvrir une rgle plutt
que de la vrifier. Cela est du ressort du data mining, technologie qui offre plusieurs algorithmes rpondant cette problmatique.
La question 5 est galement exploratoire et ncessite de conserver un historique afin de modliser les comportements dattrition (dpart volontaire du client).
Il y a lieu de mettre en uvre des indicateurs tels que quantits retournes, dlais
de paiements, impays. La notion temporelle est trs importante car elle permet
dobserver au fil du temps des changements parfois imperceptibles.

9.1 MTHODOLOGIE DE CRATION


DU MODLE DE DATA MINING
9.1.1 Dfinition du problme rsoudre
Lorsque lon entreprend un processus de data mining, on cherche dfinir le
problme rsoudre.
Un commercial dsire prvoir si un client particulier achtera ses produits.
Un diffuseur dsire constituer des groupes homognes de personnes qui
partagent des informations dmographiques similaires et qui achtent des
produits similaires.
Un webmaster dun site de commerce lectronique souhaite analyser des
similitudes de comportements successifs (exemple : des squences de
clics similaires. Il dsire connatre comment les utilisateurs se dplacent
sur le site).
Le directeur commercial veut mesurer lattrition des clients et anticiper les
actions correctives.
Le directeur marketing veut optimiser les cots dune campagne de communication (exemple : cibler les clients potentiels en nenvoyant des prospectus quaux clients susceptibles de rpondre).

9.1 Mthodologie de cration du modle de data mining

261

Le directeur commercial de Adventureworks dsire savoir si la vente dun


modle de vlo peut-elle tre utilise pour prdire la vente dun autre modle ?
Un grossiste en produits culturels souhaite identifier les articles qui ont
tendance tre achets ensemble (analyse de panier, up sell, cross sell).

9.1.2 Prparation des donnes


Si les donnes proviennent de sources diverses, il est ncessaire de procder
lalimentation du datawarehouse. Cest le rle de lETL. Ensuite, le processus de
data mining puise ses donnes dans diffrentes sources comme les cubes OLAP
ou les bases de donnes relationnelles via le connecteur OLE DB.
ce stade, la connaissance des donnes et la signification des rubriques sont
dterminantes pour la construction du schma de donnes. Par exemple si on
dsire connatre les critres les plus importants dans lachat dun vlo tout terrain,
on soriente vers les caractristiques du client et on slectionne celles qui paraissent pertinentes dans lacte dachat (ge, revenu, nombre denfants, sexe, etc.).

9.1.3 Construction du schma de donnes


Cette tape consiste slectionner les sources de donnes. Les sources peuvent
tre extraites des schmas relationnels ou des cubes OLAP. Avant de crer un
modle, vous devez slectionner les donnes qui serviront lapprentissage du
modle.

9.1.4 Cration du modle


Si vous dsirez prdire quels prospects seront susceptibles dacheter vos produits,
il vous faut analyser le comportement des acheteurs actuels. Il sagit de crer un
jeu de donnes dapprentissage qui servira nourrir le modle. Un modle contient
des colonnes dentres (critres pertinents), une colonne didentification (cl)
et une ou plusieurs colonnes prvisibles. Le modle applique sur le jeu de donnes
un ou plusieurs algorithmes tels que classification, association ou rgression choisis en fonction du but recherch.

9.1.5 Exploration du modle


Lorsque le modle est construit, il convient de lexplorer afin de dcouvrir les
analyses prdictives effectues par les algorithmes. business intelligence Studio
dispose doutils dexploration trs visuels. Nous aurons loccasion de les prsenter
plus loin dans ce chapitre.

262

9. Le data mining

9.1.6 Validation du modle


La validation du modle consiste lui appliquer un jeu de donnes de test dans
lequel les valeurs des variables prdictives sont connues et les comparer aux
prdictions fournies par le modle. Cette tape permet galement de choisir entre
plusieurs algorithmes celui qui correspond le mieux lchantillon analys. Si
le modle cr ltape prcdente ne fonctionne pas correctement, il faudra
revenir sur la conception du modle en redfinissant le problme, ou en modifiant les critres slectionns dans le jeu dorigine.

9.1.7 Dploiement du modle


Lorsque le modle a t valid, il y a lieu de le dployer sur le serveur de production. On attribuera des rles autorisant tel ou tel utilisateur accder aux
modles dploys.
Lorsque les modles sont dploys, il est possible de les utiliser lors du processus ETL ou lors dune validation de transaction dans la base oprationnelle.
Cette dernire fonctionnalit permet par exemple de savoir avec prcision si le
prospect rcemment introduit dans la base de donnes sera ou non un acheteur
potentiel.
La mise jour du modle doit tre ralise lorsque de nouvelles donnes viennent alimenter les bases.

9.2 QUELLES SONT LES TCHES DU DATA MINING ?


Classification
La classification consiste examiner les caractristiques dun objet afin de lui
attribuer une classe. Les caractristiques sont gnralement bases sur des valeurs
discrtes (tranche dge, genre, mari/clibataire, etc). La classification est utile
dans les cas suivants :
attribuer ou non un prt un client;
tablir un diagnostic;
accepter ou refuser un retrait dans un distributeur.

Rgression
la diffrence de la tche de classification, la rgression sert dterminer une
relation entre deux colonnes continues. La relation se prsente sous la forme
dune quation correspondant la droite reprsentant le mieux une srie de don-

9.2 Quelles sont les tches du data mining ?

263

nes. Par exemple, la droite dans le diagramme suivant est la meilleure reprsentation linaire possible des donnes. Cette notion est souvent utilise dans
la partie graphique dExcel.

Figure 9.1 Graphe prsentant une droite de rgression

Lquation qui correspond la droite du diagramme est de type y = ax + b.


On la nomme quation de rgression. La variable y reprsente la variable de sortie,
x reprsente la variable dentre, et a et b sont des coefficients ajustables. Pour
chaque point de donnes du diagramme, une erreur est associe la distance
entre le point et la droite de rgression. Les coefficients a et b de lquation de
rgression ajustent langle et lemplacement de la droite de rgression. Lajustement des variables a et b peut tre renouvel jusqu ce que la somme des erreurs
associes aux points atteigne le plus petit nombre possible.

Segmentation
La segmentation consiste former des groupes (clusters) homognes lintrieur
dune population afin de rpondre la question Quels attributs trouve-t-on en
commun dans chaque groupe ? La tche de segmentation prcde souvent les
autres tches afin de construire des groupes sur lesquels on applique des tches
de classification.

Association
Lassociation examine les comportements de groupes dindividus afin de dterminer quels liens existent entre eux. Les rgles dassociation sont souvent lies
au secteur de la distribution travers ce quon appelle lanalyse du panier de la
mnagre. Des sites dachats en ligne de produits culturels utilisent cette mthode
afin de rechercher les produits qui tendent tre achets ensemble et proposer
en ligne des offres complmentaires (vente additionnelle).
Un des principaux attraits de la mthode est la clart des rsultats produits.
En effet, le rsultat de la mthode est un ensemble de rgles dassociation dont
voici quelques exemples :
si un client achte des plantes, alors il achte du terreau;

264

9. Le data mining

si un client achte du poisson et du citron, alors il achte du vin blanc;


si un client achte une tlvision, il achtera un magntoscope dans un an.
Bien souvent, les commerciaux ont dj intuitivement dtermin des groupes
qui seront probablement confirms par lalgorithme. Bien que cela puisse rassurer, il est vident que les dcideurs attendent des rponses non triviales et utiles,
allant bien au-del dune simple analyse.
Cette mthode est par dfinition non supervise car il nexiste pas dindice
a priori permettant deffectuer une recherche prdfinie.

Analyse de squence
Lalgorithme de squence permet danalyser un chemin ralis par le pass afin
den dduire la route probable dans le futur.
On applique souvent ce type dalgorithmes lanalyse des squences de clics
que les internautes effectuent sur un site web.
Lanalyse de squence sert galement dcouvrir lordre dans lequel un client
ajoute des lments dans son panier dachat sur un site de vente en ligne.
Toute socit qui offre un service dachat en ligne est intresse par cette
dmarche. En effet, pour acheter, les clients doivent se connecter au site. La socit
collecte des informations sur les pages que les internautes visitent et lordre dans
lequel ils consultent les pages. Il analyse galement quelles sont les pages les plus
consultes avant lacte dachat dun produit.

9.3 CRER LE MODLE DUNE CAMPAGNE CIBLE


Afin doffrir au lecteur une vue globale des outils de data mining, nous pensons
utile de lui prsenter les tapes de la mthode et, pour chacune delles, les outils
fournis par business intelligence Studio.
Nous allons tour tour construire trois types dapplication. Nous commencerons par un premier scnario de publipostage cibl qui permettra de prsenter
les algorithmes de classification. Nous prsenterons galement des scnarios de
prvision, danalyse de panier et enfin de squence clustering.
Ces exemples peuvent tre raliss par le lecteur sil dispose de SQL Server
2005 version standard ou Enterprise avec Analysis Services, et les exemples
modles AdventureWorks.
Le lecteur trouvera tous les outils ncessaires sur le site de lauteur ladresse
www.buroformatic.com.

9.3 Crer le modle dune campagne cible

265

La cration dun modle dexploration de donnes commence par la cration


dun projet Analysis Services dans lequel nous crerons les sources de donnes
en lien avec les bases relationnelles ou OLAP.
Nous allons crer un nouveau projet Analysis Services que nous nommons
AdventureWorks DataMining.

Figure 9.2 Cration du projet data mining via Analysis Services

9.3.1 Crer la source des donnes


La source des donnes est une connexion qui identifie le serveur et la base de
donnes dans laquelle rsident les donnes analyser.
Choisissez OLE DB natif\SQL Native Client comme fournisseur daccs.
Serveur Localhost et utilisez lauthentification Windows.
Slectionnez la base de donnes dimensionnelle (datawarehouse) AdventureWorksDW.

9.3.2 Crer la vue de source des donnes


Faites un clic droit sur Vue des sources de donnes puis Nouvelle vue des sources de donnes, puis slectionnez la source de donnes oprationnelle AdventureWorks cre ltape prcdente.

266

9. Le data mining

Slectionnez la vue dbo.vTargetMail dans laquelle se trouvent les donnes


ncessaires lanalyse (voir figure 9.3).
Cette requte dtermine quel client est acheteur ou non de produits bikes .
On calcule la somme des occurrences des acheteurs de bikes . Lalgorithme
attribue la valeur 1 si le nombre de ventes est >=1 et 0 dans le contraire.
Voici la structure de la vue :
CREATE VIEW [dbo].[vTargetMail]
AS
SELECT
c.[CustomerKey],
c.[GeographyKey],
c.[CustomerAlternateKey],
c.[Title],
c.[FirstName],
c.[MiddleName],
c.[LastName],
c.[NameStyle],
c.[BirthDate],
c.[MaritalStatus],
c.[Suffix],
c.[Gender],
c.[EmailAddress],
c.[YearlyIncome],
c.[TotalChildren],
c.[NumberChildrenAtHome],
c.[EnglishEducation],
c.[SpanishEducation],
c.[FrenchEducation],
c.[EnglishOccupation],
c.[SpanishOccupation],
c.[FrenchOccupation],
c.[HouseOwnerFlag],
c.[NumberCarsOwned],
c.[AddressLine1],
c.[AddressLine2],
c.[Phone],
c.[DateFirstPurchase],
c.[CommuteDistance],
x.[Region],
x.[Age],
CASE x.[Bikes]
WHEN 0 THEN 0
ELSE 1
END AS [BikeBuyer]

9.3 Crer le modle dune campagne cible

267

FROM
[dbo].[DimCustomer] c INNER JOIN (
SELECT
[CustomerKey]
,[Region]
,[Age]
,Sum(
CASE [EnglishProductCategoryName]
WHEN BikesTHEN 1
ELSE 0
END) AS [Bikes]
FROM
[dbo].[vDMPrep]
GROUP BY
[CustomerKey]
,[Region]
,[Age]
) AS [x]
ON c.[CustomerKey] = x.[CustomerKey]

La vue vDMPrep qui participe elle-mme la vue vTargetMail est base sur
le schma en flocon dont la table de fait centrale est FactInternetSales et les
tables dimensionnelles : Customers, DimProduct, DimProductSubcategory, DimProductCategory, DimCustomer, DimGeography, DimSalesTerritory.

Figure 9.3 Voici la vue vTargetMail

Cette vue permet de dterminer lge du client au moment de lextration


grce la fonction DateDiff(yy, c.[BirthDate], GetDate()) qui calcule lcart en
annes entre la date du jour et la date de naissance. La vue constitue galement
des tranches de revenu selon les gains annuels.
Yearly Income est dtermin comme Low, Moderate ou High selon que le
revenu annuel est infrieur 40 000, compris entre 40 000 et 60 000 ou suprieur
60 000.
Les noms longs sont rduits afin doffrir plus de lisibilit dans le modle.

268

9. Le data mining

CREATE VIEW [dbo].[vDMPrep]


AS
SELECT
pc.[EnglishProductCategoryName]
,Coalesce(p.[ModelName], p.[EnglishProductName]) AS [Model]
,c.[CustomerKey]
,s.[SalesTerritoryGroup] AS [Region]
,CASE
WHEN Month(GetDate()) < Month(c.[BirthDate])
THEN DateDiff(yy, c.[BirthDate], GetDate()) 1
WHEN Month(GetDate()) = Month(c.[BirthDate])
AND Day(GetDate()) < Day(c.[BirthDate])
THEN DateDiff(yy, c.[BirthDate], GetDate()) 1
ELSE DateDiff(yy, c.[BirthDate], GetDate())
END AS [Age]
,CASE
WHEN c.[YearlyIncome] < 40000 THEN Low
WHEN c.[YearlyIncome] > 60000 THEN High
ELSE Moderate
END AS [IncomeGroup]
, t.[CalendarYear]
, t.[FiscalYear]
, t.[MonthNumberOfYear] AS [Month]
, f.[SalesOrderNumber] AS [OrderNumber]
, f.SalesOrderLineNumber AS LineNumber
, f.OrderQuantity AS Quantity
, f.ExtendedAmount AS Amount
FROM
[dbo].[FactInternetSales] f
INNER JOIN [dbo].[DimTime] t
ON f.[OrderDateKey] = t.[TimeKey]
INNER JOIN [dbo].[DimProduct] p
ON f.[ProductKey] = p.[ProductKey]
INNER JOIN [dbo].[DimProductSubcategory] psc
ON p.[ProductSubcategoryKey] = psc.[ProductSubcategoryKey]
INNER JOIN [dbo].[DimProductCategory] pc
ON psc.[ProductCategoryKey] = pc.[ProductCategoryKey]
INNER JOIN [dbo].[DimCustomer] c
ON f.[CustomerKey] = c.[CustomerKey]
INNER JOIN [dbo].[DimGeography] g
ON c.[GeographyKey] = g.[GeographyKey]
INNER JOIN [dbo].[DimSalesTerritory] s
ON g.[SalesTerritoryKey] = s.[SalesTerritoryKey]
;

Voici le rsultat de la vue vDMPrep (tableau 9.1).

11003

21768

25863

28389

11005

11011

Mountain100

Road-650

Road-150

Mountain100

Mountain100

Mountain100

Mountain100

Road-150

Road-150

Road-150

Road-150

Road-150

Road-150

Road-150

Road-650

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

Bikes

25249

16529

16483

13591

27606

13513

27645

16624

14501

CustomerKey

Model

EnglishProduct

59

North
America

Pacific

Pacific

Pacific

48

28

55

53

49

North
America
Europe

64

44

North
America
Europe

33

42

40

41

Pacific

Pacific

Pacific

Europe

59

68

North
America

North
America

38

Pacific

Region Age

High

Low

Moderate

High

High

Low

High

High

Moderate

High

Low

Moderate

High

High

High

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2001

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

2002

Income- Calendar- Fiscal


Group
Year
Year

Month

Tableau 9.1 Rsultat de la vue vDMPrep

SO43717

SO43716

SO43715

SO43714

SO43711

SO43712

SO43702

SO43703

SO43705

SO43704

SO43698

SO43699

SO43697

SO43700

SO43701

OrderNumber

LineQuanNumber
tity

699,0982

3 578,2700

3 578,2700

3 578,2700

3 578,2700

3 578,2700

3 578,2700

3 578,2700

3 399,9900

3 374,9900

3 399,9900

3 399,9900

3 578,2700

699,0982

3 399,9900

Amount

9.3 Crer le modle dune campagne cible

269

270

9. Le data mining

Les donnes sources sont maintenant dfinies. Nous allons construire le modle
de publipostage cibl.

9.3.3 Crer le modle


Le besoin mtier sexprime selon ces termes : lquipe marketing dsireuse daugmenter ses ventes souhaite communiquer au moyen dune campagne de publipostage. Les cots dune telle campagne tant lourds, le service marketing
souhaite connatre les critres qui caractrisent les acheteurs de vlos afin de
dduire parmi un lot de prospects ceux qui sont le plus susceptibles dacheter.
Il sagit dun problme de classification pour lequel les algorithmes Nave
Bayes, Decision tree et Clusters sont particulirement adapts.

Figure 9.4 Lexplorateur de solutions


permet de crer un modle dexploration

Nous devons commencer par crer une nouvelle structure dexploration de


donnes partir de la base de donnes relationnelle. Un clic droit sur Structures
dexploration de donnes permet de lancer lassistant de cration du modle. Il
serait galement possible dtablir un modle bas sur un cube OLAP.
Nous choisissons tout dabord lalgorithme MDT (Microsoft Decision Trees).

Figure 9.5 Un choix de neuf algorithmes est propos

9.3 Crer le modle dune campagne cible

La vue des sources de donnes est la requte vTargetMail.

Figure 9.6 Spcifier les types de tables.


Ici vTargetMail reprsente le fichier des cas analyser

Figure 9.7 Option Customer Key

271

272

9. Le data mining

Le formulaire des donnes dapprentissage dfinit les cls et les colonnes


prvoir.
La cl est dtermine grce au champ CustomerKey, lui-mme dfini en tant
que cl dans la source. Le champ prvoir est BikeBuyer. En ce qui concerne
les colonnes en entre, nous allons demander lassistant de nous suggrer les
champs les plus susceptibles dentrer dans le processus prdictif.
Le bouton Suggrer permet de lister ces champs.

Figure 9.8 Formulaire de suggestion des colonnes


susceptibles dentrer dans le processus prdictif

Lassistant effectue un choix parmi les types de donnes et les types de contenus.
Il est conseill de vrifier les choix effectus par lassistant. Compltez la slection des colonnes pertinentes en cochant les entres dsires.
Donnons le nom Publipostage Cibl la structure dexploration puis Decision_Tree au modle dexploration.
Avant de traiter le modle dexploration, nous ajouterons deux modles complmentaires respectivement bass sur les algorithmes Microsoft Clustering et
Microsoft Nave Bayes.

9.3 Crer le modle dune campagne cible

273

Lajout seffectue sans difficult puisque le modle de base (Decision Tree)


fournit les lments aux deux autres modles .

Figure 9.9 Formulaire prsentant les types de contenu


(Continu, Discret ou Cl) et les types de donnes des colonnes slectionnes

Le modle Nave Bayses ne traite que des donnes discrtes. Il ignore ainsi
les donnes comme le revenu annuel ou lge du client qui sont considrs comme
des variables continues.
Nous procdons ensuite au dploiement des modles et leur traitement.

274

9. Le data mining

Figure 9.10 Terminer en attribuant un nom la structure dexploration

Figure 9.11 Ajout dun nouveau modle


bas sur lalgorithme Nave Bayes

9.3 Crer le modle dune campagne cible

275

Figure 9.12 Longlet Modles dexploration affiche


les trois modles qui participent lanalyse du cas mailing cibl

Naviguer dans le modle Decision Tree


La navigation dans les modles seffectue grce longlet visionneuse de modle
dexploration.
La visionneuse offre le choix entre les trois modles (Decision Tree, Nave
Bayes ou Clusters). Dans la liste droulante nous choisissons le modle Decision_Tree. Larborescence propose une liste des variables prvoir. Ici, une seule
variable est rechercher : Bike Buyer. Cette variable prend la valeur 1 lorsque
le client a achet au moins un vlo et 0 dans le cas contraire. Afin de suivre le
mode de rpartition des acheteurs, nous slectionnons la valeur 1. Larrire-plan
de chaque nud se teinte en fonction de la frquence du cas.
Dans larborescence du modle, on observe quels sont les facteurs les plus
importants qui dterminent les acheteurs. On observe que lge de lacheteur
vient en premire position suivi du nombre denfant au foyer. Viennent ensuite
des critres de revenu puis de rgion.
Chaque nud affiche une trame de couleur plus ou moins fonce. Plus le
critre recherch (ici les acheteurs de vlos) est important, plus fonce sera la
couleur du fond du nud.

276

9. Le data mining

Figure 9.13 La visionneuse de modle.


Ici, modle dexploration Decision_Tree

Le nud racine est toujours le plus sombre.


Portons notre attention sur le nud racine. La lgende dexploration nous
indique que 18 484 cas ont t recenss, se rpartissant en 9 132 cas reprsentant 49,39 % dacheteurs et 9 352 cas de non-acheteurs reprsentant 50,58 %.
La barre graphique rpartit les proportions entre les acheteurs et le non acheteurs
matrialise par des couleurs diffrentes.

Figure 9.14 Lgende dexploration du nud slectionn

En suivant larborescence selon les nuds les plus sombres, on observe que
la population des 39-53 ans est celle qui achte le plus de vlos (3 934 acheteurs). Parmi cette population, on observe que les acheteurs sont ceux qui nont

9.3 Crer le modle dune campagne cible

277

pas denfant au foyer, qui ont un revenu suprieur 26 000 et qui nhabitent
pas en Amrique du Nord. Il est possible dextraire cette population puis de
copier la liste dans Excel ou Word afin deffectuer un publipostage.

Figure 9.15 Fentre dextraction dun nud.


On observe que la colonne Bike Buyer comprend acheteurs et non-acheteurs

Effectuez un filtrage sur Bike Buyer = 1 pour obtenir uniquement les acheteurs de vlos.
Comprendre le rseau de dpendance.
Lorsque les critres sont nombreux, il nest pas toujours ais de comprendre les
facteurs qui participent la dtermination de la variable prvoir. Longlet de
rseau de dpendance permet de slectionner un nud puis laide des liens qui
pointent vers ce nud den connatre les attributs qui le dterminent. La rglette

Figure 9.16 Le rseau de dpendance montre les liens


qui ont un fort degr de dpendance avec le critre Bike Buyer

278

9. Le data mining

verticale sur le ct droit permet de faire apparatre progressivement ces liens


(du poids le plus fort au poids le plus faible).
Dans notre cas, il est ais de constater que les liens les plus forts sont lge,
le nombre denfants au foyer, le revenu, le nombre de voitures possdes et la
rgion. Ces liens sont apparus dans lordre prcit.
Naviguer dans le modle Nave Bayes
Le choix du navigateur Nave Bayes permet dobserver le mme cas dune faon
diffrente. Dans ce modle, les variables continues ont t exclues (ge et revenu).
Chaque attribut gnre une ligne avec une colonne reprsentant les diffrents
tats de lattribut, puis autant de colonnes quil y a dtats possibles pour la valeur
prvoir (Bike Buyers = 1 ou 0).

Figure 9.17 Le modle Naives Bayes prsente


uniquement les variables discrtes

lintersection dune ligne et dune colonne, on peut observer la distribution.


Longlet Caractristique dattribut se prsente comme suit dans la figure 9.19.
Cet onglet permet de slectionner un attribut (acheteur de vlo) et dtablir des
liens dcroissants avec dautres attributs.

9.3 Crer le modle dune campagne cible

279

Figure 9.18 Lgende dexploration


des donnes. La figure 9.18 montre la
distribution des acheteurs en fonction
du nombre denfants au foyer
(62,7 % des acqureurs nont pas denfants)

Figure 9.19 Onglet Caractristiques dattribut

Du tableau reprsent dans la figure 9.19, il est possible de dduire que les
acheteurs de vlos ont une forte probabilit de ne pas avoir denfants, de ne pas
tre de la rgion Amrique du Nord, de niveau bachelier, etc.
On observe que labsence des critres dge et de revenu dans lanalyse Nave
Bayses entrane des rsultats diffrents de ceux de lalgorithme darbre de dcision.
Il peut tre intressant de comparer deux groupes cte cte. Si lon dsire
comparer les acheteurs et les non-acheteurs, nous obtenons le graphe de la
figure 9.20.
On peut dduire du tableau qui prcde que les acheteurs de vlos ne possdent pas dauto alors que ceux qui nachtent pas de vlos possdent deux autos.

280

9. Le data mining

Figure 9.20 Longlet Discrimination dattribut permet une comparaison deux deux

Les acheteurs de vlos ont un enfant et habitent la rgion Pacifique, etc. Plusieurs
attributs peuvent se retrouver avec des poids relatifs diffrents.
Naviguer dans le modle clusters
Le diagramme cluster permet dtablir des relations entre des groupes homognes.
Les lignes qui relient les clusters sont plus denses si les liens entre clusters sont
troits. Le curseur gauche du diagramme permet dappliquer un filtre afin
docculter les liens les moins forts (figure 9.21).
Dans le diagramme ci-aprs, le cluster 6 (en bas) contient la plus grande quantit dacheteurs de vlos. Un lien avec le cluster 1 apparat comme trs troit.
valuer le modle
Maintenant que nous avons mis en place nos trois modles, nous devons les
valuer afin de dterminer lequel est le meilleur pour prdire le profil dacheteur.
Pour cela, nous allons appliquer successivement nos modles sur une table de
cas dont les rsultats sont dj connus. Le but tant de comparer la capacit de
prdiction de chaque algorithme avec la ralit.
Slectionner une table de cas (diffrente de la table qui a servi modliser).

9.3 Crer le modle dune campagne cible

Figure 9.21 Le diagramme de cluster


permet de raliser des groupes homognes

Figure 9.22 Graphique danalyse


de prcision pour la valeur 1 = acheteurs

281

282

9. Le data mining

Effectuer le mappage des colonnes entre la structure dexploration et les


champs de la table de cas. Le mappage seffectue naturellement lorsque les
noms de colonnes sont identiques.
Le filtrage des lignes dentre permet daffiner la recherche dans la table
de cas.
Slectionnez les modles qui seront inclus dans le graphique.
Slectionnez la ou les colonnes prvisibles (ne sont proposes que les
colonnes dont le type est Predict ou Predict Only).
Slectionnez une valeur prvisible afin de montrer lefficacit du modle.
Si vous ne prcisez pas de valeur prvisible, le graphique montre le degr
de prcision du modle.
Le graphique de courbe dlvation permet de comparer la prcision des trois
algorithmes.

Figure 9.23 Graphique de courbes dlvation comparant les trois algorithmes

La requte de prvision sexcute sur le serveur. La courbe idale est matrialise par la diagonale. Les algorithmes matrialiss par les trois courbes peuvent ainsi tre compars entre eux :

9.3 Crer le modle dune campagne cible

283

Lalgorithme Decision Tree permet un remplissage correct de 52 sur 65;


Lalgorithme Nave Bayes permet un remplissage correct de 46 sur 68;
Lalgorithme Cluster permet un remplissage correct de 39 sur 63.

Crer le graphique des bnfices


Ajoutons une dimension financire notre
modle en cherchant connatre le profit
gnr par chacun des algorithmes.
Prenons comme hypothse les lments suivants :
cible de clients : 5 000;
cot fixe de la campagne (frais de conception et dimpression) : 10 000 ;
cot variable de 5 par client (expdition);
le service marketing estime 50 par
personne par vente russie.

Figure 9.24 Formulaire


permettant de recueillir
les caractristiques financires
et destimation

Figure 9.25 Graphique


des bnfices prvisibles en fonction du modle

284

9. Le data mining

Laxe Y du graphique reprsente les bnfices, tandis que laxe X reprsente


le pourcentage de la population contacte. La meilleure performance financire
est donne grce lalgorithme Decision Tree.
Un graphique des bnfices montre une augmentation des bnfices jusqu
un certain point. Ensuite, plus le nombre dindividus contacts augmente moins
les bnfices augmentent.
Le graphique des bnfices contient une ligne verticale grise et positionne
par dfaut 50 %. Cette barre peut tre ajuste en cliquant dans le graphique.
Le calcul des bnfices est recalcul immdiatement.
Si vous slectionnez le point des bnfices maximaux dans le graphique en
utilisant la ligne grise, vous observez une valeur qui dtermine un seuil de probabilit li au fait de contacter un client.

Figure 9.26 Bnfices maximaux avec un remplissage de 88 euros

Dans lexemple ci-dessus, le sommet de la courbe des bnfices se trouve


88 % de remplissage pour une probabilit de prvision de 13,77 %. Cela indique
que pour raliser des bnfices maximaux, vous devez contacter uniquement les
clients dont la rponse est prvue avec une probabilit de 13,77 % ou plus.
Comment slectionner la liste des clients potentiels dans un jeu de donnes ?
Lorsque nous avons choisi un modle dexploration, il convient de crer une
requte DMX (Data Mining Extensions). Cette requte de prvision permet de
slectionner dans une table de cas une liste de clients potentiels.
Dans lexemple suivant, la table examiner est ProspectiveBuyer.
La premire source de la prvision repose sur le modle Decision_Tree avec
le champ prvisible Bike Buyer.
La seconde source fournit lidentifiant unique du prospect ProspectAlternateKey.
La troisime source PredictProbability fournit le degr de probabilit.

9.3 Crer le modle dune campagne cible

Figure 9.27 Mappage des donnes du modle


de prvisions avec les champs de la table dentre

Voici la requte DMX gnre par lassistant :


SELECT
[TM Decision Tree].[Bike Buyer],
t.[ProspectAlternateKey],
PredictProbability([bike buyer])
From
[TM Decision Tree]
PREDICTION JOIN
OPENQUERY([Adventure Works DW],
SELECT
[ProspectAlternateKey],
[MaritalStatus],
[Gender],
[YearlyIncome],
[TotalChildren],
[NumberChildrenAtHome],
[Education],
[Occupation],
[HouseOwnerFlag],
[NumberCarsOwned]
FROM
[dbo].[ProspectiveBuyer]
) AS t

285

286

9. Le data mining

Figure 9.28 Copier dans Excel la liste extraite

ON
[TM Decision Tree].[Marital Status] = t.[MaritalStatus] AND
[TM Decision Tree].[Gender] = t.[Gender] AND
[TM Decision Tree].[Yearly Income] = t.[YearlyIncome] AND
[TM Decision Tree].[Total Children] = t.[TotalChildren] AND
[TM Decision Tree].[Number Children At
Home] = t.[NumberChildrenAtHome] AND
[TM Decision Tree].[Education] = t.[Education] AND
[TM Decision Tree].[Occupation] = t.[Occupation] AND
[TM Decision Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND
[TM Decision Tree].[Number Cars Owned] = t.[NumberCarsOwned]

Le rsultat de la requte peut tre envoy dans Excel puis trait en ne slectionnant que les acheteurs potentiels cest--dire Bike Buyer = 1.

9.4 Conclusion

287

Le code ProspectAlternate identifie prcisment le client. Lexpression permet de donner la prcision de la prdiction.
Dans Excel, nous trions la colonne Expression (Probabilit) en mode dcroissant. Trions galement la colonne Bike Buyer. Nous en dduisons les 1 041 acheteurs potentiels sur une population de 2 059.
Notre publipostage portera sur tout ou partie de cette population dacheteurs
(Bike Buyers = 1).

9.4 CONCLUSION
Ce chapitre nous a montr les nombreux assistants fournis par Analysis Services.
Nous esprons avoir convaincu le lecteur que le data mining nest pas rserv
aux grandes entreprises qui disposent dun large volume de donnes.
Il nest pas non plus indispensable dtre statisticien pour exploiter ces nouvelles possibilits. Les entreprises qui se donneront la peine dexploiter les nombreuses facettes de cet outil dcouvriront de nouvelles pistes jusque l encore
inexplores.

10
Reporting Services

10.1 QUEST-CE QUE REPORTING SERVICES ?


En janvier 2004, Microsoft introduisait pour la premire fois un nouveau composant SQL Server 2000 : Reporting Services. Ce nouvel outil avait pour but
de combler un vide dans la chane dcisionnelle de Microsoft. En effet, SQL
Server 2000 disposait dun outil OLAP puissant : Analysis Services. Excel per-

Figure 10.1 Positionnement de Reporting Services dans la chane dcisionnelle

290

10. Reporting Services

mettait daccder aux cubes et deffectuer des analyses grce au tableau crois
dynamique. Or, nous lavons dj dit, lessentiel des donnes de lentreprise est
consult au moyen de rapports prdfinis. cette poque, Cognos et Business
Objects disposaient dj doutils de reporting tels que ReportNet et Crystal
Report. Microsoft na donc pas attendu la version 2005 de SQL pour offrir son
module de reporting.
Reporting Services regroupe un ensemble doutils, dinterfaces de programmation, de services run-time et doutils visant dfinir, gnrer, dployer, et grer
des rapports. Reporting Services comprend un moteur pour hberger et traiter
les rapports. Une interface de programmation permet galement dincorporer des
rapports dans diffrents environnements informatiques.

10.1.1

quoi sert Reporting Services ?

SSRS permet de crer des rapports pour une diffusion interne ou externe lentreprise. Reporting Services offre la possibilit daccder aussi bien aux bases de donnes oprationnelles quaux magasins de donnes ou cubes OLAP. Les rapports
peuvent tre diffuss largement par messagerie lectronique ou sur un portail web.
Lorsquun diteur de logiciel offre des solutions dERP bases sur SQL Server,
il peut intgrer Reporting Services dans sa solution afin de proposer des rapports
interactifs prdfinis.
Cette solution permet au client final de disposer dun outil lui permettant de
crer lui-mme ses propres rapports dynamiques. Ce nouvel outil, Report Builder,
isole la complexit de la base de donnes en exposant la couche mtier lutilisateur.
SSRS permet aux entreprises de mettre des rapports disposition sur le Web.
Elles peuvent en effet concevoir des extranets scuriss destination de leurs
clients et fournisseurs.
Voici quelques scnarios dutilisation de Reporting Services.

Rapports internes
Rapports Maison (vente, finance, DRH).
Administrables, accessibles via un portail ou intgrs aux solutions dentreprise.

Rapports embarqus
Afficher des rapports dans nimporte quelle application dentreprise (ERP,
CRM) ou analytique.
Architecture extensible et flexible.

10.1 Quest-ce que Reporting Services ?

291

Rapports collaboratifs
B2B, B2C, changes inter ou intra entreprises, etc.

Rapports externes
Publier des rapports via extranet, Internet.
Isolation de donnes, scurit extensible.

10.1.2

Fonctionnalits de Reporting Services

SSRS gre de manire centralise le cycle de vie dun rapport depuis sa cration
jusqu sa diffusion. Il utilise une architecture multiniveau illustre dans la figure 10.2.
Les principaux composants de SSRS sont donns dans le tableau 10.1.
Tableau 10.1 Composants de SSRS
Base de donnes
et sources
de donnes

MS SQL Server (2000 et 2005) MS Analysis Services


(la version 2005 remplace la version 2000 sur un mme
serveur).
Toutes sources de donnes conformes au standard OLE
DB, ODBC.

Outils de cration
de rapports

Gnrateur de rapports grce Visual Studio


pour Business. Intelligence.
Langage de dfinition de rapports bas sur le langage XML.
De nombreux outils tiers permettent de dvelopper
des rapports au format RDL.

Les formats
de rapports

Format libre.
Format tabulaire.
Format matriciel (tableau crois).
Graphique de donnes.
Filtrage dynamique lors de lexcution.
Regroupement en sous-totaux et totaux gnraux.
Tris ascendant/descendant.
Rapports lis activs par lien hypertexte avec passage
de paramtres.

Excution
de rapports

Plusieurs formats de restitution (PDF, TIFF, CSV, Excel,


XML, Archive web).
Planification de lenvoi des rapports la demande
de lutilisateur ou de ladministrateur.

La gestion des rapports


Reporting Services dispose dune interface web permettant deffectuer des tches
de gestion de rapports. Le tableau ci-dessous recense les diffrentes tches.

Figure 10.2 Architecture de Reporting Services (source : Microsoft)

SQL Server Catalog

Exportation

Scurit

Web Service

Formatage

Report Processing

Report Server

WMI

Application

Interrogation
des donnes

URL

Administration

Cibles
(Courrier, Fichier,
Autres)

Formats
(HTML, Excel,
PDF, Autres)

Report Builder

Services Scurit
(NT, Passeport,
Autre)

Sources de donnes
(SQL, OLE DB, ODBC,
Oracle, clients)

Navigateur

292
10. Reporting Services

10.1 Quest-ce que Reporting Services ?

293

Tableau 10.2 Tches de gestion de rapports


Gestion
des sources de donnes

Connexions aux serveurs


avec authentification.

Gestion des paramtres des rapports

Valeurs par dfaut proposes


Invites avec listes droulantes.

Planification de lexcution des rapports

SQL Server Agent doit tre install


et en service.

Mode dexcution des rapports

Direct.
Mise en cache. Capture instantane.
Historique des rapports excuts
conserv pour consultation ultrieure.

Scurit

Utilisateurs.
Groupes.
Rles.

Report Server Web Application

Dfinir la scurit.
Planifier lexcution et la remise
de rapports.
Effectuer le suivi des rapports.
API de service web.

Le rendu des rapports

Format HTML et XML.


Format dimpression PDF et TIFF.
Format Excel, CSV.
Autres formats via API ouvertes.

Options de remise

Excutions planifies.
Excutions pilotes par vnements.
Abonnements.
Rapport reu ou lien avec le serveur.
Abonnements pilots par les donnes.

Le serveur de rapports (Report Server) contient un moteur qui interprte la


dfinition des rapports, excute les requtes et restitue les rapports. Il permet
galement de planifier lexcution et lenvoi de rapports en mode scuris. Le
serveur de rapports hberge un service web permettant des applications externes de communiquer avec le moteur de rapports.
Le gestionnaire de rapports se prsente sous la forme dun portail web fourni
avec Reporting Services. Le gestionnaire de rapport est destin aussi bien lutilisateur qui dsire excuter un rapport qu ladministrateur dsireux de mettre
en place la scurit ou la planification de distribution des rapports.
Le concepteur de rapport est hberg dans linterface commune de Visual Studio BI. Celle-ci permet grce de nombreux assistants de dvelopper et dployer
des rapports sans connaissance approfondie de SQL Server.

294

10. Reporting Services

Figure 10.3 Le gestionnaire de rapports

Report Builder est un outil client qui permet aux utilisateurs non-programmeurs
de dfinir et dployer des rapports sans aucune connaissance de SQL Server.
Report Builder se base sur des modles conus laide du concepteur de modles
de rapports (Report Model Designer). Cet outil stocke les dfinitions de rapports
dans la base de donnes Report Server. Ces rapports peuvent ensuite tre modifis, complts et publis par lutilisateur lui-mme via linterface web.

10.2 LA CRATION DE RAPPORT


Afin dillustrer les diffrents concepts abords dans le paragraphe prcdent,
nous allons crer un rapport de ventes de la socit AdventureWorks, puis nous
le publierons sur le serveur de rapports. Enfin, nous le consulterons via le Web.
Avant de crer un nouveau rapport il est ncessaire dintroduire la notion de
rgion de donnes. Celle-ci peut tre lie de nombreuses sources de donnes.
Dans le principe, une rgion de donnes lit un enregistrement contenu dans un
jeu denregistrements (dataset), remplit une portion du rapport en utilisant les
donnes de lenregistrement, puis lit lenregistrement suivant. Ce processus est
rpt autant de fois quil y a denregistrements dans le dataset.
Un rapport peut tre constitu de quatre types de rgions :
La table permet de lister le contenu des enregistrements selon un format
tabulaire. La table est compose dun nombre de colonnes fixe et dun

10.2 La cration de rapport

295

nombre denregistrements variable. Les lignes peuvent tre regroupes afin


de composer des lignes de totalisation ou sous-totalisation.
Le tableau crois ou matriciel est compos dun nombre variable de lignes
et de colonnes. Il sapparente au tableau crois dAccess. Les lignes et
colonnes ne peuvent tre interverties lors de lexploration. Un pseudo drill
down permet dafficher les totaux de ligne puis de dplier les lignes qui composent ce total afin den connatre le dtail.
La liste permet de crer une section sur voire plusieurs pages pour chaque
enregistrement du jeu de donnes.
Le graphe permet de reprsenter sous forme visuelle les donnes relatives
chaque enregistrement.
La cration de rapport dbute dans BI Visual Studio. linstar des autres
modules de Visual Studio, un assistant guide pas pas le dveloppeur de rapport.
Il suffit ensuite de revenir sur la conception libre du rapport afin dapporter les
modifications souhaites.
La cration dun rapport dbute toujours par la dfinition de la source de
donnes.

Figure 10.4 Choisir la source de donnes (ici la base oprationnelle


AdventureWorks) Nous utilisons le gnrateur de requte afin de concevoir le dataset

Figure 10.5 Le gnrateur de requte aide


le concepteur au travers dune interface graphique

296

10. Reporting Services

La requte gnre est la suivante :


SELECT PC.Name AS ProdCat,
PS.Name AS SubCat,
DATEPART(yy, SOH.OrderDate) AS OrderYear,
Q + DATENAME(qq, SOH.OrderDate) AS OrderQtr,
SUM(SOD.UnitPrice * SOD.OrderQty) AS Sales
FROM
Production.ProductSubcategory AS PS INNER JOIN
Sales.SalesOrderHeader AS SOH INNER JOIN
Sales.SalesOrderDetail AS SOD ON
SOH.SalesOrderID = SOD.SalesOrderID INNER JOIN
Production.Product AS P ON SOD.ProductID = P.ProductID ON
PS.ProductSubcategoryID = P.ProductSubcategoryID INNER JOIN
Production.ProductCategory AS PC ON
PS.ProductCategoryID = PC.ProductCategoryID
WHERE
(SOH.OrderDate BETWEEN 1/1/2002 AND 31/12/2003)
GROUP BY DATEPART(yy, SOH.OrderDate), PC.Name, PS.Name, Q+ DATENAME(qq, SOH.OrderDate), PS.ProductSubcategoryID

Lexcution de la requte fournit la liste suivante :


Components

Forks

2002

Q4

23543,1060

Bikes

Road Bikes

2002

Q1

3171787,6112

Components

Wheels

2002

Q4

163921,8870

Clothing

Socks

2003

Q3

6968,6884

Bikes

Road Bikes

2003

Q4

3734891,6389

Components

Mountain Frames

2002

Q3

608352,8754

Components

Handlebars

2002

Q4

18309,4452

Accessories

Tires and Tubes

2003

Q3

41940,3364

Components

Road Frames

2003

Q2

457688,8401

Clothing

Vests

2003

Q4

66882,6450

Figure 10.6 Le gnrateur de requtes permet de consulter immdiatement


le rsultat. La figure 10.6 montre un extrait de la requte prcdente

La requte ci-dessus fait lobjet dune rapport de type tabulaire ou matriciel.

10.2 La cration de rapport

297

Figure 10.7 Choisir le type de rapport : tabulaire ou matriciel

Lassistant propose de disposer les champs disponibles en lignes et colonnes.


La case cocher Activer lexploration vers le bas permet de regrouper/dplier
les lignes du rapport.

Figure 10.8 Formulaire de conception de la matrice du rapport.


Disposer les champs en lignes ou colonnes

Lassistant propose six styles daffichage du rapport.


Lassistant termine en proposant un rcapitulatif des choix effectus. Le nom
du rapport est fourni cette tape.

298

10. Reporting Services

Figure 10.9 Choix


du style de rapport

Figure 10.10
Lassistant propose
un rsum
des actions effectues
lors de la cration
du rapport

Aprs activation du bouton Terminer, laperu du rapport seffectue dans BI


Studio.
Ltape suivante consiste dployer le nouveau rapport sur le serveur de
rapport.
Au pralable, nos devons nous assurer que le serveur de rapport est correctement paramtr, comme dans la figure 10.12.

10.2 La cration de rapport

299

Figure 10.11 Le mode aperu permet une visualisation immdiate du rapport

Figure 10.12 Formulaire de configuration prcisant lURL du serveur de rapports

Un clic droit sur la solution AdventureWorks Sample Reports permet de vrifier le paramtre de dploiement. TargetServeurURL doit fournir une adresse
telle que http://localhost/reportserver.

300

10. Reporting Services

Requte MDX sur cube OLAP

Figure 10.13 Source de donnes Analysis Services

Grce au gnrateur de requte MDX, on utilise la technique du glisser-dplacer


afin de prparer les dimensions (date et produit) puis les mesures analyser.

Figure 10.14 Le gnrateur de requte MDX

La requte MDX gnre est la suivante :


SELECT NON EMPTY {[Measures].[Internet Sales Amount]} ON COLUMNS,
NON EMPTY {([Product].[Category].[Category].ALLMEMBERS *
Product].[Subcategory].[Subcategory].ALLMEMBERS * [Date].[Calendar].[Month].ALLMEMBERS)}
DIMENSION PROPERTIES MEMBER_CAPTION, MEMBER_UNIQUE_NAME ON ROWS
FROM [Adventure Works]
CELL PROPERTIES VALUE, BACK_COLOR, FORE_COLOR, FORMATTED_VALUE,
FORMAT_STRING, FONT_NAME, FONT_SIZE, FONT_FLAGS

La reprsentation visuelle de la requte prcdente est illustre dans le tableau


suivant aux lignes imbriques.

10.2 La cration de rapport

301

Figure 10.15
Le rsultat de la requte MDX
dans Proclarity

Lassistant propose alors de mettre en forme la matrice.


Ne pas oublier dactiver lexploration vers le bas permettant le regroupement
des donnes et le dpliement des lignes (drill down).

Figure 10.16
Le concepteur
de matrice dispose
les axes Produits
et Date en lignes
et colonnes

302

10. Reporting Services

Figure 10.17
Rapport
des ventes
labor partir
dune source
OLAP Analysis
Services

Ltape suivante consiste dployer ce rapport dans Reporting Services.


Avant dexcuter le rapport dans Reporting Services, veillez tablir une
source de donnes partage et scurise selon les paramtres donns figure 10.18.

Figure 10.18
Crer
une source
de donne
personnalise
de type Analysis
Services

10.2 La cration de rapport

303

La source de donnes doit prciser la chane de connexion. Celle-ci est fournie dans le formulaire des proprits de la source de donnes partage comme
dans lexemple de la figure 10.19.

Figure 10.19 Source de donnes partage dans BI Studio

Il convient de prciser galement le type de scurit intgre de Windows.


La barre doutil permet dajouter un graphique au rapport.

Figure 10.20 Outil dajout de graphique

La figure 10.20 montre loutil graphique et la manire de lutiliser. Un simple


glisser/dposer des champs de la source de donnes sur les axes du graphe permet
de construire un graphe li au donnes de la source.
Lexemple de la figure 10.21 montre le rendu du rapport aprs ajout dun
graphe.

304

10. Reporting Services

Figure 10.21 Le mme rapport quen 10.17 avec introduction dun graphe

Linterface de Reporting Services permet un affichage du rapport qui offre la


possibilit de lexporter selon plusieurs formats :
Fichier au format HTML/XML. Format privilgier pour des transferts
entre plateformes. Ce format nest pas le plus fidle et nest pas retenir
lorsque la disposition du texte ncessite une grande prcision.
Fichier au format CSV (ASCII). Texte spar par des virgules. Ce format
est trs commun. De plus, il est directement interprt par Excel.
Fichier TIFF (image).
Fichier Acrobat (PDF) fournit un rendu plus fidle que le format TIFF.
PDF est devenu le format standard de lecture grce au logiciel Adobe
Acrobat Reader. Le format TIFF est lu par des logiciels de traitement
dimage tels que Windows Picture, Paint ou Fax Viewer. Il est ainsi pos-

10.2 La cration de rapport

305

sible denvoyer des documents en pices jointes grce un logiciel de messagerie.


Archive Web.
Excel (versions 97 2007).

Figure 10.22 Le rapport export dans Excel (ici version 2007)

Lors de lexportation, les donnes sont converties en valeurs permettant ainsi


dtre dconnectes de la source des donnes. Les groupes sont dynamiques et
peuvent faire lobjet dun drill down/drill up.
La sortie papier reste cependant un choix trs frquent. Reporting Services
offre la possibilit dimprimer directement ct client. Lors de la premire
impression, lutilisateur est averti de linstallation dun composant ActiveX (bien
vrifier que le composant est sign Microsoft). Ce composant permet dactiver
linterface dimpression telle que la gestion des marges, la taille de la page et
mme lorientation.
Ajouter des paramtres de slection un rapport OLAP
Lorsque lon observe la premire fois les rapports fournis en standard par SQL
Server 2005, la notion de filtrage sur rapports OLAP parat pertinente, mais en

306

10. Reporting Services

mme temps semble complexe. En ralit, Visual Studio offre un assistant pour
les paramtres de filtrage dune grande simplicit. Fort heureusement, nous
naurons pas modifier manuellement le code MDX gnr par lassistant.
Dans notre exemple, nous ajouterons successivement un filtre sur lanne puis
un second sur la catgorie de produit.
Depuis longlet Donnes, nous glissons lattribut CalendarYear dans la zone
rserve au filtrage matrialise par le texte <Slectionnez une dimension>. Aussitt une ligne nouvelle apparat permettant deffectuer une slection sur les
annes. Il est impratif de cliquer dans la case Paramtres afin de gnrer un
nouveau dataset au format MDX permettant ainsi de proposer une liste droulante lutilisateur. Cette fonction permet galement dimbriquer le fitrage dans
le dataset initial (AdventureWorksAS).

Figure 10.23 Ajout dun paramtre de filtrage

Voici le nouveau code MDX gnr :


SELECT NON EMPTY {[Measures].[Internet Sales Amount]} ON COLUMNS,
NON EMPTY {([Product].[Category].[Category].ALLMEMBERS *
[Product].[Subcategory].[Subcategory].ALLMEMBERS *
[Date].[Calendar].[Month].ALLMEMBERS)} DIMENSION PROPERTIES
MEMBER_CAPTION, MEMBER_UNIQUE_NAME ON ROWS
FROM (SELECT (STRTOSET(@DateCalendarYear, CONSTRAINED)) ON COLUMNS
FROM [Adventure Works]) WHERE (IIF(STRTOSET(@DateCalendarYear,
CONSTRAINED).Count = 1, STRTOSET(@DateCalendarYear, CONSTRAINED),
[Date].[Calendar Year].currentmember))
CELL PROPERTIES VALUE, BACK_COLOR, FORE_COLOR, FORMATTED_VALUE,
FORMAT_STRING, FONT_NAME, FONT_SIZE, FONT_FLAGS

10.2 La cration de rapport

307

Un nouveau dataset DateCalendarYear a t cr automatiquement.

Figure 10.24
Le dataset de
filtrage est gnr
automatiquement

Le dataset DateCalendarYear dispose de quatre champs :


Calendar Year;
ParameterCaption;
ParameterValue;
ParameterLevel.
Le formulaire prsentant les paramtres du rapport est dfini comme dans la
figure 10.24.

Figure 10.25
Formulaire
des paramtres
du rapport

308

10. Reporting Services

Lexcution du rapport fait immdiatement apparatre le choix des donnes.

Figure 10.26 Aperu du rapport avec choix de la slection des annes

La mme procdure permet dajouter un second filtrage sur la catgorie. Le


rsultat est donn figure 10.26.

Figure 10.27 Rapport filtr sur deux paramtres : anne et catgorie

10.3 LA GESTION DES RAPPORTS


Lorsque les rapports sont publis sur le serveur de rapports, il est indispensable
de procder un certain nombre de rglages supplmentaires. Gnralement, les
rapports font lobjet dune mise en scurit visant permettre la consultation
uniquement par les personnes autorises. Les utilisateurs, de plus en plus exigeants,
souhaitent obtenir sans dlai les informations sur leur activit dans lentreprise.
Ils dsirent galement recevoir priodiquement leurs informations mtier sous
forme lectronique ou excuter eux-mmes les traitements selon leurs besoins.

10.3 La gestion des rapports

309

Les utilisateurs et administrateurs accdent au gestionnaire de rapports ladresse


suivante : http://localhost/reports.
Le gestionnaire de rapports met disposition de ladministrateur un certain
nombre doutils permettant de rpondre ces contraintes. Passons-les en revue.

10.3.1

La scurit

Reporting Services met en place plusieurs niveaux de scurit.


Le gestionnaire de rapports web requiert une authentification Windows.
Les utilisateurs autoriss accder au gestionnaire de rapports doivent faire
partie du groupe des administrateurs (BUILTIN\Administrateurs).
Reporting Services ne gre pas de liste spcifique dutilisateurs. Il sappuie
totalement sur les utilisateurs et rles crs dans le systme de scurit de Windows. Si vous dsirez autoriser dautres utilisateurs accder aux rapports, vous
devrez ajouter de nouveaux utilisateurs ou groupes Windows dans des rles Reporting Services.
Les rles de Reporting Services
Reporting Services fournit cinq rles standards pour lesquels il est ncessaire
dattribuer un compte utilisateur ou groupe Windows.
Tableau 10.3 Les rles de Reporting Services
Gnrateur de rapports

Permet de visualiser les dfinitions de rapports.

Gestionnaire de contenu

Peut grer un contenu sur Report Server, notamment


des dossiers, des rapports et des ressources.

Lecteur

Peut afficher des dossiers et des rapports,


et sabonner des rapports.

Mes rapports

Peut publier des rapports et des rapports lis, grer


des dossiers, des rapports et des ressources
dans le dossier Mes rapports dun utilisateur.

Serveur de publication

Peut publier des rapports et des rapports lis


sur Report Server.

Par exemple, un utilisateur auquel il a t attribu un rle de serveur de publication sera autoris publier, crer, voir et supprimer des rapports. En revanche,
il ne sera pas autoris crer de nouveaux rles.

310

10. Reporting Services

Dans la plupart des cas, les droits daccs aux diffrents dossiers et objets
devront faire lobjet dune attribution spcifique de la part de ladministrateur.
Il existe une exception cette rgle : ladministrateur local dispose de toutes les
autorisations. Un utilisateur qui appartient au groupe local Administrateurs sur
le serveur qui hberge Reporting Services disposera de tous les droits.

Figure 10.28 Page de scurit pour le dossier racine

Si vous supprimez lattribution de rle pour BUILTIN\Administrateurs et les


membres du groupe administrateur local, vous continuerez disposer des droits
de gestion de tous les dossiers et objets.
Les tches et les droits dans Reporting Services
Chaque tche de Reporting Services fait lobjet dune attribution de droit. Voici
les droits des rles.
Tableau 10.4 Tches des rles dans Reporting Services
Afficher
les dossiers

Permet dafficher les lments dans larborescence


des dossiers, ainsi que les proprits des dossiers.

Afficher
les modles

Afficher des modles de larborescence des dossiers,


utiliser des modles comme sources de donnes
pour un rapport et excuter des requtes
sur le modle pour extraire des donnes.

Afficher
les rapports

Permet dafficher les rapports et les rapports lis


dans larborescence des dossiers, ainsi que les captures
instantanes dhistorique de rapport et les proprits
de rapport.

Afficher
les ressources
Afficher les sources
de donnes
Crer
des rapports lis

Permet dafficher les ressources dans larborescence


des dossiers, ainsi que les proprits des ressources.
Permet dafficher les lments de source de donnes
dans larborescence des dossiers, ainsi que les proprits
de la source de donnes.
Permet de crer des rapports lis et de les publier
dans un dossier du serveur de rapports.

10.3 La gestion des rapports

Dfinir la scurit
pour des lments
individuels
Grer
les abonnements
individuels

311

Permet dafficher et de modifier les paramtres


de scurit des rapports, des dossiers, des ressources
et des sources de donnes partages.
Chaque utilisateur peut crer, afficher, modifier
et supprimer des abonnements dont il est propritaire.

Grer les dossiers

Permet de crer, dafficher et de supprimer des dossiers,


ainsi que dafficher et de modifier des proprits
des dossiers.

Grer les modles

Crer, afficher et supprimer des modles, et afficher


et modifier des proprits de modle.

Grer les rapports

Permet de crer, dafficher et de supprimer des rapports,


ainsi que de modifier des proprits des rapports.

Grer les ressources

Permet de crer, de modifier et de supprimer


des ressources, ainsi que dafficher et de modifier
des proprits des ressources.

Grer les sources


de donnes

Permet de crer et de supprimer des lments de source


de donnes partage, ainsi que de modifier
des proprits de source de donnes.

Grer lhistorique
de rapport

Permet de crer, dafficher et de supprimer des captures


instantanes dhistorique de rapport, ainsi que
de modifier des proprits dhistorique de rapport.

Grer tous
les abonnements

Permet dafficher, de modifier et de supprimer


un abonnement quel que soit son propritaire.

Lire les rapports

Lit les dfinitions de rapport.

En complment des tches daccs aux rapports, des tches complmentaires


de gestion du systme font galement lobjet de droits spcifiques.
Tableau 10.5 Tches de rle systme
Afficher les planifications
partages

Permet dafficher une planification prdfinie


qui est disponible des fins dutilisation gnrale.

Afficher les proprits


du serveur de rapports

Permet dafficher les proprits qui sappliquent


au serveur de rapports.

Excuter les dfinitions


de rapport

Dmarrer lexcution partir de la dfinition


de rapport sans la publier sur Report Server.

312

Gnrer
des vnements
Grer la scurit
du serveur
de rapports

10. Reporting Services

Fournit une application qui permet de gnrer


des vnements dans lespace de noms du serveur
de rapports.
Permet dafficher et de modifier les attributions
de rles au niveau du systme.

Grer les planifications


partages

Permet de crer, de modifier et de supprimer


des planifications partages qui sont utilises
pour excuter des rapports ou les actualiser.

Grer les proprits


du serveur de rapports

Permet dafficher et de modifier les proprits


qui sappliquent au serveur de rapports
et aux lments grs par celui-ci.

Grer les rles

Permet de crer, dafficher et de modifier


des dfinitions de rles.

Grer les travaux

Permet dafficher et dannuler les travaux


en cours dexcution.

Les rles dans Reporting Services


Les droits autorisent des tches. Afin de simplifier la gestion des droits, il est
possible de regrouper des tches en crant des rles.
Reporting Services propose cinq rles en standard.
Tableau 10.6 Rles standards crs lors de linstallation de Reporting Services
Gnrateur
de rapports

Permet de visualiser les dfinitions de rapports.

Gestionnaire
de contenu

Peut grer un contenu sur Report Server, notamment


des dossiers, des rapports et des ressources.

Lecteur

Peut afficher des dossiers et des rapports, et sabonner


des rapports.

Mes rapports

Serveur de publication

Peut publier des rapports et des rapports lis, grer


des dossiers, des rapports et des ressources
dans le dossier Mes rapports dun utilisateur .
Peut publier des rapports et des rapports lis sur Report
Server.

Chaque rle prdfini comporte un certain nombre de tches.

10.3 La gestion des rapports

313

Tableau 10.7 Attribution des tches par rle


Rles

Gnrateur Gestionnaire
Mes
Lecteur
Publication
de rapports de contenu
rapports

Afficher
les dossiers

OUI

OUI

OUI

OUI

NON

Afficher
les modles

OUI

OUI

OUI

NON

NON

Afficher
les rapports

OUI

OUI

OUI

OUI

NON

Afficher
les ressources

OUI

OUI

OUI

OUI

NON

Afficher
les sources
de donnes

NON

OUI

NON

OUI

NON

Crer
des rapports lis

NON

OUI

NON

OUI

OUI

Dfinir la
scurit pour
des lments
individuels

NON

OUI

NON

NON

NON

Grer les
abonnements
individuels

NON

OUI

OUI

OUI

NON

Grer
les dossiers

NON

OUI

NON

OUI

OUI

Grer
les modles

NON

OUI

NON

NON

OUI

Grer
les rapports

NON

OUI

NON

OUI

OUI

Grer
les ressources

NON

OUI

NON

OUI

OUI

Grer
les sources
de donnes

NON

OUI

NON

OUI

OUI

Grer
lhistorique
de rapport

NON

OUI

NON

OUI

NON

314

Rles

10. Reporting Services

Gnrateur Gestionnaire
Mes
Lecteur
Publication
de rapports de contenu
rapports

Grer tous les


abonnements

NON

OUI

NON

NON

NON

Lire les rapports

OUI

OUI

NON

NON

NON

Les tches spcifiques au rle Administrateur systme


Le rle Administrateur systme est un rle prdfini qui comprend des tches
utiles pour un administrateur qui a la responsabilit gnrale du serveur de rapports, mais pas ncessairement de son contenu.
Tableau 10.8 Attribution des tches par rle
Afficher
les planifications
partages

Permet dafficher une planification prdfinie


qui est disponible des fins dutilisation gnrale.

Afficher les proprits


du serveur de rapports

Permet dafficher les proprits qui sappliquent


au serveur de rapports.

Excuter les dfinitions


de rapport

Dmarrer lexcution partir de la dfinition


de rapport sans la publier sur Report Server.

Gnrer
des vnements

Fournit une application qui permet de gnrer


des vnements dans lespace de noms du serveur
de rapports.

Grer la scurit
du serveur de rapports

Permet dafficher et de modifier les attributions de rles


au niveau du systme.

Grer les planifications


partages

Permet de crer, de modifier et de supprimer


des planifications partages qui sont utilises
pour excuter des rapports ou les actualiser.

Grer les proprits


du serveur de rapports

Permet dafficher et de modifier les proprits


qui sappliquent au serveur de rapports
et aux lments grs par celui-ci.

Grer les rles


Grer les travaux

Permet de crer, dafficher et de modifier


des dfinitions de rles.
Permet dafficher et dannuler les travaux en cours
dexcution.

Les tches spcifiques au rle Utilisateur systme


Le rle Utilisateur systme est un rle prdfini qui comprend des tches permettant aux utilisateurs dafficher des informations de base sur le serveur de rapports. Il prend galement en charge le chargement dun rapport dans le Gnrateur
de rapports.

10.3 La gestion des rapports

315

Tableau 10.9 Liste des tches du rle Utilisateur Systme


Afficher
les planifications
partages

Permet dafficher une planification prdfinie


qui est disponible des fins dutilisation gnrale.

Afficher les proprits


du serveur de rapports

Permet dafficher les proprits qui sappliquent


au serveur de rapports.

Excuter les dfinitions


de rapport

Dmarrer lexcution partir de la dfinition


de rapport sans la publier sur Report Server.

Les tches et les rles ont t dfinis. Il convient maintenant dattribuer des
utilisateurs ou groupes dutilisateurs Windows dans chaque rle.

Figure 10.29
Nouvelle attribution
de rle systme

Figure 10.30
Formulaire de nouvelle
attribution de rle systme

Dans le champ Nom dutilisateur ou de groupe, vous devez entrer un nom


dutilisateur ou groupe Windows. Il est possible galement de prfixer le nom
dutilisateur par le nom de domaine tel que DOMAIN\Utilisateur.

316

10. Reporting Services

Scuriser les objets de Reporting Services


Dans le but dautoriser laccs aux rapports ou rpertoires de Reporting Services,
vous allez devoir ajouter la scurit chaque lment. Par exemple, pour donner
accs au rpertoire AdventureWorks Sample Reports et tous les rapports quil
contient, il est ncessaire douvrir le rpertoire puis daccder longlet Proprits puis Scurit.
Vous observez une page identique celle donne figure 10.30.

Figure 10.31 Longlet Proprit du rapport


permet de modifier la scurit daccs au rapport

Cliquez sur Modifiez la scurit de llment Une confirmation de modification de lhritage des paramtres de scurit du dossier parent est demande
loprateur. Il est ainsi possible deffectuer une nouvelle attribution de rle.

Figure 10.32 Proprits de scurit

10.3 La gestion des rapports

317

Ajoutez un utilisateur Windows.

Figure 10.33
Crer un nouvel utilisateur
Windows

Attribuer lutilisateur Windows au rle prdfini Lecteur. Il est possible de


crer un nouveau rle si aucun ne correspond au choix souhait.

Figure 10.34 Attribution du rle Lecteur lutilisateur Bertrand

318

10. Reporting Services

lissue de ce traitement, voici les rles attribus au rpertoire AdventureWorks Sample Reports (figure 10.34).

Figure 10.35 Le lien Scurit de longlet Proprits


du dossier racine fait apparatre les utilisateurs Windows et les rles associs

La scurit attribue au dossier racine AdventureWorks Sample Reports sera


naturellement reporte sur lensemble des sous-rpertoires contenus dans le dossier Racine.
La procdure dattribution de scurit dun rpertoire peut tre applique de
faon identique aux rapports et aux ressources.

10.3.2

Les rapports lis

Reporting Services offre une technique permettant de partager un rapport qui a


t dploy dans un rpertoire afin de le partager dans dautres dossiers. Cette
technique permet de navoir quune seule dfinition du rapport rendant la maintenance et le dploiement plus aiss. Le rapport est cependant accessible partir
de diffrents dossiers. Pour des raisons videntes, le rapport li nhrite pas de la
scurit du rapport sur lequel il pointe (figure 10.36).

10.3.3

Lexcution de rapports

Longlet Proprits de lexcution dun rapport permet de dfinir le processus


doptimisation lors de laffichage. Ces options dterminent quel moment se
produit le traitement du rapport. Vous pouvez ainsi dfinir ces options pour programmer lexcution dun rapport la nuit ou lorsque le serveur est le moins sollicit. Si un rapport est consult frquemment, vous pouvez galement mettre en

10.3 La gestion des rapports

319

Figure 10.36 Le menu General de longlet Proprits


du rapport permet de crer un rapport li avec une scurit diffrente

cache de faon temporaire des copies de ce dernier pour liminer les temps
dattente lorsque plusieurs utilisateurs y accdent quelques minutes dintervalle.
Pour ouvrir cette page, slectionnez un rapport, cliquez sur longlet Proprits
situ en haut de la page, puis sur le menu Excution situ sur le ct gauche de
la page.
Prcisons les diffrents choix proposs.
Toujours excuter ce rapport avec les donnes les plus rcentes : Utilisez cette
option lorsque vous souhaitez que le rapport soit excut la demande ou
lorsquun utilisateur le slectionne. Si une copie du rapport est encore disponible en cache mmoire, lextraction ne sera pas excute et laffichage
du rapport sera instantan.
Ne pas mettre en cache les copies temporaires de ce rapport. Le rapport sera
toujours excut avec les donnes les plus rcentes. Chaque utilisateur qui
ouvre le rapport dclenche un accs la source de donnes.

320

10. Reporting Services

Figure 10.37 Formulaire de dfinition des proprits


lors de lexcution du rapport

Mettre en cache une copie temporaire du rapport place une copie temporaire
du rapport dans un cache lorsquun premier utilisateur ouvre le rapport.
Les performances sont meilleures pour les utilisateurs qui ouvrent le mme
rapport avec les mmes paramtres dextraction, car il ny aura pas daccs
la source de donnes.
Faire expirer la copie du rapport aprs un certain nombre de minutes. Saisissez
le nombre de minutes aprs lequel la copie temporaire nest plus valide.
Une fois cela, elle nest plus renvoye partir du cache. La prochaine fois
quun utilisateur ouvrira le rapport, le serveur de rapports retraitera ce dernier et replacera une copie du rapport actualis dans le cache.
Faire expirer la copie du rapport selon la planification suivante : ce paramtre
permet de dfinir une date et heure dexpiration pour un rapport. Pour
quun rapport mis en cache expire en fin de journe, par exemple, vous
pouvez slectionner une heure durant la nuit aprs laquelle la copie expire.
Effectuer le rendu de ce rapport partir dune capture instantane dexcution
du rapport : cette option permet de traiter un rapport comme un clich,
lheure planifie. Choisissez cette option lorsque vous souhaitez excuter
un rapport aux heures creuses. Contrairement aux copies mises en cache
qui sont cres lorsquun utilisateur ouvre le rapport, un clich est cr,
puis actualis, suivant une planification. Les clichs restent en service
jusqu ce quils soient remplacs par de nouvelles versions.

10.3 La gestion des rapports

321

Figure 10.38 Formulaire permettant de prciser les dtails


de la planification denvoi de rapports

Les clichs gnrs par les paramtres dexcution de rapport ont les mmes
caractristiques que les clichs dhistorique de rapport. La seule diffrence
rside dans le fait quil nexiste quun seul clich dexcution de rapport et
plusieurs clichs dhistorique de rapport. Les clichs dhistorique de rapport
sont accessibles partir de la page Historique du rapport, qui stocke de
nombreuses instances dun rapport diffrents moments dans le temps.
Les utilisateurs ont accs aux clichs dexcution de rapport partir des
dossiers (comme pour les rapports actifs).
Crer une capture instantane du rapport lorsque vous cliquez sur le bouton
Appliquer de cette page : cliquez sur ce bouton pour rendre le clich disponible avant lheure de dbut planifie.
Dlai dexpiration de lexcution des rapports : spcifie si le traitement dun rapport doit tre interrompu aprs un certain nombre de secondes. Si vous
choisissez le paramtre par dfaut, le paramtre du dlai dexpiration spcifi dans la page Paramtres du site est utilis pour le rapport.

10.3.4

Lhistorisation des rapports

Cette fonctionnalit permet de conserver une trace des rapports excuts. Plutt
que de conserver des copies des donnes des instants diffrents, il sera plus

322

10. Reporting Services

simple de conserver les instantans des rapports. Il est ainsi possible de conserver
des listes dinventaire, des ratios financiers ou des rapports de production diffrentes priodes et ainsi danalyser les tendances. Prcisons que ces analyses restent visuelles et que les rapports ne peuvent nouveau faire lobjet de rexcution.
Pour les analyses de tendance nous prfrerons naturellement la richesse des KPI
fournis avec Analysis Services.

Figure 10.39 Le menu Historique de longlet Proprits permet de paramtrer


la frquence dhistorisation des instantans

Longlet Historique permet de consulter les instantans.

Figure 10.40 Longlet Historique du rapport Company Sales


fournit la liste des instantans

10.3 La gestion des rapports

10.3.5

323

Abonnements aux rapports

Plusieurs types de souscription aux rapports sont proposs par Reporting Services.
Lorsquun utilisateur qui affiche un rapport dsire souscrire un envoi rgulier
du rapport, il cre un abonnement.
Il peut recevoir ses rapports soit par e-mail, soit dans un rpertoire partag.
La dernire option permet galement de placer le rapport dans un entrept de
documents index par une application telle que SharePoint Portal.
Le formulaire ci-dessous prsente les options lies la procdure dabonnement au rapport Company Sales.
La gestion des abonnements ncessite que le service SQL Server Agent soit
actif. Le gestionnaire dabonnements envoie les rapports via le compte SMTP.
Ce compte a t paramtr lors de la configuration de Reporting Services (exemple : smtp.wanadoo.fr).

Figure 10.41 Formulaire doptions dabonnement de rapport

Les champs Objet et Commentaire permettent dintroduire du texte avec des


variables comme le nom du rapport et lheure dexcution (@ReportName et @ExecutionTime).

324

10. Reporting Services

Figure 10.42 La rception du rapport dans Outlook

Un lien dynamique vers le serveur permet de rafrachir le rapport et de retrouver une navigation dynamique (drill down sur les annes ou les catgories).
Dautres formats peuvent tre joints en pices attaches (PDF, CSV, Excel, etc.).

10.4 REPORTING LA DEMANDE


AVEC REPORT BUILDER
Le gnrateur de rapports Report Builder est une application ct client qui permet de crer et de concevoir des rapports la demande. Cet outil est mis la
disposition des managers. Il est en effet orient mtier et ne ncessite pas de
connaissance technique.
Report Builder (SSRB) offre un service de donnes au niveau entit conceptuelle. Nous lavons vu prcdemment, lcriture de rapports avec SSRS ncessite de savoir laborer des requtes au niveau du schma logique. Par exemple,
la cration dun rapport sur ltat des commandes ncessite dcrire la jointure

10.4 Reporting la demande avec Report Builder

325

entre les diffrentes tables qui constituent une commande (entte de commande/
lignes de commande/clients/produits).
Un grand nombre dutilisateurs souhaite disposer dun environnement utilisateur de cration de rapports nimposant ni dutiliser Visual Studio ni de crer
des requtes SQL pour les rapports. Les utilisateurs et analystes souhaitent crer
des rapports directement sur les clients, les commandes, les ventes, etc. Certains
raisonnent au niveau concept mtier, ou domaine , et souhaitent exprimer
leurs requtes ce niveau plutt quau niveau du schma logique.
Report Builder permet de dcrire et de mettre en correspondance les entits
mtier avec la couche de schma logique. Cette mthode porte le nom de
SMDL (Semantic Model Definition Language).
Report Builder permet de crer des rapports de type tabulaire, matriciel ou
graphique. La cration dun rapport ncessite au pralable la mise disposition
dun modle de rapport. Ce modle est conu grce lassistant de cration dun
modle de rapport. Les modles de rapport portent lextension .smdl.
Lors de la publication du modle sur le serveur, de nombreuses entits et
champs drivs sont crs. Le tableau 10.10 donne la liste des options disponibles
lors de la gnration du modle de rapport.
Tableau 10.10 Options disponibles lors de la gnration du modle de rapport
Options

Description de loption

Crer des entits


pour toutes les tables

Cre une entit pour chaque table,


quelle contienne ou non des donnes.

Crer des agrgations


de comptage

Cre un champ dagrgation qui contient


le nombre dinstances uniques dune entit.

Crer des attributs

Cre un attribut pour chaque colonne


de chaque table.

Crer des attributs pour les


colonnes incrmentation
automatique

Cre un champ masqu qui contient les donnes


de la base de donnes incrmentes
automatiquement.

Crer des variations de date

Cre des variations sur les champs de date


en fonction des diffrentes parties de la date,
par exemple lanne, les mois ou les jours.

Crer des agrgations


numriques

Cre des champs somme, moyenne, minimum


et maximum pour chaque champ numrique.

Crer des agrgations


de date

Cre un champ dagrgation de la premire date


et un champ dagrgation de la dernire date
pour chaque champ de date.

326

Options

10. Reporting Services

Description de loption

Crer des rles

Cre deux rles (un sortant et un entrant) pour


chaque relation dcouverte entre les entits.

Entits de recherche

Considre les entits ne contenant quun champ


en tant quentits de recherche. Ces entits
sont places dans un dossier nomm Lookup.

Petites listes

Cre des listes droulantes lorsquil existe dans


lentit moins de 100 instances partir desquelles
choisir.

Grandes listes

Impose aux utilisateurs de choisir dans une liste


o il existe dans lentit plus de 500 instances
parmi lesquelles choisir.

Trs grandes listes

Impose aux utilisateurs de filtrer avant de choisir


dans une liste o il existe dans lentit plus
de 5 000 instances parmi lesquelles choisir.

Dfinir des attributs


didentification

Indiquent les champs qui sont uniques cette


entit. Le gnrateur de rapports identifie
les attributs didentification potentiels.

Dfinir les attributs de dtail


par dfaut

Indique les champs qui sont affichs par dfaut


lorsquun utilisateur clique sur un lment li
dans un rapport consultable laide de clics.

Nom du rle uniquement

Dfinit automatiquement la proprit de nom


contextuel de lattribut Rle.

Mise en forme des nombres


et de la date

Tire les champs numriques et de date dans lordre


dcroissant.

Mise en forme des nombres


entiers/dcimaux

Met en forme les nombres entiers et dcimaux.

Mise en forme des nombres


virgule flottante

Dfinit la mise en forme des champs virgule


flottante.

Mise en forme de la date

Met en forme les champs de date et dheure


pour quils affichent uniquement la partie date
et non la partie heure du champ.

Dconseiller
le regroupement

Empche les utilisateurs de regrouper les champs


uniques. Cette option prend la valeur True
par dfaut pour les attributs didentification.

Slection des valeurs de liste


droulante

Dfinit la proprit de slection des valeurs aux


listes droulantes pour les champs contenant moins
de 200 valeurs uniques.

10.4 Reporting la demande avec Report Builder

327

La table source SalesPerson est compose de neuf champs. Le gnrateur de


modle cre des colonnes drives partir des champs de la table source.

Figure 10.43
Le formulaire liste les champs source
repris dans le modle

Figure 10.44
Lentit Sales Person
montre les colonnes
drives

Les attributs de type texte sont prfixs par licne


numriques sont reprs par un #.

a tandis que les champs

Lorsque le modle de rapport est publi sur le serveur, le manager peut concevoir ses rapports personnaliss. Il manipule les donnes mtier en les filtrant, en
les groupant, en les triant ou en crant de nouvelles formules.
Lorsque le rapport est dfini, il peut tre enregistr sur le serveur de rapports.
Il devient donc disponible aux utilisateurs autoriss.
Le filtrage offre des conditions simples utiliser et intuitives.

328

10. Reporting Services

Figure 10.45 Grce un glisser-dplacer,


la construction du rapport seffectue

Figure 10.46 Filtrage sur lanne de commande

10.5 Conclusion

329

Lorsque le rapport est prt, il est ncessaire de lenregistrer sur le serveur de


rapports afin quil soit disponible dans Reporting Services.

Figure 10.47 Le rapport filtr affich dans Reporting Services

10.5 CONCLUSION
Les managers oprationnels disposent de peu de temps pour se former aux techniques de la cration de rapports. Les informaticiens joueront pleinement leur
rle en prparant des rapports utiles aux personnels de lentreprise. La facilit
de comprhension des rapports et leur mise disposition rapide permettra aux
oprationnels de suivre les indicateurs essentiels et ainsi de partager avec la
direction, la vision de lentreprise.

11
Lanalyse de donnes
avec Excel

Dans le chapitre prcdent, nous avons montr comment Reporting Services


permet daccder toutes les sources dinformations (relationnelles et OLAP)
et den dcouvrir le sens. SSRS offre de nombreuses formes de restitution de
linformation : listes, graphes, tendances, alertes.
Report Builder offre une certaine autonomie au manager pour accder aux
informations dont il a besoin. Malgr de nombreux efforts dploys par lditeur,
Report Builder ncessite un minimum de formation. Or, les managers ont peu
de temps consacrer leur formation aux techniques de linformation.
Microsoft avait depuis longtemps introduit la notion de rapport de masse
grce une fonctionnalit que lon trouve dans Excel : le tableau crois dynamique. Excel est depuis longtemps loutil danalyse le plus rpandu et na pas
besoin dtre prsent aux managers.
Depuis le dbut des annes 2000, Microsoft a introduit de nouvelles fonctionnalits Excel permettant ainsi daccder des cubes OLAP. Cette technologie a offert de nouvelles opportunits danalyse. Excel peut galement effectuer
des requtes sur lentrept de donnes.
Excel offre ainsi de nombreuses possibilits danalyse : accs au datawarehouse
via MS Query, accs aux cubes OLAP via les tableaux croiss dynamiques.
Une consquence bnfique de lexistence du datawarehouse rside dans la
centralisation naturelle des donnes de lentreprise. Excel ne doit donc plus tre

332

11. Lanalyse de donnes avec Excel

un lieu de ressaisie manuel mais un outil danalyse accdant aux donnes stratgiques.
Dans ce chapitre nous prsenterons les tableaux croiss dynamiques dExcel
accdant aux cubes OLAP 2000 ou 2005. Depuis la version dExcel 2000 le mode
opratoire daccs un cube OLAP est le mme. La version Excel 2007 (Office 12)
ne droge pas la rgle. Elle apporte cependant une fonctionnalit lie SSAS
2005 : les indicateurs cls de performance (KPI).
Microsoft a galement mis disposition des utilisateurs dExcel un complment nomm Office Excel pour SQL server Analysis services. Cet outil apporte
des fonctionnalits qui nexistent pas dans les tableaux croiss dynamiques, en
particulier laccs simultan plusieurs cubes, et les fonctionnalits dcriture
dans un cube OLAP. Nous prsentons cet outil dans ce chapitre.
Grce aux Office Web Components (OWC), Microsoft offre la possibilit dencapsuler des tableaux et graphes dynamiques dans des pages web. Cette fonctionnalit est trs prise des utilisateurs nomades qui peuvent ainsi accder leurs analyses
sur Excel via un navigateur web.
Avec Office Business Scorecard Manager 2005, Microsoft offre une ouverture
nouvelle aux managers soucieux de gouvernance dentreprise. Les indicateurs cls
de lentreprise sont prsents sous forme de tableaux de bord synthtiques. BSM
sintgre naturellement dans un portail maison, Sharepoint Portal.
Depuis avril 2006, la socit Proclarity, spcialise dans les outils de restitution sur plateformes MS OLAP, a t rachete par Microsoft. Nous montrons
lapport de cette socit dans la chane dcisionnelle de Microsoft.

11.1 LANALYSE AD HOC GRCE AUX TABLEAUX


CROISS DYNAMIQUES
Lutilisation des tableaux croiss dynamiques ncessite que le composant PivotTable
soit install sur le poste client. Ce composant est tlchargeable sur le Web. Vous
pouvez galement le tlcharger sur le site de lauteur www.buroformatic.com.
Linstallation de ce composant ncessite la prsence dExcel sur le poste client.
Voici les tapes ncessaires la cration dun tableau crois dynamique. Il est
noter que les paramtres de connexion sont dfinir lors de la cration du tableau.
Les accs ultrieurs permettront un rafraichissement automatique des donnes.
Choisir Donnes/Rapport de tableau crois dynamique/Source de donnes
externes.
Puis Obtenir les donnes/Choisir une source/OLAP/Nouvelle source de
donnes.

11.1 Lanalyse ad hoc grce aux tableaux croiss dynamiques

333

Figure 11.1
Connexion
au serveur Analysis
Services 2005

Slectionnez la base de donnes (ou cube ou perspective) dsire. Il est ncessaire de crer une nouvelle source de donnes et de choisir un cube analyser.

Figure 11.2 Crer une nouvelle


source de donnes OLAP

Le fournisseur OLAP varie en fonction de la version du serveur Analysis Services. La version 8 correspond AS 2000, la version 9.0 MSAS 2005.

Figure 11.3
Liste de sources OLAP

334

11. Lanalyse de donnes avec Excel

La nouvelle source OLAP est maintenant cre. Il convient de choisir cette


source en entre du tableau crois.

Figure 11.4
Slectionner
lemplacement
du rapport

Le tableau crois peut tre cr dans la feuille Excel existante ou dans une nouvelle feuille. Le positionnement du tableau dans la feuille doit galement tre prcis.
Dans la figure 11.4 le tableau crois sera cr dans la feuille existante en cellule A3.
Lassistant fournit un modle de rapport Vierge que lutilisateur devra complter. Lespace de travail est compos de rgions qui ont chacune un rle spcifique.
Les champs de ligne et de colonnes reoivent les attributs ou hirarchies de dimensions. Voir figure 11.5.
Les champs de page permettent deffectuer un filtrage de la source de donnes
sur plusieurs critres.

Figure 11.5 Lassistant propose trois axes dimensionnels


et une zone rserve aux mesures

11.1 Lanalyse ad hoc grce aux tableaux croiss dynamiques

335

Lespace nomm Dposer Donnes ici reoit


les donne numriques ou mesures du cube.
Par un glisser-dposer, on introduit la catgorie de produit en tte de ligne, les annes
calendaires en tte de colonnes et les territoires
en filtre de page.
Dans la figure 11.6 la slection dun seul
pays France, aura pour consquence de filtrer la
source de donnes sur ce critre. On observe sur
la figure 11.7 le pays France sur la zone champs
de page.

Figure 11.6 Slectionner


un ou plusieurs lments
en filtre de page

Figure 11.7 Le tableau crois prsente les ventes effectues sur le territoire franais,
par catgorie de produit (lignes) et par annes calendaires (colonnes)

Figure 11.8
Options avances
de champ
dynamique

336

11. Lanalyse de donnes avec Excel

Figure 11.9 Liste des dix meilleures ventes de vlos (Road Bikes) de 2001 2004

Figure 11.10 Le tableau crois et le graphique crois


sont synchroniss dynamiquement

11.1 Lanalyse ad hoc grce aux tableaux croiss dynamiques

337

La figure ci-dessus montre une slection des 10 meilleures ventes (Total sales
amount) tries en ordre dcroissant.
Il est possible dagrmenter la prsentation du tableau en appliquant diffrents types de formats. Dans la figure 11.9 le format standard a t appliqu.
Afin de rendre plus visuel le tableau il est possible dajouter une graphique
crois dynamique.
Le graphique crois dynamique est directement li au tableau crois. Le graphique est mis jour dynamiquement en fonction des choix effectus dans le
tableau. Un drill down dans le tableau entraine la mme opration dans le graphique et rciproquement.
Excel 2007 prsente des amliorations visuelles et de nouvelles fonctionnalits.

Figure 11.11 La nouvelle interface des tableaux croiss dynamiques dExcel 2007

Excel 2007 permet galement une restitution des KPI (Indicateurs cls de
performances) inclus dans Analysis services 2005.
Crer un cube local
Pour des collaborateurs nomades qui par dfinition se dplacent et qui ne disposent pas toujours dune connexion Internet il est parfois souhaitable de leur
fournir des outils danalyse. Les administrateurs pourront ainsi extraire des cubes
et les stocker sur des portables avec toutes les donnes ncessaires. Des aspects
de scurit doivent galement tre pris en compte.

338

11. Lanalyse de donnes avec Excel

Excel dispose dune fonction de cration de cube local partir dun cube
SSAS. Il sagit de la fonction OLAP hors connection du menu Tableau crois
dynamique.

Figure 11.12 OLAP hors


connexion permet de copier
le cube sur le poste client

Lassistant de cration de cube OLAP permet de stocker le cube localement.

Figure 11.13 Permet


de crer un fichier
de donnes hors connexion

Les paramtres constitutifs du tableau crois sont transfrs dans le cube local.

Figure 11.14
On choisit les dimensions
et les mesures exporter

11.1 Lanalyse ad hoc grce aux tableaux croiss dynamiques

339

Le fichier extrait porte le nom du cube source : Analysis Services Tutorial.cub.


Lors de lanalyse du cube local on accdera au fichier .cub et non au serveur
de cubes.

Figure 11.15
Connexion OLAP
un cube OLAP

Il est noter que Microsoft Query, inclus dans Excel, dispose dun assistant
permettant de crer des cubes partir dune source relationnelle.
Depuis la version 2000, Excel permettait dj de raliser des cubes. Cette
fonctionnalit reste rudimentaire et ne sapplique qu des sources de donnes
peu volumineuses. Cette fonctionnalit ne doit pas occulter la recommandation
majeure de la business intelligence : partager un mme et unique rfrentiel dans
lentreprise.
Ces recommandations tant faites, nous prsentons succinctement les tapes
qui permettent de crer un cube avec Excel.
Dans MS Query aller dans Fichier puis Cration de cube OLAP.

Figure 11.16
Lassistant
de cration
de cube OLAP
partir de MS
Query

340

11. Lanalyse de donnes avec Excel

La requte porte une extension .oqy et est stocke par dfaut dans le rpertoire
requtes dExcel : C :\Documents and Settings\Administrateur\Application Data\
Microsoft\Requtes\AdventureWorks.cub.
Le tableau crois dynamique dExcel est loutil permettant de relire un cube
stock selon ce format.

11.2 COMPLMENT MICROSOFT OFFICE EXCEL


POUR SQL SERVER ANALYSIS SERVICES
Le complment Microsoft Office Excel pour SQL Server Analysis Services est
une nouvelle offre danalyse dcisionnelle qui permet aux utilisateurs de crer
rapidement des rapports personnaliss dans Microsoft Excel. Ce complment est
disponible gratuitement sur le site de Microsoft. Il est compatible avec les versions Excel 2002 (XP) et 2003.
Interactivit de lanalyse et de la gnration des rapports
Conu pour tendre les fonctionnalits de Microsoft Office Excel, le complment Excel pour Analysis Services permet daccder aux donnes de diffrentes
sources, de les analyser, puis de crer des rapports riches et personnaliss directement dans Excel. Grce ce complment, les utilisateurs individuels peuvent
grer le cycle des rapports du dbut la fin, et liminer le copier-coller des donnes issues de diffrents systmes.
Fonctionnalits techniques cls
Le complment Excel pour Analysis Services, troitement intgr Microsoft
SQL Server et Analysis Services, tend les fonctionnalits danalyse et de gnration de rapports de Microsoft Office Excel. Il contient un ensemble complet
doutils qui simplifient la liaison avec diverses sources de donnes, la gestion des
requtes, la gnration de rapports sophistiqus dans plusieurs formats, lenregistrement des donnes dans le cube, etc. Les composants cls du complment Excel
pour Analysis Services sont :
Les fonctionnalits principales sont les suivantes :
rcupre et partage les donnes des cubes OLAP (2000/2005);
regroupe et excute les requtes;
met en forme les rsultats des requtes;
enregistre des donnes dans les cubes OLAP (write back);
gre la mise en forme des rapports;

11.2 Complment Microsoft Office Excel pour SQL Server Analysis Services

341

permet linsertion ou la suppression de ligne;


offre des possibilits de drill down/drill up;
gre les formules et prsente les rsultats dans les cellules Excel;
permet de rpondre des simulations de type what if ;
affiche les formules au format MDX.
Aprs installation du complment, un nouveau menu Analyse des cubes
apparat dans la barre Excel.

Figure 11.17 Le menu Analyse des cubes du complment Excel pour OLAP

Le menu grer les connexions permet de connecter plusieurs cubes.

Figure 11.18 Gestion des connexions

342

11. Lanalyse de donnes avec Excel

Lors de la cration dun nouveau rapport plusieurs dispositions sont fournies :

Figure 11.19 Outil de disposition des rapports

Figure 11.20 La slection du choix Ligne, colonne et filtre de page


cre un rapport compos de quatre sections

Plusieurs filtrages peuvent tre associs. Les navigations drill down et drill up
sont disponibles. la diffrence du tableau crois dynamique, le tableau peut
tre scind. Des lignes et colonnes peuvent y tre ajoutes.

11.2 Complment Microsoft Office Excel pour SQL Server Analysis Services

343

Figure 11.21 Rapport dfini avec loutil Analyse de donnes

titre dexemple, voici le code MDX gnr par lassistant :


SELECT {Hierarchize({{[Customer].[Customer Geography].[All Customers],
AddCalculatedMembers({[Customer].[Customer Geography].[All Customers].children})}})} on 0, {Hierarchize({{[Product].[Subcategory].[All Products],
AddCalculatedMembers({[Product].[Subcategory].[All Products].children})}})} on 1
from [Adventure Works]
where ([Date].[Calendar].[Calendar Year].&[2003])
CELL PROPERTIES VALUE, FORMATTED_VALUE, FONT_NAME, FONT_SIZE,
FONT_FLAGS, FORE_COLOR, BACK_COLOR, FORMAT_STRING

Les fonctionnalits de lanalyseur de cube permettent disoler ou dliminer


des membres de dimension.
Bien que de quelques fonctionnalits nouvelles lies SSAS 2005 aient t
ajoutes (groupes de mesures, dimensions hirarchiques) lheure o nous testons le complment danalyse sur les cubes UDM (AS 2005) certaines fonctions
ne sont pas encore oprationnelles. Cela est probablement li la diffrence de
structure entre les cubes AS 2000 et 2005.
Il sagit en particulier de laccs au dtail par un clic droit sur les cellules
agrges. Les actions et les fonctions de simulation ne sont pas oprationnelles.
La version Excel 2007 intgre dfinitivement lanalyse des cubes avec toutes
les fonctionnalits propres SSAS 2005.

344

11. Lanalyse de donnes avec Excel

11.3 REPORTING INTERACTIF SUR LE WEB AVEC OWC


Les managers nomades qui dsirent accder rgulirement leurs tableaux trouveront apprciable dutiliser des tableaux croiss dynamiques sur le Web. Si le
composant OWC nest pas install sur le poste client, le tlchargement du contrle
ActiveX seffectue lors du premier accs au cube.
Lutilisateur accde au cube OLAP via une interface web. Loutil dinterrogation des cubes via le Web est similaire au tableau crois dynamique intgr Excel.
En pratique, le concepteur intgre le composant OWC (tableau crois dynamique) dans une page web puis tablit les connexions vers les sources de donnes.
Dans FrontPage il est possible de crer un tableau crois dynamique (figure 11.22).

Figure 11.22
Insertion
dun composant web
avec FrontPage

Le composant ActiveX permet de disposer dune interface proche du tableau


crois.

Figure 11.23 Le composant web dans FrontPage

11.4 Conclusion

345

La liste des champs de tableau crois apparat dans la fentre de droite. Le


concepteur de la page web labore un premier tableau qui servira de modle de
base lutilisateur final.

Figure 11.24 Avec le graphe associ

Par la suite, lutilisateur dfinit lui-mme les axes danalyse, filtre et trie les
donnes selon ses propres analyses.

11.4 CONCLUSION
De nombreux outils taient dj intgrs dans Office 2000 permettant deffectuer
toutes sortes de requtes et danalyses. MS Access et MS Excel sont largement

346

11. Lanalyse de donnes avec Excel

rpandus dans les entreprises. De nombreuses pme/pmi ont mis en place des
systmes dcisionnels efficaces grce de tels outils.
Les limitations de tels outils ont t voques plus haut. Grce SQL server
2005 et Analysis services, Microsoft a su concilier la puissance et la robustesse
dun systme centralis connects des outils fortement rpandus auprs des
managers dentreprises.
Pour les utilisateurs nomades dsireux deffectuer tous types danalyse tout en
restant connect leur entreprise, Microsoft ne disposait pas de solution satisfaisante. Depuis lacquisition de la socit Proclarity ce vide est combl. Nous
verrons dans le chapitre suivant les diffrentes solutions danalyse offertes via le web.

12
Lanalyse de donnes
sur le Web

Reporting Services, totalement orient Web, offre une lecture statique des donnes de lentrept et des cubes OLAP. Excel, grce aux OWC permet une lecture
plus dynamique des mesures et axes dimensionnels. Bien quExcel soit loutil
danalyse le plus rpandu et le mieux matris par les managers, il nen reste pas
moins que certains prrequis sont ncessaires : une licence Excel est ncessaire
sur chaque poste utilisateur et le composant OWC doit galement tre install
pour une lecture sur le Web.
Si lon dsire accder des informations danalyse dans un contexte extranet,
il est indispensable de disposer doutils qui ne ncessitent aucune installation
ct poste client.
Afin de rpondre cette attente, Microsoft a acquis cette technologie en
avril 2006, auprs de la socit Proclarity. La vocation de Proclarity fut pendant
des annes de dvelopper des outils de restitution autour des outils SQL Server
2000/2005 et du portail Sharepoint.
Microsoft annonce que les outils dvelopps par Proclarity feront partie intgrante de la suite dcisionnelle aux cts de Business Scorecard Manager. On y
trouve les fonctionnalits exposes dans les sections suivantes.

348

12. Lanalyse de donnes sur le Web

12.1 PROCLARITY FOR BUSINESS


SCORECARD MANAGER
Sans installation ct client, Proclarity Business Scorecard permet dobtenir un
tableau synthtique des objectifs avec une vision de haut niveau. Derrire chaque indicateur, il est possible de dcouvrir les raisons qui mnent ce rsultat.

Figure 12.1 Le logiciel Proclarity for Business Scorecard.


Rassemble les indicateurs cls de lentreprise

Derrire chaque indicateur cl de performance, le client analytique lger permet de rpondre la question Pourquoi ? . Proclarity propose des modes de
reprsentation inhabituels et complmentaires ceux dExcel, tels que larbre de
dcomposition, la carte de performance et la vue en perspective.

12.1.1

Larbre de dcomposition

Un arbre de dcomposition fractionne une valeur pour mettre en vidence les


lments qui y contribuent et affiche leurs relations dans une arborescence hirarchique avec, ventuellement, un graphique de Pareto. Il permet galement
de rpondre des questions telles que : Quels sont les produits alimentaires
qui se vendent le mieux ? , Quel pourcentage des ventes globales du deuxime
trimestre reprsente les aliments en botes de conserve ?

12.1 Proclarity for Business Scorecard Manager

349

Les donnes sont affiches sous forme de chiffres bruts et de pourcentages. Vous
pouvez trier les nuds du plus grand au plus petit ou inversement. En outre, les
graphiques de Pareto illustrent la rpartition des valeurs afin de permettre didentifier rapidement les groupes qui apportent la plus grande contribution un total.

Figure 12.2 Larbre de dcomposition saffiche dans une page web

La figure 12.2 prsente les informations suivantes :


La quantit totale des ventes Internet reprsente 5 436 429 pour le 2e trimestre de lanne calendaire 2004.
Sur la mme priode, les accessoires reprsentent 4 % des ventes.
Les Fenders et les Bikes Racks reprsentent respectivement 7 % et 6 % des
accessoires Ces deux catgories sont matrialises par les deux barres plus
claires du graphique de Pareto.
Dans le graphique de Pareto, la ligne des 76 % croise la ligne du pourcentage du total au-dessus de la barre reprsentant les Fenders. Cela signifie
quenviron 76 % des ventes daccessoires sur Internet sont reprsentes par
les trois premires catgories (Top 3) et reprsentes graphiquement par les
barres situes gauche de la catgorie Fenders. Pour connatre le dtail de

350

12. Lanalyse de donnes sur le Web

ces accessoires, il suffit de placer le curseur sur les barres ou de cliquer sur
le nud Top 3 (3 premiers) afin dafficher son contenu.
Une diminution significative de la quantit daccessoires vendus est observe partir de la troisime barre. Cette situation pourrait ventuellement
faire lobjet dune analyse plus approfondie.

12.1.2

La carte de performance

Une carte de performances (figure 12.3) utilise des ratios de tailles et de couleurs
pour comparer les valeurs de deux mesures pour chaque lment de la vue :
la taille de case reprsente la premire mesure;
la couleur de case reprsente la seconde mesure.
En un seul coup dil, il est possible dvaluer limportance de ces mesures
appliques la requte. Par exemple, si la taille correspond aux ventes et la couleur, aux bnfices, vous pouvez :
valuez les performances en vous posant des questions telles que Quel
produit a ralis les plus fortes ventes au cours du quatrime trimestre
2002 ? (plus grande taille affiche dans langle suprieur gauche : SE200) et
Quel est le produit qui a ralis la meilleure progression ? (couleur claire
en bas gauche : CA 635).
Identifiez des opportunits damlioration en vous demandant : Pourquoi, malgr sa position en tte des ventes (case la plus grande), le produit
MI-562 a-t-il ralis une progression mdiocre (couleur la plus fonce) ?
Identifiez les exceptions en vous demandant : Pourquoi tel produit ralise-t-il des ventes infrieures aux autres produits doubles dune faible progression (petite taille et couleur noire) celles des autres produits durant la
mme priode ?

Figure 12.3
Carte
de performances

12.2 Proclarity Analytics Server (PAS)

12.1.3

351

La vue en perspective

Une vue en perspective ressemble un nuage de points, ceci prs quelle offre
des informations plus dtailles et plus nombreuses. Elle affiche les performances
de grandes quantits de donnes en fonction de deux mesures. Elle permet de
rpondre des questions telles que :
Quels sont les clients avec lesquels je fais le plus de bnfices ? (Quelle est
la part du bnfice par rapport la rentabilit ?)
Quel est le rapport entre le chiffre daffaires prvisionnel et le chiffre daffaires rel ?
Quel est le rapport entre le budget et la situation relle ?
La vue en perspective (figure 12.4) est utilise pour mettre en vidence les
relations entre de nombreuses reprsentations de donnes. Elle permet deffectuer
une analyse sectorielle, dexpliciter dimportants volumes de donnes et dtablir
des correspondances entre plusieurs mesures simultanment au sein dune hirarchie.
Lorsque vous dplacez les rgles mobiles statistiques, vous pouvez vous concentrer sur un pourcentage donn de la valeur totale. Vous pouvez, par exemple, dplacer la rgle pour afficher les quatre-vingts premiers pour cent du chiffre daffaires
et 80 % des quantits.

Figure 12.4 Vue en perspective permettant de comparer les quantits


vendues sur Internet avec le montant des ventes (chiffre daffaires)

12.2 PROCLARITY ANALYTICS SERVER (PAS)


Analytics Server permet de fournir des analyses bases sur le Web auprs dutilisateurs disposant dun simple navigateur (zero footprint).
PAS Intgre un serveur de cubes. Les tableaux sont accessibles grce des
vues stockes dans des livres. Chaque livre fait lobjet dune scurit particulire

352

12. Lanalyse de donnes sur le Web

au moyen du gestionnaire dadministration du serveur PAS. La scurisation des


cubes (accs aux dimensions, aux mesures, etc.) est effectue dans Analysis Services 2005.

Figure 12.5 Plate-forme de business intelligence de Proclarity

Analytics Server est le composant central de la plate-forme de business intelligence (figure 12.5). Les utilisateurs peuvent manipuler leurs donnes, les analyser et communiquer des tableaux au moyen dune grande varit dinterfaces.
Les administrateurs disposent dun outil leur permettant de centraliser les
droits daccs aux librairies en un endroit unique.
Le serveur analytique centralise la dfinition de rapports pr-tablis dans un
livre (briefing book).
La publication du livre sur le serveur PAS autorise son exploitation via un
navigateur Internet. La figure 12.6 montre les diffrents onglets permettant deffectuer tous types de traitements sur les rapports. Longlet navigation rassemble des
fonctions de Drill down (forage vers le bas), de Drill Up (forage vers le haut),
Longlet Data Layout permet de disposer les mesures et les dimensions sur la
surface du dessin.
Longlet View permet de choisi le type de graphe. Longlet Sort effectue des
tris sur les donnes. Longlet Filter autorise des filtres sur les sources de donnes;
Ces onglets sont dtaills dans les figures 12.11 et suivantes.
Linterface dadministration est compose de deux parties : la gauche prsente
les composants tels que les librairies et les rles, la droite fournit les dtails des
rpertoires.

12.2 Proclarity Analytics Server (PAS)

Le lecteur pourra dcouvrir par lui-mme le mode de fonctionnement


de cet outil en se connectant sur le site de lauteur www.buroformatic.com

Figure 12.6 Rapport stock sur la plate-forme analytique permettant


une navigation dans un cube OLAP sur le Web

Figure 12.7 Console dadministration du serveur analytique de Proclarity

353

354

12. Lanalyse de donnes sur le Web

Dans la figure 12.7 on observe la console de management de PAS. Celle-ci


fait apparaitre le serveur compos de librairies, de roles et dutilisateurs. Chaque
librairie et chaque livre qui la compose fait lobjet dune autorisation daccs explicite. Dans la partie de droite on observe les rapports appartenant chaque librairie.

Figure 12.8 Dtail de la console dadministration de Proclarity

Les Librairies sont cres sur le serveur analytique par les utilisateurs autoriss
laide de Proclarity Professionnal. Lors de la cration dune librairie, le dossier
Books est cr. Il rassemble les rapports partags sur le serveur.
Le rpertoire Components contient les logiciels distribuables auprs des utilisateurs sur le Web. Par exemple, le composant Web Professional peut tre autoris au tlchargement afin de permettre la cration de rapports sur le Web.
Le rpertoire des Rles contient des groupes dutilisateurs.
Le rpertoire des Users contient les comptes individuels ajouts au serveur
analytique. Par dfaut PAS (Proclarity Analytic Server) refuse les droits de
publication ou de fournir des liens vers les livres de rapports via e-mail.
Le serveur Proclarity agit comme une sorte de portail intgrant des rapports
dorigines diffrentes telles que Reporting Services. La figure 12.9 montre lintgration dun Rapport des ventes labor avec Reporting Services dans une interface Proclarity.
Les outils disponibles dans linterface web sont nombreux. La figure 12.10
montre une slection de sets (ensemble de donnes). Les boutons ADD ou Remove
permettent dajouter ou de retirer les slections.

12.2 Proclarity Analytics Server (PAS)

355

Figure 12.9 Reporting Services encapsul


dans le portail Proclarity

Figure 12.10 Le gestionnaire de hirarchie

Longlet Navigation
Sur le web il existe deux modes de navigation : standard et Professional. Le mode
standard ne ncessite aucun ajout ou tlchargement de contrle activeX. Le mode
professional nest disponible que si lapplication Proclarity Professional est installe sur le poste client.

356

12. Lanalyse de donnes sur le Web

Figure 12.11 Navigation en mode web

Dans la mme interface web, il est possible de recourir tous types de navigation (figure 12.11) tels que Drill down, Drill Up, Expand (dvelopper), Show
only (slectionner un membre seulement) ou Hide (cacher tel ou tel membre de
dimension).

Longlet View
Longlet View permet de choisir les types de graphiques, dajouter des options de
totalisation par ligne et colonnes ou de supprimer les hirarchies dimensionnelles.
Longlet Sort permet de trier toute colonne en ordre ascendant ou descendant
tout en prservant les groupes hirarchiques.
Longlet Filter permet de slectionner ou cacher des lignes selon les critres
habituels : les n meilleurs, les x valeurs les plus basses. Les valeurs au-dessus, audessous ou entre des bornes. Il est possible de fournir les valeurs en pourcentages
ou en sommes de mesures.
Lutilisateur dispose dun choix de fonctions (figure 12.13) permettant de sauvegarder ses vues personnelles afin dorganiser son propre environnement danalyse. Il peut galement imprimer sur limprimante disponible ou exporter les

12.2 Proclarity Analytics Server (PAS)

357

Figure 12.12 Longlet View

donnes dans la version dExcel installe sur le poste utilisateur. Lenvoi par email permet de faire parvenir un lien au destinataire. Ce lien excute un accs
scuris au serveur afin de fournir des donnes dynamiques et jour.
Lenvoi par mail dun rapport au format PDF est
galement possible grce la fonction imprimer. La
figure 12.13 montre les diffrentes options denvoi de
documents (Imprimante, Excel, Messagerie lectronique, serveur PAS etc.)
Les utilisateurs qui disposent dune version Proclarity Professional installe sur le poste peuvent aussi
crer et publier de nouveaux rapports scuriss.

Figure 12.13
Diffrentes options
denvoi de documents

358

12. Lanalyse de donnes sur le Web

PAS gre toutes les connexions et les droits daccs aux cubes. Dans un environnement de clusters, PAS permet un accs simultan de plusieurs milliers
dutilisateurs.
Les techniques de caching optimisent les performances.

12.3 DASHBOARD SERVER


Dashboard Server requiert une installation complmentaire. Le tableau de bord
permet de regrouper de faon trs synthtique un grand nombre dapplications
telles que Reporting Services grce des liens ou des portlets embarqus dans le
portail.

Figure 12.14 Linterface de Proclarity Dashboard


offre les fonctionnalits dun portail

Il y a fort parier que Proclarity Dashboard et Business Scorecard Manager


fusionneront en une nouvelle version.

12.4 Conclusion

359

12.4 CONCLUSION
Ce chapitre a montr linnovation apporte par le logiciel Proclarity et ses diffrentes dclinaisons. Laccs aux tableaux via le web est une demande croissante
en particulier pour les oprateurs qui offrent des solutions dhbergement dapplications (ASP : Applications Services Providers).
Selon les informations en notre possession, Microsoft projette dinclure l logiciel
Proclarity dans son futur produit PerformancePoint. Une version de PerformancePoint integrera galement BSM. Le lecteur intress par PerformancePoint pourra
consulter le site http://office.microsoft.com/fr-fr/assistance/CH101649551033.aspx.

13
Passez laction !

Tous les projets ne se ressemblent pas et tous les chefs de projets sont diffrents.
Commenons par le premier constat. La gestion dun projet dcisionnel (BI)
est diffrente de celle dun projet traditionnel car elle implique un grand nombre
de technologies diffrentes, tant sur le plan logiciel que matriel. En outre, les
projets traditionnels de dveloppement de logiciels impliquent une mthodologie de dveloppement linaire, alors que les projets de BI exigent une approche
itrative. Lapproche itrative dbute par ltude des besoins, lbauche du modle
analytique, sa mise disposition auprs des utilisateurs et les corrections qui
simposent en fonction de ladquation des rsultats obtenus par rapport ceux
attendus et des contraintes dvolution du mtier.
Les projets BI exigent galement de lquipe projet davoir une plus grande
interaction avec un large primtre fonctionnel, rassemblant des interlocuteurs
comptents en systmes dinformation ainsi que des analystes et managers.
Pour russir dans le domaine de la BI, une quipe de projet doit tre compose
de membres ayant une forte composante mtier conjugue une bonne comptence technique.
Ces contraintes exigent souvent une connaissance approfondie sur le sujet
trait (finance, marketing, achats, etc.).
Naturellement, la matrise des technologies essentielles telles que lintgration de donnes, la modlisation ou lanalyse dentreprise est indispensable.

362

13. Passez laction !

13.1 LES CARACTRISTIQUES


DU CHEF DE PROJET DCISIONNEL
Les personnes qui se cachent derrire les projets sont les pilotes fondamentaux
du succs. Elles doivent possder un large ventail de qualifications afin dtre
efficaces. Au cours de ces dernires annes, nous avons travaill sur de nombreux
projets BI, en revtant tour tour le rle danalyste, darchitecte ou de technicien des systmes dinformation.
Nous avons travaill avec des chefs de projets exceptionnels. Mais nous avons
aussi hrit de projets enliss par manque de comptence des acteurs ou par absence
de volont de la part de la direction.
Notre exprience dans le domaine des projets dcisionnels nous a amen dfinir les caractristiques essentielles du chef de projet dcisionnel.
tre bien inform
Au-del de la matrise dune mthodologie de gestion de projet, un chef de projet
BI doit tre bien inform des contraintes du mtier trait ainsi que des aspects
techniques du projet.
Les chefs de projet qui russissent se tiennent constamment informs des avances les plus rcentes en matire de BI. Un chef de projet qui veut affirmer son
leadership sur son quipe doit imposer des mthodes prouves aussi bien face aux
responsables mtier que face aux techniciens du datawarehouse.
Les bons chefs de projet en BI ont une grande connaissance des architectures
techniques ainsi que des liens existant entre les donnes oprationnelles et le modle
dimensionnel de lentrept de donnes.
Le chef de projet comptent a une conscience objective de son niveau de
connaissance. Il est capable de mesurer ses propres lacunes et de les combler par
une assistance complmentaire. Son seul but est la russite globale du projet.
tre expriment
Ils sont peu nombreux, les chefs de projets disposant dune exprience en tant
que chef de projet BI et ayant une connaissance des outils de mise en uvre.
Une connaissance thorique de la gestion de projets BI est certes ncessaire.
Cependant, pouvoir anticiper les problmes ds la phase conceptuelle est un atout
supplmentaire qui ne peut rsulter que dune exprience de terrain. Pouvoir
dceler ds le dpart certaines carences dans la mise disposition des donnes
vite un enlisement probable. Le processus itratif, dans la mesure o il ne remet
pas en cause le schma initial, permet de ragir positivement aux demandes
dadaptation lies une meilleure apprciation des besoins. Idalement, le chef

13.1 Les caractristiques du chef de projet dcisionnel

363

de projet BI aura assum par le pass plusieurs rles diffrents dans des projets
antrieurs.
En plus de lexprience pratique des projets BI, un chef de projet efficace doit
contrler ltendue du projet et de son budget. Ceci exige de sa part quil surveille
activement lavancement des tches, les livrables, le temps pass et les dpenses
occasionnes par chaque membre de lquipe projet. En contrlant activement
tous ces points, le chef de projet peut dterminer limpact dune demande de
changement et les risques de dpassement de budget.
Leadership
Tout le monde ne dispose pas des qualifications ou des qualits personnelles
ncessaires au contrle dun projet informatique. Un chef de projet doit pouvoir
tre source dinspiration et forcer le respect, vis--vis des membres de lquipe
projet mais galement vis--vis des commanditaires et des reprsentants de la
communaut dutilisateur. Cela exige du chef de projet de pouvoir grer les
attentes de ceux qui il rapporte directement aussi bien que de ceux qui lui
rapportent directement.
Le chef de projet doit construire une quipe forme dindividus qui possdent
diffrentes qualifications et si possible complmentaires. Dvelopper une quipe
aux comptences croises reprsente un rel dfi parce que les membres sont souvent issus de disciplines et de milieux diffrents. Cela exige du leader une volont
dunir des membres pour le bien commun de lquipe et le succs du projet.
Le chef de projet doit galement matriser la gestion des conflits et lart de
la ngociation. On constate cependant que beaucoup de dirigeants manquent
tout simplement de comptences dans lart de manager les hommes.
Comptences en organisation
Les meilleurs chefs de projet BI sont trs organiss et adhrent aux principes de
base de la gestion de projet. Cela exige deux de dvelopper et soumettre pour
approbation un plan formel de projet intgrant les livrables, les charges, la chronologie des tches et le budget.
Une fois que le planning a t approuv, le chef de projet surveille activement
lavancement des travaux par rapport au plan. La seule manire de communiquer
ltat davancement du projet est de tenir des runions hebdomadaires auxquelles
sont convis tous les membres de lquipe, les commanditaires du projet et le
comit de coordination de projet. En conduisant ces runions rgulirement, tous
les acteurs du projet sont informs de lavancement, des problmes ventuels et
des retards qui en dcoulent.

364

13. Passez laction !

Comptences en communication
Pour tre un chef efficace, un individu doit galement tre un grand communicateur. Un chef de projet efficace transmet ses messages de manire comprhensible afin dtre entendu par lensemble des acteurs. Cela exige des capacits de
communication crite et orale. La communication claire et concise est indispensable au soutien de la solution par la communaut des utilisateurs.
Le succs dun projet BI est intimement li la comprhension de lutilit et
lefficacit de la solution dveloppe. Si les utilisateurs ne parviennent pas
utiliser simplement la solution ou ne comprennent pas les avantages quelle leur
fournit, pourquoi devraient-ils changer leur comportement ? La communication
efficace est essentielle aux attentes des gestionnaires. De plus elle instruit les
utilisateurs et encourage les individus accepter plus facilement le changement.
Qualits personnelles
De notre point de vue, il y a quelques traits personnels qui distinguent de bons
chefs de projet de ceux qui sont exceptionnels. Tout dabord, il y a lhonntet
et le dsir de franchise dans les communications. Un excellent chef de projet sait
nuancer son attitude, qui peut tre ferme et claire afin dinsister sur un point prcis
ou remplie de tact pour ne pas dtriorer des relations ou endommager des rapports entre individus. Lhonntet stimule la confiance et le respect entre les membres de lquipe projet et les sponsors.
En second lieu, les chefs de projet BI exceptionnels sont positifs, ce qui ne
signifie pas dun optimisme bat. Un optimiste espre toujours que le meilleur arrivera en dpit des difficults, et ne parvient pas anticiper les problmes avant quil
ne soit trop tard. Dautre part, une attitude positive inclut une certaine quantit
de scepticisme et une bonne comprhension des ralits de la situation.
Troisimement, les excellents chefs de projet BI sont clairvoyants et peuvent
identifier des sujets de proccupation avant quils ne deviennent de vrais problmes. Tandis que la perception est influence par lexprience, la capacit identifier
ces difficults rduit considrablement le risque et permet au projet de continuer
davancer.
Apprendre des expriences passes
Les excellents chefs de projet possdent de nombreuses qualits acquises au fil
de leur parcours professionnel, et sont influencs par leurs expriences prcdentes. Les caractristiques communes dun tel chef de projet sont ces traits qui les
distinguent de leurs confrres. Le succs dun projet BI repose sur le chef de projet
et sa capacit composer avec les courants politiques de lorganisation tout en
cherchant lappui du commanditaire de projet et du comit de coordination.

13.2 Quel est le retour sur investissement ?

365

13.2 QUEL EST LE RETOUR SUR INVESTISSEMENT ?


Il est important de considrer que ce qui compte nest pas ce que lon sait mais
bien ce que lon fait avec ce que lon sait. De la mme manire, tout actif dentreprise na de valeur que si lon en fait quelque chose.
Dans le monde de la BI, il convient dobserver que des investissements sont
ncessaires la construction dun environnement dans lequel les donnes se
transforment en connaissance. Mais le rel bnfice provient de laction gnre
par la connaissance. Cela signifie simplement que chaque organisation ne fait
pas simplement que produire de linformation. Elle dispose de mthode pour
extraire de la valeur de la connaissance, agir en consquence et mesurer lefficacit de son action. Il sagit l non pas dun problme technique mais bien
dorganisation. Identifier une connaissance active est une chose, mais raliser
laction requise ncessite une organisation agile et fortement ractive.
Les gestionnaires valuent sans cesse les cots compars aux avantages de telle
ou telle option. La comprhension et la quantification des cots compars aux
bnfices sont ncessaires afin de rpondre une telle question.
De plus en plus souvent, les chefs de projet sont invits valuer le cot
relativement lavantage dentreprendre un projet de business intelligence. Plusieurs mesures financires peuvent tre retenues telles que le taux interne de
rendement (IRR), la valeur nette (NPV), la priode de remboursement et le
retour sur linvestissement (ROI). Chacune de ces mesures prsente des avantages. Cependant, une mesure gnralement admise est le ROI.
Les composants de cette stratgie comportent une analyse des cots, un
accroissement des revenus lis cette activit, et dautres bnfices. On peut
distinguer les points suivants :
les cots fixes lis lacquisition de linfrastructure (achats du datawarehouse et des licences de base);
les cots variables associ lactivit. (achat des licences des outils de
restitution);
les cots induits par la maintenance de lactivit;
la valeur des bnfices drivs des actions induites par la connaissance;
le modle de valeur attendu de cette activit;
la dtermination rentrer dans ses frais tout en proposant un modle de
profitabilit.
Les cots directs sont des dpenses relles quune organisation peut clairement identifier. Ils incluent le prix dachat du logiciel, des honoraires de main-

366

13. Passez laction !

tenance, des dpenses de dveloppement gnrant des cots de main doeuvre


internes et externes. Sajoute cela des cots de logiciels et de formation des
utilisateurs.
Les cots indirects sont plus difficiles identifier ou mesurer. Puisquils se
produisent habituellement aprs le dmarrage de lapplication, ils ne sont pas
souvent inclus dans le cot de mise en uvre dun projet dcisionnel. Cependant, ces cots indirects sont une composante importante du cot global. Ils
intgrent la mise niveau des postes client, des infrastructures de rseau, la mise
niveau des logiciels, le soutien des utilisateurs et leur formation aux nouvelles
applications. La comprhension du cot total est imprative pour que le projet
ne sorte pas du cadre du budget.
Le chiffrage des diffrents composants du projet tels que les cots de logiciel
et des honoraires de maintenance et le cot moyen de configuration peuvent
tre obtenus auprs de ressources externes. Les cots estimatifs de dploiement
de lapplication feront partie intgrante du calcul du ROI.
Si le modle ne permet pas clairement de rentrer dans ses frais il convient
dtre circonspect sur la ncessit dentreprendre ce chantier.
La formule communment admise pour le calcul du ROI est la suivante :
ROI = [(conomies ralises Investissement)/Investissement)] 100

Exemple
La socit Adventure Works Cycles souhaite mettre en place un projet dcisionnel afin doffrir son personnel des outils dinterrogation et de reporting. Cependant, compte tenu de lengagement financier important, le sponsor du projet et
la direction gnrale veulent connatre le ROI gnr par le projet BI. Afin dtablir des lments de comparaison, on estime la charge de travail actuelle du
reporting 120 heures/mois.
On calcule les cots de la mise en place dun nouveau dveloppement BI. Ils
sont synthtiss dans le tableau suivant.
Dpenses
Matriel

Cot
5 000

Logiciel (SQL Server Enterprise)

25 000

Main duvre (chef de projet + dveloppeur)

35 000

Total

65 000

Dure estime du projet : trois mois.

13.2 Quel est le retour sur investissement ?

367

Maintenance et support :
Cot en
(2 000 h/an)

% du temps
de travail

Fonction
Administrateur de base de donnes

5%

7 500

Administrateur systme

5%

7 500

Administrateur rseau

5%

7 500

Total

22 500

Le cot de maintenance des logiciels est de 10 % par an.


Le nombre dheures de travail par individu est de 2000 par an.
Le salaire horaire moyen est estim 75 .
Voici un calcul du ROI sur un horizon de trois ans.
Adventure Works Cycles ne dployant pas de projet BI

Main duvre (120 h/mois)

Anne 0

Anne 1

Anne 2

Anne 3

108 000

108 000

108 000

108 000

Adventure Works Cycles dployant un projet BI


Matriel

5 000

Logiciel

25 000

2 500

2 500

2 500

Main duvre

35 000

22 500

22 500

22 500

Total investissement

65 000

25 000

25 000

25 000

83 000

83 000

83 000

Rsultats
conomie

n/a

Lconomie ralise sur les trois premires annes est de 249 000 .
Total de linvestissement des quatre premires annes = 140 000 .
ROI = [(249 000 140 000)/140 000)] 100
Soit un ROI de 78 % sur 3 ans.
Ce rendement peut tre considrablement accru dans le cas ou la socit
Adventure Works Cycles commercialisant un grand nombre de marques dcide
de fournir laccs aux donnes chacun des ses fournisseurs. Crant un portail

368

13. Passez laction !

dcisionnel haute valeur ajoute pour ses fournisseurs, elle peut en attendre
un loyer mensuel bas par exemple sur le chiffre daffaires ralis.
Dans lexemple ci-dessus nous avons volontairement compar un systme
manuel un systme automatis. Nous navons pas intgr des notions telles que
lamlioration considrable de la qualit des donnes, de la rapidit de leur mise
disposition et de leur diffusion, ainsi que la disponibilit danalyses permettant
deffectuer des choix de gestion pertinents grce des observations quil tait
impossible de raliser dans un systme manuel.

13.3 FAIRE UNE OFFRE DE SOLUTION DCISIONNELLE


La mise en uvre dune solution dcisionnelle ncessitait jusqu prsent un budget consquent et une maintenance trs lourde. Toutefois, depuis que la dmocratisation de linformatique dcisionnelle sest mise en marche, la donne a
considrablement chang. Le dveloppement doffres de plus en plus packages
et compltes ainsi que la naissance doutils de reporting orients utilisateurs facilitent grandement laccs une version unique et vrifie de linformation selon
le format dsir.
En guise de synthse de cet ouvrage, nous proposons une dmarche progressive et concrte de mise en place de solutions dcisionnelles, quelle que soit la
taille de lorganisation considre.
Dans sa plus simple expression, la solution est articule autour de deux lments :
SQL Server 2005 ct serveur;
Office 2003 ct client.
Le serveur SQL Server comporte de manire intgre tous les lments ncessaires une solution dcisionnelle :
un ETL dentreprise, Integration Services, pour lextraction, la transformation et le chargement des donnes partir de nimporte quelle source;
une base de donnes relationnelle intgre un moteur multidimensionnel
OLAP;
un serveur de rapport, Reporting Services, qui permet des restitutions
dinformations sous toutes formes. (reporting de masse, reporting ad hoc).
Ct client, notre solution comporte :
Excel complt par un add-in Excel pour les besoins de simulation;
les Office Web Components pour un accs via le Web;

13.3 Faire une offre de solution dcisionnelle

369

SharePoint Portal Server, pour le partage des graphiques et tableaux croiss dynamiques sur lintranet ou le portail dentreprise;
optionnellement, MapPoint peut tre intgr au dispositif pour une reprsentation cartographique ou des fins de go-analyse ;
Proclarity, nouvel add-in de Microsoft, pour une meilleure visualisation
des donnes et un serveur de cubes sur le Web;
un serveur de Business Performance Management (Business Scorecard Management) permettant une mise en place et un suivi de tous types dindicateurs cls de performance.
Il est conseill davoir connaissance des volutions de ces deux produits dans
la stratgie Microsoft. En effet, Microsoft annonce Office PerformancePoint pour
le premier semestre 2007. Il sagit dune application de planification, de budgtisation et de prvisions. Daprs les informations en notre possession lors de la
rdaction de cet ouvrage, il semblerait que cette appellation englobe Proclarity
et Business Scorecard Management au sein de SharePoint.

Sources

DataMarts

Reporting
Analyses
dtailles

ERP

Outils familiers
(Excel,
Navigateur,)

CRM

Applications tierces

SQL
Server

LOB

Rapports
interactifs

Terminaux

Tableaux
de bord

Stockage

Analyse

Intgration
Services

Analysis
Services

Reporting

Reporting
Services

Figure 13.1 Les composants dune offre dcisionnelle globale

13.3.1

Un ETL dentreprise, Integration Services

Laccs aux donnes disperses dans diffrentes parties du systme dinformation des entreprises, selon de multiples sources ncessite la mise en place de

370

13. Passez laction !

protocoles. Simplifier cette tape est indispensable pour pouvoir ensuite manipuler les donnes, les confier aux utilisateurs et amliorer la diffusion dinformation dans lentreprise.
Un ETL extrait les donnes de sources htrognes, les transforme et les rinjecte dans une nouvelle base, le datawarehouse. Cela permet de nettoyer et transformer les donnes. Une seule source de donnes est ensuite interroge par loutil
de restitution.
Le module dETL qui porte le nom dIntegration Services (SSIS) permet une
intgration des donnes en provenance de diverses sources htrognes vers les
environnements daide la dcision (moteur OLAP, datamart, datawarehouse)
ou tout autre type dapplication. Les caractristiques majeures de SQL Integration services sont les suivantes :
service de transfert de donnes (ETL);
accs tous types de sources de donnes (SGBD tiers, mainframe, fichiers,
ODBC, XML, ERP, CRM);
transfert et conversion des donnes laide de scripts;
planification de lexcution des tches;
moteur dagrgation;
support des environnements 64 bits;
intgration avec le reste des composants;
les fonctions de SSIS sont exposes au travers dun modle objet;
migration depuis DTS 2000;
signature des packages laide des certificats;
visualisation en temps rel des donnes traites;
possibilit de crer des points de reprise;
dbogage facilit par linsertion de points darrt;
environnement de dveloppement intgr Visual Studio.

13.3.2

Un SGBD pour la gestion des gros volumes de donnes

SQL Server 2005 gre la fois des bases de donnes de taille modeste mais aussi
de trs grandes bases de donnes (plusieurs dizaines de tra-octets).
Les fonctionnalits de partitionnement des donnes, de restauration (rcupration rapide et restauration en ligne), doprations de gestion (r-indexation
en ligne, etc.), disolation des transactions, permettent de mieux rpartir la
charge et de travailler sur une base en permanence disponible.

13.3 Faire une offre de solution dcisionnelle

13.3.3

371

Une architecture qui garantit la disponibilit des donnes

SQL Server 2005 permet la mise en place de solutions de haute disponibilit,


tout en minimisant les charges dadministration et dexploitation. Par exemple,
la mise en miroir (nouvelle fonction de SQL Server 2005) permet un basculement automatique pour les applications clientes en cas de dfaillance dun serveur, sans perte de donnes et dans un temps trs rduit.

13.3.4

Compatibilit, ouverture

Intgration des donnes : des sources de donnes de tous types peuvent tre intgres dans les flux de transformation : Oracle, sources XML, services web, fichiers
plats, etc.
Mcanisme de rplication : SQL Server peut tre utilis comme rpliquat dune
base Oracle.
Chane dcisionnelle : le mcanisme UDM (Unified Dimensional Model) permet
lintgration dans la chane dcisionnelle de nimporte quelle source de donnes
(base ERP, CRM, relationnelle, multidimensionnelle).
Reporting : pour crer des rapports depuis des bases de donnes non Microsoft,
de produire des rapports avec des outils tiers dans des formats au standard du
march (PDF, XML, HTML, CSV, etc.).
SQL Server 2005 ajoute un support natif des services web et de XML dans
la base de donnes. Cela permet une gestion complte et optimise des documents XML dans la base de donnes et la possibilit douvrir les services du
moteur relationnel en utilisant des standards du march (services web).
SQL Server 2005 offre aussi une meilleure compatibilit avec les environnements Oracle, et des interfaces sont disponibles pour SAP.

13.3.5

Productivit dans le dveloppement dapplications


lies SQL Server 2005

SQL Server 2005 intgre le framework dexcution .Net et le moteur relationnel.


Cette intgration permet doptimiser des traitements (fonctions et procdures
SQL, etc.) stocks dans la base de donnes en utilisant un langage de programmation classique (C#, VB.Net, J#).
La cration de projets et solutions autour de SQL Server 2005 (cration de
projets dETL, de projets dcisionnels, de projets de reporting, etc.) seffectue
dsormais au travers dune interface unique : business intelligence Development
Studio (Visual Studio). Cette utilisation de Visual Studio permet dune part une
plus grande productivit pour les dveloppeurs (dbogage plus ais, choix du lan-

372

13. Passez laction !

gage de dveloppement le plus adapt), et une industrialisation plus pousse des


dveloppements (gestion de sources, isolation des serveurs de dveloppement et
des serveurs de production). De plus, le dveloppeur peut sappuyer sur les services de notification, de reporting, sur une infrastructure complte de service
pour se concentrer sur les aspects mtier de son application.

13.3.6

Administration renforce

Ladministration se fait via des interfaces graphiques : SQL Server 2005 introduit
la console dadministration SQL Server Management Console qui permet
ladministration centralise de lensemble des services SQL Server (moteur relationnel, moteur OLPA, moteur ETL, serveur de reporting, mobilit) travers
un unique outil.

13.3.7

Scurit

SQL Server 2005 introduit de nouvelles fonctionnalits qui renforcent la scurit des donnes et des changes avec SQL Server :
chiffrement des donnes;
chiffrement des changes sur le rseau;
gestion des certificats;
filtrage des adresses IP pouvant invoquer un service web.

13.3.8

Analysis Services

Il sagit de mettre en place une vision multidimensionnelle des donnes de


lentreprise de sorte croiser des axes et perspectives laide de nombreuses
mesures.
La composante multidimensionnelle du moteur SQL Server 2005 est Analysis Services 2005. Elle apporte des fonctions danalyse en temps rel, un framework de cration dindicateurs de performance (KPI), de modlisation libre
(plus grande flexibilit en termes de cration des cubes) et des fonctions de haute
disponibilit son moteur OLAP. SQL Server 2005 amliore galement son
moteur de data mining, permettant deffectuer des dcouvertes au sein des
datawarehouses.

13.3.9

Reporting

SQL Server 2005 comporte une plate-forme complte de reporting. De la cration de rapports au travers de Visual Studio, la mise disposition de ces rapports
lutilisateur via une intgration possible au portail ou des applications mtier.

13.3 Faire une offre de solution dcisionnelle

373

Report Builder permet aux analystes mtier de crer des rapports et tableaux
avec des fonctions de navigation interactive au sein des rapports. Report Builder
est compltement intgr Reporting Services 2005. Les outils de reporting, une
fois dploys par les informaticiens, donnent aux managers une relle indpendance pour laccs leurs donnes.
Les diffrentes faons de crer un rapport
Il existe diffrentes manires de crer un rapport :
pour les dveloppeurs : Visual Studio;
pour lutilisateur final : Report Builder;
importation de rapports depuis Microsoft Access;
via des outils partenaires;
gnration de description de rapports en RDL.
Client Report Builder
Report Builder est destin aux utilisateurs finaux pour leur faciliter la cration
de rapports. Les utilisateurs nont pas besoin de comprendre la structure technique des donnes sous-jacentes.
Les rapports sont construits sur la base de modles dvelopps partir de
Reporting Services (table, matrice, graphique) et mis disposition des utilisateurs sur le portail intgr.
Les rapports sont directement sauvegards sur le serveur de rapports. Les rapports conus par les utilisateurs peuvent tre publis et partags sur le serveur.

13.3.10 Donner un vritable cockpit de pilotage de lactivit


adapt aux diffrents niveaux de lorganisation
Les Anglo-saxons mettent en place des salles de type Management Cockpit.
Sans aller jusquaux war-room (salles de guerre) prsentes dans les grands groupes aux tats-Unis, la salle de Management Cockpit permet de ragir rapidement aux vnements et aux crises. Les murs de telles salles sont recouverts
dindicateurs visant faciliter le pilotage de lentreprise. On retrouve souvent
les indicateurs rpartis selon les quatre perspectives du Balanced Scorecard dfinis par MM Norton et Kaplan (Financier, Client, Processus et apprentissage
organisationnel).
Lensemble des techniques prsentes au cours de cet ouvrage peuvent tre
regroupes au sein dun schma global de la plate-forme dcisionnelle. La

374

13. Passez laction !

figure 13.2 montre les diffrentes couches qui composent cette plate-forme (couche physique dalimentation, couche applicative, couche de restitution).

Figure 13.2 La plate-forme dcisionnelle

13.4 COMMENT METTRE EN PLACE


UN PROJET DCISIONNEL ?
Un projet dcisionnel met en uvre des technologies diverses et des savoir-faire
dans des domaines complmentaires. Lexprience parfois douloureuse des responsables informatiques confronts aux discours marketing des diteurs de solutions de business intelligence ont forc les organisations la prudence. Avant
de sengager dfinitivement dans le choix de telle ou telle solution, les dcideurs
ont besoin de savoir si les outils rpondront aux exigences formules par les
demandeurs, mais galement le degr dimplication des diffrents acteurs de
lentreprise.
Il est maintenant acquis quune premire tape dtude de faisabilit est
ncessaire au processus de dcision. La terminologie anglo-saxonne est proof of
concept (POC).

13.4 Comment mettre en place un projet dcisionnel ?

13.4.1

375

Objectifs de la preuve de faisabilit

Les objectifs sont les suivants :


permettre dans un dlai trs court de formaliser les attentes du client et
de les matrialiser au travers dun prototype personnalis;
cerner les capacits de la solution et acqurir les connaissances de base;
une base de travail et de discussion avec les responsables techniques
(architectes, DSI) et les utilisateurs (responsables des directions fonctionnelles ou oprationnelles (finance, achat, marketing, commercial, communication, RH, etc.).

13.4.2

Faisabilit sur site

La dmarche de faisabilit sur site inclut les tapes suivantes :


Analyse des besoins.
Interviews et questionnaires.
Implmentation dun prototype se basant sur les donnes du client.
Prsentation/analyse de la valeur/transfert de comptences.

13.4.3

Livrables

Les livrables sont :


document de synthse;
prototype;
licence dure limite du produit utilis;
prvoir une dure dtude de 10 jours.
Ltude de faisabilit peut dboucher sur le dploiement de la solution complte. Voici un planning type pour le dploiement.

13.4.4

Planning pour le dploiement de la solution

Les points qui seront abords sont les suivants :


larchitecture globale;
le planning de la monte en charge;
les recommandations pour les configurations clientes;
les recommandations pour les configurations serveur;
les configurations dinstallation des produits.

376

13.4.5

13. Passez laction !

Prototype/pilote

Ce pilote sera conu en fonction du cahier des charges dfini prcdemment.


Il faudra procder :
linstallation sur un des serveurs de lorganisation cliente;
lintgration des sources de contenus;
la mise en place et la personnalisation de la solution dcisionnelle;
linstallation sur les postes client;

13.4.6

Oprations

Il faut dfinir les procdures oprationnelles principales et toutes les procdures


de contrle :
dfinition des procdures oprationnelles;
contrle des performances;
optimisation des performances.

13.5 CONCLUSION
Le lecteur aura pu sen rendre compte, MS SQL 2005 offre une rponse plus que
satisfaisante la mise en uvre de tout projet dcisionnel. Lapprentissage dun
tel outil permet de dcouvrir non seulement de nouveaux concepts lis au processus dcisionnels mais de les mettre rapidement en uvre grce une bote
outils immdiatement oprationnelle.
Lapparente facilit de dploiement dun projet dcisionnel ne doit cependant
pas occulter limprative ncessit de procder avec mthode. Tout commence
par la vision claire des objectifs atteindre. Les outils ne sont que le moyen de
mettre la stratgie au service de lentreprise.
Noublions jamais que la phase la plus importante du cycle dcisionnel est
laction !

Conclusion
Sans action lintelligence est vaine !
Une enqute rcente publie par le CIO (Le Monde Informatique) montre que le
moteur de la stratgie dcisionnelle est aliment 69 % par le pilotage de la
performance, 53 % par la rduction des cots oprationnels et 51 % par loptimisation de la productivit.
la question quels sont les facteurs cls de succs dun projet dcisionnel ,
86 % des dcideurs pensent que ladquation aux objectifs mtier est essentielle.
Viennent ensuite ladhsion des utilisateurs (78 %), limplication de la direction
gnrale (72 %), ladquation la stratgie de lentreprise (61 %) puis la rapidit
de mise en uvre (51 %). Enfin, les managers pensent que les fonctions dcisionnelles mettre en place sont prioritairement le reporting ad hoc (61 %), le
tableau de bord pour 59 %, le portail dcisionnel (54 %), et lanalyse multidimensionnelle (51 %).
Comme nous lavons vu dans cet ouvrage, des outils sont largement disponibles. De nombreux assistants logiciels tentent de banaliser les fonctions qui, il y
a peu encore, semblaient rserves des lites (statisticiens, prvisionnistes, spcialistes en intelligence artificielle ou systmes experts). La technologie daujourdhui
met porte de clic les analyses les plus complexes (data mining, simulations,
analyses prdictives). Rappelons que 80 % de la russite dun projet de business
intelligence provient de la qualit du datawarehouse. La mthodologie qui prside la conception de lentrept (cf. chapitre 2) est ce titre fondamentale.
Les logiciels sont largement compatibles avec les technologies OLAP de Microsoft. Que vous utilisiez des outils danalyse comme Excel, Powerplay de Cognos,
Business Objects, Hyperion, vous pouvez raliser rapidement et peu de frais un
systme dcisionnel. Le processus itratif dun projet dcisionnel permet de prendre en compte de plus en plus de besoins et ainsi de suivre la progression de
lactivit de toute entreprise.

378

Conclusion

Cependant, peu nombreux sont les dcideurs qui exploitent ces outils en totalit. Qui peut se vanter de connatre (et encore moins dappliquer) toutes les
fonctionnalits dExcel ? Aujourdhui les outils de BI sont extrmement aboutis
et vont mme bien au-del des besoins des dcideurs. Le vritable enjeu ne rside
pas dans le mode demploi des outils de BI, lesquels sont dots de plus en plus
dassistants (ils seront bientt banaliss comme ce fut le cas de la bureautique
dans les annes quatre-vingt-dix) mais bien davantage dans la capacit dutiliser
ces outils au service de la stratgie de lentreprise.
Appliquons ladage de Socrate, connais-toi toi-mme , notre sujet dtude.
Cest parce que lentreprise ralise un travail dintrospection sur elle-mme
quelle va pouvoir se situer dans le monde qui lentoure. Mais pour bien connatre
le monde, lentreprise doit exercer une veille permanente.
Le Corporate Performance Management (CPM), qui se dfinit comme un ensemble
de mthodes et doutils destins au contrle des performances de lentreprise, sappuie
dores et dj sur les fondements de la business intelligence. La chane de commandement dans les organisations passe du mode simulation au mode opratoire et rciproquement selon un cycle vertueux m par la stratgie globale de lentreprise.
La business intelligence nest ni un mirage, ni un miracle de la technologie.
Si elle na pas toujours t comprise, cest quelle na pas t suffisamment explique par ses promoteurs. Nous pensons quelle sintgre elle-mme dans une approche multidimensionnelle o les trois axes sont pragmatisme, rigueur et pdagogie.
Pragmatisme parce que la business intelligence simpose au-del des modes en
mettant en concordance technologie et stratgie dentreprise.
Rigueur dans le respect de rgles de lart et des mthodologies de gestion de
projets.
Pdagogie afin de rapprocher ceux qui conoivent les systmes et les mettent
en uvre de ceux qui les utilisent au quotidien.
Lauteur espre apporter sa modeste contribution au mouvement de dmocratisation de la business intelligence. Il forme et encadre en entreprise des tudiants en informatique lInstitut du management de luniversit de Savoie. Ces
jeunes, comptents, ouverts toutes les technologies, apportent des rponses
concrtes aux problmatiques rencontres dans les entreprises industrielles ou
de services.
Mais ne loublions jamais, le but principal de lducation nest pas le savoir,
mais laction. La connaissance seule ne suffit pas. La connaissance na de valeur
que si on lexploite. Sans action, lintelligence est vaine. Ce nest pas ce quon
sait qui est le plus important, mais plutt ce quon fait avec ce quon sait.
Et un dernier conseil ceux qui douteraient encore : il y a pire dans la vie
que de ne pas avoir russi, cest de ne pas avoir essay !

Bibliographie

Ouvrages sur la business intelligence


e-business Intelligence, Bernard Liautaud avec Mark Hammond, ditions Maxima,
2001.
Tableaux de bord et Balanced scorecards, Carla Mendoza, Revue Fiduciaire (Guide
de gestion), 2002.
Lessentiel du tableau de bord, Alain Fernandez, ditions dorganisation.
The Microsoft Data Warehouse Toolkit With SQL Server 2005 and the Microsoft
business intelligence Toolset, Ralph Kimball, John Wiley & Sons, 2006.
Le data warehouse, Guide de conduite de projet, Ralph Kimball, Laura Reeves,
Margy Ross, Warren Thornthwaite, ditions dOrganisation, Fev. 2005.
The Multidimensional Manager. 24 ways to impact your bottom line in 90 days,
Richard Connelly, Robin McNeill, Roland Mosimann Cognos, Juin 2001.
The Multidimensional Organization. How to deliver the 24 ways, Richard Connelly,
Roland Mosimann, Cognos, Avril 1999.
Microsoft OLAP Solutions, Erik Thomsen, George Spofford, Dick Chase, Editions Wiley, 1999.
Mesurer et dvelopper les performances, Jean-Pierre Mercier, ditions Quebecor, 2003.
Indicateurs et tableaux de bord; 100 questions pour comprendre et agir, Roger Am,
ditions AFNOR, 2004.
Le pilotage oprationnel de lentreprise, Jean-Michel Treille, ditions dOrganisation, 2004.

380

Bibliographie

Analyse financire et reporting avec Excel, Joseph Rubin, ditions dOrganisation,


2004.
Le tableau de bord facile, Daniel Boix Bernard Fminier, ditions dOrganisation, 2003.
Le Management Cockpit, Patrick M. Georges, ditions dOrganisation, 2002.
Data Mining with SQL Server 2005, ZhaoHui Tang Jamie MacLennan, John
Wiley & Sons, 2005.
Applied Microsoft Analysis Services 2005, TEO Lachev, ditions Prologika, 2005
et 2006.
Delivering business intelligence with Microsoft SQL Server 2005, Brian Larson,
Osborne Mc Graw Hill, 2006.
Diriger un projet Informatique Les secrets des consultants, Jacques Claviez, ditions JCI inc., 1993.
Scnarios pour la NET Economie, Karim Mokhnachi, Sandra Spinek ditions
dOrganisation, 2000.
Le tableau de bord prospectif, pilotage stratgique : les quatre axes du succs, Kaplan
Robert S. et Norton David P., ditions dOrganisation, 1998.
Matriser les processus de lentreprise, Michel Cattan Nathalie Idriss, Patrick Knockaert., ditions dOrganisation, 2005.
Dcouvrir Microsoft SQL SERVER 2005, Peter DeBetta, ditions Microsoft Press,
2004.
Quel sytstme dcisionnel pour les entreprises agiles ?, Philippe Nieuwbourg Editions Microsoft, mai 2004.
Le guide Decideo, Philippe Nieuwbourg, Luc Mornat, Vronique Blanc, Marcom
Generation, 2004.
Liens vers des sites Internet
Site de lauteur : http://www.buroformatic.com
Site de Ralph Kimball : http://www.kimballgroup.com/
Site de Bill Inmon : http://www.billinmon.com
Site de lInstitut du Management de lUniversit de Savoie :
http://www.imus.univ-savoie.fr/
Tmoignages de mise en uvre de SQL Server et la business intelligence :
www.microsoft.com/france/sql/sql2005/evaluez/temoignages.mspx

Bibliographie

381

Guides comparatifs des fonctionnalits de business intelligence :


http://www.guidescomparatifs.com/guide-bi-olap-decisionnel.html
Site de prsentation de Office PerformancePoint :
http://www.microsoft.com/performancepoint
Le site de rfrence Microsoft pour la business intelligence :
http://www.microsoft.com/france/sql/sql2005/default.mspx
Microsoft et Proclarity :
http://www.proclarity.com/fr/
la dcouverte de SQL server 2005 :
http://www.microsoft.com/france/sql/sql2005/solution/edito/decouverte.mspx
Les 30 fonctionnalits majeures de SQL Server 2005 :
http://www. microsoft.com/france/sql/sql2005/decouvrez/fonctionnalites.mspx
Comparaison des fonctionnalits de SQL Server 2005 :
http://www. microsoft.com/france/sql/sql2005/achetez/versions.mspx
Formation SQL Server 2005 e-learning :
http://www.microsoft.com/france/sql/sql2005/utilisez/e-learning.mspx
Le dcisionnel avec SQL Server 2005 :
http://www.microsoft.com/france/technet/produits/sql/decisionnel.mspx
Site des utilisateurs de SQL Server :
http://www.guss.fr/
Business intelligence en Open Source :
http://www.palo.net/
http://www.pentaho.com/
La Synthse 2007 de loffre Microsoft pour les entreprises :
http://www.calipia.com/lasynthese.asp
Vous pouvez tlcharger la version franaise et gratuite de SQL Server 2005
Enterprise, valable 180 jours, ladresse suivante : http://www.microsoft.com/
downloads/details.aspx?familyid=6931FA7F-C094-49A2-A0502D07993566EC&displaylang=fr
Site mondial dobservation du march OLAP :
http://olapreport.com

A
Petit historique
de la BI

Voici un bref historique des tapes essentielles qui ont jalonn la longue marche
de ce que lon appelle aujourdhui la business intelligence.
Anne

vnement

Commentaire

1962

Ken Iverson publie


le langage APL
(A Programming Langage)

Premier langage multidimensionnel.

1970

Express

Premier outil multidimensionnel visant


les applications de type marketing. La version
modernise de ce moteur OLAP est intgre
aujourdhui dans Oracle 9i Release 2 Option
OLAP.

1982

Comshare System W

Premier outil OLAP visant les applications


financires. Anctre de Essbase.

1984

Lancement de Metaphor

Premier moteur ROLAP (Relational OLAP).

1985

Lancement de Pilot
Command Center

EIS en mode client/serveur.

1990

Lancement de Cognos
Powerplay

Premier client OLAP pour station de travail


sous PC Windows. Indissociable de
Transformer (moteur de fabrication des cubes)
et Impromptu (requteur du datawarehouse).

384

Anne

vnement

A. Petit historique de la BI

Commentaire

1992

Lancement de Essbase

1993

E. Codd dicte les rgles qui


dcrivent les moteurs OLAP

la demande de la socit Arbor Software.


E. Codd avait prcdemment dict les rgles
universelles du modle relationnel.

1994

Lancement de DSS Agent


par Microstrategy

La version actuelle 7i prsente une architecture


OLAP 3 niveaux.

1995

Lancement de Holos 4.0

Outil daccs aux SGBD relationnels


et aux cubes OLAP multidimensionnels.
La technologie fut acquise par Crystal Decisions
en 1996.

1996

Oracle acquiert Express

vnement dimportance qui propulse lanalyse


multidimensionnelle au premier rang. Moteur
hybride daccs aux sources relationnelles
et multidimensionnelles.

1996

Lancement de Business
Objects 4.0

Cration dynamique de cubes fonds


sur des donnes relationnelles. La technologie
client/serveur et Web a t acquise
par le rachat de Crystal Enterprise.

1997

Microsoft lance la technologie


OLE DB for OLAP

Livrable sous forme dAPI (module interface).

1998

IBM lance Db2 pour OLAP

Cette version dEssbase stocke les donnes


selon le modle en toile.

1998

Hyperion fournit ses solutions

Lentre de Microsoft sur le march OLAP


pousse Arbor et Hyperion fusionner.

1999

Lancement de Microsoft
OLAP services

Initialement nomm DSS (Decision Support


Services). La technologie OLAP Services
a t achete auprs de la socit isralienne
Panorama Software en 1996.

2000

Microsoft renomme OLAP


Services en Analysis Services

Cette version dAnalsys Services est intgre


gratuitement dans SQL Server 2000.

2000

XML/A

Hyperion, SAS Institute et Microsoft dfinissent


les rgles daccs aux donnes OLAP via XML
for Analysis.

2001

Oracle 9i OLAP

Successeur dOracle Express.

2002

Oracle 9i Release 2 OLAP

mi-chemin entre une base relationnelle


et OLAP multidimensionnel.

Petit historique de la BI

Anne

vnement

385

Commentaire

2003

Anne de consolidation

BO achte Crystal Decisions, Hyperion achte


Brio Software, Cognos achte Adaytum
et Geac achete Comshare.

2004

Les diteurs fournissent des


add-ins pour Excel

BO, Cognos, Microsoft, Microsotrategy


et Oracle mettent disposition des add-ins
pour le tableur Excel.

2004

Hyperion livre Essbase 7X

Orient applications marketing et financires.

2005

Microsoft livre sa suite intgrale de business intelligence


dans SQL Server 2005

La suite SQL Server 2005 intgre un SGBD,


le datawarehouse, lETL, OLAPet le data mining
avec Analysis Services, le reporting avec
Reporting Services.

Si SQL Server 2005 intgre aujourdhui les techniques les plus abouties en
matire de BI, cest quil a hrit des nombreuses recherches qui se sont droules
depuis une quarantaine dannes.

B
Le march mondial
de la BI aujourdhui

Lobservatoire indpendant de lOLAP publie chaque anne ltat du march de


lOLAP et les tendances. Il est possible de consulter les rsultats de cette tude
sur le site www.olapreport.com.
Le graphe de la figure B.1 reprsente les parts de march de lOLAP ainsi que
les tendances des dix acteurs majeurs mondiaux.

Figure B.1 Le march mondial de lOLAP a progress de 15,7 % en 2005

Le march mondial de la BI aujourdhui

387

On observe la perce de Microsoft depuis la sortie de SQL Server 2000


incluant la brique Analysis Services. De nombreuses socits ont fait lacquisition
de SQL Server 2000 dans le but de dployer uniquement la partie dcisionnelle
(Analysis Services). Le taux de progression de la plate-forme Microsoft est suprieur la moyenne du march. On peut penser que la courbe de pntration du
march devrait repartir en 2006 du fait de larrive de SQL Server 2005 (8 nov.
2005) incluant une plate-forme dcisionnelle complte.
tat du march mondial de lOLAP en 2005
Tableau B.1 Les 10 leaders OLAP en 2005
Rang
sur le march

volution
sur anne
prcdente

% de parts
de march

Microsoft ecosystem

28,0 %

Hyperion Solutions
incluant Brio Tech

19,3 %

Cognos (incluant Adaytum)

14,0 %

Business Objects (incluant Crystal


Dcisions)

7,4 %

Microstrategy

7,3 %

SAP (BW)

5,9 %

Cartesis

3,8 %

Systems Union

3,4 %

Oracle

3,4 %

Applix

10

3,2 %

diteur

Le tableau ci-dessus montre la rpartition des parts du march mondial de


lOLAP avec lvolution entre 2004 et 2005.
La dynamique du march franais des solutions dcisionnelles
Aujourdhui les diteurs dERP ont lambition affirme dtendre les fonctionnalits de leurs applications transactionnelles disposant dj dun embryon de reporting vers les applications analytiques dcisionnelles (tableaux de bord, balanced
scorecard, KPI, etc.).

388

CRM
40%

Dcisionnel
Dcisionnel

30%

ERP

20%

B. Le march mondial de la BI aujourdhui

ETL
Data Mining
Reporting
Applications analytiques

670 M

ERP

ERP
452 M

Dcisionnel
CRM

10%

Logiciel global

Logiciel global

0%

-10%
Dcisionnel
ERP
CRM
Logiciel global

392 M

Scurit

2000

2001

2002

2003

32,0%
15,8%
117,7%
11,6%

27,6%
9,9%
6,8%
8%

7,2%
3,5%
-4,6%
-1,1%

8,4%
2,0%
-4,1%
0,6%

197 M

CRM

200

400

600

Figure B.2 Le dcisionnel reprsente


le march le plus dynamique
de linformatique (source : IDC)

Microsoft (Excel, Proclarity, SSRS)


BO (Crystal), Cognos, Panorama, Hyperion (Brio),
Temtec

Analyse multidimensionnelle
Microsoft, Hyperion,
Microstrategy
Oracle, IBM

SAS, SPSS, KXEN, Microsoft

Data Mining

OLAP

Informatique
Dcisionnelle

Ascential, Informatica, Sunopsis


Oracle, Microsoft, IBM, Cognos, BO
Hummingbird, SAS

Office 2007, BSM, Panorama

KPI

ETL
IBM, Oracle, Microsoft

SGBD/R
Figure B.3 Panorama des diteurs
de solutions dcisionnelles

Le march mondial de la BI aujourdhui

389

Tableau B.2 Liste des diteurs qui offrent des solutions dcisionnelles
diteur

SGBD/R

Moteur OLAP

Actuate

Ascential (IBM)

ETL
Nimble
Technology

DB2

DB2 OLAP
Server (Moteur
OLAP
dHyperion)

Business
Objects

Restitution
Actuate 7
e-Analysis
Actuate Query

DataStage

Business Data
Integrator

Enterprise
6 Crystal
Decisions

Decision
Stream

Serie 8
Impromptu
(requtage)
Powerplay
(analyse ad hoc)
Reportnet
(rapports web)

Informatica

PowerCenter
PowerExchange

Analytics
PowerAnalyser

Information
Builders

Iway

Cognos

PowerCube

Hummingbird

Desktop OLAP

Genio

BI Suite

Hyperion

Essbase

Brio
Performance
suite 8

Microstrategy

Moteur ROLAP

Microstrategy 7
(reporting
masse, ad hoc,
analyses multi
dim)

Microsoft

SQL Server
2005

OLAP
(Analysis
Services
et UDM)

Integration
Services

Excel, office
2007, Reporting
services,
Proclarity

Oracle

Oracle

Oracle 10 i R2
OLAP

Oracle BI
Warehouse
Datawarehouse
builder

Applications
analytiques
(OFA, OSA)

390

diteur

SGBD/R

B. Le march mondial de la BI aujourdhui

Moteur OLAP

SAS

ETL
ETL

Sybase

Restitution
SAS activitybased
Management

IQ (moteur
SQL optimis
pour le
dcisionnel)

Sunopsis

Sunopsis v3.2

Pourquoi Microsoft est-il entr sur le march de lOLAP ?


Microsoft observe constamment les nouveaux marchs forte capacit de croissance. Plusieurs facteurs ont guid son choix avant dentrer sur le march OLAP.
La taille : Les marchs infrieurs 1 M$ ne sont pas de nature attirer
lattention de Microsoft.
Le taux de croissance : Microsoft sintresse des marchs prsentant un
fort taux de croissance.
Les volumes : Microsoft vend des produits standard dans de trs grands
volumes, des prix bas et faciles dployer.
La synergie avec ses produits existants : renforcer la domination de Windows
et Office est un objectif connu de Microsoft. Les technologies OLAP de
SQL Server 2005 trouveront un cho avec Excel et en particulier la version 2007.
Il nexiste pas de comptiteur dominant : Hyperion, Cognos et Business Objects
se partageaient le march depuis le dbut des annes quatre-vingt-dix.
Aucun dentre eux navait la capacit freiner les ardeurs de Microsoft.
En 1996, le march de lOLAP prsentait toutes les conditions requises pour
une arrive de Microsoft sur ce march, aux cts dOracle, Informix, Seagate
et IBM.
Le positionnement de Microsoft avec SQL Server 2005 (version Enterprise)
est de couvrir lensemble des domaines de linformatique dcisionnelle (SGBD,
ETL, reporting, analyse, data mining). Selon un principe qui lui a bien russi
dans le domaine de la bureautique avec Word et Excel, Microsoft souhaite imposer un standard des bases de donnes en incluant ds maintenant une offre dcisionnelle complte.
Paralllement cette perce de la BI, les grands diteurs dERP ont la ferme
intention dtendre les fonctionnalits de leurs applications transactionnelles
disposant dj dun embryon de reporting vers les applications analytiques dcisionnelles (tableaux de bord, analyses ad hoc, balanced scorecard, KPI, etc.).

C
Les diffrentes versions
de SQL Server 2005

Express

Workgroup

Standard

Adapte aux
dveloppeurs pour
apprendre, construire
et dployer

La base de donnes
pour les petites entits
et les activits en
croissance

La plate-forme complte
pour la gestion et
lanalyse des donnes
destine aux entits
moyennes grandes

1 Proc
1 Go mmoire
4 Go base
Outil dadministration
simplifi
Scurit intgre
Support XML &
Amliorations T-SQL
Intgration .Net & CLR
Serveur de rapports
Import/Export
Client Rplication

Enterprise
La plate-forme intgre
pour la gestion et
lanalyse de donnes
des applications critiques
de lentreprise

2 Proc
3 Go mmoire

4 Proc
versions 32 & 64-bit

Pas de limitation +
Partitionnement

Outil dadministration
Management Studio

Miroir de BD limit
Cluster 2 noeuds

Miroir BD complet &


Cluster 8 nuds

Integration Services
(ETL)

Oprations en ligne
et redmarrage
rapide

Analysis Services
(Serveur OLAP)

Clichs BD

SQL Agent
Assistant
doptimisation
Recherche en
texte intgral
Serveur de
Rplication limit
Transfert journaux
(Log shipping)

Rplication complte

Outils avancs
(ETL, OLAP et Data
Mining)

Notification Services

Serveurs de
rapports multiples

Data Mining

Gratuit

Figure C.1 Comparaison des versions de SQL Server 2005

La version Express Manager


Cette version remplace MSDE. Il sagit dune version allge de la version
Workgroup. Cette version gratuite dispose maintenant dun outil dadministration (Express Manager) :
Pas de haute disponibilit.

392

C. Les diffrentes versions de SQL Server 2005

Pas de dcisionnel (ni KPI, ni Olap UDM).


Pas dETL (Integration Services).
Pas de recherche en texte ni dagent SQL.
Pas de Notification Services.
Pas de rplication Oracle.
Rplication SQL Server limite.
Reporting trs limit.
Version SQL server Workgroup
Cette version est destine aux applications dpartementales. Elle dispose de
recherche en texte intgral et de lagent SQL. Loutil dadministration est Management Studio dot dun assistant de paramtrage de la base de donnes.
Limitations :
reporting limit.
limit 2 processeurs.
limit 3 Go de mmoire.
Exclusions :
pas de haute disponibilit.
pas de dcisionnel ni KPI, ni UDM.
pas de rplication Oracle.
pas de 64 bits.
dition standard
Cette dition dispose des fonctionnalits de data mining :
Rplication SQL Server.
Dcisionnel (KPI et UDM). Sauf Perspectives et mesures semi-additives.
Outil dadministration complet (Management studio).
Limitations :
la haute disponibilit est limite deux nuds pour les clusters.
ETL simplifi (import/export, et transformations de base).
limit 4 processeurs.

Les diffrentes versions de SQL Server 2005

Exclusions :
pas de rplication Oracle.
pas de partitionnement des tables.
pas de cache pro-actif.
pas doprations on-line.
pas de partitionnement des cubes OLAP.
dition Enterprise
Haute disponibilit illimite.
ETL complet.
Data mining (dix algorithmes).
Rplication Oracle.
Replication SQL Server.
Dcisionnel illimit.
Trs haute performance (93 000 utilisateurs SAP concurrents).

393

D
Les profils dapprentissage
des diffrents acteurs
de la BI

Le parcours dapprentissage peut tre suivi selon un axe mtier IT (Information


Technology) ou selon un axe outils. Dans le parcours prsent ci-dessous, nous
parcourrons les comptences acqurir par module outil puis dans chaque outil
nous prsenterons les profils IT. Ces profils se dcomposent en quatre catgories :
utilisateur professionnel;
administrateur;
dveloppeur;
architecte.
Parcours dapprentissage pour SQL Server Integration Services (SSIS)

Parcours dauto-formation pour le profil Utilisateur professionnel SSIS


Un travailleur du savoir remplit le rle traditionnel dexpert dans le domaine de
laide la dcision : cest un acteur qui comprend les donnes mtier et est capable de traduire ces donnes en informations utiles pour lentreprise. Souvent, le
travailleur du savoir est celui qui analyse lactivit de lentreprise pour identifier
les problmes, les opportunits et les caractristiques du projet.
Dans cette catgorie, on trouve des fonctions telles que :
analyste dentreprise;

396

D. Les profils dapprentissage des diffrents acteurs de la BI

formateur technique;
charg de lassistance technique et des oprations;
administrateur rseau.
Tableau D.1 Parcours de formation pour le profil Utilisateur professionnel SSIS
Thmes abords
pour lutilisateur
professionnel SSIS

Parcours dapprentissage

Amliorations version 2005

Stocke, traite et scurise les donnes

Prsentation des packages

Packages Integration Services


lments de flux de contrle
Composants des flux de donnes
Objets et concepts dIntegration Services

Cration de packages

Cration de solutions de projets IS


Cration de packages dans le concepteur SSIS
Cration de packages laide de lassistant
Import et Export

Ajout de fonctionnalits
aux packages SSIS

Journalisation dans les packages


Utilisation des expressions de proprits
des packages
Utilisation des variables dans les packages
Cration de configuration de base
Points darrt dans les packages
Incorporation des transactions dans les packages

Dpannage des packages

Dbogage du flux de contrle


Dbogage dun flux de donnes

Dploiement des packages

Dploiement des packages SSIS

Parcours dauto-formation pour le profil Administrateur dIntegration


Services
Un administrateur gre et optimise les solutions et les projets au niveau oprationnel. Il peut se voir attribuer diffrentes fonctions telles que :
administrateur de base de donnes;
administrateur de serveur de rapports (informatique dentreprise);
expert en scurit;
administrateur dentrepts de donnes.

Les profils dapprentissage des diffrents acteurs de la BI

397

Tableau D.2 Parcours de formation pour le profil Administrateur de SSIS


Thmes abords
pour ladministrateur
professionnel SSIS

Parcours dapprentissage

SSIS

Amliorations apportes SSIS


Notion de packages SSIS

Migration
des versions antrieures
des packages DTS

Compatibilit descendante de SSIS


Migration des packages DTS
Utilisation de lassistant Migration de package

Enregistrement
et excution de packages

Enregistrement des packages


Sauvegarde et restauration des packages
Excution des packages
Planification de lexcution dun package dans lAgent
SQL Server
Utilisation des points darrt dans les packages

Contrle de lexcution
des packages

Service Integration Services


Analyse des performances et de lactivit de SSIS

Dploiement des packages

Cration de configuration de package


Cration dun utilitaire de dploiement
Installation des packages
Redploiement des packages

Parcours dauto-formation pour le profil Dveloppeur Integration Services


Un dveloppeur conoit et implmente des solutions suivant la technologie prconise par larchitecte SSIS, lassistance oprationnelle de ladministrateur SSIS
et les commentaires de lutilisateur final de SSIS. Le dveloppeur SSIS peut revtir les fonctions suivantes :
dveloppeur dapplications;
dveloppeur de rapports;
dveloppeur ETL;
programmeur datawarehouse;
programmeur de base de donnes;
modlisateur de donnes.
Tableau D.3 Parcours de formation pour le profil Dveloppeur de SSIS
Thmes abords pour
le dveloppeur SSIS

Parcours dapprentissage

SSIS

Amliorations apportes SSIS

Programmation SSIS

Integration Services Programming


Extension des packages grce aux tches de script

398

D. Les profils dapprentissage des diffrents acteurs de la BI

Thmes abords pour


le dveloppeur SSIS

Parcours dapprentissage

Programmation des flux


de contrle

Construction de packages par programmation


Survol du dveloppement de tches personnalises

Programmation de flux
de donnes

Programmer les flux de donnes


Composants personnaliss
Proprits des flux de donnes

Extension des packages


avec des fonctionnalits
avances

Cration et utilisation des variables de packages


Programmation de la gestion des vnements dans SSIS
Programmation du loging

Documentation
de rfrence sur le langage
SQL Server

Guide de rfrence de Transact-SQL


Information de rfrence des expressions SSIS
Rfrence du langage MDX (accs OLAP)
Guide de rfrence du langage DMX (data mining)
XMLA (XML pour Analysis)

Exemples de
programmation

Transformation dagrgation et colonne drive


Package dexcution de processus
Utiliser le modle SMO pour numrer les tables
utilisateur
Exemple de source ADO
Composant de transformation
Composant de suppression de doublons

Parcours dauto-formation pour le profil Architecte Integration Services


Larchitecte choisit les technologies utiliser pour limplmentation dune solution Integration Services. Il privilgie linteraction et linteroprabilit entre les
projets de lentreprise. Larchitecte assure une vision densemble et une cohrence des projets au sein dune solution Integration Services. On retrouve des
fonctions telles que :
architecte de datawarehouse;
architecte des donnes dentreprise.
Tableau D.4 Parcours de formation pour le profil Architecte de SSIS
Thmes abords
pour lArchitecte SSIS

Parcours dapprentissage

SSIS

Amliorations apportes SSIS

Composants SQL Server


2005

Moteur de base de donnes SQL Server


SQL Server Analysis Services (SSAS)
SQL Server Reporting Services (SSRS)
SQL Server Notification Services
Service Broker

Les profils dapprentissage des diffrents acteurs de la BI

Thmes abords
pour lArchitecte SSIS

399

Parcours dapprentissage

Utilisation dIntgration
services dans les solutions
dentreprise

Dveloppement de solutions de business intelligence


Conception et cration de packages Integration
Services
Programmation de SSIS

Configuration systme
requise

ditions et composants de SQL Server 2005


SSIS et les ordinateurs 64 bits
Connaissance de la configuration matrielle
et logicielle requise pour linstallation
de SQL server 2005
Paramtre de loutil danalyse de configuration
systme

Compatibilit descendante

Compatibilit descendante de SSIS avec DTS 2000


Utilisation de plusieurs versions de SQL Server
(2000/2005)
Migration des packages DTS

Considration sur
les implications dun
dploiement international

Manipulation de donnes multilingues


Paramtres rgionaux Windows
Incidence sur lexploration de texte
et correspondance floue (fuzzy lookup)
dans un contexte multilingue

Parcours dapprentissage pour SQL Server Analysis Services (SSAS)

Parcours dauto-formation pour le profil Utilisateur professionnel SSAS


Tableau D.5 Parcours de formation pour le profil Utilisateur Professionnel SSAS
Thmes abords
pour lutilisateur
professionnel SSAS

Parcours dapprentissage

Concepts

Dveloppement de solutions et projets Analysis


Services
Modle dimensionnel unifi (UDM)
Concepts dexploration de donnes (data mining)

Gestion Analysis Services

Utilisation de OLAP
Utilisation de lexploration de donnes
Traitement des objets Analysis Services (dimensions,
mesures, cubes, etc.)

Langages

Rfrence au langage MDX (accs aux cubes OLAP)


Rfrence au langage DMX (data mining)

400

D. Les profils dapprentissage des diffrents acteurs de la BI

Thmes abords
pour lutilisateur
professionnel SSAS

Parcours dapprentissage

Outils

Prsentation de BIDS (business intelligence


Development Studio)
Prsentation de SQL Server Management studio

Dpannage des packages

Dbogage du flux de contrle


Dbogage dun flux de donnes

Dploiement des packages

Dploiement packages SSIS

Parcours dauto-formation pour le profil Administrateur SSAS


Tableau D.6 Parcours de formation pour le profil Administrateur Professionnel SSAS
Thmes abords pour
lAdministrateur SSAS

Parcours dapprentissage

Concepts

Les rles SSAS (scurit daccs aux donnes)

Administration

Mise niveau ou migration dAnalysis Services


Traitement des objets Analysis Services via linterface IHM
Traitement des objets Analysis Services laide
de Integration Services
Analyse des performances de SSAS
Sauvegarde et restauration dune base de donnes
Analysis Services
Scurisation dAnalysis Services

Dploiement

Utilisation de lassistant de dploiement SSAS

Langages

MDX
DMX

Outils

Prsentation de BIDS
Prsentation de SQL Server Management Studio

Parcours dauto-formation pour le profil Dveloppeur SSAS


Tableau D.7 Parcours de formation pour le profil Dveloppeur SSAS
Thmes abords pour
le Dveloppeur SSAS
Concepts

Parcours dapprentissage
Architecture dAnalysis Services
Concept de SSAS
Assemblys SSAS afin dtendre les fonctions
dentreprise de MDX et DMX

Les profils dapprentissage des diffrents acteurs de la BI

Thmes abords pour


le Dveloppeur SSAS

401

Parcours dapprentissage

Langages

MDX
DMX

Programmation de laccs
aux donnes

Schema Rowsets
XML for Analysis (XMLA) accs toutes les sources
multidimensionnelles standard.
ADOMD.NET (accs SSAS ou toutes bases
multidimensionnelles via TCP/IP ou HTTP)

Programmation
de ladministration

Langage de script pour SSAS (ASSL)


DSO pour grer les objets Analysis services (serveurs,
sources de donnes, cubes, modles de mining)

Parcours dauto-formation pour le profil Architecte SSAS


Tableau D.8 Parcours de formation pour le profil Architecte SSAS
Thmes abords
pour lArchitecte SSAS

Parcours dapprentissage

Concepts

Modle dimensionnel unifi


Concept dexploration de donnes

Planification

Fonctionnalits prises en charge par les ditions SQL


Server 2005
Compatibilit descendante de SSAS
Mise niveau ou migration dAnalysis Sevices
Considrations sur la localisation des applications
SSAS

Autres composants

SSIS
SSRS
Moteur de base de donnes SQL Server

Parcours dapprentissage pour SQL Server Reporting Services (SSRS)

Parcours dauto-formation pour le profil utilisateur professionnel


de Reporting Services
Les utilisateurs de SSRS crent des rapports pour leurs propres besoins et, ventuellement, pour dautres personnes au sein de lorganisation. Un utilisateur professionnel orient reporting connat les types de donnes grs par lorganisation
et cherche exploiter ces donnes pour raliser dautres tches mtier.
Souvent, lutilisateur excute des rapports pour analyser des donnes et identifier les opportunits mtier. Il peut galement collecter et distribuer des infor-

402

D. Les profils dapprentissage des diffrents acteurs de la BI

mations sur les processus et les ressources de lorganisation. Les tches associes
au rle dutilisateur de reporting se retrouvent dans les fonctions suivantes :
directeur commercial;
assistant de direction;
chef de projet.
Tableau D.9 Parcours de formation pour le profil Utilisateur professionnel de SSRS
Thmes abords
pour lutilisateur SSRS

Parcours dapprentissage

Concepts de SSRS

Prsentation de Reporting services


Rapports et dfinitions de rapport

Recherche et affichage
des rapports

Dmarrage du gestionnaire de rapports


Recherche de rapports sur le serveur de rapports
Affichage de rapports
Utilisation du dossier Mes Rapports

Exportation et Impression
des rapports

Exportation des rapports


Enregistrement des rapports
Impression dun rapport

Cration des rapports

Cration dun rapport avec lassistant


Lancer le gnrateur de rapports
Importation dtats partir dAccess
Aperu des rapports
Publication de rapports

Abonnements aux
rapports

Vue densemble des abonnements


Sabonner un rapport
Planification dun abonnement

Parcours dapprentissage pour le profil Analyste de Reporting Services


Les analystes dentreprise crent des rapports et des modles de donnes pour
leurs propres besoins ou pour dautres personnes au sein de lorganisation. Un
analyste cre des rapports pour identifier les tendances, les opportunits, les problmes dun projet mtier.
Les fonctions habituelles que lon retrouve sont les suivantes :
modlisateur de donnes;
analyste de gestion;

Les profils dapprentissage des diffrents acteurs de la BI

403

analyste financier;
contrleur de gestion;
analyste commercial.
Tableau D.10 Parcours de formation pour le profil Analyste de SSRS
Thmes abords
pour lAnalyste SSRS

Parcours dapprentissage

Concepts de SSRS

Prsentation de Reporting Services


Rapports et dfinitions de rapport
Modles de rapport
Mthodes de cration de rapport
Utilisation des donnes dans SSRS
Rgion de donnes
Mise en page et rendu des rapports

Dfinition des donnes


du rapport

Connexion une source de donnes


Rcupration des donnes relationnelles partir
dune base SQL Server
Utilisation de paramtres dans un rapport
Filtrage de donnes
Expressions dans Reporting Services

Conception et publication
des rapports

Conception de la mise en page de rapport


Fonctionnalits interactives
Aperu des rapports
Dploiement de rapports dans un environnement
de production

Conception de modles
de rapport

Utilisation du gnrateur de modles


Cration dun projet de modle de rapport

Parcours dapprentissage pour le profil Administrateur de SSRS


Un administrateur du serveur de rapports installe, configure, scurise et gre le
dploiement dun serveur de rapports. Un administrateur de SSRS doit avoir
une vision claire de la topologie du rseau et la configuration des ordinateurs
utiliss pour lhbergement des composants SQL Server 2005 Reporting Services
et pour laccs ces derniers.
Les fonctions dadministration de SSRS sont les suivantes :
administrateur de base de donnes;
administrateur du serveur de rapports (service informatique);
expert en scurit;
administrateur principal de base de donnes.

404

D. Les profils dapprentissage des diffrents acteurs de la BI

Tableau D.11 Parcours de formation pour le profil Administrateur de SSRS


Thmes abords pour
lAdministrateur SSRS

Parcours dapprentissage

Concepts de SSRS

Serveur de rapports
Dfinition de rapports
Rapports lis
Captures instantanes de rapport
Espace de nom de dossier du serveur de rapports
Comptes dans un dploiement de SSRS

Configuration

Liste de vrification pour le dploiement du serveur


Liste de vrification pour l dploiement de rapports
Configuration des composants de SSRS
Dploiement sur Internet

Scurit

Configuration de la scurit du serveur de rapports


Utilisation de la scurit base sur les rles

Administration du serveur

Modification des mots de passe et des comptes


de services
Administration dune base de donnes du serveur
de rapports
Gestion et utilisation des rapports publis

E
Glossaire de la BI

action
Lance une action prdfinie sur un cube ou une partie dun cube. Une action
permet par exemple de lancer un rapport ou deffectuer un drill through en cliquant sur une cellule du cube.

analyse de scnarios
Technique adopte pour concevoir des scnarios caractre commercial en mettant jour des donnes, puis en analysant les effets des modifications apportes
aux donnes. Les analyses de scnarios font partie intgrante dExcel et de SQL
Server OLAP grce la technique dcriture diffre.

Analysis Server
Composant serveur dAnalysis Services spcialement conu pour crer et entretenir des structures de donnes multidimensionnelles et produire des donnes
multidimensionnelles en rponse aux requtes des clients. Voir aussi donnes
multidimensionnelles, OLAP.

attribut
Un fait dcrivant chaque position dune dimension.

agrgation
Action de calculer les valeurs associes aux positions parentes des dimensions
hirarchiques. Cette agrgation peut tre une somme, une moyenne ou toute
autre opration plus complexe.

406

E. Glossaire de la BI

axe
Ensemble de tuples o chaque tuple est un ensemble de membres issus de diffrentes dimensions. Un ensemble daxes dfinit les coordonnes dun jeu de donnes multidimensionnelles. Plus simplement, correspond une dimension du
cube. Voir aussi tranche, tuple.

Balanced Scorecard
Mthode consistant dcliner les objectifs dune entreprise en indicateurs de
performance cls.

base de donnes multidimensionnelle OLAP


Modle de base de donnes traitant les donnes non comme des tables et des
colonnes relationnelles, mais en tant que cubes dinformation dont les cellules
comportent des donnes de synthse et de dimension. Chaque cellule est fonction dun ensemble de coordonnes qui prcisent sa position dans les dimensions
de la structure. Par exemple, la cellule situe aux coordonnes {SALES, 1997,
WASHINGTON, SOFTWARE} dvoile la synthse des ventes de logiciels ralises dans ltat de Washington en 1997.

base de donnes relationnelle


Ensemble dinformations organises sous forme de lignes et de colonnes dans des
tables. Chaque table dtermine une classe dobjets pour lorganisation concerne. Les requtes peuvent exploiter les donnes dune table pour rechercher des
donnes associes dans dautres tables. Les liens entre les tables (qui donnent la
possibilit de traiter simultanment les donnes de plusieurs tables) sont tablis
laide de jointures entre les champs cls.

BI (business intelligence)
Concept dsignant les moyens permettant de rassembler, intgrer, analyser et
partager des donnes de lentreprise afin doptimiser la prise de dcision. Par
extension, BI dsigne les solutions logicielles combinant des fins dcisionnelles
des fonctions dinterrogation de bases de donnes, de reporting, danalyse multidimensionnelle (ou OLAP), de data mining et de visualisation des donnes.

catgorie
Semploie pour dcrire ou classifier les donnes dtailles dune socit, par
exemple la date dune transaction, un produit donn, un client donn ou une
rgion commerciale. Les catgories peuvent tre regroupes en catgories plus
larges, par exemple les dates sont regroupes en mois et les mois en annes.

cellule
Une donne dfinie par une position de chaque dimension (comme dans le cas
dun document Excel).

Glossaire de la BI

407

champ
Zone dune fentre ou dun enregistrement stockant une valeur de donnes
unique. Certaines bases de donnes interprtent le champ comme un synonyme
de la colonne.

checkpoint
Point de contrle permettant une reprise des traitements de chargement des donnes dans un ETL.

cl de membre
Proprit dun niveau de dimension qui spcifie les identificateurs des membres
du niveau. La valeur de cette proprit peut dsigner une colonne dans laquelle
figurent les identificateurs ou une expression correspondant aux identificateurs.

connexion
Liaison tablie entre le complment et un cube Analysis Services.

cookies
Certains sites web enregistrent sur votre disque dur des informations votre sujet
(par exemple, la date de votre dernire connexion). On appelle ces informations
cookies . Internet Explorer enregistre les cookies dans le dossier Cookies de
Windows. Vous pouvez les supprimer sans aucun danger.

CPM (Corporate Performance Management)


Outil de pilotage global des performances de lentreprise. Afin de rpondre aux
contraintes de la loi Sarbanes-Oxley, le CPM permet dobtenir une vue globale
non seulement sur les performances financires mais en outre de la conformit
des rsultats par rapport aux prvisions.

CRM (Customer Relationship Management)


Gestion de la relation client.

cross-sell
Technique de vente consistant proposer au client un produit li celui
demand, soit parce quil existe un lien technique, soit parce que ltude des
comportements des consommateurs montre lexistence dune corrlation entre
les ventes des deux produits.

cube
Ensemble de donnes organises et synthtises dans une structure multidimensionnelle dfinie par un ensemble de dimensions et de mesures. Dans le cas de
nombreuses dimensions, on parle d hypercube ). Bien quun hypercube com-

408

E. Glossaire de la BI

porte normalement plus de trois dimensions, on emploie souvent le synonyme


cube multidimensionnel pour le dsigner. Voir aussi dimension, mesure, base
de donnes multidimensionnelle, OLAP.

cube local
Cube cr et stock avec lextension .cub sur un ordinateur local. On parle galement de cube hors connexion.

cube virtuel
Cube logique fond sur un ou plusieurs cubes rguliers ou lis.

datamart
Sous-ensemble dun datawarehouse li un mtier de lentreprise (finance, marketing, RH, etc.) et conu pour rpondre aux besoins dun groupe spcifique
dutilisateurs en respectant les exigences de scurit de lentreprise. Lentreprise
peut construire des datamarts "Ventes", "Finance" ou "Ressources Humaines" en
ayant lassurance que les utilisateurs nont accs quaux donnes qui les concernent. Les datamarts simplifient galement le travail des services informatiques
en leur permettant de grer pour chaque communaut dutilisateurs des ensembles de donnes moins volumineux.

datamining
Mthode dexploitation automatique des donnes visant rvler les tendances,
rcurrences et corrlations entre les donnes. Bas sur des mthodes danalyse
statistique et/ou dintelligence artificielle, le data mining permet de dceler des
informations essentielles difficiles reprer lil nu telles que les corrlations entre des vnements, des relations de causes effets, des classifications,
des regroupements, des projections et des prvisions. On parle aussi de Web
mining.

datawarehouse
Entrept de donnes, isol des systmes oprationnels, permettant dagrger des
donnes thmatiques, intgres, non volatiles et historises, dans un but de faciliter la prise de dcision.

datastore
Base de donnes intermdiaire avant spcialisation.

dataweb
Accs une base de donnes via un serveur Internet et un navigateur web, quel
que soit sa plate-forme dhbergement, sa localisation ou le format des donnes.

Glossaire de la BI

409

dcisionnel
Processus dutilisation des connaissances issues des informations et des donnes
gnres par les processus mtier de lentreprise pour dterminer la meilleure
action entreprendre, la meilleure dcision prendre. Le reporting et lanalyse
sont des outils dcisionnels typiques. Lanalyse dcisionnelle aide la prise de dcisions stratgiques en permettant de visualiser les donnes de lentreprise laide
dindicateurs mtier.

descendant
Dans une hirarchie de dimension, membre associ au membre dun niveau suprieur de la mme dimension. Par exemple, dans une dimension de temps compose des niveaux Anne, Trimestre, Mois et Jour, Janvier est un descendant de
2005. Voir aussi enfant, parent, frre.

dimension
Attribut structurel dun cube constituant une hirarchie organise de catgories
(niveaux) qui dcrivent les donnes dune table de faits. Ces catgories dcrivent
gnralement un ensemble identique de membres sur lesquels les utilisateurs souhaitent fonder une analyse. Par exemple, une dimension gographique peut
inclure des niveaux Pays, Rgion, Dpartement et Ville. Voir aussi table de faits,
mesure, niveau.

dimension de temps
Dimension divisant le temps en niveaux, tels que Anne, Trimestre, Mois et
Jour. Dans Analysis Services, type spcial de dimension cre partir de la colonne
date/heure.

DOLAP (Desktop OLAP)


Ce terme dsigne un petit produit OLAP faisant de lanalyse multidimensionnelle en local. Il peut impliquer lutilisation dune minibase multidimensionnelle
ou de lextraction de cube.

donnes source
Lignes ou enregistrements sous-jacents dune base de donnes fournissant les
donnes dun rapport.

drill down (zoom en profondeur)


Cest la fonctionnalit danalyse des donnes qui permet, en cliquant sur une
donne ou sur une dimension, dobtenir un nouveau rapport avec un niveau
dinformation supplmentaire se rapportant la zone clique. Cette fonctionnalit permet dapprofondir un axe danalyse en descendant aux niveaux de dtail
de plus en plus fins dun systme multidimensionnel.

410

E. Glossaire de la BI

drill through (zoom en travers)


Fonctionnalit danalyse des donnes qui permet, comme le drill down, dobtenir
un niveau de dtails supplmentaire, mais ici, laccs se fera une base diffrente.
Cette base peut tre soit un cube multidimensionnel, soit une base relationnelle.

drill up (forage arrire)


Fonction de zoom arrire dun outil dcisionnel permettant, en cours danalyse,
de passer dun niveau de dtail fin un niveau de donnes plus synthtique.

DSS (Decision Support System)


Systme dinterrogation et de prsentation des donnes adapt laide la dcision.
Appel aussi SIAD (systme dinformation daide la dcision) ou encore EIS.

criture diffre
Donnes de scnarios enregistres et crites dans le cube. Ces donnes sont disponibles pour une analyse ultrieure et peuvent tre consultes et partages par
dautres personnes ayant accs au cube. Voir aussi analyse de scnarios.

EIP (Enterprise Information Portal)


Portail dentreprise donnant un point daccs unique lensemble des ressources :
donnes, applications, services

EIS (Executive Information System)


Tableaux de bord et graphiques synthtiques prsentant une vision assez large
de lactivit.

enfant
Membre du niveau infrieur suivant dans la hirarchie directement associ au
membre actuel. Par exemple, dans une dimension de temps compose des niveaux
Trimestre, Mois et Jour, Janvier est un enfant du trimestre 1 (Q1).

ERP (Enterprise Resource Planning) ou PGI (progiciel de gestion intgr)


LERP regroupe tout ou partie des applications ncessaires la gestion de lentreprise. Que ce soit des applications horizontales (comptabilit, paie, facturation, gestion des ressources humaines) ou verticales (gestion de production, gestion de stocks
par secteur dactivit). Les ERP se dotent progressivement de fonctions dcisionnelles et front office.

ETL (extract, transform, load)


Outils destins lextraction, la transformation et au chargement des donnes
dans un datawarehouse.

Glossaire de la BI

411

expression personnalise
Expression charge de renvoyer des donnes un rapport selon une ou plusieurs
conditions.

expressions multidimensionnelles (MDX)


Syntaxe servant dfinir des objets multidimensionnels et interroger et manipuler des donnes multidimensionnelles.

extraction
Action dextraire des donnes dtailles partir desquelles les donnes dune cellule du cube ont t synthtises. Voir drill through.

FASMI (Fast Analysis of Shared Multi-dimensional Information)


Analyse rapide dinformation multidimensionnel partage . Critres retenus
pour simplifier les rgles de E. Codd et faciliter lvaluation des outils OLAP.

filtre de page
Filtre dans un rapport affichant des sous-ensembles de donnes.

frre
Dans une hirarchie de dimensions, membre spcifi du mme parent. Par exemple, dans une dimension de temps dote des niveaux Anne et Mois, les membres
Janvier 2005 et Fvrier 2005 sont des frres. Voir aussi enfant, descendant, parent.

frre (membre)
Dans une structure arborescente, lment sans lments subordonns. Par exemple, dans Analysis Services, un frre est un membre de dimension qui na pas de
descendants.

hirarchie
Les positions dune dimension organises selon une srie de relations (1 n) en
cascade. Cette organisation de donnes est comparable un arbre logique o
chaque membre na pas plus dun pre mais un nombre quelconque denfants.
Exemple de hirarchie temporelle : Anne/Trimestre/Mois/Jour.

hirarchie de dimension
Une des hirarchies dune dimension. Voir aussi hirarchie.

Historiser
Stocker des donnes pour leur utilisation long terme. Une fois historises, les
donnes ne sont plus volatiles, elles entrent dans lhistoire (dune entreprise, par
exemple). Voir datawarehouse.

412

E. Glossaire de la BI

HOLAP (Hybrid OLAP)


La solution HOLAP combine les avantages des solutions MOLAP et ROLAP.

Hypercube
Voir cube.

jeu de slection
Dfinit le niveau des donnes insrer dans un rapport.

jointure imbrique
Action de fusionner le contenu de deux ou plusieurs dimensions et de produire
un ensemble de rsultats qui englobe les lignes et les colonnes de chaque dimension. Par exemple, une jointure imbrique fusionne les donnes des villes de la
dimension Magasins et les donnes des boissons de la dimension Produits.

magasin de donnes
Base de donnes spcialement structure pour les requtes et lanalyse. Un magasin de donnes contient gnralement des donnes qui illustrent lhistorique
commercial dune organisation.

MDB (Multidimensional DataBase)


Permet le stockage, le traitement et la restitution de donnes multidimensionnelles.

MDX
Voir expressions multidimensionnelles.

membre
lment dune dimension reprsentant une ou plusieurs occurrences de donnes.
Un membre peut tre unique ou non. Par exemple, 2004 et 2005 sont les membres uniques du niveau Anne dune dimension de temps tandis que Janvier
reprsente les membres non uniques du niveau Mois car la dimension de temps
peut rvler plusieurs fois le mois de janvier si elle contient des donnes sur
plusieurs annes.

membre calcul
Membre dune dimension dont la valeur est calcule laide dune expression.
Les valeurs des membres calculs peuvent provenir des valeurs dautres membres.
Par exemple, vous pouvez dfinir un membre calcul Profit en soustrayant la
valeur du membre Cots de celle du membre Ventes.

membre frre
Membre de dimension qui na pas de descendants.

Glossaire de la BI

413

mesure
Dans un cube, ensemble de valeurs, gnralement numriques, bases sur une
colonne dans la table de faits du cube. Les mesures sont des valeurs centrales qui
sont agrges et analyses. Voir aussi cube, table de faits.

mtadonnes
Les mtadonnes constituent lensemble des donnes qui dcrivent des rgles ou
processus attachs dautres donnes.

modle en toile
Arrangement de tables dans une base de donnes relationnelles. Au centre, on
trouve la table de faits; les branches de ltoile qui rayonnent partir de la table
de faits correspondent aux dimensions.

modle en flocon
Le modle en flocon reprend les principes du modle en toile; le flocon est une
toile dont les branches sont dcomposes en sous-hirarchies.

MOLAP (Multidimensional OLAP)


Stocke les donnes basiques et leurs agrgations sur un serveur spcialis OLAP.

monter dans la hirarchie/descendre dans la hirarchie


Technique permettant de parcourir les niveaux de donnes, du plus synthtis
(vers le haut) au plus dtaill (vers le bas). Par exemple, lorsquil consulte les
donnes dtailles des ventes annuelles, un utilisateur peut descendre dun niveau
dans la hirarchie pour afficher les donnes par trimestre, puis encore dun niveau
pour afficher les donnes par mois.

multidimensionnel
Structure de donnes ayant au moins trois dimensions indpendantes.

niveau
Nom dsignant un ensemble de membres dans une hirarchie de dimension o
tous les membres sont placs distance gale de la racine de la hirarchie. Par
exemple, une hirarchie de temps comprend les niveaux Anne, Mois et Jour. Voir
aussi dimension, hirarchie.

niveau hirarchique
Au sein dune hirarchie, les positions sont en gnral organises en niveaux.
Les positions dun mme niveau correspondent une classification prcise.

414

E. Glossaire de la BI

nom de membre
Proprit dun niveau de dimension qui spcifie les noms des membres du niveau.
La valeur de cette proprit peut dsigner une colonne dans laquelle figurent les
noms ou une expression correspondant aux noms.

OLAP (Online Analytical Processing)


Technologie utilisant des structures multidimensionnelles pour offrir un accs
rapide aux donnes en vue dune analyse. Les donnes source OLAP sont souvent stockes dans les magasins de donnes dune base de donnes relationnelle.
Voir aussi magasin de donnes, base de donnes relationnelle.

parent
Membre du niveau suprieur suivant dans la hirarchie directement associ au
membre actuel. La valeur parente est gnralement une consolidation des valeurs
de tous ses enfants. Par exemple, dans une dimension de temps compose des
niveaux Trimestre, Mois et Jour, le trimestre 1 (Q1) est le parent de Janvier. Voir
aussi enfant, descendant, frre.

pivoter (table pivot)


Possibilit de modifier laspect dun rapport en dplaant un champ (ou un groupe
de champs) de ligne en colonne ou inversement. On peut galement ajouter des
champs en les slectionnant dans une liste de choix.

position
Une valeur dune dimension.

proprit de membre
Information supplmentaire stocke dans un cube OLAP Analysis Services et
dcrivant un membre de dimension.

rapport au format libre


Rapport offrant une granularit au niveau des cellules et ne dpendant pas de la
structure des donnes source sous-jacentes. Les rapports au format libre peuvent
combiner des donnes de plusieurs sources OLAP. Le rapport au format libre fait
lobjet dun add-in dans Excel. Il est intgr Excel 2007. Voir aussi rapport
structur.

rapport structur
Rapport dpendant de la structure des donnes source sous-jacentes et offrant
des fonctions danalyse avances. Le rapport au format structur fait lobjet dun
add-in dans Excel. Il est intgr Excel 2007.

Glossaire de la BI

415

reporting
Outil de mesure de faits a posteriori.

repository
Rfrentiel permettant de stocker les mtadonnes cest dire les donnes qui
dcrivent les donnes.

ROLAP (Relational OLAP)


Les donnes ne sont pas stockes dans le cube mais dans une base de donnes
relationnelles selon les principes OLAP.

rollback
Permet dannuler un processus de mise jour dans une base de donnes relationnelle. La phase de Commit permet dappliquer dfinitivement les modifications
apportes dans la base.

SGBD (systme de gestion de bases de donnes)


Les bases de donnes relationnelles (SGBDR) ont tendance se banaliser.
Domaines de prdilection dOracle, IBM (DB2), SQL Server, MySql.

SIAD (systme dinformation daide la dcision)


quivalent de EIS.

supply chain
Gestion et optimisation de la chane logistique, de la fabrication dun produit
sa distribution finale.

table de faits
Table centrale dans un schma de magasin de donnes compose de mesures
numriques et de cls associant des faits des tables de dimension. Les tables de
faits renferment des donnes qui dcrivent des vnements inhrents une activit commerciale, tels que des transactions bancaires ou des ventes de produits.
Voir aussi magasin de donnes.

tableau de bord
Rapport dynamique compos dindicateurs cls dune activit, permettant davoir
une vision globale des performances; il sagit dun outil de mesure et de pilotage.

tableau crois dynamique


Action de transformer les lignes en colonnes et inversement.

total visuel
Valeur de cellule agrge et affiche pour un membre de dimension et cohrente
avec les valeurs de cellules affiches pour ses enfants. Le total visuel dune cellule

416

E. Glossaire de la BI

peut tre diffrent du total rel si certains enfants de la cellule sont masqus. Par
exemple, si la fonction dagrgation est SUM, la valeur de cellule affiche pour
Espagne est 1000, celle de Portugal est 2000 et le total visuel pour Pninsule
ibrique est 3000.

tranche
Sous-ensemble de donnes dans un cube, spcifi en limitant une ou plusieurs
dimensions en fonction des membres de la dimension. Par exemple, des faits propres une anne donne forment une tranche dun ensemble de donnes portant
sur plusieurs annes. Voir aussi axe.

tuple
Ensemble ordonn de membres appartenant diffrentes dimensions. Par exemple, (Boston, [1995]) est un tuple compos de membres de deux dimensions : Gographie et Temps. Un membre unique est un cas dgnr de tuple qui peut tre
utilis comme expression sans parenthses. Voir aussi axe.

up-sell
Technique de vente consistant proposer au client un produit gnrant une
marge plus leve que celui demand, soit typiquement un produit plus cher.
Cette technique sappuie sur lidentification des besoins et habitudes de consommation des clients, et en particulier sur du marketing one-to-one et des outils CRM.

Index

A
Accs au dtail (drillthrough) 249
Action 13, 211, 249
ActiveX 344
Add-in Excel 368
Agent SQL Server 106
Agrgations 251
paramtrer les 256
Alimentation 13
Analyse 188
ad hoc 181, 332, 390
de cube 341
de donnes avec Excel 331
de squence 264
Analysis Services 179
Approche itrative 361
Arbre de dcomposition 84, 348
ASCII 304
Assistant
dexportation 146
dimportation 146
Association 263
Attribut 186
li 237
Attrition 24

B
Balanced scorecard 34, 64, 390
Ble 2 22
Base de donnes multidimensionnelle 181
BIDS 108
BO 62
Briefing book 352
BSC 34
Business intelligence 3, 11, 33, 245
Business Objects 377
Business Performance Management 369
Business Scorecard Management 67
Business Scorecard Manager 347
intgr 62

C
Cache proactif 96, 98, 183, 190
Calcul 188, 211, 244
Capture instantane 320
Carte de performance 85, 350
Cellule feuille 241
Checkpoint 46
Classification 262
Cl
trangre 222
principale 222
CLR (Common Langage Runtime) 183

418

Clusters 270, 283


Cockpit 11
de pilotage 373
Codd Edgar 8
Cognos 377
Collecte de donnes 13
Comportement semi-additif 246
Concepteur de rapport 293
Configuration 171, 174
Conteneur
de boucle
For 118
Foreach 114
de squences 118
Conversion montaire 246
Cookies 20
CPM (Corporate Performance Management)
378
CRM 19
Cross-sell 20
Crystal 62
CSV 304
Cube 97, 211, 240
dploiement 194
local 337
multidimensionnel 179
OLAP 181
Cycle en V 30

D
Dashboard Server 358
Data mining 180, 181, 259
Datamart 94, 104
Dataset 294, 307
Datawarehouse 17, 45, 94
Date Chris 8
Dcision
stratgique 68
tactique 68
Decision tree 270, 283
Dnormalisation 105
Destination 130
Dveloppement linaire 361

Business Intelligence avec SQL Server 2005

Dimension 181, 182, 186, 193, 194, 196,


197, 211, 232
multiples hirarchies 96
variation lente (Slowly changing dimensions) 48, 96, 135
attributs 235
de data mining 187
de fait 187
de rfrence 187
hirarchie 221
intelligence 246
parent-enfant 96
plusieurs plusieurs 187
proprits 234
structure 238
temporelle 47
utilisation 242
Dimensionnel 45
DMX (Data Mining Extensions) 119
Domaine
analytique 9
transactionnel 9
Donne catgorielle 76
Drill down 48, 83, 181, 220, 301, 305, 324
Drill up 181, 220, 305
DTS 2000 112

E
chelle
nominale 76
ordinale 76
criture diffre 246
EIS (Executive Information System) 25
Enjeux du dcisionnel 7
Entrept de donnes 104
ERP 9, 46, 96
Espace danalyse 13
ETL (Extract, Transform, and Load) 46, 181
dentreprise 369
tude de faisabilit 32
Excel 377
2007 343
Explorateur de Package 110
Exploration vers le bas 301

Index

F
FASMI 56
Fichier plat 132
Filtre 219
Flux
de contrle 104, 108
de donnes 104, 109, 130
Fonction lookup 105
Fouille de donnes 62
FrontPage 344
FTP 107
Fuzzy lookup 65

G
Gestion
des rapports 308
du risque 22
Gestionnaire
dvnements 109
de rapports 293
Graphique crois dynamique 337
GRC 19
Groupe de mesures 187, 240

H
HOLAP (Hybride OLAP) 252
HTML 304
Hyperion 377

I
Indicateur
cl de performance 24, 189
de performance 64
externe 13
Infocentres 25
Informatique dcisionnelle 3
Inmon Bill 380
Integration Services (SSIS) 101
Intellicube 193
Intelligence comptable 245
Intervalle
de latence 191
de reconstruction force 191
IRR 365

419

J
Journal des audits 184
Juste temps 22

K
Kaplan Robert 34, 373
Key Users 62
Kimball Ralph 47, 94, 177, 380
KPI (Key Performance Indicator) 24, 47, 62,
80, 183, 211, 246, 390

L
Loi SOX 46
LOLF 21
Lot 104

M
Mapping 134
MapPoint 369
MDX
requte 300
script 183, 188
Membre
calcul 245
infr 136
non-feuille 241
Mesure 50, 181, 193, 197
calcule 244
semi-additive 230
Metadata 183
Microsoft Access 373
Microsoft Clustering 272
Microsoft Decision Trees 270
Microsoft Nave Bayes 272
Migration de lots DTS 163
Modle
Clusters 280
dautorisations 184
de donnes entit-relation 49
de rapports 294
Decision Tree 275
dimensionnel 49
multidimensionnel 183
Nave Bayes 278
relationnel 183

420

Modlisation 60
MOLAP (Multidimensional OLAP) 252
MS Access 345
MS Excel 345
MS Query 339

N
Nave Bayes 270, 283
Navigateur 212, 225, 239
de donnes 250
Navigation
en mode web 356
Professional 355
standard 355
Niveaux dabstraction 10
Norton David 34, 373
Notification Services 98
NPV 365

O
Office
2007 67
Excel pour SSAS 332, 340
PerformancePoint 369
Web Components 368
OLAP (On line Analytical Processing) 8, 55,
56, 57, 180, 230
OLTP (On Line Transactional Processing) 45,
46, 49, 53, 56, 181
Oprateur unaire 246
OWC (Office Web Components) 332, 344,
347

P
Package 104
automatisation de lexcution 169
dploiement 167
dynamique 171
enfant 123
parent 123
Panorama software 67
Paramtres 306
Partition 211
Partitionnement multiple 254
PAS (Proclarity Analytics Server) 351

Business Intelligence avec SQL Server 2005

PDF 304
Performances 184
Priode
de latence 191
silencieuse 191
Perspective 97, 187, 212, 249
PGI 9, 46
PivotTable 332
Plan 127
Planification 320
Planning 21
POC (proof of concept) 374
Powerplay 62, 377
Procdure stocke 183, 189
Processus 196
dapprentissage 11
de dcision 7
Proclarity 67, 84, 347, 348
for Business Scorecard 348
Professional 357
Productivit 21
Profils dapprentissage 395
Projet dcisionnel 374
Prototype 375
Pull 190
Push 190

R
Rapport
abonnement 323
clichs dhistorique 321
excution 318
historisation 321
li 318
matriciel 297
tabulaire 297
RDL 373
Recherche
exacte 105
floue 105
Rfrentiel 60
mtier 10
Rgion de donnes 294
Rgression 262
Relation
dcart ou de dviation 79

Index

de comparaison nominale 82
de corrlation 82
de distribution 81
Report Builder 64, 294, 324, 373
Reporting 15, 26, 47, 57
financier 21
interactif 344
Reporting Services 67, 289
droits 310
rles 312
tches 310
Rseau de dpendance 277
Retour sur investissement 365
ROI 365
ROLAP (Relational Olap) 252, 254
Rle 184, 187, 309
administrateur systme 314
utilisateur systme 314
Rollback 46
Roll-up 181

S
SAP NetWeaver business intelligence 99
Sarbane-Oxley 22
Scnario 68
Schma
en toile 49
en flocons 198
Scurit 309
Segmentation 263
Serveur de rapports (Report server) 293
Services de notification 99
SharePoint Portal 62, 67, 369
SMDL (Semantic Model Definition Language)
325
SMTP 323
Sniffing 184
Solution dcisionnelle 368
Solver 68
Source 129
de donnes 193, 199
Spoofing 184
SQL Server 2005
Enterprise 391, 393
Express 391
Express Manager 391

Standard 391, 392


Workgroup 391, 392
SQL Server Agent 169
SQLiMail 128
SSAS 229
SSIS 92
SSRB 324
SSRS 291
Stratgie 13

T
Table
de dimensions 50
de faits 50
Tableau
crois dynamique 64, 182, 332
de bord 11, 13, 25, 64
Tche
dexcution
de Package 123
DTS 2000 123
de processus 124
de requtes SQL 124
dinsertion en bloc 125
DDL 119
de flux de donnes 119
de script 120
de service Web 122
de systme de fichiers 122
de traitement Analysis Services 122
de transfert
dobjets SQL Server 123
de base de donnes 122
de connexions 122
de messages derreur 122
de procdures stockes 123
de travaux 126
Envoyer un message 125
FTP 126
Lecteur de donnes WMI 126
MSMQ 126
observateur dvnements WMI 126
XML 127
TIFF 304
Time Intelligence 245
Traabilit 184

421

422

Traduction 212, 238, 250


Traitement incrmentiel 257
Transformation 129
Translation 183

Business Intelligence avec SQL Server 2005

Vue
des sources de donnes (Data Source
Views, DSV) 96, 193
en perspective 86, 351

U
UDM (Unified Dimensional Model) 64, 93,
94, 96, 97, 183, 191, 343
Up-sell 20

Webpart 248
Workflow 107
Writeback 183

V
Visual Studio 373

X
XML 92, 304

050536 (I) (1,5) OSB 100 SCM API


Achev dimprimer sur les presses de
SNEL Grafics sa
Z.I. des Hauts-Sarts - Zone 3
Rue Fond des Fourches 21 B-4041 Vottem (Herstal)
Tl +32(0)4 344 65 60 - Fax +32(0)4 289 99 61
dcembre 2006 40711
Dpt lgal: janvier 2007
Imprim en Belgique

TYPE DOUVRAGE
L'ESSENTIEL

SE FORMER

RETOURS
D'EXPRIENCE

MANAGEMENT DES SYSTMES


D'INFORMATION

TUDES, DVELOPPEMENT,
INTGRATION
EXPLOITATION
ET ADMINISTRATION

BUSINESS INTELLIGENCE
AVEC SQL SERVER 2005

RSEAUX
& TLCOMS

Mise en uvre d'un projet dcisionnel


Ce livre sadresse aux directeurs informatiques, administratifs,
financiers et oprationnels, ainsi qu tout responsable informatique
ayant mettre en uvre des systmes dcisionnels. Il intressera
aussi les consultants et les architectes en systmes dinformation.
On assiste aujourd'hui une dmocratisation de l'informatique
dcisionnelle. Chaque dcideur qui le souhaite peut dsormais
disposer de puissants outils d'analyse, de reporting ou de data
mining.
Cet ouvrage donne un cadre mthodologique la mise en uvre
dun projet dcisionnel complet, en sappuyant sur les nouvelles
fonctions de Business Intelligence offertes par SQL Server 2005.
Aprs avoir pass en revue les principes fondamentaux qui prsident
la ralisation dun projet dcisionnel, il identifie les piges
viter et les facteurs cls de succs. Il montre ensuite comment
une solution de Business Intelligence peut analyser les
renseignements stratgiques de l'entreprise, quels sont les diffrents
indicateurs disponibles, et comment les interprter pour dfinir
des cibles, des prvisions ou des tendances.
Des cas concrets expliquent comment mettre en uvre la Business
Intelligence dans lentreprise avec SQL Server 2005.
De nombreuses ressources complmentaires sont disponibles sur
le site www.buroformatic.com.

6639389
ISBN 978-2-10-050536-4

www.dunod.com

BERTRAND BURQUIER
est consultant et ingnieur
en systmes dinformation,
spcialis dans la Business
Intelligence. Il dirige depuis
1985 le cabinet de conseil
BuroFormatic. Il est
galement formateur en
entreprise et enseigne la
Business Intelligence
lInstitut de management de
luniversit de Savoie.

BUSINESS INTELLIGENCE

APPLICATIONS
MTIERS

Bertrand Burquier

APPLICATIONS & MTIERS

B. BURQUIER

INFOPRO

BUSINESS
INTELLIGENCE
AVEC

SQL SERVER 2005


Mise en uvre
d'un projet dcisionnel

Bertrand Burquier