VALENTIN Pauline
2 Introduction à la B.I. avec SQL Server 2008
Sommaire
Moteur BD IS AS RS
SQL Server 2008
Ces trois services seront expliqués en détails dans des chapitres complémentaires. Ce co
aborderanéanmoins les notionsgénérales
pour appréhender au mieuxces plateformes. Pour
commencer, il est important de comprendre la définition et l’utilité d’un projet BI au sein d’une
entreprise.
« L’informatique décisionnelle (ou BI pour Business Intelligence) désigne les moyens, les o
et les méthodesqui permettentde collecter,consolider,modéliseret restituerles données,
matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de perm
aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. »
Source : wikipédia
Voici la définition que l’on retrouve généralement lorsque l’on parle d’informatique décisionnell
Une entreprise est généralement composée de plusieurs services tels que les ressources huma
les services comptabilité, marketing, commercial, technique… Tous conservent des information
propres à leurs fonctions :listes des clients,des employés,chiffres,emploisdu temps…
L’accumulation de ces données nécessite donc leur sauvegarde dans le but d’une future exploi
On constate ainsi régulièrement que chaque service possède son tableau de bord, ce qui lui pe
de mesurer les indicateurs de performance de l’entreprise (chiffre d’affaire, calculs de bénéfice
l’année…). Cependant, chaque service a bien souvent sa façon de stocker ses informations (pa
exemple dans un fichier Excel, une base de données MySQL…), et sa manière de calculer les
indicateurs, avec sa vérité et ses critères. Ainsi, si l’on veut considérer les données de l’entrepr
dans son ensemble, la tâche s’avère rude voire parfois impossible. Pourtant, cela constituerait
utilité évidente et un réel apport à la société. En effet, une mise en relation et une analyse de t
les données permettraient de réaliser des études et des prévisions sur le comportement et la
« santé » de l’entreprise.
Réunir les
données de
chaque
service
Solution
BI
Analyser mes Obtenir une
données évaluation de
agrégées mon
(indicateurs) entreprise
Figure 2: Solution BI
Le but de la BI est d’apporter une vision globale des données de l’entreprise, afin de
répondre aux problématiques de celle-ci, ou tout simplement, afin de l’évaluer. Pour y arriver, S
Server 2008 met donc à disposition trois plateformes qui illustrent ce cheminement (cf. figure 2
Avant d’évoquer les bases de celles-ci, il est essentiel de connaitre le concept du datawarehou
2 Le datawarehouse
Comme expliqué précédemment, la première étape d’un projet BI est de créer un entrepôt
central pour avoir une vision globale des données de chaque service. Cet entrepôt porte le nom
datawarehouse. On peut également parler de datamart, si seulement une catégorie de service
métiers est concernée. Par définition, un datamart peut être contenu dans un datawarehouse, o
peut être seulement issu de celui-ci.
Datamart
service
Datamart
commercial
service
technique
Datamart
RH
Datawarehouse
Figure 3: Datawarehouse et Datamart
Un datawarehouse représente en fait une base de données, celles-ci étant intégrées (elles
auront subi une sorte de nettoyage qui les normalisera), non volatiles (c'est-à-dire qu’une fois l
données rentrées dans l’entrepôt, elles y restent pour de bon), et historisées (ou datées). C’est
différence avec des sources de données transactionnelles (systèmes OLTP). Grâce à la platefor
SQL Server Integration Services, cet entrepôt central sera rempli. Mais avant, il est indispensab
définir sa structure.
Une table de dimension contient des colonnes, chaque colonne correspondant à un attrib
Une dimension organise ainsi les données contenues dans la table en fonction d’un domaine
d’intérêt. Exemples de dimension : le temps, le lieu, le type de produit… Les colonnes d’une ta
faits représentent les faits ou les mesures. Ses données sont généralement numériques, quant
et agrégeables. Exemples : un montant, une quantité de produits… Les mesures sont en fait les
critères ou indicateurs que l’on veut étudier en fonction de différents axes ou dimensions.
Une table de faits contient donc les mesures dont on a besoin, mais aussi les identifiants
font références aux tables de dimensions situées tout autour de la table de fait. On parle alors
schéma en étoile, et parfois de schéma en flocon de neige quand le schéma s’étend encore plu
peut en effet inclure des dimensions hiérarchiques, par exemple, si l’on choisit d’admettre une
dimension temps qui concernerait des années, celle-ci peut être « décomposée » en semestre,
en trimestre… Une fois les dimensions et les faits identifiés, on crée les tables directement sur
Server, en tant que simples tables. Pour les différencier, on peut spécifier dans le nom s’il s’agi
table de faits ou de dimension. Le schéma du datawarehouse est, en fait, une simple base de
données avec nos tables de fait et de dimensions.
Cette partie de conception demande une connaissance pointue des besoins et attentes de
l’entreprise concernée. Il faut tout prendre en compte et poser les bonnes questions : Arrivera
que les dirigeantsde l’entreprisechangentd’avis sur la périodicitédes rapportsde leur
activité (toutes les semaines au lieu de tous les mois par exemple) ? Au lieu d’avoir un compte
statique, basé sur des critères fixes, le but ici est d’apporter une plus grande liberté qui repose
les désirs et les besoins des dirigeants.
Après la conception du datawarehouse, vient son « remplissage » avec Integration Service
SQL Server Integration Services est donc la première plateforme à aborder. Dans cette part
seront expliquées les notions propres à I.S. : l’ETL, les packages et les tâches d’intégration.
3.1 L’ETL
Une fois la structure du datawarehouse définie, les données doivent être insérées. L’outi
va permettre le remplissage de notre base est l’ETL (Extract-Transform-Loading). Comme son n
l’indique, il commence par extraire les données provenant de différentes sources (Excel, MySQ
les transforme si besoin est, puis les charge dans le datawarehouse.
Chaque package contient toutes les tâches d’intégration et fonctionne grâce au principe
« glisser-déposerce», qui faciliteson utilisation. L’enchainement
des tâchesd’un packageest
orchestré par le flux de contrôle (Control Flow). Lorsqu’une tâche a pour objectif d’assurer la
transformation des données, elle est nommée « tâche de flux de données ». A l’intérieur de ce
tâche se trouve un flux de données(Data Flow) contenantau minimumune source,une
transformation et une destination (cf. figure 7).
On remarque également qu’un package contient un onglet « Event Handlers » (cf. figure
permet de gérer des évènements qui peuvent survenir durant les étapes d’un package. Quant
l’onglet « Package Explorer », il décrit, de façon arborescente, tous les éléments qui composen
package. On retient donc qu’un package S.S.I.S. se compose d’un flux de contrôle et, éventuell
d’un ou plusieurs flux de données. La création et la gestion des packages sont maitrisées grâce
assistants et outils fournis par S.S.I.S. Exemples : assistant configuration de packages, assistan
importation et exportation, concepteur S.S.I.S (outil graphique pour la création de packages)…
Il est possible de regrouper certaines tâches entre elles dans ce qu’on appelle un conteneur
Chaque conteneur contient donc un ensemble de tâches liées entre elles par le même objectif.
existe ainsi des conteneurs répétitifs qui permettent de créer une boucle qui exécutera leurs tâ
un certain nombre de fois.
SQL Server Analysis Services est la plateforme qui permet de créer et gérer des structures
multidimensionnelles et des modèles d’exploration de données. Pour cela, Analysis Services fo
des fonctions OLAP (On Line Analytical Processing), et des applications d’exploration de donnée
(data mining). La création des cubes OLAP et des modèles d’exploration se fait avec SQL Serve
Business Intelligence Development Studio, leur gestion avec SQL Server Management Studio. C
analyses comprennent un traitement sur des bases de données volumineuses et permettent de
comprendre les métriques et les éléments qui influent sur le fonctionnement de l’entreprise.
Les fonctions OLAP permettent, à partir des entrepôts de données, d’analyser l’activité de
l’entreprisegrâceà des statistiquesmoyennes
: mobiles,coefficientsde corrélation,valeurs
cumulées… L’élément principal de l’infrastructure OLAP est le cube (ou hypercube). C’est en fa
base de données multidimensionnelle, qui permet l’analyse de ces données. Un cube reprend l
mesures de la table de fait que l’on a pu établir lors de la conception du datawarehouse, et s’e
pour effectuer des calculs, les mesures étant des données quantitatives. L’exemple de la figure
montre un cube simple à trois dimensions : il présente le chiffre d’affaire que produit un magas
situé sur trois sites (Paris, Toulouse et Bordeaux), proposant trois catégories d’articles (vêtemen
sacs et chaussures), ce chiffre étant calculé chaque trimestre. Ainsi, à l’intersection des trois ax
trouve le montant des bénéfices correspondant à la ville, à la période de temps et au type d’ar
choisis.
Les dimensions d’un cube peuvent être affinées par une représentation hiérarchique (cf.
figure 8).
Une telle structure permet d’accéder à un niveau plus précis de données, on parle alors
« forage » : le drill down désigne le forage avant, c'est-à-dire le passage à un niveau plus détai
zoome sur la dimension), et drill
le up désigne le forage arrière (on réalise une jointure des
composants qui détaillent la dimension). Ces forages sont utiles lors de la création de cubes. O
réalise des « glisser-déposer » des dimensions choisis jusqu’à un tableau, qui ressemble d’aille
beaucoup aux tableaux croisés dynamiques que l’on trouve sur Excel. L’exemple ci-dessous (cf
9) présente le nombre de ventes réalisées par pays et types d’articles, puis par ville et modèle
d’articles (après un drill down).
Grâce au signe, on peut effectuer un forage avant dans la hiérarchie des dimensions, et
avec le signe, un forage arrière.
Les mesures que contient un cube peuvent être déjà existantes dans la table de fait (me
physiques), ou elles peuvent résulter d’un calcul (mesures calculées). On peut choisir de mettr
d’une mesure à l’intersection des axes (cf. figure 9). Les croisements entre les différents axes n
permettent alors d’accéder à plusieurs indicateurs ou mesures.
Le langage qui permet d’interroger les cubes OLAP est le langage MDX (Multidimensiona
Expressions). C’est aussi ce langage qui est utilisé par Analysis Services pour construire les cub
notion de procéduresstockéesest égalementprise en comptedans AnalysisServices,elles
permettentd’étofferles fonctionsbasiquesdu langageMDX. Il est possibled’en écriresous
différents langages (VB, C++, C#...).
Les analyses réalisées par les fonctions OLAP sont utilisées pour évaluer l’entreprise. Vie
donc la notion de KPI. Les KPI (Key Performance Indicator) sont, comme leur nom l’indique, des
indicateurs clés de performance qui montrent l’évolution de l’entreprise en matière de qualité e
objectifs à atteindre. Un KPI indique par une valeur ou une couleur (échelle prédéfinie) la tenda
d’une mesure vis-à-vis des objectifs requis.
Le data mining est un processus de fouille de données, il permet d’extraire des connaissa
à partir d'un volume de données (moins important que dans le cas d’OLAP). Une fois que le pro
en termes de données est identifié, plusieurs étapes sont nécessaires :
o On accède aux données sélectionnées ;
o On les prépare en vue de leur future utilisation ;
o On les modélise grâce à des analyses et algorithmes de fouille de données ;
o On extrait et évalue les connaissances résultant de ces analyses ;
o On déploie les connaissances en vue d’une utilisation effective.
Par cette méthodologie et à ses nombreux algorithmes, le data mining permet de concev
des schémas et modèles d’exploration de données.
Le data mining propose une série de tâches pour aider dans l’examen des données :
o la classification en fonction de caractéristiques définies ;
o la régression linéaire qui présente les relations entre les données ;
o la segmentation qui permet la division d’une population en groupes homogènes ;
o l’association qui examine le comportement de ces groupes ;
o l’analyse de séquences qui identifie les chemins pris par les clients (sur un site web par
exemple).
SQL Server Reporting Services offre un ensemble d’outils et de services prêts à l’emploi po
définir, gérer et déployer des rapports. Il fournit également des interfaces de programmation
d'application(API) qui permettentd’étendreles rapportssous d’autresenvironnements. Ces
rapportspeuventensuiteêtre utilisésà l’intérieurde l’entrepriseou diffusésà l’extérieur
(fournisseurs et clients) grâce à un portail web. Ils peuvent donc être :
o Internes : administrables avec des conditions d’accès ;
o Externes : disponibles via Internet ;
o Embarqués : affichage général dans tous les services de l’entreprise;
o Collaboratifs : échangés entre plusieurs entreprises.
De nombreuses formesde restitutionsont possiblestels que lesformatsinteractif,tabulaire,
graphique, matriciel ou libre.
6 Conclusion