Académique Documents
Professionnel Documents
Culture Documents
B. BURQUIER
BUSINESS
Bertrand Burquier
MANAGEMENT DES SYSTÈMES
D'INFORMATION
APPLICATIONS
MÉTIERS
INTELLIGENCE
AVEC
ÉTUDES, DÉVELOPPEMENT,
INTÉGRATION
BUSINESS INTELLIGENCE
EXPLOITATION
RÉSEAUX
6639389
ISBN 978-2-10-050536-4 www.dunod.com
burquier_prelims.fm Page I Vendredi, 8. décembre 2006 2:01 14
BUSINESS
INTELLIGENCE
AVEC
SQL SERVER 2005
Mise en œuvre
d’un projet décisionnel
Bertrand Burquier
Consultant et ingénieur en systèmes d’information
burquier_prelims.fm Page II Vendredi, 8. décembre 2006 2:01 14
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
ou contradictoires. Au-delà du fait que l’informatique est une fois de plus mon-
trée du doigt et discréditée, les décisions qui devraient naturellement découler
de ces réunions sont reportées sine die.
En revanche, les entreprises concurrentes qui ont déployé des outils de busi-
ness intelligence perdent moins de temps en réunion et en discussion stériles, car
les indicateurs sont en permanence connus de tous, chaque cadre opérationnel dis-
posant des leviers permettant d’agir avec intelligence dans des délais très courts.
Que signifie le terme « intelligence » ?
Le Petit Larousse donne la définition suivante : « faculté de connaître, de com-
prendre ».
Et l’expression « business intelligence » ?
Wikipedia (encyclopédie libre sur le net) donne la définition suivante de la
business intelligence (ou informatique décisionnelle) :
« L’informatique décisionnelle (DSS, Decision Support System ou encore BI,
business intelligence) désigne les moyens, les outils et les méthodes qui permettent
de collecter, consolider, modéliser et restituer les données d’une entreprise en
vue d’offrir une aide à la décision et de permettre aux responsables de la stratégie
d’une entreprise d’avoir une vue d’ensemble de l’activité traitée. »
Cet ouvrage a pour ambition d’offrir une vision méthodologique de la fabri-
cation de la chaîne décisionnelle, un état de l’art des outils disponibles, ainsi qu’un
mode opératoire permettant de réaliser vous-même le déploiement de fonctions
de business intelligence au service du métier de votre entreprise.
Public concerné
La business intelligence en tant qu’outil de pilotage s’adresse essentiellement aux
décideurs confrontés chaque jour à des choix stratégiques et tactiques dans leur
entreprise. Il est donc bien naturel que les dirigeants (direction générale et direc-
tions opérationnelles) disposent d’un langage commun partagé avec les techniciens
de l’information. Cet ouvrage leur est particulièrement destiné car il présente une
méthodologie de valorisation de l’information à des fins stratégiques.
Les contrôleurs de gestion, directions financières, commerciales, marketing, res-
sources humaines, production verront les aides que peut apporter la business intel-
ligence à leurs tâches quotidiennes.
Les directeurs informatiques, responsables informatiques et bureautiques, dis-
poseront d’une méthode de mise en œuvre de la chaîne décisionnelle au service
des acteurs opérationnels de l’entreprise.
4 ————————————————————————————————————————————————————————————————————————————— Introduction
Objectifs à atteindre
L’objectif de cet ouvrage est de fournir aux dirigeants la culture nécessaire à la
compréhension des méthodes et outils nécessaires à la mise en œuvre du tableau
de bord de l’entreprise. Il permet également de comprendre les mécanismes sous-
jacents qui participent à la fabrication de la chaîne décisionnelle. L’informatique
décisionnelle se fonde sur des concepts spécifiques et un vocabulaire approprié
détaillés en annexe.
Il a également pour objectif d’aider à définir les étapes clés d’un projet déci-
sionnel, identifier les processus métier, modéliser les données métier, identifier
les outils qui participent à la conception du datawarehouse, comprendre les outils
d’analyse et de restitution. Communiquer avec ses partenaires grâce à un portail
décisionnel.
Quelles sont les qualités et compétences requises pour être un bon chef de
projet décisionnel ? Calculer le retour sur investissement et faire une offre concrète
sont souvent évoqués dans la littérature décisionnelle mais rarement explicités.
L’auteur de cet ouvrage espère participer au mouvement de la démocratisa-
tion du décisionnel dans les petites et moyennes entreprises. Les séminaires de
formation qu’il anime sur le sujet montrent bien l’intérêt croissant que tous les
acteurs de l’entreprise portent à ce domaine. L’auteur espère qu’à travers cet
ouvrage, un dialogue constructif s’établira entre les deux mondes, parfois éloi-
gnés, qu’il rencontre dans ses consultations : les informaticiens et les managers
d’entreprise.
1
La business intelligence
meilleur des cas, un délai de quelques jours sera nécessaire aux programmeurs
pour délivrer lesdits rapports. Dans le pire des cas ces développements ne verront
jamais le jour soit de par la « complexité apparente » de la demande, soit tout
simplement par la non-disponibilité des développeurs, très chargés par ailleurs.
En réalité, on s’aperçoit que les métiers de l’informatique évoluent vers des
tâches d’administration de systèmes d’information de plus en plus complexes,
qui nécessitent tous les jours davantage de soins et d’attention, sans parler de la
sécurité omniprésente. Paradoxalement, l’informaticien est de plus en plus au
service de la machine et de moins en moins au service du métier de l’entreprise.
Malgré des réussites évidentes, le déploiement des ERP (progiciels de gestion
intégrée) a nécessité des ressources importantes dans les entreprises qui les ont
mis en place. Des équipes de projet se sont bien souvent épuisées à faire entrer
le métier de l’entreprise dans des standards. Tout naturellement, les entreprises
ont donc « standardisé » leur métier. Elles cherchent aujourd’hui, à juste titre,
des facteurs de différenciation.
La business intelligence est un système permettant aux dirigeants d’analyser
et d’interpréter, à l’aide d’outils simples, les données complexes de l’entreprise
et de son environnement économique.
Les données brutes sont transformées et restituées dans des entrepôts structurés,
afin de permettre d’analyser et de suivre les indicateurs stratégiques de l’entreprise.
Ces outils doivent permettre de découvrir et de partager la stratégie à tous les
niveaux de l’entreprise. Grâce à ses outils « multidimensionnels » la BI est par-
ticulièrement adaptée à l’analyse immédiate. Elle offre la capacité de suivre au
quotidien les indicateurs métiers et de les comparer aux objectifs opérationnels
définis par la direction.
Bien sûr, le discours marketing ambiant tente de démontrer qu’il suffit
d’acquérir tel ou tel produit décisionnel pour que la magie opère. Comme on dit
communément, « si c’était aussi simple ça se saurait ». À quoi serviraient alors
les SSII, les intégrateurs et les consultants spécialisés en systèmes décisionnels ?
Seraient-ils devenus inutiles parce que les éditeurs ont mis en place des assistants
visant à simplifier le processus de création de la chaîne décisionnelle ? Rien n’est
moins sûr.
Nous verrons au fil de cet ouvrage les pièges qu’il est nécessaire de connaître
avant d’entreprendre un projet BI. Nous découvrirons que la phase la plus déli-
cate de la chaîne décisionnelle ne réside ni dans la conception du cube, ni dans
la restitution. Nous verrons également qu’un cadre méthodologique est néces-
saire à la création de l’entrepôt de données, centre névralgique des applications
décisionnelles.
1.2 Objectifs et enjeux du décisionnel ——————————————————————————————————————————————————————— 7
• connaître;
• mesurer;
• prévoir;
• agir.
Parmi ces innovations, il en est une qui offre la plus grande avancée en
matière d’aide à la décision. La technologie OLAP (On Line Analytic Processing)
qui pendant quelques années a servi de niche technologique à certains éditeurs
bien connus, vient de faire une avancée remarquable du fait de l’amélioration
des performances des ordinateurs et de la découverte de nouveaux algorithmes.
OLAP représente l’avancée la plus spectaculaire en matière de business intelli-
gence depuis la découverte des bases de données relationnelles, dont les fonde-
ments ont été établis par Chris Date et Edgar Codd en 1993.
Bien que de nombreux articles aient été publiés décrivant le fonctionnement
des technologies OLAP, très peu ont mis en avant « quand » et « comment »
utiliser ces technologies dans le cadre de l’aide à la décision.
Dans ce chapitre, nous mettrons en évidence les deux volets de la prise de
décision : le volet quelque peu mécaniste de la création d’information à partir
des données de base et le volet humain, qui permettra de découvrir LA bonne
information.
Divers outils de reporting basés sur les bases de données relationnelles exis-
tent et sont largement utilisés dans les entreprises. Les tableurs sont également
des outils désormais banalisés. Bien que demeurant déconnectés des systèmes cen-
traux, ils sont devenus indispensables aux financiers et contrôleurs de gestion
dans des tâches quotidiennes de collecte d’informations et de consolidation.
Mais quel que soit le soin apporté à la gestion de ces données, leur restitution
ne représente qu’une partie de la prise de décision. L’autre partie, à nos yeux la
plus importante, est de savoir comment les décisionnaires « consomment » les
informations, les comprennent et agissent enfin.
Le processus d’apprentissage
Lorsque les données sont organisées en référentiel métier et présentés au niveau
d’abstraction adéquat, les décisionnaires peuvent alors les utiliser et les compren-
dre. Le processus d’apprentissage implique des réflexions itératives de la part du
décisionnaire. Celles-ci se matérialisent par des requêtes successives dont les
réponses engendrent naturellement de nouvelles questions.
De manière similaire, nous pouvons attribuer le succès sans précédent du
Web par l’application de ces trois principes : organisation, navigation et visualisation.
Pour trouver une information sur un DVD, nous tapons ces deux mots « DVD
NomDuChanteur » dans un moteur de recherche. Ce dernier propose plusieurs
sites commerciaux. Nous pouvons facilement comparer, naviguer, approfondir notre
recherche en cliquant sur des hyperliens.
Le second point repose sur le fait que le processus d’apprentissage est rarement
linéaire. Le Web est particulièrement adapté à ce mode de fonctionnement. Les
hyperliens nous permettent de passer d’un sujet à un autre. Les boutons de retour
en arrière du navigateur permettent de revoir toutes les étapes du cheminement.
Cette approche est particulièrement efficace lors d’une découverte non structurée.
Enfin, la visualisation enrichie du Web présente une information dans sa
forme la plus compréhensible. Des images animées, des graphiques pour exprimer
des tendances, des tableaux pour comparer, etc. Tous ces modes de représenta-
tion, exprimés selon une organisation intuitive et flexible, font du Web une des
inventions les plus efficaces qui soit dans le domaine de l’information.
des vues différentes permettent d’observer le chemin parcouru, le chemin qui reste
à parcourir et l’orientation que prend l’avion.
Lorsque nous observons ces images, nous n’avons pas idée de la masse de don-
nées qu’il est nécessaire de collecter dans le but de restituer sur l’écran une vue
compréhensible par le voyageur. Et lorsque l’écran s’éteint, nous nous trouvons
subitement plongé dans l’inconnu. On ne peut alors que faire des suppositions
sur l’identification de la région survolée.
Maintenant, le commandant de bord vous invite à pénétrer dans le cockpit
de l’avion afin de vous faire découvrir le tableau de bord de pilotage mis à sa
disposition. Après quelques explications simples des écrans d’affichage, vous décou-
vrez la signification des différentes jauges et autres voyants lumineux.
Progressivement, vous vous familiarisez avec les indicateurs tels que position
(latitude, longitude), altitude, vitesse, consommation de kérosène, température
extérieure, etc. Les cadrans donnent un ensemble d’informations qui situent pré-
cisément l’aéronef dans son environnement géographique en trois dimensions.
Concentré sur son tableau de bord, le copilote actionne un levier qui permet à
l’avion de corriger imperceptiblement sa trajectoire puis de se stabiliser à nouveau.
cette connaissance transmise aux autres ne subit aucune dégradation. Cela veut
dire que grâce à son partage, la valeur de l’information est proportionnelle au
nombre de personnes qui la possèdent.
Dans le contexte de la business intelligence, cela se traduit par le stockage
des données dans le datawarehouse. Cet entrepôt centralisé offre de nombreux
accès aux utilisateurs qui observent tous la même information. Et puisqu’elle est
utilisée par des observateurs distincts, sa valeur est multipliée par le nombre de
personnes qui l’utilisent.
Bernard Liautaud, président et PDG de Business Objects a écrit dans un
ouvrage remarquable, que « la valeur d’une information augmente avec le carré
du nombre d’utilisateurs pouvant accéder à l’information, multiplié par le nom-
bre de services dans lesquels ces utilisateurs travaillent ». (e-business intelligence,
Éditions Maxima).
Valeur de l’information =
(Nombre d’utilisateurs)² × (Nombre de départements de l’entreprise)
nées sur les ventes réalisées depuis plusieurs années peut apporter plus de valeur
s’il s’agit d’analyser des tendances.
Profil Client
La plus grande partie des actions marketing consiste à « ratisser large » et à espérer
capturer le plus grand nombre de clients possibles. Après les études très détaillées
de Martha Rodgers consacrées au « marketing one to one », les entreprises pren-
nent de plus en plus conscience que les prospects sont différents les uns des autres
et que leur approche doit être adaptée en fonction du profil du prospect. Des
informations comportementales, préférentielles, géographiques et sociologiques
concernant le prospect permettent d’adapter individuellement le discours.
Le ciblage marketing
La connaissance des ressemblances et dissemblances permet de constituer des
ensembles de prospects ayant des comportements similaires afin d’élaborer une
communication adéquate.
20 ————————————————————————————————————————————————————————————————— 1. La business intelligence
La personnalisation
L’analyse fine du caddie, que ce soit au supermarché ou sur un site marchand en
ligne, permet en temps réel de connaître les produits achetés en magasin ou sur
le site et d’en déduire immédiatement des analyses fines et d’effectuer les actions
qui s’imposent. À cet égard, le navigateur web est un formidable outil de décou-
verte de l’internaute, tant les traces numériques laissées lors de ses recherches et
hésitations sont révélatrices du comportement de ce dernier. Le serveur web a
la capacité d’interagir avec l’internaute afin de l’aider dans sa recherche ou même
de suggérer des achats complémentaires.
Les « cookies » permettent l’identification d’un individu sur un site. Lors d’un
accès ultérieur il devient possible de dialoguer intelligemment avec l’internaute
et d’agir en tant que conseil auprès de celui-ci.
Le filtrage collaboratif
Si vous êtes déjà allé sur des sites de ventes en ligne tels qu’Amazon.com ou
Fnac.com, cette notion de filtrage collaboratif ne vous a sans doute pas échappé.
Lors du choix d’un CD ou d’un livre, le site vous suggère des achats alternatifs
ou complémentaires basés sur les préférences d’autres clients. L’information affi-
chée sur la page web est très suggestive : « Les gens qui ont acheté le produit X
ont également acheté le produit Y. » Les processus de filtrage collaboratif évaluent
la similitude des préférences entre des groupes de consommateurs. Ces recom-
mandations créent en général des opportunités de cross-sell (ventes croisées) et de
up-sell (ventes additionnelles).
La satisfaction du client
Un des avantages induits par le profilage est de connaître la satisfaction d’un
client par rapport à des produits ou services. Un rapide sondage permet de col-
lecter le niveau de satisfaction d’un client, de comparer par rapport à l’ensemble
des clients. L’historisation des données permet de connaître la tendance de la
satisfaction générale de la cible et naturellement de réagir avant qu’il ne soit
trop tard.
La durée de vie d’un client
Comment les entreprises déterminent quels sont leurs meilleurs clients ? Quand
on connaît le coût induit par la recherche et l’acquisition d’un nouveau client,
la durée de vie d’un client devient naturellement une mesure de profitabilité.
L’analyse Client permet de mettre en place des indicateurs afin de mesurer la
durée de vie d’un client.
La fidélité du client
On a coutume de dire que les meilleurs nouveaux clients d’une entreprise sont
les clients actuels. Cela veut dire que les plus belles opportunités de réaliser de
1.3 Le processus de décision ou le facteur humain dans la prise de décision ————————————————————— 21
nouvelles ventes se font auprès des clients de l’entreprise qui sont heureux de
travailler avec vous et satisfaits de vos produits et services.
L’analyse des clients en portefeuille est une aide efficace.
L’analyse de la productivité
Ce domaine d’analyse très répandu génère un grand nombre d’indicateurs et
d’analyses.
L’analyse des produits défectueux
Alors que les entreprises se battent quotidiennement afin d’améliorer la qualité
des produits qu’elles fabriquent, des facteurs affectent le nombre de produits
défectueux, dont les causes sont les matières premières utilisées ou les personnels
qui les fabriquent. Il est aisé de suivre ces facteurs grâce aux indicateurs de pro-
ductivité.
Le suivi du planning et l’optimisation des ressources
La compréhension de l’utilisation des ressources qui composent l’actif d’une
usine (machines, personnel, rendements attendus, matières premières, entrepôts,
production en flux tendus, etc.) peut être grandement facilitée par l’usage de la
business intelligence.
Le reporting financier
Les contraintes sévères liées à l’industrie obligent les entreprises et maintenant
les administrations (LOLF, loi organique relative aux lois de finances promul-
guée le 1er août 2001) à fournir de nombreux rapports financiers afin de présenter
leurs résultats. Ces contraintes se sont encore alourdies suite aux scandales finan-
ciers qui ont défrayé récemment la chronique. Indépendamment de leur carac-
22 ————————————————————————————————————————————————————————————————— 1. La business intelligence
tère obligatoire, les analyses qui en résultent sont un excellent moyen de prendre
le pouls de l’entreprise et de repérer des secteurs nécessitant une surveillance
particulière.
Dans cet esprit, le Congrès américain a fait adopter en juillet 2002 la loi
Sarbane-Oxley contraignant ainsi les entreprises cotées à communiquer rapide-
ment leurs résultats financiers.
L’article 404 de la loi vise à renforcer la fiabilité de l’information financière
délivrée et rend obligatoire l’utilisation d’un cadre d’analyse reconnu en matière
de contrôle interne et cite en substance le référentiel COSO (Committee of Spon-
soring Organizations, association américaine ayant pour objectif d’établir des règles
de contrôle financier interne et d’améliorer la qualité des reporting financiers).
La gestion du risque
C’est la capacité à trouver des solutions pour minimiser les conséquences des
événements associés à une situation.
La précision de l’observation dans le suivi de l’activité et de la productivité
offre aux gestionnaires la capacité de prendre de meilleures décisions, par exem-
ple sur l’allocation de ressources dans le but de réduire le risque de l’organisation.
De plus l’analyse du risque peut apporter des réponses dans le cadre de la négo-
ciation de contrats avec les fournisseurs et les partenaires en général.
La mise en place du nouveau règlement Bâle 2 vise à améliorer la qualité du
système bancaire grâce à la transparence dans la gestion des risques opérationnels.
Le juste à temps
Le concept de production en juste à temps doit aboutir à une diminution des
risques liés à la volatilité des prix des produits. Il est fortement recommandé de
pouvoir corréler les informations reçues au travers du canal de ventes afin de
réagir le plus rapidement en termes d’approvisionnement et de production.
L’expédition
Il existe différentes méthodes pour livrer des marchandises auprès des clients,
chacune générant des coûts différents. Par exemple, il sera plus coûteux de livrer
des produits par avion plutôt que par transport routier, mais les produits arrive-
ront à destination plus rapidement. Ce délai plus court peut être exploité pour
répondre à une demande dont il faut mesurer la justification.
L’analyse du comportement
Il est utile de repérer des modèles de comportement qui sont le présage d’évé-
nements significatifs. Ce type d’analyse fait un usage abondant des données afin
de repérer des modèles susceptibles de générer tel ou tel événement. Le but de
l’analyse consistera donc à repérer la mise en place de tels modèles dans le but
de prédire l’apparition des phénomènes attendus. Ces études sont fortement uti-
lisées en analyse technique boursière. L’analyse d’une action sur une durée signi-
ficative permet de mettre en évidence des modèles susceptibles de prédire des
changements de tendance. L’analyse chartiste est basée sur ces phénomènes.
L’activité du Web
Nous l’avons déjà signalé précédemment, l’analyse du comportement d’achat sur
un site de commerce électronique est relativement aisée. Elle donne de surcroît
des indications d’achat et de tendance en temps réel. Cette détection des modè-
les de comportement d’achat peut être à l’origine d’un modelage du site afin de
mieux prendre en compte les attentes des internautes.
La détection des fraudes
Les comportements abusifs ou frauduleux sont fréquemment modélisables. Par
exemple dans le domaine de la santé, il est aisé de constater que certains prati-
ciens ont tendance à prescrire des médicaments onéreux ou en surnombre. Une
fois ces comportements modélisés, zoomer sur les auteurs de tels actes devient
un jeu d’enfant.
L’attrition du client
Un problème récurrent pour un grand nombre d’organisations est l’attrition du
client ou la capacité de ce dernier à quitter son fournisseur habituel. Dans les
industries à caractère compétitif, il est bien plus profitable de convaincre un
client de rester fidèle à un fournisseur avant qu’il n’ait pris la décision de le
quitter plutôt qu’après. On constate cela fréquemment dans la lutte effrénée que
se livrent les opérateurs téléphoniques pour conquérir de nouveaux clients. Les
coûts de séduction de ces nouveaux clients sont proprement exorbitants. Le repé-
rage des clients susceptibles de quitter l’entreprise par une observation fine des
modèles de comportements (historiques des appels et des plaintes) permettrait
de proposer des offres personnalisées susceptibles de retarder le départ voire
même de l’éviter.
Bernard Liautaud, dans l’ouvrage déjà mentionné, fait une analyse sans complai-
sance de la situation des trois modèles qui gouvernent l’accès à l’information
dans l’entreprise. Il cite :
• La dictature de l’information, où seuls quelques initiés ont accès aux données.
• L’anarchie de l’information, où chacun recrée son propre système d’information
provoquant un véritable chaos de données.
• La démocratie de l’information, où l’information bien gérée circule librement.
2.1.1 Le cycle en V
Les projets informatiques traditionnels avaient coutume de présenter un enchaî-
nement linéaire des sept étapes. Les voici résumées :
Analyse et Intégration
spécifications
Conception Tests
Développements
Et
programmation
Priorité à l’application
Il est vital que l’application fonctionne selon les spécifications demandées. Il ne
sert à rien de documenter à l’excès des procédures techniques. On le sait, les
programmes ont tendance à être modifiés régulièrement mais pas la documen-
tation associée rendant cette dernière suspecte. Il est préférable de commenter
abondamment les programmes et de mettre à jour les lignes de commentaires
lors de l’apport de modifications. Il est infiniment plus utile d’obtenir en ligne
un commentaire sur l’origine d’une information (clic droit ou aide) plutôt que
d’en chercher le sens dans un cahier généralement introuvable au moment
opportun. La documentation fonctionnelle doit être accessible en ligne.
Il est également important de définir un binôme technique (deux personnes
ayant une bonne compréhension des processus informatiques, une forte complé-
mentarité et pouvant assurer un dépannage en cas d’absence de l’autre).
L’acceptation du changement
Il n’est jamais agréable au cours du développement de revenir sur des spécifica-
tions ou des procédures codées. Cependant, afin d’éviter la frustration du client,
il est impératif d’accepter des modificatifs mineurs. La planification du projet
doit rester flexible afin d’en tenir compte. Le choix de l’outil de développement
est à cet égard très important.
Cette étude permet d’effectuer une sorte de « carottage » dans les strates fonc-
tionnelles (découverte d’un domaine parmi finances, achats, commercial, com-
munication, RH) et techniques (découverte des systèmes utilisés : système
d’information, SGBD, système d’exploitation, etc.).
Les livrables sont :
• un document de synthèse;
• un prototype de l’application cible;
• une licence à durée limitée du produit utilisé.
Définir Sélection et
l’architecture installation Croissance
technique des outils et
évolution
Technologie
Maintenance
Spécification Développement
de de l’application
l’application
Application
Lorsque l’on aborde un projet BI, il faut résister à la tentation de mettre en avant
l’outil plutôt que la démarche qui consiste à découvrir le métier du client et la
nature de ses besoins. Pourquoi me mettrais-je au volant de mon véhicule si je
ne sais où aller ? Nous avons vu au paragraphe précédent que le projet BI consistait
à bien appréhender le métier du client et de délimiter le périmètre fonctionnel
avant de procéder à toute étape de développement. Les éditeurs de logiciels ont
une tendance naturelle à mettre en avant la palette des fonctionnalités de leur
produit. Ils offrent rarement une réponse à l’attente métier du client.
Lors de nos consultations en entreprise nous rencontrons généralement deux
profils : le chef d’entreprise qui intuitivement souhaite disposer du meilleur tableau
de bord de pilotage et le DSI qui a tendance à mettre l’accent sur les aspects
techniques de l’offre BI. Pour des raisons historiques voire culturelles ou sécuri-
taires, le DSI sera attiré par les solutions proposées par un éditeur déjà installé
dans les lieux. Cependant, un comparatif réalisé auprès de plusieurs éditeurs peut
parfois aboutir à des conclusions inattendues. Vous trouverez dans les références
bibliographiques disponibles à la fin de cet ouvrage un lien proposant des critères
de comparaison des fonctionnalités et de l’ergonomie des outils de BI.
Nous déconseillons toujours de mettre en œuvre un projet BI s’il n’est pas
« sponsorisé » par une direction fonctionnelle ou opérationnelle. En matière de BI,
il existe un facteur déterminant de succès : la recherche de l’amélioration de la
valeur. Ce facteur servira de fil conducteur tout au long de la réalisation du projet.
En 1992, Robert Kaplan et David Norton ont avancé pour la première fois
l’expression balanced scorecard (BSC) dans un article de la Harvard Business
Review. En 1996, les mêmes auteurs publient un livre sur ce sujet, traduit en
français sous le titre Le tableau de bord prospectif, pilotage stratégique : les quatre
axes du succès (Éditions d’Organisation, 1998). Les auteurs proposent de sortir
du traditionnel tableau de bord financier tout en faisant apparaître une vision
multidimensionnelle de la performance. Ils définissent quatre axes privilégiés de
la performance, chaque axe étant motivé par le même moteur : la stratégie de
l’entreprise (figure 2.3).
On distingue clairement les quatre axes ou perspectives stratégiques :
• la perspective financière;
• la satisfaction des clients;
• les processus internes;
• l’apprentissage organisationnel.
2.3 Les différents types d’indicateurs ———————————————————————————————————————————————————————— 35
Quelle est
ma stratégie
de développement ?
Que dois-je
apporter à mes clients ?
Que font mes concurrents ?
Les étapes à suivre lors de la construction du tableau de bord sont les suivantes :
• Définir les objectifs.
• Identifier les variables d’action.
36 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
• indicateur d’activité;
• indicateur qualité;
• indicateur de coût;
• indicateur d’éclairage.
Quantités vendues par secteur, par produit, Par secteur, par produit,
par client par client
Nouveaux clients
Nombre de commandes
Activité
Clients n’ayant pas commandé depuis x temps
Taux de rupture
Promotions
Concurrence
Effectifs
Embauches
Humains Démissions
Primes versées
Nouveaux projets
Marge brute
Part de marché
Croissance du marché
Activité
Rentabilité des capitaux investis
Fonds de roulement
Carnet de commandes
Nombre de réclamations
38 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
Sous-traitance
Suivi de la compétitivité
Observation Concurrence
Nouveaux projets
Taux d’absentéisme
Humains
Moral des troupes
Budget formation
Effectif interne/externe
2.3 Les différents types d’indicateurs ———————————————————————————————————————————————————————— 39
Activité Productifs/Improductifs
Nombre de licenciements
Turnover
Nouvelles formations
Heures supplémentaires
Taux d’absentéisme
Humains
M3oral des troupes
Mobilité du personnel
Capacité de production
Délai de fabrication
Énergie
Planning de production
Effectif interne/externe
Embauches démissions
Humains Absentéisme/turnover
Qualification du personnel
Taux d’improductifs
2.3 Les différents types d’indicateurs ———————————————————————————————————————————————————————— 41
% de stock mort
Nombre de transporteurs
Nombre d’avoirs
Taux de remplissage
Effectif interne/externe
Embauches démissions
Humains
Absentéisme/turnover
Qualification du personnel
Nombre de références
Nombre de négociations
Nouveaux fournisseurs
Turnover fournisseurs
Salaires
Dépenses de fonctionnement
Coût
Coût moyen de traitement d’une commande Total/par fournisseur
Effectif interne/externe
Embauches démissions
Humains
Absentéisme/turnover
Qualification du personnel
Heures d’études
Respect du budget
Retard moyen
% maintenance/études nouvelles
Dépenses globales
Heures ingénieur
Carnet de commandes
Nouvelles applications
Remplacement de matériel/amortissement
Effectif interne/externe
Embauches/démissions
Humains
% de sous-traitance
Qualification du personnel
l’autre, observer des tendances. Ils détectent parfois des anomalies dans les sys-
tèmes sous-jacents.
Ces gestionnaires observent les données à un niveau élevé de synthèse. Ils
éprouvent rarement le besoin d’accéder à des informations détaillées. Ils s’inter-
rogent sans cesse sur la manière dont les affaires se déroulent, passent rapidement
de rapports en analyse, de requêtes en nouvelles interrogations dans le but de
déceler du sens dans la marche de l’entreprise. Les réponses à leurs interrogations
doivent être immédiates, quelques secondes tout au plus et ceci quelle que soit
la complexité de la requête.
Le reporting est souvent l’objet principal du datawarehouse (80 % des cas).
Aujourd’hui il n’est plus question d’imprimer des listings volumineux dans les-
quels bien souvent une seule ligne (en général la dernière) est utile pour l’ana-
lyse. Il s’agit au contraire de mettre en place un reporting utile et personnalisé
en fonction du besoin du lecteur. Dans les chapitres qui suivent, nous verrons
comment un utilisateur peut souscrire un abonnement à tel ou tel rapport, le
recevoir dans sa messagerie quotidiennement ou mettre en place des alertes afin
d’être prévenu lors de telle ou telle transaction ou franchissement de seuil.
rence The data warehouse toolkit, Practical techniques for building dimensional data
warehouses, Editions Wiley, parle alors de base de données scintillante. On com-
prend bien que des changements constants dans la base ou des ré-écritures sur
des données anciennes sont de nature à perturber les analyses. Un système OLTP
en perpétuel mouvement ne produira pas deux analyses identiques à des
moments différents dans une même journée.
Ces problèmes de changements permanents sont définitivement résolus par
la mise en œuvre de l’entrepôt de données dont l’objet est de stocker une suc-
cession d’instantanés en provenance du système opérationnel et selon une fré-
quence régulière. Un peu comme des géologues capables d’expliquer la formation
des montagnes en observant les couches successives de sédiments, le dataware-
house permet de reconstituer l’évolution de l’activité d’une organisation grâce à
des photographies instantanées prises à des périodes régulières. De la même façon
que les géologues creusent les couches sédimentaires afin d’analyser les évolu-
tions dans le temps, le manager utilise la technique de forage (drill down) afin
de mesurer et de comprendre les actions qui se sont succédées dans la réalisation
des affaires.
Nous introduirons également la notion de « dimensions à variation lente »
(slowly changing dimensions). Cette technique est fondamentale pour représenter
correctement les variations qui se sont succédées dans le passé. En effet, il est
fréquent que des modifications surviennent dans les gammes de produits, chez
les clients et fournisseurs. Bien souvent, le manager souhaitera conserver la trace
de ces variations.
La technique des instantanés statiques qui alimentent régulièrement le
datawarehouse règle deux problèmes connus dans les bases transactionnelles :
Le modèle dimensionnel est composé d’une table centrale entourée d’un cer-
tain nombre de tables. À la différence d’un modèle entité-relation, la table cen-
trale est la seule qui présente des jointures avec les autres tables. La table centrale
est appelée table de faits, et les autres tables, tables de dimensions.
Dans le schéma en étoile de la figure 2.5, la table de faits centrale est Inter-
netSales. Cette table historise l’ensemble des ventes effectuées sur Internet. Les
tables dimensionnelles caractérisent les clients, les produits et le temps.
Indicateurs
Quand ? Qui ? Quoi ? Où ?
(Combien ?)
Année (historique Équipes Éditeur Enseigne CA & Qté vendues
sur 10 ans)
Repré- Catég. Prod. Libraire CA & Qté retournées
Mois sentants
Collection Remise en % et valeur
Jour
Titre de l’ouvrage Retours en % et valeur
Cumul à ce jour
52 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
Dimensions Indicateurs
Temps De résultat
Géographie Nombre d’unités vendues
Part de marché
Usine Nombre de clients traités
Commandes prises
Canaux de ventes Taux de produit défectueux
Pièces produites
Organisation Pièces en rebut
Coût
Temps (calendaire/fiscal) Budget/réalisé
Contribution/marges
Ratios
…
De moyens
Matière consommée/unité produite
Heures de main d’ouvre
D’avancement et plan d’action
% personnel formé
Nombre de cercles de qualité
D’environnement
Cours des matières premières
Taux de change
Taux financier
…
Dans la figure 2.7, les flèches représentant les arêtes du cube symbolisent les
axes d’observation (Géographie, Produits et Temps). Les cellules du cube maté-
rialisent les mesures ou indicateurs (nombre d’unités, CA, marge, etc.).
2.5 Comparatif des deux modèles de stockage des données ——————————————————————————————————— 53
Indicateurs :
Nb unités, CA, marge...
gage (SQL) afin d’accéder aux données utilisateurs ou aux métadonnées (struc-
ture des tables).
Règle 5 : Un système de gestion de données relationnel peut accepter plusieurs
langages et plusieurs interfaces utilisateurs. Cependant, il doit y avoir au moins
un langage dont les commandes sont exprimables grâce à une syntaxe bien spé-
cifiée exprimée sous forme de chaînes de caractères. Ces commandes sont :
• la définition des données;
• la définition des vues;
• la manipulation des données (interactive et à l’aide de programmes);
• les contraintes d’intégrité;
• les autorisations;
• les limites de transaction (début, fin, commit).
Règle 6 : Toutes les vues que l’on peut théoriquement mettre à jour peuvent aussi
être mises à jour par le système (ce qui inclut insertion, modification, suppression).
Règle 7 : La possibilité de manipuler une relation de la base ou relation dérivée
comme un opérande unique s’applique non seulement à la recherche de données
mais aussi à l’insertion, à la modification et à la destruction.
Règle 8 : Les programmes d’application et les interfaces écran demeurent logique-
ment inchangés si on modifie les méthodes de stockage ou les méthodes d’accès.
Règle 9 : Les programmes d’application et les interfaces écran demeurent logi-
quement inchangés si des modifications sont effectuées dans les tables.
Règle 10 : Les contraintes d’intégrité spécifiques pour une base de données rela-
tionnelle doivent être définissables dans le langage de manipulation de la base
et stockables dans le catalogue, et non dans les programmes d’application :
• Intégrité de l’entité : aucun composant de la clé primaire n’est autorisé à
être nul.
• Intégrité référentielle : pour chaque clé étrangère distincte non nulle d’une
base de données relationnelle, il doit exister une clé primaire correspon-
dante du même domaine (dans une autre table).
Règle 11 : Toute manipulation de données doit être intuitive. Elle doit être
accomplie via une action directe sur les cellules du modèle sans utiliser de menus
ou des chemins multiples à travers l’interface utilisateur.
Règle 12 : Doit offrir une souplesse et une grande facilité de constitution des
rapports. Doit permettre de présenter les résultats sous forme de données synthé-
tiques ou en fonction de l’orientation du modèle.
OLTP (bases
OLAP (cubes
transactionnelles
analytiques)
de production)
Volume de la Base GB TB
• Fast. Le système est conçu afin de délivrer aux utilisateurs la plupart des
réponses en moins de 5 secondes.
2.6 OLAP ou reporting ? —————————————————————————————————————————————————————————————————— 57
Le propos est de mettre en avant les avantages et les inconvénients des deux
systèmes (OLAP et reporting) afin de choisir l’outil le mieux adapté pour répon-
dre à un besoin « utilisateur » spécifique.
Approche du problème
Les techniques d’aide à la décision font appel à deux approches complémentaires.
L’une est centrée sur les données à produire, l’autre sur l’utilisateur. Dans le cas
de l’approche centrée sur les données, on examine les caractéristiques des don-
nées à produire et on choisit la technologie la mieux adaptée pour cela.
Dans le cas de l’approche centrée sur l’utilisateur, la réflexion est menée
autour des besoins exprimés par le demandeur. En effet, vous cherchez à connaî-
tre qui sont les consommateurs d’information et quelles sont leurs attentes :
s’agit-il de prendre des décisions, de suivre la performance d’une unité opéra-
tionnelle, ou de partager l’information avec d’autres collaborateurs. Lorsque le
besoin sera défini, il s’agira de déterminer la meilleure technologie susceptible
d’aider les utilisateurs à accomplir leurs tâches.
Voici deux exemples de requêtes qu’il est aisé de traiter au travers d’un sys-
tème OLAP et très complexe avec le langage SQL de base :
• Quels sont les clients dont la part cumulée progresse le plus vite depuis le
début de l’année ?
2.6 OLAP ou reporting ? —————————————————————————————————————————————————————————————————— 59
• Quelle est la variation des ventes cumulées et comparées sur trois ans pour
mes cinquante plus gros clients ?
sont volumineuses, mais que l’analyse s’effectue à un niveau agrégé des données,
la structure OLAP est le meilleur choix.
Pourquoi un référentiel métier unique ?
SQL, le langage des bases de données relationnelles, n’a pas été défini pour
des calculs et filtrages complexes. Pour détourner ces limitations, les utilisateurs
s’orientent souvent vers le tableur afin de réaliser des calculs complexes. Au
mieux, l’utilisation de ces outils représente un risque à cause de la technique du
« copier-coller ». Au pire ces techniques à base de tableurs mènent à l’anarchie
des rapports où chaque collaborateur dispose de « sa » propre version de la vérité.
On observe trop fréquemment dans les organisations des cadres passant une
bonne partie de leur temps à consolider des tableaux répartis dans un grand nom-
bre de stations de travail. Nous verrons au chapitre 11 que le tableur Excel est
particulièrement adapté à l’analyse pour autant qu’il puise des données directe-
ment sur le serveur de DW.
La centralisation du référentiel métier, utilisé par les décisionnaires pour l’éla-
boration des indicateurs clés de performance (KPI), apporte une compréhension
des affaires grâce à une standardisation des concepts et au partage collaboratif.
La vue synthétique des objets métiers répertoriés dans le dictionnaire global de
l’entreprise, améliore la compréhension, et la productivité lors de l’extraction
des données et de la construction des tableaux.
Les données ont-elles besoin d’être agrégées ou bien traitées
au niveau le plus bas ?
Nous l’avons vu, le but des bases multidimensionnelles est d’analyser et de
manipuler de grandes quantités de données. Le type même de structure « cubique »
permet la création de nouveaux algorithmes d’agrégation et de synthèse. L’inté-
rêt d’une telle structure est que les calculs d’agrégation et de totalisation des
indicateurs sont stockés dans un référentiel unique, partagé par tous. La restitu-
tion de l’information est ainsi considérablement fiabilisée réduisant le risque
d’erreur d’interprétation.
Par ailleurs le type de structure résultant de l’organisation des cubes induit
naturellement une vision commune et un partage naturel et complémentaire des
observations de chacun dans l’entreprise.
Quel est le besoin de la modélisation de la décision ?
De nouvelles recherches se sont développées autour de la structure multidi-
mensionnelle de données. De nouvelles possibilités sont alors apparues en par-
ticulier dans le domaine de l’analyse prédictive et de la segmentation.
Un type d’analyse assez fréquent est basé sur la question suivante « que se
passerait-il si ? ». En effet il peut être intéressant dans un modèle économique
2.7 Le processus décisionnel avec SQL server 2005 ——————————————————————————————————————————— 61
de faire varier tel ou tel facteur sur les données réelles de l’entreprise et d’en
mesurer l’impact. Une autre démarche consiste à ajouter ou retirer une variable
dans un contexte prévisionnel et d’en mesurer l’impact immédiatement. Les
structures multidimensionnelles dites en écriture permettent de stocker tempo-
rairement ces données de simulation et d’en mesurer les conséquences sur
l’ensemble du modèle.
Un autre volet consiste à réaliser des analyses prédictives. Certains algorithmes
statistiques permettent de se projeter dans le futur et ainsi de prévoir des résultats
avant même que la réalité ne se produise. Cette analyse est particulièrement
utile aux gestionnaires qui basent leurs projections sur les données historiques
de l’entreprise. Aujourd’hui malheureusement, ce type d’analyse est souvent réa-
lisé à partir d’outils disparates dans l’entreprise, visant à consolider manuellement
les informations puisées dans les divers silos de données. On le comprend bien,
ces méthodes « artisanales » même si elles résultent d’un travail commun non
négligeable, ne permettent pas de profiter des bénéfices liés à la centralisation
et au partage de quantités importantes de données de l’entreprise. Les techno-
logies OLAP apportent naturellement des réponses à cette problématique.
En conclusion
Les techniques basées sur des structures de données relationnelles sont efficientes
lorsqu’elles visent à distribuer des données détaillées aux utilisateurs au travers
de rapports préformatés.
Les technologies OLAP sont plus appropriées lorsque les utilisateurs désirent
explorer et comprendre les données agrégées afin de répondre rapidement à des
besoins stratégiques de l’entreprise. L’utilisation partagée d’un référentiel « métier »
de l’entreprise favorise le dialogue et le partage naturel de la stratégie entre les
acteurs des différents départements de l’entreprise.
Plusieurs facteurs sont à prendre en compte dans la création d’un projet BI afin
d’anticiper les risques d’échec.
Transformer,
Nettoyer,
rafraichir
Extraire,
Integration Services
de données
Entrepôts
Datamart
Datamart Datamart Datamart
Processus
Finance Clients Apprentissage
internes
Modeliser
Structures de données
Multidimensionnelles
Analysis Services
CUBE OLAP
à perspectives
multiples
Restituer
Restitution et analyses
Excel, Proclarity
100 %
90 80
70 60 70
% % 50 40 50 60
% % 30 40 % %
% % % %
%
Piloter
Figure 2.8 — Les différentes composantes du processus décisionnel avec SQL Server 2005
64 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
pendance à l’égard des informaticiens qui jusque-là étaient les seuls concepteurs
de leurs requêtes.
Nous le verrons plus loin, SQL Server 2005 apporte des réponses à cette caté-
gorie d’utilisateurs grâce à Report Builder. (outil de création de requêtes et rap-
ports à usage des non-techniciens). Excel offre une réponse grâce aux tableaux
croisés dynamiques connectés directement sur les Cubes OLAP.
Incomplètes
• Enregistrements manquants.
• Champs manquants conduisant à des cellules vides.
• Description d’enregistrements erronés.
Incorrectes
• Mauvaise codification (altération des codes dans le temps).
• Agrégations déjà réalisées dans les sources de données.
• Calculs erronés. (champs numériques résultant de calculs imprécis ou erronés).
• Enregistrements doublonnés impactant les tables de faits.
• Double exécution du processus de chargement. Cette erreur peut se pro-
duire lors du déclenchement du processus sur la présence d’un fichier séma-
phore mal maîtrisé.
• Mauvaise information entrée dans le système source telle qu’une inversion
de date 12/01/2006 ou 01/12/2006.
Incompréhensibles
• Données en provenance d’un champ unique devant être « éclaté en plu-
sieurs champs dans le datawarehouse. Ex. : “John F. Kennedy” ».
• Codifications inconnues du système. (Fuzzy lookup).
• Données non structurées en provenance de traitement de texte (nombres
formatés avec des espaces en tant que séparateurs de milliers).
• Jointures de tables avec des relations plusieurs à plusieurs non identifiées.
66 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
Incohérentes
• Codifications versatiles (« M » et « F » ou 1 et 2).
• Codifications changeantes liées à des réorganisations dans l’entreprise.
(Dimensions à variation lente). Risque de perdre l’antériorité de l’historique.
• Multiplication de codes différents pour une même entité (ex. : client ou
produit ayant changé plusieurs fois de codification dans le temps).
• Plusieurs codes distincts représentant la même entité.
• Noms et adresses légèrement différentes mais identifiant la même entité.
• Calculs d’agrégations erronés dans les sources de données (la somme des %
de deux nombres n’est pas égale au % de la somme de ces deux nombres).
• Le niveau de granularité des données doit être comparable (ex. : les dépen-
ses sont connues au niveau poste de charge, les budgets sont établis au
niveau du regroupement de charges).
• Les données agrégées concernent des périodes différentes (ex. : fourniture
de données en provenance d’organismes extérieurs sur la base de la semaine,
alors que le traitement d’alimentation est quotidien).
• Les champs Null, espace ou vides ne possèdent pas la même codification
interne.
• Manque d’intégrité référentielle dans les données sources (chiffre d’affaire
réalisé sur le produit A alors que le client n’est pas référencé).
• La mise à jour de la table de faits dans le datawarehouse est quotidienne
alors que la table de dimension associée est mensuelle (risque de non cor-
respondance des données).
• Des lignes de données peuvent intégrer les lignes détail ainsi que les totaux
(risque de doubler les valeurs).
Les statisticiens
Les statisticiens disposeront d’outils puissants leur permettant d’analyser les cor-
rélations, ou d’effectuer des analyses prédictives. Ils se spécialiseront dans l’usage
des outils de data mining (fournis dans la version SQL Server S005 standard et
68 ————————————————————————————————————————————————————————————— 2. L’approche méthodologique
Enterprise). Ils pourront également se livrer à des scénarios afin d’en mesurer les
impacts (Les cubes en écriture associés à des outils tels que Desktop Professionnal
de Proclarity, permettront aisément de répondre à ce type d’analyse). Rappelons
qu’Excel dispose en standard de fonctions de simulations (Scénario) ou de réso-
lution de problème (Solver). Ces outils nécessitant une petite formation sont
malheureusement peu utilisés.
En conclusion nous pouvons affirmer que plus de 80 % des utilisateurs métier
ne désirent pas passer leur temps à créer des rapports, ou manipuler de l’infor-
mation. En revanche ils désirent des rapports ciblés, concis, avec des graphiques
clairs. Ils veulent passer le moins de temps possible à déchiffrer et prendre rapi-
dement les décisions nécessaires à l’action. Les 20 % restant représentent les ana-
lystes. Ils font le plus grand usage d’outils dynamiques et interactifs.
Organisation
Revendeur
Processus Métier
Comptes
Produits
Ateliers
Temps
Clients
Analyse des ventes X X X X X
Profitabilité
X X X X
par clients/produits
Finance.
X X X
Balance
Production
X X X X
Gestion de la capacité
150 000
50 000 Qtées
vendues
0 Retours
Roman Sciences Informatique
humaines
Dimensions
Indica-
teurs
Temps Produits Revendeur Clients Organisation
Figure 2.10 — Tableau croisé dynamique avec Excel (Ici version 2007)
3
Comment représenter
les données ?
Tableau Graphique
Les données sont représentées sous Les données sont traduites en images.
forme de nombres.
Les données sont disposées en lignes Les données sont affichées en relation
et colonnes. sur un ou plusieurs axes matérialisés
par une échelle qui donne du sens aux
valeurs.
Si vous désirez connaître une valeur précise telle que le taux de mai 1996, le
tableau permet d’y répondre de la meilleure façon possible. En revanche, si vous
désirez connaître l’évolution du taux sur l’année 1996 ou de la comparer avec
l’année 1997, le graphique sera une bien meilleure représentation (figure 3.2).
Le graphe ci-dessous (figure 3.3) met en évidence la distinction entre les don-
nées catégorielles représentées par l’étiquette de chaque série de données et les
données quantitatives sur l’axe vertical des ordonnées.
tels que petit, moyen, grand, ou mauvais, médiocre, moyen, bon, excellent ou
rouge vert, bleu, jaune.
Les données qui qualifient des intervalles non seulement définissent un cer-
tain ordre mais représentent également des valeurs. Il s’agit par exemple de séries
de plages de valeurs de taille égale. Exemple : tranche 1 de 0 à 99, tranche 2 de 100
à 199, tranche 3 de 200 à 299, tranche 4 de 300 à 399, etc.
Nb Adhérents
10
nt
de
18
si
ré
r d e- p
ité
Nombre de membres
tiv
c
Vi
40
'ac
t
in
eu
jo
ct
ad
107 Déposer
re
.
Di
eu D.G
champs
sit
Type de fonction
de
190 de séries
r
ici
n
io
ct
ct
re
350
n
Di
fo
tre
nt
ra
Au
643
G
n
io
ct
708
re
di
al
tre
ér
Au
én
1279
rg
eu
t
en
ct
id
re
Pr
u
.o
.G
D
P.
Fonction
40,0% 38,2%
35,0%
30,0%
25,0%
21,2%
19,2%
20,0%
15,0%
10,5%
10,0%
5,7%
5,0% 3,2%
1,2% 0,5% 0,3%
0,0%
sid ent
djo int
ral
ite
tiv ité
G éra nt
ir ecti on
on
s ident
ur de s
ur géné
ncti
ur d'ac
D.G . a
ou P ré
Vice-pré
Autre fo
Autre d
Dir ec te
Dir ec te
Dir ec te
P.D.G .
Type de m em bres
Production Prévu/Réalisé
30
25
25
20 20
18
20 17
en M €
14 13 Prévu
15
10 Réalisé
10
5
0
Janvier février mars Avril
Année 2006
Un exemple courant de ce type de graphe est celui qui rapproche des données
actuelles, par exemple des dépenses, par rapport à des données prévues – celles
d’un budget.
L’exemple de la figure 3.9 présente une variante du graphe d’écart. Seul
l’écart constaté est représenté. Il apparaît soit en positif (au-dessus de l’axe des
abscisses) soit en négatif (en dessous de l’axe des abscisses).
Dans le cas présent on créera une mesure calculée écart telle que :
écart = Réalisé – Prévu.
Écarts de production
20
15
15
10
en M €
5 3
–2 –1
0
Janvier février mars Avril
–5
Année 2006
une meilleure performance que les prévisions. Nous observons également que les
ventes de serveurs ont été bonnes jusqu’au dernier trimestre où elles ont chuté
de manière significative par rapport aux prévisions.
Les flèches quant à elles, montrent les évolutions de croissance. Les flèches
sont orientées vers le haut lorsque la croissance est supérieure à la période pré-
cédente, vers le bas lorsque la croissance est négative.
5. Relation de distribution
Un graphe de distribution permet de représenter comment un ensemble de don-
nées se répartit au sein d’un spectre unique. Il permet de représenter des phéno-
mènes de concentration ou d’absence de données. On peut parfois observer des
phénomènes de symétrie (courbe normale, ou courbe en cloche).
L’exemple de la figure 3.11 montre un pic de participation à un club profes-
sionnel entre 44 et 55 ans, puis un départ brutal à 60 ans.
120
100
80
60
40
20
0
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
72
73
79
6. Relation de corrélation
Un graphe de corrélation mesure le rapport qui existe ou non entre deux varia-
bles. Dans l’exemple ci-dessous il ne semble pas exister de rapport entre la taille
d’un employé et son salaire (la répartition des points est disparate).
Lorsqu’une corrélation est observée, les points ont tendance à se superposer
à une droite souvent matérialisée par la diagonale du graphe (figure 3.12).
n’ont aucun lien entre elles et leur ordre ne présente pas d’importance. Tout au
plus, est-il possible de présenter les variables selon un ordre croissant ou décrois-
sant afin d’établir un classement.
State
California
3M 100 %
City
Product
Alpha IIp750 Alpha IIp1K Omega J – 500 Ml-562 Omega J – 750 Mx Mark Xl/136 10 derniers
837 K 36 % 435 K 19 % 404 K 18 % 158 K 7% 141 K 6% 65 K 3% 262 K 11 %
1. Proclarity : société éditrice de logiciels basés sur les technologies OLAP de Microsoft. Cette société
a été acquise par Microsoft en avril 2006.
3.2 Les nouveaux outils offerts par le complément Proclarity ——————————————————————————————————— 85
Les villes sont maintenant regroupées par ligne de produits (PC et périphé-
riques). Les ventes sont en hausse dans toutes les villes, à l’exception des ventes
de PC à Los Angeles. (Los Angeles a subi une baisse de 77,6 % de ses ventes).
La croissance la plus élevée a été enregistrée pour les ventes de périphériques à
San Jose, comme l’indique la couleur claire en bas à droite.
Les vues en perspective sont un outil très utile pour détecter les écarts et
identifier ainsi les représentations de données qui sortent nettement de la norme.
Par exemple, la ville de New York (représentation de données en haut à droite)
se distingue clairement puisqu’elle présente à la fois le volume de ventes et le
volume de factures le plus élevé.
Cette vue en perspective fait ressortir d’autres informations :
• par rapport à New York, Chicago (représentation de données comprise
entre 6 et 8 millions de dollars de ventes) a enregistré pratiquement autant
de factures, mais nettement moins de ventes;
• aucune ville ne présente un ratio très déséquilibré Volume de factures faible/
Volume de ventes élevé;
• dans la zone représentant moins de 2 millions de dollars de ventes, une
ville présente un volume de factures élevé pour des ventes médiocres (Cle-
veland).
4
Entrepôt de données
et analyse décisionnelle
Ce chapitre présente succinctement les outils ainsi que les nouvelles méthodes
de développement de processus décisionnels qui en découlent.
Lors des consultations de business intelligence et de tableaux de bord que
nous donnons en entreprise, nous sommes souvent confrontés à deux types de
réaction de la part des managers et responsables informatiques.
D’un côté, les managers qui réfléchissent en termes de métier comprennent
aisément le concept d’entrepôt de données centralisateur de toutes les informa-
tions de l’entreprise et de leur historisation. Ils adhèrent volontiers à la notion
de tableau de bord de pilotage et comprennent spontanément le concept d’indi-
cateurs et d’axes d’analyse de leur métier. Les responsables opérationnels s’inter-
rogent même sur le fait que de telles solutions n’ont pas déjà été mises en place
dans leur organisation. Intuitivement, ils conçoivent que l’informatique devrait
les aider dans ce domaine. Et pourtant la technique de collecte des données de
l’entreprise ressemble souvent au parcours du combattant avec ses innombrables
ressaisies manuelles, ses tableaux mensuels déconnectés les uns des autres ne per-
mettant aucune consolidation annuelle. L’analyse sur deux années n’est souvent
pas à l’ordre du jour. La synthèse s’effectue dans un document final souvent réa-
lisé grâce à un logiciel de PAO. Les cadres, dont la vocation est de réfléchir à
la stratégie de l’entreprise, passent une grande partie de leur temps à collecter
l’information. Privés de leur capacité d’analyse, ils s’interrogent sur leur valeur
ajoutée dans l’organisation. Par manque de temps et surtout d’outils d’aide à la
décision, ils ne peuvent prendre suffisamment de hauteur. Ils restent dépendants
90 —————————————————————————————————————————————— 4. Entrepôt de données et analyse décisionnelle
d’un système d’information vis-à-vis duquel ils mesurent leur incapacité à le faire
évoluer.
D’un autre côté, les responsables des systèmes d’information passent une
grande partie de leur acticité à maintenir en état de fonctionnement des orga-
nisations techniques complexes. Les nombreuses fusions et acquisitions consta-
tées ces dernières années ont contraint les responsables IT à faire communiquer
des systèmes qui a priori n’avaient rien de commun tant sur le plan technique
que fonctionnel. Par ailleurs, les systèmes décisionnels disponibles depuis quel-
ques années sur le marché nécessitaient des équipes ultra-spécialisées à tous les
niveaux de la conception, les rendant de ce fait très couteux.
Tableau 4.1 — Répartition des modules SQL Server 2005 par composants
Lorsque les administrateurs mettent en œuvre SQL Server 2005, les modules
suivants sont installés :
• Moteur de la base de données relationnelle;
• Integration services;
• Analysis Services;
• Reporting Services (nécessite le gestionnaire des services Internet IIS ins-
tallé et configuré sur le serveur);
• SQL Server Management Studio pour la gestion des bases de données;
• BIDS (business intelligence Development Studio) pour le développement
d’applications BI.
Par exemple si nous disposons de trois cubes différents, chacun présente une
dimension « Client » propre. Dans le premier cube, la notion de client se définit
comme : « toute personne qui a commandé un article depuis 2 ans ». Dans le
deuxième, un client représente « toute personne qui présente un chiffre d’affaires
de plus de 10 k€ ». Dans le troisième cube, le client est « toute personne qui
dispose d’une adresse complète et valide ». Nous le voyons, ces trois cubes ont
été développés pour des départements différents et présentent un sens différent.
Maintenant, imaginez que le directeur de chaque département décide de présen-
ter dans un tableau de synthèse les dépenses annuelles de publicité réalisées par
client. Les résultats, bien que différents, paraîtront à chacun cohérents. Si les
trois dirigeants tentent maintenant de confronter leurs résultats, des écarts sen-
sibles apparaîtront. La raison en est que la dimension Client est interne à chaque
cube et non partagée par l’ensemble des trois cubes. Nous montrerons comment
UDM fournit une réponse élégante à ce problème.
SQL Server 2005 répond à tous ces défis en offrant plusieurs composants nou-
veaux. Les plus largement commentés sont UDM (Unified Dimensional Model)
et le cache Proactif. Voici quelques-unes des innovations.
4.3.1 Les vues des sources de données (Data Source Views, DSV)
Les systèmes BI extraient leurs données d’un grand nombre de sources différentes.
La nouvelle technologie du DSV permet à l’administrateur du cube de concevoir
un accès aux données des ERP ou d’autres systèmes opérationnels. Les adminis-
4.3 Les nouveaux composants dans SQL Server 2005 ————————————————————————————————————————— 97
Notification Services est utile chaque fois qu’un utilisateur désire s’abonner
à un service de réception automatique de documents ou lorsque des événements
se produisent sur tel ou tel critère. On parlera de souscription d’abonnements
pilotés par les données.
5
Introduction
à Integration Services
Quel que soit le projet de business intelligence, le processus d’ETL a pour seul but
de fournir de solides fondations au référentiel de données et aux fonctions de repor-
ting et d’analyse. Nous pensons que la phase d’ETL doit être menée avec une vigi-
lance toute particulière car elle conditionne la qualité de la chaîne décisionnelle.
Ce chapitre a pour objectif de présenter les différents composants d’Integra-
tion Services associé à business intelligence Development Studio. Nous intro-
duirons différents concepts tels que les flux de contrôle et les flux de données. Nous
présenterons les nombreux outils et assistants dont la vocation est de simplifier
le travail de programmation ou d’administration des techniciens de la business
intelligence. Afin d’illustrer SSIS, nous procéderons à la génération automatique
d’un lot visant à alimenter une table de dimension dans l’entrepôt de données.
Nous présenterons les différentes tâches qui ont été créées automatiquement et
découvrirons leur contenu avant de créer un lot de toutes pièces.
Nous donnerons également un aperçu de l’ensemble des tâches inclus dans
les flux de contrôle et les flux de données.
Bien que la fonction principale d’un ETL réside dans l’alimentation du data-
warehouse, SSIS fournit de nombreux outils visant à automatiser un grand nom-
5.1 Présentation de SQL Server Integration Services (SSIS) ————————————————————————————————————— 103
Un lot SSIS peut également substituer des valeurs de champs par recherche
de valeurs issues d’une table de référence (fonction lookup). SSIS dispose d’algo-
rithmes de recherche exacte ou floue à des fins de substitution et de standardisa-
tion. Par exemple, dans les cas d’une récupération d’adresses de prospects, la ville
peut être mal orthographiée (Pari au lieu de Paris). L’algorithme de recherche
floue permet de conserver la bonne orthographe et ainsi de standardiser les
valeurs dans le référentiel de l’entreprise. Ce même type d’algorithme permet
également de détecter des doublons lors de l’introduction de nouvelles adresses
et ainsi d’effectuer un traitement spécifique.
Dans ce chapitre, vous apprendrez à utiliser SSIS pour créer un lot dont la
finalité sera de récupérer des données en provenance de Access et Excel, puis
d’insérer ces données dans une table de dimension de l’entrepôt de données.
Figure 5.8 — L’onglet présentant l’explorateur des objets contenus dans un package
5.1 Présentation de SQL Server Integration Services (SSIS) ————————————————————————————————————— 111
Figure 5.11 — Liste des connecteurs standard disponibles dans DTS 2000
Les packages définis dans SQL Server 2000 peuvent être récupérés dans SSIS
selon trois stratégies :
• Migrer les packages DTS au format SQL Server 2005. Cette migration
n’est possible que si les lots DTS 2000 n’utilisent que des fonctionnalités
ayant un équivalent dans SSIS 2005. Si lors de la migration l’assistant
détecte des erreurs, il convient alors d’utiliser une des deux stratégies sui-
vantes.
5.3 Migrer une base SQL Server 2000 vers SQL Server 2005 ——————————————————————————————————— 113
• Exécuter les lots DTS en utilisant le runtime DTS de SQL Server 2000.
• Intégrer ou encapsuler les lots DTS dans une solution SSIS 2005.
Ces assistants sont disponibles dans les versions SQL Server 2005 Standard,
Enterprise ou Developer.
L’assistant de migration est intégré à SSIS. Projet puis Migrer un package
DTS 2000.
Le site msdn de Microsoft recense les problèmes connus liés à la migration des
packages 2000 vers 2005 (http://msdn2.microsoft.com/fr-fr/library/ms143462.aspx).
Le processus de migration d’une base de données SQL Server 2000 vers 2005 peut
être réalisé grâce à une sauvegarde de la version 2000 (exemple Northwind.bak).
Dans Management Studio 2005, procéder à la création de la base NorthWind.
La restauration de la base SQL 2000 vers SQL Server 2005 nécessite d’établir
la compatibilité descendante vers SQL Server 2000 lors de la création de la base
dans SQL Server Management Studio 2005.
Nous verrons dans le paragraphe suivant que SSIS dispose également d’une
fonction permettant d’effectuer le transfert de base du format SQL 2000 vers
SQL 2005.
Dans la figure 5.13, la tâche « Create tables » est incluse dans la boucle qui
porte le nom « Run SQL Statements ». Cette tâche sera donc répétée.
La liste des fichiers dans le conteneur de type répertoire est donnée figure 5.14.
5.4 Tâches d’intégration services ——————————————————————————————————————————————————————————— 115
Figure 5.16 —
Variable utilisateur
dans l’éditeur
de boucle
Conteneur de séquences
Le conteneur de séquences regroupe un sous-ensemble de tâches pour mieux
structurer le package. Il offre l’avantage de pouvoir être désactivé, ce qui a pour
conséquence de désactiver toutes les tâches qui le composent. Cette fonction-
nalité est particulièrement intéressante en phase de débogage. Il est possible éga-
lement de définir des propriétés sur le conteneur plutôt que sur chacune des
tâches qui le composent.
5.4 Tâches d’intégration services ——————————————————————————————————————————————————————————— 119
• les sources précisent les connecteurs vers les sources de données (fichiers
plats, tables ou vues SQL);
• les transformations modifient les données;
• les destinations chargent les données.
Source
Transformation
Transformation
Destination
Figure 5.20 – La tâche de flux de données alimente une destination (table SQL Server,
fichier plat, etc.) à partir des données sourcesTâche de requête d’exploration de données
Cette tâche exécute des requêtes basées sur des modèles prédictifs intégrés à
Analysis Services. Par exemple, lors du chargement de données dans une base,
une telle requête peut prédire si un nouveau prospect est susceptible d’acheter
ou non tel ou tel article et d’isoler les cas dans des tables intermédiaires. La
requête est une instruction DMX (Data Mining Extensions).
120 ———————————————————————————————————————————————————————— 5. Introduction à Integration Services
Tâche de script
Cette tâche permet au programmeur de réaliser des fonctions non disponibles
dans les tâches intégrées de SSIS.
‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘
Sub Process_Control()
Dim rstResult
‘Requete de non correspondance
StrQuery = "SELECT FactFinance.CompanyId, FactFinance.AccountId,
FactFinance.ActivityId, FactFinance.CurrencyId, FactFinance.Projec-
tId, FactFinance.TimeId, FactFinance.AppealId, FactFinance.Scena-
rioId, FactFinance.DataCHF, FactFinance.DataLocalCurr,
FactFinance.LineDescription FROM FactFinance LEFT JOIN DimActivity ON
FactFinance.ActivityId = DimActivity.ActivityId WHERE DimActi-
vity.ActivityId Is Null"
‘Get the ADO Recordset
Set rstResult = ExecuteSQL(strQuery)
‘If the Recordset is not empty then proceed
If Not (rstResult.Eof and rstResult.Bof) Then ‘non vide
Msgbox "Non vide = failure"
OK_or_KO = "KO"
Else ‘vide
MsgBox "vide = Success"
OK_or_KO = "OK"
End If
‘Clean up variables
Set rstResult = Nothing
End Sub
‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘
‘Name : Function ExecuteSQL
‘Author : B Burquier
‘Purpose : Executes a SQL statement
‘Return ADO Recordset
‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘
Function ExecuteSQL(mySQLCmdText)
‘ instantiate the ADO objects
Dim myConn
Dim myRecordset
set myConn = CreateObject("ADODB.Connection")
set myRecordset = CreateObject("ADODB.Recordset")
‘ set the connection properties to point to the database using
the constant
myConn.Open = DB_CONNECT_STRING
myRecordset.Open mySQLCmdText, myConn
Set ExecuteSQL = myRecordset
End Function
122 ———————————————————————————————————————————————————————— 5. Introduction à Integration Services
Figure 5.23 —
Exécution
d’un processus
de décompression
d’un fichier zippé
(expand.exe)
Tâche FTP
Cette tâche permet de télécharger des fichiers de données entre serveurs. Par exem-
ple, elle peut récupérer quotidiennement tous les fichiers des ventes des succur-
sales sur un serveur central exécutant la consolidation dans le datawarehouse.
Tâche MSMQ
La tâche MSMQ (Microsoft Message Queuing) permet d’envoyer et recevoir des
messages entre différents packages Integration Services ou d’envoyer des messa-
ges à une file d’attente traitée par une application personnalisée. Par exemple,
la tâche peut mettre en file d’attente les messages destinés aux ordinateurs por-
tables hors connexion des représentants commerciaux.
Tâche XML
La tâche XML est utilisée pour travailler avec des données XML. Il est possible
de remettre en forme un document XML et de lui appliquer une feuille de style
XSLT.
SQL script
EXECUTE sendmail_sp Service Broker SMTP Server
queue
sqlimail90.exe
msdb
SQLiMail Configuration
sendmail_sp Stored Procedure Service Broker
mailhost
Email messages
Logs
SSIS offre trois types de composants de flux de données. Les sources, les trans-
formations et les destinations. Dans le schéma de la figure 5.29, nous observons
que les sources puisent leurs données dans les colonnes externes en provenance
d’une base de données ou d’un fichier plat en s’appuyant pour cela sur une connexion
pointant vers la source de données. Le mode d’accès précise le type de source
(vue, table, fichier, etc).
Les sources comportent des colonnes externes en entrée et des colonnes de sortie.
Il est possible de sélectionner les colonnes externes qui participent à la sélec-
tion de sortie normale.
La sortie d’erreur d’une source contient les mêmes colonnes que la sortie nor-
male plus deux colonnes supplémentaires : ErrorCode indique le code erreur et
ErrorColumn indique la colonne contenant l’erreur. Les colonnes de sortie devien-
nent à leur tour les colonnes d’entrée du composant de transformation.
Les transformations comportent des colonnes d’entrée et des colonnes de sortie.
Certaines transformations permettent de fusionner plusieurs entrées en une seule
colonne de sortie ou d’éclater une entrée en plusieurs colonnes de sortie.
130 ———————————————————————————————————————————————————————— 5. Introduction à Integration Services
Les destinations comportent des colonnes d’entrée. Une destination écrit direc-
tement dans une table de la base de données ou dans un dataset en mémoire.
Des colonnes de sortie d’erreur peuvent intercepter des traitements ne pouvant
aboutir, par exemple la mise à jour d’un champ de la table avec une valeur null
alors que ce champ n’autorise pas les valeurs nulles.
Figure 5.30 —
Mappage
des colonnes dans
le cas d’une source
DataReader
Un fichier plat peut être de format texte, avec des champs délimités par des carac-
tères spéciaux, de largeur fixe, ou les deux.
Dans le formulaire de la figure 5.31, on précisera le type de séparateur de ligne
et de colonnes (tabulateur, guillemet, virgule).
Le choix des paramètres régionaux permet de définir le format des données
selon la localisation de la source (format date anglo-saxon ou français, format
numérique, etc.). Dans la figure 5.31, on observe une source de données au for-
mat anglais (États-unis).
L’affichage des colonnes après définition des types de colonne est montré
figure 5.32.
Source Excel
La source Excel extrait des données de feuilles de calcul Excel entières ou de
plages nommées. Les formats pris en compte sont Excel 3, 4, 5 et les versions 97
à 2005.
Source OLE DB
La source OLE DB pointe sur des tables relationnelles. La figure 5.33 présente
les différents fournisseurs OLE DB fournis par le gestionnaire de connexion.
5.5 Composants des flux de données ———————————————————————————————————————————————————————— 133
Audit
La transformation d’audit permet d’ajouter des colonnes au flux de données, afin
d’obtenir des informations relatives à l’environnement au moment de l’exécu-
tion. Les colonnes d’audit concernent l’identifiant GUID, l’identificateur du
package, le nom ou la version du package, l’heure à laquelle le package a com-
mencé, le nom de l’ordinateur et de la tâche exécutée.
Colonne dérivée
Une colonne dérivée résulte de l’application d’une fonction qui s’applique sur
d’autres colonnes ou variables du package. Par exemple, la colonne dérivée Nom-
Complet résulte de l’expression Prénom + " " + Nom. L’expression DATEPART ("year",
GETDATE()) renvoie l’année en cours.
Commande OLE DB
La transformation de commande OLE DB exécute une instruction SQL pour
chaque ligne d’un flux de données. Il est ainsi possible d’exécuter une instruction
SQL qui insère, met à jour ou supprime des lignes d’une table de base de données.
DELETE FROM Dimcustomer WHERE CustomerKey = ?
134 ———————————————————————————————————————————————————————— 5. Introduction à Integration Services
Composant script
Ce composant permet d’écrire du code de script personnalisé. Le composant
script peut être utilisé en tant que source, transformation ou destination. On utilise
le composant script lorsqu’il s’agit de lire un fichier dont le format n’est pas pris
en charge par le gestionnaire de connexion de SSIS. Un script peut appliquer
plusieurs transformations simultanées. Un script peut naturellement exécuter des
fonctions personnalisées qui n’existent pas dans la bibliothèque des fonctions
fournies nativement par SSIS.
Conversion de données
Ce composant permet de convertir les données d’une colonne d’entrée en un
type de données différent. La donnée convertie peut soit remplacer la colonne
existante, soit être ajoutée dans une nouvelle colonne.
Copie de colonnes
Cela permet de créer de nouvelles colonnes qui sont la copie de colonnes exis-
tantes. Les nouvelles colonnes permettent de fournir une plus grande flexibilité
dans le cadre de nouveaux calculs, de transformation ou de mapping avec des
colonnes de destination.
5.5 Composants des flux de données ———————————————————————————————————————————————————————— 135
Figure 5.35 — Visual Studio for Application s’ouvre pour créer le script
• modification d’attribut;
• modification d’attribut d’historique;
• modification d’attribut fixe;
• modification de membre inféré.
transformation de dimension à variation lente dirige ces lignes vers une sortie
nommée Sortie de mises à jour d’attribut de validation.
Les modifications d’attribut d’historique créent de nouveaux enregistrements
au lieu de mettre à jour les enregistrements existants. La seule modification auto-
risée dans un enregistrement existant est une mise à jour d’une colonne qui indi-
que si l’enregistrement est actif ou expiré. Ce type de modification qui préserve
l’historique équivaut à une variation de type 2. La transformation de dimension
à variation lente dirige ces lignes vers deux sorties : Sortie d’insertions d’attribut
d’historique et Nouvelle sortie.
Les modifications d’attribut fixe indiquent que la valeur de colonne ne doit pas
changer. La transformation de dimension à variation lente détecte les modifications
et peut diriger les lignes modifiées vers une sortie nommée Sortie d’attribut fixe.
Membre inféré indique que la ligne est un enregistrement de membre déduit
dans la table de dimension. Un enregistrement de membre inféré est un membre
de dimension inconnu. Un enregistrement de membre inféré minimal est créé
en prévision des données de dimension pertinentes, qui sont fournies dans un
chargement ultérieur des données de dimension. La transformation de dimension
à variation lente dirige ces lignes vers une sortie nommée Sortie de mises à jour
de membre déduit.
Comment fonctionne l’assistant de création de dimension à variation lente
Sélectionnez le gestionnaire de connexions pour accéder à la source de données
qui contient la table de dimension à mettre à jour.
Vous pouvez effectuer une sélection dans une liste de gestionnaires de
connexions inclus dans le package.
Sélectionnez la table ou vue de dimension à mettre à jour.
Après avoir choisi le gestionnaire de connexion, vous pouvez sélectionner la
table ou la vue à partir de la source de données.
Sélectionnez les attributs clés sur les colonnes et mappez les colonnes d’entrée
aux colonnes de la table de dimension.
Vous devez sélectionner au moins une colonne de clé d’entreprise dans la table
de dimension et la mapper à une colonne d’entrée. D’autres colonnes d’entrée
peuvent être mappées à des colonnes de la table de dimension en tant que map-
pages non-clés.
Sélectionnez le type de modification pour chaque colonne :
lui affecter les valeurs Current et True pour les lignes actives et Expired et False
pour les lignes expirées. Vous pouvez également entrer des valeurs personnali-
sées. Si vous utilisez deux colonnes de date, une de début et une de fin, vous
pouvez spécifier la date à utiliser lors de la définition des valeurs de colonnes de
date en tapant une date ou en sélectionnant une variable système et en utilisant
sa valeur.
La figure 5.40 illustre un exemple de flux de données qui prend en charge les
modifications d’attributs fixes, d’attributs variables et d’attributs d’historique, et
les modifications d’enregistrements correspondants.
Échantillonnage de ligne
Il permet de sélectionner un sous-ensemble des données sources de manière aléa-
toire. L’échantillonnage est basé sur un nombre de ligne à extraire.
Échantillonnage du pourcentage
Il permet de sélectionner un sous-ensemble des données sources de manière aléa-
toire. L’échantillonnage est basé sur un nombre de ligne correspondant à un
pourcentage du flux d’origine.
Importation de colonne
Importe les données de fichiers vers les lignes d’un dataset. Il est possible de
spécifier les colonnes de données à extraire puis de sélectionner ligne à ligne le
fichier de destination.
Jointure de fusion
Elle établit une fusion entre des données en provenance de deux flux de données.
Cela équivaut à effectuer une jointure entre deux tables. Ainsi, par exemple,
une table Produits peut être jointe à une table Catégorie de produit par une clé
étrangère (CatProd) permettant d’établir la jointure entre les deux tables. Il est
possible d’établir des jointures FULL, LEFT, INNER. Les colonnes qui établis-
sent la jointure doivent être de type compatible. Les deux tables doivent être
triées préalablement sur le champ permettant la jointure.
5.5 Composants des flux de données ———————————————————————————————————————————————————————— 141
Multidiffusion
La transformation de multidiffusion dirige sa sortie vers une ou plusieurs sorties.
Chaque ligne d’entrée dirige ses données vers chaque sortie.
Nombre de lignes
Cette transformation détermine le nombre de lignes dans le flux de données. Le
compteur est ensuite stocké dans une variable du package. La variable peut
ensuite être récupérée afin de modifier le flux de contrôle ou le flux de données.
Recherche
Cette transformation exécute une requête dans un ensemble de référence (table,
vue). Le paramètre d’extraction est fourni par une colonne du flux d’entrée. La
table de référence renvoie un ou plusieurs champs en retour.
Recherche de terme
On recherche les occurrences d’un ensemble de mots ou de phrases dans un flux
de données comportant du texte libre. Le résultat de cette transformation est un
ensemble de lignes précisant le comptage d’occurrences trouvées et le terme de
la table de référence.
Recherche floue
La transformation de recherche floue permet d’effectuer des tâches de nettoyage
dans le but de corriger, puis de standardiser les données. L’algorithme de recher-
che floue permet également de fournir des données manquantes. Cette transfor-
mation présente un fort intérêt lorsque les données en entrée ont fait l’objet
d’une saisie libre et n’ont pas été contrôlées à la source.
Regroupement probable
La transformation de regroupement probable identifie des lignes de données sus-
ceptibles d’être des doublons. Une correspondance exacte garantit que seules les
colonnes possédant des valeurs identiques dans cette colonne seront regroupées.
Une correspondance approximative regroupe des lignes ayant des données
approchantes. C’est l’utilisateur qui définit le score de similarité basé sur une
notion de distance entre deux chaînes de caractères. Paris et Pari ont une dis-
tance de 1 car un seul caractère sépare les deux mots. Idem pour Cathy et Kathy.
En revanche Kathy et Kathryn ont une distance de 2.
1234 04 50 60 01 02 01 69 30 03 04 06 80 47 13 15
2345 05 06 07 08 09 05 07 08 09 10 05 07 08 09 11
1234 Domicile 04 50 60 01 02
1234 Travail 01 69 30 03 04
1234 Mobile 06 80 47 13 15
2345 Domicile 05 06 07 08 09
2345 Travail 05 07 08 09 10
2345 Fax 05 07 08 09 11
Table de caractères
La transformation de table de caractères permet d’effectuer des conversions sur
des colonnes de type chaîne de caractères. Il est possible de convertir des chaînes
en minuscules ou majuscules, d’inverser l’ordre des caractères.
Tri
Cette fonction trie les données d’entrée dans l’ordre croissant ou décroissant et
copie les données triées dans la sortie. Plusieurs imbrications de tri sont possibles
et pour chaque colonne triée, il est possible de préciser l’ordre ascendant ou des-
cendant.
5.5 Composants des flux de données ———————————————————————————————————————————————————————— 143
Unir tout
La transformation d’union totale permet de combiner plusieurs entrées en une
seule sortie. On reparle de concaténation des sources de données. La première
entrée fournit le format qui servira à mapper les colonnes avec le flux de sortie.
Les données ont maintenant été transformées dans le format attendu, nous
devons maintenant les stocker dans une destination. Voici les options disponi-
bles pour le stockage des données (figure 5.43) :
Choisissons la destination SQL Native Client sur le serveur local (figure 6.5).
Parmi la liste des sources disponibles dans Access, sélectionnons la table Pro-
duits (figure 6.7).
• deux connexions (une connexion pour la source des données et une pour
leur destination);
• trois tâches de flux de contrôle :
SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[Clients](
[FirstName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[MiddleInitial] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[LastName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[BirthDate] [datetime] NULL,
[MaritalStatus] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[Gender] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[EmailAddress] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[YearlyIncome] [float] NULL,
[TotalChildren] [float] NULL,
[NumberChildrenAtHome] [float] NULL,
[Education] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[Occupation] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[HouseOwnerFlag] [float] NULL,
[NumberCarsOwned] [float] NULL,
[AddressLine1] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[AddressLine2] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[City] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[State] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[ZIP] [float] NULL,
[Phone] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL
) ON [PRIMARY]
Revenons dans notre projet d’import des données dans Visual Studio.
Dans l’onglet Flux de données, glissons à deux reprises une tâche d’exécution
de requête SQL. La première consiste à effectuer un DROP de la table Clients.
158 ———————————————————————————————————————————————————————————————— 6. Règles d’ETL et assistants
Depuis les sources de flux de données, faire glisser la source Excel sur l’onglet
Flux de données, puis double-cliquez sur la tâche Source Excel.
Figure 6.20 —
Le gestionnaire
de connexion Excel
permet d’établir
un lien avec le fichier
Customers.xls
160 ———————————————————————————————————————————————————————————————— 6. Règles d’ETL et assistants
Sauvegardez tous les fichiers puis exécutez le lot par la touche F5.
Les tâches se déroulent en parallèle.
Stoppez le débogage après exécution.
Prenez la précaution de contrôler le contenu des deux tables Clients et Pro-
duits à l’aide de Management Studio. Faire un clic droit sur le nom de la table
puis ouvrir la table. Observez le contenu de la table et le nombre d’enregistre-
ments situé en bas de page.
Ajoutons à présent une tâche d’envoi de courriel à l’administrateur afin d’être
prévenu en cas d’achèvement sans échec ou en cas d’échec.
Dans l’onglet Flux de contrôle, ajoutons deux tâches « Envoyer un message ».
Créez une connexion SMTP pour l’envoi de courriel (figure 6.22).
6.1 Utiliser l’assistant pour générer un lot import ————————————————————————————————————————————— 161
Choisir la destination.
• Les paramètres attachés aux lots DTS 2000 ne sont pas récupérés par SQL
Server 2005.
Installation du déploiement
L installation du déploiement permet de stocker le package sur le serveur Inte-
gration services.
L’Assistant Installation de package vous accompagne dans le processus d’ins-
tallation des packages sur le système de fichiers et sur SQL Server.
Clic droit sur <nom de projet>.SSISDeploymentManifest. puis deploy.
Lors de l’exécution d’un travail de l’agent SQL préciser qu’il s’agit d’un pac-
kage SQL Server Integration services et que la source de fichiers est Système de
fichiers (pour les packages au format XML). Vous devez également fournir l’empla-
cement du package déployé précédemment sur le serveur SSIS.
Avant de planifier l’exécution du package vous pouvez le tester dans son envi-
ronnement de production (Clic droit puis exécuter le package).
Ci-dessus nous avons programmé une exécution du package leçon 1.dtsx tou-
tes les nuits du lundi au vendredi à 0 h 00.
Le moniteur d’activité des travaux de SQL server Agent permet de suivre
l’exécution des travaux et leur traçabilité.
Vous pouvez également consulter la visionneuse du fichier journal.
6.2 Concept de packages dynamiques —————————————————————————————————————————————————————— 171
Il existe un grand nombre d’outils visant à modifier les tâches qu’un package
(lot) peut exécuter. Pour ce faire, SSIS dispose d’un jeu de variables et d’expres-
sions utilisées dans le flux de contrôle et les transformations des flux de données.
Les configurations ont pour but de modifier l’environnement de travail d’un package
SSIS (par exemple, changement de serveur et des sources de données lors de la
mise en production).
Les identificateurs sont utilisés dans des expressions qui sont inconnues jusqu’à
l’exécution du package. Les identifiants peuvent représenter des variables :
• @Filename
• @_LoopCounter
• @PakageName
Les identificateurs qui représentent des variables sont toujours précédés par
le caractère @.
Les fonctions mathématiques sont supportées par les expressions.
Exemple
ABS(-1234) fournit le résultat 234
ROUND(12.3456) fournit le résultat 12.35
On retrouve également des fonctions sur les chaînes de caractères : TRIM(),
UPPER(), SUBSTRING(), etc.
Des fonctions portant sur les dates existent également : DATEDIFF(), DATEPART(),
GETDATE(), MONTH (), YEAR(), etc.
Les variables sont utilisées pour passer des informations entre les différentes par-
ties d’un package. Elles peuvent être passées d’une tâche de transformation de
données à un autre ou d’une tâche de contrôle vers le gestionnaire de connexion.
C’est le cas par exemple lorsqu’une tâche a pour but de balayer tout un répertoire
afin de traiter tour à tour chacun des fichiers qui le compose. La tâche recueille
donc chaque fichier puis passe dans une variable, au gestionnaire de connexion,
le nom du fichier en cours de traitement.
Les variables peuvent être créées grâce au bouton d’ajout de variable. Les
noms de variables et leur type doivent être fournis lors de la création. Il est pos-
sible également d’allouer une valeur initiale. Afin de préserver les performances
de SSIS lors de l’exécution, les variables sont fortement typées. L’étendue de la
variable définit la visibilité de celle-ci dans le package.
La tâche d’exécution SQL de la figure 6.40 est développée ci-dessous. Cette
requête permet d’insérer des lignes dans la table AuditPkgExecution tout en
recueillant les valeurs à partir de variables alimentées au cours de l’exécution du
package. Dans la figure 6.41 les variables système et utilisateurs sont transférées
aux paramètres. A leur tour, ces paramètres (dont le nom commençe par le signe @)
sont transmis dans la requête SQL (voir requête ci-dessous).
Cet exemple montre comment il est possible d’auditer les tâches qui s’exé-
cutent dans un package. Dans l’exemple ci-dessus on conserve la trace des trai-
tements dans une table de l’entrepôt de données(AuditPkgExecution) recevant
les variables système ou utilisateur, en particulier le nom du package lancé et
la date de début de l’exécution. Voici la requête correspondant à la tâche Get
PkgExecKey.
INSERT INTO AuditPkgExecution
(PkgName, PkgGUID, PkgVersionGUID, PkgVersionMajor, PkgVersionMinor,
ExecStartDT, ParentPkgExecKey)
Values
(@PkgName, @PkgGUID, @PkgVersionGUID, @PkgVersionMajor, @PkgVersion-
Minor, @ExecStartDT, @ParentPkgExecKey)
Dans le fichier XML de la figure 6.43 le nom du répertoire a été passé en para-
mètres entre les balises ConfiguredValue.
176 ———————————————————————————————————————————————————————————————— 6. Règles d’ETL et assistants
Bien que non obligatoire pour la création des cubes OLAP, l’étape de création
du datawarehouse est fortement conseillée.
OLAP (On line Analytical Processing) et le data mining (fouille de données) font
partie des technologies que les managers utilisent pour rassembler, stocker, inter-
roger et analyser des données historiques. Ces technologies font partie des outils
d’aide à la décision. Les applications OLAP sont généralement utilisées pour
fournir des réponses aux questions relatives aux performances de l’entreprise. Par
exemple, une chaîne de distribution utilisera un cube décisionnel afin d’élaborer
des graphiques des ventes pour un grand nombre de lignes de produits croisés
avec des régions et des périodes de temps afin de pouvoir par exemple répondre
7.1 OLAP et le data mining ———————————————————————————————————————————————————————————————— 181
à la question : « Quels sont les ventes réalisées en quantité et valeur par point
de vente pour chaque collection d’ouvrages ? ». S’il le désire, l’analyste peut sim-
plement ajouter un critère supplémentaire afin d’obtenir le même tableau en
comparant 2004 avec 2005 en cumul depuis le début de l’année.
Le data mining en revanche, utilise des algorithmes de reconnaissance de
modèles afin de détecter des comportements particuliers, des corrélations ou des
tendances dans les données. Une fois détectés, ces modèles et tendances sont
utilisés à des fins de prédiction dans le cadre de processus d’affaires telles que
prévisions des ventes, segmentation de populations d’individus aux comporte-
ments similaires. Ces techniques sont également utilisées afin de mettre en place
des systèmes de ventes additionnelles (up-sell) ou ventes croisées (cross-sell).
Les cubes OLAP et les techniques de data mining sont basées sur des données
collectées et agrégées au sein des entrepôts de données.
Rappelons que la finalité d’un entrepôt de données (datawarehouse) est de
stocker et historiser des volumes importants de données. Ce processus a été illus-
tré au chapitre précédent grâce à SSIS. Nous l’avons vu, les entrepôts de données
sont alimentés grâce à des outils ETL (Extract, Transform, and Load). Ces outils
ont pour vocation d’extraire et de structurer les données en provenance des bases
de données opérationnelles dites OLTP (On Line Transactional Processing). La
phase d’ETL réalise également un nettoyage des données suivi généralement
d’une phase d’agrégation au sein des entrepôts.
À leur tour, ces données agrégées font l’objet d’une alimentation dans des
bases de données multidimensionnelles appelées cubes OLAP.
Un cube est défini par un certain nombre de dimensions ou axes d’observation.
Au croisement de ces dimensions se trouvent des mesures ou indicateurs. En
général, le cube permet des analyses ad hoc et des requêtes dynamiques ayant un
caractère naturel et intuitif.
Les utilisateurs accèdent aux cubes OLAP grâce à des outils d’analyse offrant
ainsi la capacité de réaliser à la volée des tableaux de synthèse et rapports gra-
phiques.
La structure hiérarchisée des dimensions permet une analyse en profondeur
des données grâce à la technique du drill down et du roll-up. Ces techniques per-
mettent un forage progressif des données en passant du niveau le plus élevé au
niveau de détail le plus fin (drill down) ou selon un cheminement inversé (drill up).
Par exemple, un utilisateur peut effectuer un drill down sur la dimension tempo-
relle afin de visualiser des indicateurs de ventes ou de revenus par année, puis
par trimestre, par mois et enfin par jour. Il sera alors aisé de déceler des variations
saisonnières ou des tendances à partir des graphes dynamiques générés automa-
tiquement. De la même manière, un chef de ventes sera capable d’analyser, pour
182 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
un produit donné, les ventes effectuées la veille par point de vente puis d’agréger
rapidement les données au niveau semaine, mois, trimestre ou année (drill up).
Les technologies OLAP, par leur aspect dynamique, et synthétique complè-
tent les outils de reporting tels que Reporting Services (inclus dans SQL Server
2005). Les outils de reporting sont généralement utilisés afin de fournir des vues
statiques au travers de rapports instantanés à partir des données de l’entrepôt. À
la différence des outils de requêtage OLAP, les fonctions de forage dynamique
et de changement d’axes à la demande y sont absentes.
L’exemple de la figure 7.2 montre la structure du cube faisant apparaître les
trois dimensions ou axes d’analyse : dimension Produits, dimension Région, dimen-
sion Temps. La mesure analysée au croisement des trois axes est l’indicateur de
volume en valeur.
9 000 €
Quel a été le volume de commande
■ Pour le Produit veste Mars
Fevr.
■ Dans la région ouest…
Janvier
■ Pour le mois de mars…
Est
Régions
Ouest
Nord
Sud
Chaussure
Bonnet
Veste
Produit
Dans cet exemple, l’outil de restitution du cube est le tableau croisé dyna-
mique d’Excel. On observe l’indicateur de volume du chiffre d’affaires (9 000 €)
réalisé sur les ventes des vestes pour la région Ouest et pour le mois de mars. On
verra lors de l’étude des outils de restitution que cette analyse ne prend que quel-
ques secondes au manager opérationnel ou au contrôleur de gestion doté de son
outil favori : Excel.
7.2 Points d’amélioration entre Analysis 2000 et SSAS 2005 ——————————————————————————————————— 183
• mesures semi-additives;
• dimensions temporelles intelligentes;
• de compte;
• d’agrégations financières;
• de conversions monétaires.
Le nouveau langage de définition des données (DDL dans SSAS 2000) est
maintenant au format XML. XML/A (XML for Analysis) est le nouveau pro-
tocole qui assure la communication avec le serveur Analysis. Ainsi, de nouvelles
sortes d’applications sont rendues plus faciles à développer et permettent aux
postes client d’accéder directement à des services web sans installation locale.
Les calculs sont centralisés sur le serveur et non plus sur le poste client sup-
primant ainsi le cache client et l’amélioration des calculs complexes.
Le nouvel environnement de développement d’applications est maintenant
unifié dans business intelligence Development Studio. Le nouvel environnement
d’administration est SQL Server Management Studio (Enterprise Manager dans
la version SQL Server 2000).
Un nouveau modèle d’autorisations d’accès a été redéfini. Les nouveaux rôles
sont :
• administrateur de serveur;
• administrateur de base de données;
• droits sur les objets de processus et de structure.
SQL Server Management Studio administre aussi bien les bases de données
SQL Server que les bases Analysis.
Dans la figure 7.3, le volet de gauche fait apparaître les composants de SQL.
On observe également le serveur Analysis Services avec ses composants UDM.
La nouvelle console d’administration remplace en les regroupant Enterprise
Manager et Analysis Manager de SQL Server 2000.
Les requêtes SQL et MDX sont analysées dans le même outil.
Le nouveau modèle objet AMO (Analysis Management Objects) remplace DSO.
Pour des raisons de compatibilité, DSO est supporté.
186 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
Types de dimensions
Analysis Services 2000 comporte deux types de dimensions : hiérarchique régulière
et parent-enfant.
7.2 Points d’amélioration entre Analysis 2000 et SSAS 2005 ——————————————————————————————————— 187
la technique des perspectives qui consiste à créer une vue représentant un sous-
ensemble de mesures et dimensions. Des niveaux d’accès sécurisés peuvent être
attribués à chaque perspective.
Il résulte de cette nouvelle organisation de meilleures performances. Des
mesures peuvent renfermer des cellules ayant des valeurs nulles (et non zéro).
Calculs et analyses
Une mesure est dite additive lorsqu’elle s’agrège quel que soit le niveau d’obser-
vation (exemple : le total des ventes pour tous les produits, tous les clients et tous
les temps).
Au contraire, une mesure semi-additive peut être additive pour certaines dimen-
sions et pas pour d’autres. Prenons l’exemple d’un état des stocks d’un entrepôt;
le nombre d’articles en stock aujourd’hui n’est bien évidemment pas la somme
de la situation constatée hier augmentée de celle d’aujourd’hui. Dans SSAS, on
dispose nativement d’agrégations semi-additives qui permettent de résoudre des
problématiques d’inventaire telles que :
• La moyenne des quantités et des valeurs en stock sur une période donnée.
• La balance d’ouverture et de clôture sur une période.
• La variation d’inventaire entre des périodes consécutives ou parallèles.
• Le niveau d’inventaire minimum et maximum sur une période donnée.
• La contribution relative d’un article en stock par rapport à la valorisation
total du stock.
L’assistant de calcul des dimensions temporelles apporte une aide non négligea-
ble dans le cas de calcul d’agrégation à comparer sur des périodes de temps dif-
férentes (calcul du cumul des ventes depuis le début de l’année comparé sur les
trois dernières années). Cette fonction est native alors qu’auparavant il était
nécessaire de développer une fonction MDX de type ytd().
MDX Scripts
Le langage multidimensionnel MDX (Multidimensional Expressions) est un lan-
gage d’interrogation des cubes, aussi complexe que puissant. SSAS 2005 propose
un nouveau modèle de calcul qui simplifie la construction et la syntaxe des
requêtes.
Des outils tels que les tableaux croisés dynamiques accédant aux cubes utili-
sent une technique intuitive de glisser-déposer. Derrière cette apparente simpli-
cité, la technologie « pivot table » génère des requêtes en langage MDX occultant
ainsi la complexité de la syntaxe.
7.2 Points d’amélioration entre Analysis 2000 et SSAS 2005 ——————————————————————————————————— 189
MDX est aussi le langage naturel utilisé par SSAS pour construire les cubes.
Lorsqu’un cube est traité, les données sont mises à jour seulement au niveau
de détail le plus fin (le niveau feuille). C’est lorsque la demande sera formulée
par l’utilisateur que les niveaux d’agrégation intermédiaires seront calculés « à la
volée ». On imagine le gain d’espace procuré par cette technologie.
Procédures stockées
Analysis Services 2005 introduit la notion de procédures stockées afin d’étendre
les capacités de traitement (UDF). Une procédure stockée peut être écrite dans
n’importe quel langage tel que C++, VB ou C#. Les procédures stockées simpli-
fient le développement et l’implémentation par la création unique de scripts
codés réutilisables par d’autres procédures stockées ou requêtes des utilisateurs.
Les procédures stockées fournissent des mécanismes afin d’étendre les fonctions
de base du langage MDX. Ces procédures permettent également de réaliser des
tâches spécifiques comme le rafraîchissement d’un cube ou la mise à jour partielle
d’une portion du cube.
Voici une illustration de trois KPI affichés dans une page web (figure 7.4):
• KPI du chiffre d’affaires trimestriel (feu vert car le revenu dépasse le but
de 12,87 %);
190 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
Grâce à ces mécanismes optimisés, il n’est pas rare de constater que les don-
nées rafraîchies et agrégées sont accessibles plus rapidement dans la base OLAP
que dans la base relationnelle source.
Les paramètres ajustables du cache proactif sont :
Système
Opérationnel Cube
UDM Analysis
OLTP
(Oracle, Services
Db2, SQL Server) OLAP
Afin de réaliser cet exemple, les composants suivants doivent être installés sur
le poste de travail :
• Microsoft SQL Server 2005 Database Engine.
• Microsoft SQL Server 2005 Analysis Services.
7.4 Création de notre premier cube ————————————————————————————————————————————————————————— 195
Constat
Actuellement, les rapports prédéfinis fournis par le système opérationnel sont
statiques. Lorsque les utilisateurs désirent établir des tableaux de synthèse, ils
doivent ressaisir les données dans le tableur Excel. Ils peuvent ensuite élaborer
des graphes. Les données de synthèse saisies manuellement dans Excel ne per-
mettent pas d’explorer des niveaux de détail plus fins. Dans ce contexte, il
n’existe pas de lien permettant de retrouver les données détaillées qui consti-
tuent les données de synthèse.
Les utilisateurs n’ayant pas connaissance des technologies OLAP se conten-
tent bien souvent des rapports qu’ils impriment selon leurs besoins. Parmi ces
utilisateurs, certains souhaiteraient accéder directement aux données de la base
opérationnelle. Ils disposent parfois d’outils de requêtage. Cependant, du fait de
la complexité du schéma de la base, ils renoncent à élaborer eux-mêmes les rap-
ports dont ils ont besoin et finissent par solliciter les services informatiques.
Dans les environnements où l’entrepôt de données n’a pas été mis en place,
les utilisateurs constatent avec stupeur que les données des années antérieures
ne sont plus accessibles. Les processus de « nettoyage » visant à améliorer les per-
formances du système transactionnel ont eu raison de l’historique des données.
Les temps de réponse sont aléatoires (plusieurs minutes voire plusieurs heures
lorsque les volumétries sont importantes).
196 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
7.4.1 Mesures
Dans l’exemple présenté ci-après, les mesures sont définies par la table Ventes-
Internet et sont les suivantes :
• quantité commandée;
• prix unitaire;
• quantité étendue;
• remise unitaire;
• montant de la remise;
• coût standard du produit;
• coût total du produit;
• montant des ventes;
• montant de la taxe.
7.4.2 Dimensions
Notre manager veut effectuer des analyses selon divers axes d’observation.
L’axe clients se décompose de la façon suivante :
• région;
• province;
• ville;
198 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
• nom;
• l’axe produits;
• catégorie de produit;
• sous-catégorie;
• ligne produit;
• produit;
• l’axe du temps;
• année;
• trimestre;
• mois;
• jour.
Figure 7.9 — Composants créés en standard lors de la création d’un projet SSAS
Figure 7.11 —
Le gestionnaire
de connexion
Figure 7.12 —
Le Gestionnaire
de connexion vérifie
le lien avec la base
de données source
Bouton Suivant.
Dans le formulaire suivant vous allez sélectionner les tables de Base entrepot
qui sont à inclure dans la vue de source de données.
Dans l’explorateur de solutions, effectuez un clic droit sur Cubes puis validez
Nouveau Cube…
Figure 7.22 —
Identifier les tables
de faits et de dimension
Par défaut, l’assistant repère les champs au format numérique et tente d’en
créer des mesures. Décochez les clés qui ne constituent pas des mesures dans la
base de faits.
Puis cliquez sur le bouton Suivant.
L’assistant détecte automatiquement les hiérarchies.
Puis cliquez sur le bouton Suivant.
Déployez les nouvelles dimensions détectées afin de contrôler les choix effec-
tués par l’assistant.
Vérifiez la pertinence des hiérarchies et des attributs.
Puis cliquez sur le bouton Suivant.
7.4 Création de notre premier cube ————————————————————————————————————————————————————————— 209
Structure de cube
Cet onglet permet de modifier l’architecture d’un cube et d’en modifier les com-
posants.
Utilisation de la dimension
Cet onglet permet de définir les relations entre des dimensions et des groupes
de mesures, ainsi que la granularité de chaque dimension au sein de chaque
groupe de mesures. Si vous utilisez plusieurs tables de faits, il se peut que vous
deviez identifier si les mesures s’appliquant ou non à une ou plusieurs dimensions.
Chaque cellule représente une relation potentielle entre le groupe de mesures et
la dimension intersectée.
Calculs
Cet onglet permet d’étudier les calculs définis pour le cube, de définir de nou-
veaux calculs pour le cube dans sa totalité ou pour un sous-cube, de réorganiser
les calculs existants et de déboguer les calculs, pas à pas, en s’aidant des points
d’arrêt. Les calculs permettent de définir de nouveaux membres et mesures basés
sur des valeurs existantes, tels que des calculs de profit, et de définir des jeux
nommés.
KPI
Cet onglet permet de créer, éditer et modifier les indicateurs de performance
clés (KPI) dans un cube. Ceux-ci permettent au concepteur de déterminer rapi-
dement les informations utiles relatives à une valeur et par exemple, de déter-
miner si la valeur définie est supérieure ou inférieure à un objectif ou si la
tendance que suit la valeur définie augmente ou diminue.
Actions
Cet onglet permet de créer ou de modifier des extractions, des rapports et d’autres
actions pour le cube sélectionné. Il contient des informations contextuelles sur
les applications clientes, les commandes et les rapports auxquels les utilisateurs
finaux peuvent accéder.
Partitions
Les partitions permettent de stocker les sections d’un cube dans différents empla-
cements avec des propriétés différentes, telles que des définitions d’agrégations.
212 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
Perspectives
Une perspective est un sous-ensemble défini d’un cube et sert à réduire la com-
plexité d’un cube du point de vue de l’utilisateur.
Traductions
Cet onglet permet de créer et gérer les noms traduits des objets de cube, tels que
les noms de mois ou de produits.
Navigateur
Cet onglet permet d’afficher les données du cube selon une présentation proche
du tableau croisé dynamique.
L’explorateur de solutions présente les nouvelles dimensions (figure 7.31).
Dans le menu de Visual studio sélectionnez Fichiers puis cliquez sur Enre-
gister tout.
Vous allez créer de toute pièce une nouvelle hiérarchie Produit en incluant
la hiérarchie LigneProduit et Produit.
Avant de créer cette nouvelle hiérarchie et afin de mieux sélectionner les
champs, vous allez observer le contenu de la table DimProduit à partir de laquelle
vous allez reconstituer la hiérarchie.
Dans l’onglet Vue Source de données, faites un clic droit sur la table Dim-
Produit puis Explorer les données.
En cliquant sur l’en-tête de colonne, vous pouvez trier en ordre croissant ou
décroissant les données (ici NomProduitFrançais).
216 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
Figure 7.38 —
Glisser déplacer
un champ de la vue
source de données
dans la hiérarchie
7.4 Création de notre premier cube ————————————————————————————————————————————————————————— 217
Hiérarchie temporelle
Dans l’explorateur de solutions, cliquez sur la dimen- Figure 7.39 — Hiérarchie
sion Dim Temps. Dans l’onglet Hiérarchie et niveaux, après introduction
renommez la hiérarchie en Dates. d’un nouveau champ
Déployez le cube
Faites un clic droit sur MonPremierCube puis sélectionnez Déployer.
Figure 7.45 — Le champ Ligne Produit définit les colonnes et Région définit les lignes
En cliquant sur le signe + associé aux champs, vous allez pouvoir « forer »
dans la hiérarchie des dimensions. Cette technique est également appelée drill
down. Le signe – permet d’effectuer un drill up.
Figure 7.49 — L’interface est maintenant celle du tableau croisé dynamique d’Excel
Dans la partie droite de l’écran (figure 7.51), cliquez sur la table dbo.Dim-
Produit puis actionnez le bouton Ajouter des tables associées.
Retirez la table FaitVentesRevendeur qui n’est pas utile pour le moment, puis
cliquez sur DimSousCatégorieProduit et actionnez de nouveau le bouton Ajou-
ter des tables associées.
224 ——————————————————————————————————————————————————————————————————————— 7. Analysis Services
L’assistant détecte automatiquement les jointures entre les tables puis les
intègre automatiquement à la vue.
Figure 7.58 — Il est possible de naviguer dans tous les attributs de la dimension
7.5 Conclusion ——————————————————————————————————————————————————————————————————————————— 227
7.5 CONCLUSION
Nous l’avons vu, créer un cube OLAP avec l’assistant ne présente pas de diffi-
culté majeure, en particulier si l’on respecte les paramètres standard fournis par
l’outil. La base de données relationnelle sous-jacente est indispensable à la fabri-
cation du cube, mais de par sa structure tabulaire et linéaire, elle reste difficile-
ment exploitable pour l’analyse. Le langage SQL, seul outil de requêtage, permet
de réaliser des rapports simples basé sur des notions de listes dont la valeur ajou-
tée consiste à effectuer des regroupements matérialisés par des sous-totaux inter-
médiaires de colonnes et totaux généraux. Un véritable serveur analytique
dispose de la couche OLAP offrant des performances constantes quelle que soit
la volumétrie. À la vision purement séquentielle de l’information, OLAP en apporte
une transverse permettant ainsi de mettre en relation des données non contiguës
dans l’entrepôt. Cette capacité à définir des rapprochements structurés dans
l’espace est rendue possible grâce au langage MDX.
De telles performances sont rendues possibles grâce à une gestion simplifiée
des agrégations. Celles-ci résultent de calculs visant à regrouper des données
numériques puisées dans les tables de faits. Ces calculs sont préstockés dans le
cube OLAP à des niveaux variables de regroupement, rendant possible un affi-
chage instantané. Cette technique de regroupement de données sous forme préa-
grégée est de loin plus efficace que la méthode ancienne qui consistait à indexer
230 —————————————————————————————————————————————— 8. Méthode de conception des cubes avec SSAS
des vues SQL. Cette technique d’indexation était également accompagnée d’une
mise à niveau coûteuse des matériels afin de répondre à toujours plus d’exigence.
L’objectif principal est de déterminer les agrégations qui répondent le mieux
aux besoins métier et d’identifier la fréquence de mise à jour des agrégats. Un
autre enjeu consiste à décider de la façon de conserver l’historique et particuliè-
rement s’il est nécessaire de tracer les changements d’états successifs au niveau
des axes d’observation (produits, clients, fournisseurs, etc.).
La mise en place d’agrégations permet de prévenir des risques de mauvaise
interprétation des données. En effet, dans un modèle relationnel, comment
s’assurer que l’utilisateur qui désire suivre son stock semaine par semaine ne va
pas par erreur additionner des stocks successifs au lieu de ne considérer que la varia-
tion constatée d’une semaine sur l’autre. Nous l’avons déjà vu, il s’agit là d’une
notion de mesure semi-additive, totalement prise en compte par OLAP. Un autre
aspect naturellement pris en compte par OLAP est le rapprochement de données
à des niveaux de granularité différents (budget défini à un niveau trimestriel,
comparé à des données journalières).
Une fois que les membres de l’organisation ont décidé des besoins métiers,
ils vont alors préciser comment ils souhaitent y accéder (Internet, intranet, via
Excel ou autre outil tiers) et la manière dont ils veulent naviguer au sein de
leurs données (forage progressif selon différents niveaux d’agrégation).
directement aux tables des bases sources, Analysis Services accède à celles-ci au
moyen d’une couche d’exposition qui simplifie grandement le processus de main-
tenance. C’est également grâce à ces vues que le développeur exposera les champs
de données selon des règles de nommage métier compréhensible par l’utilisa-
teur final.
Bien qu’il faille attendre que la phase de définition du datawarehouse soit ter-
minée avant d’entamer celle de la construction des cubes OLAP, il n’est cepen-
dant pas nécessaire que la phase d’ETL soit terminée. Il est tout à fait possible
et même recommandé de ne pas attendre la fin du processus Integration Services
pour démarrer le projet SSAS. Bien souvent on se contentera de quelques don-
nées de test, que l’on pourra modifier manuellement afin de créer différentes situa-
tions. Les résultats seront d’autant plus faciles à contrôler que les données sont
peu nombreuses (contrôle des moyennes, et des mesures semi-additives). Le
temps de rafraîchissement des cubes sera réduit d’autant.
La figure 8.7 montre les différentes options offertes par la gestion des erreurs
lors de l’alimentation d’une dimension. Les options par défaut sont affichées et
sont explicites. Il est possible de tracer dans un fichier journal la liste des erreurs
rencontrées lors du traitement. Le choix pour cette option est personnalisé ou par
défaut. Il est souhaitable de laisser l’option par défaut.
• Usage : Key est l’usage réservé à la clé de substitution (ou clé unique).
L’usage Regular sera choisi pour l’ensemble des attributs à une exception :
une dimension parent-enfant présentera un usage Parent.
• Keycolumns : représente la colonne source de la table de dimension rela-
tionnelle. En général, il s’agit de la clé unique représentée par la clé de
substitution.
• OrderBy et OrderByAttribute : permettent de trier un attribut par la valeur
de la clé ou par le nom de l’attribut. Il est possible également de trier un
attribut selon l’attribut relié.
236 —————————————————————————————————————————————— 8. Méthode de conception des cubes avec SSAS
• Rigid : signifie que les relations entre les membres ne changent jamais dans
le temps.
• Flexible : indique un changement possible dans le temps.
Structure de dimension
Certaines hiérarchies sont naturelles telles que année/mois/jour ou catégorie de
produit/sous-catégorie de produit/produit. D’autres sont moins naturelles telles
que fréquence de commande/nom du revendeur.
Les niveaux des hiérarchies sont construits à partir des attributs des hiérar-
chies. Les propriétés de chaque niveau sont également empruntées aux attributs
correspondants et ne peuvent être modifiés au sein de chaque hiérarchie.
Pour une hiérarchie régulière, utilisez la propriété HideMemberIf d’un niveau
d’une hiérarchie pour masquer les membres manquants aux utilisateurs finaux.
Traductions
Les traductions permettent au serveur de prendre en charge les applications
clientes en adaptant le langage de présentation selon la langue du client. Il est
utile de pouvoir traduire divers éléments d’un cube et de ses dimensions dans
une langue différente, de sorte que des personnes de divers pays puissent afficher
et comprendre le cube. Au moment de l’affichage de la requête, un dialogue
8.1 Organisation logique des cubes ————————————————————————————————————————————————————————— 239
Navigateur
L’onglet Navigateur permet d’explorer les attributs ou les hierarchies de dimen-
sion. La figure 8.13 montre une navigation dans la hierarchie Product Categories.
Après toute modification d’un attribut ou hiérarchie il est nécessaire de se recon-
necter au cube avant d’explorer à nouveau les données.
Avant de parcourir les données il est nécessaire de traiter la dimension. Il
n’est cependant pas nécessaire de déployer le cube ou de traiter la base de don-
nées du cube.
Dans la figure 8.13, si une traduction avait été développée, la liste déroulante
ferait apparaître les membres dans la langue adéquate.
Figure 8.13 — Choisir une hiérarchie ou un attribut et parcourez la liste des données
Après que le cube a été créé grâce à l’assistant, il est possible de revenir sur
tous les composants du cube grâce au concepteur de cube. Il est possible de tester
le cube, d’ajouter de nouvelles dimensions à des groupes de mesures et d’ajouter
des groupes de mesure.
Les objets qui composent le cube sont présentés ci-après.
Les mesures sont des données en provenance des tables de faits. On distingue :
Les groupes de mesures rassemblent des mesures extraites d’une même table
de fait et dont la granularité est définie par les dimensions.
Le cube rassemble dimensions, mesures et groupes de mesure. Ceux-ci se
comportent comme les cubes virtuels de la version MSAS 2000, les cubes vir-
tuels étant le résultat de jointure de cubes physiques distincts.
La valeur de la mesure Packages (240 dans notre exemple) peut être extraite
directement de la colonne correspondante d’une ligne de la table de faits, car
tous les membres sont terminaux (feuilles).
Dans l’exemple fourni par la figure 8.15, les deux cellules en grisé représen-
tent un agrégat du 3e et 4e trimestre soit le 2e semestre. Le membre du 2e semestre
est non-feuille car tous les membres qui lui sont associés doivent être agrégés.
La dimension Mesures fait l’objet d’un traitement particulier. Cette dimen-
sion regroupe les données numériques faisant l’objet de traitement d’agrégation.
Chaque table de faits dans la vue des sources de données constitue un groupe
de mesures.
Chaque dimension peut participer ou non à une agrégation de mesure.
À chaque intersection d’une mesure et d’une dimension, on peut trouver dif-
férents types de relations entre les tables de faits et les dimensions :
• Aucune dimension : la table de faits et la table de dimension ne sont pas
associées.
• Normale : la table de dimension est directement jointe à la table de faits.
• Fait : la table de dimension est la table de fait.
• Référencé : la table de dimension est jointe à une table intermédiaire, elle-
même jointe à la table de faits.
244 —————————————————————————————————————————————— 8. Méthode de conception des cubes avec SSAS
De nombreux calculs sont aisés à créer tels que des sommes de mesures ou
des ratios. Les mesures calculées s’ajoutent à la liste des mesures existantes. Pour
l’utilisateur final, il n’existe pas de différences entre une mesure physique et une
mesure calculée.
Dans l’exemple ci-dessous, nous créons une mesure calculée nommée Moyenne-
DesVentes dont l’expression de calcul est obtenue par glisser déplacer des mesures
8.1 Organisation logique des cubes ————————————————————————————————————————————————————————— 245
Case
When KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
>=.95
Then 1
When KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
< .95
And
KpiValue("Reseller Revenue")/KpiGoal ("Reseller Revenue")
>=.85
Then 0
Else – 1
End
• La tendance.
La tendance est représentée par des valeurs numériques qui se traduisent gra-
phiquement par des flèches.
Case
When IsEmpty
(
ParallelPeriod
(
[Date].[Calendar Time].[Calendar Year],
1,
248 —————————————————————————————————————————————— 8. Méthode de conception des cubes avec SSAS
[Date].[Calendar Time].CurrentMember
)
)
Then 0
When (
KpiValue("Reseller Revenue") –
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
>=.02
Then 1
When (
KpiValue("Reseller Revenue") –
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
<=.02
Then – 1
Else 0
End
Le résultat affiché dans le navigateur de l’onglet KPI est montré figure 8.20.
Microsoft dispose d’ores et déjà d’un outil très élaboré de définition et de
restitution des KPI. Business Scorecard Manager permet de définir ses propres
KPI puis de les intégrer grâce à des webpart dans le portail « maison » SharePoint
Portal.
Les KPI sont maintenant interprétés par les tableaux croisés dynamiques
d’Excel version 2007.
8.1 Organisation logique des cubes ————————————————————————————————————————————————————————— 249
de cube qui intègre des perspectives, vous devrez les supprimer avant de déployer
le cube.
Figure 8.21 — L’onglet Partitions montre les partitions liées aux groupes de mesures
8.2 L’organisation physique du cube ———————————————————————————————————————————————————————— 251
Dans le mode HOLAP, les données de détail sont stockées dans des tables
relationnelles tandis que les agrégats le sont dans un format multidimensionnel.
Le mode de stockage HOLAP convient pour les partitions de cubes qui néces-
sitent des réponses rapides aux requêtes sur des données de synthèse calculées à
partir d’un volume important de données source. Les performances sont inter-
médiaires entre MOLAP et ROLAP.
8.2 L’organisation physique du cube ———————————————————————————————————————————————————————— 253
Dans le cas du mode ROLAP temps réel, les données sont directement stoc-
kées dans la table relationnelle. Il n’y a pas besoin de notification ni de cache
proactif. Les données sont toujours à jour mais ce au détriment des performances.
Après le déploiement du cube, SQL Server Management Studio permet d’obser-
ver le cube et ses dimensions attachées à chaque groupe de mesures.
Lorsque vous établirez des partitions, soyez vigilants aux bornes que vous
devez définir dans la clause WHERE. BI Studio ne permet pas de détecter si des don-
nées en provenance des tables de faits sont doublées ou manquantes.
Lors du développement avec BI Studio, vous pouvez préciser l’édition du ser-
veur de déploiement (Enterprise ou Standard). Ce dispositif permet de fournir
à BI Studio les fonctionnalités autorisées ou non, et de signaler toute incohérence
avant le déploiement.
Démarrer
Démarre le processus de conception d’agrégation.
Arrêter
Arrête le processus de conception d’agrégation.
Retraitement complet
Cette méthode consiste à retraiter la totalité du cube à chaque ajout de données
dans un groupe de mesures. Il s’agit naturellement de la méthode la plus simple
à mettre en œuvre et probablement la plus sûre. Elle est choisie par la plupart
des administrateurs. Elle est naturelle et même conseillée si les cubes ont une
faible volumétrie et, par conséquent, un temps de retraitement court. Cette méthode
est à proscrire si les mises à jour des tables de faits sont quotidiennes avec des
volumétries très élevées (centaines de milliers d’enregistrements). Dans ce cas,
nous aurons recours à la méthode de traitement incrémentiel.
Traitement incrémentiel
Le traitement incrémentiel consiste à filtrer les données les plus récentes des
tables de faits afin de ne traiter qu’un nombre réduit de lignes. Cette technique
est séduisante mais elle nécessite une très grande rigueur lors de la phase d’ali-
mentation. Le risque naturel est de traiter deux fois les mêmes données ou tout
simplement d’omettre de les traiter. Malheureusement, SQL Server 2005 ne dis-
pose pas de solution intégrée. Le développeur doit mettre en place un mécanisme
d’audit qui consiste à « marquer » les lignes ayant fait l’objet d’un traitement
afin de s’assurer de ne pas les traiter une seconde fois. L’absence de traitement
ou un traitement partiel sont plus délicats à gérer puisqu’ils ne laissent aucune
trace. Dans ce cas, on pourra développer un script MDX qui établira un contrôle
quotidien avec la base de production pour détecter des écarts éventuels et retrai-
ter la partition incriminée.
258 —————————————————————————————————————————————— 8. Méthode de conception des cubes avec SSAS
8.3 RECOMMANDATIONS
Bien que les assistants soient nombreux dans Analysis Services, ce logiciel est
complexe et nécessite beaucoup de soin dans sa conception. Lors de la mise au
point initiale, testez, contrôlez autant que vous le pourrez. Après la mise en pro-
duction du cube, donnez-vous les moyens de croiser des données du cube avec
d’autres sources telles que le datawarehouse sous-jacent. Il n’y a rien de plus effi-
cace pour jeter le discrédit sur votre œuvre qu’un utilisateur qui lance en pleine
réunion que le cube donne des résultats incohérents. Testez avec les utilisateurs,
observez leur façon d’interpréter et de contrôler les données. Mettez en produc-
tion les automates de contrôle et faites-vous alerter par SSIS au moindre écart.
Soyez le premier à alerter les utilisateurs qu’un dysfonctionnement a eu lieu plu-
tôt que d’apprendre par un utilisateur que votre cube est faux.
9
Le data mining
Les réponses aux questions 1 et 2 peuvent être fournies par de simples outils
de requêtage de type SQL.
La question 1 trouvera une réponse en exécutant une requête SQL sur la base
de données opérationnelle ou mieux sur l’entrepôt de données. Les critères d’extrac-
tion sont dans ce cas l’année de l’achat et le type d’ouvrage (sport).
La question 2 implique de conserver en ligne deux années de ventes, puis de
comparer l’agrégat des ventes réalisées en Year to date (cumul depuis le début de
l’année) et d’en déduire l’écart en valeur. La réponse sera fournie très facilement
260 ———————————————————————————————————————————————————————————————————————— 9. Le data mining
par une requête MDX exécutée sur le cube OLAP. Excel fournira une réponse,
grâce au tableau croisé dynamique.
La question 3 permet de déterminer la probabilité que la règle d’association
entre plusieurs éléments est vérifiée. Il s’agit d’un type de recherche dirigée car
l’objectif est totalement identifié. Si la valeur de la probabilité est élevée, le
diffuseur serait avisé d’effectuer des offres promotionnelles en associant les deux
produits. La réponse à cette question sera fournie par un des algorithmes de data
mining.
La question 4 est de nature exploratoire. Il s’agit de découvrir une règle plutôt
que de la vérifier. Cela est du ressort du data mining, technologie qui offre plu-
sieurs algorithmes répondant à cette problématique.
La question 5 est également exploratoire et nécessite de conserver un histo-
rique afin de modéliser les comportements d’attrition (départ volontaire du client).
Il y a lieu de mettre en œuvre des indicateurs tels que quantités retournées, délais
de paiements, impayés. La notion temporelle est très importante car elle permet
d’observer au fil du temps des changements parfois imperceptibles.
Classification
La classification consiste à examiner les caractéristiques d’un objet afin de lui
attribuer une classe. Les caractéristiques sont généralement basées sur des valeurs
discrètes (tranche d’âge, genre, marié/célibataire, etc). La classification est utile
dans les cas suivants :
Régression
À la différence de la tâche de classification, la régression sert à déterminer une
relation entre deux colonnes continues. La relation se présente sous la forme
d’une équation correspondant à la droite représentant le mieux une série de don-
9.2 Quelles sont les tâches du data mining ? ————————————————————————————————————————————————— 263
nées. Par exemple, la droite dans le diagramme suivant est la meilleure repré-
sentation linéaire possible des données. Cette notion est souvent utilisée dans
la partie graphique d’Excel.
Segmentation
La segmentation consiste à former des groupes (clusters) homogènes à l’intérieur
d’une population afin de répondre à la question « Quels attributs trouve-t-on en
commun dans chaque groupe ? » La tâche de segmentation précède souvent les
autres tâches afin de construire des groupes sur lesquels on applique des tâches
de classification.
Association
L’association examine les comportements de groupes d’individus afin de déter-
miner quels liens existent entre eux. Les règles d’association sont souvent liées
au secteur de la distribution à travers ce qu’on appelle l’analyse du panier de la
ménagère. Des sites d’achats en ligne de produits culturels utilisent cette méthode
afin de rechercher les produits qui tendent à être achetés ensemble et proposer
en ligne des offres complémentaires (vente additionnelle).
Un des principaux attraits de la méthode est la clarté des résultats produits.
En effet, le résultat de la méthode est un ensemble de règles d’association dont
voici quelques exemples :
Bien souvent, les commerciaux ont déjà intuitivement déterminé des groupes
qui seront probablement confirmés par l’algorithme. Bien que cela puisse rassu-
rer, il est évident que les décideurs attendent des réponses non triviales et utiles,
allant bien au-delà d’une simple analyse.
Cette méthode est par définition non supervisée car il n’existe pas d’indice
a priori permettant d’effectuer une recherche prédéfinie.
Analyse de séquence
L’algorithme de séquence permet d’analyser un chemin réalisé par le passé afin
d’en déduire la route probable dans le futur.
On applique souvent ce type d’algorithmes à l’analyse des séquences de clics
que les internautes effectuent sur un site web.
L’analyse de séquence sert également à découvrir l’ordre dans lequel un client
ajoute des éléments dans son panier d’achat sur un site de vente en ligne.
Toute société qui offre un service d’achat en ligne est intéressée par cette
démarche. En effet, pour acheter, les clients doivent se connecter au site. La société
collecte des informations sur les pages que les internautes visitent et l’ordre dans
lequel ils consultent les pages. Il analyse également quelles sont les pages les plus
consultées avant l’acte d’achat d’un produit.
Afin d’offrir au lecteur une vue globale des outils de data mining, nous pensons
utile de lui présenter les étapes de la méthode et, pour chacune d’elles, les outils
fournis par business intelligence Studio.
Nous allons tour à tour construire trois types d’application. Nous commen-
cerons par un premier scénario de publipostage ciblé qui permettra de présenter
les algorithmes de classification. Nous présenterons également des scénarios de
prévision, d’analyse de panier et enfin de séquence clustering.
Ces exemples peuvent être réalisés par le lecteur s’il dispose de SQL Server
2005 version standard ou Enterprise avec Analysis Services, et les exemples
modèles AdventureWorks.
Le lecteur trouvera tous les outils nécessaires sur le site de l’auteur à l’adresse
www.buroformatic.com.
9.3 Créer le modèle d’une campagne ciblée ————————————————————————————————————————————————— 265
FROM
[dbo].[DimCustomer] c INNER JOIN (
SELECT
[CustomerKey]
,[Region]
,[Age]
,Sum(
CASE [EnglishProductCategoryName]
WHEN ‘Bikes’THEN 1
ELSE 0
END) AS [Bikes]
FROM
[dbo].[vDMPrep]
GROUP BY
[CustomerKey]
,[Region]
,[Age]
) AS [x]
ON c.[CustomerKey] = x.[CustomerKey]
La vue vDMPrep qui participe elle-même à la vue vTargetMail est basée sur
le schéma en flocon dont la table de fait centrale est FactInternetSales et les
tables dimensionnelles : Customers, DimProduct, DimProductSubcategory, Dim-
ProductCategory, DimCustomer, DimGeography, DimSalesTerritory.
Mountain-
Bikes 28389 Europe 41 Low 2001 2002 7 SO43698 1 1 3 399,9900
100
Les données sources sont maintenant définies. Nous allons construire le modèle
de publipostage ciblé.
L’assistant effectue un choix parmi les types de données et les types de contenus.
Il est conseillé de vérifier les choix effectués par l’assistant. Complétez la sélec-
tion des colonnes pertinentes en cochant les entrées désirées.
Donnons le nom Publipostage Ciblé à la structure d’exploration puis Deci-
sion_Tree au modèle d’exploration.
Avant de traiter le modèle d’exploration, nous ajouterons deux modèles com-
plémentaires respectivement basés sur les algorithmes Microsoft Clustering et
Microsoft Naïve Bayes.
9.3 Créer le modèle d’une campagne ciblée ————————————————————————————————————————————————— 273
Le modèle Naïve Bayses ne traite que des données discrètes. Il ignore ainsi
les données comme le revenu annuel ou l’âge du client qui sont considérés comme
des variables continues.
Nous procédons ensuite au déploiement des modèles et à leur traitement.
274 ———————————————————————————————————————————————————————————————————————— 9. Le data mining
En suivant l’arborescence selon les nœuds les plus sombres, on observe que
la population des 39-53 ans est celle qui achète le plus de vélos (3 934 ache-
teurs). Parmi cette population, on observe que les acheteurs sont ceux qui n’ont
9.3 Créer le modèle d’une campagne ciblée ————————————————————————————————————————————————— 277
pas d’enfant au foyer, qui ont un revenu supérieur à 26 000 € et qui n’habitent
pas en Amérique du Nord. Il est possible d’extraire cette population puis de
copier la liste dans Excel ou Word afin d’effectuer un publipostage.
Effectuez un filtrage sur Bike Buyer = 1 pour obtenir uniquement les ache-
teurs de vélos.
verticale sur le côté droit permet de faire apparaître progressivement ces liens
(du poids le plus fort au poids le plus faible).
Dans notre cas, il est aisé de constater que les liens les plus forts sont l’âge,
le nombre d’enfants au foyer, le revenu, le nombre de voitures possédées et la
région. Ces liens sont apparus dans l’ordre précité.
Du tableau représenté dans la figure 9.19, il est possible de déduire que les
acheteurs de vélos ont une forte probabilité de ne pas avoir d’enfants, de ne pas
être de la région Amérique du Nord, de niveau bachelier, etc.
On observe que l’absence des critères d’âge et de revenu dans l’analyse Naïve
Bayses entraîne des résultats différents de ceux de l’algorithme d’arbre de décision.
Il peut être intéressant de comparer deux groupes côte à côte. Si l’on désire
comparer les acheteurs et les non-acheteurs, nous obtenons le graphe de la
figure 9.20.
On peut déduire du tableau qui précède que les acheteurs de vélos ne possè-
dent pas d’auto alors que ceux qui n’achètent pas de vélos possèdent deux autos.
280 ———————————————————————————————————————————————————————————————————————— 9. Le data mining
Figure 9.20 — L’onglet Discrimination d’attribut permet une comparaison deux à deux
Les acheteurs de vélos ont un enfant et habitent la région Pacifique, etc. Plusieurs
attributs peuvent se retrouver avec des poids relatifs différents.
Évaluer le modèle
Maintenant que nous avons mis en place nos trois modèles, nous devons les
évaluer afin de déterminer lequel est le meilleur pour prédire le profil d’acheteur.
Pour cela, nous allons appliquer successivement nos modèles sur une table de
cas dont les résultats sont déjà connus. Le but étant de comparer la capacité de
prédiction de chaque algorithme avec la réalité.
• Sélectionner une table de cas (différente de la table qui a servi à modé-
liser).
9.3 Créer le modèle d’une campagne ciblée ————————————————————————————————————————————————— 281
ON
[TM Decision Tree].[Marital Status] = t.[MaritalStatus] AND
[TM Decision Tree].[Gender] = t.[Gender] AND
[TM Decision Tree].[Yearly Income] = t.[YearlyIncome] AND
[TM Decision Tree].[Total Children] = t.[TotalChildren] AND
[TM Decision Tree].[Number Children At
Home] = t.[NumberChildrenAtHome] AND
[TM Decision Tree].[Education] = t.[Education] AND
[TM Decision Tree].[Occupation] = t.[Occupation] AND
[TM Decision Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND
[TM Decision Tree].[Number Cars Owned] = t.[NumberCarsOwned]
Le résultat de la requête peut être envoyé dans Excel puis traité en ne sélec-
tionnant que les acheteurs potentiels c’est-à-dire Bike Buyer = 1.
9.4 Conclusion ——————————————————————————————————————————————————————————————————————————— 287
9.4 CONCLUSION
Ce chapitre nous a montré les nombreux assistants fournis par Analysis Services.
Nous espérons avoir convaincu le lecteur que le data mining n’est pas réservé
aux grandes entreprises qui disposent d’un large volume de données.
Il n’est pas non plus indispensable d’être statisticien pour exploiter ces nou-
velles possibilités. Les entreprises qui se donneront la peine d’exploiter les nom-
breuses facettes de cet outil découvriront de nouvelles pistes jusque là encore
inexplorées.
10
Reporting Services
mettait d’accéder aux cubes et d’effectuer des analyses grâce au tableau croisé
dynamique. Or, nous l’avons déjà dit, l’essentiel des données de l’entreprise est
consulté au moyen de rapports prédéfinis. À cette époque, Cognos et Business
Objects disposaient déjà d’outils de reporting tels que ReportNet et Crystal
Report. Microsoft n’a donc pas attendu la version 2005 de SQL pour offrir son
module de reporting.
Reporting Services regroupe un ensemble d’outils, d’interfaces de program-
mation, de services run-time et d’outils visant à définir, générer, déployer, et gérer
des rapports. Reporting Services comprend un moteur pour héberger et traiter
les rapports. Une interface de programmation permet également d’incorporer des
rapports dans différents environnements informatiques.
Rapports internes
• Rapports « Maison » (vente, finance, DRH).
• Administrables, accessibles via un portail ou intégrés aux solutions d’entre-
prise.
Rapports embarqués
• Afficher des rapports dans n’importe quelle application d’entreprise (ERP,
CRM) ou analytique.
• Architecture extensible et flexible.
10.1 Qu’est-ce que Reporting Services ? ————————————————————————————————————————————————————— 291
Rapports collaboratifs
• B2B, B2C, échanges inter ou intra entreprises, etc.
Rapports externes
• Publier des rapports via extranet, Internet.
• Isolation de données, sécurité extensible.
Format libre.
Format tabulaire.
Format matriciel (tableau croisé).
Graphique de données.
Les formats
Filtrage dynamique lors de l’exécution.
de rapports
Regroupement en sous-totaux et totaux généraux.
Tris ascendant/descendant.
Rapports liés activés par lien hypertexte avec passage
de paramètres.
Sécurité Exportation
—————————————————————————————————————————————————————————————————————
Report Builder est un outil client qui permet aux utilisateurs non-programmeurs
de définir et déployer des rapports sans aucune connaissance de SQL Server.
Report Builder se base sur des modèles conçus à l’aide du concepteur de modèles
de rapports (Report Model Designer). Cet outil stocke les définitions de rapports
dans la base de données Report Server. Ces rapports peuvent ensuite être modi-
fiés, complétés et publiés par l’utilisateur lui-même via l’interface web.
Figure 10.10 —
L’assistant propose
un résumé
des actions effectuées
lors de la création
du rapport
Figure 10.15 —
Le résultat de la requête MDX
dans Proclarity
Figure 10.16 —
Le concepteur
de matrice dispose
les axes Produits
et Date en lignes
et colonnes
302 ————————————————————————————————————————————————————————————————————— 10. Reporting Services
Figure 10.17 —
Rapport
des ventes
élaboré à partir
d’une source
OLAP Analysis
Services
Figure 10.18 —
Créer
une source
de donnée
personnalisée
de type Analysis
Services
10.2 La création de rapport ———————————————————————————————————————————————————————————————— 303
Figure 10.21 — Le même rapport qu’en 10.17 avec introduction d’un graphe
même temps semble complexe. En réalité, Visual Studio offre un assistant pour
les paramètres de filtrage d’une grande simplicité. Fort heureusement, nous
n’aurons pas à modifier manuellement le code MDX généré par l’assistant.
Dans notre exemple, nous ajouterons successivement un filtre sur l’année puis
un second sur la catégorie de produit.
Depuis l’onglet Données, nous glissons l’attribut CalendarYear dans la zone
réservée au filtrage matérialisée par le texte <Sélectionnez une dimension>. Aus-
sitôt une ligne nouvelle apparaît permettant d’effectuer une sélection sur les
années. Il est impératif de cliquer dans la case Paramètres afin de générer un
nouveau dataset au format MDX permettant ainsi de proposer une liste dérou-
lante à l’utilisateur. Cette fonction permet également d’imbriquer le fitrage dans
le dataset initial (AdventureWorksAS).
Figure 10.24 —
Le dataset de
filtrage est généré
automatiquement
Figure 10.25 —
Formulaire
des paramètres
du rapport
308 ————————————————————————————————————————————————————————————————————— 10. Reporting Services
Lorsque les rapports sont publiés sur le serveur de rapports, il est indispensable
de procéder à un certain nombre de réglages supplémentaires. Généralement, les
rapports font l’objet d’une mise en sécurité visant à permettre la consultation
uniquement par les personnes autorisées. Les utilisateurs, de plus en plus exigeants,
souhaitent obtenir sans délai les informations sur leur activité dans l’entreprise.
Ils désirent également recevoir périodiquement leurs informations métier sous
forme électronique ou exécuter eux-mêmes les traitements selon leurs besoins.
10.3 La gestion des rapports ——————————————————————————————————————————————————————————————— 309
10.3.1 La sécurité
Reporting Services met en place plusieurs niveaux de sécurité.
Mes rapports Peut publier des rapports et des rapports liés, gérer
des dossiers, des rapports et des ressources
dans le dossier « Mes rapports » d’un utilisateur.
Dans la plupart des cas, les droits d’accès aux différents dossiers et objets
devront faire l’objet d’une attribution spécifique de la part de l’administrateur.
Il existe une exception à cette règle : l’administrateur local dispose de toutes les
autorisations. Un utilisateur qui appartient au groupe local Administrateurs sur
le serveur qui héberge Reporting Services disposera de tous les droits.
Afficher
OUI OUI OUI OUI NON
les dossiers
Afficher
OUI OUI OUI NON NON
les modèles
Afficher
OUI OUI OUI OUI NON
les rapports
Afficher
OUI OUI OUI OUI NON
les ressources
Afficher
les sources NON OUI NON OUI NON
de données
Créer
NON OUI NON OUI OUI
des rapports liés
Définir la
sécurité pour
NON OUI NON NON NON
des éléments
individuels
Gérer les
abonnements NON OUI OUI OUI NON
individuels
Gérer
NON OUI NON OUI OUI
les dossiers
Gérer
NON OUI NON NON OUI
les modèles
Gérer
NON OUI NON OUI OUI
les rapports
Gérer
NON OUI NON OUI OUI
les ressources
Gérer
les sources NON OUI NON OUI OUI
de données
Gérer
l’historique NON OUI NON OUI NON
de rapport
314 ————————————————————————————————————————————————————————————————————— 10. Reporting Services
Les tâches et les rôles ont été définis. Il convient maintenant d’attribuer des
utilisateurs ou groupes d’utilisateurs Windows dans chaque rôle.
Figure 10.29 —
Nouvelle attribution
de rôle système
Figure 10.30 —
Formulaire de nouvelle
attribution de rôle système
Figure 10.33 —
Créer un nouvel utilisateur
Windows
cache de façon temporaire des copies de ce dernier pour éliminer les temps
d’attente lorsque plusieurs utilisateurs y accèdent à quelques minutes d’intervalle.
Pour ouvrir cette page, sélectionnez un rapport, cliquez sur l’onglet Propriétés
situé en haut de la page, puis sur le menu Exécution situé sur le côté gauche de
la page.
Précisons les différents choix proposés.
• Toujours exécuter ce rapport avec les données les plus récentes : Utilisez cette
option lorsque vous souhaitez que le rapport soit exécuté à la demande ou
lorsqu’un utilisateur le sélectionne. Si une copie du rapport est encore dis-
ponible en cache mémoire, l’extraction ne sera pas exécutée et l’affichage
du rapport sera instantané.
• Ne pas mettre en cache les copies temporaires de ce rapport. Le rapport sera
toujours exécuté avec les données les plus récentes. Chaque utilisateur qui
ouvre le rapport déclenche un accès à la source de données.
320 ————————————————————————————————————————————————————————————————————— 10. Reporting Services
• Mettre en cache une copie temporaire du rapport place une copie temporaire
du rapport dans un cache lorsqu’un premier utilisateur ouvre le rapport.
Les performances sont meilleures pour les utilisateurs qui ouvrent le même
rapport avec les mêmes paramètres d’extraction, car il n’y aura pas d’accès
à la source de données.
• Faire expirer la copie du rapport après un certain nombre de minutes. Saisissez
le nombre de minutes après lequel la copie temporaire n’est plus valide.
Une fois cela, elle n’est plus renvoyée à partir du cache. La prochaine fois
qu’un utilisateur ouvrira le rapport, le serveur de rapports retraitera ce der-
nier et replacera une copie du rapport actualisé dans le cache.
• Faire expirer la copie du rapport selon la planification suivante : ce paramètre
permet de définir une date et heure d’expiration pour un rapport. Pour
qu’un rapport mis en cache expire en fin de journée, par exemple, vous
pouvez sélectionner une heure durant la nuit après laquelle la copie expire.
• Effectuer le rendu de ce rapport à partir d’une capture instantanée d’exécution
du rapport : cette option permet de traiter un rapport comme un cliché, à
l’heure planifiée. Choisissez cette option lorsque vous souhaitez exécuter
un rapport aux heures creuses. Contrairement aux copies mises en cache
qui sont créées lorsqu’un utilisateur ouvre le rapport, un cliché est créé,
puis actualisé, suivant une planification. Les clichés restent en service
jusqu’à ce qu’ils soient remplacés par de nouvelles versions.
10.3 La gestion des rapports ——————————————————————————————————————————————————————————————— 321
• Les clichés générés par les paramètres d’exécution de rapport ont les mêmes
caractéristiques que les clichés d’historique de rapport. La seule différence
réside dans le fait qu’il n’existe qu’un seul cliché d’exécution de rapport et
plusieurs clichés d’historique de rapport. Les clichés d’historique de rapport
sont accessibles à partir de la page Historique du rapport, qui stocke de
nombreuses instances d’un rapport à différents moments dans le temps.
Les utilisateurs ont accès aux clichés d’exécution de rapport à partir des
dossiers (comme pour les rapports actifs).
• Créer une capture instantanée du rapport lorsque vous cliquez sur le bouton
Appliquer de cette page : cliquez sur ce bouton pour rendre le cliché dispo-
nible avant l’heure de début planifiée.
• Délai d’expiration de l’exécution des rapports : spécifie si le traitement d’un rap-
port doit être interrompu après un certain nombre de secondes. Si vous
choisissez le paramètre par défaut, le paramètre du délai d’expiration spé-
cifié dans la page Paramètres du site est utilisé pour le rapport.
simple de conserver les instantanés des rapports. Il est ainsi possible de conserver
des listes d’inventaire, des ratios financiers ou des rapports de production à dif-
férentes périodes et ainsi d’analyser les tendances. Précisons que ces analyses res-
tent visuelles et que les rapports ne peuvent à nouveau faire l’objet de réexécution.
Pour les analyses de tendance nous préférerons naturellement la richesse des KPI
fournis avec Analysis Services.
Le générateur de rapports Report Builder est une application côté client qui per-
met de créer et de concevoir des rapports à la demande. Cet outil est mis à la
disposition des managers. Il est en effet orienté métier et ne nécessite pas de
connaissance technique.
Report Builder (SSRB) offre un service de données au niveau entité concep-
tuelle. Nous l’avons vu précédemment, l’écriture de rapports avec SSRS néces-
site de savoir élaborer des requêtes au niveau du schéma logique. Par exemple,
la création d’un rapport sur l’état des commandes nécessite d’écrire la jointure
10.4 Reporting à la demande avec Report Builder ———————————————————————————————————————————— 325
entre les différentes tables qui constituent une commande (entête de commande/
lignes de commande/clients/produits).
Un grand nombre d’utilisateurs souhaite disposer d’un environnement utili-
sateur de création de rapports n’imposant ni d’utiliser Visual Studio ni de créer
des requêtes SQL pour les rapports. Les utilisateurs et analystes souhaitent créer
des rapports directement sur les clients, les commandes, les ventes, etc. Certains
raisonnent au niveau concept métier, ou « domaine », et souhaitent exprimer
leurs requêtes à ce niveau plutôt qu’au niveau du schéma logique.
Report Builder permet de décrire et de mettre en correspondance les entités
« métier » avec la couche de schéma logique. Cette méthode porte le nom de
SMDL (Semantic Model Definition Language).
Report Builder permet de créer des rapports de type tabulaire, matriciel ou
graphique. La création d’un rapport nécessite au préalable la mise à disposition
d’un modèle de rapport. Ce modèle est conçu grâce à l’assistant de création d’un
modèle de rapport. Les modèles de rapport portent l’extension .smdl.
Lors de la publication du modèle sur le serveur, de nombreuses entités et
champs dérivés sont créés. Le tableau 10.10 donne la liste des options disponibles
lors de la génération du modèle de rapport.
Créer des attributs pour les Crée un champ masqué qui contient les données
colonnes à incrémentation de la base de données incrémentées
automatique automatiquement.
Créer des variations de date Crée des variations sur les champs de date
en fonction des différentes parties de la date,
par exemple l’année, les mois ou les jours.
Créer des rôles Crée deux rôles (un sortant et un entrant) pour
chaque relation découverte entre les entités.
Définir des attributs Indiquent les champs qui sont uniques à cette
d’identification entité. Le générateur de rapports identifie
les attributs d’identification potentiels.
Définir les attributs de détail Indique les champs qui sont affichés par défaut
par défaut lorsqu’un utilisateur clique sur un élément lié
dans un rapport consultable à l’aide de clics.
Mise en forme des nombres Tire les champs numériques et de date dans l’ordre
et de la date décroissant.
Mise en forme des nombres Met en forme les nombres entiers et décimaux.
entiers/décimaux
Mise en forme des nombres Définit la mise en forme des champs à virgule
à virgule flottante flottante.
Sélection des valeurs de liste Définit la propriété de sélection des valeurs aux
déroulante listes déroulantes pour les champs contenant moins
de 200 valeurs uniques.
10.4 Reporting à la demande avec Report Builder ———————————————————————————————————————————— 327
Figure 10.43 —
Le formulaire liste les champs source
repris dans le modèle
Figure 10.44 —
L’entité Sales Person
montre les colonnes
dérivées
Les attributs de type texte sont préfixés par l’icône a tandis que les champs
numériques sont repérés par un #.
Lorsque le modèle de rapport est publié sur le serveur, le manager peut conce-
voir ses rapports personnalisés. Il manipule les données métier en les filtrant, en
les groupant, en les triant ou en créant de nouvelles formules.
Lorsque le rapport est défini, il peut être enregistré sur le serveur de rapports.
Il devient donc disponible aux utilisateurs autorisés.
Le filtrage offre des conditions simples à utiliser et intuitives.
328 ————————————————————————————————————————————————————————————————————— 10. Reporting Services
10.5 CONCLUSION
Les managers opérationnels disposent de peu de temps pour se former aux tech-
niques de la création de rapports. Les informaticiens joueront pleinement leur
rôle en préparant des rapports utiles aux personnels de l’entreprise. La facilité
de compréhension des rapports et leur mise à disposition rapide permettra aux
opérationnels de suivre les indicateurs essentiels et ainsi de partager avec la
direction, la vision de l’entreprise.
11
L’analyse de données
avec Excel
un lieu de ressaisie manuel mais un outil d’analyse accédant aux données stra-
tégiques.
Dans ce chapitre nous présenterons les tableaux croisés dynamiques d’Excel
accédant aux cubes OLAP 2000 ou 2005. Depuis la version d’Excel 2000 le mode
opératoire d’accès à un cube OLAP est le même. La version Excel 2007 (Office 12)
ne déroge pas à la règle. Elle apporte cependant une fonctionnalité liée à SSAS
2005 : les indicateurs clés de performance (KPI).
Microsoft a également mis à disposition des utilisateurs d’Excel un complé-
ment nommé Office Excel pour SQL server Analysis services. Cet outil apporte
des fonctionnalités qui n’existent pas dans les tableaux croisés dynamiques, en
particulier l’accès simultané à plusieurs cubes, et les fonctionnalités d’écriture
dans un cube OLAP. Nous présentons cet outil dans ce chapitre.
Grâce aux Office Web Components (OWC), Microsoft offre la possibilité d’encap-
suler des tableaux et graphes dynamiques dans des pages web. Cette fonctionna-
lité est très prisée des utilisateurs nomades qui peuvent ainsi accéder à leurs analyses
sur Excel via un navigateur web.
Avec Office Business Scorecard Manager 2005, Microsoft offre une ouverture
nouvelle aux managers soucieux de gouvernance d’entreprise. Les indicateurs clés
de l’entreprise sont présentés sous forme de tableaux de bord synthétiques. BSM
s’intègre naturellement dans un portail maison, Sharepoint Portal.
Depuis avril 2006, la société Proclarity, spécialisée dans les outils de restitu-
tion sur plateformes MS OLAP, a été rachetée par Microsoft. Nous montrons
l’apport de cette société dans la chaîne décisionnelle de Microsoft.
Figure 11.1 —
Connexion
au serveur Analysis
Services 2005
Figure 11.3 —
Liste de sources OLAP
334 ———————————————————————————————————————————————————————— 11. L’analyse de données avec Excel
Figure 11.4 —
Sélectionner
l’emplacement
du rapport
Le tableau croisé peut être créé dans la feuille Excel existante ou dans une nou-
velle feuille. Le positionnement du tableau dans la feuille doit également être précisé.
Dans la figure 11.4 le tableau croisé sera créé dans la feuille existante en cellule A3.
L’assistant fournit un modèle de rapport Vierge que l’utilisateur devra complé-
ter. L’espace de travail est composé de régions qui ont chacune un rôle spécifique.
Les champs de ligne et de colonnes reçoivent les attributs ou hiérarchies de dimen-
sions. Voir figure 11.5.
Les champs de page permettent d’effectuer un filtrage de la source de données
sur plusieurs critères.
Figure 11.7 — Le tableau croisé présente les ventes effectuées sur le territoire français,
par catégorie de produit (lignes) et par années calendaires (colonnes)
Figure 11.8 —
Options avancées
de champ
dynamique
336 ———————————————————————————————————————————————————————— 11. L’analyse de données avec Excel
Figure 11.9 — Liste des dix meilleures ventes de vélos (Road Bikes) de 2001 à 2004
La figure ci-dessus montre une sélection des 10 meilleures ventes (Total sales
amount) triées en ordre décroissant.
Il est possible d’agrémenter la présentation du tableau en appliquant diffé-
rents types de formats. Dans la figure 11.9 le format standard a été appliqué.
Afin de rendre plus visuel le tableau il est possible d’ajouter une graphique
croisé dynamique.
Le graphique croisé dynamique est directement lié au tableau croisé. Le gra-
phique est mis à jour dynamiquement en fonction des choix effectués dans le
tableau. Un drill down dans le tableau entraine la même opération dans le gra-
phique et réciproquement.
Excel 2007 présente des améliorations visuelles et de nouvelles fonctionnalités.
Figure 11.11 — La nouvelle interface des tableaux croisés dynamiques d’Excel 2007
Excel 2007 permet également une restitution des KPI (Indicateurs clés de
performances) inclus dans Analysis services 2005.
Excel dispose d’une fonction de création de cube local à partir d’un cube
SSAS. Il s’agit de la fonction OLAP hors connection du menu Tableau croisé
dynamique.
Les paramètres constitutifs du tableau croisé sont transférés dans le cube local.
Figure 11.14 —
On choisit les dimensions
et les mesures à exporter
11.1 L’analyse ad hoc grâce aux tableaux croisés dynamiques ————————————————————————————————— 339
Figure 11.15 —
Connexion OLAP
à un cube OLAP
Il est à noter que Microsoft Query, inclus dans Excel, dispose d’un assistant
permettant de créer des cubes à partir d’une source relationnelle.
Depuis la version 2000, Excel permettait déjà de réaliser des cubes. Cette
fonctionnalité reste rudimentaire et ne s’applique qu’à des sources de données
peu volumineuses. Cette fonctionnalité ne doit pas occulter la recommandation
majeure de la business intelligence : partager un même et unique référentiel dans
l’entreprise.
Ces recommandations étant faites, nous présentons succinctement les étapes
qui permettent de créer un cube avec Excel.
Dans MS Query aller dans Fichier puis Création de cube OLAP.
Figure 11.16 —
L’assistant
de création
de cube OLAP
à partir de MS
Query
340 ———————————————————————————————————————————————————————— 11. L’analyse de données avec Excel
La requête porte une extension .oqy et est stockée par défaut dans le répertoire
requêtes d’Excel : C :\Documents and Settings\Administrateur\Application Data\
Microsoft\Requêtes\AdventureWorks.cub.
Le tableau croisé dynamique d’Excel est l’outil permettant de relire un cube
stocké selon ce format.
Le complément Microsoft Office Excel pour SQL Server Analysis Services est
une nouvelle offre d’analyse décisionnelle qui permet aux utilisateurs de créer
rapidement des rapports personnalisés dans Microsoft Excel. Ce complément est
disponible gratuitement sur le site de Microsoft. Il est compatible avec les ver-
sions Excel 2002 (XP) et 2003.
Figure 11.17 — Le menu Analyse des cubes du complément Excel pour OLAP
Plusieurs filtrages peuvent être associés. Les navigations drill down et drill up
sont disponibles. À la différence du tableau croisé dynamique, le tableau peut
être scindé. Des lignes et colonnes peuvent y être ajoutées.
11.2 Complément Microsoft Office Excel pour SQL Server Analysis Services —————————————————————— 343
Les managers nomades qui désirent accéder régulièrement à leurs tableaux trou-
veront appréciable d’utiliser des tableaux croisés dynamiques sur le Web. Si le
composant OWC n’est pas installé sur le poste client, le téléchargement du contrôle
ActiveX s’effectue lors du premier accès au cube.
L’utilisateur accède au cube OLAP via une interface web. L’outil d’interroga-
tion des cubes via le Web est similaire au tableau croisé dynamique intégré à Excel.
En pratique, le concepteur intègre le composant OWC (tableau croisé dyna-
mique) dans une page web puis établit les connexions vers les sources de données.
Dans FrontPage il est possible de créer un tableau croisé dynamique (figure 11.22).
Figure 11.22 —
Insertion
d’un composant web
avec FrontPage
Par la suite, l’utilisateur définit lui-même les axes d’analyse, filtre et trie les
données selon ses propres analyses.
11.4 CONCLUSION
De nombreux outils étaient déjà intégrés dans Office 2000 permettant d’effectuer
toutes sortes de requêtes et d’analyses. MS Access et MS Excel sont largement
346 ———————————————————————————————————————————————————————— 11. L’analyse de données avec Excel
répandus dans les entreprises. De nombreuses pme/pmi ont mis en place des
systèmes décisionnels efficaces grâce à de tels outils.
Les limitations de tels outils ont été évoquées plus haut. Grâce à SQL server
2005 et Analysis services, Microsoft a su concilier la puissance et la robustesse
d’un système centralisé connectés à des outils fortement répandus auprès des
managers d’entreprises.
Pour les utilisateurs nomades désireux d’effectuer tous types d’analyse tout en
restant connecté à leur entreprise, Microsoft ne disposait pas de solution satis-
faisante. Depuis l’acquisition de la société Proclarity ce vide est comblé. Nous
verrons dans le chapitre suivant les différentes solutions d’analyse offertes via le web.
12
L’analyse de données
sur le Web
Reporting Services, totalement orienté Web, offre une lecture statique des don-
nées de l’entrepôt et des cubes OLAP. Excel, grâce aux OWC permet une lecture
plus dynamique des mesures et axes dimensionnels. Bien qu’Excel soit l’outil
d’analyse le plus répandu et le mieux maîtrisé par les managers, il n’en reste pas
moins que certains prérequis sont nécessaires : une licence Excel est nécessaire
sur chaque poste utilisateur et le composant OWC doit également être installé
pour une lecture sur le Web.
Si l’on désire accéder à des informations d’analyse dans un contexte extranet,
il est indispensable de disposer d’outils qui ne nécessitent aucune installation
côté poste client.
Afin de répondre à cette attente, Microsoft a acquis cette technologie en
avril 2006, auprès de la société Proclarity. La vocation de Proclarity fut pendant
des années de développer des outils de restitution autour des outils SQL Server
2000/2005 et du portail Sharepoint.
Microsoft annonce que les outils développés par Proclarity feront partie inté-
grante de la suite décisionnelle aux côtés de Business Scorecard Manager. On y
trouve les fonctionnalités exposées dans les sections suivantes.
348 ———————————————————————————————————————————————————————— 12. L’analyse de données sur le Web
Les données sont affichées sous forme de chiffres bruts et de pourcentages. Vous
pouvez trier les nœuds du plus grand au plus petit ou inversement. En outre, les
graphiques de Pareto illustrent la répartition des valeurs afin de permettre d’iden-
tifier rapidement les groupes qui apportent la plus grande contribution à un total.
• La quantité totale des ventes Internet représente 5 436 429 € pour le 2e tri-
mestre de l’année calendaire 2004.
• Sur la même période, les accessoires représentent 4 % des ventes.
• Les Fenders et les Bikes Racks représentent respectivement 7 % et 6 % des
accessoires Ces deux catégories sont matérialisées par les deux barres plus
claires du graphique de Pareto.
• Dans le graphique de Pareto, la ligne des 76 % croise la ligne du pourcen-
tage du total au-dessus de la barre représentant les Fenders. Cela signifie
qu’environ 76 % des ventes d’accessoires sur Internet sont représentées par
les trois premières catégories (Top 3) et représentées graphiquement par les
barres situées à gauche de la catégorie Fenders. Pour connaître le détail de
350 ———————————————————————————————————————————————————————— 12. L’analyse de données sur le Web
ces accessoires, il suffit de placer le curseur sur les barres ou de cliquer sur
le nœud Top 3 (3 premiers) afin d’afficher son contenu.
• Une diminution significative de la quantité d’accessoires vendus est obser-
vée à partir de la troisième barre. Cette situation pourrait éventuellement
faire l’objet d’une analyse plus approfondie.
Figure 12.3 —
Carte
de performances
12.2 Proclarity Analytics Server (PAS) ——————————————————————————————————————————————————————— 351
La vue en perspective (figure 12.4) est utilisée pour mettre en évidence les
relations entre de nombreuses représentations de données. Elle permet d’effectuer
une analyse sectorielle, d’expliciter d’importants volumes de données et d’établir
des correspondances entre plusieurs mesures simultanément au sein d’une hié-
rarchie.
Lorsque vous déplacez les règles mobiles statistiques, vous pouvez vous concen-
trer sur un pourcentage donné de la valeur totale. Vous pouvez, par exemple, dépla-
cer la règle pour afficher les quatre-vingts premiers pour cent du chiffre d’affaires
et 80 % des quantités.
Analytics Server permet de fournir des analyses basées sur le Web auprès d’uti-
lisateurs disposant d’un simple navigateur (zero footprint).
PAS Intègre un serveur de cubes. Les tableaux sont accessibles grâce à des
vues stockées dans des livres. Chaque livre fait l’objet d’une sécurité particulière
352 ———————————————————————————————————————————————————————— 12. L’analyse de données sur le Web
L’onglet Data Layout permet de disposer les mesures et les dimensions sur la
surface du dessin.
L’onglet View permet de choisi le type de graphe. L’onglet Sort effectue des
tris sur les données. L’onglet Filter autorise des filtres sur les sources de données;
Les Librairies sont créées sur le serveur analytique par les utilisateurs autorisés
à l’aide de Proclarity Professionnal. Lors de la création d’une librairie, le dossier
Books est créé. Il rassemble les rapports partagés sur le serveur.
Le répertoire Components contient les logiciels distribuables auprès des utili-
sateurs sur le Web. Par exemple, le composant Web Professional peut être auto-
risé au téléchargement afin de permettre la création de rapports sur le Web.
Le répertoire des Rôles contient des groupes d’utilisateurs.
Le répertoire des Users contient les comptes individuels ajoutés au serveur
analytique. Par défaut PAS (Proclarity Analytic Server) refuse les droits de
publication ou de fournir des liens vers les livres de rapports via e-mail.
Le serveur Proclarity agit comme une sorte de portail intégrant des rapports
d’origines différentes telles que Reporting Services. La figure 12.9 montre l’inté-
gration d’un Rapport des ventes élaboré avec Reporting Services dans une inter-
face Proclarity.
Les outils disponibles dans l’interface web sont nombreux. La figure 12.10
montre une sélection de sets (ensemble de données). Les boutons ADD ou Remove
permettent d’ajouter ou de retirer les sélections.
12.2 Proclarity Analytics Server (PAS) ——————————————————————————————————————————————————————— 355
L’onglet Navigation
Sur le web il existe deux modes de navigation : standard et Professional. Le mode
standard ne nécessite aucun ajout ou téléchargement de contrôle activeX. Le mode
professional n’est disponible que si l’application Proclarity Professional est instal-
lée sur le poste client.
356 ———————————————————————————————————————————————————————— 12. L’analyse de données sur le Web
Dans la même interface web, il est possible de recourir à tous types de navi-
gation (figure 12.11) tels que Drill down, Drill Up, Expand (développer), Show
only (sélectionner un membre seulement) ou Hide (cacher tel ou tel membre de
dimension).
L’onglet View
L’onglet View permet de choisir les types de graphiques, d’ajouter des options de
totalisation par ligne et colonnes ou de supprimer les hiérarchies dimensionnelles.
L’onglet Sort permet de trier toute colonne en ordre ascendant ou descendant
tout en préservant les groupes hiérarchiques.
L’onglet Filter permet de sélectionner ou cacher des lignes selon les critères
habituels : les n meilleurs, les x valeurs les plus basses. Les valeurs au-dessus, au-
dessous ou entre des bornes. Il est possible de fournir les valeurs en pourcentages
ou en sommes de mesures.
L’utilisateur dispose d’un choix de fonctions (figure 12.13) permettant de sau-
vegarder ses vues personnelles afin d’organiser son propre environnement d’ana-
lyse. Il peut également imprimer sur l’imprimante disponible ou exporter les
12.2 Proclarity Analytics Server (PAS) ——————————————————————————————————————————————————————— 357
données dans la version d’Excel installée sur le poste utilisateur. L’envoi par e-
mail permet de faire parvenir un lien au destinataire. Ce lien exécute un accès
sécurisé au serveur afin de fournir des données dynamiques et à jour.
L’envoi par mail d’un rapport au format PDF est
également possible grâce à la fonction imprimer. La
figure 12.13 montre les différentes options d’envoi de
documents (Imprimante, Excel, Messagerie électroni-
que, serveur PAS etc.)
Figure 12.13 —
Les utilisateurs qui disposent d’une version Procla- Différentes options
rity Professional installée sur le poste peuvent aussi d’envoi de documents
créer et publier de nouveaux rapports sécurisés.
358 ———————————————————————————————————————————————————————— 12. L’analyse de données sur le Web
PAS gère toutes les connexions et les droits d’accès aux cubes. Dans un envi-
ronnement de clusters, PAS permet un accès simultané de plusieurs milliers
d’utilisateurs.
Les techniques de caching optimisent les performances.
12.4 CONCLUSION
Tous les projets ne se ressemblent pas et tous les chefs de projets sont différents.
Les projets BI exigent également de l’équipe projet d’avoir une plus grande
interaction avec un large périmètre fonctionnel, rassemblant des interlocuteurs
compétents en systèmes d’information ainsi que des analystes et managers.
Pour réussir dans le domaine de la BI, une équipe de projet doit être composée
de membres ayant une forte composante métier conjuguée à une bonne compé-
tence technique.
Les personnes qui se cachent derrière les projets sont les pilotes fondamentaux
du succès. Elles doivent posséder un large éventail de qualifications afin d’être
efficaces. Au cours de ces dernières années, nous avons travaillé sur de nombreux
projets BI, en revêtant tour à tour le rôle d’analyste, d’architecte ou de techni-
cien des systèmes d’information.
Nous avons travaillé avec des chefs de projets exceptionnels. Mais nous avons
aussi hérité de projets enlisés par manque de compétence des acteurs ou par absence
de volonté de la part de la direction.
Notre expérience dans le domaine des projets décisionnels nous a amené à défi-
nir les caractéristiques essentielles du chef de projet décisionnel.
Être expérimenté
Ils sont peu nombreux, les chefs de projets disposant d’une expérience en tant
que chef de projet BI et ayant une connaissance des outils de mise en œuvre.
Une connaissance théorique de la gestion de projets BI est certes nécessaire.
Cependant, pouvoir anticiper les problèmes dès la phase conceptuelle est un atout
supplémentaire qui ne peut résulter que d’une expérience de terrain. Pouvoir
déceler dès le départ certaines carences dans la mise à disposition des données
évite un enlisement probable. Le processus itératif, dans la mesure où il ne remet
pas en cause le schéma initial, permet de réagir positivement aux demandes
d’adaptation liées à une meilleure appréciation des besoins. Idéalement, le chef
13.1 Les caractéristiques du chef de projet décisionnel ———————————————————————————————————————— 363
de projet BI aura assumé par le passé plusieurs rôles différents dans des projets
antérieurs.
En plus de l’expérience pratique des projets BI, un chef de projet efficace doit
contrôler l’étendue du projet et de son budget. Ceci exige de sa part qu’il surveille
activement l’avancement des tâches, les livrables, le temps passé et les dépenses
occasionnées par chaque membre de l’équipe projet. En contrôlant activement
tous ces points, le chef de projet peut déterminer l’impact d’une demande de
changement et les risques de dépassement de budget.
Leadership
Tout le monde ne dispose pas des qualifications ou des qualités personnelles
nécessaires au contrôle d’un projet informatique. Un chef de projet doit pouvoir
être source d’inspiration et forcer le respect, vis-à-vis des membres de l’équipe
projet mais également vis-à-vis des commanditaires et des représentants de la
communauté d’utilisateur. Cela exige du chef de projet de pouvoir gérer les
attentes de ceux à qui il rapporte directement aussi bien que de ceux qui lui
rapportent directement.
Le chef de projet doit construire une équipe formée d’individus qui possèdent
différentes qualifications et si possible complémentaires. Développer une équipe
aux compétences croisées représente un réel défi parce que les membres sont sou-
vent issus de disciplines et de milieux différents. Cela exige du leader une volonté
d’unir des membres pour le bien commun de l’équipe et le succès du projet.
Le chef de projet doit également maîtriser la gestion des conflits et l’art de
la négociation. On constate cependant que beaucoup de dirigeants manquent
tout simplement de compétences dans l’art de manager les hommes.
Compétences en organisation
Les meilleurs chefs de projet BI sont très organisés et adhèrent aux principes de
base de la gestion de projet. Cela exige d’eux de développer et soumettre pour
approbation un plan formel de projet intégrant les livrables, les charges, la chro-
nologie des tâches et le budget.
Une fois que le planning a été approuvé, le chef de projet surveille activement
l’avancement des travaux par rapport au plan. La seule manière de communiquer
l’état d’avancement du projet est de tenir des réunions hebdomadaires auxquelles
sont conviés tous les membres de l’équipe, les commanditaires du projet et le
comité de coordination de projet. En conduisant ces réunions régulièrement, tous
les acteurs du projet sont informés de l’avancement, des problèmes éventuels et
des retards qui en découlent.
364 ————————————————————————————————————————————————————————————————————— 13. Passez à l’action !
Compétences en communication
Pour être un chef efficace, un individu doit également être un grand communi-
cateur. Un chef de projet efficace transmet ses messages de manière compréhen-
sible afin d’être entendu par l’ensemble des acteurs. Cela exige des capacités de
communication écrite et orale. La communication claire et concise est indispen-
sable au soutien de la solution par la communauté des utilisateurs.
Le succès d’un projet BI est intimement lié à la compréhension de l’utilité et
à l’efficacité de la solution développée. Si les utilisateurs ne parviennent pas à
utiliser simplement la solution ou ne comprennent pas les avantages qu’elle leur
fournit, pourquoi devraient-ils changer leur comportement ? La communication
efficace est essentielle aux attentes des gestionnaires. De plus elle instruit les
utilisateurs et encourage les individus à accepter plus facilement le changement.
Qualités personnelles
De notre point de vue, il y a quelques traits personnels qui distinguent de bons
chefs de projet de ceux qui sont exceptionnels. Tout d’abord, il y a l’honnêteté
et le désir de franchise dans les communications. Un excellent chef de projet sait
nuancer son attitude, qui peut être ferme et claire afin d’insister sur un point précis
ou remplie de tact pour ne pas détériorer des relations ou endommager des rap-
ports entre individus. L’honnêteté stimule la confiance et le respect entre les mem-
bres de l’équipe projet et les sponsors.
En second lieu, les chefs de projet BI exceptionnels sont positifs, ce qui ne
signifie pas d’un optimisme béat. Un optimiste espère toujours que le meilleur arri-
vera en dépit des difficultés, et ne parvient pas à anticiper les problèmes avant qu’il
ne soit trop tard. D’autre part, une attitude positive inclut une certaine quantité
de scepticisme et une bonne compréhension des réalités de la situation.
Troisièmement, les excellents chefs de projet BI sont clairvoyants et peuvent
identifier des sujets de préoccupation avant qu’ils ne deviennent de vrais problè-
mes. Tandis que la perception est influencée par l’expérience, la capacité à identifier
ces difficultés réduit considérablement le risque et permet au projet de continuer
d’avancer.
Il est important de considérer que ce qui compte n’est pas ce que l’on sait mais
bien ce que l’on fait avec ce que l’on sait. De la même manière, tout actif d’entre-
prise n’a de valeur que si l’on en fait quelque chose.
Dans le monde de la BI, il convient d’observer que des investissements sont
nécessaires à la construction d’un environnement dans lequel les données se
transforment en connaissance. Mais le réel bénéfice provient de l’action générée
par la connaissance. Cela signifie simplement que chaque organisation ne fait
pas simplement que produire de l’information. Elle dispose de méthode pour
extraire de la valeur de la connaissance, agir en conséquence et mesurer l’effi-
cacité de son action. Il s’agit là non pas d’un problème technique mais bien
d’organisation. Identifier une connaissance « active » est une chose, mais réaliser
l’action requise nécessite une organisation agile et fortement réactive.
Les gestionnaires évaluent sans cesse les coûts comparés aux avantages de telle
ou telle option. La compréhension et la quantification des coûts comparés aux
bénéfices sont nécessaires afin de répondre à une telle question.
De plus en plus souvent, les chefs de projet sont invités à évaluer le coût
relativement à l’avantage d’entreprendre un projet de business intelligence. Plu-
sieurs mesures financières peuvent être retenues telles que le taux interne de
rendement (IRR), la valeur nette (NPV), la période de remboursement et le
retour sur l’investissement (ROI). Chacune de ces mesures présente des avanta-
ges. Cependant, une mesure généralement admise est le ROI.
Les composants de cette stratégie comportent une analyse des coûts, un
accroissement des revenus liés à cette activité, et d’autres bénéfices. On peut
distinguer les points suivants :
• les coûts fixes liés à l’acquisition de l’infrastructure (achats du dataware-
house et des licences de base);
• les coûts variables associé à l’activité. (achat des licences des outils de
restitution);
• les coûts induits par la maintenance de l’activité;
• la valeur des bénéfices dérivés des actions induites par la connaissance;
• le modèle de valeur attendu de cette activité;
• la détermination à rentrer dans ses frais tout en proposant un modèle de
profitabilité.
Les coûts directs sont des dépenses réelles qu’une organisation peut claire-
ment identifier. Ils incluent le prix d’achat du logiciel, des honoraires de main-
366 ————————————————————————————————————————————————————————————————————— 13. Passez à l’action !
Exemple
La société Adventure Works Cycles souhaite mettre en place un projet décision-
nel afin d’offrir à son personnel des outils d’interrogation et de reporting. Cepen-
dant, compte tenu de l’engagement financier important, le sponsor du projet et
la direction générale veulent connaître le ROI généré par le projet BI. Afin d’éta-
blir des éléments de comparaison, on estime la charge de travail actuelle du
reporting à 120 heures/mois.
On calcule les coûts de la mise en place d’un nouveau développement BI. Ils
sont synthétisés dans le tableau suivant.
Dépenses Coût
Matériel 5 000 €
Total 65 000 €
Maintenance et support :
% du temps Coût en €
Fonction
de travail (2 000 h/an)
Total 22 500
Main d’œuvre (120 h/mois) 108 000 108 000 108 000 108 000
Matériel 5 000
Résultats
L’économie réalisée sur les trois premières années est de 249 000 €.
Total de l’investissement des quatre premières années = 140 000 €.
ROI = [(249 000 – 140 000)/140 000)] × 100
décisionnel à haute valeur ajoutée pour ses fournisseurs, elle peut en attendre
un loyer mensuel basé par exemple sur le chiffre d’affaires réalisé.
Dans l’exemple ci-dessus nous avons volontairement comparé un système
manuel à un système automatisé. Nous n’avons pas intégré des notions telles que
l’amélioration considérable de la qualité des données, de la rapidité de leur mise
à disposition et de leur diffusion, ainsi que la disponibilité d’analyses permettant
d’effectuer des choix de gestion pertinents grâce à des observations qu’il était
impossible de réaliser dans un système manuel.
Le serveur SQL Server comporte de manière intégrée tous les éléments néces-
saires à une solution décisionnelle :
• un ETL d’entreprise, Integration Services, pour l’extraction, la transfor-
mation et le chargement des données à partir de n’importe quelle source;
• une base de données relationnelle intégrée à un moteur multidimensionnel
OLAP;
• un serveur de rapport, Reporting Services, qui permet des restitutions
d’informations sous toutes formes. (reporting de masse, reporting ad hoc).
Il est conseillé d’avoir connaissance des évolutions de ces deux produits dans
la stratégie Microsoft. En effet, Microsoft annonce Office PerformancePoint pour
le premier semestre 2007. Il s’agit d’une application de planification, de budgé-
tisation et de prévisions. D’après les informations en notre possession lors de la
rédaction de cet ouvrage, il semblerait que cette appellation englobe Proclarity
et Business Scorecard Management au sein de SharePoint.
Analyses
ERP détaillées
Outils familiers
(Excel,
Navigateur,…)
CRM
Applications tierces Rapports
interactifs
LOB SQL
Server Terminaux
Tableaux
de bord
protocoles. Simplifier cette étape est indispensable pour pouvoir ensuite mani-
puler les données, les confier aux utilisateurs et améliorer la diffusion d’informa-
tion dans l’entreprise.
Un ETL extrait les données de sources hétérogènes, les transforme et les réin-
jecte dans une nouvelle base, le datawarehouse. Cela permet de nettoyer et trans-
former les données. Une seule source de données est ensuite interrogée par l’outil
de restitution.
Le module d’ETL qui porte le nom d’Integration Services (SSIS) permet une
intégration des données en provenance de diverses sources hétérogènes vers les
environnements d’aide à la décision (moteur OLAP, datamart, datawarehouse)
ou tout autre type d’application. Les caractéristiques majeures de SQL Integra-
tion services sont les suivantes :
13.3.7 Sécurité
SQL Server 2005 introduit de nouvelles fonctionnalités qui renforcent la sécu-
rité des données et des échanges avec SQL Server :
• chiffrement des données;
• chiffrement des échanges sur le réseau;
• gestion des certificats;
• filtrage des adresses IP pouvant invoquer un service web.
13.3.9 Reporting
SQL Server 2005 comporte une plate-forme complète de reporting. De la créa-
tion de rapports au travers de Visual Studio, à la mise à disposition de ces rapports
à l’utilisateur via une intégration possible au portail ou à des applications métier.
13.3 Faire une offre de solution décisionnelle ———————————————————————————————————————————————— 373
Report Builder permet aux analystes métier de créer des rapports et tableaux
avec des fonctions de navigation interactive au sein des rapports. Report Builder
est complètement intégré à Reporting Services 2005. Les outils de reporting, une
fois déployés par les informaticiens, donnent aux managers une réelle indépen-
dance pour l’accès à leurs données.
figure 13.2 montre les différentes couches qui composent cette plate-forme (cou-
che physique d’alimentation, couche applicative, couche de restitution).
13.4.3 Livrables
Les livrables sont :
• document de synthèse;
• prototype;
• licence à durée limitée du produit utilisé;
• prévoir une durée d’étude de 10 jours.
13.4.5 Prototype/pilote
Ce pilote sera conçu en fonction du cahier des charges défini précédemment.
Il faudra procéder à :
• l’installation sur un des serveurs de l’organisation cliente;
• l’intégration des sources de contenus;
• la mise en place et la personnalisation de la solution décisionnelle;
• l’installation sur les postes client;
13.4.6 Opérations
Il faut définir les procédures opérationnelles principales et toutes les procédures
de contrôle :
• définition des procédures opérationnelles;
• contrôle des performances;
• optimisation des performances.
13.5 CONCLUSION
Le lecteur aura pu s’en rendre compte, MS SQL 2005 offre une réponse plus que
satisfaisante à la mise en œuvre de tout projet décisionnel. L’apprentissage d’un
tel outil permet de découvrir non seulement de nouveaux concepts liés au pro-
cessus décisionnels mais de les mettre rapidement en œuvre grâce à une boîte à
outils immédiatement opérationnelle.
L’apparente facilité de déploiement d’un projet décisionnel ne doit cependant
pas occulter l’impérative nécessité de procéder avec méthode. Tout commence
par la vision claire des objectifs à atteindre. Les outils ne sont que le moyen de
mettre la stratégie au service de l’entreprise.
N’oublions jamais que la phase la plus importante du cycle décisionnel est
l’action !
Conclusion
Cependant, peu nombreux sont les décideurs qui exploitent ces outils en tota-
lité. Qui peut se vanter de connaître (et encore moins d’appliquer) toutes les
fonctionnalités d’Excel ? Aujourd’hui les outils de BI sont extrêmement aboutis
et vont même bien au-delà des besoins des décideurs. Le véritable enjeu ne réside
pas dans le mode d’emploi des outils de BI, lesquels sont dotés de plus en plus
d’assistants (ils seront bientôt banalisés comme ce fut le cas de la bureautique
dans les années quatre-vingt-dix) mais bien d’avantage dans la capacité d’utiliser
ces outils au service de la stratégie de l’entreprise.
Appliquons l’adage de Socrate, « connais-toi toi-même », à notre sujet d’étude.
C’est parce que l’entreprise réalise un travail d’introspection sur elle-même
qu’elle va pouvoir se situer dans le monde qui l’entoure. Mais pour bien connaître
le monde, l’entreprise doit exercer une veille permanente.
Le Corporate Performance Management (CPM), qui se définit comme un ensemble
de méthodes et d’outils destinés au contrôle des performances de l’entreprise, s’appuie
d’ores et déjà sur les fondements de la business intelligence. La chaîne de comman-
dement dans les organisations passe du mode simulation au mode opératoire et réci-
proquement selon un cycle vertueux mû par la stratégie globale de l’entreprise.
La business intelligence n’est ni un mirage, ni un miracle de la technologie.
Si elle n’a pas toujours été comprise, c’est qu’elle n’a pas été suffisamment expli-
quée par ses promoteurs. Nous pensons qu’elle s’intègre elle-même dans une appro-
che multidimensionnelle où les trois axes sont pragmatisme, rigueur et pédagogie.
Pragmatisme parce que la business intelligence s’impose au-delà des modes en
mettant en concordance technologie et stratégie d’entreprise.
Rigueur dans le respect de règles de l’art et des méthodologies de gestion de
projets.
Pédagogie afin de rapprocher ceux qui conçoivent les systèmes et les mettent
en œuvre de ceux qui les utilisent au quotidien.
L’auteur espère apporter sa modeste contribution au mouvement de démo-
cratisation de la business intelligence. Il forme et encadre en entreprise des étu-
diants en informatique à l’Institut du management de l’université de Savoie. Ces
jeunes, compétents, ouverts à toutes les technologies, apportent des réponses
concrètes aux problématiques rencontrées dans les entreprises industrielles ou
de services.
Mais ne l’oublions jamais, le but principal de l’éducation n’est pas le savoir,
mais l’action. La connaissance seule ne suffit pas. La connaissance n’a de valeur
que si on l’exploite. Sans action, l’intelligence est vaine. Ce n’est pas ce qu’on
sait qui est le plus important, mais plutôt ce qu’on fait avec ce qu’on sait.
Et un dernier conseil à ceux qui douteraient encore : il y a pire dans la vie
que de ne pas avoir réussi, c’est de ne pas avoir essayé !
Bibliographie
Voici un bref historique des étapes essentielles qui ont jalonné la longue marche
de ce que l’on appelle aujourd’hui la business intelligence.
1993 E. Codd dicte les règles qui À la demande de la société Arbor Software.
décrivent les moteurs OLAP E. Codd avait précédemment dicté les règles
universelles du modèle relationnel.
1997 Microsoft lance la technologie Livrable sous forme d’API (module interface).
OLE DB for OLAP
1998 IBM lance Db2 pour OLAP Cette version d’Essbase stocke les données
selon le modèle en étoile.
1998 Hyperion fournit ses solutions L’entrée de Microsoft sur le marché OLAP
pousse Arbor et Hyperion à fusionner.
2000 Microsoft renomme OLAP Cette version d’Analsys Services est intégrée
Services en Analysis Services gratuitement dans SQL Server 2000.
2005 Microsoft livre sa suite inté- La suite SQL Server 2005 intègre un SGBD,
grale de business intelligence le datawarehouse, l’ETL, OLAPet le data mining
dans SQL Server 2005 avec Analysis Services, le reporting avec
Reporting Services.
Si SQL Server 2005 intègre aujourd’hui les techniques les plus abouties en
matière de BI, c’est qu’il a hérité des nombreuses recherches qui se sont déroulées
depuis une quarantaine d’années.
B
Le marché mondial
de la BI aujourd’hui
Évolution
Rang % de parts
Éditeur sur année
sur le marché de marché
précédente
Microstrategy 5 ➚ 7,3 %
Cartesis 7 ➚ 3,8 %
Oracle 9 ➘ 3,4 %
Applix 10 ➚ 3,2 %
• ETL
CRM
• Data Mining
40%
• Reporting
Décisionnel • Applications analytiques
Décisionnel 30% ERP 670 M€
-10%
2000 2001 2002 2003
197 M€
Décisionnel 32,0% 27,6% 7,2% 8,4% CRM
ERP 15,8% 9,9% 3,5% 2,0%
CRM 117,7% 6,8% -4,6% -4,1%
Logiciel global 11,6% 8% -1,1% 0,6% 0 200 400 600
SGBD/R
Tableau B.2 — Liste des éditeurs qui offrent des solutions décisionnelles
Information Iway
Builders
Sybase IQ (moteur
SQL optimisé
pour le
décisionnel)
Gratuit
• reporting limité.
• limité à 2 processeurs.
• limité à 3 Go de mémoire.
Exclusions :
Édition standard
Cette édition dispose des fonctionnalités de data mining :
Limitations :
Exclusions :
• pas de réplication Oracle.
• pas de partitionnement des tables.
• pas de cache pro-actif.
• pas d’opérations on-line.
• pas de partitionnement des cubes OLAP.
Édition Enterprise
• Haute disponibilité illimitée.
• ETL complet.
• Data mining (dix algorithmes).
• Réplication Oracle.
• Replication SQL Server.
• Décisionnel illimité.
• Très haute performance (93 000 utilisateurs SAP concurrents).
D
Les profils d’apprentissage
des différents acteurs
de la BI
• formateur technique;
• chargé de l’assistance technique et des opérations;
• administrateur réseau.
Thèmes abordés
pour l’utilisateur Parcours d’apprentissage
professionnel SSIS
Thèmes abordés
pour l’administrateur Parcours d’apprentissage
professionnel SSIS
SSIS Améliorations apportées à SSIS
Notion de packages SSIS
Migration Compatibilité descendante de SSIS
des versions antérieures Migration des packages DTS
des packages DTS Utilisation de l’assistant Migration de package
Enregistrement Enregistrement des packages
et exécution de packages Sauvegarde et restauration des packages
Exécution des packages
Planification de l’exécution d’un package dans l’Agent
SQL Server
Utilisation des points d’arrêt dans les packages
Contrôle de l’exécution Service Integration Services
des packages Analyse des performances et de l’activité de SSIS
Déploiement des packages Création de configuration de package
Création d’un utilitaire de déploiement
Installation des packages
Redéploiement des packages
Thèmes abordés
Parcours d’apprentissage
pour l’Architecte SSIS
SSIS Améliorations apportées à SSIS
Composants SQL Server Moteur de base de données SQL Server
2005 SQL Server Analysis Services (SSAS)
SQL Server Reporting Services (SSRS)
SQL Server Notification Services
Service Broker
Les profils d’apprentissage des différents acteurs de la BI —————————————————————————————————————— 399
Thèmes abordés
Parcours d’apprentissage
pour l’Architecte SSIS
Thèmes abordés
pour l’utilisateur Parcours d’apprentissage
professionnel SSAS
Thèmes abordés
pour l’utilisateur Parcours d’apprentissage
professionnel SSAS
Langages MDX
DMX
Langages MDX
DMX
Thèmes abordés
Parcours d’apprentissage
pour l’Architecte SSAS
mations sur les processus et les ressources de l’organisation. Les tâches associées
au rôle d’utilisateur de reporting se retrouvent dans les fonctions suivantes :
• directeur commercial;
• assistant de direction;
• chef de projet.
Thèmes abordés
Parcours d’apprentissage
pour l’utilisateur SSRS
• modélisateur de données;
• analyste de gestion;
Les profils d’apprentissage des différents acteurs de la BI —————————————————————————————————————— 403
• analyste financier;
• contrôleur de gestion;
• analyste commercial.
Thèmes abordés
Parcours d’apprentissage
pour l’Analyste SSRS
action
Lance une action prédéfinie sur un cube ou une partie d’un cube. Une action
permet par exemple de lancer un rapport ou d’effectuer un drill through en cli-
quant sur une cellule du cube.
analyse de scénarios
Technique adoptée pour concevoir des scénarios à caractère commercial en met-
tant à jour des données, puis en analysant les effets des modifications apportées
aux données. Les analyses de scénarios font partie intégrante d’Excel et de SQL
Server OLAP grâce à la technique d’écriture différée.
Analysis Server
Composant serveur d’Analysis Services spécialement conçu pour créer et entre-
tenir des structures de données multidimensionnelles et produire des données
multidimensionnelles en réponse aux requêtes des clients. Voir aussi données
multidimensionnelles, OLAP.
attribut
Un fait décrivant chaque position d’une dimension.
agrégation
Action de calculer les valeurs associées aux positions parentes des dimensions
hiérarchiques. Cette agrégation peut être une somme, une moyenne ou toute
autre opération plus complexe.
406 —————————————————————————————————————————————————————————————————————— E. Glossaire de la BI
axe
Ensemble de tuples où chaque tuple est un ensemble de membres issus de diffé-
rentes dimensions. Un ensemble d’axes définit les coordonnées d’un jeu de don-
nées multidimensionnelles. Plus simplement, correspond à une dimension du
cube. Voir aussi tranche, tuple.
Balanced Scorecard
Méthode consistant à décliner les objectifs d’une entreprise en indicateurs de
performance clés.
BI (business intelligence)
Concept désignant les moyens permettant de rassembler, intégrer, analyser et
partager des données de l’entreprise afin d’optimiser la prise de décision. Par
extension, BI désigne les solutions logicielles combinant à des fins décisionnelles
des fonctions d’interrogation de bases de données, de reporting, d’analyse mul-
tidimensionnelle (ou OLAP), de data mining et de visualisation des données.
catégorie
S’emploie pour décrire ou classifier les données détaillées d’une société, par
exemple la date d’une transaction, un produit donné, un client donné ou une
région commerciale. Les catégories peuvent être regroupées en catégories plus
larges, par exemple les dates sont regroupées en mois et les mois en années.
cellule
Une donnée définie par une position de chaque dimension (comme dans le cas
d’un document Excel).
Glossaire de la BI ———————————————————————————————————————————————————————————————————————— 407
champ
Zone d’une fenêtre ou d’un enregistrement stockant une valeur de données
unique. Certaines bases de données interprètent le champ comme un synonyme
de la colonne.
checkpoint
Point de contrôle permettant une reprise des traitements de chargement des don-
nées dans un ETL.
clé de membre
Propriété d’un niveau de dimension qui spécifie les identificateurs des membres
du niveau. La valeur de cette propriété peut désigner une colonne dans laquelle
figurent les identificateurs ou une expression correspondant aux identificateurs.
connexion
Liaison établie entre le complément et un cube Analysis Services.
cookies
Certains sites web enregistrent sur votre disque dur des informations à votre sujet
(par exemple, la date de votre dernière connexion). On appelle ces informations
« cookies ». Internet Explorer enregistre les cookies dans le dossier Cookies de
Windows. Vous pouvez les supprimer sans aucun danger.
cross-sell
Technique de vente consistant à proposer au client un produit lié à celui
demandé, soit parce qu’il existe un lien technique, soit parce que l’étude des
comportements des consommateurs montre l’existence d’une corrélation entre
les ventes des deux produits.
cube
Ensemble de données organisées et synthétisées dans une structure multidimen-
sionnelle définie par un ensemble de dimensions et de mesures. Dans le cas de
nombreuses dimensions, on parle d’« hypercube »). Bien qu’un hypercube com-
408 —————————————————————————————————————————————————————————————————————— E. Glossaire de la BI
cube local
Cube créé et stocké avec l’extension .cub sur un ordinateur local. On parle éga-
lement de cube hors connexion.
cube virtuel
Cube logique fondé sur un ou plusieurs cubes réguliers ou liés.
datamart
Sous-ensemble d’un datawarehouse lié à un métier de l’entreprise (finance, mar-
keting, RH, etc.) et conçu pour répondre aux besoins d’un groupe spécifique
d’utilisateurs en respectant les exigences de sécurité de l’entreprise. L’entreprise
peut construire des datamarts "Ventes", "Finance" ou "Ressources Humaines" en
ayant l’assurance que les utilisateurs n’ont accès qu’aux données qui les concer-
nent. Les datamarts simplifient également le travail des services informatiques
en leur permettant de gérer pour chaque communauté d’utilisateurs des ensem-
bles de données moins volumineux.
datamining
Méthode d’exploitation automatique des données visant à révéler les tendances,
récurrences et corrélations entre les données. Basé sur des méthodes d’analyse
statistique et/ou d’intelligence artificielle, le data mining permet de déceler des
informations essentielles difficiles à repérer « à l’œil nu » telles que les corréla-
tions entre des événements, des relations de causes à effets, des classifications,
des regroupements, des projections et des prévisions. On parle aussi de Web
mining.
datawarehouse
Entrepôt de données, isolé des systèmes opérationnels, permettant d’agréger des
données thématiques, intégrées, non volatiles et historisées, dans un but de faci-
liter la prise de décision.
datastore
Base de données intermédiaire avant spécialisation.
dataweb
Accès à une base de données via un serveur Internet et un navigateur web, quel
que soit sa plate-forme d’hébergement, sa localisation ou le format des données.
Glossaire de la BI ———————————————————————————————————————————————————————————————————————— 409
décisionnel
Processus d’utilisation des connaissances issues des informations et des données
générées par les processus métier de l’entreprise pour déterminer la meilleure
action à entreprendre, la meilleure décision à prendre. Le reporting et l’analyse
sont des outils décisionnels typiques. L’analyse décisionnelle aide la prise de déci-
sions stratégiques en permettant de visualiser les données de l’entreprise à l’aide
d’indicateurs métier.
descendant
Dans une hiérarchie de dimension, membre associé au membre d’un niveau supé-
rieur de la même dimension. Par exemple, dans une dimension de temps com-
posée des niveaux Année, Trimestre, Mois et Jour, Janvier est un descendant de
2005. Voir aussi enfant, parent, frère.
dimension
Attribut structurel d’un cube constituant une hiérarchie organisée de catégories
(niveaux) qui décrivent les données d’une table de faits. Ces catégories décrivent
généralement un ensemble identique de membres sur lesquels les utilisateurs sou-
haitent fonder une analyse. Par exemple, une dimension géographique peut
inclure des niveaux Pays, Région, Département et Ville. Voir aussi table de faits,
mesure, niveau.
dimension de temps
Dimension divisant le temps en niveaux, tels que Année, Trimestre, Mois et
Jour. Dans Analysis Services, type spécial de dimension créée à partir de la colonne
date/heure.
données source
Lignes ou enregistrements sous-jacents d’une base de données fournissant les
données d’un rapport.
écriture différée
Données de scénarios enregistrées et écrites dans le cube. Ces données sont dis-
ponibles pour une analyse ultérieure et peuvent être consultées et partagées par
d’autres personnes ayant accès au cube. Voir aussi analyse de scénarios.
enfant
Membre du niveau inférieur suivant dans la hiérarchie directement associé au
membre actuel. Par exemple, dans une dimension de temps composée des niveaux
Trimestre, Mois et Jour, Janvier est un enfant du trimestre 1 (Q1).
expression personnalisée
Expression chargée de renvoyer des données à un rapport selon une ou plusieurs
conditions.
extraction
Action d’extraire des données détaillées à partir desquelles les données d’une cel-
lule du cube ont été synthétisées. Voir drill through.
filtre de page
Filtre dans un rapport affichant des sous-ensembles de données.
frère
Dans une hiérarchie de dimensions, membre spécifié du même parent. Par exem-
ple, dans une dimension de temps dotée des niveaux Année et Mois, les membres
Janvier 2005 et Février 2005 sont des frères. Voir aussi enfant, descendant, parent.
frère (membre)
Dans une structure arborescente, élément sans éléments subordonnés. Par exem-
ple, dans Analysis Services, un frère est un membre de dimension qui n’a pas de
descendants.
hiérarchie
Les positions d’une dimension organisées selon une série de relations (1 – n) en
cascade. Cette organisation de données est comparable à un arbre logique où
chaque membre n’a pas plus d’un père mais un nombre quelconque d’enfants.
Exemple de hiérarchie temporelle : Année/Trimestre/Mois/Jour.
hiérarchie de dimension
Une des hiérarchies d’une dimension. Voir aussi hiérarchie.
Historiser
Stocker des données pour leur utilisation à long terme. Une fois historisées, les
données ne sont plus volatiles, elles entrent dans l’histoire (d’une entreprise, par
exemple). Voir datawarehouse.
412 —————————————————————————————————————————————————————————————————————— E. Glossaire de la BI
Hypercube
Voir cube.
jeu de sélection
Définit le niveau des données à insérer dans un rapport.
jointure imbriquée
Action de fusionner le contenu de deux ou plusieurs dimensions et de produire
un ensemble de résultats qui englobe les lignes et les colonnes de chaque dimen-
sion. Par exemple, une jointure imbriquée fusionne les données des villes de la
dimension Magasins et les données des boissons de la dimension Produits.
magasin de données
Base de données spécialement structurée pour les requêtes et l’analyse. Un maga-
sin de données contient généralement des données qui illustrent l’historique
commercial d’une organisation.
MDX
Voir expressions multidimensionnelles.
membre
Élément d’une dimension représentant une ou plusieurs occurrences de données.
Un membre peut être unique ou non. Par exemple, 2004 et 2005 sont les mem-
bres uniques du niveau Année d’une dimension de temps tandis que Janvier
représente les membres non uniques du niveau Mois car la dimension de temps
peut révéler plusieurs fois le mois de janvier si elle contient des données sur
plusieurs années.
membre calculé
Membre d’une dimension dont la valeur est calculée à l’aide d’une expression.
Les valeurs des membres calculés peuvent provenir des valeurs d’autres membres.
Par exemple, vous pouvez définir un membre calculé Profit en soustrayant la
valeur du membre Coûts de celle du membre Ventes.
membre frère
Membre de dimension qui n’a pas de descendants.
Glossaire de la BI ———————————————————————————————————————————————————————————————————————— 413
mesure
Dans un cube, ensemble de valeurs, généralement numériques, basées sur une
colonne dans la table de faits du cube. Les mesures sont des valeurs centrales qui
sont agrégées et analysées. Voir aussi cube, table de faits.
métadonnées
Les métadonnées constituent l’ensemble des données qui décrivent des règles ou
processus attachés à d’autres données.
modèle en étoile
Arrangement de tables dans une base de données relationnelles. Au centre, on
trouve la table de faits; les branches de l’étoile qui rayonnent à partir de la table
de faits correspondent aux dimensions.
modèle en flocon
Le modèle en flocon reprend les principes du modèle en étoile; le flocon est une
étoile dont les branches sont décomposées en sous-hiérarchies.
multidimensionnel
Structure de données ayant au moins trois dimensions indépendantes.
niveau
Nom désignant un ensemble de membres dans une hiérarchie de dimension où
tous les membres sont placés à distance égale de la racine de la hiérarchie. Par
exemple, une hiérarchie de temps comprend les niveaux Année, Mois et Jour. Voir
aussi dimension, hiérarchie.
niveau hiérarchique
Au sein d’une hiérarchie, les positions sont en général organisées en niveaux.
Les positions d’un même niveau correspondent à une classification précise.
414 —————————————————————————————————————————————————————————————————————— E. Glossaire de la BI
nom de membre
Propriété d’un niveau de dimension qui spécifie les noms des membres du niveau.
La valeur de cette propriété peut désigner une colonne dans laquelle figurent les
noms ou une expression correspondant aux noms.
parent
Membre du niveau supérieur suivant dans la hiérarchie directement associé au
membre actuel. La valeur parente est généralement une consolidation des valeurs
de tous ses enfants. Par exemple, dans une dimension de temps composée des
niveaux Trimestre, Mois et Jour, le trimestre 1 (Q1) est le parent de Janvier. Voir
aussi enfant, descendant, frère.
position
Une valeur d’une dimension.
propriété de membre
Information supplémentaire stockée dans un cube OLAP Analysis Services et
décrivant un membre de dimension.
rapport structuré
Rapport dépendant de la structure des données source sous-jacentes et offrant
des fonctions d’analyse avancées. Le rapport au format structuré fait l’objet d’un
add-in dans Excel. Il est intégré à Excel 2007.
Glossaire de la BI ———————————————————————————————————————————————————————————————————————— 415
reporting
Outil de mesure de faits a posteriori.
repository
Référentiel permettant de stocker les métadonnées c’est à dire les données qui
décrivent les données.
rollback
Permet d’annuler un processus de mise à jour dans une base de données relation-
nelle. La phase de Commit permet d’appliquer définitivement les modifications
apportées dans la base.
supply chain
Gestion et optimisation de la chaîne logistique, de la fabrication d’un produit à
sa distribution finale.
table de faits
Table centrale dans un schéma de magasin de données composée de mesures
numériques et de clés associant des faits à des tables de dimension. Les tables de
faits renferment des données qui décrivent des événements inhérents à une acti-
vité commerciale, tels que des transactions bancaires ou des ventes de produits.
Voir aussi magasin de données.
tableau de bord
Rapport dynamique composé d’indicateurs clés d’une activité, permettant d’avoir
une vision globale des performances; il s’agit d’un outil de mesure et de pilotage.
total visuel
Valeur de cellule agrégée et affichée pour un membre de dimension et cohérente
avec les valeurs de cellules affichées pour ses enfants. Le total visuel d’une cellule
416 —————————————————————————————————————————————————————————————————————— E. Glossaire de la BI
peut être différent du total réel si certains enfants de la cellule sont masqués. Par
exemple, si la fonction d’agrégation est SUM, la valeur de cellule affichée pour
Espagne est 1000, celle de Portugal est 2000 et le total visuel pour Péninsule
ibérique est 3000.
tranche
Sous-ensemble de données dans un cube, spécifié en limitant une ou plusieurs
dimensions en fonction des membres de la dimension. Par exemple, des faits pro-
pres à une année donnée forment une tranche d’un ensemble de données portant
sur plusieurs années. Voir aussi axe.
tuple
Ensemble ordonné de membres appartenant à différentes dimensions. Par exem-
ple, (Boston, [1995]) est un tuple composé de membres de deux dimensions : Géo-
graphie et Temps. Un membre unique est un cas dégénéré de tuple qui peut être
utilisé comme expression sans parenthèses. Voir aussi axe.
up-sell
Technique de vente consistant à proposer au client un produit générant une
marge plus élevée que celui demandé, soit typiquement un produit plus cher.
Cette technique s’appuie sur l’identification des besoins et habitudes de consom-
mation des clients, et en particulier sur du marketing one-to-one et des outils CRM.
Index
A B
Accès au détail (drillthrough) 249 Balanced scorecard 34, 64, 390
Action 13, 211, 249 Bâle 2 22
ActiveX 344 Base de données multidimensionnelle 181
Add-in Excel 368 BIDS 108
BO 62
Agent SQL Server 106
Briefing book 352
Agrégations 251 BSC 34
paramétrer les – 256 Business intelligence 3, 11, 33, 245
Alimentation 13 Business Objects 377
Analyse 188 Business Performance Management 369
ad hoc 181, 332, 390 Business Scorecard Management 67
de cube 341 Business Scorecard Manager 347
de données avec Excel 331 intégré 62
de séquence 264
C
Analysis Services 179
Approche itérative 361 Cache proactif 96, 98, 183, 190
Arbre de décomposition 84, 348 Calcul 188, 211, 244
ASCII 304 Capture instantanée 320
Assistant Carte de performance 85, 350
Cellule feuille 241
d’exportation 146
Checkpoint 46
d’importation 146
Classification 262
Association 263 Clé
Attribut 186 étrangère 222
lié 237 principale 222
Attrition 24 CLR (Common Langage Runtime) 183
418 —————————————————————————————————————————————————— Business Intelligence avec SQL Server 2005
Clusters 270, 283 Dimension 181, 182, 186, 193, 194, 196,
Cockpit 11 197, 211, 232
de pilotage 373 à multiples hiérarchies 96
Codd Edgar 8 à variation lente (Slowly changing dimen-
Cognos 377 sions) 48, 96, 135
Collecte de données 13 attributs 235
Comportement semi-additif 246 de data mining 187
Concepteur de rapport 293 de fait 187
Configuration 171, 174 de référence 187
Conteneur hiérarchie 221
de boucle intelligence 246
parent-enfant 96
For 118
plusieurs à plusieurs 187
Foreach 114
propriétés 234
de séquences 118
structure 238
Conversion monétaire 246
temporelle 47
Cookies 20
utilisation 242
CPM (Corporate Performance Management)
Dimensionnel 45
378
DMX (Data Mining Extensions) 119
CRM 19
Domaine
Cross-sell 20
analytique 9
Crystal 62
transactionnel 9
CSV 304
Donnée catégorielle 76
Cube 97, 211, 240
Drill down 48, 83, 181, 220, 301, 305, 324
déploiement 194
Drill up 181, 220, 305
local 337
DTS 2000 112
multidimensionnel 179
OLAP 181 E
Cycle en V 30
Échelle
D nominale 76
ordinale 76
Dashboard Server 358 Écriture différée 246
Data mining 180, 181, 259 EIS (Executive Information System) 25
Datamart 94, 104 Enjeux du décisionnel 7
Dataset 294, 307 Entrepôt de données 104
Datawarehouse 17, 45, 94 ERP 9, 46, 96
Date Chris 8 Espace d’analyse 13
Décision ETL (Extract, Transform, and Load) 46, 181
stratégique 68 d’entreprise 369
tactique 68 Étude de faisabilité 32
Decision tree 270, 283 Excel 377
Dénormalisation 105 2007 343
Destination 130 Explorateur de Package 110
Développement linéaire 361 Exploration vers le bas 301
Index ——————————————————————————————————————————————————————————————————————————————————— 419
F J
FASMI 56 Journal des audits 184
Fichier plat 132 Juste à temps 22
Filtre 219
Flux K
de contrôle 104, 108 Kaplan Robert 34, 373
de données 104, 109, 130 Key Users 62
Fonction lookup 105 Kimball Ralph 47, 94, 177, 380
Fouille de données 62 KPI (Key Performance Indicator) 24, 47, 62,
FrontPage 344 80, 183, 211, 246, 390
FTP 107
Fuzzy lookup 65 L
G Loi SOX 46
LOLF 21
Gestion Lot 104
des rapports 308
du risque 22 M
Gestionnaire
Mapping 134
d’événements 109
MapPoint 369
de rapports 293
MDX
Graphique croisé dynamique 337
requête 300
GRC 19
script 183, 188
Groupe de mesures 187, 240
Membre
calculé 245
H inféré 136
HOLAP (Hybride OLAP) 252 non-feuille 241
HTML 304 Mesure 50, 181, 193, 197
Hyperion 377 calculée 244
semi-additive 230
I Metadata 183
Microsoft Access 373
Indicateur Microsoft Clustering 272
clé de performance 24, 189 Microsoft Decision Trees 270
de performance 64 Microsoft Naïve Bayes 272
externe 13 Migration de lots DTS 163
Infocentres 25 Modèle
Informatique décisionnelle 3 Clusters 280
Inmon Bill 380 d’autorisations 184
Integration Services (SSIS) 101 de données entité-relation 49
Intellicube 193 de rapports 294
Intelligence comptable 245 Decision Tree 275
Intervalle dimensionnel 49
de latence 191 multidimensionnel 183
de reconstruction forcée 191 Naïve Bayes 278
IRR 365 relationnel 183
420 —————————————————————————————————————————————————— Business Intelligence avec SQL Server 2005
U W
UDM (Unified Dimensional Model) 64, 93, Webpart 248
94, 96, 97, 183, 191, 343 Workflow 107
Up-sell 20 Writeback 183
V X
Visual Studio 373 XML 92, 304
B. BURQUIER
BUSINESS
Bertrand Burquier
MANAGEMENT DES SYSTÈMES
D'INFORMATION
APPLICATIONS
MÉTIERS
INTELLIGENCE
AVEC
ÉTUDES, DÉVELOPPEMENT,
INTÉGRATION
BUSINESS INTELLIGENCE
EXPLOITATION
RÉSEAUX
6639389
ISBN 978-2-10-050536-4 www.dunod.com