Académique Documents
Professionnel Documents
Culture Documents
PRÉSENTATION
DECISIONNELLES
DOMAINES
FONCTIONNELS
DES OUTILS
FORMATIONS
AUX OUTILS BI
DÉCISIONNELS
L’architecture décisionnelle
Concept de l’outil
xxxx
Rappel des concepts
Historique
:…
:…
:…
: ...
:…
:…
:…
:…
:…
:…
: ..
ETL
Curseur emplacement silo
Domus
Qlikview
Vues
?
Vues
ETL
ETL
Stockage
ETL
ETL
Centralisation Toilettage
? Stockage dans
décisionnel
ETL
Abel données Convergence la durée de
Reporting statique
X3 fonction du
besoin
institutionnel
Niveau
d’historisation
Niveau de détail
Modélisation
Règles métier
Sommaire
Concept de l’outil
xxxx
Les outils ETL: Extract, Transform &
Load : Collecter, Transformer,
Objectifs
•En entrée du Datawarehouse
Alimenter
•Extraire les données utiles à l’analyse présentes dans le système
d’information existant
•Unifier les sources de données : Transformer et normaliser ces données
•Pré-calculer les formules complexes
•Stocker l’information dans le Datawarehouse
•En sortie du Datawarehouse
•Réinjecter les données pertinentes dans les systèmes opérationnels
Les outils ETL: Extract, Transform &
Load : Collecter, Transformer,
Alimenter
Caractéristiques •Gain de productivité
•Urbanisation
•Maintenabilité
Editeurs
Editeurs Open Source
Conventionnels
•Critères
•Principales briques fonctionnelles
•Extraction des données et type d'architecture
•Connecteurs PGI natifs
•Gestion des contextes
•Référentiel, et métadonnées
•Performances
•Prix
Les catégories d'ETL
(Oracle, OXIO…),
Fonctionnalités
nécessaires
La gestion de la qualité, d'audit, voire des couches de Web
Services
La gestion centralisée des métadonnées et l'administration des
scénarios d'alimentation
Maintenabilité de la solution,
La robustesse de son moteur,
Capacité d’interfaçage avec les données externes
La variété des connecteurs présents en natif avec l'offre d'ETL, et
notamment ceux qui sont dédiés aux PGI (Progiciels de Gestion
Intégrée). Dans un contexte où le parc d'applicatifs métiers est
hétérogène, faire appel à un ETL disposant nativement d'un grand
nombre de connecteurs peut être gage de simplicité et éviter de
possibles
Des interfaces évoluées
offre :
Offre Open-Source
gratuite mais limitée Groupe Accor, GMF,
Talend Open Studio Direction Générale de la
4500 € par an et par Comptabilité Publique...
développeur pour
solution complète
Business Object Data Integrator
38 000 € - 230 000€
Une triple alternative
Alternative 1 :
+ : Rester au plus près des spécificités métiers des données à traiter, tout en
s'affranchissant des contraintes liées à l'achat et l'utilisation d'un ETL
- : coûteux à long terme, tout simplement car l'évolutivité constante des données métier
entraîne une nécessaire adaptation des traitements d'intégration
Alternative 2
+ : Permet de mettre en
oeuvre très rapidement les
traitements d'intégration
- : coûts élevés (achat des
licences, formations,...) et
ceci dès la phase de
démarrage du projet.
Alternative 3
Bénéficie des avantages d'un ETL tout en gardant une maîtrise lissée des coûts.
Ces derniers sont en effet réduits aux coûts de formation initiale de l'outil et d'une éventuelle
souscription à une hot-line technique. Aucune licence n'est à payer dans ce modèle économique.
La solution Kettle
OpenSource
Un produit sous licence GNU disponible sur plusieurs systèmes d'exploitation
Une suite de 3 composants: L'interface graphique « Spoon », les déclencheurs en mode batch
pour les transformations (« Pan ») et les jobs (« Kitchen »).
Contrairement à Talend Open Studio, Pentaho Data Integration est un « moteur de transformation
» ETL: les données
traitées et les traitements à effectuer sont parfaitement séparés. (on parle de « meta-data driven
» ETL)
Les traitements sont stockés dans un référentiel (repository) qui peut être soit au format XML
(fichiers plats), soit dans une base de données (ce qui permet notamment le partage entre
plusieurs designers).
Tout comme Talend Open Studio, de nombreux types de SGBD sont supportés (une trentaine)
ainsi que tous les types de fichiers plats (Csv, délimité, Excel, XML).
Une installation simple (un dossier à décompresser) => un environnement d'exécution JAVA 1.5
suffit
La possibilité de prévisualiser les flux de données traitées, et ceci pour une étape donnée.
La possiblité d'exécuter les traitements sur le poste local, un serveur distant, ou un ensemble de
serveurs (exécution en « grappe »; clustering)
La possibilité de logger les traitements dans une base de données spécifique.
L'intégration parfaite avec la plate-forme décisionnelle Pentaho. Par exemple, les flux de
données en provenance de l'ETL peuvent servir à alimenter des rapports ou des dashboards en
temps réel.
La solution Kettle
La solution Kettle
Sommaire
Concept de l’outil
xxxx
Les bases des données
relationnelles décisionnelles
Remarque : dans la cadre du process analytique , on parle parfois de
ROLAP pour Relational OLAP
Editeurs
Editeurs Open Source
Conventionnels
OLAP
HOLAP (Hybride)
propose de cumuler les avantages des
deux modèles précédents. Les données DOLAP (Desktop)
agrégées sont stockées sous forme multi-
dimensionnelles, alors que les données Base OLAP très limitée en taille
hébergée sur le poste client. Elle
détaillées sont stockées dans des
est bien entendu très rapide.
structures relationnelles
Module par fonctionnalité
Analyse (Stockage)
SAP BW 4/5
Un bon produit qui souffre d’un manque de consultants compétents sur
le marché
Oracle Hyperion Essbase 5 /5
Hyperion était l’éditeur de cette solution et a été racheté par Oracle en
2007. Ses spécificités techniques et sa facilité d’utilisation en font le
meilleur outil MOLAP du marché
SQL Server Analysis Services 4/5
Excellent produit auquel manque les dimensions « déséquilibrées » et
la possibilité de saisie pour arriver au niveau d’ESSBase
Harry Harry Cube + SPADE La solution Harry Cube mérite 1/5, tout au plus. L’achat de SPAD ,
quoique très connoté data mining repositionne Harry dans la course à
l’OLAP. Nous n’avons cependant pas encore testé cette version.
IBM Powerplay 4/5
L’outil Powerplay est un des précurseurs en la matière. Pur produit
MOLAP, propose une utilisation simple. L’interface de création des
cubes était et demeure le produit le plus abouti de la suite Cognos
Pentaho Mondrian 3,5/5
Un exellent outil Opensource qui possède tous les atouts d’un bon outil
ROLAP. Il est devenu le standard, avec PALO, en matière d’outil OLAP.
Les bases de données vectorielles
.
Les bases de données vectorielles
La finalité d’un serveur vectoriel est d’assurer la gestion de données en offrant une organisation des données optimisée
pour les requêtes d’analyse, de sélection, de comptage, de calcul, d’extraction, dont la nature et les clés d’accès ne
peuvent être
prédéterminées.
Dans une table classique (fichier, table relationnelle), les données sont présentées sous la forme d’enregistrements.
Chaque enregistrement donnant sa valeur pour chaque colonne. Un fichier "client" va décrire pour chaque
enregistrement les valeurs de "code", "nom", "adresse", "CA Cumulé", etc. pour un client donné.
Une table vectorielle est constituée par la transposition d’un fichier: chaque enregistrement va décrire la totalité des
valeurs d’une colonne pour la table initiale.
L’enregistrement "nom" contiendra toutes les valeurs "nom" du fichier. L’enregistrement "CA Cumulé", toutes les
valeurs de CA cumulé du fichier.
Une base vectorielle est constituée par la création d'un enregistrement
par colonne de la table initiale, ce qui rappelle l’indexation de chaque
colonne d’une table relationnelle.
Les données sont structurées en vecteurs, un vecteur représentant
une
donnée (ou champ ou colonne) et toutes ses valeurs, un vecteur est
un
Cette structureau
enregistrement physique des tables
sens physique ne change rien à la vision et
du stockage.
l’utilisation par
l’utilisateur, qui continue à travailler sur un fichier "client" ou "ligne de
factures" conceptuellement identiques.
Une requête se décompose classiquement en deux phases : sélection
d'enregistrements puis extraction et éventuelle agrégation. En
environnement vectoriel, seules les colonnes présentes dans la requêtes
sont lues.
Autre avantage :
.
Les bases MOLAP
OLAP
HOLAP (Hybride)
propose de cumuler les avantages des
deux modèles précédents. Les données
agrégées sont stockées sous forme multi-
dimensionnelles, alors que les données
détaillées sont stockées dans des
structures relationnelles
DOLAP (Desktop)
Base OLAP très limitée en taille
hébergée sur le poste client. Elle
est bien entendu très rapide.
OLAP : Illustration avec Analysis
Services
In memory
Les plateformes BI
Concept de l’outil
xxxx
Les plateformes BI
La face visible pour les utilisateurs
Il permet la mise
en œuvre
Mise en œuvre
d’applications
simple et rapide
décisionnelles et
(dans un
incarne
premier temps)
l’intelligence
décisionnelle
Editeurs de
Plateformes BI
Editeurs
Editeurs Open Source
Conventionnels
Administration Administration
Diffusion Fonctionnalités
(Sécurité) (Maintenance)
• Connexion aux • Robustesse de • Facilité d’accès • Visualisation et
annuaires (LDAP la solution au portail rafraichissement
ou AD) • Facilité de • Echange avec le des rapports
• Gestion des personnalisation référentiel (planification)
utilisateurs et du • Support • Possibilité de • Reporting Ad-
contenu technique planification Hoc
• Granularité fine • Evolutivité de la • Communication • Exploration
dans la gestion solution avec serveur (Drill)
des habilitation mail, de fichiers, • Data Mining
FTP • Communication
• Intégration avec autour des
la bureautique documents et
analyses
(Forum)
Sécurité des plateformes
Consultatio
n vision RH
Administration (Sécurité)
Consultation
• Connexion aux vision
annuaires (LDAP ou Comptabilité
AD)
• Gestion des utilisateurs
et du contenu Pas d’accès Rafraichissement
• Granularité fine dans la
gestion des habilitation Pour la gestion des droits, la plupart des plateformes propose
désormais
• une gestion au niveau du contenu (quels rapports ou
quelles analyses sont disponibles pour cet utilisateur)
• un accès «personnalisé à la données » (pour un même
rapport, un utilisateur a une vision différente d’un autre
(par exemple selon son service)
• la possibilité de se connecter facilement à un service
d’annuaire (pour une gestion simplifiée des groupes et
utilisateurs)
Maintenance des plateformes
Administration
(Maintenance)
• Robustesse de la
solution
• Facilité de
personnalisation
• Support technique
• Evolutivité de la La robustesse de la plateforme est peu souvent mise à
solution défaut… à condition de mettre en œuvre les couches sous-
jacentes. (SQL Server pour Microsoft, OC4J pour Oracle,…)
Diffusion
Business Objects
XI
IBM - Cognos
Microsoft SQL
Server
Oracle OBIEE+
Pentaho
Jasper Server
Les Fonctionnalités
Fonctionnalités
• Visualisation et
rafraichissement des
rapports (planification)
• Reporting Ad-Hoc
• Analyse, Exploration
(Drill)
• Data Mining
• Communication autour
des documents et
analyses (Forum)
A l’heure actuelle, c’est bien sur ce domaine que se battent les éditeurs pour
obtenir une plateforme offrant:
• le périmètre le plus vaste possible en termes de fonctionnalités
• sur chaque fonctionnalité, une interface la plus ergonomique avec le plus de
possibilités
L’approche de la BI vue par les utilisateurs
Rapports pro-formats
Reporting de masse imprimés, envoyés ou
partagés sur portail
+ -
Nombre utilisateurs Maturité du
client
Le reporting
Objectifs
Produire et diffuser des rapports.
On distingue :
Caractéristiques
Dans la théorie, le principe est simple : Il s’agit de créer des rapports et de
les diffuser sur le portail. A l’idéal,
Création d’un rapport Portail l’outil doit permettre à tout utilisateur
de créer des rapports riches et de les
publier simplement.
Ireport (Jasper)
Birt Rapport riche
MS Report 2.0 Rapport riche Consultation
MS PP Analytics
Harry Report
Création de
Outil
rapports simples
Riche
Reporting de masse Outil Ad-
Hoc
Rapport Simple
Faits
Perte d’autonomie pour l’utilisateur
Toute création de rapport élaborée passe par un développeur
Conclusion
Le choix de la solution est très structurant. En effet, ce genre de topologie est adaptée à des sites ‘Push
Button’. Dès lors que l’on souhaite que l’utilisateur soit partie prenante dans la création de rapport, très peu de
solutions sont disponibles
Module par fonctionnalité
Reporting (1/2)
Objectifs
Obtenir en un coup d’œil une vue consolidée de son activité (quel que
soit le niveau dans l’entreprise), et pouvoir visualiser certains rapports
expliquant les résultats
Caractéristiques
Pour obtenir des tableaux de bord qui attirent l’attention sur les points
cruciaux, les présentations sont très graphiques (peu de tableaux de
données) et font la part belle au animations (objets clignotants, jauge
animée, graphique qui se dessinent,…)
Paradoxalement, les requêtes mise en œuvre sont à l’inverse « statique »
(peu d’interrogation ad-hoc sur les tableaux de bord)
Quelques exemples
Module par fonctionnalité
Tableaux de bord (1/2)
Objectifs
Détecter et analyser la source d’un mauvais résultat ou d’un écart par
rapport à celui attendu. Répondre à des questions complexes de la part
des utilisateur
Caractéristiques
On parle dans ce cas de process OLAP.
Pour répondre au besoin de zoom de manière très performante, les
structures multidimensionnelles ont étés créés.
Les précurseurs dans le domaine du stockage multidimensionnel : Oracle
Hyperion, Microsoft Analysis Services, Cognos PowerPlay
L’élaboration budgétaire
Objectifs
Planifier un budget, des ressources, des dépenses, …
Caractéristiques
Les produits sont souvent basées sur une structure multidimensionnelle
(ce qui facilite les consolidations)
On retrouve en conséquence comme leader sur le marché Oracle
Hyperion Planning, Cognos Planning. Microsoft a annoncé en Février
2009 la fin de son offre Performance Point pour la fondre dans son portail
Powerpoint.
: l’élaboration budgétaire dépasse le cadre de la BI. Pour la
mettre en œuvre, il convient de revoir les processus de l’entreprise et de
les implémenter dans une solution collaborative (Exemple Sharepoint).
En la matière, la BI contribue par les techniques et les outils qu’elle
apporte.
Module par fonctionnalité
Elaboration budgétaire
Objectifs
Découvrir des corrélations cachées dans les données, réaliser de la
segmentation des données, pratiquer de la simulation
Caractéristiques
Cette fonctionnalité était difficile d’accès pour les non-statisticiens.
Il est en effet nécessaire de modéliser certain comportement selon
plusieurs algorithme.
Cependant, les éditeurs, Microsoft en tête ont vulgarisé cette fonction
pour la rendre accessible dans des outils communs (exemple : Microsoft
Excel).
SAS --- /5
Coheris SPAD /5
Reporting
6
4 Les résultats de ces analyses sont assez proches
de l’étude du Gartner
2
Elab.
Budgétaire 0 Dashboard