Vous êtes sur la page 1sur 72

Création d’un data

warehouse

Alijo Myriem
Datawarehouse
• Un data warehouse (DWH) est par définition un système de base de données
distinct d’un système de traitement de données opérationnelles, dans lequel
les données provenant de diverses sources, parfois même très hétérogènes,
sont combinées, compressées et archivées à long terme.
Datawarehouse
• Les données opérationnelles deviennent donc des données décisionnelles :
• Données opérationnelles : ce sont des informations orientées transactions
générées dans les entreprises par l’activité quotidienne et produites notamment
par les systèmes d’administration et de facturation. Les sources classiques de
données sont les systèmes de traitement de données opérationnelles comme
par exemple les programmes de comptabilité, les progiciels de gestion intégré
(PGI ou ERP pour Entreprise Resource Planning) ou les systèmes
d’information et de commande.
• Données décisionnelles : lorsque les données opérationnelles sont
rassemblées en un seul endroit, stockées sur le long terme et préparées pour
l’analyse, on parle alors de données décisionnelles.
Datawarehouse
• Un DWH apporte aux analystes un aperçu complet des ensembles de données
hétérogènes et permet l’agrégation des statistiques opérationnelles dans le
cadre du traitement analytique en ligne (en anglais Online Analytical
Processing, OLAP).
• En tant que point central de collecte de toutes les données d’entreprise
pertinentes, l’entrepôt de données est utilisé pour la gestion des connaissances
en interne. Les utilisateurs n’ont généralement accès qu’en lecture seule.
• Un DWH sert de base de données pour les méthodes d’exploration de données
(data mining) et reste le support à toutes les études relatives à la gestion de la
performance et à l’orientation stratégique de l’entreprise.
Structure d’un DWH : architecture d’un data
warehouse
• Le processus de gestion et d’analyse d’un DWH est appelé data
warehousing(ou entreposage de données) et comporte les phases suivantes :
1. Acquisition et intégration des données
2. Stockage des données
3. Evaluation et analyse des données
l’architecture de référence d’un DWH.
Les phase du datawarehouse
• Les phases du data warehousing se reflètent dans la structure type,
l’architecture dite de référence des systèmes d’entreposage des données.
• Bien que l’architecture du système varie selon le produit et l’éditeur, sa
structure technique repose sur un schéma modulaire qui peut être divisée en
trois niveaux :
• Collecte des données (data collection)
• Dépôt et archivage des données (data repository)
• Fourniture et transmission des données (data provision)
Niveau de collecte des données (data
collection)
• Avant que les données puissent être chargées vers le DWH, les informations
souvent très hétérogènes doivent d’abord être unifiées pour une présentation
uniforme.
• Un entrepôt de données s’alimente de manière autonome à partir des sources
de données internes d’une entreprise ainsi que des sources de données externes
pertinentes :
• Données internes : système d’exploitation : progiciel de gestion intégré (PGI
ou ERP), systèmes de gestion de la relation client (CRM) ; bases de données
opérationnelles ; système de gestion de contenu (CMS) ; bases de données
orientées texte, fichiers plats (par exemple Excel, CSV, fichiers textes), emails,
etc.
• Données externes : applications et systèmes de fournisseurs de services
externes, sites Web, médias sociaux, services de Cloud, etc.
Niveau de collecte des données (data
collection)
• Les systèmes au niveau de l’enregistrement des données fournissent des
interfaces pour les systèmes d’exploitation des entreprises et sont utilisés
dans la première phase du data warehousing.
• L’acquisition et l’intégration des données sont deux fonctions centrales de
ces composants DWH.
Niveau de collecte des données (data
collection)
• Les techniques de collecte suivantes sont utilisées pour l’extraction et
l’acquisition des données :
• Trigger ou déclencheur : si les systèmes opérationnels d’une entreprise
prennent en charge les déclencheurs de base de données, ils peuvent alors être
utilisés pour automatiser l’extraction des données. Les déclencheurs vous
permettent de définir des opérations qui sont exécutées automatiquement
lorsque certains événements se produisent. En règle générale, les événements
déclencheurs se rapportent à des changements dans la base de données du
système source, qui conduisent à une extraction des données modifiées dans
le DWH.
Niveau de collecte des données (data
collection)
• Fichiers journaux : si le système d’exploitation ne prend pas en charge le
trigger ou déclencheur, le niveau d’acquisition des données d’un DWH peut
contenir des programmes capables d’évaluer les fichiers journaux (ou fichiers
log) des systèmes sources et d’extraire les opérations enregistrées dans ces
derniers.
Niveau de collecte des données (data
collection)
• Programme de monitoring : si pour l’extraction il n’est pas possible de
recourir au déclencheur ou aux fichiers journaux, les programmes de
monitoring sont alors généralement utilisés. Ces derniers extraient les
changements dans l’ensemble de données d’un système d’exploitation à l’aide
d’algorithmes qui créent des instantanés des données à surveiller (snapshots) à
intervalles réguliers et les synchronisent avec les précédents.
Niveau de collecte des données (data
collection)
• En matière d’intégration de données, la plupart des DWH offrent des
fonctionnalités OLAP qui permettent de présenter les fichiers dans des structures
multidimensionnelles. Le traitement analytique en ligne (OLAP) est une
méthode d’analyse utilisée pour comprimer les données et fichiers d’entreprises
pertinents pour la gestion.
• Le fonctionnement est basé sur le processus ETL :
Niveau de collecte des données (data
collection)
• E = Extraction : l’extraction des données consiste à extraire des informations
pertinentes de diverses sources de données. Ceci peut être mis en œuvre comme une
stratégie Push and Pull. Si les données sont extraites dans le cadre d’une stratégie Push,
les sources de données sont encouragées à générer des extraits à intervalles réguliers et
à les transmettre au DWH.
• Dans le cas d’une stratégie Pull, c’est le DWH qui initie, de sa propre initiative,
l’extraction des données.
• T = Transformation : les données extraites sont ajustées lors d’une transformation et
traduites da manière uniforme dans le format de la base de données cible.
• L = Loading (chargement) : la phase de chargement implique la sauvegarde des
données transformées dans les bases de données cibles respectives du DWH.
Niveau de collecte des données (data
collection)
• Le niveau d’acquisition et de traitement de données d’un DWH peut contenir
une zone dite de Staging Area (aussi appelée zone de préparation).
• Il s’agit d’une zone temporaire de la base de données dans laquelle les données
à charger sont prétraitées.
• Un tel processus de traitement peut être particulièrement nécessaire dans les
processus ETL complexes.
Niveau de collecte des données (data
collection)
• Comme un data warehouse rassemble des données provenant de sources très diverses,
l’intégration des données est basée sur différents outils qui permettent la transformation et
l’ajustement des données extraites. Ils peuvent être classés dans les catégories suivantes :
• Outils de migration de données : les programmes de migration de données vous
permettent de définir des règles de transformation simples pour convertir des données
sources hétérogènes en un format cible uniforme.
• Outils de nettoyage des données : pour le nettoyage des données, des programmes basés
sur la logique floue (fuzzy logic) ainsi que les réseaux neuronaux artificiels sont utilisés.
L’objectif est d’améliorer la qualité des données en éliminant les erreurs, les lacunes et les
répétitions dans les ensembles de données grâce à l’implémentation de règles prédéfinies,
d’algorithmes et de tables de correspondance (LUT). C’est ce que l’on nomme aussi le
management de la qualité (Quality Management).
• Outils d’audit des données : les outils de vérification des données sont utilisés dans
l’intégration des données pour déterminer les règles et les relations entre les données. En
outre, les programmes de ce type vous permettent aussi d’identifier les données qui
enfreignent les règles définies ce qui signifie qu’il s’agit probablement d’erreurs.
Niveau de collecte des données (data
collection)
• L’intégration des données est suivie par le transfert des données extraites dans
la base de données centrale, le « core data warehouse ». Cette étape est
supportée par des programmes qui offrent les fonctions suivantes :
• Vérification des conditions d‘intégrité
• Tri des données
• Calcul des agrégations
• Détermination des structures d’accès
• Partitionnement des données pour un accès efficace
Niveau de dépôt et d’archivage des données
(data repository)
• Le niveau d’archivage des données est un élément central de l’entrepôt des
données.
• Il s’agit de ce que l’on nomme le « Core Data Warehouse ». Les données
extraites sont généralement stockées dans le DWH sous forme de matrices
multidimensionnelles, ce que l’on appelle des schémas en étoile ou en flocon,
pour des analyses futures dans le cadre d’un archivage à long terme.
• Toutefois, cela fait rarement référence à l’ensemble du stock de données d’un
DWH.
• Pour permettre une analyse efficace, il est donc d’usage de créer des segments
de données de l’ensemble du répertoire, connus sous le nom de datamart (aussi
nommé magasin de données).
Niveau de dépôt et d’archivage des données
(data repository)
• Un datamart est une copie d’une partie d’une base de données, qui est
généralement implémentée de façon non persistante comme stockage
temporaire, intermédiaire.
• Dans certains cas toutefois, des datamarts dits indépendants sont aussi utilisés,
ce qui permet de disposer en permanence d’une section, d’un extrait de
données séparé à long terme.
Niveau de dépôt et d’archivage des données
(data repository)
• Un schéma en étoile est un type de diagramme entité-association ou Entity
Relationship Diagram (ERD), c’est à dire une représentation graphique de la
structure de table d’une base de données dans laquelle sont illustrées les
différentes entités ainsi que leur relation entre elles.
• Le schéma en étoile est donc utilisé pour visualiser des structures de données
multidimensionnelles.
Niveau de dépôt et d’archivage des données
(data repository)
• Chaque schéma en étoile est constitué d’une table des faits et de plusieurs tables de
dimension qui sont regroupés en forme d’étoile autour de la table de faits.
• La table de faits contient ce que l’on appelle les faits : chiffres clefs et résultats
d’une société qui sont enregistrés en permanence (par exemple le chiffre d’affaires).
• La table de dimensions contient des attributs qui décrivent les données de la table de
faits. Une table de dimension est un ensemble d’informations de référence sur les
événements stockées dans la table de faits.
• Dans le modèle de données en étoile (star schema), seule la table des faits est liée à
toutes les tables de dimensions par des relations clefs étrangères. Les connexions
entre les tables de dimensions individuelles ne sont pas établies. La figure suivante
montre une représentation simplifiée d’une telle structure de données :
Niveau de dépôt et d’archivage des données
(data repository)
Niveau de dépôt et d’archivage des données
(data repository)
• Le modèle de données dit « en flocon » (snowflake schema) est une variante
du schéma en étoile. En effet, les tables de dimensions d’un schéma en étoile
sont sous forme dénormalisée, alors qu’avec le schéma en flocon, les
informations de référence sont stockées sous forme de 3D, les hiérarchies des
schémas sont normalisées.
• Ainsi, les données sont classifiées et hiérarchisées, ce qui signifie que les
informations redondantes sont externalisées et placées dans de nouvelles
tables.
• Il en résulte une sorte de ramification distinctive qui prend alors l’aspect d’un
flocon de neige.
Niveau de dépôt et d’archivage des données
(data repository)
Niveau de dépôt et d’archivage des données
(data repository)
• Les schémas en flocon se caractérisent par une consommation d’espace de stockage
plus faible que les schémas en étoile. Ceci résulte d’un stockage de données
normalisé. Ici, la normalisation se réfère au transfert des colonnes vers de nouvelles
tables dans le but d’éviter les doublons.
• L’élimination des redondances réduit aussi le coût de maintenance et de gestion des
données : dans le meilleur des cas, chaque information n’apparaît qu’une seule fois
et ne doit donc être placée qu’une fois dans le schéma.
• Toutefois, si les données sont transférées dans des tables normalisées, ceci conduit
inévitablement à des structures de données plus complexes, ce qui implique
généralement des durées de requête plus longues. Si les analystes veulent accéder
aux données d’un schéma en flocon, les tables de dimensions multi-niveaux
doivent d’abord être liées dans le cadre d’une jointure.
Niveau de dépôt et d’archivage des données
(data repository)
• Dans la pratique, la structure de données d’un DWH est généralement basée sur
le schéma en flocon, tandis que les datamarts individuels sont implémentés en
tant que schéma en étoile.
• Dans les schémas en étoile ou en flocon, nous avons affaire à des tables de
dimensions, car chaque table est vue comme une dimension d’un cube
OLAP multidimensionnel. Ceci permet aux analystes de placer les faits stockés
dans le DWH par rapport à autant d’informations de référence qu’ils le
souhaitent, afin d’analyser les ratios commerciaux comme le chiffre d’affaires,
de manière multidimensionnelle sur la base de divers aspects et de les examiner
à différents niveaux de détail.
Niveau de livraison des données
• Ce niveau de données sert d’interface avec les applications finales et les outils
de présentation, ce qui facilite l’analyse des données et les méthodes
d’évaluation qui permettent d’extraire des informations des entrepôts de
données et de les traiter sous différentes formes de présentation pour les
utilisateurs finaux. La gamme comprend notamment les outils de rapports et
d’interrogation, les outils de collaboration et d’exploration de données, le
traitement analytique en ligne (OLAP), les systèmes d’information exécutive
(EIS) et les outils de prévision et de simulation.
Outils de requêtes et de rapports
• Les outils de reporting offrent à l’utilisateur final différentes fonctions pour
créer des rapports standards prédéfinis (Predefined Reportings). Les
rapports peuvent être automatiquement émis à intervalles réguliers ou sur
demande.
• Pour que l’utilisateur final puisse facilement demander des renseignements au
DWH, ces requêtes peuvent être prédéfinies à l’aide d’outils de recherche
(query tools).
Outils de collaboration
• Les outils de collaboration soutiennent la communication et la collaboration
des utilisateurs finaux avec l’analyse des données.
• L’éventail des fonctions offert par cette gamme d’outils comprend, par
exemple, la sauvegarde des annotations et l’échange des résultats d’analyse.
Outils de data mining
• Le terme de data mining couvre toutes les méthodes d’analyse non dirigées et
partiellement automatisées qui visent à identifier les modèles, tendances et
relations pertinentes dans la base de données.
• Les outils d’exploration de données sont basés sur des méthodes statistiques et
mathématiques ainsi que sur l’intelligence artificielle (AI) et les techniques
d’apprentissage de la machine.
• La quantité de données que les entreprises génèrent, traitent et fusionnent dans
un DWH à des fins d’analyse croît de manière exponentielle. Le volume moyen
des données dans le monde double tous les deux ans.
• Dans ce contexte, les méthodes d’exploration des données prennent une
importance croissante dans le cadre de l’entreposage de données.
Outils de traitement analytique en ligne
(OLAP)
• Parmi les outils d’analyse et d’évaluation des données disponibles, les
applications OLAP se sont particulièrement imposées comme des interfaces
utilisateurs standard pour le data warehousing.
• Les outils qui sont utilisés dans le contexte du traitement analytique en ligne
apportent aux utilisateurs diverses fonctions afin de formuler des requêtes à
l’entrepôt de données. Ils sont utilisés pour naviguer dans l’ensemble
multidimensionnel de données.
Outils de traitement analytique en ligne
(OLAP)
• L’affichage via OLAP permet de modéliser des données formatées en fonction
d’un nombre quelconque de dimensions prédéfinies.
• Les analystes peuvent utiliser diverses opérations de base afin d’éditer un
cube OLAP.
Outils de traitement analytique en ligne
(OLAP)
• Slicing : le « slicing » est un processus qui délimite une dimension d’un cube
OLAP à un sous-ensemble. C’est une extraction d’un bloc du cube de données
qui est visualisé séparément.
• L’image suivante montre la dimension de la période (time period) avec la
section de 2015 mise en évidence. Ainsi, la partie surlignée indique le chiffre
d’affaires de tous les produits d’assurance vendus par tous les canaux de
distribution au cours de l‘année 2015.
Outils de traitement analytique en ligne
(OLAP) SLICING
Outils de traitement analytique en ligne
(OLAP)
• Dicing : si un cube OLAP est découpé en plusieurs dimensions par des
opérations simultanées de Slicing, on parle alors de « Dicing ». Le processus
de Dicing crée un cube plus petit qui est alors un sous-ensemble du cube total.
Outils de traitement analytique en ligne
(OLAP) DICING
Outils de traitement analytique en ligne
(OLAP)
• Pivoting : la rotation du cube de données de sorte qu’au moins une autre
dimension soit visible est appelée pivoting.
Outils de traitement analytique en ligne
(OLAP) PIVOTING
Outils de traitement analytique en ligne
(OLAP)
• Drill-down et roll-up : si les agrégats d’un objet d’information doivent être
décomposés en valeurs plus détaillées, l’opération Drill-down ou forage vers
le bas est alors utilisée.
• Cela permet aux analystes de zoomer sur un cube OLAP et d’augmenter ainsi
la granularité des données ; c‘est donc une représentation plus détaillée.
• Au contraire, un roll-up ou forage vers le haut consiste à représenter les
données du cube à un niveau de granularité supérieur et est donc utilisé pour
comprimer les informations sur les niveaux hiérarchiques supérieurs. Le drill-
down et le roll-up sont utilisés pour la navigation dans des structures
hiérarchiques multidimensionnelles.
Outils de traitement analytique en ligne
(OLAP)
Outils de traitement analytique en ligne
(OLAP)
• Le graphique précèdent montre un drill-down de l’objet d’information chiffre
d’affaire dans la dimension des lignes de produits.
• La granularité est augmentée de sorte que les chiffres d’affaires enregistrés
dans le DWH peuvent être interprétés et analysés en fonction des produits
individuels.
Outils de traitement analytique en ligne
(OLAP)
• Drill-out/Split : le drill-out (ou split ou division) permet aux analystes
d’ajouter une dimension supplémentaire à un cube OLAP. Il en résulte des
données plus détaillées. Cependant, contrairement à l’opération Drill-Down, le
niveau de détail n’est pas augmenté en termes de granularité, mais c’est plutôt
un gain d’information résultant de l’information de référence supplémentaire
de la dimension ajoutée.
Outils de traitement analytique en ligne
(OLAP)
• Drill-in/Merge : en opposition au drill-out, le niveau de détail du cube
OLAP est réduit en supprimant les dimensions. Contrairement au roll-up,
la perte d’informations dans cette opération ne résulte pas d’un
changement de plan de visualisation, mais de la perte d’informations
dimensionnelles. La granularité reste donc la même.
Outils de traitement analytique en ligne
(OLAP)
• Drill-across : l’opération de données Drill-across ou « jointure » est aussi
utilisée pour analyser l’ensemble de données. Alors que les opérations
vues jusqu’à présent font toujours référence à un cube OLAP, la
procédure de jointure est appliquée à plusieurs cubes de données afin de
permettre des analyses globales. N’importe quel nombre de tables de faits
avec au moins une dimension commune peut être analysé sur le même
niveau hiérarchique et de granularité, tout en maintenant le niveau de
visualisation.
Outils de traitement analytique en ligne
(OLAP)
• Drill-through : c’est une opération au cours de laquelle un analyste
sélectionne une seule cellule d’un cube de données et l’examine au plus
haut niveau de détail. Contrairement au drill-down, le drill-through
accède aux données sources de la cellule du cube sélectionnée. Cela
signifie que le résultat du Drill-through est dérivé des cellules du tableau
qui sous-tendent la cellule du cube sélectionnée.
Exécutive Information System (EIS)
• Comme pour OLAP, les outils EIS apportent aux utilisateurs différentes
façons de formuler des requêtes et de modéliser les données. Cependant,
contrairement à OLAP, le terme EIS est aujourd’hui surtout utilisé pour
désigner les systèmes d’application complets et prêts à l’emploi qui
fournissent des rapports prédéfinis pour certains domaines d’activité
comme la vente, le marketing ou encore la planification financière.
Outils de prévision et de simulation
• Les outils de prévision et de simulation permettent aux utilisateurs de
mettre à jour les données stockées dans le DWH et de développer des
modèles de prévision.
Data warehouse management
• Des outils spéciaux sont actifs à tous les niveaux du DWH et sont
regroupés sous le terme de warehouse management. Le rôle de ces
composants consiste à mettre en place, maintenir et exploiter toutes les
fonctions d’administration nécessaires à l’entreposage des données. Les
principales tâches du « responsable DWH » sont la planification des
processus DWH, la gestion des métadonnées, la gestion de la sécurité ainsi
que la gestion du système.
Data warehouse management
• Scheduling : ceci comprend le contrôle des processus DWH. Les fonctions
d’administration dans le contexte de l’ordonnancement peuvent être classées
comme suit en fonction des niveaux de l’architecture de l’entrepôt des données :
•Collecte et entrée des données : au niveau de la collecte des données, le
manager DWH est responsable de la conception et de la personnalisation des
processus ETL. Des fonctions d’administration sont aussi prévues pour contrôler
les mises à jour et la gestion de la qualité.
•Stockage et archivage des données : au niveau du stockage des données, le
manager DWH surveille l’utilisation de la mémoire, construit des tables
d’agrégation et effectue des opérations d’archivage et de sauvegarde.
•Fourniture et transmission des données : les fonctions d’administration à ce
niveau comportent la gestion des utilisateurs et le suivi des temps d’exécution
des requêtes.
Data warehouse management
• Management des méta-données: le dépôt de métadonnées (metadata repository) est
un élément central du manager DWH. Il contient toutes les informations nécessaires à
la conception et au fonctionnement des informations relatives à la base de données du
DWH.
• Les métadonnées stockées dans le référentiel comprennent, par exemple, la définition
du schéma de base de données sous-jacent, des informations sur les structures de
sauvegarde, les chemins d’accès avec la taille des fichiers, les méta-données sur la
description des données sources, mais aussi les temps de mise à jour, les règles sur le
nettoyage des données ainsi que la transformation des données, les index et les tables de
partitions.
• En outre, le gestionnaire DWH s’occupe de l’échange des métadonnées entre les
différentes composantes de l’entrepôt de données et apporte ainsi une base homogène
pour les métadonnées.
Data warehouse management
• Gestion de la sécurité : le management de la sécurité comporte divers
services d’authentification, d’autorisation des utilisateurs et de cryptage.
Data warehouse management
• Gestion du système : dans le cadre de la gestion du système, le manager
DWH assure diverses fonctions d’administration pour le fonctionnement
du DWH.
• Il s’agit par exemple du monitoring (performance, utilisation etc.), de
l’archivage ou de la sauvegarde des données.
Logiciels de data warehouse
• L’entreposage de données a depuis longtemps cessé d’être réservé
uniquement aux grandes entreprises.
• Les petites et moyennes entreprises (PME) voient aussi désormais un
potentiel sur l’optimisation des processus d’affaires grâce à des analyses de
données poussées.
• En effet des suites BI coûteuses et des solutions DWH complètes intégrées,
des produits d’entrée de gamme à faible coût allant de services de Cloud
flexibles à des applications open source sont depuis plusieurs années sur le
marché.
• Ces produits ciblent en particulier les entreprises de taille moyenne.
Solutions ETL
• Les programmes open source Pentaho DI, Talend OS et Jasper
ETL sont idéaux pour l’acquisition de données et pour une intégration
dans un processus ETL (extraction, transformation, chargement).
Pentaho DI
• Pentaho DI : l’outil ETL Pentaho Data Integration (DI), également connu sous
le nom de Kettle, fait partie de la suite BI de Penthao, mais peut aussi être
utilisé comme application autonome dans les architectures d’entrepôt de
données, indépendamment des autres composants Pentaho.
• L’outil d’acquisition et d’intégration de données dispose d’une interface
utilisateur graphique qui permet aux utilisateurs sans connaissances en
programmation de gérer les processus ETL. Pentaho DI offre un vaste choix de
différents modules de processus avec lesquels les différentes étapes du
processus ETL peuvent être définies.
• L’outil d’intégration de données prend en charge tous les systèmes de base de
données courants. Les fichiers plats comme CSV, Excel, ou les fichiers texte
peuvent aussi être utilisés comme sources de données.
• De plus, l’outil apporte des interfaces vers des suites BI propriétaires de SAS
ou SAP ainsi que vers des logiciels d’analyse comme Google Analytics
notamment.
Talend OS
• Talend OS : comparable à Pentaho DI, c’est l’outil ETL open source de
l’éditeur de logiciels Talend. Talend Open Studio (OS) permet aussi aux
utilisateurs de définir des processus d’acquisition et d‘intégration de données
à l’aide de modules paramétrés (qui sont appelés « jobs »).
• Le programme offre des interfaces vers toutes les sources de données
communes et diverses fonctions de transformations de données. Un éditeur
de cartes permet aux utilisateurs de transférer des données brutes hétérogènes
dans une structure cible prédéfinie.
• Comme avec Pentaho DI, les utilisateurs de Talend OS sans connaissances en
programmation bénéficient d’une interface utilisateur graphique.
Jasper ETL
• Jasper ETL : Jasper ETL est le résultat d’une coopération entre les fabricants
de logiciel Jaspersoft et Talend.
• L’outil ETL est essentiellement basé sur Talend OS, l’outil d’intégration de
données open source leader sur le marché.
• Il est particulièrement adapté si d’autres produits BI de Jaspersoft sont utilisés
dans le contexte de l’architecture DWH.
Applications OLAP
• Les outils OLAP réputés sous licence open source sont Pentaho
Mondrian et Jedox.
Pentaho Mondrian
• Pentaho Mondrian : Mondrian est un serveur OLAP basé sur Java.
Développé à l’origine comme un projet open source indépendant, Mondrian
fait partie depuis 2006 de la suite BI de Pentaho. Les utilisateurs peuvent
continuer à utiliser le logiciel en tant qu’application indépendante. Mondrian
est également utilisé dans les solutions BI d’autres éditeurs de logiciels libres
comme Jaspersoft.
• Les utilisateurs bénéficient d’un regroupement de ressources open source qui
permet de réaliser des projets communs tels que le Mondrian Schema
Workbench ou l’interface OLAP4J. Le projet Mondrian suit une technique
basée sur structure relationnelle (ROLAP). La base de données est une base de
données relationnelle, dont les tables sont organisées en étoile ou en flocon.
• L’accès prend la forme de requêtes multidimensionnelles (MDX), via XML
pour l’analyse (XMLA) ou via l’interface Java OLAP4J. Le Mondrian Schema
Workbench apporte aux utilisateurs une interface utilisateur graphique. Les
schémas Mondrian peuvent être facilement développés et testés sur le bureau.
Jedox
• Jedox : avec la suite BI du même nom, l’éditeur de logiciels Jedox offre une
solution complète pour les applications de Business Intelligence et de gestion de la
performance.
• Le composant central du logiciel est un puissant serveur OLAP en mémoire qui peut
aussi être intégré dans d’autres environnements logiciels via des interfaces pour
Java, PHP, C/C++ ou .NET.
• Pour les PME, utiliser Jedox est particulièrement adapté en raison de l’add-in Excel,
qui peut aussi être utilisé afin de faire fonctionner le serveur OLAP à l’aide du
célèbre logiciel tableau de Microsoft.
• En effet, les applications Office sont largement utilisées par les petites et moyennes
entreprises, où elles constituent souvent la base de la gestion des données.
• L’intégration d’Excel réduit ainsi le temps et les efforts nécessaires notamment à la
formation des employés.
Data mining
• Des produits open source sont également disponibles pour les utilisateurs dans
le domaine du data mining sous une licence open source.
• La BMWI recommande KNIME, RapidMiner et Weka.
KNIME
• KNIME : KNIME est l’abréviation de « Konstanz Information Miner ». C’est un
outil de data mining développé comme logiciel libre à l’université de Constance en
Allemagne.
• Il offre aux utilisateurs, en plus de ses propres méthodes d’analyse, de nombreuses
possibilités d’intégration pour différents algorithmes de data mining et
d’apprentissage automatique (machine learning). Les différentes étapes de
prétraitement de données (ETL), de la modélisation, de l’analyse et de la
visualisation peuvent être définies via une interface utilisateur graphique en glissant
et déposant les modules respectifs dans la zone de travail.
• KNIME.com, AG basée à Zurich, propose un téléchargement gratuit du logiciel. Si
nécessaire, les utilisateurs peuvent aussi y obtenir un soutien technique
professionnel et des services de consultation. Le programme écrit en Java est
proposé sous la forme de plugins pour l’outil de programmation Eclipse (IDE).
RapidMiner
• RapidMiner : la plateforme d’analyse RapidMiner de l’éditeur de logiciels du
même nom offre aux utilisateurs un environnement intégré pour l’apprentissage
automatique, le data mining, les analyses des tendances et les modèles de prévision
dans un modèle open core.
• Le support couvre toutes les étapes du processus de data mining dont la
préparation, la visualisation, la validation et l’optimisation des données.
• Les utilisateurs pour lesquels la version communautaire gratuite, avec un seul
processeur logique et une portée d’analyse allant jusqu’à 10 000 enregistrements de
données n’est pas suffisante, peuvent choisir la licence Entreprise payante.
• Le programme est écrit en Java, et offre une interface utilisateur graphique avec
laquelle le workflow d’analyse peut être facilement défini et exécuté en quelques
clics de souris.
Weka
• Weka : Weka (Waikato Environment for Knowledge Analysis) est un projet open
source de l’université de Waikato en Nouvelle-Zélande. L’outil d’analyse
apporte aux utilisateurs différents algorithmes dans le domaine de
l’apprentissage automatique. Outre les méthodes classiques de data ming
comme la classification, l’association ainsi que la régression ou l’analyse de
cluster, Weka comporte divers modules de visualisation et de prétraitement des
données. Le programme écrit en Java offre une interface utilisateur graphique.
Les fonctionnalités du logiciel peuvent s’exécuter aussi via les lignes de
commande. Si besoin, Weka peut être intégré à vos propres solutions logicielles
via une interface Java.
Systèmes de reporting
• Les outils de reporting open-source recommandés sont BIRT et SQL Power
Wabit. Outre les rapports mensuels, trimestriels et annuels classiques, ces
rapports offrent aussi des fonctions d’analyse ad hoc permettant de fournir
des informations pertinentes en temps réel.
BIRT
• BIRT : BIRT (Business Intelligence and Reporting Tools) est un projet open
source de la fondation à but non lucratif Eclipse Foundation, qui fournit des
fonctionnalités de reporting BI pour « clients riches (RCP) » et applications
Web. Le logiciel est adapté aux applications basées sur Java et couvre un
large éventail de visualisation et de rapports de données. Les rapports BIRT
sont créés via une interface utilisateur graphique basée sur l’outil de
programmation open source Eclipse et sauvegardés sous forme de fichiers
XML.
SQL Power Wabit
• SQL Power Wabit : avec l’outil de reporting SQL Power Wabit, les utilisateurs
peuvent créer des rapports basés sur des requêtes classiques de base de données.
Les cubes OLAP ne sont pris en charge que s’il existe une description de la
structure de données.
• L’outil prend en charge les rapports standards, les requêtes ad hoc, les pages de
synthèse définies par l’utilisateur et les opérations de recherche dans le cadre du
traitement analytique en ligne.
• Avec des fonctions comme le contrôle par glisser-déposer, la mise à jour des
rapports de résultats en temps réel, la recherche globale et un éditeur WYSIWYG
pour la rédaction de rapports, SQL Power Wabit convient également aux
utilisateurs qui n’ont pas de connaissances en SQL.
• Grâce à cela, des rapports détaillés peuvent être facilement créés et si nécessaire,
adaptés individuellement en ce qui concerne la police, les couleurs et la mise en
page.
Solutions de BI intégrées
• En plus des suites de Business Intelligence d’éditeurs réputés comme SAP,
Oracle, IBM, SAS, HP ou Microsoft, il existe aussi des projets logiciels sur le
marché open source qui apportent aux utilisateurs des solutions d’entreposage
de données sous forme de collections de programmes intégrés. Pentaho
CE, Jaspersoft et SpagoBI sont pour cela recommandés.
Pentaho Community Edition (CE)
• Pentaho Community Edition (CE) : en plus des développements internes, la suite
Pentaho BI comporte aussi des projets open source existants qui ont été progressivement
achetés puis intégrés dans le portefeuille de produits. Le projet se concentre sur
l’intégration des données et l’automatisation des rapports. La collection du programme
comprend :
• Pentaho Business Analytics Platform : la plateforme Business Analytics est une application Web qui
permet aux utilisateurs de regrouper toutes les informations dans une plateforme centrale.
• Pentaho Data Integration : Pentaho DI se réfère à l’outil ETL décrit ci-dessus.
• Pentaho Report Designer (PRD) : PRD est un développement du projet JFreeReport.La solution de
reporting open source prend en charge différents formats de sortie comme PDF, Excel, HTML, Text,
Rich-Text-File, XML et CSV.
• Pentaho Marketplace : le Marketplacepermet aux utilisateurs d’ajouter des plugins à la plateforme
Pentaho en un simple clic.
• Pentaho Aggregation Designer (PAD) : avec PAD, les utilisateurs peuvent créer et optimiser le
contenu des bases de données. Le cœur de l’outil est le serveur OLAP Mondrian.
• Pentaho Schema Workbench (PSW) : PSW est une interface de conception graphique qui offre la
possibilité aux utilisateurs de créer et de tester les schémas pour les cubes OLAP Mondrian.
• Pentaho Metadata Editor (PME) : PME est utilisé pour décrire dans le détail les structures de
données sous-jacentes à l’aide d’un fichier XML.
Jaspersoft
• Jaspersoft : Jaspersoft propose diverses applications DWH dans une solution
de BI intégrée. La collection du programme comprend donc :
• JasperReports Server : le serveur JasperReports est un serveur de rapports qui
apporte une fonctionnalité OLAP par l’intermédiaire d’un serveur Mondrian ajusté.
• JasperReports Library : Jaspersoft fournit une bibliothèque Java pour la création de
rapports.
• Jaspersoft Studio : avec Jaspersoft Studio, la suite de BI fournit un éditeur de
rapports.
• Jaspersoft ETL : l’outil ETL basé sur Talend OS déjà décrit ci-dessus.
• Mobile BI : Mobile BI est une application native pour iPhone et Android qui apporte
un accès mobile aux rapports et tableaux de bord.
SpagoBI
• SpagoBI : contrairement à Penthao et Jaspersoft, qui commercialisent leurs
produits avec un système de double licence, SpagoWorld offre sa suite de BI
exclusivement sous la forme de solution open source. Les entreprises ont
cependant la possibilité d’utiliser une configuration et une adaptation
professionnelle du logiciel via un service payant. La collection du programme
comprend les éléments suivants :
• SpagoBI Server : le cœur de la suite de BI open source est le serveur SpagoBI, qui
fournit tous les outils et fonctionnalités d’analyse.
• SpagoBI Studio : SpagoBI Studio est un environnement de développement intégré.
• SpagoBI Meta : SpagoBI Meta apporte aux utilisateurs un environnement de gestion des
métadonnées.
• SpagoBI SDK : avec SpagoBI SDK, la suite Spago BI dispose d’une couche
d’intégration qui permet d’intégrer différents outils externes, tels que Talend OS (ETL),
Jedox ou Mondrian (OLAP), Weka ou R (datamining) ainsi que BIRT ou JasperReports
Library (reporting).
Archivage des données
• Les utilisateurs ont également diverses alternatives aux systèmes de gestion de
bases de données propriétaires tels que Microsoft SQL Server, IBM DB2 ou les
solutions d’Oracle et Teradata disponibles en tant que projets de logiciels libres
dans le domaine de la gestion des données.
• Les principaux magasins de données sont les systèmes de bases de données
relationnelles MySQL et MariaDB ou le système de gestion de base de
données relationnel/objet PostgreSQL.
• Le dernier est publié par Pivotal sous le nom de Greenplum Database en tant
que développement optimisé, en particulier pour les architectures d’entrepôt de
données sous licence open source.

Vous aimerez peut-être aussi