Vous êtes sur la page 1sur 13

Pentaho une solution BI Open Source complte

Glauser Claude-Alain . Senior Consultant Business Intelligence . 22.12.2008

Les logiciels Open Source sont aujourdhui prsents dans presque tous les domaines, tout utilisateur informatique a dj t confront consciemment ou inconsciemment un logiciel faisant partie de la communaut Open Source. Le domaine de la Business Intelligence ne fait pas exception. Il existe une offre importante doutils dans les domaines tels que lETL (Extraction Transformation Load (chargement)), le Reporting, lanalyse OLAP, le Data Mining, les tableaux de bord, ainsi quau niveau des activits de planification et budgtisation. Pentaho BI Suite est lune des offres logiciels Open Source les plus complte pour la ralisation de projet BI. Cet article offre une description des diffrents composants de la suite ainsi quune valuation de leurs forces et de leurs faiblesses.

1. Pentaho BI Suite
Pentaho BI Suite est un logiciel fourni par la compagnie Pentaho. Cette compagnie a t fonde en 2004 et est dirige par des anciens responsables de socits ayant connu des succs importants dans le domaine de la Business Inteligence (BI) tels que IBM, Business Objects, Hyperion, Oracle, Cognos et SAS. En plus davoir glan les principales rcompenses dans le monde du logiciel libre, Pentaho a lev en fvrier 2008 12 millions de dollars de fonds, devant lui permettre dacclrer lvolution de sa suite.

Les composants
Pentaho BI Suite permet de couvrir les domaines principaux dun projet de Business Intelligence et ceci au travers de diffrents logiciels appartenant Pentaho ou intgrables dans loffre de lditeur. Le tableau ci-dessous liste les diffrents composants par type dactivit :
Tableau 1 - Les composants Pentaho

Type dactivit Extraction, Transformation, Load(Chargement) (ETL) Reporting Standard Reporting Adhoc Analyse OLAP Tableau de bord Data Mining

Solution Pentaho Pentaho Data Integrator (anciennement Kettle) Pentaho Reporting (JFree Report), Jasper Report, BIRT (Business Intelligence Reporting Tools) Pentaho BIs Metadata, Pentaho Reporting (Jfree) Pentaho Analysis (Mondrian + JPivot), Excel addins1 Pentaho Dashboard Weka

Comme le montre le tableau prcdent (tableau 1), Pentaho sappuie principalement sur des logiciels existants sur le march Open Source. Le travail principal ayant t lintgration de ces outils entre eux, permettant ainsi de fournir une suite complte. Cette approche a permis de capitaliser sur le travail dj ralis dans le domaine par la communaut Open Source.

Pas disponible dans le mode Open Source info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 1 / 13

La notion de processus au cur du systme


Le concept de base de Pentaho est la notion de solution. Une solution est un ensemble de processus qui vont sorchestrer pour permettre de rpondre une problmatique mtier. La rponse une telle problmatique mtier complexe est trs frquemment un processus global dont la Business Intelligence fait partie. Un systme de Business Intelligence orient processus va permettre une intgration simplifie dans le systme informatique de lentreprise et ainsi augmenter la valeur ajoute dun projet BI. Les processus sont dcrits au travers de documents XML nomms Action Sequence Document. Ces derniers permettent de dcrire quelles sont les actions (par ex. excuter un job ETL, excuter un rapport, envoyer un e-mail,) qui devront tre entreprises et selon quelle squence pour fournir une solution lutilisateur final. La copie dcran ci-dessous (Figure 1 - Pentaho Design Studio) illustre la cration dun Action Sequence Document avec laide du plugin Eclipse, Pentaho Design Studio.

Figure 1 - Pentaho Design Studio

2. Prsentation des diffrents composants


Aprs cette brve introduction Pentaho BI Suite, voici une prsentation plus dtaille des composants de cette suite.

2.1. ETL Pentaho Data Integrator


Pentaho Data Integrator (PDI) tait connu prcdemment sous le nom de Kettle. Kettle a t fond en 2002 et intgr dans Pentaho BI Suite en 2006. PDI se compose de diffrents outils :
info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 2 / 13

Spoon Chef Pan Kitchen Carte

: Interface graphique pour le dveloppement de jobs ETL : Interface graphique pour dfinir lordonnancement des jobs ETL (chane ETL) : Ligne de commande pour lexcution de jobs ETL : Ligne de commande pour lexcution de chanes ETL : Service permettant la paralllisation et lexcution distante de jobs ETL sur diffrents serveurs

2.1.1. Dveloppement de transformations Spoon, loutil de dveloppement de transformations, contient un grand nombre doprateurs permettant la ralisation de tches ETL standards, parmi ces oprateurs on notera : Connexion nimporte quelle base de donnes au travers dun driver JDBC Lecture et criture dans des fichiers de type CSV, XML, XLS, Oprateurs relationnels tel que : o Jointure, agrgation, dduplication, Oprateurs propres au domaine du Data Warehouse tel que o Gestion des Slowly Changing Dimensions o Tables de rfrence (Lookup Table) Excution de SQL directe ou appel de procdures de bases de donnes Excution de commandes sur un serveur En plus de ces oprateurs prdfinis, il est possible de crer ses propres oprateurs. Cest dans ce cadre que dautres fournisseurs de logiciel Open Source ont cr leurs propres composants. Ceci simplifiant laccs leurs systmes. Cest le cas de Jedox Palo (www.jedox.com), base de donnes multidimensionnelle, qui fournit des oprateurs spcifiques pour PDI permettant la cration et lalimentation de cubes et dimensions Palo.

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 3 / 13

La copie dcran ci-dessous (Figure 2 - Pentaho Data Integrator Spoon) prsente linterface graphique de dveloppement de jobs ETL

Figure 2 - Pentaho Data Integrator Spoon

2.1.2. Dveloppement de chanes ETL Kitchen, loutil de dveloppement de chanes ETL, permet dordonnancer les diffrentes transformations dveloppes avec Spoon. Cet outil offre un certain nombre doprateurs servant squencer les tches : Test de lexistence dun fichier Dmarrage conditionnel dune tape en fonction du rsultat dune tape prcdente FTP/SFTP Envoi de-mails Excution de shell scripts 2.1.3. Rsum Pentaho Data Integrator Pentaho Data Integrator est un outil simple utiliser et installer, il est bas sur un rfrentiel (repository) central permettant de faciliter le travail en quipe. Il permet une installation sous forme de Cluster (module Carte) afin dassurer une utilisation optimale des ressources systmes disposition. Cependant la performance dexcution des transformations se trouve en de de nos esprances, particulirement en comparaison dautres outils prsents sur le march. Autre point ngatif, les analyses dimpactes qui peuvent tre excutes uniquement lintrieur dun job et non pas au travers dun projet dans son entier.

2.2. Reporting
Les outils de Reporting disponibles dans loffre Pentaho sont multiples comme mentionn dans le premier chapitre. Deux outils de Reporting bien intgrs dans la suite sont prsents dans cet article. Il sagit de Pentaho Reporting (jFree Report) et BIRT (Business Intelligence Reporting Tools). La couche de mta donnes permettant la ralisation dune reprsentation mtier de la base de donnes est aussi dcrite.
info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 4 / 13

2.2.1. Pentaho Reporting Loutil Pentaho Reporting se base sur le moteur de Reporting Java jFree Report. jFree Report a t cr en 2002 et intgr dans Pentaho en 2006. Pentaho Reporting offre une sparation complte entre le formatage du rapport et les donnes. Le dveloppement des rapports peut tre effectu avec linterface graphique Pentaho Report Designer ou directement avec un diteur XML. Lcran ci-dessous prsente linterface graphique Pentaho Report Designer pour le dveloppement de rapport :

Figure 3 - Pentaho Report Designer

Les fonctionnalits principales de Pentaho Reporting sont : o Support de sources de donnes multiples dans les mmes rapports o Support de sous rapports o Support multi langues o Possibilit de dfinir des rapports complexes avec un formatage au pixel prs o Possibilit de contrler le formatage au moment de lexcution du rapport o Large gamme de graphiques disposition o Production de diffrents types de format de sortie (pdf, html,xml,) o Support de Pentaho BI Metadata Malgr un nombre de fonctionnalits importantes, il manque aujourdhui une fonction majeure pour un outil de Reporting BI, il sagit des tableaux croiss. De plus, si linterface graphique convient bien aux dveloppeurs, la mettre disposition dutilisateurs mtier nest pas envisageable au vu de sa relative complexit (alignement, cration de graphiques, formatages,) .

2.2.2. BIRT BIRT (Business Intelligence Reporting Tools) est un outil de Reporting indpendant de Pentaho. Ce logiciel a t cr en 2005 et fait partie de la communaut Eclipse. Pentaho BI Suite offre une intgration complte de BIRT dans son serveur au travers dactions spcialement cres pour le dmarrage et le paramtrage de rapports BIRT.

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 5 / 13

BIRT est considr comme un outil simple dutilisation tout en fournissant une srie de fonctionnalits facilitant la cration de rapports de type Business Intelligence. Il en va du tableau crois jusqu la possibilit de reprsenter un set de donnes du rapport sous forme de cube, simplifiant la cration dagrgations et de regroupements. Lenvironnement de dveloppement est dot dun composant permettant la prvisualisation des rapports dans Eclipse. Cette fonctionnalit est extrmement utile et trs apprcie des dveloppeurs. Lcran ci-dessous (Figure 4 - BIRT) reprsente linterface graphique de dveloppement de rapports BIRT :

Figure 4 - BIRT

Les principales fonctionnalits de BIRT sont : Support de sources de donnes multiples (y compris XML/A) dans les mmes rapports Support de sous rapports Support multi langues Possibilit de dfinir des rapports complexes et formats au pixel prs Possibilit de contrler le formatage au moment de lexcution du rapport Support des tableaux croiss Cration de cube virtuel avec les sources de donnes du rapport Large gamme de graphiques disposition Production de diffrents types de format de sortie (pdf, html, xml,) Dfinition de Template (patrons) Tant linterface de dveloppement que les fonctions disposition font de BIRT un trs bon outil de Reporting dans le domaine de la Business Intelligence. Il peut aussi tre considr dans le cadre dapplications transactionnelles. Seul bmol : limpossibilit de connecter la couche Pentaho BI Metada Layer dcrite dans le chapitre suivant, rendant ainsi difficile la cration de requtes par des utilisateurs finaux.

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 6 / 13

2.2.3. BI Metadata Layer Une des dernires fonctionnalits ajoutes dans Pentaho BI Suite est la possibilit de crer une couche dabstraction entre la base de donnes et lutilisateur. Cette couche dabstraction permet de prsenter une vision mtier du Data Warehouse aux utilisateurs finaux. Larchitecture du BI Metadata Layer se compose de 3 niveaux : Couche physique : Connexion la base de donnes, choix des tables faisant partie du BI Metadata Layer Couche mtier : Dfinition des relations entre les tables et des attributs de prsentation (type de donnes, formatage, formule,) Vue Mtier : Permet doffrir des vues diffrentes en fonction du sujet ou secteur dactivits par exemple Les informations se trouvant dans diffrentes couches de larchitecture sont lies entre elles. Ce qui permet un hritage du paramtrage dune couche lautre. Il est possible de briser cet hritage si ncessaire. La copie dcran ci-dessous (Figure 5 - ) prsente linterface graphique de dveloppement de loutil BI Metadata Layer :

Figure 5 - BI Metadata Layer

Une fois dploye sur le serveur Pentaho, la couche dabstraction peut tre utilise par Pentaho Reporting. La copie dcran ci-dessous (Figure 6 - Utilisation du BI Metadata dans Pentaho Reporting) montre lutilisation de cette couche, lors de la cration dune requte:

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 7 / 13

Figure 6 - Utilisation du BI Metadata dans Pentaho Reporting

2.2.4. Rsum Reporting Loutil jFree Report choisi pour tre compltement intgr dans Pentaho nest probablement pas le meilleur choix en comparaison dautres outils de Reporting disponibles dans le monde de lOpen Source. Il aurait t plus judicieux de choisir BIRT qui est un vrai outil de Reporting BI. Cependant, Pentaho continue de supporter pleinement BIRT dans sa suite. La couche Pentaho BI Metadata est trs intressante et bien pense au niveau architecture, elle a malheureusement une valeur ajoute relativement faible car il nexiste aucun outil offrant une interface de dveloppement suffisamment simple et suffisamment complte pour tre distribuer des utilisateurs finaux.

2.3. Analyse OLAP Pentaho Analysis


Lanalyse interactive de donnes requiert lutilisation doutils garantissant un temps de rponse trs performant. Ils facilitent ainsi la navigation dans les donnes au travers de fonctions comme le drill-down et permettent la cration de formules analytiques plus ou moins complexes (par ex. comparaison de valeurs par priode). Pour rpondre ces besoins la suite Pentaho met disposition le composant Pentaho Analysis. Ce dernier est compos dun serveur OLAP connu sous le nom de Mondrian et dun client permettant laccs ce moteur connu sous le nom de JPivot. Une fois encore on constate que Pentaho na pas dvelopp sa propre solution mais a intgr des solutions Open Source existante dans son offre. 2.3.1. Serveur OLAP Mondrian Mondrian est un serveur OLAP mmoire. Les dimensions et mesures gres par Mondrian sont stockes uniquement dans la base de donnes relationnelle. Mondrian lit ces informations au moment o une premire requte lui parvient afin de les charger en mmoire. Il va ensuite servir les autres requtes uniquement depuis ces informations stockes mmoire. Une fois le serveur
info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 8 / 13

stopp les donnes se trouvant dans la mmoire Mondrian disparaissent pour se retrouver uniquement dans la base de donnes relationnelle. Mondrian est capable dexcuter des requtes MDX et de se connecter nimporte quelle base de donnes relationnelle offrant une connectivit JDBC. Laccs au serveur Mondrian peut se faire soit via un API propre Mondrian ou au travers de XML/A. Lutilisation de Mondrian passe par la dfinition dun ensemble de cubes, mesures, dimensions et hirarchies. Cette dfinition se fait au travers dun fichier XML, pouvant soit tre dit via un diteur XML soit tre trait avec linterface graphique Mondrian Schema Workbench. Les copies dcrans ci-dessous (Figure 7 - Exemple d'un fichier de dfinition de structure Mondrian) donnent un exemple de fichier de dfinition de structure pour Mondrian ainsi que linterface graphique de Mondrian Schema Workbench (Figure 8 - Mondrian Schema Workbench)

Figure 7 - Exemple d'un fichier de dfinition de structure Mondrian

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 9 / 13

Figure 8 - Mondrian Schema Workbench

Assurer les performances du serveur Mondrian Les performances du serveur Mondrian vont essentiellement dpendre des deux facteurs suivants : Mmoire disposition pour le serveur Mondrian Organisation des donnes dans la base relationnelle contenant les informations devant tre accdes par Mondrian Concernant la mmoire mettre la disposition de Mondrian la rgle est trs simple : autant de mmoire que possible. Lorganisation des informations dans la base de donnes relationnelle est plus complexe. Pour faciliter les choses, Mondrian offre une fonction proposant la cration de tables dagrgation en fonction de lutilisation du cube. Ces tables seront ensuite utilises au travers de la fonction Mondrian permettant la rcriture dynamique des requtes daccs la base de donnes relationnelle, et ceci en fonction des tables dagrgations disponibles. Malgr cette fonctionnalit il est conseill de sappuyer sur une structure de donnes en toile et de bien considrer le niveau de granularit devant tre disposition dans les cubes Mondrian. 2.3.2. Interface danalyse JPivot JPivot est loutil permettant deffectuer des analyses OLAP dans lenvironnement Pentaho. JPivot est une librairie JSP permettant daccder un cube Mondrian (ou nimporte quelle source de donnes XML/A) et fournissant des fonctionnalits du type : Tableaux croiss Graphiques Drill-Down , Slide & Dice

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 10 / 13

Cet outil fonctionne au travers dun browser Internet et ne demande aucune installation sur les postes clients. Le graphique ci-dessous illustre linterface de JPivot avec les diffrentes fonctionnalits :

Bar doutils

Critres

Tableau crois et drill

Graphiques

Figure 9 - JPivot

2.3.3. Rsum Pentaho Analysis Pentaho Analysis permet de mettre disposition au travers dune simple, interface WEB un set de donnes sur lequel lutilisateur pourra naviguer, crer des graphiques, ajouter des formules et se crer ces propres rapports. Malheureusement d la technologie serveur OLAP mmoire laccs un large volume de donnes pose rapidement des problmes de performances. Mondrian propose la cration de multiples tables dagrgats pour amliorer les performances. Malheureusement elles vont rapidement devenir lourdes maintenir. Eviter ces tables dagrgats est une des raisons de lutilisation dune technologie MOLAP dans un environnement BI. Les structures multidimensionnelles tant spcialement optimises pour la gestion dagrgats.

2.4. Tableau de bord Pentaho Dashboard


Pentaho Dashboad permet le dveloppement de tableaux de bord interactifs afin dafficher sous diffrentes formes (graphiques, jauge, signalisation lumineuse, carte gographique, tableaux croiss, listes, ..) les indicateurs cls dune entreprise, dun dpartement ou dun secteur dactivits. Le dveloppement de tableau de bord passe par la cration dun script JSP (ou AJAX), allant invoquer diffrents composants propre Pentaho, pour la cration de graphiques ou laffichage de rapports. Il nexiste aujourdhui aucune interface graphique permettant de crer facilement un tableau de bord. Par consquent la cration dun tel tableau de bord doit tre ralis manuellement par des scripts JSP ou AJAX ainsi que par des fichiers XML pour la configuration des graphiques. Ce travail est laborieux et demande de bonnes connaissances dans le domaine Java, contrairement aux solutions similaires, disponibles dans le domaine commercial.

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 11 / 13

La copie dcran ci-dessous (Figure 10 - Tableau de bord) reprsente un tableau de bord simplifi affichant deux graphiques et une liste avec la possibilit de guider le contenu de la page par un simple clique sur les lments des graphiques :

Figure 10 - Tableau de bord

2.4.1. Rsum Pentaho Dashboard Bien que Pentaho BI Suite offre des possibilits de tableaux de bord, le travail ncessaire leurs ralisation est important et le manque dune relle interface graphique (type cliquer - glisser) pour les dvelopper rend cette solution extrmement lourde et peu comptitive en terme de temps de dveloppement et de cot de maintenance. Malgr cela il faut noter que les options disponibles dans Pentaho Dashboard permettent rellement la ralisation de tableaux de bord complets et paramtrables. Il faut ajouter cela la trs bonne intgration des modules Pentaho Reporting et Pentaho Analysis dans Pentaho Dashboard permettant ainsi de runir au sein dune mme page diffrents types danalyses et de prsentation de linformation.

3. Conclusion
Pentaho BI Suite offre une palette trs large doutils pour couvrir les principales tches lies la Business Intelligence. Malheureusement le niveau de fonctionnalits et de qualit des interfaces graphiques nest pas le mme dans tous les domaines. Aprs avoir analys la suite dans son ensemble, en se basant sur lexprience de diffrents consultants BI Trivadis, les conclusions suivantes peuvent tre tires : ETL avec Pentaho Data Integrator est une alternative sduisante bon nombres doutils commerciaux similaires et devrait tre considre srieusement lors du dmarrage dun projet BI et lors du dmarrage dun projet ncessitant un transport de donnes (tel que des reprises de donnes, interfaage entre systmes,). Reporting avec Pentaho Reporting nest pas suffisamment avanc pour contrer les outils commerciaux. Cela est principalement d au manque dune interface graphique pour la ralisation rapide de rapports et limpossibilit de crer des requtes type tableaux croiss. Cependant pour les cas ou il nest pas prvu de permettre aux utilisateurs finaux la
info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 12 / 13

ralisation de rapports, loutil BIRT est nous parat une trs bonne alternative de part ses fonctionnalits ddis la BI et sa trs bonne intgration dans la suite Pentaho. Analyse OLAP avec Mondrian et JPivot est une alternative intressante pour la mise disposition de petits volumes de donnes des utilisateurs ayant des besoins simples danalyse. Lintrt principal de cette solution rside dans le fait que linterface utilisateur est trs lgre, simple et permettant la mise disposition dinformations pour un client ou un partenaire commercial via un Extranet sans besoin dinstallation de logiciel chez ce dernier. Par contre nous ne pouvons pas conseiller lutilisation de cette solution ds que les volumes de donnes analyser deviennent importants. Ceci en raison des efforts trop importants quil faudra fournir pour la mise disposition dune structure performante pour Mondrian au niveau de la base de donnes relationnelle. Tableaux de bord avec Pentaho Dashboard est une fonctionnalit encore trop peu aboutie surtout en terme dinterface de dveloppement pour tre rellement considre. Une entreprise dsirant dmarrer avec Pentaho devra probablement se contenter de tableaux de bord trs basic avec la version actuelle de Pentaho. Dans le cas contraire, il faudra compter avec des dveloppements relativement coteux. Dans le futur nous verrons probablement larriv dun environnement de dveloppement graphique qui permettra de tirer pleinement partie de ce module avec des cots de ralisation raisonnable.

Pour conclure, la maturit des outils Open Source dans le domaine de la Business Intelligence permet de les considrer comme une relle alternative aux solutions commerciales. Trivadis en tant que partenaire pour la mise en place de projets Business Intelligence vous conseille sur ladquation des outils Open Source par rapport vos besoins pour un futur projet BI ou pour une rorientation dans votre stratgie logiciel. Claude-Alain Glauser Trivadis SA Rue Marterey 5 CH-1005 Lausanne Internet: www.trivadis.com

Tel: Fax: Mail:

+41-21-321 47 00 +41-21-321 47 01 info@trivadis.com

Liens
Site de Pentaho : www.pentaho.org Prsentation complte des solutions Open Source BI disponibles sur le march : www.trivadis.com/uploads/tx_cabagdownloadarea/Folien_BIOpenSource.zip

info@trivadis.com . www.trivadis.com . Info-Tel. 0800 87 482 347 . Date 05.01.2009 . Page 13 / 13