Vous êtes sur la page 1sur 52

xxx

Big Data

Analyse et valorisation de masses de donnes


Page 2

PREAMBULE
SMILE
Smile est une socit dingnieurs experts dans la mise en uvre de solutions open source et lintgration de systmes appuys sur lopen source. Smile est membre de lAPRIL, lassociation pour la promotion et la dfense du logiciel libre, du PLOSS le rseau des entreprises du Logiciel Libre en Ile-de-France et du CNLL le conseil national du logiciel libre. Smile compte prs de 700 collaborateurs dans le monde, dont plus de 500 en France (fvrier 2014), ce qui en fait le premier intgrateur franais et europen de solutions open source. Depuis 2000 environ, Smile mne une action active de veille technologique qui lui permet de dcouvrir les produits les plus prometteurs de lopen source, de les qualifier et de les valuer, de manire proposer ses clients les produits les plus aboutis, les plus robustes et les plus prennes. Cette dmarche a donn lieu toute une gamme de livres blancs couvrant diffrents domaines dapplication. La gestion de contenus (2004), les portails (2005), la business intelligence (2006), la virtualisation (2007), la gestion lectronique de documents (2008), les PGIs/ERPs (2008), les VPN open source (2009), les Firewall et Contrle de flux (2009), les Middleware orients messages (2009), lecommerce et les Rseaux Sociaux d'Entreprise (2010), le Guide de lopen source et NoSQL (2011) et plus rcemment, Mobile et Recensement et audit (2012). Chacun de ces ouvrages prsente une slection des meilleures solutions open source dans le domaine considr, leurs qualits respectives, ainsi que des retours dexprience oprationnels. Au fur et mesure que des solutions open source solides gagnent de nouveaux domaines, Smile sera prsent pour proposer ses clients den bnficier sans risque. Smile apparat dans le paysage informatique franais comme le prestataire intgrateur de choix pour accompagner les plus grandes entreprises dans ladoption des meilleures solutions open source. Ces dernires annes, Smile a galement tendu la gamme des services proposs. Depuis 2005, un dpartement consulting accompagne nos clients, tant dans les phases davant-projet, en recherche de solutions, quen accompagnement de projet. Depuis 2000, Smile dispose dun studio graphique, devenu en 2007 Smile Digital agence interactive, proposant outre la cration graphique, une expertise e-marketing, ditoriale, et interfaces riches. Smile dispose aussi dune agence spcialise dans la TMA (support et lexploitation des applications) et dun centre de formation complet, Smile Training. Enfin, Smile est implant Paris, Lille, Lyon, Grenoble, Nantes, Bordeaux, Marseille et Montpellier. Et prsent galement en Espagne, en Suisse, au Benelux, en Ukraine, au Maroc et en Cte dIvoire.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 3

QUELQUES REFERENCES DE SMILE


SMILE est fier davoir contribu, au fil des annes, aux plus grandes ralisations Web franaises et europennes. Vous trouverez ci-dessous quelques clients nous ayant adress leur confiance.

WWW.SMILE.FR

Sites Internet EMI Music, Salon de lAgriculture, Mazars, Areva, Socit Gnrale, Gtes de France, Patrice Pichet, Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Veolia, NRJ, JCDecaux, Spie, PSA, Boiron, Larousse, Dassault Systmes, Action Contre la Faim, BNP Paribas, Air Pays de Loire, Forum des Images, IFP, BHV, ZeMedical, Gallimard, Cheval Mag, Afssaps, Bnteau, Carrefour, AG2R La Mondiale, Groupe Bayard, Association de la Prvention Routire, Secours Catholique, Canson, BNP Paribas, Bouygues Telecom, CNIL, Eiffage, Poweo, Mazars, Kering Portails, Intranets et Systmes dInformation HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge, Eurosport, Invivo, Faceo, Chteau de Versailles, Eurosport, Ipsos, VSC Technologies, Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation dAuteuil, INRA, Gaz Electricit de Grenoble, Ville de Niort, Ville de Saint-Etienne, Ministre de la Culture, PagesJaunes Annonces, Feu Vert, Bouygues Immobilier, Biomrieux, Generali E-Commerce Krys, La Halle, Gibert Joseph, De Dietrich, Adenclassifieds, Macif, Furet du Nord, Gtes de France, Camif Collectivits, GPdis, Projectif, ETS, Bain & Spa, Yves Rocher, Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Pompiers de France, Commissariat lEnergie Atomique, Snowleader, Darjeeling, Le Bon March, VF Corporation, Histoire dOr, MyEvian, Chantelle, Yamaha, Wesco ERP et Dcisionnel Veolia, La Poste, Christian Louboutin, Eveha, SunR, Home Cin Solutions, Pub Audit, Effia, France 24, Publicis, iCasque, Nomadvantage, Gets, Nouvelles Frontires, Anevia, Jus de Fruits de Moora, Espace Loggia, Bureau Veritas, Skyrock, Lafarge, Cadremploi, Meilleurmobile.com, Groupe Vinci, IEDOM (Banque de France), Carrefour, Jardiland, Trsorerie Gnrale du Maroc, Ville de Genve, ESCP, Sofia, Faiveley Transport, INRA, Deloitte, Yves Rocher, ETS, DGAC, Generalitat de Catalunya, Gilbert Joseph, Perouse Mdical, VLille, Casden, Corsair

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 4

Gestion documentaire Generali, HEC, JCDecaux, Serimax, Pierre Audoin Consultant, Alstom Power services, NetasQ, CS informatique, SNCF - Direction du matriel, Mazars, EDF R&D, EDF Nuclaire, Conseil Rgional du Centre, Leroy Merlin, Primagaz, Renault F1, INRIA, Ministre belge de la Communaut Franaise, APAVE, Conseil Gnral de Loire Atlantique, CNIL, Services du Premier Ministre... Infrastructure et Hbergement

WWW.SMILE.FR

Agence Nationale pour les Chques Vacances, Pierre Audoin Consultants, Rexel, Motor Presse, OSEO, Sport24, Eco-Emballage, Institut Mutualiste Montsouris, ETS, Ionis, Osmoz, SIDEL, Atel Hotels, Cadremploi, SETRAG, Institut Franais du Ptrole, Mutualit Franaise, Orange, Bouygues Tlcom, Fiducial, Ministre du Dveloppement Durable

Consultez nos rfrences, en ligne, ladresse : http://www.smile.fr/clients.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 5

SOMMAIRE
PREAMBULE................................................................................................ 2
SMILE ................................................................................................................................................................... 2 QUELQUES REFERENCES DE SMILE............................................................................................................................... 3

WWW.SMILE.FR

SOMMAIRE ................................................................................................. 5 EN RESUME ................................................................................................. 7


LE BIG DATA GENERATEUR DOPPORTUNITES POUR LES ENTREPRISES ET COLLECTIVITES ......................................................... 7 UNE TENDANCE DE FOND POUR LANALYSE DE DONNEES MASSIVES ................................................................................... 9 CHECKLIST DUN PROJET DECISIONNEL BIG DATA ......................................................................................................... 11 CADRER LES OPPORTUNITES METIER ................................................................................................................. 11 CADRER LARCHITECTURE ............................................................................................................................... 11

CE LIVRE BLANC ........................................................................................ 12


SUJETS TRAITES ..................................................................................................................................................... 12

CONCEPTS ET DEFINITIONS ....................................................................... 14


BIG DATA ............................................................................................................................................................ 14 ENTREPOT DE DONNEES OU DATAWAREHOUSE .......................................................................................................... 14 STOCKAGE DISTRIBUE - NOSQL................................................................................................................................ 15 LIMITES DES SGBDR DANS LES ARCHITECTURES DISTRIBUEES ................................................................................ 15 PRINCIPES DE DISTRIBUTION ET DE REPLICATION DES DONNEES .............................................................................. 16 STRUCTURES DES BASES ET ORGANISATION DES DONNEES NOSQL ......................................................................... 16 INTEGRATION ET TRAITEMENT (DISTRIBUE) DE DONNEES MASSIVES .................................................................................. 19 ETL ........................................................................................................................................................... 19 FRAMEWORKS DE TRAITEMENTS DISTRIBUES - MAP-REDUCE ................................................................................ 19 LANALYSE MULTIDIMENSIONNELLE OU OLAP............................................................................................................. 19 REQUETAGE AD-HOC EN LANGAGE NATUREL ............................................................................................................... 20 DATA MINING ....................................................................................................................................................... 20

CAS DUSAGES .......................................................................................... 21


USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR LANALYSE ET LA VALORISATION ..................................................... 21 MARKETING ......................................................................................................................................................... 21 VUE A 360 DES CLIENTS ET ANALYSE DES COMPORTEMENTS DE CONSOMMATION .................................................... 21 E-COMMERCE.............................................................................................................................................. 22 RESSENTI SUR LES SERVICES, PRODUITS ET CONCEPTS ........................................................................................... 22

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 6

IMPLANTATION DE POINTS DE VENTE ................................................................................................................ 22 LOGISTIQUE ET CHAINE DAPPROVISIONNEMENT .......................................................................................................... 22 LE BIG DATA AU SERVICE DE LA TRAABILITE ...................................................................................................... 22 LE BIG DATA FACTEUR DOPTIMISATION DE LA CHAINE D'APPROVISIONNEMENT ........................................................ 23 TELECOMS ........................................................................................................................................................... 23

PANORAMA DES SOLUTIONS BIG DATA POUR LA BI ................................. 24 COMPOSANTS DINTEGRATION ET DE TRAITEMENT DE DONNEES ............ 25
SYNTHESE ................................................................................................................................................... 25 HADOOP .................................................................................................................................................... 26 ETL TALEND FOR BIG DATA............................................................................................................................ 28 ETL PENTAHO DATA INTEGRATION .................................................................................................................. 34

WWW.SMILE.FR

STOCKAGE DE MASSES DE DONNEES ........................................................ 38


SYNTHESE ................................................................................................................................................... 38 FEDERATION DE DONNEES NOSQL DANS DES BASES RELATIONNELLES ..................................................................... 38 MONGODB ................................................................................................................................................ 40 ELASTICSEARCH ........................................................................................................................................... 41

ANALYSER ET RESTITUER DES MASSES DE DONNEES ................................. 42


SYNTHESE ................................................................................................................................................... 42 PENTAHO BUSINESS ANALYTICS ...................................................................................................................... 43 JASPERSOFT BI SUITE .................................................................................................................................... 45 SPAGOBI .................................................................................................................................................... 47 ELASTICSEARCH KIBANA ................................................................................................................................ 50

REMERCIEMENTS ...................................................................................... 52

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 7

EN RESUME
LE BIG DATA GENERATEUR DOPPORTUNITES
POUR LES ENTREPRISES ET COLLECTIVITES Chaque jour, la quantit de donnes cres et manipules ne cesse daugmenter, et ce quel que soit le secteur dactivit concern. Cette croissance, exponentielle, est lie : lvolution du nombre dutilisateurs des solutions IT lvolution des primtres couverts et des usages (mobile,...) la gnration de donnes par des machines la finesse de linformation trace la croissance des volumes oprationnels lvolution de lhistorique de donnes disponible. Ces donnes sont issues de sources multiples : RFID, compteurs dnergie, oprations commerciales en volumes, transactions financires, blogs, rseaux de capteurs industriels, rseaux sociaux, tlphonie, indexation Internet, parcours de navigation GPS, dtails d'appels en call center, e-commerce, dossiers mdicaux, informatique embarque, Internet des objets, donnes biologiques, textes de tickets ou mails, sondages,... Ces masses de donnes apportent des opportunits danalyses plus larges et plus fines ainsi que de nouveaux usages de linformation, quelle soit pleinement ou partiellement structure la source. La question n'est plus "Le Big Data peut-il devenir un avantage concurrentiel pertinent ?" mais "Comment pouvons-nous exploiter les possibilits offertes par ces solutions pour optimiser nos processus danalyse et de prise de dcision ?. En effet, les masses de donnes constituent un matriau brut. Au del de leur exploitabilit (pertinence, disponibilit et qualit), cest la capacit les transformer en analyse et en service qui apporte une valeur maximale.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 8

Le Big Data transforme progressivement les organisations autour de la valorisation de linformation. Avec la finesse dinformation sur les oprations passes et de plus en plus dinformations prospectives, le Big Data va permettre lclosion de modles prdictifs plus pertinents.

WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 9

UNE TENDANCE DE FOND POUR LANALYSE DE DONNEES MASSIVES


Les systmes de base de donnes relationnelles et les outils daide la dcision nont initialement pas t crs afin de manipuler une telle quantit et richesse de donnes, et il peut vite devenir compliqu et improductif pour les entreprises daccder ces masses de donnes avec les outils classiques. Cette nouvelle problmatique a donn naissance aux systmes de gestion de base de donnes appels NoSQL (Not Only SQL), qui ont fait le choix dabandonner certaines fonctionnalits des SGBD classiques au profit de la simplicit, la performance et de la capacit monter en charge. Des frameworks comme Hadoop ont galement t crs et permettent le requtage, lanalyse et la manipulation de ces donnes en masse. Nous relevons que les principales solutions de Big Data sont Open Source. Ce contexte favorise leur vitesse de dveloppement et de diffusion au sein des entreprises et collectivits. Et ce moindre cot par rapport des solutions dont lvolution de la capacit est verticale : cot des ressources matrielles, licences,... Il est possible de mettre en place une solution dcisionnelle Big Data complte uniquement base sur des solutions Open Source sans cot de licence. Toutefois, des versions commerciales bases sur de lOpen Source apportent des facilits qui vont dans le sens de la productivit de mise en oeuvre et de lexploitabilit des solutions avec des outils dadministration complmentaires notamment. Beaucoup dentreprises et de collectivits publiques utilisent dj des solutions Big Data, souvent hberges dans le cloud (ex : Google Analytics, rseaux sociaux, Salesforce,...). Les solutions Big Data ont fait leurs preuves et sont mres pour un dploiement en production. Les fonctionnalits de visualisation graphique (DataViz), pour illustrer des analyses portant sur des masses de donnes, et de datamining prennent avec le Big Data toute leur importance. Techniquement, le format JSON (JavaScript Object Notation) merge comme un standard dchange et dexploitation de donnes (massives), en complment du SQL, comme cela sobserve aussi sur les solutions web non dcisionnelles. Ce mouvement va de pair avec le dveloppement des librairies JavaScript de visualisation graphique avances (d3.js,...) et des frameworks Javascript dinteractivit avec les donnes.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 10

Nous relevons aussi les possibilits de consolidation de donnes (massives) et htrognes la vole en complment de lentrept de donnes : la fdration de donnes.

WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 11

CHECKLIST DUN PROJET DCISIONNEL BIG DATA


Au del des principes et bonnes pratiques de mises en oeuvre de solutions IT, une vigilance sur les points suivants peut viter des cueils lors du cadrage dun projet Big Data :

Cadrer les opportunits mtier

WWW.SMILE.FR

identifier des leviers de gain dexploitation de masses de donnes sur les activits de lentreprise identifier le primtre (lgal, technique, historique) dinformation disponible : SI interne, donnes fournies par des partenaires, OpenData, ... identifier le ou les cas d'utilisation rsultant de ladquation entre les leviers de gain et le primtre dinformation disponible

Cadrer larchitecture
dfinir une architecture flexible adapte au(x) cas dutilisation; il nexiste pas un modle darchitecture Big Data idal adapt tous les usages valider la disponibilit et lexploitabilit des donnes sources valider larchitecture (matrielle, rseau, applicative) par un test de monte en charge.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 12

CE LIVRE BLANC
Cet ouvrage constitue le premier livre blanc de Smile sur le sujet. Nous esprons quil vous apportera linformation souhaite et quil vous sera agrable parcourir. Comme les autres livres blancs publis par Smile, cet ouvrage sefforce de runir : une approche gnrale de la thmatique, ici : lanalyse et la valorisation de masses de donnes, ses concepts, ses champs dapplication, ses besoins spcifiques. un recensement des meilleures solutions Open Source dans ce domaine. une prsentation assez complte de ces solutions, de leurs forces, de leurs limites, de leur maturit et de leur aptitude satisfaire des besoins oprationnels. Cette tude, ralise par notre quipe de consultants, a t fonde sur plusieurs annes de travail de recherche et de premiers dploiements effectifs de solutions Big Data. Cet ouvrage vient complter livres blancs Business Intelligence et NoSQL. Les marques et logos prsents dans ce livre blanc sont la proprit des entreprises concernes.

WWW.SMILE.FR

SUJETS TRAITES
Ce livre blanc est concentr sur les solutions applicatives danalyse et de valorisation de masses de donnes. Dautres aspects de lexploitation des masses de donnes sont importants mais non dcrits ici : Qualit des donnes : prendre en compte la qualit et le nettoyage des donnes, ainsi que la gestion du cycle de vie des donnes rfrentielles dans le scope du projet vite daboutir une masse de donnes inexploitable. Des solutions de traitement, qualification et nettoyage automatique des donnes existent : fonctionnalits intgres aux flux de donnes ETL, briques complmentaires telles DataQuality de Talend. Infrastructures techniques : les solutions Big Data ncessitent une architecture rpartie. La composante systme et rseaux est un facteur cl de performance et dexploitabilit dune solution Big Data. Scurit de linformation : les aspects de scurisation des accs et de gestion de lintgrit des donnes sont importants pour la mise en oeuvre dune solution prenne.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 13

Respect de la vie prive : les solutions Big Data peuvent apporter une puissance informative importante. Cette puissance doit respecter les liberts individuelles. Solutions : lcosystme des solutions Big Data est riche et volutif. Il nous serait difficile de dtailler toutes les solutions. Nous nous sommes concentrs sur les solutions les plus pertinentes lheure actuelle.

WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 14

CONCEPTS ET DEFINITIONS
BIG DATA
Le Big Data consiste en un/des ensemble(s) de donnes plus ou moins structures qui deviennent tellement volumineux qu'ils sont difficiles travailler avec des outils classiques de gestion de base de donnes. En 2012, Gartner a pos les bases de la dfinition du Big Data, base sur les 3V : Volume Vitesse Varit des donnes. "Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization." Sans seuil ni repre, beaucoup de bases de donnes classiques peuvent prtendre rpondre ces trois critres. Dans le prsent livre blanc, pour les usages d'analyse, nous complterons pragmatiquement la combinaison des 3V avec une considration de volumtries en dizaines de millions d'enregistrements minimum.

WWW.SMILE.FR

ENTREPOT DE DONNEES OU DATAWAREHOUSE


L'entrept de donnes est une base de donnes qui concentre de linformation issue de diffrents systmes dinformation de lentreprise, des fins d'analyse et de reporting des activits et marchs.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 15

STOCKAGE DISTRIBUE NOSQL


NoSQL, pour Not Only SQL dsigne les systmes de gestion de base de donnes qui ne sappuient plus, du fait des volumtries et de la varit des donnes contenues, sur une architecture relationnelle et transactionnelle. Ces systmes privilgient la simplicit et lvolutivit de la capacit via des architectures distribues.

WWW.SMILE.FR

Limites des SGBDR dans les architectures distribues


Outre leur modle relationnel, la plupart des moteurs de SGBDs relationnels sont transactionnels ce qui leur impose le respect des contraintes Atomicity Consistency Isolation Durability, communment appel par son acronyme ACID. Thorme de CAP

Il est actuellement impossible dobtenir ces trois proprits en mme temps dans un systme distribu. Sur de nombreux SGBDR classiques, la rplication devient plus complexe avec de fortes volumtries et une forte vlocit des donnes.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 16

Principes de distribution et de rplication des donnes


Les capacits de monte en charge des bases NoSQL reposent, au del de leur simplicit, sur la distribution (sharding) et la rplication des donnes sur diffrents noeuds (cluster de quelques serveurs plusieurs DataCenter). Pour simplifier, une analogie peut tre faite entre les mcanismes de partitionnements verticaux (sur plusieurs tables physiques de la mme instance) de certains moteurs de bases de donnes relationnelles et la distribution horizontale (sur plusieurs serveurs) des donnes en NoSQL. Les donnes peuvent galement tre rpliques, sur un principe analogue aux mcanismes de stockage en RAID, afin de garantir un haut niveau de service, mme en cas de problme ou de maintenance dun nud du cluster.

WWW.SMILE.FR

Structures des bases et organisation des donnes NoSQL


Il existe plusieurs paradigmes au niveau des systmes de stockage NoSQL : Type documentaire Les bases de donnes documentaires sont constitues de collections de documents. Les collections sont gnralement assimiles des tables dun modle relationnel. Bien que les documents soient structurs, ces bases sont sans schma de donnes prdfini. Il nest donc pas ncessaire de dfinir au pralable lensemble des champs utiliss dans un document. Les documents peuvent donc avoir une structure htrogne au sein de la base. Un document est compos de champs et de valeurs associes, ces dernires pouvant tre requtes. Les valeurs peuvent tre, soit dun type simple (entier, chane de caractre, date, ...), soit composes de plusieurs couples cl/valeur (imbrications nested sets). Les structures de donnes sont donc trs souples.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 17

WWW.SMILE.FR

La souplesse du modle de donnes, les performances et les capacits de requtage orientent lusage des bases documentaires vers du stockage oprationnel de masse (ODS) dans un systme dcisionnel. Type graphe Au del du moteur de stockage sous la forme dune base documentaire, ce type de base propose galement des relations entre objets. Ces derniers sont orients et peuvent porter des proprits. Type orient colonnes La colonne reprsente lentit de base de la structure de donnes. Chaque colonne dun objet est dfini par un couple cl / valeur. Une colonne contenant dautres colonnes est nomme supercolonne.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 18

WWW.SMILE.FR

Ces types de bases sont adapts au stockage oprationnel de masse (ODS) et de source danalyses massives dans un systme dcisionnel. Type cl/valeur Dans ce modle, chaque objet/enregistrement est identifi par une cl unique. La structure de lobjet est libre.

Dans ce modle on ne dispose gnralement que des quatre oprations Create, Read, Update, Delete (CRUD) en utilisant la cl de lenregistrement manipuler. Du fait des limites fonctionnelles daccs aux donnes de ces types de base, nous ne leur voyons pas dapplication dcisionnelle.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 19

INTEGRATION ET TRAITEMENT (DISTRIBUE) DE


DONNEES MASSIVES

ETL
Afin dalimenter un datawarehouse partir des diffrentes sources de donnes ou de synchroniser en batch des donnes entre systmes, on utilise une gamme doutils appels ETL, pour Extract, Transform, Load . Comme le nom lindique, ces outils permettent dextraire des donnes partir de diffrentes sources, de les transformer (rapprochement, format, dnomination, calculs), et de les charger dans la base de donnes cible, comme un datawarehouse dans le cas dun projet dcisionnel. LETL permet de masquer, grce une modlisation visuelle, la complexit de manipulations (rparties) des donnes (htrognes) au sein des traitements et ainsi den rduire fortement les cots de dveloppement et maintenance. Un ETL est gnralement compos dun studio de modlisation des traitements ainsi que dun ou plusieurs environnements dexcution et des outils dadministration voire de visualisation de donnes suivant les versions.

WWW.SMILE.FR

Frameworks de traitements distribus - Map-Reduce


Modle darchitecture portant sur la distribution et la rpartition des traitements de donnes sur plusieurs noeuds dune grappe de serveurs (cluster). Dans l'tape Map, les donnes traiter et traitements effectuer sont rpartis sur les noeuds de traitement. Dans l'tape Reduce, les nuds de traitements remontent leur rsultat pour agrgation (il peut y avoir plusieurs niveaux de traitement).

LANALYSE
MULTIDIMENSIONNELLE OU

OLAP
Lanalyse multidimensionnelle permet lanalyse de mesures suivant diffrents aspects mtiers appels dimensions ou axes danalyse et ce, plusieurs niveaux de regroupement. Par exemple, la mesure de Montant HT dune ligne de facture peut tre agrge par : jour mois trimestre anne produit catgorie de produits ligne de produits client segment de client.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 20

REQUETAGE AD-HOC EN
LANGAGE NATUREL Le requtage ad-hoc permet des non informaticiens de construire visuellement des requtes, en sappuyant sur un dictionnaire dinformations en langage naturel (mtadonnes) faisant abstraction du langage technique daccs aux bases de donnes (SQL, JSON).

DATA MINING

WWW.SMILE.FR

Le data mining consiste rechercher des informations statistiques utiles caches dans un grand volume de donnes. Lutilisateur est la recherche dune information statistique quil nidentifie pas encore.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 21

CAS DUSAGES
USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR LANALYSE ET LA VALORISATION

WWW.SMILE.FR

Il existe de nombreux cas dusage des solutions de valorisation et danalyse massive de donnes. Nous en avons dtaill quelques une ci-dessous mais nous pouvons aussi citer lanalyse fine de processus, la recherche scientifique, les analyses politiques et sociales, lanalyse de donnes de capteurs sur les chanes industrielles...

MARKETING
Le Big Data transforme en profondeur les mtiers du marketing, avec les facilits suivantes :

Vue 360 des clients et analyse des comportements de consommation


Une vue complte de chaque client ncessite la manipulation de larges ensembles de donnes: informations sur le client : stockes dans le SI, disponibles sur les rseaux sociaux publiques comportements dachat : dtail des commandes, frquence, canaux segmentation parcours / historique de la relation depuis la prospection niveau dengagement; parrainage dautres clients enqutes de satisfaction exprience dutilisation, utilisation des services aprs-vente. La collecte et la consolidation de toutes ces donnes reprsente une tche fastidieuse, rarement faite ou uniquement sur un petit panel de clients. Les solutions Big Data peuvent permettre dautomatiser cela et apporter les gains suivants : optimisation de ladquation des produits et services proposs affinage des ciblages et optimisation des communications avec chaque client : canal, message,...

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 22

E-commerce
Les principales solutions danalyse daudience web (pages visites, recherches,...) du march utilisent des solutions Big Data. Des solutions danalyse Big Data complmentaires peuvent apporter un plus : analyse des critres et freins de transformation en fonction dinformations complmentaires aux mesures daudience web corrlation avec les retours, livraisons et donnes financires analyse fine des interactions des utilisateurs avec le site e-commerce : Real User Monitoring. Elles permettent galement de faire le lien avec lanalyse dachat : analyse du tunnel de vente analyse des comportements dachat ou dusage des clients afin doptimiser leur exprience dtection de fraudes les bases NoSQL documentaires sont particulirement adaptes l'entreposage et lanalyse de donnes souples et complexes, telles les caractristiques de produits.

WWW.SMILE.FR

Ressenti sur les services, produits et concepts


Analyse de mots posts sur les rseaux sociaux publics.

Implantation de points de vente


La technologie Big Data offre la possibilit de corrler des donnes de diffrentes natures et de diffrentes sources pour dterminer le meilleur emplacement pour un point de vente : OpenData donnes gographiques donnes socio-conomiques informations disponibles sur le march et la concurrence.

LOGISTIQUE ET CHAINE DAPPROVISIONNEMENT Le Big Data au service de la traabilit


Les solutions Big Data permettent une pleine traabilit des oprations logistiques : mouvements de stock - RFID produits frais ou sensibles

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 23

suivi de flotte ou de colis, y compris lors de transport inter-modal

Ces solutions facilitent les oprations de suivi des voyages dans le temps : geo corridoring, analyse des voyages et taux de rotation

Le Big Data facteur doptimisation de la chane d'approvisionnement


La masse de donnes disponible sur tous les mouvements permet danalyser et de piloter plus finement les processus logistiques et dapprovisionnement. La richesse dinformation permet de combiner les diffrents facteurs de qualit (dlais, dfauts, qualit de service,...) et conomiques (prix dachat, cot de possession et de stockage,...) dans les analyses. Le Big Data permet dintgrer plus facilement les donnes logistiques dans les informations du cycle de vie des objets (commande, logistique, exploitation, recyclage,...) et permet ainsi une vision 360 autour de la fonction dapprovisionnement.

WWW.SMILE.FR

TELECOMS
Les tlcoms gnrent des masses de donnes sur les flux transits. Le Big Data est une solution utile pour : lanalyse de capacit la segmentation des usagers et des comportements dusage des rseaux la corrlation avec les processus de vente et de support la qualit de service de rseaux complexes, la corrlation avec les appels aux call center.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 24

PANORAMA DES SOLUTIONS BIG DATA POUR LA BI


Il est important de noter que les solutions, notamment dintgration et de traitement ne sont pas concurrentes mais souvent complmentaires voire intgres. Par exemple : l'intgration de briques de traitement et requtage Hadoop avec du stockage MongoDB ou Cassandra. plusieurs ETL peuvent sappuyer sur les frameworks de traitement distribu Hadoop. Il est intressant de constater que les principales technologies Big Data sont inities par des acteurs majeurs du Web tels Google, Facebook, Twitter, Yahoo puis passes sous licence libre ce qui leur permet un dveloppement et une diffusion rapide. Nous relevons galement la forte prsence de la fondation Apache dans ce domaine de solutions.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 25

COMPOSANTS DINTEGRATION ET DE
TRAITEMENT DE DONNEES

Synthse
Type Solution Apache Flume Apache Hive Apache Pig Cloudera Impala Site web de la solution http://flume.apache.org http://hive.apache.org https://pig.apache.org http://www.cloudera.com/c ontent/cloudera/en/product s-andservices/cdh/impala.html http://fr.talend.com/product s/big-data http://www.pentaho.fr/expl ore/pentaho-dataintegration http://www.mulesoft.org https://hadoop.apache.org http://storm-project.net

WWW.SMILE.FR

Framework de traitement Framework de requtage Framework de requtage et traitement Framework de requtage

ETL ETL

Talend for Big Data Pentaho Data Integration

ESB Framework de traitement Framework de traitement

Mule ESB Hadoop YARN & MapReduce Storm

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 26

Hadoop
Editeur : Fondation Apache Licence : Apache License V2 et commerciales (suivant la distribution et la version) Version actuelle : 2 (+ suivant les composants) Prsentation Hadoop est un ensemble de projets et doutils Open source de la fondation Apache permettant de stocker et traiter massivement des donnes. Hadoop a t dvelopp lorigine par Facebook et Yahoo. Il existe plusieurs distributions dHadoop, parmi lesquelles on distinguera les principales lheure actuelle : HortonWorks, Cloudera et MapR. Framework de traitements parallliss Map-Reduce Hadoop Map-Reduce est un puissant framework Java de traitement de donnes massives. A noter que dans le cas de lutilisation conjointe avec HDFS et HBase et suivant la configuration du cluster Hadoop, il est possible quune partie des traitements soient effectus au niveau des noeuds de stockage, afin de limiter les changes de donnes massives entre noeuds du cluster. HDFS : Hadoop Distributed File System HDFS est un systme de fichiers distribu sur des noeuds dun cluster Hadoop. HDFS est adapt au stockage et la rplication de fichiers de grande taille (>256MB). Hbase HBase est une base de donnes NoSQL rpartie en colonnes, inspire de Google BigTable. La mise en oeuvre de HBase repose gnralement sur un systme de fichiers rpartis HDFS. Hive Hadoop Hive permet dexploiter des traitements MapReduce de manire analogue une base de donnes. En effet, des connecteurs JDBC et ODBC pour Hive sont disponibles. Oozie Oozie est un moteur de workflow et de coordination de tches Hadoop (Mapr-Reduce, Pig). Mahout Mahout est une librairie Java qui permet dimplmenter diffrents algorithmes de data mining sur un cluster Hadoop.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 27

Ces algorithmes sont dvelopps partir de MapReduce. Cependant, ils ne se limitent pas uniquement Hadoop et certains fonctionnent sur dautres environnements, dont non distribus. Hue Hue est un portail web dexploitation de clusters Hadoop : requtes Hive (Beeswax) :

WWW.SMILE.FR

diter, grer et excuter des traitements (jobs MapReduce et scripts Pig)

Usages et possibilits Big Data Lensemble Hadoop fournit plusieurs briques puissantes pour le dcisionnel Big Data : lentreposage de donnes oprationnelles (ODS HDFS ou Hbase) ou en entrept de donnes (Hbase et Hive). lintgration et le traitement paralllis de donnes (YARN/Map-Reduce, Pig) le requtage et lanalyse de masses de donnes (Hive+YARN/Map-Reduce, Pig) le datamining (Mahout) Notons que les principaux portails dcisionnels Open Source intgrent directement un connecteur Hive pour une exploitation des donnes traites dans un cluster Hadoop.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 28

ETL Talend for Big Data


Editeur : Talend Licences : Apache V2 et commerciale (suivant la version) Version actuelle : 5.4.1

Prsentation

WWW.SMILE.FR

diteur et solutions Talend est un diteur bas en France (Talend SA) et en Californie (Talend Inc.). La socit Talend, fonde en 2005, est soutenue dans son dveloppement par des investisseurs tels Idinvest Partners (AGF Private Equity), Silver Lake Sumeru, Balderton Capital, Bpifrance et Iris Capital. Talend a russi une leve de fonds de 40 millions de dollars fin 2013. Talend offre un large ventail de solutions middleware rpondant aux besoins de gestion de donnes et dintgration dapplications, au travers une plateforme unifie et flexible : lintgration de donnes (ETL) la qualit de donnes (DQ) les architectures orientes services (ESB) la gestion de rfrentiels de donnes (MDM) la gestion de processus dinformation (BPM). Talend obtient une reconnaissance forte de la part des observateurs tel le Gartner (magic quadrants). Les solutions sont disponibles en version communautaire (Talend Open Studio for Data Integration / Big Data) et en version commerciale avec des fonctionnalits supplmentaires et un support diteur. Les fonctionnalits ETL classiques de Talend sont prsentes plus en dtail dans le livre blanc BI (http://www.smile.fr/Livres-blancs/Erp-et-decisionnel/Le-decisionnel-open-source). Talend et le Big Data Talend propose depuis dbut 2012 une gamme de solutions Big Data, allant de la version Open Studio la plateforme dintgration massive de donnes (Talend Platform for Big Data). Talend a tabli des partenariats avec des acteurs majeurs du Big Data, notamment : Cloudera, EMC Greenplum, Google, HortonWorks, MapR. Plus dinformations : http://fr.talend.com/solutions/etl-analytics

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 29

http://www.talend.com/solutions/big-data http://fr.talend.com/products/platform-for-big-data

Fonctionnalits ETL Talend Open Studio for Big Data Talend est un ETL de type gnrateur de code , cest--dire quil offre la capacit de crer graphiquement des processus (rpartis) de manipulation et de transformation de donnes puis de gnrer lexcutable correspondant sous forme de programme Java (et scripts Pig). Ce programme peut ensuite tre dploy sur un ou plusieurs serveur(s) dexcution. La modlisation des traitements se fait dans le Studio Talend, qui permet d'utiliser des connexions prdfinies et les tches de transformations pour collecter, transformer et charger les donnes par simple glisser-dposer dans l'espace de modlisation. Palette de connecteurs Big Data L'ETL Talend fournit nativement une large palette de connecteurs permettant de sinterfacer la plupart des systmes existants (bases de donnes, fichiers locaux ou distants, web services, annuaires,...). Si lETL classique Talend peut se connecter aux principales bases NoSQL via des connecteurs communautaires ou APIs, la version Talend Open Studio for Big Data fournit nativement toute la flexibilit et les connecteurs dintgration de masses de donnes, dont : les bases NoSQL : MongoDB, Apache Hadoop/Hive, Cassandra, Google BigQuery, Neo4j HDFS, HCatalog le chargement massif de bases NoSQL MongoDB et Cassandra ainsi quApache Sqoop. Composants de transformation Les composants de transformation permettent entre autres : les multiplexages et jointures les filtrages (lignes, colonnes), le ddoublonage lexcution doprations sur des vnements en base ou sur des fichiers les manipulations de fichiers locaux ou distants

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 30

La liste des composants Talend est disponible l'adresse suivante : http://www.talendforge.org/components/index.php La palette peut mme tre tendue grce aux composants disponibles sur Talend Exchange ou du code Java spcifique. Gestion des diffrents environnements dexcution des traitements LETL Talend gre des contextes dexcution permettant dexternaliser lensemble des paramtres d'accs et variables dexcution utiliss dans les composants / jobs. Les utilisateurs peuvent ainsi configurer les paramtres la vole lors de lexcution ou utiliser des paramtres diffrents pour chaque contexte dexcution : le dveloppement, la recette et la production. Intgration Hadoop Gnration de traitements rpartis Pig : Talend for BigData propose de gnrer des traitements (rpartis) Hadoop Pig avec des composants graphiques prdfinis. Il est galement possible dutiliser le mode ELT (Extract, Load and Transform) avec Hive pour rpartir des traitements sur un cluster Hadoop. De plus, le framework de traitement Hadoop YARN est intgr. Coordination et intgration aux plateformes Hadoop : Talend utilise Oozie pour la coordination des jobs sur un cluster Hadoop. Lintgration est facilite avec les outils des distributions HortonWorks, Cloudera et MapR :

WWW.SMILE.FR

Paramtrage de la connexion Hadoop Oozie

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 31

Talend Enterprise for Big Data De manire analogue Talend Enterprise for Data Integration pour lETL, cette version commerciale apporte notamment : La gestion et le partage de mtadonnes connexion aux bases des donnes (relationnelles ou NoSQL) connexion aux clusters Hadoop mtadonnes de tables, fichiers,.... analyse dimpacts.

WWW.SMILE.FR

La console Talend Administration Center gestion des rfrentiels des projets dintgration, utilisateurs et droits associs ordonnancement des traitements (Job Conductor) console de monitoring AMC (Activity Monitoring Console) web gestion des reprises de traitements sur erreur dexcution gestion des environnements dexcution des traitements.

Job Conductor Talend

Activity Monitoring Console Talend

Autres fonctionnalits de productivits et dexploitabilit Cette version apporte galement : le versionning des traitements la capacit de dfinir des points de reprise des traitements en cas derreur dexcution un moteur de rgles (Drools) joblets : morceaux de jobs rutilisables pour la factorisation des dveloppements design de jobs partir de templates visualisateur de donnes en sortie des composants change data capture

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 32

Jobs MapReduce Cette version offre la possibilit de dvelopper visuellement des traitements MapReduce, dont lexcution peut se faire sur un cluster Hadoop. Lexcution de jobs MapReduce depuis le studio offre un suivi davancement visuel de chaque tape map et reduce. Talend Platform for Big Data Cette version apporte notamment des fonctionnalits complmentaires et intgres de qualit de donnes et de gestion de mapping complexes (XML, EDI) :

WWW.SMILE.FR

Profilage des donnes Les analyses modlises depuis le studio unifi, se font sur des sources, dont la dfinition peut tre partage avec les mtadonnes dfinies au niveau de lintgration. Loutil produit des mtriques sur le taux dunicit, de remplissage, la conformit un format, la diversit des formats ... Des rapports, tableaux de bords et donnes requtables peuvent tre produits et publis sur un portail dcisionnel intgr (bas sur SpagoBI, prsent plus loin dans le document) partir des analyses de donnes afin de piloter le processus damlioration de la qualit des donnes :

Composants de correction et enrichissement des donnes Le studio de modlisation est enrichi de composants de traitement et correction supplmentaires de qualit des donnes : correction/enrichissement d'adresses postales via des services tiers QAS, Google rapprochements complexes en utilisant des technologies de logique floue cration de tches de correction manuelle des donnes.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 33

Workflow web de correction des donnes La solution intgre la console web Data Stewardship avec la dfinition de workflows de correction et validation de donnes :

WWW.SMILE.FR

Liste des tches de correction/validation de donnes

Dtail dune tche de rsolution de donnes

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 34

ETL Pentaho Data Integration


Editeur : Pentaho Licence : Apache V2 et commerciale (suivant la version) Version actuelle : 5 Prsentation

WWW.SMILE.FR

Editeur et solutions Pentaho est un diteur bas en Floride et en Californie, avec des bureaux en France. Lditeur est un acteur impliqu de lOpen Source, qui a ralli ds le dbut des produits Open Source comme Kettle ou Mondrian et qui anime sa communaut. Au del de la solution dintgration de donnes, Pentaho fournit aussi une solution complte danalyse et dexploitation dcisionnelle des donnes : Pentaho Business Analytics, prsents plus loin dans le document. Pentaho et le Big Data Pentaho a tabli des partenariats avec des acteurs majeurs du Big Data, notamment : MongoDB, HortonWorks, Cloudera, MapR et DataStax. Lditeur publie galement un portail web ddi aux problmatiques Big Data : http://www.pentahobigdata.com Fonctionnalits Pentaho Data Integration (PDI) est un ETL qui permet de concevoir et excuter des oprations de manipulation et de transformation de donnes. Grce un modle graphique base dtapes, il est possible de crer dans le studio de modlisation (Spoon), sans programmation, des processus composs dimports et dexports de donnes, et de diffrentes oprations de transformation (conversions, jointures, application de filtres, ou mme excution de fonctions Javascript si besoin). Les fonctionnalits ETL classiques de Pentaho Data Integration sont prsentes plus en dtail dans le livre blanc BI. PDI Community Edition LETL Pentaho Data Integration propose des connecteurs aux principales Bases NoSQL/Big Data telles Hadoop (HDFS, HBase, Hive et MapReduce), Cassandra, CouchDb, MongoDB,

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 35

ElasticSearch ainsi quaux bases de donnes Amazon S3 et aux rseaux sociaux Twitter et Facebook. Pour les traitements en masse, la connectivit avec Hadoop Map-Reduce et le moteur MongoDB Map-reduce sont intressants, tout comme les capacits de rpartition de charge des traitements ETL dans une configuration cluster de PDI. En sus des composants et techniques ddies aux technologies Big Data, il y a d'autres options de PDI qui permettent une meilleure gestion de grosses volumtries de donnes : lecture en parallle de fichiers plats de grande taille tels que des fichiers de logs excution concurrente de plusieurs copies d'une mme tape d'une transformation avec distribution alatoire en entre des donnes en consquence partitionnement, mme option que la prcdente avec une distribution plus intelligente des donnes l'aide d'algorithmes proposs ou possibilit de dvelopper des algorithmes de rpartition spcifiques pour un environnement distribu, possibilit depuis la version 5.0 de faire du load balancing pour la distribution des donnes entre deux tapes d'une transformation. PDI Enterprise Edition La version Enterprise apporte plusieurs outils pour plus de productivit dans la manipulation de donnes massives. Les possibilits de visualisation et danalyse intgres Instaview sont utiles aux Data Scientists 1 pour dvelopper rapidement des applications analytiques Big Data, en limitant les allers-retours entre outils :

WWW.SMILE.FR
1

http://blog.smile.fr/Pentaho-4-8-l-analyse-instantanee-et-interactive-des-donnees-mobiles-et-big-data

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 36

WWW.SMILE.FR

Perspective Instaview de Pentaho Data Integration Enterprise Edition En effet, dans le cadre de la mthodologie AgileBI, cette perspective intgre au studio de modlisation des traitements ETL permet danalyser avec loutil Analyzer Pentaho des donnes, Big Data ou non, issues des transformations et mises en cache dans une base MongoDB. Fdration de donnes La version Enterprise propose galement des possibilits de fdration de donnes au travers dun connecteur JDBC. Ce dernier permet de projeter une transformation PDI comme source de donnes JDBC : cela ouvre des perspectives intressantes de connectivit et de restitutions en quasi temps rel sur des processus mtiers distribus au niveau applicatif. Cela permet galement de faire une interface entre des technologies Big Data, NoSQL et certains outils de restitutions plutt orients SQL (workbench/Mondrian). Et ainsi, permet d'viter dans certains cas une structure de stockage hybride (NoSQL / SQL). Pentaho MapReduce Pentaho MapReduce permet le dveloppement de traitements MapReduce (mettant en oeuvre 1 transformation pour ltape map et 1 transformation pour ltape reduce) depuis le studio de modlisation des traitements ETL.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 37

Ils sont ensuite excutables sur un cluster Hadoop. Pentaho Predictive Analytics En plus des mthodes d'analyse classiques (analyse d'vnements passs et/ou prsents), un des enjeux du Big Data notamment dans le domaine scientifique est de faire parler ces gros volumes de donnes pour de la prvision. Weka est un projet data mining open source dont Pentaho est un acteur majeur, dans ce contexte de nombreux plugins sont disponibles par dfaut ou non pour l'utilisation de certaines briques de Weka (Scoring, Knowledge Flow, ...) via Pentaho Data Integration. Pour plus de prcision sur les possibilits en termes de Data Mining via Pentaho, rendez-vous sur : http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+Document ation.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 38

STOCKAGE DE MASSES DE DONNEES


Synthse
Type Solution Apache Cassandra base de donnes rpartie en Peer to Peer NoSQL Colonne Apache HBase Base de donnes du framework Hadoop Voir Hadoop pour sa description NoSQL Document NoSQL Document NoSQL Graph MongoDB ElasticSearch Neo4j http://www.mongodb.org http://www.elasticsearch.org http://www.neo4j.org http://hbase.apache.org Site web de la solution http://cassandra.apache.org

WWW.SMILE.FR

NoSQL Colonne

Fdration de donnes NoSQL dans des bases relationnelles


Plusieurs moteurs de bases de donnes relationnels permettent de fdrer des lacs de donnes massives NoSQL externes au sein de bases de donnes classiques. Le modle est ici dutiliser un moteur de stockage NoSQL (rparti et qui reste accessible de manire autonome) au sein dune base de donnes relationnelle pour son exploitation. Citons par exemple le mcanisme de Foreign Data Wrapper de PostGreSQL ou le connecteur Cassandra de MariaDB. Ces mcanismes offrent lavantage dintgrer facilement des donnes de bases NoSQL au sein dun ODS ou un entrept de donnes de type base de donnes relationnelle et ainsi dy accder avec un langage SQL classique. Par exemple, cela peut tre une source de fait MongoDB trs forte volumtrie et vlocit intgre de manire transparente un ODS PostGreSQL.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 39

Par contre, il faut bien garder lesprit les limites de ce modle : limites de performances techniques du moteur de la base de donnes fdratrice par rapport un systme de traitement rparti (agrgation de masses de donnes notamment) perte de performance due lintgration dun systme tiers mapping rigide des champs entre la base NoSQL et les tables virtuelles de la base de donnes fdratrice.

WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 40

MongoDB
Type NoSQL : document Editeur : MongoDB Licences : GNU AGPL v3.0 et commerciale (suivant la version) Version actuelle : 2.4 Prsentation MongoDB est une base de donnes NoSQL de type document, la dfinition des donnes est trs souple et chaque enregistrement a sa propre structure, dont les objets sont stocks au format JSON binaire (BSON). Persistance MongoDB permet de grer la rplication et la rpartition de donnes sur un ensemble de serveurs (cluster). Connectivit, requtage et traitement Lavantage du format JSON est son utilisation native dans de nombreux langages de programmation, notamment le Javascript; la console MongoDB est dailleurs un interprteur Javascript. MongoDB fournit galement des fonctions JavaScript de traitement rparti MongoDB Mapreduce. Usages Big Data BI MongoDB peut servir dOperating Data Store. Avec ses connecteurs disponibles au sein de la plupart des solutions BI OpenSource, MongoDB peut aussi servir dentrept de donnes de masse des fins de requtage et de reporting. Lanalyse multidimensionnelle (OLAP) avec MongoDB ncessite actuellement lemploi combin dun composant supplmentaire, tel : Hadoop Hive+Map-Reduce une fdration de donnes JDBC : lETL Pentaho Data Integration avec son connecteur JDBC et du moteur MapReduce de MongoDB Foreign Data Wrapper de PostGreSQL. Conclusion A lheure o nous crivons ces lignes, MongoDB est la base NoSQL la plus populaire daprs le site db-engines.com, bnficiant dune relative facilit de mise en oeuvre ainsi que dun scope fonctionnel utile l'entreposage oprationnel de masse de donnes.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 41

ElasticSearch
Type NoSQL : document Editeur : ElasticSearch Licence : Apache V2 Version actuelle : 0.90 Prsentation Sous le systme de recherche dElasticSearch, propuls par Apache Lucene, se cache un moteur de base de donnes NoSQL documentaire. Persistance ElasticSearch permet la mise en cluster pour la rplication et la rpartition de donnes A noter que les indexes (de recherche/requtage) gnrs sont de type colonne. Connectivit, requtage et traitement Laccs et la manipulation de donnes se fait simplement via lAPI REST et le format JSON. Le moteur de requtage propose des capacits d'agrgation et danalyse, utile pour du requtage dcisionnel. Usages Big Data BI ElasticSearch peut servir dOperating Data Store et la mise en oeuvre de datamarts combins avec des outils de restitution compatibles. Conclusion Cette solution est intressante et prometteuse sur le plan technologique. Notons toutefois quelle est relativement jeune et encore peu intgre aux portails dcisionnels classiques, malgr une API trs accessible.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 42

ANALYSER ET RESTITUER DES MASSES DE


DONNEES

Synthse
Type Solution Pentaho Business Analytics JasperSoft BI Suite Spago BI ElasticSearch Kibana Vanilla Platform Site web de la solution http://www.pentaho.fr http://www.jaspersoft.com/fr http://www.spagobi.org http://www.elasticsearch.org/ overview/kibana http://bpm-conseil.com

WWW.SMILE.FR

Portail dcisionnel complet Portail dcisionnel complet Portail dcisionnel complet Portail de tableaux de bord web Portail dcisionnel complet

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 43

Pentaho Business Analytics


Editeur : Pentaho Licences : GNU GPL V2 et commerciale (suivant la version) Version actuelle : 5 Prsentation Pentaho Business Analytics est un portail dcisionnel qui permet la distribution doutils danalyse et requtage en langage naturel ainsi que des documents dcisionnels un grand nombre de personnes par l'intermdiaire d'une interface web :

WWW.SMILE.FR

Page daccueil de Pentaho Business Analytics Pentaho est propos en version communautaire et en version entreprise soumise souscription annuelle, avec des modules supplmentaires (Pentaho Analyzer) ainsi quun support produit. La communaut enrichit le portail en version communautaire sous forme de modules disponibles depuis le Pentaho MarketPlace, parmi lesquels linterface danalyse Saiku et les CTools qui ont le vent en poupe. Fonctionnalits Pentaho fournit un portail dcisionnel complet, permettant aux utilisateurs finaux : lanalyse multidimensionnelle : Pentaho Analyzer, Saiku Analytics le requtage ad-hoc : Interactive Report, Saiku Reporting, WAQR lexploitation de tableaux de bords dynamiques (CTools). Les capacits de rpartition de charge (load balancing) entre plusieurs instances Pentaho Business Analytics sont intressantes dans le cadre danalyses en masses.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 44

Connectivit NoSQL et exploitation de donnes massives Pentaho fournit nativement des connecteurs Big Data au niveau des connections du portail pour les sources NoSQL offrant une connectivit JDBC : Hive Impala connecteur JDBC gnrique. A noter quil est galement possible daccder dautres sources de donnes NoSQL au sein du portail en passant par de la fdration de donnes, en utilisant lETL PDI ou un mcanisme de stockage externe dune base relationnelle. Loutil Pentaho Report Designer permet de plus dlaborer et de publier des rapports partir dune source MongoDB.

WWW.SMILE.FR

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 45

JasperSoft BI Suite
Editeur : JasperSoft Licences : GPL et commerciale (suivant la version) Version actuelle : 5.5 Prsentation JasperSoft BI Suite est la plateforme dcisionnelle de JasperSoft, socit qui dveloppe galement le gnrateur dtats JasperReports, disponible depuis 2001. La plateforme propose des fonctionnalits de reporting et danalyse et est disponible sous deux licences : GPL et commerciale. Fonctionnalits JasperServer, en versions Professionnelle et Entreprise, offre des fonctionnalits supplmentaires par rapport la version open source, limite la publication et la diffusion de rapports : outil de cration de rapports ad-hoc en ligne (listes, graphiques ou tableaux croiss), accessible tout utilisateur outil de composition de tableaux de bord.

WWW.SMILE.FR

Module de requtage ad-hoc de JasperServer

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 46

Connectivit NoSQL et exploitation de donnes massives JasperSoft BI fournit nativement, en versions commerciales Profesionnal et Entreprise, un outil de requtage et danalyse ad-hoc qui permet une exploitation directe de sources de donnes NoSQL : MongoDB Hadoop via Hive Un systme de cache de donnes est prsent, pour optimiser le temps de rponse des requtes.

WWW.SMILE.FR

JasperSoft Studio fournit galement une large palette de connecteurs au del du JDBC classique pour le reporting et les tableaux de bord : MongoDB Hadoop via Hive Cassandra JSON. Il existe aussi des connecteurs communautaires pour dautres bases NoSQL, comme Google BigQuery ou Neo4j.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 47

SpagoBI
Editeur : Engineering Group / OW2 Consortium Licence : Mozilla Public License V2 Version actuelle : 4.1 Prsentation SpagoBI est une suite dcisionnelle uniquement distribue sous licence Open Source, dveloppe par la socit italienne Engineering Ingegneria Informatica au sein du consortium OW2. Fonctionnalits Afin de couvrir les diffrents besoins fonctionnels propres la valorisation et lanalyse de donnes, SpagoBI propose une vingtaine de modules (ou moteurs ) complmentaires, offrant des fonctionnalits de reporting/dashboarding, requtage et analyse OLAP ad-hoc, geoBI, KPI et datamining :

WWW.SMILE.FR

Exemples de restitutions SpagoBI Ces modules sappuient sur un ensemble de projets Open Source phares, offrant ainsi une richesse de modules fonctionnels unique : lETL Talend, le moteur MOLAP Palo, les moteurs de reporting BIRT et Jasper, R et weka datamining.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 48

WWW.SMILE.FR

Modules de SpagoBI

Connectivit NoSQL et exploitation de donnes massives Afin de rpondre la problmatique du Big Data, SpagoBI dvelopp de nouveaux connecteurs permettant le requtage de bases de donnes NoSQL via des datasets : HBase: dveloppement de requte HBQL, langage de requte Hbase, intgr nativement dans SpagoBI Hive: dveloppement de requte HQL, langage de requte Hive, intgr nativement dans SpagoBI Impala: connecteur Cloudera Impala JDBC, rcemment rendu disponible par Cloudera Cassandra: dveloppement de requtes CQL, langage de requte Cassandra

Slection du langage dun connecteur

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 49

Dans la version 4 de SpagoBI, la dfinition de dataset a volu afin de permettre des temps de rponses plus courts sur les larges volumes de donnes : possibilit de planifier lalimentation des datasets pour une restitution diffre possibilit de dfinir des datasets persistants o les donnes sont stockes en cache.

WWW.SMILE.FR

Dfinition dun dataset persistant SpagoBI travaille actuellement introduire les problmatiques daccs en temps rel ainsi qu la mise en place dune couche smantique sur les donnes Big Data.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 50

ElasticSearch Kibana
Editeur : ElasticSearch Licence : Apache V2 Version actuelle : 3m4 Prsentation Kibana est le module de dashboard dElasticSearch. Il permet dassocier la puissance du moteur de recherche dElasticSearch (des recherches complexes peuvent tre faites pour filtrer les donnes pertinentes lanalyse) aux modules de reporting classiques. Cette solution est jeune : la premire publication sur github date de dbut 2013. Toutefois, lditeur ElasticSearch propose un service de support en production pour ce composant. Linterface est entirement crite en javascript, avec les frameworks angular.js, bootstrap et jquery notamment. Un simple serveur web suffit donc dployer la solution.

WWW.SMILE.FR

Tableau de bord Kibana Fonctionnalits Lusage unique de Kibana est la publication de tableaux de bords visuels, souples, hautement paramtrables par lutilisateur final, grce aux fonctionnalits de recherche et de filtrage offertes par ElasticSearch. Loutil propose un rafrachissement automatique, adapt des problmatiques de monitoring de processus en temps quasi rel. Le design des tableaux de bord se fait via linsertion de panels (graphiques, listes, tendances, cartographies,...) dans une structure de type tableau. Un tableau de bord peut ainsi tre bti en quelques minutes. Les panels communiquent entre eux : recherche, zoom,... Notons toutefois que cette solution, jeune, ne permet pas encore de mise en forme complexe et les composants de restitution intgrables sont en nombre limit.

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 51

Les tableaux de bord peuvent tre enregistrs dans une base ElasticSearch afin dtre rexcuts et partags. Laccs Kibana peut tre protg (authentification au niveau du virtualhost dApache). Par contre cette solution ne permet pas encore de grer compltement une bibliothque de tableaux de bords (arborescence de tableaux de bords, droits daccs aux tableaux de bord).

WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

Big Data

Analyse et valorisation de masses de donnes


Page 52

REMERCIEMENTS
Un grand remerciement toutes les personnes ayant travaill sur le livre blanc : Florent BERANGER, Elise BENZAGLOU, Laury GIRONDIN, Aurlien FOUCRET, Adrien FUTSCHIK, Pierre-Antoine MARC.

WWW.SMILE.FR

Nhsitez pas nous transmettre vos avis et valuations sur ce livre blanc. Une seule adresse : contact@smile.fr

Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation