Vous êtes sur la page 1sur 16

Le zoo du Big Data Comment apprivoiser les animaux

La ncessit d'une plateforme intgre pour les informations de l'entreprise


Octobre 2012 Un livre blanc de Dr Barry Devlin, 9sight Consulting barry@9sight.com

Le Big data est probablement l'volution la plus importante dans l'utilisation des informations par les commerciaux et les informaticiens, cette dernire dcennie. Elle rvolutionne la manire dont les entreprises dcident, fonctionnent, russissent ou chouent. En exploitant les informations intelligemment, elle permet d'anticiper le changement et d'en tirer parti. Pour ce faire, l'quipe informatique doit regarder au-del des technologies traditionnelles et faire appel de nouveaux outils pour traiter des volumes plus importants de donnes htrognes, et ce, plus rapidement que jamais. L'analyse du zoo du Big Data a omis un point essentiel : que le volume soit petit ou gros, ce sont toujours des donnes. Il convient les grer et les intgrer dans toute l'entreprise pour les valoriser pleinement et garantir leur utilisation cohrente. Apprivoiser le Big Data est une condition essentielle pour obtenir cette valeur. Ce livre blanc propose trois solutions :

Sommaire
3 La parabole des aveugles et de l'lphant Le contexte du Big Data Big Data et petits volumes vus du ciel 7 Une plateforme intgre pour tous les types d'information 9 Mise en uvre d'une plateforme d'informations intgre 11 Conclusion

1. La base pour extraire la valeur mtier maximale des volumes massifs


de donnes leur source est une plateforme technologiquement diversifie et troitement intgre pour toutes les informations (Big Data et transactions traditionnelles).

2. Une approche d'entreprise runissant plateforme, produits et


processus est indispensable pour prserver la qualit et l'utilisation long terme du Big Data, conjointement avec les donnes provenant de systmes de Business Intelligence et autres.

3. Le dploiement rapide des projets de Big Data est ncessaire pour tirer
parti au plus tt des nouvelles opportunits commerciales. Pour ce faire, il contient d'intgrer progressivement des fonctionnalits de Big Data dans l'infrastructure de gestion des donnes au sein de l'entrept de donnes.

Apprivoiser les animaux du Big Data est la prochaine tape dans la gestion des donnes.

Parrain par : International Business Machines www.ibm.com

Copyright 2012, 9sight Consulting. Tous droits rservs.

i le Big Data tait un mammifre, ce serait un lphant. Peut-tre imaginezvous un petit lphant jaune. Moi pas. J'imagine un grand lphant gris, membre d'un troupeau. Je parle de quelque de plus grand que Hadoop. Je parle de tous les types de donnes que les entreprises collectent dans des quantits de plus en plus importantes. cet gard et malgr sa nouveaut technique, le Big Data ressemble aux autres donnes : il faut le grer et l'utiliser correctement l'chelle de l'entreprise pour en extraire une valeur mtier significative et obtenir l'impact durable annonc.

Si le Big Data tait un reptile, ce serait un camlon. Avant 2005, le Big Data tait une expression utilise par des scientifiques incapables de stocker ou d'analyser toutes les donnes produites par leurs expriences. C'est toujours le cas. Ensuite, le Big Data est devenu un terrain de jeu pour les chercheurs qui, au sein d'entreprises comme Google et Netflix, exploitaient des volumes massifs de donnes Web leur disposition. C'est toujours le cas. En 2008, Hadoop est devenu un projet Open Source prioritaire d'Apache, synonyme de Big Data. C'est toujours le cas. Avant 2010, mme le magazine The Economist a publi un numro spcial1 sur le Big Data et les spcialistes du marketing ont commenc tout renommer. Le Big Data englobe tout ceci et bien plus encore. Mais aujourd'hui, il est temps d'arrter de triturer la forme. Dsormais, le Big Data est au cur d'une technologie de pointe, qui bouleverse la donne en profondeur : l'analyse mtier ou Business Analytics. La vitesse d'excution de cette technologie et les volumes qu'elle prend en charge sont tels que l'ancien paradigme consistant tout copier et tout nettoyer dans un entrept de donnes est compltement obsolte. La majeure partie de cette analyse doit tre effectue sur des volumes massifs de donnes dans leur format natif, aussi proche que possible de leur source. Et nul besoin d'tre un grand penseur pour savoir qu'une approche fdre ou virtualise runissant l'entrept de donnes et le Big Data est indispensable. Le Big Data ouvre de nouvelles opportunits d'analyse et d'anticipation permettant aux entreprises de surclasser significativement leurs concurrents2. En 2011, McKinsey estimait que le Big Data pourrait gnrer 300 milliards de dollars dans le secteur de la sant et 250 milliards de dollars dans le secteur public aux tats-Unis3. Clairement, les opportunits commerciales ne Le Big Data ouvre de manquent pas et les premiers positionns en tirent dj parti. Ceci dit, tout n'est pas grandes opportunits, mais peu aussi simple. Parmi les prvisions de Gartner pour 2012 et au-del4, on pouvait lire : En d'entreprises en 2015, plus de 85 % des entreprises du classement Fortune 500 ne seront pas en mesure tireront parti d'exploiter efficacement le Big Data leur avantage en raison de leur incapacit relever efficacement. les dfis techniques et en matire de gestion. Ces dfis concernent essentiellement l'informatique. Le Big Data n'est pas le seul lment de l'infrastructure. Pour un dploiement et une utilisation efficaces, il doit tre intgr dans les processus mtier existants. Il doit tre et sera associ tous les outils informationnels actuellement en place dans une plateforme d'entreprise complte. Idalement, la mise en place du Big Data doit tre progressive et, la plupart du temps, prcoce pour tre vritablement efficace. Pourtant, trois ides reues perdurent sur le Big Data. Tout d'abord, il peut rsoudre le problme de la faim dans le monde ou, du moins, garantir la russite de chaque entreprise. Ensuite, il semble supplanter toutes les technologies traditionnelles de Business Intelligence et d'entrept de donnes. Enfin, tout le monde semble l'utiliser. Malheureusement, aucune de ces affirmations n'est vraie ! Au final, le Big Data ressemble davantage un virus qui apparat et se propage comme une pandmie. La vrit est la fois plus rvolutionnaire et plus terre terre. Le Big Data peut et va ouvrir des opportunits commerciales gigantesques mais uniquement si nous conservons nos racines : des processus de gestion des donnes efficaces et des technologies d'entreprise bien intgres.
Copyright 2012, 9sight Consulting. Tous droits rservs.

La parabole des aveugles et de l'lphant Le contexte du Big Data


Six hommes dHindoustan / trs enclins parfaire leurs connaissances, Allrent voir un lphant / (bien que tous fussent aveugles), Afin que chacun en l'observant / puisse satisfaire sa curiosit.5

a parabole des aveugles qui touchent diffrentes parties d'un lphant et en tirent des conclusions fausses dcouvrant que toute vrit est relative illustre assez bien la situation actuelle du march par rapport au Big Data. Chaque consultant et chaque fournisseur voient et dcrivent le Big Data en fonction des parties qu'ils touchent sans parler des outils qu'ils possdent ni des marchs qu'ils aspirent conqurir. L'impression globale est celle d'une confusion que nous allons dissiper tout de suite.

Le Big Data se Chaque anne, la quantit d'informations stocke et traite augmente de plus de 50 %, 6 dveloppe selon IDC . Cette caractristique appele juste titre volume est l'origine de l'expression rapidement, mais le Big Data . La plupart des dfinitions du Big Data y ajoutent deux autres mots : la vitesse dfinir prcisment (le rythme de plus en plus rapide d'arrive et de traitement des donnes) et la varit (la n'est pas chose diversit croissante des structures de donnes prendre en charge). IBM a rcemment facile. introduit un quatrime aspect : la vracit, c'est--dire la ncessit de considrer comme fiables les donnes utilises pour prendre des dcisions stratgiques et oprationnelles. Certains analystes tiennent ajouter la variabilit ; d'autres, la valeur, la viralit, la validit et la viscosit. Ces dfinitions ne sont ni satisfaisantes, ni cohrentes. En fait, le terme vague est probablement celui qui convient le mieux. Aucun de ces termes ne se prte une mesure prcise. Donc, comment de simples mortels peuvent-ils rpondre cette simple question : le Big Data est-il pour moi ?
L'approche la plus simple, suivie de manire pragmatique par les tout premiers sur le march, consiste examiner les utilisations commerciales du Big Data et voir comment les mettre en uvre. Bien sr, cette approche ne peut pas tre complte, car de nouvelles utilisations sont susceptibles d'tre dcouvertes. Mais, le Big Data peut avoir son importance si votre entreprise travaille dans un ou plusieurs des secteurs suivants :

1. Le marketing utilise le contenu des mdias sociaux, les informations sur les relations
Le volume, la vitesse et les donnes collectes en interne sur les interactions avec les clients (comme les et la varit ont journaux des centres d'appels), pour mieux connatre les motivations des clients. beaucoup moins Dans des secteurs tels que la vente au dtail, les biens de consommation et les d'importance que ce tlcommunications, o l'interaction avec un grand nombre de clients peut tre que vous faites avec directe ou indirecte, le Big Data permet une transition entre l'chantillonnage et le Big Data. l'analyse d'un jeu complet de donnes, entre des segments dmographiques et des marchs trs cibls, et entre un suivi long terme de donnes historiques et une raction en temps rel des nouveaux vnements. Le but ultime tant la prvision du comportement des clients et la suggestion d'actions, comme une deuxime meilleure offre.

2. L'identification des fraudes et d'autres irrgularits dans les donnes des transactions financires
porte sur des volumes croissants de transactions de petite valeur, sur des intervalles de temps de

Copyright 2012, 9sight Consulting. Tous droits rservs.

plus en plus courts. Les techniques d'analyse de Big Data sur les flux de donnes avant ou sans stockage sur disque sont devenues la norme.

3. La prvision en temps rel devient possible car les services de distribution eau, lectricit,
tlcommunications peuvent dsormais suivre la consommation des clients individuellement, grce une technologie de capteurs omniprsents et des processus de Big Data capables de traiter ces donnes. La valeur rside dans la capacit prdire les pics et les creux de consommation, et dans une certaine mesure, les lisser en influenant le comportement des clients.

4. Le suivi d'articles physiques (aliments, appareils lectromnagers, colis ou conteneurs) par les
fabricants, les producteurs et les distributeurs, depuis la distribution jusqu' la mise au rebut, permet d'optimiser les processus mtier et d'amliorer le taux de satisfaction des clients. Les personnes, en tant qu'entits physiques, peuvent aussi faire l'objet d'un suivi pour des motifs lis au commerce ou la surveillance.

5. Le renouvellement des processus mtier par une utilisation innovante des donnes gnres par
les capteurs permet de modifier des secteurs d'activit entiers. Par exemple, une compagnie d'assurance peut fixer le montant des primes en fonction du comportement rel des automobilistes et non d'un risque moyen calcul de manire statistique. Au-del des questions thiques, les donnes gnomiques individuelles et les dossiers mdicaux lectroniques constituent des opportunits intressantes pour les compagnies d'assurance sant. Il convient galement de faire barrage certaines ides fausses propages par des soi-disant experts qui se focalisent trop sur chaque partie de l'lphant. Le Big Data est bien plus que des flux de mdias sociaux comme Twitter et Facebook. Ce type de donnes est important mais essentiellement pour des clients rels et des transactions conomiques que nous enregistrons habituellement dans des systmes oprationnels et que nous analysons avec des outils de BI (Business Intelligence). De mme, une vision axe uniquement sur les donnes de capteurs, provenant de l' Internet des objets , omet que l'utilisation ou l'analyse de ces donnes doit, d'une faon ou d'une autre, s'intgrer dans les processus mtier actuels ou repenss. De mme, une quipe de scientifiques des donnes, travaillant de manire autonome, ne peut pas esprer changer les processus mtier en exploitant une seule source de donnes sur une nouvelle plateforme technique. L'intgration des donnes de plusieurs sources traditionnelles ou nouvelles, l'aide de multiples outils, est la premire condition. La deuxime est un processus bien intgr, prenant en compte toutes les donnes pour pouvoir les valoriser pleinement. Autre ide reue : la technologie du Big Data peut ou doit supplanter les bases de donnes relationnelles ou les entrepts de donnes d'entreprise (EDW). Cette conception est excessivement simpliste. En fait, la technologie du Big Data est une extension et une intgration des techniques et outils existants, depuis le traitement squentiel jusqu'aux systmes de gestion de base de donnes. L'cosystme Hadoop, par exemple, traite en parallle des fichiers volumineux l'un aprs l'autre. Les bases de donnes relationnelles et leurs outils se focalisent, entre autres, sur la gestion systmatique des informations et la cohrence des donnes. l'inverse, la technologie du Big Data met l'accent sur d'autres caractristiques trs prises, comme la rapidit d'accs, la variabilit des schmas et, bien entendu, des volumes massifs de donnes. La vrit aujourd'hui, c'est que de nombreux processus mtier trs performants ont besoin d'allier ces deux caractristiques. Certaines tches ncessitent de la souplesse, des frontires mouvantes et des approches innovantes. D'autres requirent de la certitude, un champ d'application dlimit et un respect des rgles. Les processus
Copyright 2012, 9sight Consulting. Tous droits rservs.

Les processus mtier volutifs requirent des approches et des outils traditionnels, ainsi que des 5 approches et des outils de Big Data.

mtier franchissent un seuil de complexit qui dpasse les capacits de traitement des systmes traditionnels, mais qu'un systme de Big Data caractris par le volume, la varit et la vitesse est incapable de prendre en charge. Nous avons besoin d'une plateforme et d'outils professionnels qui combinent les deux. Pour dfinir une telle plateforme, il faut admettre que nous assistons une transition rapide entre un monde domin par un type de donnes et un autre monde o trois types d'information ont une importance quivalente.

Copyright 2012, 9sight Consulting. Tous droits rservs.

Big Data et petits volumes vus du ciel


L'ther entier est le domaine de l'aigle : La terre entire est la patrie d'un brave. 7

n adoptant le point de vue d'un aigle planant au-dessus de toutes les divisions et de tous les silos des organisations et systmes existants, l'quipe informatique peut voir comment les informations et les processus interagissent. Fondamentalement, nous avons besoin d'une nouvelle reprsentation mentale des informations et de leurs trois composantes troitement imbriques :

1. Informations d'origine humaine* : toutes les informations sont cres par des individus. Elles
constituent une vision minemment subjective de nos expriences personnelles. Auparavant conserves dans des livres et des uvres d'art, puis dans des photographies, des enregistrements sonores et des vidos, les informations d'origine humaine sont aujourd'hui en grande partie numrises et stockes lectroniquement sous des formes aussi diffrentes que les tweets et les films. Elles ont une structure variable, ne sont pas contrles et peuvent mme fausser la perception de la ralit, notamment pour les entreprises. La structuration et la standardisation notamment par la modlisation sont ncessaires pour dfinir une version commune de la vrit. Nous convertissons les informations d'origine humaine en donnes traites par des processus, de plusieurs manires dont la plus simple est la saisie dans des systmes d'enregistrement.

2. Donnes traites par processus : chaque entreprise ou organisation met en uvre des processus
qui, entre autres, mmorisent et contrlent des vnements, comme l'enregistrement d'un client, la fabrication d'un produit ou la passation d'une commande. Ces donnes incluent des transactions, des tables de rfrence et des relations, ainsi que des mtadonnes qui dfinissent le contexte, le tout dans un format trs structur. Traditionnellement, les donnes traites par processus formaient l'essentiel de ce que l'informatique grait et traitait, qu'il s'agisse de donnes oprationnelles ou de BI. Leur format trs structur et rglement en fait un support idal pour des tches telles que la gestion des informations, la prservation de la qualit des donnes, etc.

3. Donnes gnres par des machines : nous dlguons de plus en plus aux
machines la mesurer et l'enregistrement des vnements et des situations dont nous faisons l'exprience physique. Les donnes gnres par des machines simples enregistrements de capteur ou journaux informatiques complexes sont bien structures et considres comme un reflet fiable de la ralit. Elles reprsentent une part croissante des informations stockes et traites par de nombreuses entreprises. Leur volume est en constante augmentation car les capteurs prolifrent. Bien que leur structure se prte bien aux oprations informatiques, leur taille et leur vitesse de circulation dpassent les capacits des systmes traditionnels, comme l'EDW, pour les donnes traites par processus. Les tailles relatives et l'importance subjective de ces trois composantes ont volu

Les donnes mtier traditionnelles sont le rsultat d'expriences personnelles et de mesures effectues par des machines ; le Big Data remet les processus mtier en contact direct avec la ralit du monde.

Dans le contexte de ces trois composantes, les donnes sont bien structures et/ou modlises, et les informations sont peu structures et centres sur l'humain. Copyright 2012, 9sight Consulting. Tous droits rservs.

ces dix dernires annes et devraient encore changer dans la dcennie qui vient. Jusqu' la fin du dernier millnaire, les donnes traites par processus prdominaient. Les informations d'origine humaine et les donnes gnres par des machines qui existaient sous forme numrique reprsentaient un volume relativement faible et taient considres comme ngligeables par rapport aux donnes bien gres des systmes oprationnels et informationnels. La dernire dcennie a t marque par l'explosion du Big Data constitu d'informations d'origine humaine et de donnes gnres par des machines. La dernire composante, sous la forme de donnes de mdias sociaux, a cristallis toute l'attention. Ces prochaines annes, la croissance rapide de l'Internet des objets va renforcer l'importance et le volume des donnes gnres par des machines. Cependant, comme vous pouvez le voir dans la figure 1, les informations d'origine humaine et les donnes gnres par des machines sont l'origine des donnes traites par processus qui sont au centre de nos proccupations depuis longtemps, bien que seule une petite partie bien dfinie soit traite par les processus mtier traditionnels. Ces sources sont la fois plus souples et plus rapides que les donnes traites par processus traditionnelles. En fait, les processus mtier qui crent des donnes traites par processus sont conus pour rduire la souplesse et la rapidit de circulation, afin de prserver la qualit et la cohrence des donnes obtenues. Ceci transparat clairement dans les processus l'uvre dans l'EDW, mais galement dans les systmes oprationnels o la validation et le nettoyage des donnes garantissent la vracit et la viabilit des donnes enregistres.

XAujourd'hui, le volume d'informations d'origine humaine et de donnes gnres par des machines est beaucoup plus important. Leur rythme de changement et leur variabilit sont plus importants que ceux des donnes traites par processus. Leur copie et leur transformation par les processus traditionnels sont de moins en moins commodes. De fait, une technologie spcialise, baptise Business Analytics, est souvent ncessaire pour traiter et exploiter les La technologie de informations d'origine humaine et les donnes gnres par des machines, aussi prs de Business Analytics traite le Big Data leurs sources et aussi rapidement que possible. Ceci dit, le flux de donnes traites par aussi prs que processus et les mtadonnes qui leur sont associes dans l'environnement de Business possible de sa Analytics sont tout aussi importants pour crer du sens, du contexte et de la cohrence source pour une dans le processus d'analyse. Le Big Data et le Business Analytics compltent le processus vitesse et une d'information en boucle, qui a toujours t implicite dans les technologies de l'information.

Figure 1 : Les trois composa ntes de l'information

efficacit optimales.

Les implications concrtes de ce modle trois composantes d'information sont significatives et multiples : Le traitement de Big Data, quelle que soit la technologie employe, s'appuie sur les donnes traites par processus et les mtadonnes traditionnelles pour crer le contexte et la cohrence indispensables une utilisation pleinement pertinente.

Copyright 2012, 9sight Consulting. Tous droits rservs.

Les rsultats du traitement de Big Data doivent tre retransmis aux processus mtier traditionnels pour permettre l'entreprise de changer et d'voluer. Un environnement totalement cohrent, avec une plateforme intgre, et une organisation l'chelle de l'entreprise sont indispensables pour une mise en uvre russie.

Face la prvalence grandissante du Big Data, les commerciaux et les informaticiens doivent renoncer l'ancienne dpendance vis--vis des donnes traites par processus, et adopter ces composantes plus souples et plus volutives d'informations sur le monde rel. La comprhension de la relation entre ces trois composantes d'information est essentielle pour utiliser le Big Data en toute scurit et de manire productive au sein de l'entreprise. Pour dfinir et grer cette relation, et rendre ces trois types d'information disponibles dans toute l'entreprise, il faut une plateforme d'informations intgre. C'est ce que nous allons voir dans la section suivante.

Les donnes traites par processus et les mtadonnes traditionnelles sont primordiales pour comprendre le contexte et grer l'utilisation du Big Data.

Copyright 2012, 9sight Consulting. Tous droits rservs.

Une plateforme intgre pour tous les types d'information


L'aigle peut planer ; les castors construisent des barrages. 8

i les dveloppeurs d'entrept de donnes taient des animaux, ils seraient certainement des castors, travaillant sans relche rguler les flux de donnes et crant un rfrentiel complet d'informations mtier cohrentes. Les entrepts de donnes et les environnements de gestion de donnes d'entreprise associs, comme les systmes de gestion de donnes de rfrence (MDM), sont des rfrentiels fiables de donnes traites par processus qui sont bien gres et bien contrles. En revanche, l'origine du mouvement du Big Data dans la science et les entreprises spcialistes du Web, comme Google et Yahoo!, trs comptentes en ingnierie, a conduit une approche fonde sur une technologie Open Source et une programmation personnalise. Une telle approche met davantage l'accent sur l'adaptabilit, le volume et la vitesse que sur la qualit des donnes. Aujourd'hui, les entreprises ont besoin de ces deux volets, l'un ne pouvant remplacer l'autre. Une plateforme intgre pour tous les types d'information (voir la figure 2) doit donc mobiliser plusieurs technologies d'analyse et de base de donnes. Optimise pour un type particulier de traitement et d'accs, chacune constitue un pilier et est nomme en fonction de son rle mtier.

1. Au centre, le premier pilier Donnes mtier essentielles correspond des donnes cohrentes et
fiables, stockes dans les systmes EDW et MDM. Les bases de donnes relationnelles traditionnelles, comme IBM DB2, constituent la technologie de base. Souvent stockes dans les EDW aujourd'hui, les donnes de chaque application, servant prendre des dcisions et crer des rapports, sont exclues.

Figure 2 : La plateforme d'informatio ns intgre

2. Le

deuxime pilier, Donnes d'analyse et de cration de rapports essentielles, contient les donnes exclues du pilier prcdent. Idalement, ce pilier est, lui aussi, une base de donnes relationnelle. Les plateformes d'entrept de donnes, comme IBM InfoSphere Warehouse, IBM Smart Analytics System et le nouvel IBM PureData System for Operational Analytics, ont toute leur place ici. Les entreprises qui ont besoin de performances de haut niveau pour les requtes peuvent choisir un systme d'analyse intgrant le traitement massivement parallle (MPP), des bases de donnes en colonnes ou d'autres technologies de pointe comme le nouvel IBM PureData System for Analytics (mis en
Copyright 2012, 9sight Consulting. Tous droits rservs.

10

uvre par la technologie Netezza).

3. Le pilier Informations d'analyse dtailles requiert des capacits de traitement importantes et


trs souples, comme l'analyse statistique et l'exploration de textes, souvent mises en uvre dans l'environnement Hadoop.

4. Le pilier Donnes d'analyse rapides requiert une technologie permettant d'analyser les donnes
trs rapidement, comme avec IBM InfoSphere Streams. Souvent gnres par plusieurs sources, ces donnes doivent tre analyses en continu et agrges avec une latence quasi nulle pour gnrer des alertes et prendre des dcisions en temps rel.

5. l'intersection de la rapidit et de la flexibilit, le pilier Donnes d'analyse spcialises effectue


un traitement spcialis (NoSQL, XML, graphique et autres bases/magasins de donnes). Il apparat en double dans la plateforme, car il s'applique aux donnes gnres par des machines et aux informations d'origine humaine. La figure 2 montre comment ces piliers sont rpartis entre les trois composantes de l'information et place les systmes d'enregistrement oprationnels traditionnels au cur de la plateforme. Le pilier central de la plateforme ressemble beaucoup l'architecture d'un entrept de donnes traditionnel, cette diffrence prs que dans les entrepts utiliss pour l'analyse et la cration de rapports, les donnes peuvent et souvent doivent provenir directement des systmes oprationnels.

La plateforme d'informations intgre contient toutes les informations gnres et utilises par l'entreprise.

Les mtadonnes sont essentielles cette nouvelle architecture pour contextualiser les informations et permettre une gouvernance approprie. Dans les composantes traites par processus et gnres par des machines, les mtadonnes sont explicites et, en gnral, stockes sparment. Dans la composante d'origine humaine, elles ont tendance tre implicites dans les informations ellesmmes. Il est donc impratif d'laborer de nouvelles approches pour modliser, identifier et visualiser les sources internes et externes de donnes, ainsi que leurs relations comme dans les outils IBM Vivisimo d'optimisation des informations au sein de la plateforme. Parmi les fonctionnalits requises, l'intgration des donnes qui dplace, copie, nettoie et conditionne les donnes dans la plateforme (flches noires), et la virtualisation des donnes (liens orange) jouent un rle central. Bien entendu, les mtadonnes sont incontournables dans ces deux fonctionnalits. L'intgration des donnes, galement appele ETL (pour Extract/Tranform/Load, littralement extraction/transformation/chargement), existait dj dans les entrepts de donnes et remplit la mme fonction dans la plateforme d'informations intgre. Quant la virtualisation des donnes, certains puristes des entrepts de donnes la proscrivent. Ceci dit, contrairement l'architecture EDW classique dans laquelle tous les flux de donnes traversent un mme entrept instanci physiquement, la plateforme d'informations intgre regroupe plusieurs entrepts unifis logiquement par les donnes mtier et les mtadonnes essentielles. La virtualisation des donnes permet aux utilisateurs et aux applications d'accder aux donnes stockes dans des technologies htrognes et sur plusieurs sites via une couche smantique. Elle offre une vue mtier des informations, masque la complexit technique de l'accs et autorise une jonction en temps rel des rsultats provenant de plusieurs sources. Les outils d'administration et de Business Analytics incluent toutes les fonctions que vous attendez : exploration, visualisation, identification, dveloppement d'applications, gestion des systmes, etc. Le Business Analytics couvre la fois l'utilisation du Big Data et les fonctionnalits de BI traditionnelles.

Copyright 2012, 9sight Consulting. Tous droits rservs.

11

Dans sa forme la plus aboutie, la plateforme intgre contient toutes les informations gnres et utilises par l'entreprise. Ces informations proviennent des interactions La plateforme de l'entreprise avec des machines et des personnes, tant en interne qu'en externe, d'informations intgre est l'unification virtuelle ainsi qu'avec d'autres organisations. C'est ce que montre la partie infrieure de la du Big Data et des figure 2. En gnral, les vnements sont enregistrs par des capteurs et des informations mtier machines. Les communications correspondent aux interactions entre les personnes. traditionnelles. Et les transactions dsignent les interactions qui ont une importance financire pour l'entreprise. Ces transactions sont primordiales pour une entreprise, c'est pourquoi elles ont compt parmi les premiers tre informatiss, et les systmes oprationnels effectuent un travail complet de contrle qualit avant de les accepter. Elles constituent galement la principale source de donnes mtier essentielles. Les vnements et les communications ncessitent un contrle qualit moindre et peuvent donc tre chargs directement dans les systmes qui les utilisent et les analysent.

Mise en uvre d'une plateforme d'informations intgre


Comment mangez-vous un lphant ? Par petits morceaux

omme le Big Data, si les informations sous toutes leurs formes taient un animal, elles seraient aussi un lphant ou plus prcisment un troupeau d'lphants. Comme nous l'avons vu, pour rgner sur ce troupeau, il faut une plateforme intgre prenant en charge tous les types d'information. Bien que sa vision et sa porte soient compltes, cette plateforme existe dj partiellement ou, plus souvent, en plusieurs morceaux. En fait, il s'agit d'un travail en cours qui a dbut dans de nombreuses organisations avec leur premier entrept, probablement dans les annes 1990, lorsqu'elles ont commenc crer des informations utilisables dans toute l'entreprise. L'un des principaux objectifs de l'architecture des premiers entrepts de donnes9 tait la cohrence, premire condition pour une utilisation globale des informations, quels que soient les volumes concerns. La plupart des mthodes et techniques utilises dans la cration d'un entrept s'appliquent au Big Data, comme bon nombre de technologies. L'important, c'est de ne pas croire que les nouvelles technologies sont si diffrentes qu'elles changent tout. Ce n'est pas le cas. Pour mettre en place une partir de vos systmes actuels et, en particulier, de vos entrepts complets, vous pouvez commencer par crer la plateforme d'informations intgre ncessaire pour extraire une valeur mtier concrte des Big Data. Et vous pouvez ds maintenant profiter de certains avantages de cette plateforme : Rutilisation des donnes et environnements existants dans la mesure du possible Possibilit d'ajouter de nouvelles technologies en cas de besoin Signification et utilisation cohrentes des informations entre les environnements Rduction du dlai de rentabilisation et du retour sur investissement pour la technologie existante

plateforme intgre de Big Data, appuyez-vous sur l'infrastructure existante et les outils de la gestion des donnes, notamment l'entrept de donnes d'entreprise.

Copyright 2012, 9sight Consulting. Tous droits rservs.

12

Si vous cherchez valoriser les informations d'origine humaine provenant du Web (comme les mdias sociaux) ou de sources internes (comme les journaux de centres d'appels ou des archives de textes), crer un environnement de type Sandbox (littralement bac sable ) dans Hadoop est recommand. Du point de vue technologique, il est primordial que ce nouvel environnement soit li aussi troitement que possible votre systme de BI pour permettre un transfert bidirectionnel d'informations : par exemple, envoi de donnes mtier certifies sur des clients ou des produits vers l'environnement Hadoop des fins d'analyse, et envoi de donnes synthtiques issues des tches d'analyse vers le systme de BI pour crer des rapports et prendre des dcisions. Du point de vue organisationnel, ce sont les scientifiques des donnes et leur raret sur le march qui ont fait l'objet de toutes les attentions. Vritables experts, ces scientifiques rsolvent des problmes de donnes complexes grce leurs comptences en collecte et nettoyage de donnes, en analyse statistique, en visualisation et une connaissance approfondie du domaine. On oublie frquemment que les utilisateurs expriments de systmes de BI et de tableurs dans les services commerciaux qui utilisent des donnes grande chelle, peuvent faire des scientifiques des donnes trs comptents. Au sein du service de marketing, les utilisateurs qui ont le bon tat d'esprit et sont habitus analyser beaucoup de donnes et en extraire du sens, constituent souvent d'excellents candidats. Ils peuvent avoir besoin d'une formation plus avance en statistiques ou en programmation, mais ils connaissent le domaine et ont la bonne tournure d'esprit. Si vous recrutez des scientifiques des donnes, assurez-vous de l'implication de l'quipe de BI dans le nouvel environnement pour que ces nouvelles comptences s'intgrent bien au sein des quipes existantes. Par exemple, vous pouvez crer une quipe de deux ou trois personnes, avec un commercial qui comprend l'analyse et aime jouer au dtective, et un informaticien de l'quipe de BI, capable d'accder aux donnes de l'entrept et de les intgrer dans les nouvelles technologies de Big Data. Si votre entreprise cherche de nouvelles perspectives ou de nouveaux processus concernant les donnes collectes par des machines ou des capteurs, les possibilits qui s'offrent vous sont multiples. Vous pouvez commencer par une base de donnes d'analyse, comme la nouvelle base IBM PureData System for Analytics, pour stocker et explorer ces donnes. Si vos besoins en analyse sont plus oprationnels, optez pour la nouvelle base de donnes IBM PureData System for Operational Analytics. Vous pouvez galement utiliser Hadoop et IBM InfoSphere BigInsights si les volumes sont particulirement massifs ou si les structures sont trs variables. Dans l'ventualit o la vitesse de traitement est la priorit, une solution de flux, comme IBM InfoSphere Streams, est envisager. Dans tous les cas, les impratifs technologiques et organisationnels sont les mmes que ceux mentionns ci-dessus : une intgration troite dans l'environnement et l'quipe de BI. Au fur et mesure que vous rpondrez d'autres besoins mtier et que vous ajouterez des fonctionnalits, l'un des principaux avantages d'une plateforme transparatra rapidement : la rutilisation des ressources de l'infrastructure et des donnes. La mme intgration des donnes et les mmes mtadonnes seront utilises dans les diffrentes parties de la plateforme. Le travail de contrle qualit effectu dans un composant se rpercutera sur la qualit globale. Les commerciaux auront un accs largi diffrents types de donnes si leurs tches l'exigent grce un jeu commun d'outils utiliss de manire cohrente et une meilleure contextualisation. certains gards, le Big Data pose les mmes types de problmes de gestion des donnes que les tableurs. La plupart des quipes en charge de la BI ou de la gouvernance de donnes refusent obstinment d'utiliser des tableurs. Comme le dit Wayne Eckerson : Les tableurs sont hors de contrle dans la plupart des organisations. Ils prolifrent comme du poison, tranglant lentement [les entreprises]... 10. Le Big Data, tel qu'il est mis en uvre aujourd'hui, est conforme cette image : non contrl, non gr et centr autour
Copyright 2012, 9sight Consulting. Tous droits rservs.

Dans le cas de la BI, l'adhsion des commerciaux et le soutien de la direction sont les principaux critres de russite pour la mise en uvre du Big Data. 13

de quelques scientifiques des donnes, de leurs outils et de leurs jeux de donnes. La mise en place d'une plateforme intgre constitue une tape importante pour endiguer cette prolifration. Combine une intgration troite dans l'organisation de BI existante, cette approche peut transformer le Big Data en un puissant outil d'innovation et d'amlioration des processus, et non en une arme de destruction massive de valeur. Mais, l'tape la plus importante de la mise en uvre consiste peut-tre emporter l'adhsion des commerciaux et le soutien de la direction. Ceci n'est pas nouveau pour les dveloppeurs de BI. Mais attention ! Certains fournisseurs de solutions de Big Data sont issus de communauts de programmation, Open Source et de dveloppement Web, o le soutien de la direction est rare. Associer vos initiatives de Big Data des initiatives d'entrept de donnes et de BI dj couronnes de succs est certainement la meilleure solution pour emporter la confiance. Compte tenu des avantages mtier considrables et trs visibles du Big Data, le soutien de la direction au plus haut niveau peut tre plus facile et plus rapide obtenir que pour les initiatives d'entrept de donnes. Un tel enthousiasme peut et doit servir faciliter la mise en place d'une plateforme d'informations intgre. Et tirer les leons des expriences prcdentes, grce une approche graduelle qui apporte des avantages mtier chaque tape.

Copyright 2012, 9sight Consulting. Tous droits rservs.

14

Conclusion
e Big Data offre probablement les opportunits commerciales les plus importantes et les plus novatrices depuis l'apparition du commerce lectronique la fin des annes 1990. Bien videmment, le Big Data a fait l'objet d'une surmdiatisation, tout comme le commerce lectronique. Mais, nous sommes aujourd'hui un tournant. On assiste maintenant un retour la normale avec des fournisseurs de systmes de gestion d'informations traditionnels qui s'impliquent davantage dans le march et un centre de l'attention qui s'est dplac des start-up Internet vers les entreprises bien tablies. La mise en uvre du Big Data est beaucoup plus efficace si elle s'inscrit dans des processus globaux de gestion des informations globaux, en place depuis longtemps, et si sa finalit reste d'amliorer les rsultats de l'entreprise. Pourquoi ? Parce que le Big Data, quel que soit son volume, sa vitesse ou sa varit, est compos de donnes mtier qui requirent une gestion approprie et une intgration aux sources existantes. Seul, le Big Data peut gnrer des connaissances mtier prcieuses, mais pour que l'entreprise en retire un bnfice durable, il doit tre pleinement intgr aux processus traditionnels de gouvernance et de gestion des donnes. D'un statut de technique exprimentale, le Big Data est en passe de devenir une technologie de pointe. De plus en plus d'entreprises tirent parti des opportunits du Big Data pour repenser leurs principaux processus oprationnels et dcisionnels. Le moteur de cette volution, c'est la cration d'une plateforme de Big Data prenant en charge de nombreux types de donnes dans un environnement professionnel intgr, avec une solution d'analyse mtier qui exploite les donnes dans leur format natif, aussi proche que possible de leurs sources. Les avantages mtier d'une telle plateforme intgre sont les suivants :

1. Fournir des analyses prdictives pour l'avenir en analysant les mdias sociaux et le comportement
des clients partir des donnes relles et fiables que l'entreprise collecte depuis longtemps pour une utilisation quotidienne

2. Prendre des dcisions oprationnelles en temps rel grce aux informations fournies plus
rapidement par des machines et des capteurs situs dans l'environnement externe, et utilises conjointement avec les donnes transactionnelles traditionnelles

3. Rinventer les processus mtier pour des modles conomiques plus rapides, plus innovants et
plus efficaces en unifiant les activits informationnelles et oprationnelles Avec de tels avantages en vue, l'informatique doit et peut crer un systme de Big Data rapidement et progressivement partir de l'infrastructure de gestion des donnes existante. La plupart du temps, le point de dpart est l'entrept de donnes ou l'environnement de BI. Voici quelques exemples, parmi d'autres : mise en uvre de Hadoop pour prtraiter et analyser le contenu existant, comme des enregistrements de centres d'appels ; ajout d'une technologie de flux pour acheminer les donnes en temps rel dans l'entrept de donnes ; et modernisation de l'entrept de donnes existant pour que les sources de donnes des capteurs alimentent directement les bases de donnes servant l'analyse. Les stratgies de mise en place de cette nouvelle plateforme ne manquent pas. Moyennant un investissement relativement limit en temps, en travail et en cot, elles permettent d'obtenir rapidement des avantages tangibles et de fournir l'quipe informatique une base de travail.

Copyright 2012, 9sight Consulting. Tous droits rservs.

15

Pour tirer parti de ces vritables opportunits, la collaboration entre le service commercial et l'quipe informatique est essentielle. Elle permet de commencer immdiatement planifier et dployer une stratgie de Big Data complte et incrmentielle. Dbuter modestement avec des mthodes de projet agiles permet de valoriser rapidement les donnes de l'entreprise et d'intgrer l'analyse et les scientifiques des donnes dans l'entreprise. Aujourd'hui, la technologie du Big Data a atteint une certaine maturit et s'intgre de plus en plus troitement dans les plateformes de gestion de donnes actuelles. Le moment est donc idal pour les entreprises innovantes de sortir du lot pour distancer rapidement et durablement la concurrence. Une plateforme d'informations intgre constitue la premire tape vers une mise en uvre efficace du Big Data et l'obtention d'avantages mtier rels et durables.

Le Dr Barry Devlin est l'un des experts les plus reconnus en matire de Business Analytics et l'un des crateurs des entrepts de donnes, dont il a dcrit l'architecture dans un article publi en 1988. Il compte plus de 30 ans d'exprience en informatique, dont 20 chez IBM en tant qu'ingnieur mrite. Brillant analyste, consultant et confrencier, il est aussi l'auteur de l'ouvrage Data Warehouse from Architecture to Implementation et de nombreux livres blancs. Barry a cr et dirige 9sight Consulting. Il est spcialiste des implications humaines, organisationnelles et informatiques des solutions de Business Analytics qui combinent des environnements oprationnels, informationnels et collaboratifs. Il contribue rgulirement BeyeNETWORK, Focus, SmartDataCollective et TDWI. Il vit Cape Town, en Afrique du Sud, et travaille dans le monde entier.
Les appellations et noms de produit mentionns dans cet article sont des marques commerciales ou dposes d'IBM. Crdits des images : lphant africain : Barry Devlin Aveugles : C. M. Stebbins & M. H. Coolidge, Golden Treasury Readers: Primer , American Book Co. (New York), 1909 [Wikipedia.com] Aigle : www.123rf.com/photo_5236964_american-bald-eagle-in-flight-blue-sky-on-background.html [LoonChild / 123RF.com] Castors : Willem Janszoon Blaeu : Nova Belgica et Anglia Nova (dtail), 1635 [Wikipedia.com] lphants origami : Katherine Devlin Peintures de la grotte Chauvet : HTO [Wikipedia.com]

1 2 3 4 5 6 7 8 9

Data, data everywhere A special report on managing information , The Economist, fvrier 2010 Outperforming in a data-rich, hyper-connected world , IBM Center for Applied Insights, mars 2012, http://bit.ly/MKxHhe Big data: The next frontier of innovation, competition and productivity , McKinsey Global Institute, mai 2011 Gartner Reveals Top Predictions for IT Organizations and Users for 2012 and Beyond , Gartner, dcembre 2011, http://bit.ly/S2mvgW Extrait du pome Les aveugles et l'lphant de John Godfrey Saxe (1816-1887) Expanding Digital Universe , International Data Corporation (IDC), 2007-2011, http://bit.ly/IDC_Digital_Universe Euripide, dramaturge grec (env. 480-406 av. J.-C.) Joseph S. Nye, Jr. (1937-)

Devlin, B. A. et Murphy, P. T., An architecture for a business and information system , IBM Systems Journal, Volume 27, Numro 1, Page 60 (1988) http://bit.ly/EBIS1988
10

Eckerson, W., The Rise and Fall of Spreadmarts , DM Review, 2003

Copyright 2012, 9sight Consulting. Tous droits rservs.

16

Vous aimerez peut-être aussi