Vous êtes sur la page 1sur 25

Hadoop

1.

Le cur : Hadoop kernel.................................................................................. 4


1.1.

HDFS (Hadoop Distributed File System).....................................................5

1.1.1.

Alternatives......................................................................................... 6

1.1.1.1 MapR................................................................................................ 6
1.1.1.2 HBase (Apache)................................................................................ 7
1.1.1.3 Cassandra (Facebook)......................................................................7
1.1.1.4 Offre Cloud....................................................................................... 7
1.2.

MapReduce................................................................................................ 7

1.2.1. Alternatives............................................................................................ 8
1.2.1.1. YARN (HortonWorks)........................................................................8
2.

3.

Les extensions................................................................................................. 9
2.1.

Requtage des donnes : Hive (Facebook)................................................9

2.2.

Scripting sur les donnes : Pig (Yahoo)......................................................9

2.3.

Intgration SGBD-R : Sqoop (Cloudera).....................................................9

2.4.

Ordonnanceur : Apache Oozie (Yahoo).....................................................10

Gestion des clusters Hadoop..........................................................................10


3.1.

Clustering................................................................................................ 10

3.1.1
3.2.

Supervision.............................................................................................. 10

3.2.1.
4.

Apache ZooKeeper............................................................................ 10
Apache Ambari (HortonWorks)..........................................................10

Autres............................................................................................................. 11
4.1.

Apache Flume (Cloudera)........................................................................11

4.2.

Apache Mahout........................................................................................ 11

4.3.

Apache Drill (MapR)................................................................................. 12

4.4.

Apache HCatalog (HortonWorks).............................................................12

4.5.

Apache Tez (HortonWorks).......................................................................12

5.

Vue densemble de la plate-forme Hadoop....................................................12

6.

Les distributions............................................................................................. 13
6.1.

HortonWorks............................................................................................ 13

6.1.1.

Prsentation...................................................................................... 13

6.1.2.

Composants de la plate-forme HDP...................................................14

6.1.3.

Vision densemble de la distribution..................................................14

6.1.4.

Dploiement de la plate-forme..........................................................14

6.2.

6.1.4.1.

Machine Virtuelle prte lemploi...............................................14

6.1.4.2.

Installation automatique avec Ambari.........................................15

6.1.4.3.

Installation manuelle avec Linux RPM.........................................15

Cloudera.................................................................................................. 15

6.2.1.

Prsentation...................................................................................... 15

6.2.2. Composants de la plate-forme CDH (Clouderas Distribution including


Apache Hadoop)............................................................................................. 15
6.2.3.

Vision densemble de la distribution..................................................16

6.2.4.

Dploiement de la plate-forme..........................................................17

6.3.

7.

6.2.4.1.

Automatique avec Cloudera Manager.........................................17

6.2.4.2.

Manuel avec les packages...........................................................17

MapR........................................................................................................ 17

6.3.1.

Prsentation...................................................................................... 17

6.3.2.

Contenu de la distribution MapR M3..................................................18

6.3.3.

Vision densemble de la distribution..................................................19

6.3.4.

Dploiement de la plate-forme..........................................................20

6.3.4.1.

Machine virtuelle.........................................................................20

6.3.4.2.

Manuelle avec les packages........................................................20

Conclusion...................................................................................................... 20
7.1.

Cloudera.................................................................................................. 21

7.2.

MapR........................................................................................................ 21

7.3.

HortonWorks............................................................................................ 21

En 2004, Google a publi un article prsentant son algorithme de calcul grande chelle,
MapReduce, ainsi que son systme de fichier en cluster, GoogleFS. Rapidement (2005) une
version open source voyait le jour sous limpulsion de Yahoo.

Aujourdhui il est difficile de se retrouver dans la jungle dHadoop pour les raisons suivantes :
1. Ce sont des technologies jeunes.
2. Beaucoup de buzz et de communication de socits qui veulent prendre le train Big Data
en marche.
3. Des raccourcis sont souvent employs (non MapReduce ou un quivalent nest pas
suffisant pour parler dHadoop).
4. Beaucoup dacteurs diffrents (des mastodontes, des spcialistes du web, des start-up,
).

Dans une distribution Hadoop on va retrouver les lments suivants (ou leur quivalence) HDFS,
MapReduce, ZooKeeper, HBase, Hive, HCatalog, Oozie, Pig, Sqoop,

Ces solutions sont des projets Apache et donc disponibles mais lintrt dun package complet
est vident : compatibilit entre les composants, simplicit dinstallation, support,

Dans cet article on voquera les trois distributions majeures que sont Cloudera, HortonWorks et
MapR, toutes les trois se basant sur Apache Hadoop.

On peut toutefois les distinguer en fonction de la distance quelles prennent avec cette base :

MapR : noyau Hadoop mais repackag et enrichi de solutions propritaires.

Cloudera : fidle en grande partie sauf pour les outils dadministration.

HortonWorks : fidle la distribution Apache et donc 100% open source.

Il existe dautres distributions, voire des offres cloud, mais qui noffrent pas lensemble des
fonctionnalits dune plate-forme Hadoop ou ne sont pas open source (ou a minima gratuites)
comme Intel Distribution for Hadoop ou bien Greenplum (Pivotal HD).

1.

Le cur : Hadoop kernel

Hadoop est le framework le plus utilis actuellement pour manipuler et faire du Big Data.

Apache Hadoop est un framework qui va permettre le traitement de donnes massives sur un
cluster allant de une plusieurs centaines de machines, cest un projet open source (Apache v2
licence).
Hadoop est crit en Java et a t cr par Doug Cutting et Michael Cafarella en 2005 (Doug,
travaillait alors pour Yahoo sur son projet de crawler web Nutch).

Cest lui qui va grer la distribution des donnes au cur des machines du cluster, leurs
ventuelles dfaillances mais aussi lagrgation du traitement final.

Larchitecture est de type Share nothing : aucune donne nest traite par deux noeuds
diffrents mme si les donnes sont rparties sur plusieurs noeuds (principe dun noeud primaire
et de noeuds secondaires).

1.1.

HDFS (Hadoop Distributed File System)

HDFS est un systme de fichiers Java utilis pour stocker des donnes structures ou non sur un
ensemble de serveurs distribus.

HDFS sappuie sur le systme de fichier natif de lOS pour prsenter un systme de stockage
unifi reposant sur un ensemble de disques et de systmes de fichiers htrognes.

La consistance des donnes est base sur la redondance. Une donne est stocke sur au moins
n volumes diffrents.

lments importants :
Node (Master/slave) : Dans une architecture Hadoop chaque membre pouvant traiter des
donnes est appel node (Noeud). Un seul dentre eux peut tre master mme sil peut changer
au cours de la vie du cluster.

Il est responsable de la localisation des donnes dans le cluster (il est appel Name Node). Les
autres sont des slaves appels Data Nodes.

Bien quil puisse y avoir plusieurs Name Nodes, la promotion doit se faire manuellement
(Hadoop 2.0, actuellement en version alpha, introduit un failover automatis).

Le Name Node est donc un Single Point Of Failure (SPOF) dans un cluster Hadoop.
Au sein du cluster, les donnes sont dcoupes et distribues en blocks selon les deux
paramtres suivants :

Blocksize : Taille unitaire de stockage (gnralement 64 Mo ou 128 Mo). Cest dire


quun fichier de 1 Go (et une taille de block de 128 Mo) sera divis en 8 blocks.

Replication factor : Cest le nombre de copies dune donnes devant tre rparties sur les
diffrents noeuds du cluster (souvent 3, cest dire une primaire et deux secondaires).

Enfin, un principe important dHDFS est que les fichiers sont de type write-once car dans des
oprations analytiques on lit la donne beaucoup plus quon lcrit. Cest donc sur la lecture que
les efforts ont t ports.
Ce qui signifie que lon ne modifie pas les donnes dj prsentes.

Un principe li est qu partir du moment ou un fichier HDFS est ouvert en criture, il est
verrouill pendant toute la dure du traitement.
Il est donc impossible daccder des donnes ou un rsultat tant que le job nest pas termin
et na pas ferm le fichier (et un fichier peut tre trs volumineux avec Hadoop).

1.1.1. Alternatives
1.1.1.1

MapR

En mai 2011, MapR a annonc une alternative au systme HDFS. Ce systme permet dviter le
SPOF quest le Name Node. Ce systme nest pas inconnu car il sagit de HBase, dont elle
propose une version propritaire.

1.1.1.2

HBase (Apache)

HBase est un sous-projet dHadoop, cest un systme de gestion de base de donnes non
relationnelles distribu, crit en Java, disposant dun stockage structur pour les grandes tables.

HBase est inspire des publications de Google sur BigTable. Comme BigTable, cest une base de
donnes oriente colonnes.

HBase est souvent utilis conjointement au systme de fichiers HDFS, ce dernier facilitant la
distribution des donnes de HBase sur plusieurs noeuds.

Contrairement HDFS, HBase permet de grer les accs alatoires read/write pour des
applications de type temps rel.

1.1.1.3

Cassandra (Facebook)

Cassandra est une base de donnes oriente colonnes dveloppe sous limpulsion de
Facebook.

Cassandra supporte lexcution de jobs MapReduce qui peuvent y puiser les donnes en entre
et y stocker les rsultats en retour (ou bien dans un systme de fichiers).

Cassandra comparativement HBase est meilleur pour les critures alors que ce dernier est plus
performant pour les lectures.

1.1.1.4

Offre Cloud

Le cloud est un complment idal au monde Hadoop, en offrant des possibilits de stockage et
de traitement extensibles.

Il est donc possible dutiliser un systme de fichiers situ dans le cloud pour le stockage des
donnes et lexcution des traitements.

Solutions supportes :

Amazon S3.

Kosmixs CloudStore.

IBM GPFS (General Parallel File System).

1.2.

MapReduce

A lorigine cre par Google pour son outil de recherche web.

Cest un framework qui permet le dcomposition dune requte importante en un ensemble de


requtes plus petites qui vont produire chacune un sous ensemble du rsultat final : cest la
fonction Map.

Lensemble des rsultats est trait (agrgation, filtre) : cest la fonction Reduce.

1.2.1. Alternatives
1.2.1.1. YARN (HortonWorks)
YARN (Yet-Another-Resource-Negotiator) est aussi appel MapReduce 2.0, ce nest pas une
refonte mais une volution du framework MapReduce.

YARN apporte une sparation claire entre les problmatiques suivantes :

Gestion de ltat du cluster et des ressources.

Gestion de lexcution des jobs.

YARN est compatible avec les anciennes versions de MapReduce (il faut simplement recompiler
le code).

2.

Les extensions
2.1. Requtage des donnes : Hive (Facebook)

Hive est lorigine un projet Facebook qui permet de faire le lien entre le monde SQL et Hadoop.

Il permet lexcution de requtes SQL sur un cluster Hadoop en vue danalyser et dagrger les
donnes.

Le langage SQL est nomm HiveQL. Cest un langage de visualisation uniquement, cest
pourquoi seules les instructions de type Select sont supportes pour la manipulation des
donnes.

Dans certains cas, les dveloppeurs doivent faire le mapping entre les structures de donnes et
Hive.

Hive utilise un connecteur jdbc/odbc.

2.2. Scripting sur les donnes : Pig (Yahoo)


Pig est lorigine un projet Yahoo qui permet le requtage des donnes Hadoop partir dun
langage de script.

Contrairement Hive, Pig est bas sur un langage de haut niveau PigLatin qui permet de crer
des programmes de type MapReduce.

Contrairement Hive, Pig ne dispose pas dinterface web.

2.3. Intgration SGBD-R : Sqoop (Cloudera)


Sqoop permet le transfert des donnes entre un cluster Hadoop et des bases de donnes
relationnelles.

Cest un produit dvelopp par Cloudera.

Il permet dimporter/exporter des donnes depuis/vers Hadoop et Hive.

Pour la manipulation des donnes Sqoop utilise MapReduce et des drivers JDBC.

2.4. Ordonnanceur : Apache Oozie (Yahoo)


Oozie est une solution de workflow (au sens scheduler dexploitation) utilise pour grer et
coordonner les tches de traitement de donnes destination de Hadoop.
Oozie sintgre parfaitement avec lcosystme Hadoop puisquil supporte les types de jobs
suivant :

MapReduce (Java et Streaming).

Pig.

Hive.

Sqoop.

Autres tels que programmes Java ou scripts de type Shell.

3.

Gestion des clusters Hadoop


3.1. Clustering
3.1.1 Apache ZooKeeper

ZooKeeper est un service de coordination des services dun cluster Hadoop.

En particulier, le rle de ZooKeeper est de fournir aux composants Hadoop les fonctionnalits de
distribution.

Pour cela il centralise les lments de configuration du cluster Hadoop, propose des services de
clusterisation et gre la synchronisation des diffrents lments (vnements).

ZooKeeper est un lment indispensable au bon fonctionnement de HBase.

3.2. Supervision
3.2.1. Apache Ambari (HortonWorks)
Ambari est un projet dincubation Apache initi par HortonWorks et destin la supervision et
ladministration de clusters Hadoop.

Cest un outil web qui propose un tableau de bord. Cela permet de visualiser rapidement ltat
dun cluster.

Ambari dispose dun tableau de bord dont le rle est de fournir une reprsentation :

De ltat des services.

De la configuration du cluster et des services.

Des informations issues de Ganglia et de Nagios.

De lexcution des jobs.

Des mtriques de chaque machine et du cluster.

De plus Ambari inclue un systme de gestion de configuration permettant de dployer des


services dHadoop ou de son cosystme sur des clusters de machines.
Ambari se positionne en alternative Chef, Puppet pour les solutions gnriques ou encore
Cloudera Manager pour le monde Hadoop.

Ambari ne se limite pas Hadoop mais permet de grer galement tous les outils de
lcosystme.

Les outils annoncs sont :

Hadoop

HDFS

MapReduce

Hive, HCatalog

Oozie

HBase

Ganglia, Nagios

4.

Autres
4.1. Apache Flume (Cloudera)

Flume est une solution de collecte et dagrgation de fichiers logs, destins tre stocks et
traits par Hadoop.

Il a t conu pour sinterfacer directement avec HDFS au travers dune API native.

Flume est lorigine un projet Cloudera, revers depuis la fondation Apache.

Alternatives : Apache Chukwa.

4.2. Apache Mahout


Apache Mahout est un projet de la fondation Apache visant crer des implmentations
dalgorithmes dapprentissage automatique et de datamining.

Mme si les principaux algorithmes dapprentissage se basent sur MapReduce, il ny a pas


dobligation utiliser Hadoop. Apache Mahout ayant t conu pour pouvoir fonctionner sans
cette dpendance.

4.3. Apache Drill (MapR)


Initi par MapR, Drill est un systme distribu permettant deffectuer des requtes sur de larges
donnes. Il implmente les concepts exposs par le projet Google Dremel.

Drill permet dadresser le besoin temps rel dun projet Hadoop. MapReduce tant plutt conu
pour traiter de larges volumes de donnes en batch sans objectif de rapidit et sans possibilit de
redfinir la requte la vole.

Drill est donc un systme distribu qui permet lanalyse interactive des donnes, ce nest pas un
remplacement de MapReduce mais un complment qui est plus adapt pour certains besoins.

4.4. Apache HCatalog (HortonWorks)


HCatalog permet linteroprabilit dun cluster de donnes Hadoop avec des systmes externes.

HCatalog est un service de management de tables et de schma des donnes Hadoop :


Permet dattaquer les donnes HDFS via des schmas de type tables de donnes en

lecture/criture.
Permet doprer sur des donnes issues de MapReduce, Pig ou Hive.

4.5. Apache Tez (HortonWorks)


Tez est un nouveau framework en incubation chez Apache.

Utilisant YARN il remplace MapReduce afin de fournir des requtes dites temps rel. La faible
latence est en effet un pr requis lexploration interactive des donnes stockes sur un cluster
Hadoop.

Cest un concurrent dApache Drill (MapR) ou de Cloudera Impala.

5.

Vue densemble de la plate-forme


Hadoop

6.

Les distributions
6.1. HortonWorks
6.1.1. Prsentation

HortonWorks a t form en juin 2011 par des membres de lquipe Yahoo en charge du projet
Hadoop.

Leur but est de faciliter ladoption de la plate-forme Hadoop dApache, cest pourquoi tous les
composants sont open source et sous licence Apache.

Le modle conomique dHortonWorks est de ne pas vendre de licence mais uniquement du


support et des formations.

Cette distribution est la plus conforme la plate-forme Hadoop dApache et HortonWorks est un
gros contributeur Hadoop.

Parmi les projets reverss il y a :

YARN,

HCatalog,

Ambari,

6.1.2. Composants de la plate-forme HDP


Les lments suivants composent la plate-forme HortonWorks :
1. Cur Hadoop (HDFS/MapReduce).
2. NoSQL (Apache HBase).
3. Mta-donnes (Apache HCatalog).
4. Plate-forme de script (Apache Pig).
5. Requtage (Apache Hive).
6. Planification(Apache Oozie).
7. Coordination (Apache Zookeeper).
8. Gestion et supervision (Apache Ambari).
9. Services dintgration (HCatalog APIs, WebHDFS, Talend Open Studio for Big Data,
Apache Sqoop).
10. Gestion distribue des logs (Apache Flume).
11. Apprentissage (Apache Mahout).

6.1.3. Vision densemble de la distribution

6.1.4. Dploiement de la plate-forme


6.1.4.1.

Machine Virtuelle prte lemploi

HortonWorks met disposition une machine virtuelle ou sont pr installs les composants de la
plate-forme Hadoop.

Cest lidal pour lapprentissage de la plate-forme mais incompatible avec les exigences de
production ou mme celles dun POC.

6.1.4.2.

Installation automatique avec Ambari

En plus de la gestion du cluster, Ambari permet le dploiement de lensemble des composants


Hadoop de manire centralise.

6.1.4.3.

Installation manuelle avec Linux RPM

HortonWorks met disposition des packages RPM.

En utilisant le principe des RPM Linux il est possible dinstaller les composants HDP
manuellement.

6.2. Cloudera
6.2.1. Prsentation
Cloudera se veut comme la compagnie commerciale Hadoop.

Fonde par des experts Hadoop en provenance de Facebook, Google, Oracle et Yahoo.

Si leur plate-forme est en grande partie base sur Hadoop dApache, elle est complte avec des
composants maison essentiellement pour la gestion du cluster.

A noter aussi que la version dApache Hadoop distribue est la dernire version stable complte
de patchs critiques ainsi que de quelques fonctionnalits de la version de dveloppement.

Le modle conomique de Cloudera est la vente de licences mais aussi du support et des
formations.

Cloudera propose une version entirement open source de leur plate-forme (Licence Apache
2.0).

6.2.2. Composants de la plate-forme CDH (Clouderas Distribution


including Apache Hadoop)
Composants Apache :

HDFS : File System distribu.

MapReduce : Framework de traitement paralllis.

HBase : Base de donnes NoSQL (accs read/write alatoires).

Hive : Requtage de type SQL.

Pig : Scripting et requtage Hadoop.

Oozie : Workflow et planification de jobs Hadoop.

Sqoop : Intgration de bases SQL.

Flume : Exploitation de fichiers (log) dans Hadoop.

ZooKeeper : Service de coordination pour les applications distribues.

Mahout : Framework dapprentissage et de datamining pour Hadoop.

Composants dorigine Cloudera :

Hadoop Common: Un ensemble dutilitaires.

Hue : SDK permettant de dvelopper des interfaces utilisateur pour les applications
Hadoop.

Whirr : Librairies et scripts pour lexcution dHadoop et de services lis dans le cloud.

Composants non Apache Hadoop :

Cloudera Impala : Moteur temps rel de requtage SQL paralllis de donnes stockes
dans HDFS ou HBase. Contrairement Hive de Hadoop, Impala nutilise pas le
framework MapReduce qui exige que les rsultats de recherche soient crits sur le

disque, ce qui lui permet dexcuter les requtes plus rapidement. La consultation des
donnes peut tre interactive. Licence : ASLv2.

Cloudera Manager : Dploiement et gestion des composants Hadoop.

A noter que Cloudera Manager nest pas entirement Open Source mais dispose dune version
gratuite avec quelques restrictions :

La version gratuite est limite 50 noeuds.

Certaines fonctionnalits sont uniquement disponibles sur la version commerciale


(comme le monitoring, les sauvegardes et les mises jour automatiques).

Support uniquement pour la version payante.

6.2.3. Vision densemble de la distribution

6.2.4. Dploiement de la plate-forme


6.2.4.1.

Automatique avec Cloudera Manager

Cloudera Manager permet linstallation des composants de la plate-forme sur une machine (y
compris distante).

Cloudera Manager permet la configuration centralise des composants du cluster.

Enfin Cloudera Manager permet de finaliser linstallation en vrifiant le bon fonctionnement de


chacun des composants.

6.2.4.2.

Manuel avec les packages

Rcupration des archives tarball (tgz) contenant la distribution.

Configuration et installation laide des scripts fournis.

6.3. MapR
6.3.1. Prsentation
MapR a t fonde en 2009 par danciens membres de Google.

Bien que son approche soit commerciale, MapR contribue des projets Apache Hadoop comme
HBase, Pig, Hive, ZooKeeper et surtout Drill.

MapR se distingue surtout de la version dApache Hadoop par sa prise de distance avec le cur
de la plate-forme. Ils proposent ainsi leur propre systme de fichier distribu ainsi que leur propre
version de MapReduce : MapR FS et MapR MR.

Trois versions de leur solution sont disponibles :

M3 : version open source.

M5 : Ajoute des fonctions de haute disponibilit et du support.

M7 : Environnement HBase optimis.

MapR a remport de beaux succs commerciaux depuis sa cration.

Un partenariat avec EMC pour une la cration et le support dune version spcifique la
plate-forme Hadoop dEMC.

MapR est lorigine de la version cloud de MapReduce dAmazon : Elastic Map Reduce
(EMR).

Enfin ils ont t retenu par Google pour loffre Big Data de Google Compute Engine
(GCE).

6.3.2. Contenu de la distribution MapR M3


Composants Apache :

HBase,

Pig,

Hive,

Mahout,

Cascading,

Sqoop,

Flume

MapR propose son propre systme en remplacement de HDFS :

Une version maison de HBase (performance et fiabilit amliores).

Avantages:

Systme plus adapt au mode read/write que HDFS.

MapR intgre un serveur NFS (Network File System) pour lintgration au SI de


lentreprise.

Simplification de mise en oeuvre (surcouche du File System de lOS et non remplacement


comme HDFS).

Plus de Single Point Of Failure.

MapR FS reste compatible avec les API MapReduce/HDFS et HBase.


MapR propose son propre systme en remplacement de MapReduce dApache.
Avantages :

MapR annonce de meilleures performances.

Entirement optimis pour HBase.

MapR Control System (MCS)

MCS permet la gestion et la supervision du cluster Hadoop. Cest un outil web permettant la
fois les ressources du cluster (CPU, Ram, Disque) que les services et les jobs.
MCS permet de dfinir des alarmes sur des seuils ou des quotas
La visualisation des informations est assure par le composant HeatMap.

Autres spcificits :
Apache Cascading
Cascading est un framework Java ddi Hadoop. Il permet un dveloppeur Java de retrouver
ses marques (JUnit, Spring, etc) et de manipuler les concepts dHadoop avec un langage de
haut niveau sans en connatre les API.

Apache Vaidya
Hadoop Vaidya est un outil danalyse des performances des jobs MapReduce.
Son principe de fonctionnement est bas sur des rgles quil confronte aux statistiques
dexcution des jobs et aux fichiers de configuration.
Le rapport est produit au format XML.

Apache Drill
MapReduce a la rputation dtre puissant mais complexe manipuler (il faut en matriser lAPI).
De plus, il est impossible de redfinir les requtes la vole.
Drill vient complter MapReduce et se prsente sous la forme dune API permettant de crer plus
rapidement des requtes en se basant sur le modle SQL.
SQL plutt quune nouvelle API, cest donc le choix de la capitalisation fait par Drill.

6.3.3. Vision densemble de la distribution

6.3.4. Dploiement de la plate-forme


6.3.4.1.

Machine virtuelle

MapR fourni une machine virtuelle avec un seul noeud et lensemble des composants installs.
Cest lidal pour une prise en main de la plate-forme mais incompatible avec les exigences de
production.

6.3.4.2.

Manuelle avec les packages

MapR ne fournit pas de systme de dploiement Hadoop.


Linstallation est donc essentiellement manuelle avec des automatisations possibles.
Tout dabord il faut rcuprer les composants installer :

Depuis le repository internet

Depuis un repository local

Avec des packages Debian/Linux

Aprs dition de la configuration il faut ensuite excuter les scripts fourni pour installer les
composants MapR sur chaque machine.

A noter que la distribution ne contient pas les composants Apache et quil faut les installer
manuellement.

7.

Conclusion

Les trois distributions ont une approche et un positionnement diffrent en ce qui concerne la
vision dune plate-forme Hadoop (open source, modle conomique).
Le choix se portera sur lune ou lautre solution en fonction des exigences :

Solution open source.

Maturit de la solution.

Partenariats et compatibilit avec les produits satellites.

Le choix dune distribution est dautant plus difficile que lavenir dHadoop est loin dtre tout
trac.
En effet des virages technologiques importants sont dores et dj annoncs :
1. Hadoop est n afin de rpondre la problmatique suivante : comment traiter des traoctets de donnes simplement ?
2. La rponse propose alors, un systme de fichier distribu, est arrive un moment o il
tait impossible de traiter de tels volumes de donnes en mmoire. Maintenant le cot de
la RAM a fortement baiss et avec la gnralisation des architecture 64 bits ce nest plus
tout fait exact.
3. La scurit : elle est encore balbutiante malgr quelques initiatives comme Apache Knox.
4. Lintgration avec le SI, une plate-forme Hadoop isole et non intgre au systme
dinformation ne sera plus possible dans le futur (en tout cas certains besoins exigeront
une interaction plus grande).
5. Un support direct des transactions ce qui a toujours t un challenge trs important dans
le monde des donnes distribues.

7.1. Cloudera
Le vtran ce quil lui donne une lgitimit et un nombre de clients suprieur ces concurrents.
Un autre avantage est de disposer dans ses rangs de Doug Cutting le crateur dHadoop.
Cloudera est trs prompt sortir les dernires versions dHadoop (les premiers sortir une
distribution compatible Hadoop 2.0).
Les principaux partenaires sont IBM, HP, Oracle.

7.2. MapR
La plus loigne dApache Hadoop car elle intgre leur propre vision de MapReduce et HDFS.
Aprs Cloudera cest la solution la plus mature.
Cest aussi la solution la plus simple installer grce leur utilisation du file system natif.
Beaucoup de partenariats de haut niveau et trs stratgiques sur le cloud (Amazon Elastic
MapReduce et Google Compute Engine).

7.3. HortonWorks
Cest la seule plate-forme 100 % Apache Hadoop.
La stratgie assume dHortonWorks est de se baser sur les versions stables et testes dApache
Hadoop plutt que sur les dernires versions.
Leur solution de gestion du cluster, Ambari, nest pas aussi mature que la concurrence : Cloudera
Manager et HeatMap.
Malgr sa relative jeunesse, HortonWorks a sign des partenariats importants avec IBM,
Microsoft, Teradata et Talend. Ils ont notamment sign avec Microsoft un accord pour le
dploiement de leur plate-forme sur Azure.