Vous êtes sur la page 1sur 27

Hadoop: présentation

DSI 3

1
Sommaire
› Pourquoi Hadoop ?
› Définition
› Historique
› Ecosystème hadoop
› Les Distributions

2
Définition
› Hadoop est le framework le plus utilisé actuellement pour
manipuler et faire du Big Data.

› Apache Hadoop est un framework qui va permettre le


traitement de données massives sur un cluster allant
d’une à plusieurs centaines de machines.
› C’est un projet open source (Apache v2 licence).”
“The Hadoop Ecosystem is great for Big Data”

3
Hadoop : Historique

2017

Hadoop
3,0

4
Hadoop : Références.
En 10 ans, son adoption ne fait plus aucun doute
!
Pourquoi Hadoop ?
› Enable Scalability => Commodity hardware is cheap
› Handle Fault Tolerance => « Be ready: crashes happen »
› Optimized for a Variety Data Types
› Facilitate a Shared Environment
› Provide Value => Community-supported + Wide range of
applications

6
L’écosystème HADOOP

7
› Regardons un ensemble d'outils dans l'écosystème
Hadoop comme un diagramme de couches.
› Ce diagramme de couche est organisé verticalement en
fonction de l'interface.
› Interfaces de bas niveau, donc stockage et planification, en
bas.
› Et les langues de haut niveau et l'interactivité au sommet.

8
Higher
OUTILS HADOOP levels:Interactivity

Lower
levels:Storage and
scheduling
9
HDFS : Distributed file system as foundation
Scalable storage
Fault tolerance

Hive Pig Giraph

Spark
Storm

Flink
MapReduce

HBase

Cassandra
Zookeeper

MongoDB
YARN

HDFS

10
YARN

Flexible scheduling and


resource management • Hadoop YARN offre une
planification flexible et une
gestion des ressources sur
YARN schedules jobs on le stockage HDFS.
Hive >P4
i g0,000 servers at Yahoo
• YARN est utilisé chez
Giraph

Spark
Storm

Flink Yahoo pour planifier des


MapReduce
HBase tâches sur 40 000 serveurs.

Cassandra
Zookeeper

MongoDB
YARN

HDFS

11
MAP REDUCE
• MapReduce est un
Simplified programming model modèle de
programmation qui
Map  apply() simplifie l'informatique
parallèle.
• Au lieu de traiter les
Reduce  summarize() complexités de la
synchronisation et de
la planification on offre
Hive Pig à MapReduce deux
fonctions, mapper et
Giraph

Spark
Storm

Flink
MapReduce réduire.

HBase
• Google utilisait le

Cassandra

MongoDB
modèle de
G oogle used MapReduce
YAR N
programmation
HDfFoSr indexing web sites Mapreduce pour
indexer des sites Web.
12
Hive & Pig
Higher-level programming models • Hive et Pig sont deux
modèles de
programmation
Pig = dataflow scripting supplémentaires pour
augmenter la modélisation
Hive = SQL-like queries des
MapReduce
données de

• Hive a été créé par


Facebook pour émettre
Hive Pig
des requêtes de type SQL
Giraph

en utilisant MapReduce
Spark
Storm

Flink
MapReduce sur leurs données en
HBase
Pig created at Yahoo,
Cassandra
HDFS.
Zookeeper

MongoDB
YARN • Pig a été créé à Yahoo
Hive created at Facebook pour modéliser les
HDFS programmes basés sur le
flux de données à l'aide de
MapReduce. 13
Giraph
• Giraph a été conçu
Specialized models pour traiter
for graph processing efficacement les
graphiques à grande
échelle.
Giraph used by Facebook • Par exemple,
to analyze social graphs Facebook utilise
Giraph pour analyser
Hive Pig
les graphiques
sociaux de ses
Giraph

Spark
Storm

Flink
utilisateurs.
MapReduce
HBase

Cassandra
Zookeeper

MongoDB
YARN

HDFS

14
Storm , Spark , Flink
Real-time and
in-memory processing
Storm, Spark et Flink ont
In-memory  100x faster été construits pour les
traitements
for some tasks en temps réel il permettent
d'exécuter des applications
Big Data encore plus
rapidement,
Hive Pig
obtenant 100x de
Giraph

Spark
Storm

meilleures performances
Flink

MapReduce pour certaines tâches.


HBase

Cassandra
Zookeeper

MongoDB
YARN

HDFS
15
Les BD NoSQL : Cassandra, Hbase, MongoD
NoSQL
Key-values
Sparse tables HBase used for
Facebook’s
Hive Pig
Messaging
Giraph

Spark
Storm

Flink Platform
HBase
MapReduce

Cassandra
Zookeeper

MongoDB
YARN
HDFS

16
Zookeeper
Zookeeper for management
Enfin, l'exécution de tous
ces outils nécessite un
Synchronization système de gestion
Configuration centralisé
pour la synchronisation, la
High-availability configuration et pour
garantir une haute
disponibilité.
Hive Pig Zookeeper remplit ces
fonctions.
Giraph

Spark
Storm

Flink
Il a été créé par Yahoo.
C rea ted by Yahoo to wrangle
MapR edu c e
HBase

Cassandra
Zookeeper

seYrAvRiNcesnamed after animals

MongoDB
HDFS
17
Les Distributions

18
Pourquoi des distributions ?
● Pour regrouper de façon homogène les différentes extensions.

● Pour faciliter l’installation, la diffusion, le support.

● Pour permettre d’incuber des “Business Model” pour les éditeurs qui
contribuent largement à Hadoop.

● 3 acteurs majeurs dans l'écosystème :


○ Horton Works
○ Cloudera
○ MapR

19
Hortonworks

● 2011 Yahoo. ● Projets reversés à Hadoop :


● Composants Open Source. ○ YARN
● 1:1 avec Hadoop. ○ HCatalog
○ Ambari 20
Hortonworks
› Hortonworks est une entreprise américaine fondée en 2011 et financée entre
autres par Yahoo!.
› Elle offre une distribution qu’elle a baptisée Hortonworks Data Platform
(HDP).
› Elle intègre dans HDP pratiquement tous les outils qui sont développés par
les communautés open source, ce qui permet aux entreprises de bénéficier
des nouvelles versions d’Hadoop.
› Hortonworks ne concentre pas ses efforts sur le développement de ses
propres outils, elle enrichit HDP que les outils développés par les
communautés open source et construit des solutions métier autour de ces
outils.
› À ce jour, la distribution HDP est constituée de quasiment la majorité des
outils développés par Apache,
21
Cloudera

● Commercial et Open Source. ● Composants propriétaires :


● Hadoop + Composants Maison. ○ Impala (requêtes temps réel)
○ Cloudera Manager (gestion du cluster,
● Projets reversés à Hadoop : déploiement..)
○ Hadoop Common (Utilitaires)
○ Hue (SDK IHM)
22
○ Whirr (SAAS Hadoop)
Cloudera
• Cloudera est une entreprise américaine fondée en 2008 par
d’anciens ingénieurs de Google, Yahoo! et Facebook.
• Cloudera se positionne comme un éditeur indépendant du monde
open source et d’Apache.
• Cloudera développe ses propres technologies et met l’accent sur la
formation.
• Sa distribution Cloudera Distribution including Apache Hadoop (en
abrégé, CDH), est composée en partie des technologies open source
d’Apache et de ses propres technologies.
• CDH inclut des technologies Apache qui restent la propriété
intellectuelle de la fondation Apache.
• Cloudera est également connu pour avoir développé Impala, le
moteur SQL MPP sur Hadoop .

23
MAPR

● 2009, Commercial et Open Source ● Composants propriétaires :


● Refonte du coeur de la plateforme (MapR FS et ○ Cascading (Usine de dev Java)
MapR MapReduce) ○ Vaidya (Perf, Benchmark)
● Optimisé pour Hbase. ○ Drill (Requêtes temps réel)
● Projets reversés à Hadoop :
○ Hbase, Pig, Hive, Mahout 24
○ Sqoop, Flume.
MapR
› MapR est une entreprise américaine fondée en 2009 pour la commercialisation
d’Apache Hadoop.
› Sa distribution, baptisée depuis 2016 Converged Data Platform (CDP), se compose de
trois composants essentiels : MapR FS, MapR Streams, MapR DB, et de quelques
composants d’Apache Hadoop
› MapR-FS (MapR File System) est le système de fichiers distribué de la distribution
MapR. Techniquement, c’est une implémentation de l’API HDF, mais l’accès aux
données se fait aussi bien en lecture qu’en écriture de façon concurrente.
› Avec MapR-FS, plusieurs clients peuvent écrire les données dans un fichier de
façon simultanée.
› Dans le HDFS classique, la compression des données est faite manuellement avant
leur copie dans le cluster, le MapR-FS compresse automatiquement les données,
› MapR Streams est une implémentation de l’API Kafka, optimisée ...

25
Comment choisir une solution Hadoop ?
● Modèle économique (Open Source, Commercial..).
● Les composants.
● Maturité de la solution, le support, la documentation, le
retour d'expériences.
● Le rapport avec Hadoop, la rapidité des évolutions.
● Partenariats (hébergeurs…), compatibilité avec les
produits satellites.

26
Tableau Récapitulatif des outils proposés
Catégories
Cloudera Hortonworks MapR
d’outils
MapReduce,
MapReduce, Spark, MapReduce,
Modèles de calcul Mahout, Spark,
Tez Mahout, Spark
DataFu
Langages
Hive, Pig Hive, Pig Hive, Pig
d’abstraction
SQL Impala HawQ, Phoenix Drill, Impala
Système de fichiers
HDFS, Fuse-DFS HDFS MapR-FS
distribué

Bases de données HBase, Kudu HBase, Accumulo HBase, MapR DB

Traitement temps
Spark Storm Storm
réel
Cloudera Manager, Ambari, Slider, MCS (MapR
Administration
Sentry Atlas, Ranger Control System)
Gestionnaire de
YARN YARN YARN, Myriad
ressources
27

Vous aimerez peut-être aussi