Académique Documents
Professionnel Documents
Culture Documents
DSI 3
1
Sommaire
› Pourquoi Hadoop ?
› Définition
› Historique
› Ecosystème hadoop
› Les Distributions
2
Définition
› Hadoop est le framework le plus utilisé actuellement pour
manipuler et faire du Big Data.
3
Hadoop : Historique
2017
Hadoop
3,0
4
Hadoop : Références.
En 10 ans, son adoption ne fait plus aucun doute
!
Pourquoi Hadoop ?
› Enable Scalability => Commodity hardware is cheap
› Handle Fault Tolerance => « Be ready: crashes happen »
› Optimized for a Variety Data Types
› Facilitate a Shared Environment
› Provide Value => Community-supported + Wide range of
applications
6
L’écosystème HADOOP
7
› Regardons un ensemble d'outils dans l'écosystème
Hadoop comme un diagramme de couches.
› Ce diagramme de couche est organisé verticalement en
fonction de l'interface.
› Interfaces de bas niveau, donc stockage et planification, en
bas.
› Et les langues de haut niveau et l'interactivité au sommet.
8
Higher
OUTILS HADOOP levels:Interactivity
Lower
levels:Storage and
scheduling
9
HDFS : Distributed file system as foundation
Scalable storage
Fault tolerance
Spark
Storm
Flink
MapReduce
HBase
Cassandra
Zookeeper
MongoDB
YARN
HDFS
10
YARN
Spark
Storm
Cassandra
Zookeeper
MongoDB
YARN
HDFS
11
MAP REDUCE
• MapReduce est un
Simplified programming model modèle de
programmation qui
Map apply() simplifie l'informatique
parallèle.
• Au lieu de traiter les
Reduce summarize() complexités de la
synchronisation et de
la planification on offre
Hive Pig à MapReduce deux
fonctions, mapper et
Giraph
Spark
Storm
Flink
MapReduce réduire.
HBase
• Google utilisait le
Cassandra
MongoDB
modèle de
G oogle used MapReduce
YAR N
programmation
HDfFoSr indexing web sites Mapreduce pour
indexer des sites Web.
12
Hive & Pig
Higher-level programming models • Hive et Pig sont deux
modèles de
programmation
Pig = dataflow scripting supplémentaires pour
augmenter la modélisation
Hive = SQL-like queries des
MapReduce
données de
en utilisant MapReduce
Spark
Storm
Flink
MapReduce sur leurs données en
HBase
Pig created at Yahoo,
Cassandra
HDFS.
Zookeeper
MongoDB
YARN • Pig a été créé à Yahoo
Hive created at Facebook pour modéliser les
HDFS programmes basés sur le
flux de données à l'aide de
MapReduce. 13
Giraph
• Giraph a été conçu
Specialized models pour traiter
for graph processing efficacement les
graphiques à grande
échelle.
Giraph used by Facebook • Par exemple,
to analyze social graphs Facebook utilise
Giraph pour analyser
Hive Pig
les graphiques
sociaux de ses
Giraph
Spark
Storm
Flink
utilisateurs.
MapReduce
HBase
Cassandra
Zookeeper
MongoDB
YARN
HDFS
14
Storm , Spark , Flink
Real-time and
in-memory processing
Storm, Spark et Flink ont
In-memory 100x faster été construits pour les
traitements
for some tasks en temps réel il permettent
d'exécuter des applications
Big Data encore plus
rapidement,
Hive Pig
obtenant 100x de
Giraph
Spark
Storm
meilleures performances
Flink
Cassandra
Zookeeper
MongoDB
YARN
HDFS
15
Les BD NoSQL : Cassandra, Hbase, MongoD
NoSQL
Key-values
Sparse tables HBase used for
Facebook’s
Hive Pig
Messaging
Giraph
Spark
Storm
Flink Platform
HBase
MapReduce
Cassandra
Zookeeper
MongoDB
YARN
HDFS
16
Zookeeper
Zookeeper for management
Enfin, l'exécution de tous
ces outils nécessite un
Synchronization système de gestion
Configuration centralisé
pour la synchronisation, la
High-availability configuration et pour
garantir une haute
disponibilité.
Hive Pig Zookeeper remplit ces
fonctions.
Giraph
Spark
Storm
Flink
Il a été créé par Yahoo.
C rea ted by Yahoo to wrangle
MapR edu c e
HBase
Cassandra
Zookeeper
MongoDB
HDFS
17
Les Distributions
18
Pourquoi des distributions ?
● Pour regrouper de façon homogène les différentes extensions.
● Pour permettre d’incuber des “Business Model” pour les éditeurs qui
contribuent largement à Hadoop.
19
Hortonworks
23
MAPR
25
Comment choisir une solution Hadoop ?
● Modèle économique (Open Source, Commercial..).
● Les composants.
● Maturité de la solution, le support, la documentation, le
retour d'expériences.
● Le rapport avec Hadoop, la rapidité des évolutions.
● Partenariats (hébergeurs…), compatibilité avec les
produits satellites.
26
Tableau Récapitulatif des outils proposés
Catégories
Cloudera Hortonworks MapR
d’outils
MapReduce,
MapReduce, Spark, MapReduce,
Modèles de calcul Mahout, Spark,
Tez Mahout, Spark
DataFu
Langages
Hive, Pig Hive, Pig Hive, Pig
d’abstraction
SQL Impala HawQ, Phoenix Drill, Impala
Système de fichiers
HDFS, Fuse-DFS HDFS MapR-FS
distribué
Traitement temps
Spark Storm Storm
réel
Cloudera Manager, Ambari, Slider, MCS (MapR
Administration
Sentry Atlas, Ranger Control System)
Gestionnaire de
YARN YARN YARN, Myriad
ressources
27