Chap 3 Dsi3 Nosql

Hadoop: présentation
DSI 3
1
Sommaire
› Pourquoi Hadoop ?
› Définition
› Historique
› Ecosystème hadoop
› Les Distributions
2
Définition
› Hadoop est le framework le plus utilisé actuellement pour
manipuler et faire du Big Data.
› Apache Hadoop est un framework qui va permettre le

traitement de données massives sur un cluster allant
d’une à plusieurs centaines de machines.
› C’est un projet open source (Apache v2 licence).”
“The Hadoop Ecosystem is great for Big Data”
3
Hadoop : Historique
2017
Hadoop
3,0
4
Hadoop : Références.
En 10 ans, son adoption ne fait plus aucun doute
!
Pourquoi Hadoop ?
› Enable Scalability => Commodity hardware is cheap
› Handle Fault Tolerance => « Be ready: crashes happen »
› Optimized for a Variety Data Types
› Facilitate a Shared Environment
› Provide Value => Community-supported + Wide range of
applications
6
L’écosystème HADOOP
7
› Regardons un ensemble d'outils dans l'écosystème
Hadoop comme un diagramme de couches.
› Ce diagramme de couche est organisé verticalement en
fonction de l'interface.
› Interfaces de bas niveau, donc stockage et planification, en
bas.
› Et les langues de haut niveau et l'interactivité au sommet.
8
Higher
OUTILS HADOOP levels:Interactivity
Lower
levels:Storage and
scheduling
9
HDFS : Distributed file system as foundation
Scalable storage
Fault tolerance
Hive Pig Giraph
Spark
Storm
Flink
MapReduce
HBase
Cassandra
Zookeeper
MongoDB
YARN
HDFS
10
YARN
Flexible scheduling and

resource management • Hadoop YARN offre une
planification flexible et une
gestion des ressources sur
YARN schedules jobs on le stockage HDFS.
Hive >P4
i g0,000 servers at Yahoo
• YARN est utilisé chez
Giraph
Spark
Storm
Flink Yahoo pour planifier des

MapReduce
HBase tâches sur 40 000 serveurs.
Cassandra
Zookeeper
MongoDB
YARN
HDFS
11
MAP REDUCE
• MapReduce est un
Simplified programming model modèle de
programmation qui
Map  apply() simplifie l'informatique
parallèle.
• Au lieu de traiter les
Reduce  summarize() complexités de la
synchronisation et de
la planification on offre
Hive Pig à MapReduce deux
fonctions, mapper et
Giraph
Spark
Storm
Flink
MapReduce réduire.
HBase
• Google utilisait le
Cassandra
MongoDB
modèle de
G oogle used MapReduce
YAR N
programmation
HDfFoSr indexing web sites Mapreduce pour
indexer des sites Web.
12
Hive & Pig
Higher-level programming models • Hive et Pig sont deux
modèles de
programmation
Pig = dataflow scripting supplémentaires pour
augmenter la modélisation
Hive = SQL-like queries des
MapReduce
données de
• Hive a été créé par

Facebook pour émettre
Hive Pig
des requêtes de type SQL
Giraph
en utilisant MapReduce
Spark
Storm
Flink
MapReduce sur leurs données en
HBase
Pig created at Yahoo,
Cassandra
HDFS.
Zookeeper
MongoDB
YARN • Pig a été créé à Yahoo
Hive created at Facebook pour modéliser les
HDFS programmes basés sur le
flux de données à l'aide de
MapReduce. 13
Giraph
• Giraph a été conçu
Specialized models pour traiter
for graph processing efficacement les
graphiques à grande
échelle.
Giraph used by Facebook • Par exemple,
to analyze social graphs Facebook utilise
Giraph pour analyser
Hive Pig
les graphiques
sociaux de ses
Giraph
Spark
Storm
Flink
utilisateurs.
MapReduce
HBase
Cassandra
Zookeeper
MongoDB
YARN
HDFS
14
Storm , Spark , Flink
Real-time and
in-memory processing
Storm, Spark et Flink ont
In-memory  100x faster été construits pour les
traitements
for some tasks en temps réel il permettent
d'exécuter des applications
Big Data encore plus
rapidement,
Hive Pig
obtenant 100x de
Giraph
Spark
Storm
meilleures performances
Flink
MapReduce pour certaines tâches.

HBase
Cassandra
Zookeeper
MongoDB
YARN
HDFS
15
Les BD NoSQL : Cassandra, Hbase, MongoD
NoSQL
Key-values
Sparse tables HBase used for
Facebook’s
Hive Pig
Messaging
Giraph
Spark
Storm
Flink Platform
HBase
MapReduce
Cassandra
Zookeeper
MongoDB
YARN
HDFS
16
Zookeeper
Zookeeper for management
Enfin, l'exécution de tous
ces outils nécessite un
Synchronization système de gestion
Configuration centralisé
pour la synchronisation, la
High-availability configuration et pour
garantir une haute
disponibilité.
Hive Pig Zookeeper remplit ces
fonctions.
Giraph
Spark
Storm
Flink
Il a été créé par Yahoo.
C rea ted by Yahoo to wrangle
MapR edu c e
HBase
Cassandra
Zookeeper
seYrAvRiNcesnamed after animals
MongoDB
HDFS
17
Les Distributions
18
Pourquoi des distributions ?
● Pour regrouper de façon homogène les différentes extensions.
● Pour faciliter l’installation, la diffusion, le support.
● Pour permettre d’incuber des “Business Model” pour les éditeurs qui
contribuent largement à Hadoop.
● 3 acteurs majeurs dans l'écosystème :

○ Horton Works
○ Cloudera
○ MapR
19
Hortonworks
● 2011 Yahoo. ● Projets reversés à Hadoop :

● Composants Open Source. ○ YARN
● 1:1 avec Hadoop. ○ HCatalog
○ Ambari 20
Hortonworks
› Hortonworks est une entreprise américaine fondée en 2011 et financée entre
autres par Yahoo!.
› Elle offre une distribution qu’elle a baptisée Hortonworks Data Platform
(HDP).
› Elle intègre dans HDP pratiquement tous les outils qui sont développés par
les communautés open source, ce qui permet aux entreprises de bénéficier
des nouvelles versions d’Hadoop.
› Hortonworks ne concentre pas ses efforts sur le développement de ses
propres outils, elle enrichit HDP que les outils développés par les
communautés open source et construit des solutions métier autour de ces
outils.
› À ce jour, la distribution HDP est constituée de quasiment la majorité des
outils développés par Apache,
21
Cloudera
● Commercial et Open Source. ● Composants propriétaires :

● Hadoop + Composants Maison. ○ Impala (requêtes temps réel)
○ Cloudera Manager (gestion du cluster,
● Projets reversés à Hadoop : déploiement..)
○ Hadoop Common (Utilitaires)
○ Hue (SDK IHM)
22
○ Whirr (SAAS Hadoop)
Cloudera
• Cloudera est une entreprise américaine fondée en 2008 par
d’anciens ingénieurs de Google, Yahoo! et Facebook.
• Cloudera se positionne comme un éditeur indépendant du monde
open source et d’Apache.
• Cloudera développe ses propres technologies et met l’accent sur la
formation.
• Sa distribution Cloudera Distribution including Apache Hadoop (en
abrégé, CDH), est composée en partie des technologies open source
d’Apache et de ses propres technologies.
• CDH inclut des technologies Apache qui restent la propriété
intellectuelle de la fondation Apache.
• Cloudera est également connu pour avoir développé Impala, le
moteur SQL MPP sur Hadoop .
23
MAPR
● 2009, Commercial et Open Source ● Composants propriétaires :

● Refonte du coeur de la plateforme (MapR FS et ○ Cascading (Usine de dev Java)
MapR MapReduce) ○ Vaidya (Perf, Benchmark)
● Optimisé pour Hbase. ○ Drill (Requêtes temps réel)
● Projets reversés à Hadoop :
○ Hbase, Pig, Hive, Mahout 24
○ Sqoop, Flume.
MapR
› MapR est une entreprise américaine fondée en 2009 pour la commercialisation
d’Apache Hadoop.
› Sa distribution, baptisée depuis 2016 Converged Data Platform (CDP), se compose de
trois composants essentiels : MapR FS, MapR Streams, MapR DB, et de quelques
composants d’Apache Hadoop
› MapR-FS (MapR File System) est le système de fichiers distribué de la distribution
MapR. Techniquement, c’est une implémentation de l’API HDF, mais l’accès aux
données se fait aussi bien en lecture qu’en écriture de façon concurrente.
› Avec MapR-FS, plusieurs clients peuvent écrire les données dans un fichier de
façon simultanée.
› Dans le HDFS classique, la compression des données est faite manuellement avant
leur copie dans le cluster, le MapR-FS compresse automatiquement les données,
› MapR Streams est une implémentation de l’API Kafka, optimisée ...
25
Comment choisir une solution Hadoop ?
● Modèle économique (Open Source, Commercial..).
● Les composants.
● Maturité de la solution, le support, la documentation, le
retour d'expériences.
● Le rapport avec Hadoop, la rapidité des évolutions.
● Partenariats (hébergeurs…), compatibilité avec les
produits satellites.
26
Tableau Récapitulatif des outils proposés
Catégories
Cloudera Hortonworks MapR
d’outils
MapReduce,
MapReduce, Spark, MapReduce,
Modèles de calcul Mahout, Spark,
Tez Mahout, Spark
DataFu
Langages
Hive, Pig Hive, Pig Hive, Pig
d’abstraction
SQL Impala HawQ, Phoenix Drill, Impala
Système de fichiers
HDFS, Fuse-DFS HDFS MapR-FS
distribué
Bases de données HBase, Kudu HBase, Accumulo HBase, MapR DB
Traitement temps
Spark Storm Storm
réel
Cloudera Manager, Ambari, Slider, MCS (MapR
Administration
Sentry Atlas, Ranger Control System)
Gestionnaire de
YARN YARN YARN, Myriad
ressources
27

Chap 3 Dsi3 Nosql

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 3 Dsi3 Nosql

Transféré par

Droits d'auteur :

Formats disponibles

Hadoop: présentation

› Apache Hadoop est un framework qui va permettre le

Hive Pig Giraph

Flexible scheduling and

Flink Yahoo pour planifier des

• Hive a été créé par

MapReduce pour certaines tâches.

seYrAvRiNcesnamed after animals

● Pour faciliter l’installation, la diffusion, le support.

● 3 acteurs majeurs dans l'écosystème :

● 2011 Yahoo. ● Projets reversés à Hadoop :

● Commercial et Open Source. ● Composants propriétaires :

● 2009, Commercial et Open Source ● Composants propriétaires :

Bases de données HBase, Kudu HBase, Accumulo HBase, MapR DB

Vous aimerez peut-être aussi