Académique Documents
Professionnel Documents
Culture Documents
M2 IA4IOT
Chapitre 03 Partie02
S. BENHAMED 2
Pile Hadoop HDFS (1/2)
S. BENHAMED 3
Pile Hadoop HDFS (2/2)
S. BENHAMED 4
Pile Hadoop YARN (1/4)
Yet Another Resource Negotiator
• Gestion de clusters : gestionnaire de ressources et des tâches
• Trois principaux composants :
➢Resource Manager
➢Nodes Managers
➢Application manager
S. BENHAMED 5
Pile Hadoop YARN (2/4)
Principe
Resource Manager
Chargé de recevoir les demandes de calculs et de
les dispatcher aux nodes managers
S. BENHAMED 6
Pile Hadoop YARN (3/4)
Principe
Nodes Managers
Installés sur chaque datanode se chargeront
d’effectuer des calculs au sein de ce datanode.
S. BENHAMED 7
Pile Hadoop YARN (4/4)
Application manager
une interface de négociation de ressource entre le resource
manager et des nodes managers. C’est grâce à lui que le resource
manager arrive à connaitre la puissance de calcul disponible dans
chaque conteneur (l’environnement dans lequel les processus de
chaque datanode sont exécutés).
S. BENHAMED 8
Pile Hadoop Spark
• Outils Apache open source de programmation distribuée
• Plus puissant qu’Hadoop (capable de stocker une grande partie des données
de traitement dans la mémoire et sur le disque)
• Traitement à grande échelle et le machine learning par lots et en streaming
• peut fonctionner sous la forme d'un système autonome (une seule machine
locale), d'un service cloud ou en surcouche des systèmes distribués les plus
répandus
• Mode d’exécution : Maitre/esclave, standalone scheduler (le mode natif
qui gère un cluster Spark) ou bien en se basant sur un cluster
S. BENHAMED 9
Pile Hadoop Spark
S. BENHAMED 10
Pile Hadoop Spark
import pyspark
from pyspark import SparkContext, SparkConf
conf =
pyspark.SparkConf().setAppName('appName').setMaster('local’)
sc = pyspark.SparkContext(conf=conf)
# sc = SparkContext()
# sc = SparkContext.getOrCreate()
spark = SparkSession(sc)
S. BENHAMED 11