Vous êtes sur la page 1sur 11

Module: Gestion de données massives

M2 IA4IOT
Chapitre 03 Partie02

Année universitaire 2023-2024


S. BENHAMED
Chapitre 03 Partie02
Introduction au Big Data

S. BENHAMED 2
Pile Hadoop HDFS (1/2)

The Hadoop Distributed File System


• système de stockage pour Hadoop.
• gère le stockage distribué des données.
• fournit la tolérance aux pannes nécessaire lors de l’exploitation d’un
cluster.

S. BENHAMED 3
Pile Hadoop HDFS (2/2)

S. BENHAMED 4
Pile Hadoop YARN (1/4)
Yet Another Resource Negotiator
• Gestion de clusters : gestionnaire de ressources et des tâches
• Trois principaux composants :
➢Resource Manager
➢Nodes Managers
➢Application manager

S. BENHAMED 5
Pile Hadoop YARN (2/4)
Principe
Resource Manager
Chargé de recevoir les demandes de calculs et de
les dispatcher aux nodes managers

S. BENHAMED 6
Pile Hadoop YARN (3/4)
Principe
Nodes Managers
Installés sur chaque datanode se chargeront
d’effectuer des calculs au sein de ce datanode.

S. BENHAMED 7
Pile Hadoop YARN (4/4)
Application manager
une interface de négociation de ressource entre le resource
manager et des nodes managers. C’est grâce à lui que le resource
manager arrive à connaitre la puissance de calcul disponible dans
chaque conteneur (l’environnement dans lequel les processus de
chaque datanode sont exécutés).

S. BENHAMED 8
Pile Hadoop Spark
• Outils Apache open source de programmation distribuée
• Plus puissant qu’Hadoop (capable de stocker une grande partie des données
de traitement dans la mémoire et sur le disque)
• Traitement à grande échelle et le machine learning par lots et en streaming
• peut fonctionner sous la forme d'un système autonome (une seule machine
locale), d'un service cloud ou en surcouche des systèmes distribués les plus
répandus
• Mode d’exécution : Maitre/esclave, standalone scheduler (le mode natif
qui gère un cluster Spark) ou bien en se basant sur un cluster

S. BENHAMED 9
Pile Hadoop Spark

S. BENHAMED 10
Pile Hadoop Spark
import pyspark
from pyspark import SparkContext, SparkConf

conf =
pyspark.SparkConf().setAppName('appName').setMaster('local’)

sc = pyspark.SparkContext(conf=conf)
# sc = SparkContext()
# sc = SparkContext.getOrCreate()

spark = SparkSession(sc)
S. BENHAMED 11

Vous aimerez peut-être aussi