Vous êtes sur la page 1sur 17

Hadoop

Réalisé par :
Rihab Chaouch
Alaa el Ghoul
Plan
Fonctionnement de
01 Définition 03 Hadoop

Composition de
02 Hadoop 04 Ecosystéme
01

Définition
Qu’est-ce qu’Hadoop
● Apache Hadoop est un Framework open source utilisé pour stocker et
traiter efficacement de grands ensembles de données dont la taille varie
de giga-octets à pétaoctets de données. Au lieu d'utiliser un gros
ordinateur pour stocker et traiter les données,
● Hadoop permet de regrouper plusieurs ordinateurs pour analyser plus
rapidement des ensembles de données volumineux en parallèle.
02

Composition de
Hadoop
Hadoop se compose de quatre modules
principaux :
• Hadoop Distributed File System (HDFS) :
 Un système de fichiers distribué qui s'exécute sur du matériel standard ou bas
de gamme. 
• YetAnother Resource Negotiator (YARN) :
 Gère et surveille les nœuds de cluster et l'utilisation des ressources. Il
planifie les travaux et les tâches.
• MapReduce :
 Un cadre qui aide les programmes à effectuer le calcul parallèle sur
les données. La
• Hadoop Common:
 Fournit des bibliothèques Java communes qui peuvent être utilisées dans
tous les modules.
03

Fonctionnement de
Hadoop
Comment fonctionne Hadoop ? 
Hadoop facilite l'utilisation de toute la capacité de stockage et de traitement des
serveurs de cluster et l'exécution de processus distribués sur d'énormes quantités de
données. Hadoop fournit les blocs de construction sur lesquels d'autres services et
applications peuvent être construit.

=>Les applications qui collectent des données dans différents formats peuvent placer
des données dans le cluster Hadoop en utilisant une opération d'API pour se
connecter au Name Node.
04 Ecosystème
L'écosystème Hadoop s'est considérablement développé au fil des ans en raison de son
extensibilité. Aujourd'hui, l'écosystème Hadoop comprend de nombreux outils et applications pour
aider à collecter, stocker, traiter, analyser et gérer le Big Data. Certaines des applications les plus
populaires sont :

Spark :=>Un système de traitement distribué open source couramment utilisé pour les charges de
travail Big Data. Apache Spark utilise la mise en cache en mémoire et une exécution optimisée pour
des performances rapides, et il prend en charge le traitement par lots général, l'analyse en continu,
l'apprentissage automatique, les bases de données de graphes et les requêtes ad hoc.

Presto:=> Un moteur de requête SQL open source et distribué optimisé pour une analyse ad hoc des
données à faible latence. Il prend en charge la norme ANSI SQL, y compris les requêtes complexes,
les agrégations, les jointures et les fonctions de fenêtre. Presto peut traiter des données provenant de
plusieurs sources de données, notamment le système de fichiers distribués Hadoop (HDFS) et
Amazon S3.
Hive :=> Permet aux utilisateurs de tirer parti de Hadoop MapReduce à l'aide d'une interface
SQL, permettant des analyses à grande échelle, en plus d'un entrepôt de données distribué et
tolérant aux pannes.

Hbase:=> Une base de données open source, non relationnelle et versionnée qui s'exécute sur
Amazon S3 (à l'aide d'EMRFS) ou sur le système de fichiers distribués Hadoop
(HDFS). HBase est un magasin de Big Data massivement évolutif et distribué, conçu pour un
accès aléatoire, strictement cohérent et en temps réel à des tables contenant des milliards de
lignes et des millions de colonnes.
Zeppelin -Un bloc-notes interactif qui permet l'exploration interactive des données.
Architecture Hadoop :
Le système de fichiers distribué Hadoop (HDFS) est la couche de stockage de Hadoop. Hébergées
sur plusieurs serveurs, les données sont divisées en blocs en fonction de la taille du fichier. Ces
blocs sont ensuite répartis de manière aléatoire et stockés sur les machines esclaves.

HDFS dans Hadoop Architecture divise les données volumineuses en différents blocs. Répliqué trois
fois par défaut, chaque bloc contient 128 Mo de données. Les réplications fonctionnent selon
deux règles :
 Deux blocs identiques ne peuvent pas être placés sur le même Data Node
 Lorsqu'un cluster est compatible avec le rack, toutes les répliques d'un bloc ne peuvent pas être
placées sur le même rack
Dans cet exemple, les blocs A, B, C et D sont répliqués trois fois et placés sur des racks différents. Si
Data Node 7 plante, nous avons toujours deux copies des données du bloc C sur Data Node 4 du
Rack 1 et Data Node 9 du Rack 3.
Il existe trois composants du système de fichiers distribué Hadoop :  
 Name Node (alias master Node) : Contient des métadonnées dans la RAM et le disque,
 Name Node secondaire : contient une copie des métadonnées de Name Node sur le disque
 Nœud esclave : contient les données réelles sous forme de blocs
MERCI POUR VOTRE
ATTENTION

Vous aimerez peut-être aussi