Vous êtes sur la page 1sur 1

Nom et Prénom : EL AMINE MEHDI

Apache Hadoop est un framework open source, évolutif et tolérant aux pannes, écrit en
Java. Il traite efficacement de grands volumes de données sur un cluster de hardware.
Hadoop n'est pas seulement un système de stockage, mais aussi une plateforme pour le
stockage et le traitement de grandes quantités de données.
Dans cette lecture, nous allons voir comment Apache Hadoop fonctionne "Under The
Hood". Ainsi, lorsque Apache Hadoop reçoit un énorme fichier, le framework divise ce
gros morceau de données en plus petits morceaux et les stocke sur plusieurs machines
pour être traités en parallèle, c'est pourquoi Hadoop relie une armée de machines
largement disponibles et relativement peu coûteuses qui forment un Hadoop cluster.
Et une chose importante, quelle que soit la taille du fichier que l'utilisateur transmet à
Hadoop, chacun de ses clusters accueille trois couches fonctionnelles, Hadoop distributed
file systems pour le stockage des données, Hadoop MapReduce pour le traitement, et
Hadoop Yarn pour la gestion des ressources.
Ensuite, nous avons une brève introduction à HDFS, un système de fichiers distribué qui
suit une architecture master/slave. Il se compose d'un seul NameNode et de nombreux
DataNode. Dans l'architecture HDFS, un fichier est divisé en un ou plusieurs blocs de 128
Mo (la taille peut être modifiée ultérieurement dans les configurations) et stocké dans des
DataNode séparés. Les DataNodes sont responsables des opérations telles que la création,
la suppression et la réplication des blocs selon les instructions du NameNode. En plus de
cela, ils sont chargés d'effectuer des opérations de read-write sur les systèmes de fichiers.
NameNode joue le rôle de serveur master et de contrôleur central pour HDFS. Il contient
les métadonnées et maintient le namespace du système de fichiers, il aussi supervise l'état
du DataNode et coordonne l'accès aux données.

Vous aimerez peut-être aussi