Académique Documents
Professionnel Documents
Culture Documents
BIG Data
HDFS, ou Hadoop Distributed File System, est un système de fichiers distribué conçu
pour stocker et gérer de très grandes quantités de données sur des clusters de machines. Il fait
partie de l'écosystème Apache Hadoop, qui est une plateforme open source utilisée pour le
traitement distribué de données.
Le fonctionnement de HDFS repose sur la répartition des données sur plusieurs nœuds,
avec une réplication des données pour assurer la tolérance aux pannes. Les données sont divisées
en blocs, généralement de taille fixe, et chaque bloc est répliqué sur plusieurs nœuds du cluster.
Pour vérifier que le répertoire « test » est créé avec succès on tape la commande
suivante :
Pour Créer les sous répertoires test/test1 et test/test2/test3 on utilise les commandes :
La commande hdfs dfs -ls /user/root ne listera que les éléments du répertoire spécifié
sans descendre dans les sous-répertoires.
La commande hdfs dfs -ls -R /user/root listera également les éléments des sous-
répertoires de manière récursive.
3. Suppression de répertoire
La commande hdfs dfs -rm -r test/test2 est utilisée pour supprimer récursivement le
répertoire spécifié dans le système de fichiers HDFS et l'option -r signifie que tous les fichiers et
sous-répertoires du répertoire spécifié seront également supprimés.
La commande hdfs dfs -put /formation/hadoop/labs/data.txt test/ est utilisée pour copier
un fichier depuis le système de fichiers local (ici représenté par le chemin
/formation/hadoop/labs/data.txt) vers un répertoire spécifié dans le système de fichiers HDFS
(Hadoop Distributed File System), dans ce cas, le répertoire test/.
Pour vérifier l'existence de fichier à la fois dans test et test2 en une seule commande, on
utilise la commande suivante :
Pour supprimer le fichier data2.txt, on utilise la commande suivante :
Pour copier le fichier test/data.txt de HDFS en local dans le répertoire /tmp, on utilise la
commande suivante :
La commande ls /tmp/ a pour but de vérifier que le fichier est bien copié.
8. La commande getmerge :
Pour Copier le fichier /formation/ateliers/hdfs/small_blocks.txt dans hdfs dans le
répertoire test, on utilise la commande hdfs dfs -put <source> <destination>.
Pour vérifier qu’il y a deux fichiers dans test (data.txt et small_blocks.txt), on utilise la
commande hdfs dfs -ls -R test/
La commande getmerge :
La commande hdfs dfs -getmerge prend le contenu de tous les fichiers dans le répertoire
/test et les fusionne en un seul fichier local nommé merged.txt.