Vous êtes sur la page 1sur 9

Faculté polydiciplinaire de Taroudant

BIG Data

Lab 2 : Utiliser les commandes HDFS

Bouchhar Maryam & Adardour Naima


06/12/2023
Hadoop Distributed File System (HDFS)

HDFS, ou Hadoop Distributed File System, est un système de fichiers distribué conçu
pour stocker et gérer de très grandes quantités de données sur des clusters de machines. Il fait
partie de l'écosystème Apache Hadoop, qui est une plateforme open source utilisée pour le
traitement distribué de données.

Le fonctionnement de HDFS repose sur la répartition des données sur plusieurs nœuds,
avec une réplication des données pour assurer la tolérance aux pannes. Les données sont divisées
en blocs, généralement de taille fixe, et chaque bloc est répliqué sur plusieurs nœuds du cluster.

1. Les commandes HDFS :


 La commande hadoop fs :
La commande hdfs dfs est une commande de ligne de commande utilisée pour interagir
avec le système de fichiers Hadoop Distributed File System (HDFS). Elle fait partie des outils
fournis avec le framework Hadoop pour la gestion des fichiers sur un cluster Hadoop.
hdfs : C'est le programme principal pour interagir avec Hadoop Distributed File
System.
dfs : Cela indique que l'interaction se fait avec le système de fichiers distribué (DFS),
qui est HDFS dans le cas d'Hadoop.
La commande hdfs dfs affichera une liste complète des commandes disponibles avec
leurs descriptions et options associées. Cependant, voici un exemple générique de ce à quoi le
résultat pourrait ressembler :
2. Création d’un répertoire dans HDFS :
2.1 La commande -ls
La commande hdfs dfs -ls affichera le contenu du répertoire utilisateur actuel dans
HDFS.
La commande hdfs dfs -ls / est utilisée pour voir le contenu du répertoire racine HDFS.

2.2 Création de répertoire test :


Cette commande créera un répertoire nomme « test » à la racine de HDFS

hdfs dfs -mkdir test

Pour vérifier que le répertoire « test » est créé avec succès on tape la commande
suivante :
Pour Créer les sous répertoires test/test1 et test/test2/test3 on utilise les commandes :

hdfs dfs -mkdir test/test1


hdfs dfs -mkdir -p test/test2/test3

La première commande crée un sous-répertoire appelé "test1" à l'intérieur du répertoire


"test" et la deuxième fait la même chose que la première, mais avec l'option -p, elle crée
récursivement tous les répertoires nécessaires "test2" et également "test3" dans le répertoire
"test".

La commande hdfs dfs -ls /user/root ne listera que les éléments du répertoire spécifié
sans descendre dans les sous-répertoires.

La commande hdfs dfs -ls -R /user/root listera également les éléments des sous-
répertoires de manière récursive.

3. Suppression de répertoire
La commande hdfs dfs -rm -r test/test2 est utilisée pour supprimer récursivement le
répertoire spécifié dans le système de fichiers HDFS et l'option -r signifie que tous les fichiers et
sous-répertoires du répertoire spécifié seront également supprimés.

hdfs dfs -rm -r test/test2


4. Chargement d’un fichier dans HDFS :
Considérant qu’on a créé le fichier data.txt dans la répertoire /formation/hadoop/labs/, on
vérifie le contenu de fichier data.txt :

La commande hdfs dfs -put /formation/hadoop/labs/data.txt test/ est utilisée pour copier
un fichier depuis le système de fichiers local (ici représenté par le chemin
/formation/hadoop/labs/data.txt) vers un répertoire spécifié dans le système de fichiers HDFS
(Hadoop Distributed File System), dans ce cas, le répertoire test/.

5. Copie les fichiers dans HDFS


Pour copier le fichier data.txt du répertoire test/ du système de fichiers HDFS vers un
fichier appelé data2.txt dans le répertoire test/test1/ on utilise la commande suivante :

hdfs dfs -cp test/data.txt test/test1/data2.txt

Pour vérifier l'existence de fichier à la fois dans test et test2 en une seule commande, on
utilise la commande suivante :
Pour supprimer le fichier data2.txt, on utilise la commande suivante :

hdfs dfs -rm test/test1/data2.txt


6. Visualisation du contenu d’un fichier dans HDFS :
La commande hdfs dfs -tail test/data.txt est utilisée pour afficher les dernières parties du
contenu du fichier data.txt situé dans le répertoire test du système de fichiers HDFS.
La commande hdfs dfs -cat test/data.txt est utilisée pour afficher tout le contenu du
fichier data.txt situé dans le répertoire test du système de fichiers HDFS.

7. Récupération d’un fichier de HDFS et le copie en local :

Pour copier le fichier test/data.txt de HDFS en local dans le répertoire /tmp, on utilise la
commande suivante :
La commande ls /tmp/ a pour but de vérifier que le fichier est bien copié.

8. La commande getmerge :
Pour Copier le fichier /formation/ateliers/hdfs/small_blocks.txt dans hdfs dans le
répertoire test, on utilise la commande hdfs dfs -put <source> <destination>.
Pour vérifier qu’il y a deux fichiers dans test (data.txt et small_blocks.txt), on utilise la
commande hdfs dfs -ls -R test/

 La commande getmerge :
La commande hdfs dfs -getmerge prend le contenu de tous les fichiers dans le répertoire
/test et les fusionne en un seul fichier local nommé merged.txt.

hdfs dfs -getmerge /test /formation/ateliers/hdfs/merged.txt

Vous aimerez peut-être aussi