Lab2 Hdfs

Faculté polydiciplinaire de Taroudant
BIG Data
Lab 2 : Utiliser les commandes HDFS
Bouchhar Maryam & Adardour Naima

06/12/2023
Hadoop Distributed File System (HDFS)
HDFS, ou Hadoop Distributed File System, est un système de fichiers distribué conçu
pour stocker et gérer de très grandes quantités de données sur des clusters de machines. Il fait
partie de l'écosystème Apache Hadoop, qui est une plateforme open source utilisée pour le
traitement distribué de données.
Le fonctionnement de HDFS repose sur la répartition des données sur plusieurs nœuds,
avec une réplication des données pour assurer la tolérance aux pannes. Les données sont divisées
en blocs, généralement de taille fixe, et chaque bloc est répliqué sur plusieurs nœuds du cluster.
1. Les commandes HDFS :

 La commande hadoop fs :
La commande hdfs dfs est une commande de ligne de commande utilisée pour interagir
avec le système de fichiers Hadoop Distributed File System (HDFS). Elle fait partie des outils
fournis avec le framework Hadoop pour la gestion des fichiers sur un cluster Hadoop.
hdfs : C'est le programme principal pour interagir avec Hadoop Distributed File
System.
dfs : Cela indique que l'interaction se fait avec le système de fichiers distribué (DFS),
qui est HDFS dans le cas d'Hadoop.
La commande hdfs dfs affichera une liste complète des commandes disponibles avec
leurs descriptions et options associées. Cependant, voici un exemple générique de ce à quoi le
résultat pourrait ressembler :
2. Création d’un répertoire dans HDFS :
2.1 La commande -ls
La commande hdfs dfs -ls affichera le contenu du répertoire utilisateur actuel dans
HDFS.
La commande hdfs dfs -ls / est utilisée pour voir le contenu du répertoire racine HDFS.
2.2 Création de répertoire test :

Cette commande créera un répertoire nomme « test » à la racine de HDFS
hdfs dfs -mkdir test
Pour vérifier que le répertoire « test » est créé avec succès on tape la commande
suivante :
Pour Créer les sous répertoires test/test1 et test/test2/test3 on utilise les commandes :
hdfs dfs -mkdir test/test1

hdfs dfs -mkdir -p test/test2/test3
La première commande crée un sous-répertoire appelé "test1" à l'intérieur du répertoire

"test" et la deuxième fait la même chose que la première, mais avec l'option -p, elle crée
récursivement tous les répertoires nécessaires "test2" et également "test3" dans le répertoire
"test".
La commande hdfs dfs -ls /user/root ne listera que les éléments du répertoire spécifié
sans descendre dans les sous-répertoires.
La commande hdfs dfs -ls -R /user/root listera également les éléments des sous-
répertoires de manière récursive.
3. Suppression de répertoire
La commande hdfs dfs -rm -r test/test2 est utilisée pour supprimer récursivement le
répertoire spécifié dans le système de fichiers HDFS et l'option -r signifie que tous les fichiers et
sous-répertoires du répertoire spécifié seront également supprimés.
hdfs dfs -rm -r test/test2

4. Chargement d’un fichier dans HDFS :
Considérant qu’on a créé le fichier data.txt dans la répertoire /formation/hadoop/labs/, on
vérifie le contenu de fichier data.txt :
La commande hdfs dfs -put /formation/hadoop/labs/data.txt test/ est utilisée pour copier
un fichier depuis le système de fichiers local (ici représenté par le chemin
/formation/hadoop/labs/data.txt) vers un répertoire spécifié dans le système de fichiers HDFS
(Hadoop Distributed File System), dans ce cas, le répertoire test/.
5. Copie les fichiers dans HDFS

Pour copier le fichier data.txt du répertoire test/ du système de fichiers HDFS vers un
fichier appelé data2.txt dans le répertoire test/test1/ on utilise la commande suivante :
hdfs dfs -cp test/data.txt test/test1/data2.txt
Pour vérifier l'existence de fichier à la fois dans test et test2 en une seule commande, on
utilise la commande suivante :
Pour supprimer le fichier data2.txt, on utilise la commande suivante :
hdfs dfs -rm test/test1/data2.txt

6. Visualisation du contenu d’un fichier dans HDFS :
La commande hdfs dfs -tail test/data.txt est utilisée pour afficher les dernières parties du
contenu du fichier data.txt situé dans le répertoire test du système de fichiers HDFS.
La commande hdfs dfs -cat test/data.txt est utilisée pour afficher tout le contenu du
fichier data.txt situé dans le répertoire test du système de fichiers HDFS.
7. Récupération d’un fichier de HDFS et le copie en local :
Pour copier le fichier test/data.txt de HDFS en local dans le répertoire /tmp, on utilise la
commande suivante :
La commande ls /tmp/ a pour but de vérifier que le fichier est bien copié.
8. La commande getmerge :
Pour Copier le fichier /formation/ateliers/hdfs/small_blocks.txt dans hdfs dans le
répertoire test, on utilise la commande hdfs dfs -put <source> <destination>.
Pour vérifier qu’il y a deux fichiers dans test (data.txt et small_blocks.txt), on utilise la
commande hdfs dfs -ls -R test/
 La commande getmerge :
La commande hdfs dfs -getmerge prend le contenu de tous les fichiers dans le répertoire
/test et les fusionne en un seul fichier local nommé merged.txt.
hdfs dfs -getmerge /test /formation/ateliers/hdfs/merged.txt

Lab2 Hdfs

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lab2 Hdfs

Transféré par

Droits d'auteur :

Formats disponibles

Faculté polydiciplinaire de Taroudant

Lab 2 : Utiliser les commandes HDFS

Bouchhar Maryam & Adardour Naima

1. Les commandes HDFS :

2.2 Création de répertoire test :

hdfs dfs -mkdir test

hdfs dfs -mkdir test/test1

La première commande crée un sous-répertoire appelé "test1" à l'intérieur du répertoire

hdfs dfs -rm -r test/test2

5. Copie les fichiers dans HDFS

hdfs dfs -cp test/data.txt test/test1/data2.txt

hdfs dfs -rm test/test1/data2.txt

7. Récupération d’un fichier de HDFS et le copie en local :

hdfs dfs -getmerge /test /formation/ateliers/hdfs/merged.txt

Vous aimerez peut-être aussi