Atelier HDFS

TP1 : HDFS
Exercices de révision
Exercice 1 :
Cet exercice permet de répondre à des questions sur HDFS afin de renforcer les concepts présentés dans
le cours.
1. Quels sont les trois démons/services qui gèrent HDFS ? Comment vérifier qu’ils sont bien
lancés ? Quel est le rôle de chacun ?
2. C’est quoi la réplication de bloc dans HDFS ? Quel est le facteur de réplication par défaut ?
3. Quelle est la taille d’un bloc de fichier par défaut avec HDFS ? Sachant que la propriété qui fixe
la taille du bloc est : « dfs.blocksize», modifier la taille du bloc HDFS à 2k ( soit 2048 bytes)
4. Quelle es la solution la solution proposée par Hadoop au cas où le namenode tombe en panne.
Exercice 2 :
Dans cet exercice, vous serez familiarisé avec une installation Pseudo-Distribuée. Aussi, vous vous
entraînez à utiliser les commandes Shell HDFS. Vous serez capable de créer, explorer, supprimer et
copier des fichiers vers / depuis HDFS. La machine virtuelle a été configurée avec une installation de
HDFS dans le mode pseudo-distribué.
1. Quelle est l'URL de Namenode et dans quel fichier est-il configuré ?

2. Quel sont les métadonnées de namenode (données de gestion des nœuds et de stockage). Sur
quel emplacement du système de fichiers local, Namenode stockera ces meta-données et dans
quel fichier est-il configuré ?
3. Où Datanode stocke-t-il ses blocs sur un système de fichiers local et dans quel fichier est-il
configuré ?
4. Quelle est la réplication de bloc et quel est le fichier de configuration ?
5. Comment démarrer les services de HDFS.
Manipulation Pratique
Avant de commencer : Hadoop hdfs offre une interface web pour superviser et manipuler la
plateforme : elle accessible avec l’URL : localhost :9870
Vous pouvez l’utiliser pour effectuer quelques manipulations et pour voir les résultats de l’exécution des
commandes.
Exercice 3
1. Démarrez HDFS et vérifiez qu'il est en cours d'exécution. N’oubliez de formater le namenode et
le datanode si ce n’est pas encore fait (le formatage efface toutes les données et initialise les
structures données du namenode et datanode.).
2. Créez un nouveau répertoire / exercice1 sur le SGF HDFS
3. Sur votre SCF local, Créer un nouveau fichier test.txt
4. Ecrire dans test.txt des lignes de votre choix.
5. Copier le fichier test.txt du système local dans HDFS sous le répertoire /exercice1 du système
HDFS
6. Affichez le contenu du répertoire /exercise1
7. Déterminez la taille du fichier test.txt qui se trouve sur HDFS
8. En utilisant la commande Head de HDFS, Imprimez le premier Ko du fichier à l'écran depuis
test.txt sur HDFS
9. Copiez test.txt dans test_hdfsCopy.txt
10. Copiez test.txt retour au système de fichiers local et nommez-le test_copy.txt
11. Supprimez le dernier fichier de HDFS
12. Supprimez-le répertoire /exercise1 de HDFS
Aide-mémoire
Avec hadoop, on peut exécuter essentiellement trois types de commandes :
• Fomatage : pour formater le système de fichier
$Hadoop namenode -format
Ou
$Hadoop datanode -format
• Hdfs : pour manipuler les fichiers
$hadoop fs -nomcommande-hdfs ( le tableau suivant contient les principales commandes)
Ou
$hdfs dfs -nomcommande-hdfs
• Jar : pour exécuter des programmes map reduce de type java archive (jar)
$hadoop jar nom-programme paramètres
• Affichage de toutes les commandes HDFS
• $hadoop fs
• Affichage du « help » d’une commande

• $hadoop fs -help nomcommandeHDFS
Les principals commandes
1. ls <path>
Lists the contents of the directory specified by path, showing the names, permissions, owner, size and
modification date for each entry.
2. lsr <path>
Behaves like -ls, but recursively displays entries in all subdirectories of path.
3. du <path>
Shows disk usage, in bytes, for all the files which match path; filenames are reported with the full HDFS
protocol prefix.
4. dus <path>
Like -du, but prints a summary of disk usage of all files/directories in the path.
5. mv <src><dest>
Moves the file or directory indicated by src to dest, within HDFS.
6. cp <src> <dest>
Copies the file or directory identified by src to dest, within HDFS.
7. rm <path>
Removes the file or empty directory identified by path.
8. rmr <path>
Removes the file or directory identified by path. Recursively deletes any child entries (i.e., files or
subdirectories of path).
9. put <localSrc> <dest>

Copies the file or directory from the local file system identified by localSrc to dest within the DFS.
10. copyFromLocal <localSrc> <dest>

Identical to –put
11. moveFromLocal <localSrc> <dest>

Copies the file or directory from the local file system identified by localSrc to dest within HDFS, and then
deletes the local copy on success.
12. get [-crc] <src> <localDest>

Copies the file or directory in HDFS identified by src to the local file system path identified by localDest.
13. getmerge <src> <localDest>

Retrieves all files that match the path src in HDFS, and copies them to a single, merged file in the local file
system identified by localDest.
14. cat <filen-ame>

Displays the contents of filename on stdout.
15. copyToLocal <src> <localDest>

Identical to –get
16. moveToLocal <src> <localDest>

Works like -get, but deletes the HDFS copy on success.
17. mkdir <path>

Creates a directory named path in HDFS.
Creates any parent directories in path that are missing (e.g., mkdir -p in Linux).
18. setrep [-R] [-w] rep <path>

Sets the target replication factor for files identified by path to rep. (The actual replication factor will move
toward t—
he target over time)
19. touchz <path>

Creates a file at path containing the current time as a timestamp. Fails if a file already exists at path, unless
the file is already size 0.
20. test -[ezd] <path>

Returns 1 if path exists; has zero length; or is a directory or 0 otherwise.
21. stat [format] <path>

Prints information about path. Format is a string which accepts file size in blocks (%b), filename (%n), block
size (%o), replication (%r), and modification date (%y, %Y).
22. tail [-f] <file2name>

Shows the last 1KB of file on stdout.
23. chmod [-R] mode,mode,... <path>...

Changes the file permissions associated with one or more objects identified by path.... Performs changes
recursively with R. mode is a 3-dig
it octal mode, or {augo}+/-{rwxX}. Assumes if no scope is specified and does not apply an umask.
24. chown [-R] [owner][:[group]] <path>...

Sets the owning user and/or group for files or directories identified by path.... Sets owner recursively if -R is
specified.
25. chgrp [-R] group <path>...

Sets the owning group for files or directories identified by path.... Sets group recursively if -R is specified.
help <cmd-name>
26. Returns usage information for one of the commands listed above. You must omit the leading '-' character in
cmd.

Atelier HDFS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Atelier HDFS

Transféré par

Droits d'auteur :

Formats disponibles

TP1 : HDFS

1. Quelle est l'URL de Namenode et dans quel fichier est-il configuré ?

• Fomatage : pour formater le système de fichier

$Hadoop namenode -format

$Hadoop datanode -format

• Hdfs : pour manipuler les fichiers

$hadoop fs -nomcommande-hdfs ( le tableau suivant contient les principales commandes)

$hdfs dfs -nomcommande-hdfs

$hadoop jar nom-programme paramètres

• Affichage de toutes les commandes HDFS

• Affichage du « help » d’une commande

9. put <localSrc> <dest>

10. copyFromLocal <localSrc> <dest>

11. moveFromLocal <localSrc> <dest>

12. get [-crc] <src> <localDest>

13. getmerge <src> <localDest>

14. cat <filen-ame>

15. copyToLocal <src> <localDest>

16. moveToLocal <src> <localDest>

17. mkdir <path>

18. setrep [-R] [-w] rep <path>

he target over time)

19. touchz <path>

20. test -[ezd] <path>

21. stat [format] <path>

22. tail [-f] <file2name>

23. chmod [-R] mode,mode,... <path>...

24. chown [-R] [owner][:[group]] <path>...

25. chgrp [-R] group <path>...

Vous aimerez peut-être aussi