Vous êtes sur la page 1sur 5

Fonctionnement du système de fichiers distribués

Hadoop (HDFS)

Qu'est-ce que HDFS ?


Hadoop Distributed File System (HDFS) est le principal système de
stockage de données utilisé par les applications Hadoop. Pour mettre
en œuvre un système de fichiers distribué qui fournit un accès
performant aux données sur des clusters Hadoop hautement
évolutifs, HDFS utilise l'architecture NameNode et DataNode. Apache
Hadoop est un cadre open-source pour la gestion du traitement et
du stockage des données pour les applications big data. HDFS est un
élément crucial de l'écosystème Hadoop. Il peut gérer des pools de
données volumineux et prendre en charge des applications d'analyse
de données volumineuses.

Composants de HDFS
HDFS a deux composants, qui sont les suivants :

1) Namenode

2) Noeud de données
Namenode
Le NameNode est le nœud maître de HDFS et stocke les métadonnées et la
configuration des esclaves. Dans HDFS, il y a un NameNode actif et un ou plusieurs
NameNodes en attente. Le NameNode actif répond à toutes les demandes des
clients, et le NameNode en veille gère la configuration de haute disponibilité.

DataNode
DataNode est un nœud de travail du HDFS, qui peut être au nombre de n. Il est
chargé de répondre aux demandes de lecture et d'écriture des clients. Ce nœud
est chargé de répondre aux demandes de lecture et d'écriture des clients. Les
DataNodes stockent les données réelles dans HDFS, ils ont donc généralement
beaucoup d'espace sur le disque dur.

Architecture HDFS
Voici l'architecture d'un système de fichiers Hadoop.

Réplication des données HDFS


La réplication des données est cruciale car elle garantit que les
données restent disponibles même si un ou plusieurs nœuds
tombent en panne. Dans un cluster, les données sont divisées en
blocs et répliquées sur de nombreux nœuds. Dans ce cas, si un
nœud tombe en panne, l'utilisateur peut toujours accéder aux
données sur les autres machines. HDFS maintient son processus de
réplication périodiquement.
Démarrage des commandes HDFS
### SYSTÈME DE FICHIERS LOCAL ###

ls
mkdir
cp
mv
rm

### LISTANT LE RÉPERTOIRE RACINE ###

hadoop fs -ls /

### LISTE DES RÉPERTOIRES PAR DÉFAUT DU RÉPERTOIRE PRINCIPAL ###

hadoop fs -ls

hadoop fs -ls /user/hirwuser150430

### CRÉER UN RÉPERTOIRE DANS HDFS ###

hadoop fs -mkdir hadoop-test1

### COPIER DU FS LOCAL VERS HDFS ###

hadoop fs -copyFromLocal /hirw-starterkit/hdfs/commandes/dwp-payments-april10.csv hadoop-


test1

### COPIE VERS HDFS VERS FS LOCAL ###

hadoop fs -copyToLocal hadoop-test1/dwp-payments-april10.csv .

hadoop fs -ls hadoop-test1

### CRÉER 2 RÉPERTOIRES SUPPLÉMENTAIRES ###

hadoop fs -mkdir hadoop-test2

hadoop fs -mkdir hadoop-test3

### COPIER UN FICHIER D'UN RÉPERTOIRE À UN AUTRE ###

hadoop fs -cp hadoop-test1/dwp-payments-april10.csv hadoop-test2


### DÉPLACER UN FICHIER D'UN DOSSIER À UN AUTRE ###

hadoop fs -mv hadoop-test1/dwp-payments-april10.csv hadoop-test3

### VÉRIFIEZ LA RÉPLICATION

hadoop fs -ls hadoop-test3

### MODIFIER OU DÉFINIR LE FACTEUR DE RÉPLICATION ###

hadoop fs -Ddfs.replication=2 -cp hadoop-test2/dwp-payments-april10.csv hadoop-test2/test_with_rep2.csv

hadoop fs -ls hadoop-test2

hadoop fs -ls hadoop-test2/test_with_rep2.csv

### CHANGEMENT DE PERMISSIONS ###

hadoop fs -chmod 777 hadoop-test2/test_with_rep2.csv

### VÉRIFICATION DU SYSTÈME DE FICHIERS - NÉCESSITE LES DROITS D'ADMINISTRATEUR ###

sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test2 -files -blocks -locations

sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test3 -files -blocks -locations

sudo -u hdfs hdfs fsck /user/ubuntu/input/yelp/yelp_academic_dataset_review.json -files -blocks -locations

vi /etc/hadoop/conf/hdfs-site.xml

/data/1/dfs/dn/current/BP-2125152513-172.31.45.216-1410037307133/current/finalized

### SUPPRIMER LES DOSSIERS/FICHIERS DANS HDFS ###

hadoop fs -rm hadoop-test2/test_avec_rep5.csv

hadoop fs -rm -r hadoop-test1


hadoop fs -rm -r hadoop-test2
hadoop fs -rm -r hadoop-test3
HDFS: Read and Write JAVA programs

Premier programme JAVA : Capable d'écrire un fichier sur


HDFS en simulant la copie HDFS depuis le fichier local (
lire un fichier depuis le système de fichier local et l'écrire
sur HDFS).

// Fichier source dans le système de fichiers local


// Fichier de destination dans HDFS
// Flux d'entrée pour le fichier dans un système de
fichiers local à écrire dans HDFS
//Récupération de la configuration du système Hadoop
// Destination du système Hadoop
// Copie du fichier du système de fichiers local vers HDFS

Deuxième programme JAVA : Commande HDFS similaire


qui lira le fichier depuis HDFS et imprimera le contenu du
fichier sur l'écran.

// Fichier lu depuis HDFS


// Fichier à lire dans HDFS
// Ouvrir le chemin mentionné dans HDFS

Vous aimerez peut-être aussi