Fonctionnement Du Système de Fichiers Distribués Hadoop (HDFS)

Fonctionnement du système de fichiers distribués
Hadoop (HDFS)
Qu'est-ce que HDFS ?

Hadoop Distributed File System (HDFS) est le principal système de
stockage de données utilisé par les applications Hadoop. Pour mettre
en œuvre un système de fichiers distribué qui fournit un accès
performant aux données sur des clusters Hadoop hautement
évolutifs, HDFS utilise l'architecture NameNode et DataNode. Apache
Hadoop est un cadre open-source pour la gestion du traitement et
du stockage des données pour les applications big data. HDFS est un
élément crucial de l'écosystème Hadoop. Il peut gérer des pools de
données volumineux et prendre en charge des applications d'analyse
de données volumineuses.
Composants de HDFS
HDFS a deux composants, qui sont les suivants :
1) Namenode
2) Noeud de données
Namenode
Le NameNode est le nœud maître de HDFS et stocke les métadonnées et la
configuration des esclaves. Dans HDFS, il y a un NameNode actif et un ou plusieurs
NameNodes en attente. Le NameNode actif répond à toutes les demandes des
clients, et le NameNode en veille gère la configuration de haute disponibilité.
DataNode
DataNode est un nœud de travail du HDFS, qui peut être au nombre de n. Il est
chargé de répondre aux demandes de lecture et d'écriture des clients. Ce nœud
est chargé de répondre aux demandes de lecture et d'écriture des clients. Les
DataNodes stockent les données réelles dans HDFS, ils ont donc généralement
beaucoup d'espace sur le disque dur.
Architecture HDFS
Voici l'architecture d'un système de fichiers Hadoop.
Réplication des données HDFS

La réplication des données est cruciale car elle garantit que les
données restent disponibles même si un ou plusieurs nœuds
tombent en panne. Dans un cluster, les données sont divisées en
blocs et répliquées sur de nombreux nœuds. Dans ce cas, si un
nœud tombe en panne, l'utilisateur peut toujours accéder aux
données sur les autres machines. HDFS maintient son processus de
réplication périodiquement.
Démarrage des commandes HDFS
### SYSTÈME DE FICHIERS LOCAL ###
ls
mkdir
cp
mv
rm
### LISTANT LE RÉPERTOIRE RACINE ###
hadoop fs -ls /
### LISTE DES RÉPERTOIRES PAR DÉFAUT DU RÉPERTOIRE PRINCIPAL ###
hadoop fs -ls
hadoop fs -ls /user/hirwuser150430
### CRÉER UN RÉPERTOIRE DANS HDFS ###
hadoop fs -mkdir hadoop-test1
### COPIER DU FS LOCAL VERS HDFS ###
hadoop fs -copyFromLocal /hirw-starterkit/hdfs/commandes/dwp-payments-april10.csv hadoop-

test1
### COPIE VERS HDFS VERS FS LOCAL ###
hadoop fs -copyToLocal hadoop-test1/dwp-payments-april10.csv .
hadoop fs -ls hadoop-test1
### CRÉER 2 RÉPERTOIRES SUPPLÉMENTAIRES ###
### COPIER UN FICHIER D'UN RÉPERTOIRE À UN AUTRE ###
hadoop fs -cp hadoop-test1/dwp-payments-april10.csv hadoop-test2

### DÉPLACER UN FICHIER D'UN DOSSIER À UN AUTRE ###
hadoop fs -mv hadoop-test1/dwp-payments-april10.csv hadoop-test3
### VÉRIFIEZ LA RÉPLICATION
### MODIFIER OU DÉFINIR LE FACTEUR DE RÉPLICATION ###
hadoop fs -Ddfs.replication=2 -cp hadoop-test2/dwp-payments-april10.csv hadoop-test2/test_with_rep2.csv
hadoop fs -ls hadoop-test2/test_with_rep2.csv
### CHANGEMENT DE PERMISSIONS ###
hadoop fs -chmod 777 hadoop-test2/test_with_rep2.csv
### VÉRIFICATION DU SYSTÈME DE FICHIERS - NÉCESSITE LES DROITS D'ADMINISTRATEUR ###
sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test2 -files -blocks -locations
sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test3 -files -blocks -locations
sudo -u hdfs hdfs fsck /user/ubuntu/input/yelp/yelp_academic_dataset_review.json -files -blocks -locations
vi /etc/hadoop/conf/hdfs-site.xml
/data/1/dfs/dn/current/BP-2125152513-172.31.45.216-1410037307133/current/finalized
### SUPPRIMER LES DOSSIERS/FICHIERS DANS HDFS ###
hadoop fs -rm hadoop-test2/test_avec_rep5.csv
hadoop fs -rm -r hadoop-test1

HDFS: Read and Write JAVA programs
Premier programme JAVA : Capable d'écrire un fichier sur

HDFS en simulant la copie HDFS depuis le fichier local (
lire un fichier depuis le système de fichier local et l'écrire
sur HDFS).
// Fichier source dans le système de fichiers local

// Fichier de destination dans HDFS
// Flux d'entrée pour le fichier dans un système de
fichiers local à écrire dans HDFS
//Récupération de la configuration du système Hadoop
// Destination du système Hadoop
// Copie du fichier du système de fichiers local vers HDFS
Deuxième programme JAVA : Commande HDFS similaire

qui lira le fichier depuis HDFS et imprimera le contenu du
fichier sur l'écran.
// Fichier lu depuis HDFS

// Fichier à lire dans HDFS
// Ouvrir le chemin mentionné dans HDFS

Fonctionnement Du Système de Fichiers Distribués Hadoop (HDFS)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fonctionnement Du Système de Fichiers Distribués Hadoop (HDFS)

Transféré par

Droits d'auteur :

Formats disponibles

Fonctionnement du système de fichiers distribués

Qu'est-ce que HDFS ?

Réplication des données HDFS

### LISTANT LE RÉPERTOIRE RACINE ###

### LISTE DES RÉPERTOIRES PAR DÉFAUT DU RÉPERTOIRE PRINCIPAL ###

hadoop fs -ls /user/hirwuser150430

### CRÉER UN RÉPERTOIRE DANS HDFS ###

hadoop fs -mkdir hadoop-test1

### COPIER DU FS LOCAL VERS HDFS ###

hadoop fs -copyFromLocal /hirw-starterkit/hdfs/commandes/dwp-payments-april10.csv hadoop-

### COPIE VERS HDFS VERS FS LOCAL ###

hadoop fs -copyToLocal hadoop-test1/dwp-payments-april10.csv .

hadoop fs -ls hadoop-test1

### CRÉER 2 RÉPERTOIRES SUPPLÉMENTAIRES ###

hadoop fs -mkdir hadoop-test2

hadoop fs -mkdir hadoop-test3

### COPIER UN FICHIER D'UN RÉPERTOIRE À UN AUTRE ###

hadoop fs -cp hadoop-test1/dwp-payments-april10.csv hadoop-test2

hadoop fs -mv hadoop-test1/dwp-payments-april10.csv hadoop-test3

### VÉRIFIEZ LA RÉPLICATION

hadoop fs -ls hadoop-test3

### MODIFIER OU DÉFINIR LE FACTEUR DE RÉPLICATION ###

hadoop fs -Ddfs.replication=2 -cp hadoop-test2/dwp-payments-april10.csv hadoop-test2/test_with_rep2.csv

hadoop fs -ls hadoop-test2

hadoop fs -ls hadoop-test2/test_with_rep2.csv

### CHANGEMENT DE PERMISSIONS ###

hadoop fs -chmod 777 hadoop-test2/test_with_rep2.csv

### VÉRIFICATION DU SYSTÈME DE FICHIERS - NÉCESSITE LES DROITS D'ADMINISTRATEUR ###

sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test2 -files -blocks -locations

sudo -u hdfs hdfs fsck /user/hirwuser150430/hadoop-test3 -files -blocks -locations

sudo -u hdfs hdfs fsck /user/ubuntu/input/yelp/yelp_academic_dataset_review.json -files -blocks -locations

### SUPPRIMER LES DOSSIERS/FICHIERS DANS HDFS ###

hadoop fs -rm hadoop-test2/test_avec_rep5.csv

hadoop fs -rm -r hadoop-test1

Premier programme JAVA : Capable d'écrire un fichier sur

// Fichier source dans le système de fichiers local

Deuxième programme JAVA : Commande HDFS similaire

// Fichier lu depuis HDFS

Vous aimerez peut-être aussi