Académique Documents
Professionnel Documents
Culture Documents
TP 1 Big Data
Initiation à Hadoop File System (HDFS)
Objectif :
Ce TP constitue un premier pas vers l’utilisation d’outils Big Data. Nous avons fait le choix de
l’environnement Apache Hadoop, car c’est un framework open-source de stockage et de traitement de
données volumineuses sur un cluster de machines distribuées. Il est utilisé par un grand nombre de
contributeurs et utilisateurs.
Description :
Au terme de ce TP, vous serez capables :
d’installer Hadoop Framework et le configurer
de manipuler des fichiers dans le système de fichiers distribués HDFS
Environnement logiciel :
1
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR
De même que java JDK, configurer les variables d’environnement en ajoutant la variable
d’environnement en avec la commande : SETX HADOOP_HOME "C:\big-data\hadoop-3.2.1"
Ajouter à votre PATH le chemin d’accès aux dossiers bin de java et de hadoop :
%JAVA_HOME%/bin
%HADOOP_HOME%/bin
Vérifier que la configuration a été bien faite en tapant winutils.exe dans l’invite de commandes ou le
Windows PowerShell.
2
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR
Configurer HDFS
Créez un dossier « data » dans le dossier hadoop-3.3.1 (le chemin selon ce tp : C:/big-data/hadoop-
3.3.1/). Dans ce dossier, créez deux dossiers « namenode » et « datanode ».
Ouvrez le fichier hdfs-site.xml situé dans %HADOOP_HOME%\etc\hadoop
Remplacez la configuration avec :
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///C:/big-data/hadoop-3.3.1/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/C:/big-data/hadoop-3.3.1/data/datanode</value>
</property>
</configuration>
4
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR
Lancement de HDFS
1. On formate le système de fichiers : hdfs namenode –format
5
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR
Manipulation de HDFS :
Toutes les commandes interagissant avec le système de fichiers Hadoop commencent par hadoop fs.
Ensuite, les options rajoutées sont très largement inspirées des commandes Unix standard.
Dans cette section, nous allons utiliser les commandes du shell Hadoop de façon à importer des
données dans HDFS et à exporter des données à partir de HDFS. Ces commandes sont souvent
employées pour charger des données appropriées, à télécharger des données traitées, à maintenir le
système de fichiers et à consulter le contenu des dossiers. Il est donc indispensable de les connaître
pour exploiter efficacement HDFS.
La première étape est la création des répertoires nécessaires
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/<votre user_name>
Dans la Table 1 nous résumons les commandes les plus utilisées dans Hadoop HDFS
6
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR
7
Houda Benali