tp1 BigData

Institut National des Postes et Télécommunications
TP1 – Big Data

Mise en place hadoop avec docker
Hadoop HDFS
Filière SESNUM INE2
Objectifs du TP
Initiation au framework hadoop et au patron MapReduce, utilisation de docker pour lancer un
cluster hadoop de 3 noeuds.
Source du TP
Ce TP est inspiré de la formation “Intro to Hadoop and Map Reduce” fait par Cloudera1 et publié sur
Udacity2 .
Outils et Versions
Apache Hadoop Version: 2.7.2.
Docker Version 4.5.1
Hadoop
Présentation
Apache Hadoop est un Framework open-source pour stocker et traiter les données volumineuses
sur un cluster. Il est utilisé par ungrand nombre de contributeurs et utilisateurs. Il a une licence
Apache 2.0.
Hadoop et Docker
Pour déployer le framework Hadoop, nous allons utiliser des contenaires Docker. L'utilisation
des contenaires va garantir la consistance entre les environnements de développement et
permettra de réduire considérablement la complexité de configuration des machines (dans le cas
d'un accès natif) ainsi que la lourdeur d'exécution (si on opte pour l'utilisation d'une machine
virtuelle).
1
Cloudera : Plateforme de BigData https://www.cloudera.com/
2
Udacity : Plateforme de eLearning https://www.udacity.com/
10/2022 Page | 1
Installation
Nous allons utiliser tout au long de ce TP trois contenaires représentant respectivement un noeud
maître (Namenode) et deux noeuds esclaves ( Datanodes).
Vous devez pour cela avoir installé docker sur votre machine, et l'avoir correctement configuré.
 Récupérer docker (Version 4.5.1) à partir de https://docs.docker.com/get-docker/

 Suivre les étapes expliquée ici
 Lancer Docker Descktop
Si c’est une première installation vous devez voir
Ouvrir la ligne de commande, et taper les instructions suivantes :

installer l'image de Hadoop
1. Télécharger l'image docker uploadée sur docker hub:
docker pull liliasfaxi/spark-hadoop:hv-2.7.2
Vérifier que l’image a bien été téléchargée

docker images
Et sur docker desktop vous aurez
10/2022 Page | 2
2. Créer les trois contenaires à partir de l'image téléchargée. Pour cela: Créer un réseau qui relie
2.1. Créer un réseau qui permettra de relier les trois contenaires: entre Namenode et
Datanode
docker network create --driver bridge hadoop
NB : If the network is not present, Docker will create the network for us.
2.2. Créer et lancer les trois contenaires ():
Taper docker run –help et explorer les options de la commande run

- les instructions -p permettent de faire un mapping entre les ports de la machine hôte et ceux
du contenaire
-p <http_port>:8000 -p This variable specifies the allocation of external ports to
<https_port>:44300 use:
 Port 8000 in the container is allocated to the

defined <http_port> on the Docker host.
 Port 44300 in the container is allocated to the
defined <https_port> on the Docker host.
Et
-name <gateway_container_name> This variable indicates the name of the container.
Créeons maintenon les trois contenaires avec la commande run
10/2022 Page | 3
#namenode
docker run -itd --net=hadoop -p 50070:50070 -p 8088:8088 --name hadoop-

master --hostname hadoop-master liliasfaxi/spark-hadoop:hv-2.7.2
docker run -itd -p 8040:8042 --net=hadoop --name hadoop-slave1 --hostname

hadoop-slave1 liliasfaxi/spark-hadoop:hv-2.7.2
docker run -itd -p 8041:8042 --net=hadoop --name hadoop-slave2 --hostname

hadoop-slave2 liliasfaxi/spark-hadoop:hv-2.7.2
Résultat :
3. Entrer dans le contenaire master pour commencer à l'utiliser.

entrer dans le contenaire master
docker exec -it hadoop-master bash Namenode
Le résultat de cette exécution sera le suivant:
Vous vous retrouverez dans le shell du namenode, et vous pourrez ainsi manipuler le cluster à votre
guise.
10/2022 Page | 4
La première chose à faire, une fois dans le contenaire, est de lancer hadoop et yarn. Un script est
fourni pour cela, appeléstart-hadoop.sh. Lancer ce script.
Lancer Hadoop
./start-hadoop.sh
Le résultat devra ressembler à ce qui suit:
Interfaces web pour Hadoop
Hadoop offre plusieurs interfaces web pour pouvoir observer le comportement de ses différentes
composantes. Vous pouvez affcher ces pages en local sur votre machine grâce à l'option -p de
la commande docker run
En effet, cette option permet de publier un port du contenaire sur la machine hôte. Pour pouvoir
publier tous les ports exposés, vous pouvez lancer votre contenaire en utilisant
l'option -P (en majuscule)
Rappel on a executé la commande

docker run -itd --net=hadoop -p 50070:50070 -p 8088:8088 --name hadoop-
master --hostname hadoop-master liliasfaxi/spark-hadoop:hv-2.7.2
 Le port 50070: qui permet d'afficher les informations de votre namenode.

 Le port 8088: qui permet d'afficher les informations du resource manager de Yarn
et visualiser le comportement des différents jobs.
Une fois votre cluster lancé et prêt à l'emploi, vous pouvez, sur votre navigateur préféré de votre
machine hôte, aller à : Vous obtiendrez le résultat suivant:
http://localhost:8088
10/2022 Page | 5
sur ce lien pouvez également visualiser l'avancement et les résultats de vos Jobs(Map Reduce
ou autre)
En visitant le lien http://localhost:50070/ vous aurez les informations sur les

datanodes.
N’oubliez pas de reverifier ce lien après pour voir les changement
10/2022 Page | 6
Premiers pas avec Hadoop
Toutes les commandes interagissant avec le système Hadoop commencent par hadoop fs. Ensuite,
les options rajoutées sont très largement inspirées des commandes Unix standard.
Créer un répertoire dans HDFS, appelé input. Pour cela, taper:
hadoop fs -mkdir -p input
Nous allons utiliser le fichier purchases.txt[Ce fichier se trouve déjà sous le répertoire principal de
votre machine master] comme entrée pour le traitement MapReduce.
Charger le fichier purchases dans le répertoire input que vous avez créé :
hadoop fs -put purchases.txt input
Pour afficher le contenu du répertoire input, la commande est:
hadoop fs –ls input
Pour afficher les dernières lignes du fichier purchases:
hadoop fs -tail input/purchases.txt
Le résultat suivant va donc s’afficher :
10/2022 Page | 7
Nous présentons dans le tableau suivant les commandes les plus utilisées pour manipuler les fichiers
dans HDFS:
Instruction Fonctionnalité
hadoop fs –ls Afficher le contenu du répertoire racine
hadoop fs –put file.txt
Upload un fichier dans hadoop (à partir du répertoire
courant linux)
hadoop fs –get file.txt
Download un fichier à partir de hadoop sur votre
disque local
hadoop fs –tail file.txt Lire les dernières lignes du fichier
hadoop fs –cat file.txt Affiche tout le contenu du fichier
hadoop fs –mv file.txt
newfile.txt Renommer le fichier
hadoop fs –rm newfile.txt Supprimer le fichier
hadoop fs –mkdir myinput Créer un répertoire
hadoop fs –cat file.txt \|
less Lire le fichier page par page
Vérifier l'état du système de fichiers Hadoop :

hdfs fsck / Vérifier l'état du système de fichiers Hadoop
10/2022 Page | 8
Pour voir la disribution des blocks

voir la distribution des blocks
hdfs fsck /user/root -files –blocks
deux blocks 2 replications
D’autre part l’interface web aussi est modifié
Exercice :
Supprimer le fichier purchases.txt de HDFS et explorer de nouveau l’utilisation
des nodes.
10/2022 Page | 9

tp1 BigData

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

tp1 BigData

Transféré par

Droits d'auteur :

Formats disponibles

Institut National des Postes et Télécommunications

TP1 – Big Data

 Récupérer docker (Version 4.5.1) à partir de https://docs.docker.com/get-docker/

Si c’est une première installation vous devez voir

Ouvrir la ligne de commande, et taper les instructions suivantes :

docker pull liliasfaxi/spark-hadoop:hv-2.7.2

Vérifier que l’image a bien été téléchargée

2.2. Créer et lancer les trois contenaires ():

Taper docker run –help et explorer les options de la commande run

 Port 8000 in the container is allocated to the

Créeons maintenon les trois contenaires avec la commande run

docker run -itd --net=hadoop -p 50070:50070 -p 8088:8088 --name hadoop-

docker run -itd -p 8040:8042 --net=hadoop --name hadoop-slave1 --hostname

docker run -itd -p 8041:8042 --net=hadoop --name hadoop-slave2 --hostname

3. Entrer dans le contenaire master pour commencer à l'utiliser.

Le résultat de cette exécution sera le suivant:

Le résultat devra ressembler à ce qui suit:

Interfaces web pour Hadoop

Rappel on a executé la commande

 Le port 50070: qui permet d'afficher les informations de votre namenode.

En visitant le lien http://localhost:50070/ vous aurez les informations sur les

N’oubliez pas de reverifier ce lien après pour voir les changement

Premiers pas avec Hadoop

Créer un répertoire dans HDFS, appelé input. Pour cela, taper:

hadoop fs -mkdir -p input

hadoop fs -put purchases.txt input

Pour afficher le contenu du répertoire input, la commande est:

hadoop fs –ls input

Pour afficher les dernières lignes du fichier purchases:

hadoop fs -tail input/purchases.txt

Le résultat suivant va donc s’afficher :

Vérifier l'état du système de fichiers Hadoop :

Pour voir la disribution des blocks

deux blocks 2 replications

D’autre part l’interface web aussi est modifié

Vous aimerez peut-être aussi