Vous êtes sur la page 1sur 14

Lab 1

BIG DATA - Hadoop

Big Data – 3ATEL ENIT – Octobre 2020


Installation
 Nous allons installer la « Machine Virtuelle Bitnami Hadoop »
1) Télécharger l’image à partir de ce lien Télécharger ici

 La documentation est accessible sur ce lien :


https://docs.bitnami.com/virtual-machine/apps/hadoop/

 Importation d'une machine virtuelle Bitnami dans VirtualBox


2) Sélectionnez l'option de menu "File -> Import Appliance" et sélectionnez le fichier .ova téléchargé sur
le site Web de Bitnami. Puis cliquez sur "Continuer".
3) Une fois qu'il est importé, cliquez sur le bouton "Démarrer" dans la barre d'outils de VirtualBox.

Big Data – 3ATEL 2 ENIT – Octobre 2020


Comment Trouver Les Informations D'identification De L'application ?

 Le nom d'utilisateur par défaut pour l'application est utilisateur et le mot de passe est généré de
manière aléatoire (dans les versions plus anciennes, il était généralement bitnami ). 
 Vous pouvez obtenir ces informations d'identification à partir de la console du serveur, au-dessus
de l'invite de connexion, comme indiqué dans la figure suivante :

 Entrez bitnami pour le login et le password

Big Data – 3ATEL 3 ENIT – Octobre 2020


Utilisation distante
 Une fois connecté sur la console locale de la VM, il faut lancer le serveur ssh pour se connecter à
distance.
 Pour lancer le serveur ssh :
sudo mkdir /run/sshd
sudo /usr/sbin/sshd –D &
 Pour ouvrir un terminal distant utiliser Putty depuis https://www.putty.org/
 Sous Linux : ssh bitnami@IP_VM
 Pour copier un fichier de Windows vers la machine virtuelle, ouvrir une console sous Windows et
taper :
scp C:\Users\userX\file_to_upload bitnami@192.168.0.25:data
scp /home/userX/file_to_upload bitnami@192.168.0.25:data
 Cette commande copie le fichier local vers la machine virtuelle (addresse
IP 192.168.0.25) dans le repertoire “data” de l’utilisateur “bitnami”

Big Data – 3ATEL 4 ENIT – Octobre 2020


Accéder Au Panneau D'administration

 La pile fournit un panneau Web pour contrôler l'état de Hadoop. Pour y accéder, procédez comme
suit:
 Allez à http://@IP/cluster/
 L’adresse IP peut être obtenue via la commande : sudo ifconfig
 Login : user
 Mot de passe : affiché au démarrage (comme diapositive précédente)
ou dans le fichier ~/ bitnami_credentials

Big Data – 3ATEL 5 ENIT – Octobre 2020


I. Utilisation de HDFS

Big Data – 3ATEL 6 ENIT – Octobre 2020


Commandes de l'utilisateur

Lister le contenu d’un répertoire

hdfs dfs –ls


hdfs dfs -ls /
hdfs dfs -ls -R

Afficher l’espace utilisé par les fichiers

hdfs dfs -du -h /


hdfs dfs -du /user
hdfs dfs -du -h /user
hdfs dfs -du -s /user

Big Data – 3ATEL 7 ENIT – Octobre 2020


Importer des données vers HDFS

Copier des données vers HDFS


hdfs dfs -mkdir tdata
hdfs dfs -ls
hdfs dfs -copyFromLocal data/my_file.csv tdata
hdfs dfs -ls -R

Copier le fichier au système de fichiers local

cd data/
hdfs dfs -copyToLocal tdata/my_file.csv my_file.csv.hdfs
ls

Big Data – 3ATEL 8 ENIT – Octobre 2020


Commandes de l'utilisateur

Lister les statistiques d’un fichier


(%r – facteur de replication)
hdfs dfs -stat "%r" tdata/my_file.csv

Ecrire dans hdfs en lisant de stdin


echo "blah blah blah" | hdfs dfs -put - tdataset/tfile.txt
hdfs dfs -ls -R
hdfs dfs -cat tdataset/tfile.txt

Big Data – 3ATEL 9 ENIT – Octobre 2020


Commandes de l'utilisateur (fsck)

Supprimer un fichier

hdfs dfs -rm tdataset/tfile.txt


hdfs dfs -ls –R

Lister les blocks du fichier et leurs emplacements

hdfs fsck /user/hadoop/tdata/my_file.csv -files -


blocks -locations

Afficher les blocks manquants et les fichiers auxquels ils appartiennent

hdfs fsck / -list-corruptfileblocks

Big Data – 3ATEL 10 ENIT – Octobre 2020


Commandes d'administration

Afficher un rapport d’état du cluster HDFS


hdfs dfsadmin –report

Affiche l’arbre des racks et leurs nœuds

hdfs dfsadmin –printTopology

Equivalent à un ping

hdfs dfsadmin -getDatanodeInfo localhost:50020

11
Big Data – 3ATEL 11 ENIT – Octobre 2020
II. Calcul sur Hadoop

Big Data – 3ATEL 12 ENIT – Octobre 2020


Exécuter un Job dans Hadoop
 Vous pouvez exécuter des travaux dans Hadoop à partir du même ordinateur sur lequel il est
installé.
 Commencez par vous connecter au terminal en utilisant le login « bitnami » et le mot de passe
« bitnami ».
 Hadoop regroupe de nombreux exemples que vous pouvez essayer. Par exemple, il y a un
exemple pour obtenir une estimation de la valeur du nombre Pi.
 Vous pouvez le vérifier en exécutant la commande suivante :
hadoop jar /opt/bitnami/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-
examples-*.jar pi 10 100
 Lorsque le travail se termine, vous verrez une sortie similaire à :
 Estimated value of Pi is 3.14800000000000000000

Big Data – 3ATEL 13 ENIT – Octobre 2020


Wordcount

 Execution
cd /opt/bitnami/hadoop/share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-*.jar wordcount
 Il manque en arguments : le nom du fichier à traiter et le nom du répertoire où les résultats seront
stockés

Exercice à faire
1 Télécharger le fichier Shakespeare.txt
2 Charger le fichier dans votre système HDFS
3 Exécuter le wordcount sur ce fichier
4 Reporter les étapes, les commandes utilisées ainsi que des capture d’écran dans un rapport à
rendre sur le classroom.

Big Data – 3ATEL 14 ENIT – Octobre 2020

Vous aimerez peut-être aussi