TP1 Big Data IOT

Iset Mahdia Master DS-IOT Big Data
TP 1 - Big Data
Programmation Hadoop
Introduction
Dans ce TP, nous manipulerons l’exemple « Word Count » ou « Compteur d’occurrence de
mots » sur la machine virtuelle Cloudera.
Manipulation sur la VM Cloudera
Cloudera propose une solution clé en main – gratuite – permettant de bénéficier d’une
configuration Hadoop fonctionnelle sous une nouvelle machine virtuelle invitée de VirtualBox
(ou autre, ex. VMWare). Dans le cadre de ce TP, nous utiliserons la distribution cloudera basée
sur le système d’exploitation CentOs (une machine virtuelle « All-in-One ») et comprenant un
cluster Hadoop simple noeud. Dans cette VM plusieurs composantes ont été pré-installé (Spark,
Hive, Zeppelin, etc.)
 Installer VirtualBox (https://www.virtualbox.org/) si ce n’est pas déjà fait.

 Importer la machine virtuelle cloudera-BigData.ova du TP.
 Démarrer la machine virtuelle.
 Depuis le terminal. Exécuter la commande suivante pour transformer le clavier en azerty
$ setxkbmap fr
 Vérifier le bon fonctionnement de Hadoop en exécutant la commande:
$ hdfs dfsadmin -report
La commande vérifie le statut de HDFS. Elle devrait afficher:
Live datanodes (1) :
 Vérifier la version d’Hadoop en exécutant la commande:
1 Mme S.EZZEDINE & Mme M. Jguirem

$ hadoop version
 A partir d’un navigateur web, le lien suivant http://localhost:50070/ vous permettra

d’accéder à l’interface Web du noeud maître (NameNode)
Nous allons maintenant compiler le code d'exemple Java compteur d’occurrence de mots.
Objectif: vérifier que l'environnement de compilation soit fonctionnel et que Hadoop soit
correctement à même d'exécuter des tâches, et se familiariser avec le processus de
compilation.

 Télécharger l’archive du projet maven WordCount.zip (lien: https://goo.gl/Ff6csj) :

Cette archive contient :
o Le poème ayant servi d'exemple en cours dans le dossier data.
o Le code d'exemple du cours (classes driver, map et reduce).
 Décompresser l'archive
 On va désormais packager le programme d'exemple au sein d'un fichier .jar. Créer
l'arborescence liée au nom du package avec la commande:
(Attention : cette commande ne pourra fonctionner que si vous la lancez depuis le même
dossier contenant le fichier pom.xml: $ cd WordCount/WordCount )
$ mvn clean package
 En préparation de l'exécution du programme Hadoop, nous allons en premier temps créer

dans le disque HDFS un dossier pour ce TP. Vous allez travailler dans la suite du TP dans
un dossier nom.de.votre.dossier (à fixer) sur la racine du disque HDFS (Attention : le
dossier nom.de.votre.dossier n’existe pas). On va créer dedans un dossier wordcount en
exécutant la commande suivante :
$ hadoop fs -mkdir -p /nom.de.votre.dossier/wordcount
 Maintenant il faut déplacer le texte du poème du dossier data sur le disque HDFS dans le
dossier créé. Exécuter la commande :
$ hadoop fs -put data/poeme.txt /nom.de.votre.dossier/wordcount
 et vérifier sa présence avec la commande :
$ hadoop fs -ls /nom.de.votre.dossier/wordcount
ou directement via l’interface Web (Hue - Hadoop User Experience)

http://quickstart.cloudera:8888/filebrowser/view/user/cloudera#/
 Enfin, exécuter votre programme Hadoop avec la commande ci-dessous sur la même
ligne : (Attention : le jar créé est dans le dossier target: $ cd target)
$ hadoop jar WordCount-1.0-SNAPSHOT.jar WCount

/nom.de.votre.dossier/wordcount/poeme.txt
/nom.de.votre.dossier/resultat_wordcount

La commande devrait prendre tout au plus quelques secondes à s'exécuter.
Si tout s'est passé correctement, un message «mapreduce.Job: map 100% reduce

100%» devrait s'afficher.
 Vérifier la présence des fichiers de résultats dans le répertoire /resultat_wordcount avec

la commande:
$ hadoop fs -ls /nom.de.votre.dossier/resultat_wordcount
ou directement via Hue
(un fichier _SUCCESS devrait être présent, ainsi qu'un fichier part-r-00000).
 Enfin, afficher les résultats finaux avec la commande:
$ hadoop fs -cat /nom.de.votre.dossier/resultat_wordcount/part-r-00000
ou directement via Hue
Le mot « qui » devrait être le plus présent au sein du poème avec 25 occurrence
(Fig).
Figure . Résultat

TP1 Big Data IOT

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP1 Big Data IOT

Transféré par

Droits d'auteur :

Formats disponibles

Iset Mahdia Master DS-IOT Big Data

Manipulation sur la VM Cloudera

 Installer VirtualBox (https://www.virtualbox.org/) si ce n’est pas déjà fait.

 Vérifier le bon fonctionnement de Hadoop en exécutant la commande:

$ hdfs dfsadmin -report

La commande vérifie le statut de HDFS. Elle devrait afficher:

Live datanodes (1) :

 Vérifier la version d’Hadoop en exécutant la commande:

1 Mme S.EZZEDINE & Mme M. Jguirem

 A partir d’un navigateur web, le lien suivant http://localhost:50070/ vous permettra

2 Mme S.EZZEDINE & Mme M. Jguirem

 Télécharger l’archive du projet maven WordCount.zip (lien: https://goo.gl/Ff6csj) :

$ mvn clean package

 En préparation de l'exécution du programme Hadoop, nous allons en premier temps créer

$ hadoop fs -mkdir -p /nom.de.votre.dossier/wordcount

$ hadoop fs -put data/poeme.txt /nom.de.votre.dossier/wordcount

 et vérifier sa présence avec la commande :

$ hadoop fs -ls /nom.de.votre.dossier/wordcount

ou directement via l’interface Web (Hue - Hadoop User Experience)

$ hadoop jar WordCount-1.0-SNAPSHOT.jar WCount

3 Mme S.EZZEDINE & Mme M. Jguirem

La commande devrait prendre tout au plus quelques secondes à s'exécuter.

Si tout s'est passé correctement, un message «mapreduce.Job: map 100% reduce

 Vérifier la présence des fichiers de résultats dans le répertoire /resultat_wordcount avec

$ hadoop fs -ls /nom.de.votre.dossier/resultat_wordcount

ou directement via Hue

 Enfin, afficher les résultats finaux avec la commande:

$ hadoop fs -cat /nom.de.votre.dossier/resultat_wordcount/part-r-00000

ou directement via Hue

4 Mme S.EZZEDINE & Mme M. Jguirem

Vous aimerez peut-être aussi