Académique Documents
Professionnel Documents
Culture Documents
TP1 Big Data IOT
TP1 Big Data IOT
TP 1 - Big Data
Programmation Hadoop
Introduction
Dans ce TP, nous manipulerons l’exemple « Word Count » ou « Compteur d’occurrence de
mots » sur la machine virtuelle Cloudera.
Cloudera propose une solution clé en main – gratuite – permettant de bénéficier d’une
configuration Hadoop fonctionnelle sous une nouvelle machine virtuelle invitée de VirtualBox
(ou autre, ex. VMWare). Dans le cadre de ce TP, nous utiliserons la distribution cloudera basée
sur le système d’exploitation CentOs (une machine virtuelle « All-in-One ») et comprenant un
cluster Hadoop simple noeud. Dans cette VM plusieurs composantes ont été pré-installé (Spark,
Hive, Zeppelin, etc.)
$ setxkbmap fr
$ hadoop version
Nous allons maintenant compiler le code d'exemple Java compteur d’occurrence de mots.
Objectif: vérifier que l'environnement de compilation soit fonctionnel et que Hadoop soit
correctement à même d'exécuter des tâches, et se familiariser avec le processus de
compilation.
Maintenant il faut déplacer le texte du poème du dossier data sur le disque HDFS dans le
dossier créé. Exécuter la commande :
Enfin, exécuter votre programme Hadoop avec la commande ci-dessous sur la même
ligne : (Attention : le jar créé est dans le dossier target: $ cd target)
(un fichier _SUCCESS devrait être présent, ainsi qu'un fichier part-r-00000).
Le mot « qui » devrait être le plus présent au sein du poème avec 25 occurrence
(Fig).
Figure . Résultat