Académique Documents
Professionnel Documents
Culture Documents
Objectif:
Le but de cet TP est de familiariser avec les programmes MapReduce tout en utilisant le
Framework Hadoop et le langage de développement Java.
Pré requis:
- Virtual Machine: VirtualBox
- Une version de GNU/LINUX accessible par la VM (Version utilisée: Ubuntu 16.04)
- Java 1.6 ou version plus récente.
- Apache Hadoop installée et configurée (Version utilisée: Hadoop 2.9.1)
I. Installation Pig
Lien de téléchargement
Nous procédons à l'installation de la dernière version stable du Pig (16.0). Le fichier récupéré
dans ce TP est pig-0.16.0.tar.gz
http://www-us.apache.org/dist/pig/pig-0.16.0/
1
Configuration du fichier bashrc:
Cette étape consiste à paramétrer la location de PIG_HOME ainsi que les variables
d'environnement PIG_CONF_DIR et PIG_CLASSPATH dans le fichier .bashrc:
export PIG_HOME="/usr/lib/pig/pig-0.16.0"
export PIG_CONF_DIR="$PIG_HOME/conf"
export PIG_CLASSPATH="$ PIG_CONF_DIR"
export PATH="$PIG_HOME/bin:$PATH"
hduser@ubuntu:$ pig -h
Démarrer Pig:
Le premier objectif, pour appréhender l'utilisation de Pig par rapport aux éléments théoriques,
est d'exécuter l'exemple de compteur d'occurrences de mots.
Lancez Pig en utilisant la commande Vous devriez pouvoir désormais taper des commandes
Pig au sein du shell interactif (grunt).
2
Traitement des données:
cat results_occ;