Vous êtes sur la page 1sur 3

TP N°1- Pig: Installation, Configuration et Utilisation

 Objectif:
Le but de cet TP est de familiariser avec les programmes MapReduce tout en utilisant le
Framework Hadoop et le langage de développement Java.
 Pré requis:
- Virtual Machine: VirtualBox
- Une version de GNU/LINUX accessible par la VM (Version utilisée: Ubuntu 16.04)
- Java 1.6 ou version plus récente.
- Apache Hadoop installée et configurée (Version utilisée: Hadoop 2.9.1)

I. Installation Pig
 Lien de téléchargement
Nous procédons à l'installation de la dernière version stable du Pig (16.0). Le fichier récupéré
dans ce TP est pig-0.16.0.tar.gz

http://www-us.apache.org/dist/pig/pig-0.16.0/

 Création du dossier d'installation:

sudo mkdir -p /usr/lib/pig


sudo chown -R hduser:hadoop /usr/lib/pig
sudo chmod -R 777 /usr/lib/pig

 Extraction du fichier de téléchargement:

hduser@ubuntu:$ sudo cp Downloads/ pig-0.16.0.tar.gz /usr/lib/pig


hduser@ubuntu:$ cd /usr/lib/pig/
hduser@ubuntu:/usr/lib/pig$ tar -xzf pig-0.16.0.tar.gz
hduser@ubuntu:/usr/lib/pig$ gedit ~/.bashrc

1
 Configuration du fichier bashrc:

Cette étape consiste à paramétrer la location de PIG_HOME ainsi que les variables
d'environnement PIG_CONF_DIR et PIG_CLASSPATH dans le fichier .bashrc:

#Pig Home Directory

export PIG_HOME="/usr/lib/pig/pig-0.16.0"
export PIG_CONF_DIR="$PIG_HOME/conf"
export PIG_CLASSPATH="$ PIG_CONF_DIR"
export PATH="$PIG_HOME/bin:$PATH"

Après la sauvegarde du fichier, quittez la console puis redémarrez la machine.


II. Vérification de l'installation de Pig
De ce moment, on peut vérifier la bonne installation de Pig sur Ubuntu. Pour cela tapez la
commande suivante pour afficher le contenu help de la commande pig:

hduser@ubuntu:$ pig -h

 Démarrer Pig:

hduser@ubuntu:$ pig -x local


Cette commande permet de lancer Pig en mode local tout en utilisant un shell interactif
(grunt)
III. Un premier exemple avec Pig: WordCount

Le premier objectif, pour appréhender l'utilisation de Pig par rapport aux éléments théoriques,
est d'exécuter l'exemple de compteur d'occurrences de mots.

Lancez Pig en utilisant la commande Vous devriez pouvoir désormais taper des commandes
Pig au sein du shell interactif (grunt).

 Téléchargement des données:

Placez-vous sous le répertoire contenant le fichier poeme.txt et tapez les commandes


suivantes au sein du shell interactif (grunt)

A = LOAD 'poeme.txt' USING TextLoader AS ligne:chararray;


DUMP A;
DESCRIBE A;
Exécutez cette commande et observez le résultat.

2
 Traitement des données:

B = FOREACH A GENERATE TOKENIZE(LOWER(ligne)) AS mots;


DUMP B;
DESCRIBE B;

Exécutez cette commande et observez le résultat. Puis tapez la commande suivante:


C = FOREACH B GENERATE FLATTEN(mots) AS mot;
DUMP C;
DESCRIBE C;
Observez les résultats. Exécutez ensuite:
D = GROUP C BY mot;
DUMP D;
DESCRIBE D;

Observez les résultats. Exécutez ensuite:

E = FOREACH D GENERATE group AS mot, COUNT(C) AS


occurences;
DUMP E;
DESCRIBE E;
Observez les résultats.

 Sauvegarde des données:

Il reste enfin à sauvegarder les résultats dans un fichier:

STORE E INTO 'results_occ';

Quittez Pig, et visualisez le fichier final:

cat results_occ;

Vous aimerez peut-être aussi