Bienvenue sur Scribd !

Ignorer le carrousel

TP PIG Hadoop

Transféré par

Chouchen Nizar

0% ont trouvé ce document utile (0 vote)

168 vues3 pages

tp pig_hadoop

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

tp pig_hadoop

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

168 vues3 pages

TP PIG Hadoop

Transféré par

Chouchen Nizar

tp pig_hadoop

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 3

Rechercher à l'intérieur du document

TP N°1- Pig: Installation, Configuration et Utilisation

 Objectif:
Le but de cet TP est de familiariser avec les programmes MapReduce tout en utilisant le
Framework Hadoop et le langage de développement Java.
 Pré requis:
- Virtual Machine: VirtualBox
- Une version de GNU/LINUX accessible par la VM (Version utilisée: Ubuntu 16.04)
- Java 1.6 ou version plus récente.
- Apache Hadoop installée et configurée (Version utilisée: Hadoop 2.9.1)

I. Installation Pig
 Lien de téléchargement
Nous procédons à l'installation de la dernière version stable du Pig (16.0). Le fichier récupéré
dans ce TP est pig-0.16.0.tar.gz

http://www-us.apache.org/dist/pig/pig-0.16.0/

 Création du dossier d'installation:

sudo mkdir -p /usr/lib/pig

sudo chown -R hduser:hadoop /usr/lib/pig
sudo chmod -R 777 /usr/lib/pig

 Extraction du fichier de téléchargement:

hduser@ubuntu:$ sudo cp Downloads/ pig-0.16.0.tar.gz /usr/lib/pig

hduser@ubuntu:$ cd /usr/lib/pig/
hduser@ubuntu:/usr/lib/pig$ tar -xzf pig-0.16.0.tar.gz
hduser@ubuntu:/usr/lib/pig$ gedit ~/.bashrc

1
 Configuration du fichier bashrc:

Cette étape consiste à paramétrer la location de PIG_HOME ainsi que les variables
d'environnement PIG_CONF_DIR et PIG_CLASSPATH dans le fichier .bashrc:

#Pig Home Directory

export PIG_HOME="/usr/lib/pig/pig-0.16.0"
export PIG_CONF_DIR="$PIG_HOME/conf"
export PIG_CLASSPATH="$ PIG_CONF_DIR"
export PATH="$PIG_HOME/bin:$PATH"

Après la sauvegarde du fichier, quittez la console puis redémarrez la machine.

II. Vérification de l'installation de Pig
De ce moment, on peut vérifier la bonne installation de Pig sur Ubuntu. Pour cela tapez la
commande suivante pour afficher le contenu help de la commande pig:

hduser@ubuntu:$ pig -h

 Démarrer Pig:

hduser@ubuntu:$ pig -x local

Cette commande permet de lancer Pig en mode local tout en utilisant un shell interactif
(grunt)
III. Un premier exemple avec Pig: WordCount

Le premier objectif, pour appréhender l'utilisation de Pig par rapport aux éléments théoriques,
est d'exécuter l'exemple de compteur d'occurrences de mots.

Lancez Pig en utilisant la commande Vous devriez pouvoir désormais taper des commandes
Pig au sein du shell interactif (grunt).

 Téléchargement des données:

Placez-vous sous le répertoire contenant le fichier poeme.txt et tapez les commandes

suivantes au sein du shell interactif (grunt)

A = LOAD 'poeme.txt' USING TextLoader AS ligne:chararray;

DUMP A;
DESCRIBE A;
Exécutez cette commande et observez le résultat.

2
 Traitement des données:

B = FOREACH A GENERATE TOKENIZE(LOWER(ligne)) AS mots;

DUMP B;
DESCRIBE B;

Exécutez cette commande et observez le résultat. Puis tapez la commande suivante:

C = FOREACH B GENERATE FLATTEN(mots) AS mot;
DUMP C;
DESCRIBE C;
Observez les résultats. Exécutez ensuite:
D = GROUP C BY mot;
DUMP D;
DESCRIBE D;

Observez les résultats. Exécutez ensuite:

E = FOREACH D GENERATE group AS mot, COUNT(C) AS

occurences;
DUMP E;
DESCRIBE E;
Observez les résultats.

 Sauvegarde des données:

Il reste enfin à sauvegarder les résultats dans un fichier:

STORE E INTO 'results_occ';

Quittez Pig, et visualisez le fichier final:

cat results_occ;

Vous aimerez peut-être aussi

tp1 BigData
Document9 pages
tp1 BigData
Haitam Laaouini
Pas encore d'évaluation
td01 Hadoop
Document6 pages
td01 Hadoop
aissamemi
Pas encore d'évaluation
Tp1 Bigdata Mapreduce 171031163107
Document8 pages
Tp1 Bigdata Mapreduce 171031163107
Koffi Kanga
Pas encore d'évaluation
Spring Boot par la pratique: Développer les services Rest avec Spring-Boot et Spring-RestTemplate
D'Everand
Spring Boot par la pratique: Développer les services Rest avec Spring-Boot et Spring-RestTemplate
Bertrand Nguimgo
Pas encore d'évaluation
Examen SP UE
Document4 pages
Examen SP UE
Med Nour Elhak Jouini
Pas encore d'évaluation
QCM Si 2012 CGP Mpa A v1
Document2 pages
QCM Si 2012 CGP Mpa A v1
coyote41
100% (1)
Examen 3
Document8 pages
Examen 3
Sofien Haddad
Pas encore d'évaluation
Compte Rendu TP 2 Docker - Ameur Bilel - Sirt A
Document18 pages
Compte Rendu TP 2 Docker - Ameur Bilel - Sirt A
BilelAmer
50% (2)
Nosql, Mongodb: Questions de Cours
Document3 pages
Nosql, Mongodb: Questions de Cours
ala fezai
100% (1)
TP Oracle RMAN2
Document6 pages
TP Oracle RMAN2
MD
Pas encore d'évaluation
BDD Avance
Document144 pages
BDD Avance
Leela Bmt
Pas encore d'évaluation
QSM Nse4
Document5 pages
QSM Nse4
fateh tiribark
Pas encore d'évaluation
RAPPORT
Document70 pages
RAPPORT
Anonymous uzzfJo8s
Pas encore d'évaluation
BDATP5MongoDB PDF
Document14 pages
BDATP5MongoDB PDF
haifa zrelli
Pas encore d'évaluation
TP-Cassandra ING
Document7 pages
TP-Cassandra ING
Aymen Bouazizi
Pas encore d'évaluation
TD 0 Eclipse Et HDFS
Document4 pages
TD 0 Eclipse Et HDFS
test user
Pas encore d'évaluation
A4 BD Reparties
Document2 pages
A4 BD Reparties
Abdelghani Aninich
Pas encore d'évaluation
SOA Révision
Document114 pages
SOA Révision
Amira Ghazouani
Pas encore d'évaluation
Exam Corr
Document5 pages
Exam Corr
latifa benidder
100% (1)
Hadoop
Document13 pages
Hadoop
hamid ouhnni
Pas encore d'évaluation
TP Business Intelligence PDF
Document8 pages
TP Business Intelligence PDF
Amine Hamdouchi
Pas encore d'évaluation
EXAMEN Dba
Document6 pages
EXAMEN Dba
Salma Gharssouan
Pas encore d'évaluation
Titre PDF
Document2 pages
Titre PDF
Anonymous 1P2S4tbM
Pas encore d'évaluation
Entrepôts de Données - Introduction (DW - 1)
Document28 pages
Entrepôts de Données - Introduction (DW - 1)
a.rharrab
Pas encore d'évaluation
Examen Big DATA
Document4 pages
Examen Big DATA
zaki worker
Pas encore d'évaluation
Cours UML Diagramme Classe
Document180 pages
Cours UML Diagramme Classe
elhage
Pas encore d'évaluation
TP3 TP4
Document8 pages
TP3 TP4
Nikash Gomes
Pas encore d'évaluation
Exercice Sur Les Dockers
Document10 pages
Exercice Sur Les Dockers
zimota zim
Pas encore d'évaluation
SGD TD1
Document2 pages
SGD TD1
reservation.pantelleria
Pas encore d'évaluation
Data Warehouse & OLAP
Document14 pages
Data Warehouse & OLAP
fchougrani
100% (2)
Chapitre 2 - HDFS
Document23 pages
Chapitre 2 - HDFS
hiba
Pas encore d'évaluation
Chapitre 4 Fouille de Données
Document30 pages
Chapitre 4 Fouille de Données
Mariem Selmi
Pas encore d'évaluation
BigDATA M1 GSI Corrigé - Type
Document3 pages
BigDATA M1 GSI Corrigé - Type
LAHDHEB Rim
100% (1)
TP Virtualisation ATELIER-1
Document5 pages
TP Virtualisation ATELIER-1
Kivoc Moussaid
Pas encore d'évaluation
HACHAD Zakaria Hbase
Document16 pages
HACHAD Zakaria Hbase
benben08
Pas encore d'évaluation
Examen BDA
Document3 pages
Examen BDA
Med Nour Elhak Jouini
Pas encore d'évaluation
TP1 Multithreading
Document2 pages
TP1 Multithreading
scooorpion kid
Pas encore d'évaluation
Cours Thread
Document16 pages
Cours Thread
Siham El Maoui
Pas encore d'évaluation
Exam Dba 1920 QCM
Document5 pages
Exam Dba 1920 QCM
fida
Pas encore d'évaluation
1 Securite Des Reseaux.2p PDF
Document18 pages
1 Securite Des Reseaux.2p PDF
Emad Thr
Pas encore d'évaluation
Exemen Si
Document7 pages
Exemen Si
Hanane Bounar
Pas encore d'évaluation
QCM2
Document3 pages
QCM2
dann
Pas encore d'évaluation
QCM1
Document4 pages
QCM1
Ezechiel Kouame
100% (1)
Acl QCM
Document7 pages
Acl QCM
Mustapha Zaanik
Pas encore d'évaluation
Java EE - JSP
Document46 pages
Java EE - JSP
Mohamed Sidi Brahim
Pas encore d'évaluation
ACL Résumé de Résumé
Document3 pages
ACL Résumé de Résumé
Kacim Yazin
Pas encore d'évaluation
TP3 JSP Servlet
Document7 pages
TP3 JSP Servlet
Aaron Swartz
Pas encore d'évaluation
Cours CISCO CCNA2 CHAP2
Document4 pages
Cours CISCO CCNA2 CHAP2
Ange malvine Matagne talla
Pas encore d'évaluation
QCM Oracle - DBA1
Document4 pages
QCM Oracle - DBA1
maf.save02
Pas encore d'évaluation
Ds Exam Android
Document6 pages
Ds Exam Android
Lefmyh
Pas encore d'évaluation
Kafka Part 01
Document69 pages
Kafka Part 01
Hamza Elhamdi
Pas encore d'évaluation
TP MapReduce Python
Document5 pages
TP MapReduce Python
nour elislem
Pas encore d'évaluation
Mettre en Place Un Cluster de Base de Données Avec MariaDB
Document15 pages
Mettre en Place Un Cluster de Base de Données Avec MariaDB
Marouani Amor
Pas encore d'évaluation
QCM SQL - Post Formation - 032020
Document3 pages
QCM SQL - Post Formation - 032020
FORMATION ORADIST
Pas encore d'évaluation
Les Defenses Materielles
Document11 pages
Les Defenses Materielles
Jean Louis Kacou
Pas encore d'évaluation
Examen System Exloit-17-Juin 2010
Document4 pages
Examen System Exloit-17-Juin 2010
Yassine Werghi
Pas encore d'évaluation
Maitrisez La Configuration Apache Tomcat Sous Linux
D'Everand
Maitrisez La Configuration Apache Tomcat Sous Linux
Koru Lenag
Pas encore d'évaluation
Réseau 6G: Relier les mondes cyber et physique
D'Everand
Réseau 6G: Relier les mondes cyber et physique
Fouad Sabry
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
Document6 pages
Compte Rendu TP 1 Big Data
Gaith Belkacem
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
Document12 pages
TP N°2 - Exemple Word Count Avec Hadoop
ines
Pas encore d'évaluation
Examen Logseq21
Document3 pages
Examen Logseq21
Ilyas Mhammedi
Pas encore d'évaluation
4 Azure Considerations To Reduce Costs
Document12 pages
4 Azure Considerations To Reduce Costs
Pipo Molo
Pas encore d'évaluation
Atelier1 3eco
Document8 pages
Atelier1 3eco
Salma Sellami
Pas encore d'évaluation
Macro Vs Inline
Document13 pages
Macro Vs Inline
Chiheb Ameur Abid
Pas encore d'évaluation
Guide D'installation Et Mise en Service
Document68 pages
Guide D'installation Et Mise en Service
Herve Egnakou
100% (8)
1 Introduction J2EE
Document61 pages
1 Introduction J2EE
RidhaNommane
Pas encore d'évaluation
TP 03 Création Des Réseaux Avec Hub, Switch Et Routeur2020
Document2 pages
TP 03 Création Des Réseaux Avec Hub, Switch Et Routeur2020
SonnySmith
Pas encore d'évaluation
C++ Cours 2016
Document229 pages
C++ Cours 2016
Zied Brah
Pas encore d'évaluation
Sécurité Des Systèmes D'information
Document170 pages
Sécurité Des Systèmes D'information
Soufiane Rafek Allah
100% (1)
2 Donnees - p3 4 Correction
Document2 pages
2 Donnees - p3 4 Correction
J P
100% (1)
X-431 Euro Turbo: Appareil Professionnel Compact Et Ultra Rapide
Document14 pages
X-431 Euro Turbo: Appareil Professionnel Compact Et Ultra Rapide
pierre
Pas encore d'évaluation
Tableurs Niveau Avance-Microsoft Excel 2010-Manuel PDF
Document58 pages
Tableurs Niveau Avance-Microsoft Excel 2010-Manuel PDF
ATTIOGBE K OSSI
Pas encore d'évaluation
Guide Utilisateur
Document10 pages
Guide Utilisateur
Anonymous peMJV0
Pas encore d'évaluation
Codage D'un Plateforme de Compression
Document4 pages
Codage D'un Plateforme de Compression
kr M'baba
Pas encore d'évaluation
M10262 Formation Developper Des Applications Windows Avec Microsoft Visual Studio 2010 PDF
Document2 pages
M10262 Formation Developper Des Applications Windows Avec Microsoft Visual Studio 2010 PDF
CertyouFormation
Pas encore d'évaluation
Memo JAVA
Document3 pages
Memo JAVA
Gabriel Grandet
Pas encore d'évaluation
Rapport Du TP VPN
Document16 pages
Rapport Du TP VPN
Papa Niang
Pas encore d'évaluation
Pasutil Pas
Document13 pages
Pasutil Pas
kgrhoads
Pas encore d'évaluation
Indicateur Kpi PDF
Document13 pages
Indicateur Kpi PDF
Medvall Ould Med Yehdhih
Pas encore d'évaluation
M1202TD1
Document2 pages
M1202TD1
geeedezf
Pas encore d'évaluation
Mrtu Cpu Slave
Document4 pages
Mrtu Cpu Slave
luis miguel huarita castellon
Pas encore d'évaluation
RENOUX Charles CV
Document3 pages
RENOUX Charles CV
jdjdb
Pas encore d'évaluation
Audit de La Securite Informatique
Document14 pages
Audit de La Securite Informatique
PFE
Pas encore d'évaluation
BİM Maroc: Rpport de Stage
Document31 pages
BİM Maroc: Rpport de Stage
lisibim
67% (3)
Pfe Final
Document52 pages
Pfe Final
Amoula Romdhani
100% (2)
Mise en Place Du Lab CEHv11
Document16 pages
Mise en Place Du Lab CEHv11
delareligion_1391912
Pas encore d'évaluation
TP 1: Exercices D'Application: 1. Objectifs
Document4 pages
TP 1: Exercices D'Application: 1. Objectifs
khalil labidi
Pas encore d'évaluation
Share '2010010416590600001.pdf'
Document10 pages
Share '2010010416590600001.pdf'
robin gonzales
Pas encore d'évaluation
TP3 PDF
Document5 pages
TP3 PDF
Nouha Ben Marzouk
Pas encore d'évaluation
Apprendre A Coder Avec PythonM1-4-Min
Document172 pages
Apprendre A Coder Avec PythonM1-4-Min
Magnus Tshisekedi
100% (1)