Vous êtes sur la page 1sur 21

Atelier Framework big data

Amani Dridi

Encadré par :DR Abir KHALDI

1
Table des matières
TP1 : Le traitement Batch avec Hdoop HDFS et Map Reduce 3
1: La 1ᵉ étape 3
2: La 2ᵉ étape 3
3: La 3ᵉ étape 3

TP2 : Workshop Hadoop / MapReduce 7

Cloudera 7
1 : Running WordCount v1.0 7

TP 3 :Pig Programming: Create Your First Apache Pig Script 10


Partie 1: Apache Pig Script in MapReduce Mode 10
Partie 2: Apache Pig Script in Local Mode 12

Tp 4 :Big Data Analytics : Interactive Analytics with Apache Hive & Impala 14
1-Objectifs 14
2-Sqoop 14
3-Création de tables et importation des données avec Hive via Hue 16
4-Intégration des données avec Impala 18
5-Corrélation des données structurées avec des données non structurées 19

2
TP1 : Le traitement Batch avec Hdoop HDFS et
Map Reduce

1: La 1ᵉ étape
après la création de réseau Hadoop sur Docker on a Démarrer
les trois contenaires ;La première chose à faire, une fois
dans le contenaire, est de lancer hadoop et yarn.

2: La 2ᵉ étape
​ n a créé un répertoire dans HDFS et apres
O on a utiliser le
fchier purchases.txt [​https://drive.google.com
/open?id=0Bz7DokLRQvx7YnZ4NHBLX3lnOEk] comme entrée pour le
traitement MapReduce,et on a copier le fchier purchases.txt
dans HDFS sous le répertoire input.

3: La 3ᵉ étape
Nous allons tester un programme MapReduce grâce ​à ​le fchier
purchases.txt dans HDFS sous le répertoire input :

1-​Commençons par créer un projet Maven dans IntelliJ IDEA. Nous


utiliserons dans notre cas JDK 1.8

2- Configuration le fchier pom.xm

3
3-On a créé un package tn.insat.tp1 sous le répertoire
src/main/java et les classe java

4-Tester Map Reduce en local:


-on Créé une confguration de type Application
(Run->Edit Confgurations...->+->Application).

5-Lancer Map Reduce sur le cluster :

4
- on a Créé une confguration Maven avec la ligne
de commande" package install" : Un fchier wordcount-1.jar sera
créé dans le répertoire target du projet.

6-Copier le fchier jar créé dans le contenaire master

7- puis on a lanceé le job map reduce

5
6
TP2 : Workshop Hadoop / MapReduce

Cloudera

1 : Running WordCount v1.0


● Créer les répertoires ​i​nput et output locations in HDFS.
● Créer les trois fichiers texte d’entrées et les mettre dans le répertoire input.

1. Creation de fichier JAR de l’application WordCount

7
2. Exécuter l’application WordCount depuis le fichier JAR file(On passant le
chemin des répertoires output et input :

3. L’affichage de contenue d’output :

8
9
TP 3 :Pig Programming: Create Your First Apache
Pig Script

Partie 1: Apache Pig Script in MapReduce Mode


1/Save the text file with the name ‘information.txt’
The sample data file contains five columns FirstName, LastName, MobileNo, City,
and Profession separated by tab key.
Our task is to read the content of this file from the HDFS and display all the columns
of these records.

10
2/To process this data using Pig, this file should be present in Apache Hadoop
HDFS

● Writing a Pig script

● Execute the Apache Pig Script : pig /home/edureka/output.pig


Result:

11
Partie 2: Apache Pig Script in Local Mode
● Writing a Script

12
● Execute the Pig Script To execute the pig script in local mode, run the
following command:
Command: pig –x local sample.pig

13
Tp 4 :Big Data Analytics : Interactive Analytics with
Apache Hive & Impala

1-Objectifs
Cet atelier permet d’exploiter les différents outils de Big data (Hive, SQL Impala, sqoop,
HDFS, Avro) pour faire exactement la même chose que vous savez déjà faire (interrogation
des BDR) mais avec CDH (Cloudera Distribution Including Apache Hadoop).
2-Importation des données avec sqoop du local vers HDFS:
Pour analyser les données de transaction dans la nouvelle plate-forme, nous devons
les intégrer au système de fichiers distribués Hadoop (HDFS). Nous devons trouver
un outil qui permette de transférer facilement des données structurées d’un SGBDR
vers HDFS, tout en préservant la structure. Cela nous permet d’interroger les
données, sans interférer ni interrompre leur charge de travail.
Apache Sqoop, qui fait partie de CDH, est cet outil. La bonne chose à propos de
Sqoop est que nous pouvons charger automatiquement nos données relationnelles
de MySQL dans HDFS, tout en préservant la structure. Avec quelques paramètres
de configuration supplémentaires, nous pouvons aller plus loin et charger ces
données relationnelles directement dans un formulaire prêt à être interrogé par
Apache Impala, la base de données analytique MPP incluse avec CDH et d'autres
charges de travail.

2-Sqoop
1. Vous devez d'abord lancez le travail Sqoop: pour importer toutes les
table
Elle lance des opérations (jobs) MapReduce pour transférer les données de la
base de données MySQL, versHDFS sous format Avro

14
2. Vérification de l’importation des données
Les fichiers de données Avro existent dans HDFS.

3. Visualisation du schéma Avro


Sqoop a migré les donnes relationnelles vers un format binaire (Avro) tout en
gardant leurs structure dans un fichier de schéma d’extension « .avsc » (Avro
schéma)

15
4. Importation des schémas du local vers HDFS
Les schémas Avro ont été générés dans le système locale contrairement aux
données qui vont être générés sur HDFS. Pour interroger ces données avec
Apache Hive, nous devons copier les fichiers d’extension (.avsc) dans HDFS

3-Création de tables et importation des données avec Hive via


Hue
Hive et Impala vous permettent également de créer des tables en définissant un schéma sur
les fichiers existants avec l’instruction 'CREATE EXTERNAL TABLE', similaires aux bases
de données relationnelles traditionnelles
Pour interroger ces tables:
1. Nous exploitons l’application Hue Impala

2. Créer des tables à partir des fichiers Avr:


● La création de la table externe « categorie »

16
● La création de la table externe « customers »

● La création de la table externe « departments »

● La création de la table externe « orders »

● La création de la table externe « order_items »

17
● La création de la table externe « products »

4-Intégration des données avec Impala


Donc, la première chose que nous devons faire est de dire à Impala que les métadonnées
sont obsolètes avec l’instruction «invalidate metadata ;». Ensuite, pour afficher nos tables
sur Hue on doit exécuter l’instruction « show tables ; »

Maintenant que vos données de transactions sont disponibles sur CDH pour exécuter vos
requêtes SQL, nous pouvons maintenant répondre à la question de DataCo « Quels sont les
produits que nos clients aiment acheter ? »
● Méthode 1

18
● Méthode 2

5-Corrélation des données structurées avec des données non


structurées
Nous allons exploiter un fichier existant dans le répertoire de la machine virtuelle
/opt/examples/log_files/access.log.2. Pour copier ce fichier vers HDFS, vous devez exécuter
ces commandes dans le terminal pour créer un répertoire original_access_logs sur HDFS
ensuite copier le fichier « access.log.2 »depuis le système de fichiers local (CentOs dans
notre cas) vers HDFS.

19
● La première étape permet d’extraire les champs à partir de fichier logs en
utilisant des expressions régulières et aussi en profitant de la capacité et la
flexibilité de l’outil « SerDes (serializers / deserializers) » fourni par Hive
pour analyser (to parse) le fichier log.

● La seconde étape permet de créer une table Hive à partir de résultat de


SerDes pour éviter chaque fois le recours à cet outil pour analyser ce
fichier.

● Show tables

● Après la création de cette table HIVE, nous pouvons exécuter cette requête SQL
(Query3) qui permet d’extraire le nombre de vu par produit

20
21

Vous aimerez peut-être aussi