Académique Documents
Professionnel Documents
Culture Documents
Amani Dridi
1
Table des matières
TP1 : Le traitement Batch avec Hdoop HDFS et Map Reduce 3
1: La 1ᵉ étape 3
2: La 2ᵉ étape 3
3: La 3ᵉ étape 3
Cloudera 7
1 : Running WordCount v1.0 7
Tp 4 :Big Data Analytics : Interactive Analytics with Apache Hive & Impala 14
1-Objectifs 14
2-Sqoop 14
3-Création de tables et importation des données avec Hive via Hue 16
4-Intégration des données avec Impala 18
5-Corrélation des données structurées avec des données non structurées 19
2
TP1 : Le traitement Batch avec Hdoop HDFS et
Map Reduce
1: La 1ᵉ étape
après la création de réseau Hadoop sur Docker on a Démarrer
les trois contenaires ;La première chose à faire, une fois
dans le contenaire, est de lancer hadoop et yarn.
2: La 2ᵉ étape
n a créé un répertoire dans HDFS et apres
O on a utiliser le
fchier purchases.txt [https://drive.google.com
/open?id=0Bz7DokLRQvx7YnZ4NHBLX3lnOEk] comme entrée pour le
traitement MapReduce,et on a copier le fchier purchases.txt
dans HDFS sous le répertoire input.
3: La 3ᵉ étape
Nous allons tester un programme MapReduce grâce à le fchier
purchases.txt dans HDFS sous le répertoire input :
3
3-On a créé un package tn.insat.tp1 sous le répertoire
src/main/java et les classe java
4
- on a Créé une confguration Maven avec la ligne
de commande" package install" : Un fchier wordcount-1.jar sera
créé dans le répertoire target du projet.
5
6
TP2 : Workshop Hadoop / MapReduce
Cloudera
7
2. Exécuter l’application WordCount depuis le fichier JAR file(On passant le
chemin des répertoires output et input :
8
9
TP 3 :Pig Programming: Create Your First Apache
Pig Script
10
2/To process this data using Pig, this file should be present in Apache Hadoop
HDFS
11
Partie 2: Apache Pig Script in Local Mode
● Writing a Script
12
● Execute the Pig Script To execute the pig script in local mode, run the
following command:
Command: pig –x local sample.pig
13
Tp 4 :Big Data Analytics : Interactive Analytics with
Apache Hive & Impala
1-Objectifs
Cet atelier permet d’exploiter les différents outils de Big data (Hive, SQL Impala, sqoop,
HDFS, Avro) pour faire exactement la même chose que vous savez déjà faire (interrogation
des BDR) mais avec CDH (Cloudera Distribution Including Apache Hadoop).
2-Importation des données avec sqoop du local vers HDFS:
Pour analyser les données de transaction dans la nouvelle plate-forme, nous devons
les intégrer au système de fichiers distribués Hadoop (HDFS). Nous devons trouver
un outil qui permette de transférer facilement des données structurées d’un SGBDR
vers HDFS, tout en préservant la structure. Cela nous permet d’interroger les
données, sans interférer ni interrompre leur charge de travail.
Apache Sqoop, qui fait partie de CDH, est cet outil. La bonne chose à propos de
Sqoop est que nous pouvons charger automatiquement nos données relationnelles
de MySQL dans HDFS, tout en préservant la structure. Avec quelques paramètres
de configuration supplémentaires, nous pouvons aller plus loin et charger ces
données relationnelles directement dans un formulaire prêt à être interrogé par
Apache Impala, la base de données analytique MPP incluse avec CDH et d'autres
charges de travail.
2-Sqoop
1. Vous devez d'abord lancez le travail Sqoop: pour importer toutes les
table
Elle lance des opérations (jobs) MapReduce pour transférer les données de la
base de données MySQL, versHDFS sous format Avro
14
2. Vérification de l’importation des données
Les fichiers de données Avro existent dans HDFS.
15
4. Importation des schémas du local vers HDFS
Les schémas Avro ont été générés dans le système locale contrairement aux
données qui vont être générés sur HDFS. Pour interroger ces données avec
Apache Hive, nous devons copier les fichiers d’extension (.avsc) dans HDFS
16
● La création de la table externe « customers »
17
● La création de la table externe « products »
Maintenant que vos données de transactions sont disponibles sur CDH pour exécuter vos
requêtes SQL, nous pouvons maintenant répondre à la question de DataCo « Quels sont les
produits que nos clients aiment acheter ? »
● Méthode 1
18
● Méthode 2
19
● La première étape permet d’extraire les champs à partir de fichier logs en
utilisant des expressions régulières et aussi en profitant de la capacité et la
flexibilité de l’outil « SerDes (serializers / deserializers) » fourni par Hive
pour analyser (to parse) le fichier log.
● Show tables
● Après la création de cette table HIVE, nous pouvons exécuter cette requête SQL
(Query3) qui permet d’extraire le nombre de vu par produit
20
21