Académique Documents
Professionnel Documents
Culture Documents
Big Data
2013-2014
Page 2
TP2 : Design Patterns dans Hadoop
d’entre eux comme dernier caractère. Les nouvelles lignes ne sont pas prises
en considération.
II.2 Top 10
Nous nous proposons maintenant d’extraire les 10 posts les plus longs du forum.
Activité 2.
- Écrire et tester un Mapper permettant d’extraire les dix posts les plus
longs du forum
III.1 Index
Nous nous proposons pour cet exercice de créer un index pour nos données,
c’est à dire un fichier permettant d’afficher
Page 3
TP2 : Design Patterns dans Hadoop
Activité 3.
III.2 Moyenne
On s’interesse dans cette partie à calculer la moyenne des ventes chaque
jour de la semaine
weekday = datetime.strptime(date,”%Y-%m-%d”).weekday()
Activité 4.
Page 4
TP2 : Design Patterns dans Hadoop
III.3 Combiner
Utiliser un combiner permet de faire des réductions sur le noeud Mapper
avant d’envoyer le résultat au Reducer, ce qui diminue considérablement le
traffic sur le réseau, ainsi que le travail du Reducer.
-combiner $2
- A la fin du fichier, ajouter une ligne pour l’alias:
alias hsc=run_mapreduce_combiner
- Sauvegarder le fichier, puis exécuter la commande suivante sur le
terminal, pour prendre en considération les nouvelles modifications:
source ~/.bashrc
- Désormais, pour prendre en considération le combiner, lancer la
commande hsc à la place de hs.
Page 5
TP2 : Design Patterns dans Hadoop
Activité 5.
IV. Homework
On se propose de réaliser une application mettant en oeuvre le patron de
conception structurel. Pour cela, nous allons réaliser la jointure de deux
ensembles de données: les fichiers délimités forum_nodes et forum_users.
Le fichier forum_nodes contient des informations sur les posts du forum, alors
que forum_users contient des informations sur les utilisateurs. Ils ont une clef en
commun (author_id dans le fichier forum_nodes et user_ptr_id dans
forum_users).
Page 6