Vous êtes sur la page 1sur 13

Master Spécialisé

Ingénierie de Données et Développement Logiciel

BIG DATA ANALYTICS


Apache Hadoop Labs
L’objectif de de ce TP 1 – Hadoop MapReduce : est de coder une application
MapReduce en utilisant Java, cette application a pour but de trouver la
température moyenne mensuelle la plus élevée.

Après le téléchargement des outils nécessaires (VMware Workstation,


Machine viruelle VMWare Cloudera CDH, Putty, WinSCP), nous configurons
les paramètres réseau de la machine virtuelle

Nous démarrons notre machine virtuelle et nous récupérons son adressage


ip.
Nous se connectons sur notre machine via SSH depuis le client putty

On se loge en utilisant le login Cloudera et le mot de passe cloudera

Nous configurons le client WInSCP de la façon suivante afin de pouvoir


transférer les fichiers.
TP1
Charger et examiner les données de l'échantillon (Sample Data)
Sur Putty :

Nous transférons le fichier BDU_MapReduce_and_YARN.tar sur notre


machine via winSCP
Nous téléchargeons les données de température vers HDFS
Démarrage du Projet Java
Créons un répertoire contenant les trois fichiers Java que nous allons créer
et rendez-le accessible. Le répertoire sera utilisé pour contenir les artefacts
du programme et pour le séparer des autres éléments du système de
fichiers.

Classe Mapper
Nous créons un nouveau fichier Java MaxTempMapper.java

Classe Reducer
Le Driver

Compilation et création du fichier JAR


Nous lançons notre fichier JAR
Ajoutons la fonction combiner
Nous relançons l’application en utilisant l’utilisateur HDFS

Vous aimerez peut-être aussi