Vous êtes sur la page 1sur 14

Traitement

du Big Data
TP 4
Analyse du dataset Olympix

Nassim Bahri M1 DSSD


Objectifs du
TP
implémentation d'un job MapReduce
permettant d'analyser le contenu du
dataset olympix_data.csv
Présentation
L'objectif de ce TP sera l'implémentation d'un job MapReduce permettant
d'analyser le contenu du dataset olympix_data.csv.

Le fichier olympix_data.csv à est disponible sur ce lien :


https://github.com/BigDataESEN/datasets/blob/main/olympix_data.csv
Présentation
Les colonnes de ce fichier sont décrites comme suit :

0 Nom de l'athlète 5 Nom de la discipline (sport)

1 Age de l'athlète 6 Nombre de médailles d'or

2 Nom du pays 7 Nombre de médailles en argent

3 Année de participation 8 Nombre de médailles en bronze

4 Date de la cérémonie de clôture 9 Nombre total de médailles


Implémentation
Commençons par créer un projet Maven dans IntelliJ IDEA. Nous utiliserons dans
notre cas JDK 1.8.

Ouvrir le fichier pom.xml, et ajouter les dépendances suivantes pour Hadoop,


HDFS et Map Reduce :

1. hadoop-common
2. hadoop-mapreduce-client-common
3. hadoop-mapreduce-client-core
4. hadoop-hdfs
Implémentation
<dependencies>
Pour ajouter une bibliothèque java, il faut juste
<dependency>
<groupId>org.apache.hadoop</groupId> chercher son nom de le repository de maven.
<artifactId>hadoop-common</artifactId>
<version>3.3.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>3.3.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>3.3.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId> Choisissez la version.
<version>3.3.2</version>
<scope>test</scope>
</dependency>
</dependencies>
Implémentation
1- Créer la classe OlympixMapper, contenant ce code :
Implémentation
2- Créer la classe OlympixReducer, contenant ce code :
Implémentation
3- Créer la classe Olympix, contenant ce code :
Implémentation
3- Créer la classe Main, contenant ce code : (suite)
Tester Map Reduce sur
votre cluster

Il faut suivre les étapes décrite dans le TP 3


Correction

Le code source du job est disponible


sur l'adresse suivante :

https://github.com/BigDataESEN
/OlympixMapReduce
Références

https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-
mapreduce-client-core/MapReduceTutorial.html

https://kontext.tech/column/hadoop/265/default-ports-used-by-hadoop-
services-hdfs-mapreduce-yarn
Merci pour votre
attention

Vous aimerez peut-être aussi