TP2 Introduction À Spark Et Scala

Atelier Big Data avancée 20/21
TP2 Introduction à spark et

scala
Introduction
Ce TP s'appuie sur une distribution hadoop qu'on déploie avec Docker et que l'on trouve sur
github :
https://github.com/kibatic/docker-single-node-hadoop
On utilise également Zeppelin. C'est un notebook qui permet d'exécuter des codes scala et
de voir de façon conviviale les résultats de certaines commandes. Ca ressemble un peu au
iPython Notebook.
Installation de l'environnement
# récupérer le docker
git clone https://github.com/kibatic/docker-single-node-hadoop.git
cd docker-single-node-hadoop
docker-compose build
docker-compose up -d
# entrer dans le docker

docker exec -ti dockersinglenodehadoop_hsn_1 bash
# aller voir zeppelin dans son navigateur

# aller sur http://localhost:8002
# volumes partagés par docker

# le répertoire docker_data du repository est monté sur /data à l'intérieur du docker
Quelques rappel des principes, les RDD dans spark

Spark manipule des RDD (Resilient Distributed Dataset). Des RDD sont des listes
immutables.
Dans spark on enchaine des traitements sur des RDD pour obtenir de nouveaux RDD pour
l'étape d'après. C'est par ces enchaînements (workflow) qu'on fait des opérations avec
spark.
On a 2 types d'opérations sur le RDD :
 Les transformations ne font que définir le workflow des RDD mais n'exécutent pas
les calculs (sc.textFile, filter(), ...)
 Les actions lancent les calculs proprement dit et renvoient un résultat (count(),
saveAsTextFile,...)
RSI31 Page 1
Opérations usuelles
Créer un RDD à la main
// créer un RDD à la main

val lines = sc.parallelize(List("chien", "chat"))
// compter les lignes du RDD
lines.count()
lire un fichier présent dans HDFS

Dans le docker :
Créer un fichier texte chemin_faisant.txt contenant le texte suivant :
Marcheur, ce sont tes traces
ce chemin, et rien de plus ;
Marcheur, il n'y a pas de chemin,
Le chemin se construit en marchant.
En marchant se construit le chemin,
Et en regardant en arrière
On voit la sente que jamais
On ne foulera à nouveau.
Seulement des sillages sur la mer.
Antonio Machado
# copier le fichier dans hdfs

hdfs dfs -put chemin_faisant.txt /tmp/chemin_faisant.txt
# vérifier qu'il a bien été transféré

hdfs dfs -put chemin_faisant.txt /tmp/chemin_faisant.txt
Aller dans zeppelin à l'adresse http://localhost:8002 et créer un nouveau notebook.

Dans ce notebook, exécutez les commandes suivantes :
// créer un RDD avec le contenu du fichier.

// note : dans notre docker, localhost:9000 est le host et le port de hdfs.
var lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")
// compte le nombre d'élément du RDD

lines.count()
// renvoie la 1ère ligne du RDD

lines.first()
// prend les 5 premières lignes du RDD et les affiches les unes sous les autres
lines.take(5).foreach(println)
RSI31 Page 2
/* retour :
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at textFile at <console>:25
res22: Long = 12
res25: String = Marcheur, ce sont tes traces
ce chemin, et rien de plus ;
En marchant se construit le chemin,
*/
Filtrer des lignes

On va enchaîner 2 RDD

var cheminLines = lines.filter(line => line.contains("chemin"))
lines.count()
cheminLines.count()
/** @returns
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at textFile at <console>:23
cheminLines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[20] at filter at <console>:25
res28: Long = 12
res29: Long = 5
*/
Compter les mots
val input = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

val words = input.flatMap(line => line.split(" "))
val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}
counts.saveAsTextFile("/data/transfert/tuto_spark/word_count_result")
// lire les fichiers part-00000 et part-00001 pour voir le résultat du calcul
Mettre un RDD en cache

// ici, on indique que cheminLines doit être enregistré en cache

// on a donc pas à le recalculer 2 fois pour le count() et pour le first()
cheminLines.persist
cheminLines.count()
cheminLines.first()
RSI31 Page 3
Unir 2 RDD : union

Warning, le processus ne dédoublonne pas. Certaines lignes se retrouvent 2 fois dans le
RDD final.

var marcheurLines = lines.filter(line => line.contains("Marcheur"))
var cheminOuMarcheurLines = cheminLines.union(marcheurLines)
cheminOuMarcheurLines.persist
cheminOuMarcheurLines.count()
cheminOuMarcheurLines.first()
cheminLines.count()
marcheurLines.count()
/* returns
res83: Long = 8
res84: String = ce chemin, et rien de plus ;
res85: Long = 5
res86: Long = 3
*/
map : mapping simple, 1 élément vers 1 élément
val input = sc.parallelize(List(1, 2, 3, 4))

val result = input.map(x => x + x)
result.collect()
println(result.collect().mkString(","))
/* résultat
res128: Array[Int] = Array(2, 4, 6, 8)
2,4,6,8
*/
flatMap
val lines = sc.parallelize(List("hello world", "bonjour le monde"))

val words = lines.flatMap(line => line.split(" "))
words.collect()
/* renvoie :
res131: Array[String] = Array(hello, world, bonjour, le, monde)
*/
Quelques fonctions utiles
// des fonctions simples

var rdd = rdd1.distinct()
var rdd = rdd1.union(rdd2)
var rdd = rdd1.intersection(rdd2)
RSI31 Page 4
var rdd = rdd1.subtract(rdd2)
// cartesian product
val letters = sc.parallelize(List("A", "B", "C"))
var digits = sc.parallelize(List(1, 2))
var rdd = letters.cartesian(digits)
rdd.collect()
// returns Array[(String, Int)] = Array((A,1), (A,2), (B,1), (B,2), (C,1), (C,2))
Extraction de sous-ensembles
sample permet de récupérer un sous ensemble
val sample = rdd.extract(withReplacement, fraction, [seed])
val lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

val extract = lines.sample(false, 0.5)
extract.collect().foreach(println)
extract.count()
lines.count()
/* résultat non prédictible, mais la moitié de l'échantillon

Et en regardant en arrière
On voit la sente que jamais
Seulement des sillages sur la mer.
Antonio Machado
6
12
*/
Les actions possibles
// réduction simple
input.reduce((x,y) => x+y)
// renvoie 10
// fold : idem réduction mais avec une "zero value" qui est l'identité de votre opération
input.fold(0)((x,y) => x+y)
// renvoie 10 aussi
// renvoie toute la collection

input.collect()
// on devine ce que ça fait

input.count()
input.countByValue()
RSI31 Page 5
input.take(3) // 3 elements
input.top(4) // 4 top elements
input.takeOrdered(5)(ordering) // 5 élément ordonnées suivant la fonction fournie
input.takeSample(false, 12) // 12 éléments au pif
input.foreach(func) // applique la func aux élements du RDD
// aggrégation
input.aggregate(zeroValue)(seqOp, combOp)
input.mean() // moyenne
Retour sur la persistance

La persistance peut se faire en mémoire ou sur disque ou un peu des deux.
import org.apache.spark.storage.StorageLevel
val result = input.map(x => x + x)
result.persist(StorageLevel.DISK_ONLY)
println(result.count())
println(result.collect().mkString(","))
/*
5 types de persistance. Avec SER, c'est avec sérialisation. Ca prend plus de CPU et moins de place.
MEMORY_ONLY
MEMORY_ONLY_SER
MEMORY_AND_DISK
MEMORY_AND_DISK_SER
DISK_ONLY
*/
RSI31 Page 6

TP2 Introduction À Spark Et Scala

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP2 Introduction À Spark Et Scala

Transféré par

Droits d'auteur :

Formats disponibles

Atelier Big Data avancée 20/21

TP2 Introduction à spark et

# entrer dans le docker

# aller voir zeppelin dans son navigateur

# volumes partagés par docker

Quelques rappel des principes, les RDD dans spark

// créer un RDD à la main

lire un fichier présent dans HDFS

# copier le fichier dans hdfs

# vérifier qu'il a bien été transféré

Aller dans zeppelin à l'adresse http://localhost:8002 et créer un nouveau notebook.

// créer un RDD avec le contenu du fichier.

// compte le nombre d'élément du RDD

// renvoie la 1ère ligne du RDD

Filtrer des lignes

var lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

Compter les mots

val input = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

Mettre un RDD en cache

var lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

// ici, on indique que cheminLines doit être enregistré en cache

Unir 2 RDD : union

var lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

map : mapping simple, 1 élément vers 1 élément

val input = sc.parallelize(List(1, 2, 3, 4))

val lines = sc.parallelize(List("hello world", "bonjour le monde"))

Quelques fonctions utiles

// des fonctions simples

var rdd = rdd1.subtract(rdd2)

val lines = sc.textFile("hdfs://localhost:9000/tmp/chemin_faisant.txt")

/* résultat non prédictible, mais la moitié de l'échantillon

Les actions possibles

// renvoie toute la collection

// on devine ce que ça fait

Retour sur la persistance

Vous aimerez peut-être aussi