Bienvenue sur Scribd !

Ignorer le carrousel

TP2 Spark

Transféré par

elkamel ranim

0% ont trouvé ce document utile (0 vote)

16 vues3 pages

Titre original

TP2Spark (2)

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

16 vues3 pages

TP2 Spark

Transféré par

elkamel ranim

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 3

Rechercher à l'intérieur du document

Issat Gafsa Framework Big Data

TP2: Explorer les données avec Spark

1. Spark History server

Pour activer le serveur d’historique sur cloudera exécuter les commandes suivantes:

$ sudo service spark-history-server stop

$ sudo -u hdfs hadoop fs -chown -R spark:spark /user/spark
$ sudo -u hdfs hadoop fs -chmod 777 /user/spark/applicationHistory

Ajouter dans le fichier /etc/spark/conf/spark-defaults.conf les lignes suivantes:

spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://quickstart.cloudera:8020/user/spark/
applicationHistory
spark.yarn.historyServer.address=http://quickstart.cloudera:18088

Après exécuter la commande suivante:

$ sudo service spark-history-server start

Pour afficher le serveur d’historique il faut ouvrir le navigateur wed et aller a :

http://quickstart.cloudera:18088

2. Manipuler des données avec Spark

Dans cette partie on s’intéresse au fichier words.txt qui contient tout les travaux de l’écrivain
anglais William Shakespeare.

Pour s’assure que le fichier et déjà existant dans hdfs exécuter la commande suivante:
hadoop fs -put words.txt

Si non, il faut télécharger me fichier texte en entrant le lien suivant dans le navigateur: http://
ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt
et le copier dans hdfs.
qu’est
Lancer le shell Spark pour scala:
$ spark-shell

scala> sc

Qu’est ce qui affiche la commande suivante? Que représente sc?

2023/2024 1 sur 3
Issat Gafsa Framework Big Data

scala> val pagecounts = sc.textFile( "words.txt")

Qu’est ce que permet de faire ce ligne de code? c’est quoi pagecounts?

scala> pagecounts.take(10)

La fonction take permet d’obtenir les 10 premiers lignes. Interpréter l’affichage de cette
commande

scala> pagecounts.take(10).foreach(println)

Interpréter l’affichage de cette commande. C’est quoi la différence par rapport à l’autre
commande?

scala> pagecounts.count

C’est quoi le résultat de ce code?

Consulter le serveur d’historique de spart pour voir les différentes taches et étapes crées.
On propose maintenant de créer un programme pour relever les mots les plus fréquents que
Shakespeare a utilisé dans ses travaux.

Pour cela on va d’abord charger le fichier dans la mémoire:

scala> val docs = sc.textFile( "words.txt")

Après on va convertir tout le texte en minuscules:

scala> val lower = docs.map(line => line.toLowerCase)

Après on va séparer les lignes en mots:

scala> val words = lower.flatMap(line => line.split(« \\s+ »))

Et produire les tuples (mot, 1)

scala> val counts = words.map(word => (word,1))

Et Compter tous les mots

scala> val freq = counts.reduceByKey(_ + _)

2023/2024 2 sur 3
Issat Gafsa Framework Big Data

Interpreter maintenant ce qui suit:

scala> freq.map(_.swap)

scala> val top = freq.map(_.swap).saveAsTextFile(« output" )

scala> val top = freq.map(_.swap).top(100)

2023/2024 3 sur 3

Vous aimerez peut-être aussi

Ruby Paquets 100 Coups: Maîtrise en Une Heure - Édition 2024
D'Everand
Ruby Paquets 100 Coups: Maîtrise en Une Heure - Édition 2024
Tomoya
Pas encore d'évaluation
TP1FBD
Document3 pages
TP1FBD
elkamel ranim
Pas encore d'évaluation
TP4-5 Spark
Document21 pages
TP4-5 Spark
Mazozi safae
Pas encore d'évaluation
Sparks Tre Ming
Document13 pages
Sparks Tre Ming
fafa
Pas encore d'évaluation
Application2 - Initiation Spark PDF
Document7 pages
Application2 - Initiation Spark PDF
Administration IHET
Pas encore d'évaluation
Scala
Document33 pages
Scala
Zouhair Ng
Pas encore d'évaluation
TP Sparks QL
Document19 pages
TP Sparks QL
Amira Dhrioua
Pas encore d'évaluation
TP3 - Apache Kafka
Document4 pages
TP3 - Apache Kafka
maryam Amgarou
Pas encore d'évaluation
TP Application Crud Avec Laravel6 Bootstrap 4 Et Mysql
Document19 pages
TP Application Crud Avec Laravel6 Bootstrap 4 Et Mysql
allabouch2004
Pas encore d'évaluation
TP Application Crud Avec Laravel6 Bootstrap 4 Et Mysql
Document18 pages
TP Application Crud Avec Laravel6 Bootstrap 4 Et Mysql
driss.elhannach@gmail.com
Pas encore d'évaluation
Couplage Apache Tomcat
Document8 pages
Couplage Apache Tomcat
totobubu
Pas encore d'évaluation
Howto Weathermap4rrd
Document3 pages
Howto Weathermap4rrd
iAndry
Pas encore d'évaluation
TP SparkHadoop
Document5 pages
TP SparkHadoop
Marwa Hbacha
Pas encore d'évaluation
(Ebook) Tutorial - Developpement WEB en Java (Servlets Et Pages JSP) Avec Eclipse Et Tomcat
Document53 pages
(Ebook) Tutorial - Developpement WEB en Java (Servlets Et Pages JSP) Avec Eclipse Et Tomcat
laertepalves
Pas encore d'évaluation
Exo Web Services
Document21 pages
Exo Web Services
benben08
Pas encore d'évaluation
MahamatTaherAl CheikhSeyidi
Document8 pages
MahamatTaherAl CheikhSeyidi
Sayoba Gansane
Pas encore d'évaluation
Chapitre 2 - Utiliser Spark
Document11 pages
Chapitre 2 - Utiliser Spark
syslinux2000
Pas encore d'évaluation
TP 1 WebServices
Document3 pages
TP 1 WebServices
Cheikh Mbaye
Pas encore d'évaluation
Exploitation Buffer Overflow Dans Le Serveur Web Savant 3.1
Document12 pages
Exploitation Buffer Overflow Dans Le Serveur Web Savant 3.1
Romain
Pas encore d'évaluation
06 Comprendre Utiliser Packetbeat Stack Elk
Document18 pages
06 Comprendre Utiliser Packetbeat Stack Elk
Christian Biboue
Pas encore d'évaluation
Cours Laravel 9 - Mix
Document5 pages
Cours Laravel 9 - Mix
KHALID EDAIG
Pas encore d'évaluation
No SQ L Avec Cassandra
Document7 pages
No SQ L Avec Cassandra
yugaselvan
Pas encore d'évaluation
Chap 7
Document25 pages
Chap 7
syslinux2000
Pas encore d'évaluation
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Document11 pages
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Rim Hancha
Pas encore d'évaluation
Partie 2 Nodejs1
Document22 pages
Partie 2 Nodejs1
zid
Pas encore d'évaluation
tp1 BigData
Document9 pages
tp1 BigData
Haitam Laaouini
Pas encore d'évaluation
TD 0 Eclipse Et HDFS
Document4 pages
TD 0 Eclipse Et HDFS
test user
Pas encore d'évaluation
Asterisk - Installation D'astérisque Sur CentOS 6.X - Asterisk Tutorial
Document2 pages
Asterisk - Installation D'astérisque Sur CentOS 6.X - Asterisk Tutorial
Excellence Renato Cizungu
100% (1)
Zenk Pentest LampSec CTF6
Document15 pages
Zenk Pentest LampSec CTF6
Mido Belho
Pas encore d'évaluation
Docker Compose Tutorial
Document9 pages
Docker Compose Tutorial
Moulay Ayoub Chaaba
Pas encore d'évaluation
TP Administration Oracle: Ingénieurs 2000 - Informatique Et Réseaux
Document9 pages
TP Administration Oracle: Ingénieurs 2000 - Informatique Et Réseaux
Dida User
Pas encore d'évaluation
Sujet Du TP
Document9 pages
Sujet Du TP
dev_tuto
Pas encore d'évaluation
12 - Deboguer-Vos-Conteneurs-Et-Images-Dockers
Document14 pages
12 - Deboguer-Vos-Conteneurs-Et-Images-Dockers
Christian Biboue
Pas encore d'évaluation
Piloter Vos Jobs Sas Data Management Depuis Sas Base
Document8 pages
Piloter Vos Jobs Sas Data Management Depuis Sas Base
Nicolas Housset
Pas encore d'évaluation
Examen Services Reseaux 2018
Document4 pages
Examen Services Reseaux 2018
Mohammed Naguib
Pas encore d'évaluation
Installation Et Configuration D'un Serveur DNS
Document9 pages
Installation Et Configuration D'un Serveur DNS
Reda Essannak
Pas encore d'évaluation
TD 3
Document2 pages
TD 3
zid
Pas encore d'évaluation
React Redux Tutoriel 1
Document9 pages
React Redux Tutoriel 1
hachemfst
Pas encore d'évaluation
6.2.7 Lab - Build A Sample Web App in A Docker Container - FR FR
Document12 pages
6.2.7 Lab - Build A Sample Web App in A Docker Container - FR FR
fourat halawa
Pas encore d'évaluation
SNMP in Action 2
Document4 pages
SNMP in Action 2
Still Bligha
Pas encore d'évaluation
Presentation JSF Atol Web
Document21 pages
Presentation JSF Atol Web
Hajar Mef
Pas encore d'évaluation
Spark
Document4 pages
Spark
fatima ezzahrae el ghatous
Pas encore d'évaluation
Framework Laravel p1
Document44 pages
Framework Laravel p1
2A Soft
Pas encore d'évaluation
Eloquent Eager Limit
Document12 pages
Eloquent Eager Limit
codeur.onimamy
Pas encore d'évaluation
HTTP Mysql
Document66 pages
HTTP Mysql
Awa SALL
Pas encore d'évaluation
TP Sec Serv Web
Document3 pages
TP Sec Serv Web
ABBASSI RABAH
Pas encore d'évaluation
Aix 6.1 + Gpfs + Oracle Rac11g2
Document8 pages
Aix 6.1 + Gpfs + Oracle Rac11g2
Foster Tse
Pas encore d'évaluation
CBD TP
Document6 pages
CBD TP
zemer
Pas encore d'évaluation
Tutorial Spring MVC Crud Spring Data Postgresql
Document31 pages
Tutorial Spring MVC Crud Spring Data Postgresql
neji jlassi
Pas encore d'évaluation
Rainbow Crack
Document3 pages
Rainbow Crack
Abdoulaye Aw
Pas encore d'évaluation
Terminer Les Opérations SQLite CRUD Dans Flutter - CodAffection
Document13 pages
Terminer Les Opérations SQLite CRUD Dans Flutter - CodAffection
Richard Atopani
Pas encore d'évaluation
Utiliser Plusieurs Bases de Données Dans Spring
Document29 pages
Utiliser Plusieurs Bases de Données Dans Spring
ABBASSI RABAH
Pas encore d'évaluation
Fiche TP 1 - Environnement de Travail
Document6 pages
Fiche TP 1 - Environnement de Travail
abdoul ly
Pas encore d'évaluation
A Cket Fence
Document14 pages
A Cket Fence
HONDI
Pas encore d'évaluation
Spark SQL
Document19 pages
Spark SQL
Ahlem Brahmi
Pas encore d'évaluation
Tp1 Bigdata Mapreduce 171031163107
Document8 pages
Tp1 Bigdata Mapreduce 171031163107
Koffi Kanga
Pas encore d'évaluation
Cours Spark
Document50 pages
Cours Spark
Nancy Dobé
Pas encore d'évaluation
Oracle Instal
Document6 pages
Oracle Instal
PapissK
Pas encore d'évaluation
Best 20 Hacking Tutorials (1) (1) (370 404)
Document35 pages
Best 20 Hacking Tutorials (1) (1) (370 404)
kouabenan
Pas encore d'évaluation
Informix MS-SQLOracle
Document5 pages
Informix MS-SQLOracle
albatrosnet
Pas encore d'évaluation
Tenda Modem
Document2 pages
Tenda Modem
tighrine faredj
Pas encore d'évaluation
Équations Et Inéquations - Exercices: Uriol
Document3 pages
Équations Et Inéquations - Exercices: Uriol
Minecraft Arabic
Pas encore d'évaluation
1.SHP Intro
Document26 pages
1.SHP Intro
franck nzau
Pas encore d'évaluation
Activite TP05 Composition de L Atmosphere Fiche - Eleve
Document3 pages
Activite TP05 Composition de L Atmosphere Fiche - Eleve
Emma Roemer
Pas encore d'évaluation
1 1infra-1 2caracter
Document95 pages
1 1infra-1 2caracter
wzaydan
Pas encore d'évaluation
Manuel Utilisateur Configuration, Test Et Exécution de Programmes CN
Document348 pages
Manuel Utilisateur Configuration, Test Et Exécution de Programmes CN
etudes ameurplastics
Pas encore d'évaluation
Prevision de La Geometrie Des Molecules
Document25 pages
Prevision de La Geometrie Des Molecules
Nassima El Mahni
Pas encore d'évaluation
Bribes Du Temps
Document2 pages
Bribes Du Temps
patriceleblan
Pas encore d'évaluation
Mémoire de Fin D'année - Google Analytics
Document66 pages
Mémoire de Fin D'année - Google Analytics
jollet_pierre+scribd
100% (1)
Guide Installation Renolink
Document2 pages
Guide Installation Renolink
lacan illisible
Pas encore d'évaluation
Vocabulaire Banque
Document6 pages
Vocabulaire Banque
Bouh Amed
Pas encore d'évaluation
Cours - HADERBACHE Bachir - Théories Des Organisations
Document94 pages
Cours - HADERBACHE Bachir - Théories Des Organisations
Esma Belguith
Pas encore d'évaluation
Attache Territorial - Composition 2014
Document6 pages
Attache Territorial - Composition 2014
Caroline
Pas encore d'évaluation
Enercoop Facture
Document2 pages
Enercoop Facture
arthur.smolinski
Pas encore d'évaluation
La Planète Terre - SVT
Document45 pages
La Planète Terre - SVT
nsalem
Pas encore d'évaluation
Fonds Mohammed VI Pour L'investissement
Document5 pages
Fonds Mohammed VI Pour L'investissement
asma asma
Pas encore d'évaluation
Cour
Document84 pages
Cour
Kim Jae-hwa
Pas encore d'évaluation
Le Commerce Frontalier en Afrique Centra
Document525 pages
Le Commerce Frontalier en Afrique Centra
Vanessa Houing
Pas encore d'évaluation
Notion D Arithmetique Cours 1 PDF
Document2 pages
Notion D Arithmetique Cours 1 PDF
Zahra Elkasmy
100% (1)
Droit de La Retractation
Document4 pages
Droit de La Retractation
Karima Khribchi
Pas encore d'évaluation
Chaussures Orthopédiques
Document12 pages
Chaussures Orthopédiques
Amï Nã
Pas encore d'évaluation
Ankylostomose L3
Document52 pages
Ankylostomose L3
Sahouin Claude Medard
100% (2)
Chap2 - CollecteDeDonnées
Document2 pages
Chap2 - CollecteDeDonnées
وليد بن عمر
Pas encore d'évaluation
PFE Covid 19 Et Le SI
Document21 pages
PFE Covid 19 Et Le SI
Hamza Kaima
Pas encore d'évaluation
Audit - Integrité Et Dimension
Document18 pages
Audit - Integrité Et Dimension
B.I
94% (16)
(GRAMM-R. Études de Linguistique Française - GRAMM.
Document220 pages
(GRAMM-R. Études de Linguistique Française - GRAMM.
Boujemaa Rbii
100% (1)
Le Contrat de Vente
Document1 page
Le Contrat de Vente
Mr Khaleed
Pas encore d'évaluation
Lettre de Motivation
Document2 pages
Lettre de Motivation
bhhbsck
Pas encore d'évaluation
Le Travail Saisonnier
Document3 pages
Le Travail Saisonnier
Mohamed Laarj
Pas encore d'évaluation
Support Rapport de Stage Finalisé
Document19 pages
Support Rapport de Stage Finalisé
Intel Radeon
100% (1)