TP1FBD

Transféré par

elkamel ranim

0% ont trouvé ce document utile (0 vote)

7 vues3 pages

Titre original

TP1FBD (1)

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

7 vues3 pages

TP1FBD

Transféré par

elkamel ranim

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 3

Rechercher à l'intérieur du document

Issat Gafsa Framework Big Data

TP1: Introduction à Spark

1. Spark sur Cloudera

Spark peut s'exécuter sur plusieurs plateformes: Hadoop, Mesos ou en standalone. Il peut également
accéder diverses sources de données, comme HDFS, Cassandra, HBase et S3.
Dans ce TP, nous allons exécuter Spark sur Cloudera. YARN s'occupera ainsi de la gestion des
ressources pour le déclenchement et l'exécution des Jobs Spark.
Spark est déjà intégré dans Cloudera. Il n y a pas de procédure additionnelle requise pour installer
Spark.

2. Spark Shell : Scala

Spark Shell permet l’exécution de Park en utilisant Scala.
Pour tester Spark Shell, on va commencer d’abord par créer un fichier test.txt contenant le texte
suivant:

Hello Spark Wordcount!

Hello Cloudera!
This le is to test Spark
To do the Wordcount using spark
2023/2024 1 sur 3

fi
Issat Gafsa Framework Big Data

On va charger le fichier test en exécutant la commande suivante:

hadoop fs -put test.txt

Pour passer à Spark shell et vérifier que spark est bien installé, taper la commande suivante:

spark-shell

Vous pourrez tester spark avec un code scala simple comme suit (à exécuter ligne par ligne):

scala> val lines = sc.textFile("test.txt")

scala> val words = lines. atMap(_.split("\\s+"))
scala> val wc = words.map(w => (w, 1)).reduceByKey(_ + _)
scala> wc.saveAsTextFile("test.count")

Ce code vient de (1) charger le fichier file1.txt de HDFS, (2) séparer les mots selon les caractères
d'espacement, (3) appliquer un map sur les mots obtenus qui produit le couple (<mot>, 1), puis un
reduce qui permet de faire la somme des 1 des mots identiques.

Pour afficher le résultat, sortir de spark-shell en cliquant sur Ctrl-C. Télécharger ensuite le
répertoire test.count créé dans HDFS comme suit:
hadoop fs -get test.count

3. PySpark : Python

PySpark permet le lancement de Spark en Python:

pyspark

2023/2024 2 sur 3

fl
Issat Gafsa Framework Big Data
Pour effectuer le même traitement de calcul de nombre de mots on va exécuter le code suivant:

>>> my le = sc.textFile("test.txt")
>>> counts = myfile.flatMap(lambda line: line.split("
")).map(lambda word: (word, 1)).reduceByKey(lambda
v1,v2: v1 + v2)
>>> counts.saveAsTextFile("test.count")

Pour afficher le résultat, sortir de spark-shell en cliquant sur Ctrl-D ou quit(). Télécharger ensuite le
répertoire test.count créé dans HDFS comme suit:
hadoop fs -get test.count

2023/2024 3 sur 3

fi

Vous aimerez peut-être aussi

TP2 Spark
Document3 pages
TP2 Spark
elkamel ranim
Pas encore d'évaluation
Sparks Tre Ming
Document13 pages
Sparks Tre Ming
fafa
Pas encore d'évaluation
TP4-5 Spark
Document21 pages
TP4-5 Spark
Mazozi safae
Pas encore d'évaluation
Application2 - Initiation Spark PDF
Document7 pages
Application2 - Initiation Spark PDF
Administration IHET
Pas encore d'évaluation
MahamatTaherAl CheikhSeyidi
Document8 pages
MahamatTaherAl CheikhSeyidi
Sayoba Gansane
Pas encore d'évaluation
Scala
Document33 pages
Scala
Zouhair Ng
Pas encore d'évaluation
Spark
Document4 pages
Spark
fatima ezzahrae el ghatous
Pas encore d'évaluation
TP SparkHadoop
Document5 pages
TP SparkHadoop
Marwa Hbacha
Pas encore d'évaluation
TP Sparks QL
Document19 pages
TP Sparks QL
Amira Dhrioua
Pas encore d'évaluation
No SQ L Avec Cassandra
Document7 pages
No SQ L Avec Cassandra
yugaselvan
Pas encore d'évaluation
Chapitre 2 - Utiliser Spark
Document11 pages
Chapitre 2 - Utiliser Spark
syslinux2000
Pas encore d'évaluation
TD 3
Document2 pages
TD 3
zid
Pas encore d'évaluation
TP3 - Apache Kafka
Document4 pages
TP3 - Apache Kafka
maryam Amgarou
Pas encore d'évaluation
BDE Et Spark Cours 11
Document98 pages
BDE Et Spark Cours 11
Bill FASSINOU
Pas encore d'évaluation
DataFlight Project
Document13 pages
DataFlight Project
elmottalib9
Pas encore d'évaluation
LAB Azure Databricks 01 - Explorer Azure Databricks
Document9 pages
LAB Azure Databricks 01 - Explorer Azure Databricks
Mayssa Trabelsi
Pas encore d'évaluation
TP1 Spark
Document2 pages
TP1 Spark
Zakariyae register
Pas encore d'évaluation
Chap 7
Document25 pages
Chap 7
syslinux2000
Pas encore d'évaluation
Examen Big DATA
Document4 pages
Examen Big DATA
zaki worker
Pas encore d'évaluation
2023 TP3 SQL Bof
Document3 pages
2023 TP3 SQL Bof
sidik abouabakar
Pas encore d'évaluation
TP 5
Document7 pages
TP 5
achraf el bouzidi
Pas encore d'évaluation
Principes Et Algo de Crypto OpenSSL
Document3 pages
Principes Et Algo de Crypto OpenSSL
essiben ngangue
Pas encore d'évaluation
CBD TP
Document6 pages
CBD TP
zemer
Pas encore d'évaluation
Hadoop TP MSBG
Document7 pages
Hadoop TP MSBG
zemer
Pas encore d'évaluation
Chapitre2 BigData
Document35 pages
Chapitre2 BigData
ouma ima
Pas encore d'évaluation
Tp1 Bigdata Mapreduce 171031163107
Document8 pages
Tp1 Bigdata Mapreduce 171031163107
Koffi Kanga
Pas encore d'évaluation
TD 0 Eclipse Et HDFS
Document4 pages
TD 0 Eclipse Et HDFS
test user
Pas encore d'évaluation
Asterisk - Installation D'astérisque Sur CentOS 6.X - Asterisk Tutorial
Document2 pages
Asterisk - Installation D'astérisque Sur CentOS 6.X - Asterisk Tutorial
Excellence Renato Cizungu
100% (1)
TP2 - Traitement Big Data Avec Pig Et UDF - Python
Document7 pages
TP2 - Traitement Big Data Avec Pig Et UDF - Python
Abdallahi Sidi
Pas encore d'évaluation
Video
Document16 pages
Video
Souley
Pas encore d'évaluation
Progsqlserver 1
Document11 pages
Progsqlserver 1
dsn2008
Pas encore d'évaluation
TD Spark
Document2 pages
TD Spark
Michel Chambru
Pas encore d'évaluation
tp1 BigData
Document9 pages
tp1 BigData
Haitam Laaouini
Pas encore d'évaluation
Sujet TP XML PDF
Document3 pages
Sujet TP XML PDF
Kaycee Li
Pas encore d'évaluation
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Document11 pages
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Rim Hancha
Pas encore d'évaluation
Couplage Apache Tomcat
Document8 pages
Couplage Apache Tomcat
totobubu
Pas encore d'évaluation
TP BigData Spark MLlib NEJJARI AMAL
Document6 pages
TP BigData Spark MLlib NEJJARI AMAL
AMAL NEJJARI
Pas encore d'évaluation
9.1.2.5 Lab - Hashing Things Out
Document3 pages
9.1.2.5 Lab - Hashing Things Out
thierno
Pas encore d'évaluation
Ch0 Big Data
Document21 pages
Ch0 Big Data
Younes Oulad Sayad
Pas encore d'évaluation
Create Database Oracle 10g
Document116 pages
Create Database Oracle 10g
lukgv,h
Pas encore d'évaluation
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
Document6 pages
tp2 Designpatternsdanshadoop 140428050218 Phpapp02
chebinega
Pas encore d'évaluation
Piloter Vos Jobs Sas Data Management Depuis Sas Base
Document8 pages
Piloter Vos Jobs Sas Data Management Depuis Sas Base
Nicolas Housset
Pas encore d'évaluation
Spark Introduction
Document22 pages
Spark Introduction
Badiss Jabou
Pas encore d'évaluation
tp1 IRS
Document7 pages
tp1 IRS
Zohra CHANNOUF
100% (1)
Exo Web Services
Document21 pages
Exo Web Services
benben08
Pas encore d'évaluation
Débuter Avec Java: Iset Siliana
Document6 pages
Débuter Avec Java: Iset Siliana
Hiba Inoubli
Pas encore d'évaluation
SSL Sous Linux - Lasfar Salim
Document19 pages
SSL Sous Linux - Lasfar Salim
Salim LASFAR
Pas encore d'évaluation
Installation Et Configuration D'un Serveur DNS
Document9 pages
Installation Et Configuration D'un Serveur DNS
Reda Essannak
Pas encore d'évaluation
Collect Logs Kafka Graylog2
Document34 pages
Collect Logs Kafka Graylog2
Ala Ben Brahim
Pas encore d'évaluation
INFO L3 TD TP 2 Shell Scripting
Document3 pages
INFO L3 TD TP 2 Shell Scripting
Ivan Megaptché
Pas encore d'évaluation
Howto Weathermap4rrd
Document3 pages
Howto Weathermap4rrd
iAndry
Pas encore d'évaluation
tp2 Map Reduce
Document5 pages
tp2 Map Reduce
Raja Bs
Pas encore d'évaluation
Primitives Crypto
Document35 pages
Primitives Crypto
minamino takachi
Pas encore d'évaluation
TP 1 WebServices
Document3 pages
TP 1 WebServices
Cheikh Mbaye
Pas encore d'évaluation
9.1.1.6 Lab - Encrypting and Decrypting Data Using OpenSSL
Document3 pages
9.1.1.6 Lab - Encrypting and Decrypting Data Using OpenSSL
Jacques Kaliva Beavogui
100% (1)
tp1 Hadoop Mapreduce 2023
Document5 pages
tp1 Hadoop Mapreduce 2023
mohamedfarouk.hamadi
100% (1)
Spark SQL
Document19 pages
Spark SQL
Ahlem Brahmi
Pas encore d'évaluation
Tutoriel CMAKE, CentraleSupélec
Document38 pages
Tutoriel CMAKE, CentraleSupélec
wilfried AGBETO
Pas encore d'évaluation
Corrections Des Exercices Du TP N°4: Date /home/nico/processus - TXT Ps /home/nico/processus
Document9 pages
Corrections Des Exercices Du TP N°4: Date /home/nico/processus - TXT Ps /home/nico/processus
radouane
Pas encore d'évaluation
Ruby Paquets 100 Coups: Maîtrise en Une Heure - Édition 2024
D'Everand
Ruby Paquets 100 Coups: Maîtrise en Une Heure - Édition 2024
Tomoya
Pas encore d'évaluation
M10969 Formation Gerer Les Services Active Directory Dans Windows Server PDF
Document2 pages
M10969 Formation Gerer Les Services Active Directory Dans Windows Server PDF
CertyouFormation
Pas encore d'évaluation
Excel TDs
Document52 pages
Excel TDs
Nguyen V. N. Tung
Pas encore d'évaluation
Master 1 Management Stratégique Système Dinformation Et Veille Stratégique Chapitre 2
Document6 pages
Master 1 Management Stratégique Système Dinformation Et Veille Stratégique Chapitre 2
Sehad
Pas encore d'évaluation
Cours-Programmation Orienté Objet Java
Document287 pages
Cours-Programmation Orienté Objet Java
abdoulsany
Pas encore d'évaluation
Android Cours
Document139 pages
Android Cours
a.rharrab
Pas encore d'évaluation
Concevoir Vos Site Web Avec PHP Et Mysql PDF
Document418 pages
Concevoir Vos Site Web Avec PHP Et Mysql PDF
Gédéon Mabanza Kahundji
Pas encore d'évaluation
Symfony Cours 4 Les TWIGs
Document40 pages
Symfony Cours 4 Les TWIGs
Idris Saddi
Pas encore d'évaluation
Excel2007 Niveau2 PDF
Document37 pages
Excel2007 Niveau2 PDF
Angelo Di Maria
100% (1)
Modèles de Récupération Et Stratégies de Sauvegarde
Document48 pages
Modèles de Récupération Et Stratégies de Sauvegarde
Huols4m
Pas encore d'évaluation
Chinese B Paper 2 SL Markscheme
Document23 pages
Chinese B Paper 2 SL Markscheme
Samantha Anyango
Pas encore d'évaluation
Alphorm 131111141511 Phpapp01
Document739 pages
Alphorm 131111141511 Phpapp01
abdelhaouari
100% (1)
Rapport de Stage Final
Document51 pages
Rapport de Stage Final
Sara EL OUAGHLIDI
Pas encore d'évaluation
Définition de Excel
Document2 pages
Définition de Excel
reda
Pas encore d'évaluation
5520 AMS Administration Guide - & PDF
Document82 pages
5520 AMS Administration Guide - & PDF
Gilles M'domba Douti
Pas encore d'évaluation
TP1 Sujet
Document10 pages
TP1 Sujet
o_boudraa
Pas encore d'évaluation
Mag Memo Html5
Document1 page
Mag Memo Html5
Zakaria Hadraoui
Pas encore d'évaluation
0704 Cours Virtualisation Et Cloud
Document6 pages
0704 Cours Virtualisation Et Cloud
Rachdi Nasri
Pas encore d'évaluation
Verif de Caisse 2
Document5 pages
Verif de Caisse 2
Arou N'a
Pas encore d'évaluation
Nutanixx
Document3 pages
Nutanixx
Amine Boubakeur
Pas encore d'évaluation
Expose Sur La Gestion Des Comptes
Document42 pages
Expose Sur La Gestion Des Comptes
TMK BEATS .
0% (1)
Mémoire de Master
Document44 pages
Mémoire de Master
Alexandre Brouste
Pas encore d'évaluation
Chapitre 2 Langagejavascript
Document19 pages
Chapitre 2 Langagejavascript
jouhaina nasri
100% (1)
Abaqus
Document9 pages
Abaqus
chacrd
Pas encore d'évaluation
Tuto Veille Informatique
Document14 pages
Tuto Veille Informatique
pierre jacob
Pas encore d'évaluation
Rapport de Stage
Document60 pages
Rapport de Stage
Semsem Derouiche
Pas encore d'évaluation
Chapitre 2
Document33 pages
Chapitre 2
Warda Flora
Pas encore d'évaluation
Publipostage Word2010
Document28 pages
Publipostage Word2010
Frantz Felix
Pas encore d'évaluation
Multi Prog
Document39 pages
Multi Prog
Mahfoud Zouaouine
Pas encore d'évaluation
Intro - Web (I Fall) - 1
Document280 pages
Intro - Web (I Fall) - 1
Mahamat Hamit Amir
Pas encore d'évaluation
09 - MSI - 1MP - CCA Grp1 - Les Logiciels de Comptabilité - 05.12.2019 - Copie
Document18 pages
09 - MSI - 1MP - CCA Grp1 - Les Logiciels de Comptabilité - 05.12.2019 - Copie
Béchyr Boukhris
Pas encore d'évaluation