Académique Documents
Professionnel Documents
Culture Documents
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://quickstart.cloudera:8020/user/spark/
applicationHistory
spark.yarn.historyServer.address=http://quickstart.cloudera:18088
Dans cette partie on s’intéresse au fichier words.txt qui contient tout les travaux de l’écrivain
anglais William Shakespeare.
Pour s’assure que le fichier et déjà existant dans hdfs exécuter la commande suivante:
hadoop fs -put words.txt
Si non, il faut télécharger me fichier texte en entrant le lien suivant dans le navigateur: http://
ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt
et le copier dans hdfs.
qu’est
Lancer le shell Spark pour scala:
$ spark-shell
scala> sc
2023/2024 1 sur 3
Issat Gafsa Framework Big Data
scala> pagecounts.take(10)
La fonction take permet d’obtenir les 10 premiers lignes. Interpréter l’affichage de cette
commande
scala> pagecounts.take(10).foreach(println)
Interpréter l’affichage de cette commande. C’est quoi la différence par rapport à l’autre
commande?
scala> pagecounts.count
Consulter le serveur d’historique de spart pour voir les différentes taches et étapes crées.
On propose maintenant de créer un programme pour relever les mots les plus fréquents que
Shakespeare a utilisé dans ses travaux.
2023/2024 2 sur 3
Issat Gafsa Framework Big Data
scala> freq.map(_.swap)
2023/2024 3 sur 3