Vous êtes sur la page 1sur 7

Rihab ben Marzouk

1MPSE

TP 1 Apache Spark
Exercice 2

Lancez dans cette fenêtre l’interpréteur de commandes spark-shell en entrant la


commande spark-shell

Créer un RDD (Resilient Distributed Dataset)


Combien de lignes contient le fichier :

Séparer le texte en mots :


Compter le nombre de mots :
Sauvegarder le résultat dans un fichier texte « output » :
Exercice 3
Lire le fichier texte « exercice2 » :

Compter le nombre de lignes du fichier :

Afficher les 10 premières lignes du fichier :

Compter le nombre de lignes qui contiennent le mot « base de données » :


Compter le nombre de mots de l’RDD.
Enregistrer le résultat dans un fichier texte et quitter Spark Shell :

Vous aimerez peut-être aussi