Vous êtes sur la page 1sur 1

Atelier 1 : Spark RDD

Exercice
Ines Slimene 1 : Big Data 2017/2018
1. Créer un RDD en chargeant le fichier error_log.txt
2. Filtrer les lignes qui contiennent le mot ‘ERROR’
3. Afficher le nombre de ligne qui contiennent le mot ‘ERROR’
4. Afficher les lignes qui contiennent le mot php en tant que tableau de chaine
5. Afficher le graphe RDD en utilisant la commande : nom_rdd.toDebugString()

Exercice 2 :
1. Soit le fichier purchases.txt
2. Charger le fichier dans un RDD
3. Afficher le nombre de partition
4. Modifier le nombre de partition à 4.
5. Calculer le prix de vente total par magasin en utilisant les fonctions map et reduceByKey
1 4DS RDD
Exercice 3 :
1. Créer des RDD pour les deux fichiers README et CHANGES.
2. Créer un RDD qui contient le nombre d’occurrence de chaque mot dans chacun des fichiers (le résultat doit
avoir la forme d’une paire (clé, valeur)
3. Afficher les résultats.
4. Combiner les deux résultats dans un seul RDD (utiliser la jointure)
5. Stocker le RDD trouvé en cache.
6. Afficher la valeur du RDD.
7. Combiner les valeurs trouvées (résultat souhaité : (mot,v) avec v=nbre occ readme+nbre occ changes)
8. Afficher le résultat final.

Vous aimerez peut-être aussi