Vous êtes sur la page 1sur 1

Issat Gafsa Framework BD

TD2: Spark SQL

Exercice 1: Création de DF
Soit l'ensemble de données suivant; il contient des informations de citation au format IEEE CS (les
lignes qui se terminent par \ continuent à la ligne suivante):

S. Ryza, U. Laserson, S. Owen, and J. Wills, Advanced analytics with spark: \


Patterns for learning from data at scale. O’Reilly Media Inc., 2015.
H. Karau, A. Konwinski, P. Wendell, and M. Zaharia, Learning spark: \
Lightning-fast big data analysis. O’Reilly Media Inc., 2015.
B. Chambers and M. Zaharia, Spark: The definitive guide. O’Reilly Media, Inc., 2017.
M. Kleppmann, Designing data-intensive applications. O’Reilly Media Inc., 2017.
H. Karau and R. Warren, High performance spark. O’Reilly Media, Inc., 2017.
T. H. Cormen, C. E. Leiserson, Ronald L. Rivest, and C. Stein, Introduction \
to algorithms (3rd ed.). MIT press, 2009.
P. Louridas, Real world algorithms. MIT press, 2017.

Le format du fichier est:


author1, author2, ... , authorN, title. publisher, year.

1. Écrire du code pour charger les données dans un RDD. Ensuite, convertissez le RDD en
DataFrame.
2. Écrire une requête (en SQL ou par programme) pour imprimer une liste de noms d'éditeurs avec
le nombre de publications dans l'ensemble de données. Pour l'ensemble de données donné, la
sortie devrait ressembler à:
O’Reilly Media, Inc., 5
MIT press, 2

3. Écrire une requête (en SQL ou par programme) pour trouver l'auteur avec le plus de
publications. Dans notre cas, cela devrait être: M. Zaharia.

Exercice 2:
Nous recevons un fichier CSV d’un concessionnaire automobile contenant des informations sur les
achats de voitures. Le fichier contenant des donn es historiques sur plusieurs ann es, il est possible
qu’un client apparaisse plusieurs fois dans le fichier. Les colonnes dans ce fichier CSV, s par es par
des virgules, sont, dans l’ordre :

id_client, producteur_voiture, couleur_voiture, modele_voiture, prix_voiture

Par exemple, la ligne suivante :


1234567,Renault,rouge,Clio,15000

signifie que le client 1234567 a achet une Renault Clio rouge qu’il a pay 15000 euros.

Nous souhaitons conna tre la liste des mod les de voitures Renault rouges dont le prix est sup rieur
15000 euros achet s par chaque client.
Proposez un algorithme en Spark pour r soudre le probl me donn . La premi re ligne du fichier
CSV contient les ent tes. Pr cisez la nature des opérations que vous utilisez et le type des
transformations éventuellement (wide ou narrow).
Dr. Hrizi 1/1


















Vous aimerez peut-être aussi