Académique Documents
Professionnel Documents
Culture Documents
Exercice 1: Création de DF
Soit l'ensemble de données suivant; il contient des informations de citation au format IEEE CS (les
lignes qui se terminent par \ continuent à la ligne suivante):
1. Écrire du code pour charger les données dans un RDD. Ensuite, convertissez le RDD en
DataFrame.
2. Écrire une requête (en SQL ou par programme) pour imprimer une liste de noms d'éditeurs avec
le nombre de publications dans l'ensemble de données. Pour l'ensemble de données donné, la
sortie devrait ressembler à:
O’Reilly Media, Inc., 5
MIT press, 2
3. Écrire une requête (en SQL ou par programme) pour trouver l'auteur avec le plus de
publications. Dans notre cas, cela devrait être: M. Zaharia.
Exercice 2:
Nous recevons un fichier CSV d’un concessionnaire automobile contenant des informations sur les
achats de voitures. Le fichier contenant des donn es historiques sur plusieurs ann es, il est possible
qu’un client apparaisse plusieurs fois dans le fichier. Les colonnes dans ce fichier CSV, s par es par
des virgules, sont, dans l’ordre :
signifie que le client 1234567 a achet une Renault Clio rouge qu’il a pay 15000 euros.
Nous souhaitons conna tre la liste des mod les de voitures Renault rouges dont le prix est sup rieur
15000 euros achet s par chaque client.
Proposez un algorithme en Spark pour r soudre le probl me donn . La premi re ligne du fichier
CSV contient les ent tes. Pr cisez la nature des opérations que vous utilisez et le type des
transformations éventuellement (wide ou narrow).
Dr. Hrizi 1/1
à


é
ê
î
é
é
é
è
é
è
é
é
è
é
é
é
é