TD2FBD

Transféré par

elkamel ranim

0% ont trouvé ce document utile (0 vote)

12 vues1 page

Titre original

TD2FBD (1)

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

12 vues1 page

TD2FBD

Transféré par

elkamel ranim

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 1

Rechercher à l'intérieur du document

Issat Gafsa Framework BD

TD2: Spark SQL

Exercice 1: Création de DF
Soit l'ensemble de données suivant; il contient des informations de citation au format IEEE CS (les
lignes qui se terminent par \ continuent à la ligne suivante):

S. Ryza, U. Laserson, S. Owen, and J. Wills, Advanced analytics with spark: \

Patterns for learning from data at scale. O’Reilly Media Inc., 2015.
H. Karau, A. Konwinski, P. Wendell, and M. Zaharia, Learning spark: \
Lightning-fast big data analysis. O’Reilly Media Inc., 2015.
B. Chambers and M. Zaharia, Spark: The definitive guide. O’Reilly Media, Inc., 2017.
M. Kleppmann, Designing data-intensive applications. O’Reilly Media Inc., 2017.
H. Karau and R. Warren, High performance spark. O’Reilly Media, Inc., 2017.
T. H. Cormen, C. E. Leiserson, Ronald L. Rivest, and C. Stein, Introduction \
to algorithms (3rd ed.). MIT press, 2009.
P. Louridas, Real world algorithms. MIT press, 2017.

Le format du fichier est:

author1, author2, ... , authorN, title. publisher, year.

1. Écrire du code pour charger les données dans un RDD. Ensuite, convertissez le RDD en
DataFrame.
2. Écrire une requête (en SQL ou par programme) pour imprimer une liste de noms d'éditeurs avec
le nombre de publications dans l'ensemble de données. Pour l'ensemble de données donné, la
sortie devrait ressembler à:
O’Reilly Media, Inc., 5
MIT press, 2

3. Écrire une requête (en SQL ou par programme) pour trouver l'auteur avec le plus de
publications. Dans notre cas, cela devrait être: M. Zaharia.

Exercice 2:
Nous recevons un fichier CSV d’un concessionnaire automobile contenant des informations sur les
achats de voitures. Le fichier contenant des donn es historiques sur plusieurs ann es, il est possible
qu’un client apparaisse plusieurs fois dans le fichier. Les colonnes dans ce fichier CSV, s par es par
des virgules, sont, dans l’ordre :

id_client, producteur_voiture, couleur_voiture, modele_voiture, prix_voiture

Par exemple, la ligne suivante :

1234567,Renault,rouge,Clio,15000

signifie que le client 1234567 a achet une Renault Clio rouge qu’il a pay 15000 euros.

Nous souhaitons conna tre la liste des mod les de voitures Renault rouges dont le prix est sup rieur
15000 euros achet s par chaque client.
Proposez un algorithme en Spark pour r soudre le probl me donn . La premi re ligne du fichier
CSV contient les ent tes. Pr cisez la nature des opérations que vous utilisez et le type des
transformations éventuellement (wide ou narrow).
Dr. Hrizi 1/1
à

é
ê
î
é
é
é
è
é
è
é
é
è
é
é
é
é

Vous aimerez peut-être aussi

Vocabulaire de la création d'entreprise par essaimage: incluant la terminologie élémentaire de la restructuration par scission
D'Everand
Vocabulaire de la création d'entreprise par essaimage: incluant la terminologie élémentaire de la restructuration par scission
Louis Jacques Filion
Pas encore d'évaluation
Mon lit de rêve
D'Everand
Mon lit de rêve
Gilles Tibo
Pas encore d'évaluation
Chapitre 1
Document5 pages
Chapitre 1
Marine Toussaint
Pas encore d'évaluation
Analyse Factorielle Discriminante
Document1 page
Analyse Factorielle Discriminante
salah moustakim
Pas encore d'évaluation
Serie1 TD STR 2021 2022
Document15 pages
Serie1 TD STR 2021 2022
Abdel MAJID ED-DAHBI
Pas encore d'évaluation
Dossier Market PDF
Document28 pages
Dossier Market PDF
Hania Lamri
Pas encore d'évaluation
Exercices Les Temps Composés
Document1 page
Exercices Les Temps Composés
Maï-ly Tran
Pas encore d'évaluation
Correction Controle Spé 1
Document3 pages
Correction Controle Spé 1
mhkqkmgs5d
Pas encore d'évaluation
UIL Exemple PDF
Document9 pages
UIL Exemple PDF
marine.yahi23
Pas encore d'évaluation
Projet de Diagnostic
Document4 pages
Projet de Diagnostic
Cherif Primo
Pas encore d'évaluation
Logistique
Document13 pages
Logistique
gab37370.barrios
Pas encore d'évaluation
Appareil de Mesure Des Pdts Petroliers
Document8 pages
Appareil de Mesure Des Pdts Petroliers
salam
Pas encore d'évaluation
Serie1 TD SIC 2023 2024
Document10 pages
Serie1 TD SIC 2023 2024
mohamed.moualim60
Pas encore d'évaluation
EXAMEN ALGO INSA ROUEN Enonce 2015 2016
Document3 pages
EXAMEN ALGO INSA ROUEN Enonce 2015 2016
Saâd Layachi
Pas encore d'évaluation
French Worksheet
Document4 pages
French Worksheet
Johanna Tezera
Pas encore d'évaluation
Traducteur Simultane TELEVIC
Document28 pages
Traducteur Simultane TELEVIC
Lacosteur Ivouchka
Pas encore d'évaluation
Horaires Ligne 171
Document2 pages
Horaires Ligne 171
Baudouin Curnier
Pas encore d'évaluation
Corrections Complète
Document82 pages
Corrections Complète
omarchrif
Pas encore d'évaluation
Les Fourberies de Scapin Séquence2020
Document22 pages
Les Fourberies de Scapin Séquence2020
Sibony
Pas encore d'évaluation
Dictée Famille
Document1 page
Dictée Famille
Valeriya Sidorova
Pas encore d'évaluation
BNC 1
Document6 pages
BNC 1
cedric.koukoui12
Pas encore d'évaluation
Béton Armé Compte Rendu-3
Document7 pages
Béton Armé Compte Rendu-3
florent Bernard
Pas encore d'évaluation
Math Stat 1
Document26 pages
Math Stat 1
JGVDER6
Pas encore d'évaluation
Pot 2
Document1 page
Pot 2
Lana Vallas
Pas encore d'évaluation
POT
Document1 page
POT
Lana Vallas
Pas encore d'évaluation
FEXA
Document6 pages
FEXA
Pierre Bretonniere
Pas encore d'évaluation
Fiche SAE 1.3 2022
Document6 pages
Fiche SAE 1.3 2022
jadoc44875
Pas encore d'évaluation
Vente D'un Produit Ou Service
Document4 pages
Vente D'un Produit Ou Service
n k
Pas encore d'évaluation
Pareto
Document3 pages
Pareto
aa aa
Pas encore d'évaluation
Worksheet French
Document4 pages
Worksheet French
rancy123
Pas encore d'évaluation
Matrice RACI Template Gratuit
Document3 pages
Matrice RACI Template Gratuit
Mounia Lamrani
Pas encore d'évaluation
Planche 1 Merged
Document4 pages
Planche 1 Merged
Doha Jamal
Pas encore d'évaluation
Paris, Le 23 Septembre 2022
Document1 page
Paris, Le 23 Septembre 2022
m A
Pas encore d'évaluation
Réécriture Entrainement
Document3 pages
Réécriture Entrainement
Sibony
Pas encore d'évaluation
Openclassrooms - Com Courses Concevez-Votre-Site-Web-Avec PDF
Document5 pages
Openclassrooms - Com Courses Concevez-Votre-Site-Web-Avec PDF
YespapaSavsabien
Pas encore d'évaluation
Exemplaire 01/02/2023: 2) Platon Ion 533d-534c
Document3 pages
Exemplaire 01/02/2023: 2) Platon Ion 533d-534c
Chan
Pas encore d'évaluation
PIL Chap4 (Lex)
Document21 pages
PIL Chap4 (Lex)
kheira
Pas encore d'évaluation
CLE International - Communication Progressive Du Français - Niveau Débutant (2009)
Document129 pages
CLE International - Communication Progressive Du Français - Niveau Débutant (2009)
Golitish
67% (3)
EnvInfo1 2
Document32 pages
EnvInfo1 2
Imad Ismail
Pas encore d'évaluation
CV BRIXI EL HeDI
Document2 pages
CV BRIXI EL HeDI
elhedi brixi
Pas encore d'évaluation
Plan de Ligne Busratp Ligne 72.1559728103
Document1 page
Plan de Ligne Busratp Ligne 72.1559728103
nitu roxana
Pas encore d'évaluation
Cours Integration
Document18 pages
Cours Integration
Animals Kingdom
Pas encore d'évaluation
Manuel Bonnes Pratiques Logistique Durable
Document64 pages
Manuel Bonnes Pratiques Logistique Durable
Gérald Lecomte
Pas encore d'évaluation
Anthony Rageul
Document433 pages
Anthony Rageul
Pinar Sezer
Pas encore d'évaluation
Neurologie, Pneumologie (Cas Cliniques ECN) PDF
Document308 pages
Neurologie, Pneumologie (Cas Cliniques ECN) PDF
Alin Bratu
100% (2)
Sonorisation 01.key
Document14 pages
Sonorisation 01.key
r.rostagno
Pas encore d'évaluation
MU4BM009 - Cycle Théorique - R - 02 - Utilisation de R - YaRrr Book - Lire Des Page 1 À 80 (041-080)
Document40 pages
MU4BM009 - Cycle Théorique - R - 02 - Utilisation de R - YaRrr Book - Lire Des Page 1 À 80 (041-080)
Fabiola Jeazet
Pas encore d'évaluation
6 3 Cours Entiers Decimaux-7
Document7 pages
6 3 Cours Entiers Decimaux-7
Soleil Unyai
Pas encore d'évaluation
Fiche-Horaire Noctilien Ligne-N32.1582279325
Document2 pages
Fiche-Horaire Noctilien Ligne-N32.1582279325
Omid Djalali
Pas encore d'évaluation
Chap12 Tasso
Document12 pages
Chap12 Tasso
Stéphane Miango
Pas encore d'évaluation
CM Intro Droit 2
Document101 pages
CM Intro Droit 2
sam.levionnais
Pas encore d'évaluation
Fiche Concours de Lecture
Document6 pages
Fiche Concours de Lecture
Claire Poli
Pas encore d'évaluation
02 - Dictionnaires - Prof
Document2 pages
02 - Dictionnaires - Prof
Amine
Pas encore d'évaluation
TP Taln
Document5 pages
TP Taln
Jorge D. Nontol
Pas encore d'évaluation
Activité 1
Document14 pages
Activité 1
Breaking Abdo Benjamin
Pas encore d'évaluation
Programmation Sur Eviews
Document19 pages
Programmation Sur Eviews
.cadeau01
Pas encore d'évaluation
Slides
Document193 pages
Slides
Yacine Wakrim
Pas encore d'évaluation
Guide Atlassian Confluence Et Son Marketplace, Édition 2021
Document105 pages
Guide Atlassian Confluence Et Son Marketplace, Édition 2021
Thomas POINSOT
50% (2)
Mot visuel: Libérer la puissance de la compréhension des images
D'Everand
Mot visuel: Libérer la puissance de la compréhension des images
Fouad Sabry
Pas encore d'évaluation
Équations différentielles: 2e édition revue et augmentée
D'Everand
Équations différentielles: 2e édition revue et augmentée
Mario Lefebvre
Pas encore d'évaluation
Série TD 5 Phys2 2019 2020+corrigé
Document5 pages
Série TD 5 Phys2 2019 2020+corrigé
amiranomi5
Pas encore d'évaluation
Ligne Directrice 2021 - Dyslipidémie
Document1 page
Ligne Directrice 2021 - Dyslipidémie
sara harvey vachon
Pas encore d'évaluation
Module 3 La Mise en Oeuvre La Résine Epoxy Clé en Main
Document19 pages
Module 3 La Mise en Oeuvre La Résine Epoxy Clé en Main
tommy
100% (1)
27 Eme - Tob - 02-10-2021
Document2 pages
27 Eme - Tob - 02-10-2021
Joyce Douanla
Pas encore d'évaluation
FoQual Rapport Incidents FR
Document40 pages
FoQual Rapport Incidents FR
Marco San
Pas encore d'évaluation
Formula D PDF
Document16 pages
Formula D PDF
Nour-Eddine Benkerroum
Pas encore d'évaluation
Histoire Et Géographie Sacrées Dans Le Coran
Document37 pages
Histoire Et Géographie Sacrées Dans Le Coran
Catharsis Haddouk
Pas encore d'évaluation
Atelier1 PowerQuery
Document2 pages
Atelier1 PowerQuery
louay bencheikh
Pas encore d'évaluation
Compl Biologie Etudiant S-1
Document43 pages
Compl Biologie Etudiant S-1
aloys Ndzie
Pas encore d'évaluation
A3 2 PDF
Document34 pages
A3 2 PDF
Léopold SENE
Pas encore d'évaluation
Pyramide Maslow
Document3 pages
Pyramide Maslow
vibus2014
Pas encore d'évaluation
SAAD 2019 Archivage
Document224 pages
SAAD 2019 Archivage
Carlos Redondo Benitez
Pas encore d'évaluation
Babas Savarins-1
Document1 page
Babas Savarins-1
Benjamin Gevolde
Pas encore d'évaluation
Manuel Militaire
Document204 pages
Manuel Militaire
FRED
100% (1)
Bourdieu Emprise Journalisme
Document4 pages
Bourdieu Emprise Journalisme
boby
Pas encore d'évaluation
Droit Des Affaires 2019 - 2020
Document104 pages
Droit Des Affaires 2019 - 2020
Yassmina
Pas encore d'évaluation
Pinpankôd Désigne Celle Des Jeunes Garçons Et Filles Dont L'âge Varie
Document20 pages
Pinpankôd Désigne Celle Des Jeunes Garçons Et Filles Dont L'âge Varie
Najimou Alade Tidjani
Pas encore d'évaluation
1715944
Document1 page
1715944
ADRIANNE BETTA
Pas encore d'évaluation
Construire en Terre
Document274 pages
Construire en Terre
ridha1964
100% (4)
1710 PDF Du 30
Document26 pages
1710 PDF Du 30
PDF Journal
Pas encore d'évaluation
ExamSys1 LMD 2010 2011 EpreuveCor
Document2 pages
ExamSys1 LMD 2010 2011 EpreuveCor
Sira Ndiaye
Pas encore d'évaluation
Algorithmes de Traitement Suggeres HTA
Document3 pages
Algorithmes de Traitement Suggeres HTA
ZiedBenSassi
Pas encore d'évaluation
Moez El Kouni: Experience
Document1 page
Moez El Kouni: Experience
Moez
Pas encore d'évaluation
Brevet Sur Le Front Populaire Avec Correction
Document2 pages
Brevet Sur Le Front Populaire Avec Correction
douzi nour
Pas encore d'évaluation
American Gods - Neil Gaiman
Document254 pages
American Gods - Neil Gaiman
mrabdo
Pas encore d'évaluation
Generateur High Tech Mig Mag Digiwave III Saf-Fro FR
Document16 pages
Generateur High Tech Mig Mag Digiwave III Saf-Fro FR
Omar Maalej
Pas encore d'évaluation
Flyer Passerelle VF (18752)
Document2 pages
Flyer Passerelle VF (18752)
grosjeanblandine
Pas encore d'évaluation
Endo Revision PDF
Document13 pages
Endo Revision PDF
Medecine Dentaire
100% (2)
PHARMACO Respi. Médicaments de La Toux
Document40 pages
PHARMACO Respi. Médicaments de La Toux
yves
Pas encore d'évaluation
Format Label 113
Document5 pages
Format Label 113
Marlisa Icha
Pas encore d'évaluation