Bienvenue sur Scribd !

Ignorer le carrousel

5 - Chapitre 3.2

Transféré par

maryem.benali

0% ont trouvé ce document utile (0 vote)

2 vues6 pages

Titre original

5- chapitre 3.2

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

2 vues6 pages

5 - Chapitre 3.2

Transféré par

maryem.benali

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 6

Rechercher à l'intérieur du document

Cours Big Data – Chapitre III Niveau : 3ème année

Resilient Distributed Dataset

 Les RDD permettent de réarranger les calculs et d’optimiser
le traitement.

 Les RDD sont reconstructibles : ils sont tolérants aux

pannes car un RDD sait comment recréer et recalculer son
ensemble de données.

 Les RDD sont immuables. Pour obtenir une modification

d’un RDD, il faut y appliquer une transformation, qui
retournera un nouveau RDD, l’original restera inchangé.

Resilient Distributed Dataset

 Spark supporte les évaluations paresseuses (Lazy
evaluation) des requêtes c’est-à-dire que les transformations ne
s’exécutent sur le cluster que si on en a besoin (une action est
invoquée).

 Il est possible de demander la persistance d’un RDD :

chargement en mémoire du RDD pour le réutiliser en cas de
besoin au lieu de refaire la transformation.

Voir exemples à l’url suivante :

http://b3d.bdpedia.fr/spark-batch.html

Enseignante : R. CHEBIL 1
Cours Big Data – Chapitre III Niveau : 3ème année

DataFrames
2011 RDD :
◦ Collection distribuée
◦ Opérateurs fonctionnels
◦ Ne suis aucun schéma

2013 nouvelle abstraction : DataFrame

◦ Plus structurée
◦ Représentation interne plus optimisée que le RDD
◦ Abstraction principale de SparkSQL

Dataset
2015 Spark 2 : Dataset
◦ Nouvelle abstraction de données plus large que le
DataFrame
◦ Typé : Dataset [ T ]
◦ Avantage : travailler avec des expressions typées dont on
connait toutes les propriétés

Enseignante : R. CHEBIL 2
Cours Big Data – Chapitre III Niveau : 3ème année

Exemples
Construction d’un dataframe Spark appelé « restaurants_df » à
partir de la table restaurant existante dans Cassandra. Le
schéma (noms des colonnes) est connu mais le type des
colonnes n’est pas connu au sein du dataframe.
Collection d’objets de type row

val restaurants_df =
spark.read.cassandraFormat("restaurant",
"resto_ny").load()

restaurants_df.printSchema()

restaurants_df.show()

Exemples
Réalisation d’un filtre correspondant au where dans
SQL :

val manhattan = restaurants_df.filter("borough =

'MANHATTAN'")

manhattan.show()

Comment peut-on exprimer cette transformation avec les

RDD?
33

Enseignante : R. CHEBIL 3
Cours Big Data – Chapitre III Niveau : 3ème année

Exemples
Construction d’un Dataset dont les colonnes sont typées :
nous pouvons donc exprimer des opérations plus précises
qu’avec les dataframes.
case class Restaurant(id: Integer, Name: String,
borough: String, BuildingNum: String, Street:
String, ZipCode: Integer, Phone: String,
CuisineType: String) Collection d’objets de type
Restaurant
val restaurants_ds= restaurants_df.as[Restaurant]

Pour ceci il a fallu définir une classe dans le langage de

programmation (ici, Scala) et demander la conversion.

Exemples
Réalisation du même filtre sur le dataset :

val r = restaurants_ds.filter(r => r.borough ==

"MANHATTAN")

Réalisation d’agrégats par arrondissement :

val comptage_par_borough =
restaurants_ds.groupBy("borough").count()

Enseignante : R. CHEBIL 4
Cours Big Data – Chapitre III Niveau : 3ème année

Exemples
Plusieurs opérations auraient bien pu s’exprimer en CQL
(Cassandra).

Mais Spark va plus loin en termes de capacité de traitements, et

propose notamment la fameuse opération de jointure non
disponible sur Cassandra!

Conclusion
MapReduce est « le langage assembleur » du calcul distribué


Spark se base sur MapReduce mais l’élargit en proposant des

opérations supplémentaires et en employant différentes
techniques d’optimisation.

Spark est une alternative à MapReduce de Hadoop.

Les RDD sont tolérants aux pannes

Enseignante : R. CHEBIL 5
Cours Big Data – Chapitre III Niveau : 3ème année

Conclusion
RDD : données au schéma très flexible, mais beaucoup plus difficile
à manipuler.

DataFrame/ Dataset :
◦ Données au schéma très contraint offrant un niveau de sécurité
élevé.
◦ Concepteur : possibilité de référencer des champs et de leur
appliquer des opérations standards en fonction de leur type sans
avoir à écrire une fonction spécifique pour la moindre opération
=> Rend le code beaucoup plus lisible et concis.
◦ Système : la connaissance du schéma facilite les contrôles avant
exécution

Enseignante : R. CHEBIL 6

Vous aimerez peut-être aussi

Untitled
Document170 pages
Untitled
KingNath prod
Pas encore d'évaluation
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
D'Everand
Bien débuter avec SQL: Exercices dans l'interface PhpMyAdmin et MySQL
Rémy Lentzner
Pas encore d'évaluation
Cours Spark
Document63 pages
Cours Spark
Zorzo
Pas encore d'évaluation
Bases de Données Réparties PDF
Document9 pages
Bases de Données Réparties PDF
Ezzaki Saadia
0% (1)
Exam Final-Big Data
Document3 pages
Exam Final-Big Data
Ferdaous Hdioud
100% (3)
Cas Fantastic
Document31 pages
Cas Fantastic
Hammami wissal
Pas encore d'évaluation
SQL Resume
Document11 pages
SQL Resume
jihen
100% (1)
Résumé Big Data
Document6 pages
Résumé Big Data
El Moumne Nihal
Pas encore d'évaluation
SGBD - Oracle
Document49 pages
SGBD - Oracle
Haja
Pas encore d'évaluation
Siemens Simatic Brochure Panels FR
Document17 pages
Siemens Simatic Brochure Panels FR
Aym Br
Pas encore d'évaluation
Cours06 Nosql PDF
Document50 pages
Cours06 Nosql PDF
ecarlate
Pas encore d'évaluation
Compte Rendu de TP
Document3 pages
Compte Rendu de TP
amina
100% (2)
SQL Server Cours Partie 1
Document96 pages
SQL Server Cours Partie 1
jockpiro
Pas encore d'évaluation
Cours Genie Logiciel
Document67 pages
Cours Genie Logiciel
belkacem nabila
Pas encore d'évaluation
Chapitre 5 SGBD Et Langage SQL
Document103 pages
Chapitre 5 SGBD Et Langage SQL
coach fatma baccour
Pas encore d'évaluation
Chapitre 01
Document18 pages
Chapitre 01
Amani Belkacem
Pas encore d'évaluation
Gschwend Matthieu 3 Presentation 012023
Document18 pages
Gschwend Matthieu 3 Presentation 012023
Sayoba Gansane
Pas encore d'évaluation
M04 SQL BDD Papier
Document52 pages
M04 SQL BDD Papier
Abdelhakim NEMIR
Pas encore d'évaluation
Chapitre5-BD Et Chapitre6-SQL
Document13 pages
Chapitre5-BD Et Chapitre6-SQL
moncef 415
Pas encore d'évaluation
Chapitre I Intro BDD Répartie
Document48 pages
Chapitre I Intro BDD Répartie
FireFly Queen
Pas encore d'évaluation
TD 2
Document3 pages
TD 2
22108
Pas encore d'évaluation
Cassandra Presentation
Document42 pages
Cassandra Presentation
elmahdi hazim
100% (1)
SGBD Introduction
Document11 pages
SGBD Introduction
Ahmed Mousbir
Pas encore d'évaluation
Interrogation BDD SQL
Document13 pages
Interrogation BDD SQL
delsoltiberian1
Pas encore d'évaluation
Construction DW
Document28 pages
Construction DW
Mariem Chouiti
100% (1)
Formation SQL - Complet Serveur Libre
Document179 pages
Formation SQL - Complet Serveur Libre
jerome chardron
Pas encore d'évaluation
Creation Base Donnee PDF
Document19 pages
Creation Base Donnee PDF
Ahmed Lahroussi
Pas encore d'évaluation
Cour 9
Document7 pages
Cour 9
Ran Ia
Pas encore d'évaluation
Chap 2
Document12 pages
Chap 2
yryreiuy
Pas encore d'évaluation
Lundi
Document57 pages
Lundi
Zineb Saidi
Pas encore d'évaluation
coursBDD Théorie
Document260 pages
coursBDD Théorie
Martin Brait
Pas encore d'évaluation
PART 1 - Base de Données Et SGBD
Document26 pages
PART 1 - Base de Données Et SGBD
fanzystore3
Pas encore d'évaluation
Graphdb
Document13 pages
Graphdb
Fuyf
Pas encore d'évaluation
Cours - Chapitre 1 - Introduction Aux Bases de Données
Document8 pages
Cours - Chapitre 1 - Introduction Aux Bases de Données
Yasser El hattabi
Pas encore d'évaluation
Cours SQL MSI1
Document67 pages
Cours SQL MSI1
Hanae el imrani
Pas encore d'évaluation
ST Tutor5 R Mapreduce
Document6 pages
ST Tutor5 R Mapreduce
Daignon Max Nicolas ATINDOKPO
Pas encore d'évaluation
Cours SQL Final)
Document56 pages
Cours SQL Final)
salma al khazraji
Pas encore d'évaluation
7 - Chapitre 5.1
Document17 pages
7 - Chapitre 5.1
maryem.benali
Pas encore d'évaluation
Chapitre 1
Document24 pages
Chapitre 1
Mustapha Oujeddi
Pas encore d'évaluation
Final Elie
Document56 pages
Final Elie
Peter Kaiche
Pas encore d'évaluation
JDBC
Document2 pages
JDBC
Lamiae Elgueloui
Pas encore d'évaluation
Lab 3
Document15 pages
Lab 3
Maryâm Bôuch
Pas encore d'évaluation
Leçon6 - Base Donées NoSQL
Document45 pages
Leçon6 - Base Donées NoSQL
Mido pro
Pas encore d'évaluation
Structures de Donn Ees Dynamiques: Nicolas Delestre
Document28 pages
Structures de Donn Ees Dynamiques: Nicolas Delestre
Reda HL
Pas encore d'évaluation
Cours BI Seance 3
Document47 pages
Cours BI Seance 3
thouraya hadj hassen
Pas encore d'évaluation
Cours SQL
Document14 pages
Cours SQL
api-3843109
100% (1)
Hadoop Ecosystem
Document37 pages
Hadoop Ecosystem
hajar.filali4
Pas encore d'évaluation
SQL MPD - Copie02
Document20 pages
SQL MPD - Copie02
KarimTouati
100% (2)
BDA - Les BD - Réparties
Document14 pages
BDA - Les BD - Réparties
Calla Lily
Pas encore d'évaluation
SGBD
Document4 pages
SGBD
khadidja
Pas encore d'évaluation
Leçon 1 Présentation Des Concepts de La Base de Données Principale
Document8 pages
Leçon 1 Présentation Des Concepts de La Base de Données Principale
aboubakar mohamed
Pas encore d'évaluation
Séance 2 - Transact SQL 2 - Administration Base de Données
Document27 pages
Séance 2 - Transact SQL 2 - Administration Base de Données
Med Taha Hakam
Pas encore d'évaluation
Les Enjeux Du Big Data Pour La Mise en Place Des Smart-Grids
Document19 pages
Les Enjeux Du Big Data Pour La Mise en Place Des Smart-Grids
Salim Mehenni
Pas encore d'évaluation
Entrepôts de Données 2CS-Cours04
Document24 pages
Entrepôts de Données 2CS-Cours04
ahmedtoujani2000
Pas encore d'évaluation
Chapitre 1
Document23 pages
Chapitre 1
Anass Roman
Pas encore d'évaluation
64 Data Architect FR FR Standard
Document18 pages
64 Data Architect FR FR Standard
ali.hellouing
Pas encore d'évaluation
Visual Basic Et Accès Aux Données
Document8 pages
Visual Basic Et Accès Aux Données
loeuf127
Pas encore d'évaluation
Cours1 2 Bigdata 1
Document93 pages
Cours1 2 Bigdata 1
mohamed aziz madhoun
Pas encore d'évaluation
Cours1 BDD
Document30 pages
Cours1 BDD
Fares Serdouk
Pas encore d'évaluation
MySQL Document
Document5 pages
MySQL Document
Riquelmé CHARLES
Pas encore d'évaluation
Programme de MERISE
Document11 pages
Programme de MERISE
ousmane diallo
0% (1)
Base de Donnees Et SQL
Document26 pages
Base de Donnees Et SQL
fred ngope
Pas encore d'évaluation
Contsruction D'un DW
Document21 pages
Contsruction D'un DW
Asil missawi
100% (1)
Huawei Ict Competition - Exam Guide
Document4 pages
Huawei Ict Competition - Exam Guide
Hamadoun Aly Traoré
Pas encore d'évaluation
Creer Table Des Matieres
Document3 pages
Creer Table Des Matieres
Samsung Samsung
Pas encore d'évaluation
HP500
Document4 pages
HP500
Ali Boudjerada
Pas encore d'évaluation
Zombie
Document19 pages
Zombie
Mouad El Atmani
Pas encore d'évaluation
Chap3 Exercices
Document3 pages
Chap3 Exercices
changi
100% (1)
11 G7 Chariot Eleve PDF
Document12 pages
11 G7 Chariot Eleve PDF
Edmond Ouattara
Pas encore d'évaluation
Exos2011 New01
Document23 pages
Exos2011 New01
Donald Tientcheu
Pas encore d'évaluation
Projet Gestion Cabinet
Document3 pages
Projet Gestion Cabinet
info bougarnine
Pas encore d'évaluation
Etude de Robot
Document24 pages
Etude de Robot
Zaher Soufian
Pas encore d'évaluation
3.2.11 Lab - Exploring Processes Threads Handles and Windows Registry - FR FR
Document5 pages
3.2.11 Lab - Exploring Processes Threads Handles and Windows Registry - FR FR
Jérémie Balula
Pas encore d'évaluation
Movavi Video Converter Premium 22.5.0 + Portable
Document2 pages
Movavi Video Converter Premium 22.5.0 + Portable
Corbas Cabana
Pas encore d'évaluation
RapportDeStageEsprit Technicien
Document29 pages
RapportDeStageEsprit Technicien
Tayeb Ahmed
Pas encore d'évaluation
Travaux Pratiques: Module Réseaux Informatiques & Protocoles
Document9 pages
Travaux Pratiques: Module Réseaux Informatiques & Protocoles
Med Amine
Pas encore d'évaluation
CV Khalled FullStack
Document2 pages
CV Khalled FullStack
khalled meneouali
Pas encore d'évaluation
Certifier Recevoir Toutes Les Chaines TV de La Freebox Gratuitement (Decrypter Freeadsl Freebox Gratuit Décodage Decryptage Pirate Pirater)
Document2 pages
Certifier Recevoir Toutes Les Chaines TV de La Freebox Gratuitement (Decrypter Freeadsl Freebox Gratuit Décodage Decryptage Pirate Pirater)
Didier Geslain
Pas encore d'évaluation
Rapport Fox g20
Document18 pages
Rapport Fox g20
Omar Zemrani
Pas encore d'évaluation
TP4 - BD - Oracle Express
Document2 pages
TP4 - BD - Oracle Express
Imane Lamdaine
Pas encore d'évaluation
Fiche Caneco Solar 042011 - FRB
Document2 pages
Fiche Caneco Solar 042011 - FRB
Lino YETONGNON
Pas encore d'évaluation
TP N°4 Initiation À PowerPoint-part 1
Document5 pages
TP N°4 Initiation À PowerPoint-part 1
Samo Samo
Pas encore d'évaluation
Cours Microservices
Document18 pages
Cours Microservices
Bochra Arfaoui
Pas encore d'évaluation
TD Types de Couts Et Domaines de Gouvernance
Document3 pages
TD Types de Couts Et Domaines de Gouvernance
Luccin Drummer
Pas encore d'évaluation
Memoire
Document91 pages
Memoire
Julien Kp
Pas encore d'évaluation
Monsieur Le Président Directeur Général: Rezgui Moez 31 Rue Mohamed Ali Annabi Cité Ettahrir 2042 Tunis 22 529 067
Document3 pages
Monsieur Le Président Directeur Général: Rezgui Moez 31 Rue Mohamed Ali Annabi Cité Ettahrir 2042 Tunis 22 529 067
sara
Pas encore d'évaluation
Projet-Tutoré-1 - Copie
Document7 pages
Projet-Tutoré-1 - Copie
Med Hacen Moustapha
Pas encore d'évaluation
Dgfip Metiers Informatique 29092021
Document14 pages
Dgfip Metiers Informatique 29092021
romain.desriac
Pas encore d'évaluation
Receuil
Document35 pages
Receuil
Lm Lionel Manassé
Pas encore d'évaluation
Projet SES
Document4 pages
Projet SES
Hello Word :-)
Pas encore d'évaluation