Vous êtes sur la page 1sur 20

- Qu'est-ce que Pyspark ?

- Les caractéristiques de
Pyspark .
- Pyspark avec python et
scala.
- Contenu du Pyspark.
- Sous-paquets Pyspark
(Pyspark subpackages)
- Les entreprises qui utilisent
Pyspark.
- Qu'est-ce que Pyspark ?

Pyspark est l'API Python pour supporter Apache Spark. PySpark fournit la
bibliothèque Py4j, avec l'aide de cette bibliothèque, Python peut être facilement
intégré à Apache Spark. PySpark joue un rôle essentiel lorsqu'il s'agit de travailler
avec un vaste ensemble de données ou de les analyser. Cette caractéristique de
PySpark en fait un outil très demandé par les ingénieurs de données.
- Les caractéristiques de Pyspark .
Calcul en mémoire

Évaluation
paresseuse

Tolérance aux fautes

Principales fonctionnalités de PySpark Immutabilité

Partitionnement

Persistance

Fonctionnement à
gros grains
- Pyspark avec python et scala.
Les caractéristiques

Performance Python est plus lent que Scala Spark est écrit en Scala, il
lorsqu'il est utilisé avec spark s'intègre donc bien et est plus
rapide que Python.

Courbe Python a une syntaxe simple et, Scala a une syntaxe complexe et
d'apprentissage étant un langage de haut niveau, n'est donc pas facile à apprendre.
il est facile à apprendre.

Lisibilité de Courbe La lisibilité, la maintenance et la Scala est un langage sophistiqué.


familiarité du code sont Les développeurs doivent prêter
meilleures dans l'API Python. une grande attention à la lisibilité
du code.

Sciences Python fournit un riche ensemble Scala ne fournit pas de


des données de bibliothèques pour la bibliothèques de science des
visualisation des données et la données ni d'outils de
construction de modèles. visualisation des données.
- Contenu du Pyspark
Pyspark _ SparkConf
- SparkConf fournit des configurations pour exécuter une application Spark.
- Le code suivant présente les détails d'une classe SparkConf pour pyspark.
- Voici quelques-uns des attributs les plus couramment utilisés de SparkConf.
Pyspark _ Context
SparkContext est le principal point d'entrée de tout programme Spark.
Le code ci-dessous contient les détails d'une classe Pyspark ainsi que les
paramètres que SparkContext peut prendre
Pyspark _ SparkFiles

SparkFiles vous permet de télécharger vos fichiers sc.addFile et d'obtenir le


chemin sur un travailleur en utilisant SparkFiles.get.

SparkFiles contient les méthodes de classe suivantes

getrootdirectory() spécifie le chemin d'accès au répertoire racine, qui contient le


fichier ajouté par SparkContext.addFile().
Pyspark _ RDD
Un Resilient Distributed Dataset (RDD) est l'abstraction de base dans Spark. Il
présente une collection immuable et partitionnée d'éléments qui peuvent être
exploités en parallèle.

Il s'agit d'opérations
Certaines opérations (telles que
(telles que reduce, first,
map, filter, join et union) sont
count) qui renvoient une
effectuées sur un RDD et
valeur après avoir
produisent un nouveau RDD
effectué un calcul sur un
contenant le résultat.
RDD.
Programme PySpark pour
retourner le nombre d'éléments
Créer un RDD PySpark dans le RDD
PySpark _StorageLevel
StorageLevel décide si le RDD doit être stocké dans la mémoire ou sur le disque,
ou les deux.
PySpark _ Dataframe
DataFrames dans PySpark est une collection distribuée de lignes avec des colonnes
nommées .
Caractéristiques des RDD :
Immuable par nature

Évaluation paresseuse

Distribution

Façons de créer un DataFrame dans Spark

Il peut être créé en utilisant différents formats de données

charger des données à partir d'un RDD existant

Spécification programmatique du schéma


PySpark _ Broadcast and accumulator
La variable broadcast permet aux programmeurs de garder une variable en
lecture seule en cache sur chaque machine plutôt que d'en envoyer une copie
avec les tâches.

La variable de diffusion est créée avec SparkContext.broadcast()


Les accumulateurs sont des variables qui ne sont ajoutées que par une opération
associative et commutative.
Subpackages PySpark
Les entreprises qui utilisent Pyspark.

Vous aimerez peut-être aussi