Présentation Sans Titre

- Qu'est-ce que Pyspark ?
- Les caractéristiques de
Pyspark .
- Pyspark avec python et
scala.
- Contenu du Pyspark.
- Sous-paquets Pyspark
(Pyspark subpackages)
- Les entreprises qui utilisent
Pyspark.
- Qu'est-ce que Pyspark ?
Pyspark est l'API Python pour supporter Apache Spark. PySpark fournit la
bibliothèque Py4j, avec l'aide de cette bibliothèque, Python peut être facilement
intégré à Apache Spark. PySpark joue un rôle essentiel lorsqu'il s'agit de travailler
avec un vaste ensemble de données ou de les analyser. Cette caractéristique de
PySpark en fait un outil très demandé par les ingénieurs de données.
- Les caractéristiques de Pyspark .
Calcul en mémoire
Évaluation
paresseuse
Tolérance aux fautes
Principales fonctionnalités de PySpark Immutabilité
Partitionnement
Persistance
Fonctionnement à
gros grains
- Pyspark avec python et scala.
Les caractéristiques
Performance Python est plus lent que Scala Spark est écrit en Scala, il
lorsqu'il est utilisé avec spark s'intègre donc bien et est plus
rapide que Python.
Courbe Python a une syntaxe simple et, Scala a une syntaxe complexe et
d'apprentissage étant un langage de haut niveau, n'est donc pas facile à apprendre.
il est facile à apprendre.
Lisibilité de Courbe La lisibilité, la maintenance et la Scala est un langage sophistiqué.

familiarité du code sont Les développeurs doivent prêter
meilleures dans l'API Python. une grande attention à la lisibilité
du code.
Sciences Python fournit un riche ensemble Scala ne fournit pas de

des données de bibliothèques pour la bibliothèques de science des
visualisation des données et la données ni d'outils de
construction de modèles. visualisation des données.
- Contenu du Pyspark
Pyspark _ SparkConf
- SparkConf fournit des configurations pour exécuter une application Spark.
- Le code suivant présente les détails d'une classe SparkConf pour pyspark.
- Voici quelques-uns des attributs les plus couramment utilisés de SparkConf.
Pyspark _ Context
SparkContext est le principal point d'entrée de tout programme Spark.
Le code ci-dessous contient les détails d'une classe Pyspark ainsi que les
paramètres que SparkContext peut prendre
Pyspark _ SparkFiles
SparkFiles vous permet de télécharger vos fichiers sc.addFile et d'obtenir le

chemin sur un travailleur en utilisant SparkFiles.get.
SparkFiles contient les méthodes de classe suivantes
getrootdirectory() spécifie le chemin d'accès au répertoire racine, qui contient le

fichier ajouté par SparkContext.addFile().
Pyspark _ RDD
Un Resilient Distributed Dataset (RDD) est l'abstraction de base dans Spark. Il
présente une collection immuable et partitionnée d'éléments qui peuvent être
exploités en parallèle.
Il s'agit d'opérations
Certaines opérations (telles que
(telles que reduce, first,
map, filter, join et union) sont
count) qui renvoient une
effectuées sur un RDD et
valeur après avoir
produisent un nouveau RDD
effectué un calcul sur un
contenant le résultat.
RDD.
Programme PySpark pour
retourner le nombre d'éléments
Créer un RDD PySpark dans le RDD
PySpark _StorageLevel
StorageLevel décide si le RDD doit être stocké dans la mémoire ou sur le disque,
ou les deux.
PySpark _ Dataframe
DataFrames dans PySpark est une collection distribuée de lignes avec des colonnes
nommées .
Caractéristiques des RDD :
Immuable par nature
Évaluation paresseuse
Distribution
Façons de créer un DataFrame dans Spark
Il peut être créé en utilisant différents formats de données
charger des données à partir d'un RDD existant
Spécification programmatique du schéma

PySpark _ Broadcast and accumulator
La variable broadcast permet aux programmeurs de garder une variable en
lecture seule en cache sur chaque machine plutôt que d'en envoyer une copie
avec les tâches.
La variable de diffusion est créée avec SparkContext.broadcast()

Les accumulateurs sont des variables qui ne sont ajoutées que par une opération
associative et commutative.
Subpackages PySpark
Les entreprises qui utilisent Pyspark.

Présentation Sans Titre

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Présentation Sans Titre

Transféré par

Droits d'auteur :

Formats disponibles

- Qu'est-ce que Pyspark ?

Tolérance aux fautes

Principales fonctionnalités de PySpark Immutabilité

Lisibilité de Courbe La lisibilité, la maintenance et la Scala est un langage sophistiqué.

Sciences Python fournit un riche ensemble Scala ne fournit pas de

SparkFiles vous permet de télécharger vos fichiers sc.addFile et d'obtenir le

SparkFiles contient les méthodes de classe suivantes

getrootdirectory() spécifie le chemin d'accès au répertoire racine, qui contient le

Façons de créer un DataFrame dans Spark

Il peut être créé en utilisant différents formats de données

charger des données à partir d'un RDD existant

Spécification programmatique du schéma

La variable de diffusion est créée avec SparkContext.broadcast()

Vous aimerez peut-être aussi