Académique Documents
Professionnel Documents
Culture Documents
Spark Kafka
Spark Kafka
Réalisé par
Habib Razek
Hanin Amara
Tasnim ELGarssi
khaoula chaouati
Table des matières
1 Introduction à Apache Spark
6 Installation
7 Conclusion
Introduction à Apache
Spark
1
Introduction à Apache
Kafka
2
Principe de fonctionnement Kafka
Kafka est un système de diffusion de messages basé sur un modèle publish/subscribe.
Les producteurs publient des messages sur des topics --->les consommateurs
s'abonnent à ces topics --->les consommateurs recevoir les messages publiés.
3
Principe de fonctionnement spark
Spark utilise un modèle de calcul distribué où
le Driver coordonne les tâches à exécuter sur
un cluster de machines (nodes), avec des
Executors gérant le traitement parallèle des
données.
4
création d’un système de traitement par
01 lots en temps réel tolérant aux pannes
01
Utilisez la ligne de commande Kafka
pour créer des topics où les données
seront stockées et lues.
Manipulation
renvoie les résultats.
Streaming de données:
Monitoring et Tuning:
04 Surveillez les performances et ajustez la
configuration selon les besoins pour optimiser le
traitement.
6
Installation d'Apache Kafka
Kafka nécessite Java pour s'exécuter. Vous pouvez installer Java (s'il
n'est pas déjà installé) à l'aide de la commande suivante :
Accédez au site Web Apache Kafka pour obtenir le lien de téléchargement de la dernière
version de Kafka. Vous pouvez le télécharger en utilisant wget :
7
Installation d'Apache Kafka
Extrayez l'archive téléchargée à l'aide de la commande tar
8
Installation d'Apache Spark
Spark nécessite Scala. Installez-le en utilisant
Comme avec Kafka, accédez au site Web Apache Spark pour obtenir la dernière
version. Vous pouvez le télécharger en utilisant wget :
9
Installation d'Apache Spark
Extracter le package Spark
Ouvrez votre fichier .bashrc dans un éditeur de texte. Vous pouvez utiliser
nano ou tout autre éditeur de votre choix
10
Installation d'Apache Spark
Pour que les modifications soient effectives, exécutez :
11
Streaming Data from Apache Kafka Topic using
Apache Spark 2.4.7 and Python
12
Conclusion
Spark offre un traitement rapide et polyvalent des données, tandis que Kafka assure
une gestion robuste des flux de données en temps réel.
13
Merci de votre
attention !