Real Time Processing - Presentation - Semifinal

REPUBLIQUE DU CAMEROUN
REPUBLIC OF CAMEROON
PAIX-TRAVAIL-PATRIE
PEACE-WORK-FATHERLAND
**********
**********
UNIVERSITE DE DOUALA
THE UNIVERSITY OF DOUALA
********
********
ECOLE DOCTORALE DES SCIENCES
POSTGRADUATE SCHOOL FOR
FONDAMENTALES ET APPLIQUEES
PURE AND APPLIED SCIENCES
**********
********
LABORATOIRE D’INFORMATIQUE APPLIED COMPUTER SCIENCE LABORATORY
APPLIQUEE
TRAITEMENT EN TEMPS REEL

(STREAMING)
U E : BI G D ATA
Enseignant: Dr Justin MOSKOLAI Année Académique : 2020 - 2021

Chargé de cours , Université de Douala
1
Travail réalisé par
Noms et prénoms Matricules

TCHAMO NOUSSI Franck Loic
DJOULAKO Camel Léonce
SOMBSI Adèle Marguerite
2
Sommaire
Introduction
I. Architecture de Big Data
II. Présentation générale du Streaming data
III. Traitement en temps réel
Conclusion
3
Introduction
CAS D’USAGE ET MODÈLES ÉCONOMIQUES
• Applications opérationnelles d’entreprises
• Analyse du parcours client d’un site web
• Recommandation en temps réel
• Détection des fraudes
• Cybersécurité
• Tracking des internautes
Caractéristiques des données produites

• Débit élevé
• Grand volume
• Délai de péremption très court (selon IBM 60% )
4
Architecture de Big Data
5
Le Big Data
Introduction au Big Data?
Expansion et vulgarisation d’Internet
De nombreux services offerts
Augmentation drastique du volume de données numériques
Données de type varié
Sources multiples
L’exploitation des ces données ne saurait se faire à travers les
SGBD traditionnels
6
Le Big Data
L’objectif du Big Data?
L’aide à la décision
L’ensemble de ces données (internes et externes) permettent ainsi de
prédire les besoins des consommateurs et de mieux les anticiper.
Le traitement des données

La collecte
L’analyse
7
Le Big Data
Bref
Données massives hétérogènes : internes, et externes
Les unités de stockage et sources de données
Des algorithmes de collecte et d’analyse
Extraire de la data pertinente et établir des corrélations
pour booster l’activité commerciale.
8
Le Big Data
Les enjeux du Big Data?
Stockée dans de multiples Data Centers, l'exploitation du Big
Data ne cesse de prendre de l'ampleur, notamment avec la
popularisation du Cloud Computing
La gestion du volume de données
La qualité des données
La sécurisation des données
9
Le Big Data
Qu’en est t’il des entreprises?
Ingérer les données

Les traiter et analyser rapidement des données massives
Faire évoluer leur SI existant

Adopter une architecture de Big Data
10
Le Big Data
Qu’en est t’il des entreprises?
Un traitement en batch et un traitement en temps réel des Big Data en mouvement
Une exploration des données volumineuses
Une transformation des données non structurées en données structurées
Une centralisation des data issues de différentes sources et existantes sous
différents formats
Des analyses prédictives
Des tâches basées sur les technologies du machine learning et de l’intelligence
artificielle
11
Le Big Data
Architecture Big Data
12
Le Big Data
Les sources de données (cloud, data center, )
Le stockage (lac de données)
Le traitement par lot de données
Le traitement de flux de données
Magasin de données analytique
Analyse et rapports
La technologie d’orchestration
13
Le Big Data
Deux types d’architecture Big Data
Lambda
Réduire le temps de latence de traitement et mise à jour
Stockées les données issues du Big Data
Impose de mettre en place deux différent systèmes
14
Le Big Data
Kappa
Uniquement le traitement des données du Big Data
Un seul système pour le traitement par lot et temps

réel
15
Présentation générale du Streaming
Data
16
Le streaming Data 1/2
 Un Stream est un flux continu d’enregistrements de données en temps réel.
 Le « streaming » décrit des flux de données (data streams) continus et sans fin,
qui fournissent un flux constant de données pouvant être utilisées sans avoir besoin
d'être téléchargées au préalable.
 Le Streaming data est le flux continu de données générées par diverses sources.
En utilisant la technologie de traitement de flux (stream processing technology)
17
Le streaming Data 2/2
 Le Streaming data est le flux continu de données générées par diverses sources. En
utilisant la technologie de traitement de flux (stream processing technology)
18
Streaming Data Processing
• Les données sont générées par une quantité infinie
de sources : capteurs IoT, serveurs, journaux de
sécurité, applications ou systèmes
internes/externes
• l'architecture de données en streaming ajoute la

possibilité de consommer, de conserver, de
stocker, d'enrichir et d'analyser les données en
mouvement.
19
Batch Processing
 Batch Processing (Traitement par lots) :
 Traitement de blocs de données déjà stockés sur une période donnée.
 Par exemple, traiter toutes les transactions effectuées par une
entreprise financière en une semaine.
 Ces données contiennent des millions d’enregistrements pour

chaque jour pouvant être stockés sous forme de fichiers textes
(CSV) ou d’enregistrements stockées dans HDFS,
SGBD SQL, NoSQL, etc.
 Exemple de Framework :
Map Reduce,
Spark
20
Stream Processing
 Stream Processing (Traitement de flux) :
 Contrairement au traitement par lots où les données sont liées avec un
début et une fin dans un traitement qui se termine après le traitement de
données finies,
 Le Stream Processing est destiné au traitement de flux de données sans
fin arrivant en temps réel de façon continue pendant des jours, des mois,
des années et à jamais.
 Le traitement de flux nous permet de traiter les données en temps réel
 Le traitement de flux permet d'introduire des données dans des outils
d'analyse dès qu’elles sont générées et d'obtenir des résultats d'analyse
instantanés
21
Stream processing / Batch Processing
 Stream processing :
 2 approches pour mettre en place un Framework
Streaming:
 Native Streaming (Real Time Processing)
 Chaque enregistrement entrant est traité dès son arrivée,
sans attendre les autres.
 Exemples: Storm, Flink, Kafka Streams, Samza.
 Micro Batch Processing (Micro Batching)
 Les enregistrements entrants toutes les quelques secondes
sont mis en lots, puis traités en un seul mini-lot avec un
délai de quelques secondes.
 • Exemples: Spark Streaming, Storm-Trident.
22
Conclusion
Stream
streaming
Real time processing
23
Traitement en temps réel
1. Définition
2. Défis
3. Architecture
4. Choix de technologies
24
Mise en situation
Solution de supervision du trafic en temps réel pour détecter des pics de trafic
25
Définition
Le traitement en temps réel se définit comme le traitement d’un flux non borné de données
d’entrée, avec des critères de latence très stricts pour le traitement : en millisecondes ou en
secondes.
Le format de données:
• Non structuré
• Structuré
• Semi-structuré
Stockage des données:

• Magasins de données analytiques
• Directement transférés dans la couche analytique et création de rapports
26
Défis
Ingestion
Traitement
Stockage
Capacité à effectuer les actions rapidement
27
Architecture
28
Architecture
Ingestion de messages en temps réel : L’architecture doit prévoir un moyen de capturer et de
stocker les messages en temps réel, qui seront exploités par un consommateur de traitement des
flux de données. Dans les cas de base, ce service peut être implémenté comme un magasin de
données simple au sein duquel les nouveaux messages sont déposés dans un dossier.
Traitement des flux de données: Après avoir capturé les messages en temps réel, la solution doit
les traiter en filtrant, en agrégeant et, plus généralement, en préparant les données pour l’analyse.
Magasin de données analytiques. De nombreuses solutions Big Data sont conçues pour préparer
les données à des fins d’analyse, puis fournir les données traitées dans un format structuré et
interrogeable à l’aide d’outils d’analyse.
Analyse et rapports. La plupart des solutions Big Data ont pour but de fournir des informations
sur les données par le biais de l’analyse et des rapports
29
Choix technologique
Ingestion de messages en temps réel
• Azure Event Hubs: une solution de messagerie permettant d’ingérer des millions de messages
d’événements par seconde.
• Azure IoT Hub: assure une communication bidirectionnelle entre les appareils connectés à Internet, et
propose une file d’attente de messages évolutive capable de gérer des millions d’appareils connectés
simultanément.
• Apache Kafka: Kafka est une application open source de traitement des flux de données et de mise en
file d’attente des messages capable de traiter jusqu’à plusieurs millions de messages par seconde, en
provenance de différents producteurs, et de les acheminer vers plusieurs consommateurs.
Traitement des flux de données

◦ Conteneurs Azure Storage Blob , Azure Data Lake Store
30
Choix technologique
Traitement de flux de données
• Azure Stream Analytics peut exécuter des requêtes perpétuelles sur un flux de données non borné.
• Apache Storm est une infrastructure open source de traitement des flux de données qui utilise une
topologie Spout et Bolt pour consommer, traiter et générer les résultats à partir de sources de données de
diffusion en continu et en temps réel..
• Apache Spark est une plateforme distribuée open source pour le traitement général des données
Traitement des flux de données
Magasin de données
• Azure Synapse Analytics, Azure Data Explorer (Relationnelles)
• Hbase (NoSql)
• fichiers dans un système de stockage distribué permettant de définir et d’interroger des tables Spark ou
Hive.
31
Choix technologique
Analytiques et Rapports
• Azure Analysis Services
• Power BI
• Microsoft Excel.
32
Conclusion
L’instauration d’une architecture Big Data était auparavant réservée aux grands groupes tels que
Google ou Facebook puisqu’elle était très coûteuse et nécessitait de disposer de nombreux
analystes, scientifiques et architectes spécialistes de la donnée. Aujourd’hui la nécessité de
traiter des ensembles de données volumineuses et la baisse du coût de stockage ont rendu
accessibles ces architectures Big Data à la plupart des entreprises qui utilisent la gouvernance
des données.
Grâce à la mise en place d’une solution de gestion et de traitement Big Data, vous pourrez
pleinement tirer parti de vos données, quelles que soit leurs sources et leur format pour obtenir
des analyses avancées et bâtir de plan d’actions stratégiques guidés par les données.
33
Merci pour votre attention !
34

Real Time Processing - Presentation - Semifinal

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Real Time Processing - Presentation - Semifinal

Transféré par

Droits d'auteur :

Formats disponibles

REPUBLIQUE DU CAMEROUN

TRAITEMENT EN TEMPS REEL

Enseignant: Dr Justin MOSKOLAI Année Académique : 2020 - 2021

Noms et prénoms Matricules

Caractéristiques des données produites

Le traitement des données

Ingérer les données

Faire évoluer leur SI existant

Stockées les données issues du Big Data

Impose de mettre en place deux différent systèmes

Un seul système pour le traitement par lot et temps

 Un Stream est un flux continu d’enregistrements de données en temps réel.

• l'architecture de données en streaming ajoute la

 Ces données contiennent des millions d’enregistrements pour

Stockage des données:

Traitement des flux de données

Vous aimerez peut-être aussi