Vous êtes sur la page 1sur 34

REPUBLIQUE DU CAMEROUN

REPUBLIC OF CAMEROON
PAIX-TRAVAIL-PATRIE
PEACE-WORK-FATHERLAND
**********
**********
UNIVERSITE DE DOUALA
THE UNIVERSITY OF DOUALA
********
********
ECOLE DOCTORALE DES SCIENCES
POSTGRADUATE SCHOOL FOR
FONDAMENTALES ET APPLIQUEES
PURE AND APPLIED SCIENCES
**********
********
LABORATOIRE D’INFORMATIQUE APPLIED COMPUTER SCIENCE LABORATORY
APPLIQUEE

TRAITEMENT EN TEMPS REEL


(STREAMING)
U E : BI G D ATA

Enseignant: Dr Justin MOSKOLAI Année Académique : 2020 - 2021


Chargé de cours , Université de Douala

1
Travail réalisé par

Noms et prénoms Matricules


TCHAMO NOUSSI Franck Loic
DJOULAKO Camel Léonce
SOMBSI Adèle Marguerite

2
Sommaire

Introduction
I. Architecture de Big Data
II. Présentation générale du Streaming data
III. Traitement en temps réel
Conclusion

3
Introduction
CAS D’USAGE ET MODÈLES ÉCONOMIQUES
• Applications opérationnelles d’entreprises
• Analyse du parcours client d’un site web
• Recommandation en temps réel
• Détection des fraudes
• Cybersécurité
• Tracking des internautes

Caractéristiques des données produites


• Débit élevé
• Grand volume
• Délai de péremption très court (selon IBM 60% )

4
Architecture de Big Data

5
Le Big Data
Introduction au Big Data?
Expansion et vulgarisation d’Internet
De nombreux services offerts
Augmentation drastique du volume de données numériques
Données de type varié
Sources multiples
L’exploitation des ces données ne saurait se faire à travers les
SGBD traditionnels

6
Le Big Data
L’objectif du Big Data?
L’aide à la décision
L’ensemble de ces données (internes et externes) permettent ainsi de
prédire les besoins des consommateurs et de mieux les anticiper.

Le traitement des données


La collecte
L’analyse

7
Le Big Data
Bref
Données massives hétérogènes : internes, et externes
Les unités de stockage et sources de données
Des algorithmes de collecte et d’analyse
Extraire de la data pertinente et établir des corrélations
pour booster l’activité commerciale.
8
Le Big Data
Les enjeux du Big Data?
Stockée dans de multiples Data Centers, l'exploitation du Big
Data ne cesse de prendre de l'ampleur, notamment avec la
popularisation du Cloud Computing
La gestion du volume de données
La qualité des données
La sécurisation des données

9
Le Big Data
Qu’en est t’il des entreprises?

Ingérer les données


Les traiter et analyser rapidement des données massives

Faire évoluer leur SI existant


Adopter une architecture de Big Data

10
Le Big Data
Qu’en est t’il des entreprises?
Un traitement en batch et un traitement en temps réel des Big Data en mouvement
Une exploration des données volumineuses
Une transformation des données non structurées en données structurées
Une centralisation des data issues de différentes sources et existantes sous
différents formats
Des analyses prédictives
Des tâches basées sur les technologies du machine learning et de l’intelligence
artificielle
11
Le Big Data
Architecture Big Data

12
Le Big Data
Architecture Big Data
Les sources de données (cloud, data center, )
Le stockage (lac de données)
Le traitement par lot de données
Le traitement de flux de données
Magasin de données analytique
Analyse et rapports
La technologie d’orchestration
13
Le Big Data
Deux types d’architecture Big Data
Lambda
Réduire le temps de latence de traitement et mise à jour

Stockées les données issues du Big Data

Impose de mettre en place deux différent systèmes

14
Le Big Data
Architecture Big Data
Kappa
Uniquement le traitement des données du Big Data

Un seul système pour le traitement par lot et temps


réel

15
Présentation générale du Streaming
Data

16
Le streaming Data 1/2

 Un Stream est un flux continu d’enregistrements de données en temps réel.

 Le « streaming » décrit des flux de données (data streams) continus et sans fin,
qui fournissent un flux constant de données pouvant être utilisées sans avoir besoin
d'être téléchargées au préalable.

 Le Streaming data est le flux continu de données générées par diverses sources.
En utilisant la technologie de traitement de flux (stream processing technology)

17
Le streaming Data 2/2
 Le Streaming data est le flux continu de données générées par diverses sources. En
utilisant la technologie de traitement de flux (stream processing technology)

18
Streaming Data Processing
• Les données sont générées par une quantité infinie
de sources : capteurs IoT, serveurs, journaux de
sécurité, applications ou systèmes
internes/externes

• l'architecture de données en streaming ajoute la


possibilité de consommer, de conserver, de
stocker, d'enrichir et d'analyser les données en
mouvement.

19
Batch Processing
 Batch Processing (Traitement par lots) :
 Traitement de blocs de données déjà stockés sur une période donnée.
 Par exemple, traiter toutes les transactions effectuées par une
entreprise financière en une semaine.

 Ces données contiennent des millions d’enregistrements pour


chaque jour pouvant être stockés sous forme de fichiers textes
(CSV) ou d’enregistrements stockées dans HDFS,
SGBD SQL, NoSQL, etc.
 Exemple de Framework :
Map Reduce,
Spark

20
Stream Processing
 Stream Processing (Traitement de flux) :
 Contrairement au traitement par lots où les données sont liées avec un
début et une fin dans un traitement qui se termine après le traitement de
données finies,
 Le Stream Processing est destiné au traitement de flux de données sans
fin arrivant en temps réel de façon continue pendant des jours, des mois,
des années et à jamais.
 Le traitement de flux nous permet de traiter les données en temps réel
 Le traitement de flux permet d'introduire des données dans des outils
d'analyse dès qu’elles sont générées et d'obtenir des résultats d'analyse
instantanés

21
Stream processing / Batch Processing
 Stream processing :
 2 approches pour mettre en place un Framework
Streaming:
 Native Streaming (Real Time Processing)
 Chaque enregistrement entrant est traité dès son arrivée,
sans attendre les autres.
 Exemples: Storm, Flink, Kafka Streams, Samza.
 Micro Batch Processing (Micro Batching)
 Les enregistrements entrants toutes les quelques secondes
sont mis en lots, puis traités en un seul mini-lot avec un
délai de quelques secondes.
 • Exemples: Spark Streaming, Storm-Trident.

22
Conclusion

Stream
streaming
Real time processing

23
Traitement en temps réel
1. Définition
2. Défis
3. Architecture
4. Choix de technologies

24
Traitement en temps réel

Mise en situation
Solution de supervision du trafic en temps réel pour détecter des pics de trafic

25
Traitement en temps réel

Définition
Le traitement en temps réel se définit comme le traitement d’un flux non borné de données
d’entrée, avec des critères de latence très stricts pour le traitement : en millisecondes ou en
secondes.
Le format de données:
• Non structuré
• Structuré
• Semi-structuré

Stockage des données:


• Magasins de données analytiques
• Directement transférés dans la couche analytique et création de rapports

26
Traitement en temps réel

Défis
Ingestion
Traitement
Stockage
Capacité à effectuer les actions rapidement

27
Traitement en temps réel

Architecture

28
Traitement en temps réel

Architecture
Ingestion de messages en temps réel : L’architecture doit prévoir un moyen de capturer et de
stocker les messages en temps réel, qui seront exploités par un consommateur de traitement des
flux de données. Dans les cas de base, ce service peut être implémenté comme un magasin de
données simple au sein duquel les nouveaux messages sont déposés dans un dossier.
Traitement des flux de données: Après avoir capturé les messages en temps réel, la solution doit
les traiter en filtrant, en agrégeant et, plus généralement, en préparant les données pour l’analyse.
Magasin de données analytiques. De nombreuses solutions Big Data sont conçues pour préparer
les données à des fins d’analyse, puis fournir les données traitées dans un format structuré et
interrogeable à l’aide d’outils d’analyse.
Analyse et rapports. La plupart des solutions Big Data ont pour but de fournir des informations
sur les données par le biais de l’analyse et des rapports

29
Traitement en temps réel

Choix technologique
Ingestion de messages en temps réel
• Azure Event Hubs: une solution de messagerie permettant d’ingérer des millions de messages
d’événements par seconde.
• Azure IoT Hub: assure une communication bidirectionnelle entre les appareils connectés à Internet, et
propose une file d’attente de messages évolutive capable de gérer des millions d’appareils connectés
simultanément.
• Apache Kafka: Kafka est une application open source de traitement des flux de données et de mise en
file d’attente des messages capable de traiter jusqu’à plusieurs millions de messages par seconde, en
provenance de différents producteurs, et de les acheminer vers plusieurs consommateurs.

Traitement des flux de données


◦ Conteneurs Azure Storage Blob , Azure Data Lake Store

30
Traitement en temps réel

Choix technologique
Traitement de flux de données
• Azure Stream Analytics peut exécuter des requêtes perpétuelles sur un flux de données non borné.
• Apache Storm est une infrastructure open source de traitement des flux de données qui utilise une
topologie Spout et Bolt pour consommer, traiter et générer les résultats à partir de sources de données de
diffusion en continu et en temps réel..
• Apache Spark est une plateforme distribuée open source pour le traitement général des données
Traitement des flux de données

Magasin de données
• Azure Synapse Analytics, Azure Data Explorer (Relationnelles)
• Hbase (NoSql)
• fichiers dans un système de stockage distribué permettant de définir et d’interroger des tables Spark ou
Hive.

31
Traitement en temps réel

Choix technologique
Analytiques et Rapports
• Azure Analysis Services
• Power BI
• Microsoft Excel.

32
Conclusion
L’instauration d’une architecture Big Data était auparavant réservée aux grands groupes tels que
Google ou Facebook puisqu’elle était très coûteuse et nécessitait de disposer de nombreux
analystes, scientifiques et architectes spécialistes de la donnée. Aujourd’hui la nécessité de
traiter des ensembles de données volumineuses et la baisse du coût de stockage ont rendu
accessibles ces architectures Big Data à la plupart des entreprises qui utilisent la gouvernance
des données.
Grâce à la mise en place d’une solution de gestion et de traitement Big Data, vous pourrez
pleinement tirer parti de vos données, quelles que soit leurs sources et leur format pour obtenir
des analyses avancées et bâtir de plan d’actions stratégiques guidés par les données.

33
Merci pour votre attention !

34

Vous aimerez peut-être aussi