Académique Documents
Professionnel Documents
Culture Documents
REPUBLIC OF CAMEROON
PAIX-TRAVAIL-PATRIE
PEACE-WORK-FATHERLAND
**********
**********
UNIVERSITE DE DOUALA
THE UNIVERSITY OF DOUALA
********
********
ECOLE DOCTORALE DES SCIENCES
POSTGRADUATE SCHOOL FOR
FONDAMENTALES ET APPLIQUEES
PURE AND APPLIED SCIENCES
**********
********
LABORATOIRE D’INFORMATIQUE APPLIED COMPUTER SCIENCE LABORATORY
APPLIQUEE
1
Travail réalisé par
2
Sommaire
Introduction
I. Architecture de Big Data
II. Présentation générale du Streaming data
III. Traitement en temps réel
Conclusion
3
Introduction
CAS D’USAGE ET MODÈLES ÉCONOMIQUES
• Applications opérationnelles d’entreprises
• Analyse du parcours client d’un site web
• Recommandation en temps réel
• Détection des fraudes
• Cybersécurité
• Tracking des internautes
4
Architecture de Big Data
5
Le Big Data
Introduction au Big Data?
Expansion et vulgarisation d’Internet
De nombreux services offerts
Augmentation drastique du volume de données numériques
Données de type varié
Sources multiples
L’exploitation des ces données ne saurait se faire à travers les
SGBD traditionnels
6
Le Big Data
L’objectif du Big Data?
L’aide à la décision
L’ensemble de ces données (internes et externes) permettent ainsi de
prédire les besoins des consommateurs et de mieux les anticiper.
7
Le Big Data
Bref
Données massives hétérogènes : internes, et externes
Les unités de stockage et sources de données
Des algorithmes de collecte et d’analyse
Extraire de la data pertinente et établir des corrélations
pour booster l’activité commerciale.
8
Le Big Data
Les enjeux du Big Data?
Stockée dans de multiples Data Centers, l'exploitation du Big
Data ne cesse de prendre de l'ampleur, notamment avec la
popularisation du Cloud Computing
La gestion du volume de données
La qualité des données
La sécurisation des données
9
Le Big Data
Qu’en est t’il des entreprises?
10
Le Big Data
Qu’en est t’il des entreprises?
Un traitement en batch et un traitement en temps réel des Big Data en mouvement
Une exploration des données volumineuses
Une transformation des données non structurées en données structurées
Une centralisation des data issues de différentes sources et existantes sous
différents formats
Des analyses prédictives
Des tâches basées sur les technologies du machine learning et de l’intelligence
artificielle
11
Le Big Data
Architecture Big Data
12
Le Big Data
Architecture Big Data
Les sources de données (cloud, data center, )
Le stockage (lac de données)
Le traitement par lot de données
Le traitement de flux de données
Magasin de données analytique
Analyse et rapports
La technologie d’orchestration
13
Le Big Data
Deux types d’architecture Big Data
Lambda
Réduire le temps de latence de traitement et mise à jour
14
Le Big Data
Architecture Big Data
Kappa
Uniquement le traitement des données du Big Data
15
Présentation générale du Streaming
Data
16
Le streaming Data 1/2
Le « streaming » décrit des flux de données (data streams) continus et sans fin,
qui fournissent un flux constant de données pouvant être utilisées sans avoir besoin
d'être téléchargées au préalable.
Le Streaming data est le flux continu de données générées par diverses sources.
En utilisant la technologie de traitement de flux (stream processing technology)
17
Le streaming Data 2/2
Le Streaming data est le flux continu de données générées par diverses sources. En
utilisant la technologie de traitement de flux (stream processing technology)
18
Streaming Data Processing
• Les données sont générées par une quantité infinie
de sources : capteurs IoT, serveurs, journaux de
sécurité, applications ou systèmes
internes/externes
19
Batch Processing
Batch Processing (Traitement par lots) :
Traitement de blocs de données déjà stockés sur une période donnée.
Par exemple, traiter toutes les transactions effectuées par une
entreprise financière en une semaine.
20
Stream Processing
Stream Processing (Traitement de flux) :
Contrairement au traitement par lots où les données sont liées avec un
début et une fin dans un traitement qui se termine après le traitement de
données finies,
Le Stream Processing est destiné au traitement de flux de données sans
fin arrivant en temps réel de façon continue pendant des jours, des mois,
des années et à jamais.
Le traitement de flux nous permet de traiter les données en temps réel
Le traitement de flux permet d'introduire des données dans des outils
d'analyse dès qu’elles sont générées et d'obtenir des résultats d'analyse
instantanés
21
Stream processing / Batch Processing
Stream processing :
2 approches pour mettre en place un Framework
Streaming:
Native Streaming (Real Time Processing)
Chaque enregistrement entrant est traité dès son arrivée,
sans attendre les autres.
Exemples: Storm, Flink, Kafka Streams, Samza.
Micro Batch Processing (Micro Batching)
Les enregistrements entrants toutes les quelques secondes
sont mis en lots, puis traités en un seul mini-lot avec un
délai de quelques secondes.
• Exemples: Spark Streaming, Storm-Trident.
22
Conclusion
Stream
streaming
Real time processing
23
Traitement en temps réel
1. Définition
2. Défis
3. Architecture
4. Choix de technologies
24
Traitement en temps réel
Mise en situation
Solution de supervision du trafic en temps réel pour détecter des pics de trafic
25
Traitement en temps réel
Définition
Le traitement en temps réel se définit comme le traitement d’un flux non borné de données
d’entrée, avec des critères de latence très stricts pour le traitement : en millisecondes ou en
secondes.
Le format de données:
• Non structuré
• Structuré
• Semi-structuré
26
Traitement en temps réel
Défis
Ingestion
Traitement
Stockage
Capacité à effectuer les actions rapidement
27
Traitement en temps réel
Architecture
28
Traitement en temps réel
Architecture
Ingestion de messages en temps réel : L’architecture doit prévoir un moyen de capturer et de
stocker les messages en temps réel, qui seront exploités par un consommateur de traitement des
flux de données. Dans les cas de base, ce service peut être implémenté comme un magasin de
données simple au sein duquel les nouveaux messages sont déposés dans un dossier.
Traitement des flux de données: Après avoir capturé les messages en temps réel, la solution doit
les traiter en filtrant, en agrégeant et, plus généralement, en préparant les données pour l’analyse.
Magasin de données analytiques. De nombreuses solutions Big Data sont conçues pour préparer
les données à des fins d’analyse, puis fournir les données traitées dans un format structuré et
interrogeable à l’aide d’outils d’analyse.
Analyse et rapports. La plupart des solutions Big Data ont pour but de fournir des informations
sur les données par le biais de l’analyse et des rapports
29
Traitement en temps réel
Choix technologique
Ingestion de messages en temps réel
• Azure Event Hubs: une solution de messagerie permettant d’ingérer des millions de messages
d’événements par seconde.
• Azure IoT Hub: assure une communication bidirectionnelle entre les appareils connectés à Internet, et
propose une file d’attente de messages évolutive capable de gérer des millions d’appareils connectés
simultanément.
• Apache Kafka: Kafka est une application open source de traitement des flux de données et de mise en
file d’attente des messages capable de traiter jusqu’à plusieurs millions de messages par seconde, en
provenance de différents producteurs, et de les acheminer vers plusieurs consommateurs.
30
Traitement en temps réel
Choix technologique
Traitement de flux de données
• Azure Stream Analytics peut exécuter des requêtes perpétuelles sur un flux de données non borné.
• Apache Storm est une infrastructure open source de traitement des flux de données qui utilise une
topologie Spout et Bolt pour consommer, traiter et générer les résultats à partir de sources de données de
diffusion en continu et en temps réel..
• Apache Spark est une plateforme distribuée open source pour le traitement général des données
Traitement des flux de données
Magasin de données
• Azure Synapse Analytics, Azure Data Explorer (Relationnelles)
• Hbase (NoSql)
• fichiers dans un système de stockage distribué permettant de définir et d’interroger des tables Spark ou
Hive.
31
Traitement en temps réel
Choix technologique
Analytiques et Rapports
• Azure Analysis Services
• Power BI
• Microsoft Excel.
32
Conclusion
L’instauration d’une architecture Big Data était auparavant réservée aux grands groupes tels que
Google ou Facebook puisqu’elle était très coûteuse et nécessitait de disposer de nombreux
analystes, scientifiques et architectes spécialistes de la donnée. Aujourd’hui la nécessité de
traiter des ensembles de données volumineuses et la baisse du coût de stockage ont rendu
accessibles ces architectures Big Data à la plupart des entreprises qui utilisent la gouvernance
des données.
Grâce à la mise en place d’une solution de gestion et de traitement Big Data, vous pourrez
pleinement tirer parti de vos données, quelles que soit leurs sources et leur format pour obtenir
des analyses avancées et bâtir de plan d’actions stratégiques guidés par les données.
33
Merci pour votre attention !
34