Vous êtes sur la page 1sur 26

REPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROUN

---------------- ----------------
MINISTERE DE L’ENSEIGNEMENT MINISTRY OF HIGHER EDUCATION
SUPERIEUR ----------------
---------------- HIGHER INSTITUTE OF
INSTITUT SUPERIEUR DES INFORMATION TECHNOLOGIES
TECHNOLOGIES DE L’INFORMATION AND COMMUNICATION OF
ET DE LA COMMUNICATION DE MEYOMESSALA
MEYOMESSALA

CONTRÔLE CONTINU DE RADIOCOMMUNICATION MOBILE

Thème : LE BIG DATA

Noms des exposants :

 MBOLO MESSOMO Kévin Lionel


 MBALLA ONOMO Jacqueline

Sous la supervision de :
M. NZEGANG Frantz

Année académique : 2015-2016


LE BIG DATA

Table des matières


INTRODUCTION ................................................................................................................................... 4
SECTION 1 : PRESENTATION ................................................................................................................ 4
HISTOIRE.............................................................................................................................................. 4
CARACTERISTIQUES ET FONCTIONS .................................................................................................... 5
La formule des 3V................................................................................................................................ 5
Alors, pourquoi utiliser le Big Data ?................................................................................................... 5
CE QU’EST L’ANALYSE DE BIG DATA (ET CE QU’ELLE N’EST PAS) ........................................................ 5
L’analyse de Big Data, c’est : .............................................................................................................. 6
L’analyse de Big Data n’est pas : ........................................................................................................ 6
L’ENVIRONNEMENT INFORMATIQUE POUR L’ANALYSE DE BIG DATA ............................................... 7
SECTION 2 : LE FRAMEWORK TECHNIQUE .......................................................................................... 7
ORIGINE ............................................................................................................................................... 7
SECTION 3 : ARCHITECTURE BIG DATA 2016....................................................................................... 9
HADOOP ............................................................................................................................................ 10
Définition........................................................................................................................................... 10
Synthèse ............................................................................................................................................ 11
Les points forts d’Hadoop sont : ........................................................................................................ 11
Ses inconvénients sont :....................................................................................................................... 11
Plates-formes de traitement distribué et émergence d’Apache Hadoop ................................. 12
Figure 3: Principaux composants d’APACHE HADOOP .................................................................... 12
AVANTAGES D’ HADOOP ................................................................................................................... 13
SECTION 4 : LES ARCHITECTURES BIG DATA...................................................................................... 14
ARCHITECTURE HADOOP................................................................................................................... 14
Confère section 3 .................................................................................................................................. 14
ARCHITECTURE LAMBDA ................................................................................................................... 14
Définition........................................................................................................................................... 14
 Couche batch (Batch Layer) : .................................................................................................... 15
 Couche temps réel (Speed Layer) : ............................................................................................ 15
 Couche de service (Serving Layer) : .......................................................................................... 15
 Générique : Twitter Summingbird (https://github.com/twitter/summingbird).............................. 15
 Dédiée au machine learning : Cloudera Oryx 2 (http://oryx.io/)................................................... 15
Figure : Architecture LAMBDA............................................................................................................. 16

2
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Synthèse ............................................................................................................................................ 16
Les points forts de l’architecture Lambda sont : ................................................................................. 16
Ses inconvénients sont : ....................................................................................................................... 16
ARCHITECTURE KAPPA ...................................................................................................................... 16
Figure : Architecture KAPPA .................................................................................................................. 17
Synthèse ............................................................................................................................................ 17
Les points forts de l’architecture Kappa sont : ................................................................................ 17
Pas de séparation entre les besoins........................................................................................................ 18
ARCHITECTURE SMACK...................................................................................................................... 18
Les points forts de l’architecture SMACK sont : ............................................................................. 19
Ses inconvénients sont :....................................................................................................................... 19
SECTION 5 : CONSTATS ET OPPORTUNITES DU BIG DATA ................................................................ 19
À l’inverse, voici les gains potentiels pour les entreprises qui utilisent le Big Data. ..................... 20
Mise en œuvre .................................................................................................................................. 21
Traitements ....................................................................................................................................... 22
Batchs ................................................................................................................................................ 22
Exemple d’implémentation : MapReduce. ......................................................................................... 22
Micro-batchs ..................................................................................................................................... 22
Figure : Architecture BATCH INCREMENTALE ............................................................................... 23
Temps réel ......................................................................................................................................... 23
Figure : Architecture temps reel ............................................................................................................ 24
Catégories.......................................................................................................................................... 24
Figure : Illustration des catégories des solutions................................................................................... 25

3
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

INTRODUCTION
Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des
données dans le monde ont été créées au cours des deux dernières années seulement. Ces
données proviennent de partout : de capteurs utilisés pour collecter les informations
climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos
publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de
téléphones mobiles, pour ne citer que quelques sources. Ces données sont appelées « Big
Data ou « volumes massifs de données ».

SECTION 1 : PRESENTATION
La notion de big data est un concept s'étant popularisé en 2012 pour traduire le fait que les
entreprises sont confrontées à des volumes de données (data) à traiter de plus en plus
considérables et présentant un fort enjeu commercial et marketing.

HISTOIRE
Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de
l'information et comme espace virtuel prenant une importance volumique croissante dans le
cyberespace.

L'expression « Big data » serait apparue en octobre 1997 selon les archives de la
bibliothèque numérique de l’ACM (Association for Computing Machinery), dans des articles
scientifiques sur les défis technologiques à relever pour visualiser les « grands ensembles de
données ».

Selon V. Tréguier (2014) et selon la « très courte histoire du big data »publiés par Gil Press
en 2013 pour la période 1944-2012, sa naissance est liée aux progrès des systèmes de
stockage, de fouille et d'analyse de l'information numérisée, qui ont permis une sorte de « big
bang » de l'information stockée puis une croissance inflationniste de l'univers de la donnée
numérisée. Mais ses prémisses sont à trouver dans le croisement de la cybernétique et de
courants de pensée nés durant la Seconde Guerre mondiale, selon lesquels l’homme et le
monde peuvent être représentés comme « des ensembles informationnels, dont la seule
différence avec la machine est leur niveau de complexité. La vie deviendrait alors une suite de
0 et de 1, programmable et prédictible » ajoute V. Tréguier.

4
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

CARACTERISTIQUES ET FONCTIONS
La formule des 3V
Le big data présente 03 principales caractéristiques à savoir :
 Un grand Volume de données : du Terabyte (1012 bytes) au Yottabyte (1024 bytes), la
capacité de stockage estimée de la NSA, qui représente mille fois l’ensemble des données
générées en 2011.
 Une grande Vélocité : la fréquence à laquelle les données sont générées, capturées et
partagées. Cette contrainte temporelle peut nécessiter un traitement en temps réel, on parle
alors de Data Stream Mining.
 Une grande Variété : les données sont structurées ou non structurées et proviennent de
différents types de fichier (photos, vidéos, commentaires écrits, courriels…). La gestion de
données non structurées est un des grands défis du Big Data.
Aussi, on peut ajouter un 4ème V qui est celui de la Véracité : afin d’en extraire
l’information utile, il est souvent nécessaire de traiter les données qui peuvent être bruitées et
imprécises.
Alors qu’Oracle ou Intel adoptent des définitions qui insistent sur la variété des données
gérées, Microsoft met l’accent sur la spécificité des processus de traitement en intelligence
artificiel ou par apprentissage automatique. Le projet MIKE définit la nouvelle discipline non
pas comme une fonction du volume des jeux de données, mais de leur complexité5.

Alors, pourquoi utiliser le Big Data ?


Trois fonctions principales peuvent être attribuées :

 Une fonction descriptive : documenter et mettre en évidence ce qui est en train de se


produire;
 Une fonction prédictive : donner une notion de ce qui va probablement se produire,
indépendamment des causes possibles;
 Une fonction de diagnostic : éclairer sur la cause de ce qui pourrait arriver, les raisons et la
nature d’un évènement.

CE QU’EST L’ANALYSE DE BIG DATA (ET CE QU’ELLE


N’EST PAS)
L’analyse de Big Data change clairement les règles du jeu, offrant aux entreprises de
nouvelles informations issues de sources de données n’ayant pas été exploitées dans le
passé. En voici plus sur ce qu’est l’analyse de Big Data... et ce qu’elle n’est pas.

5
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

L’analyse de Big Data, c’est :

 Une stratégie technologique qui permet d’obtenir des informations plus riches et
approfondies sur les clients, les partenaires et le marché – et au bout du compte bénéficier
d’un avantage concurrentiel.
 Travailler avec des ensembles de données dont la taille et la diversité dépassent les capacités
de capture, de stockage, de gestion et d’analyse des logiciels de base de données classiques.
 Le traitement en temps réel d’un flux continu de données afin de prendre plus rapidement
des décisions urgentes.
 Des ressources décentralisées. Les processus d’analyse se dirigent là où sont les données
pour plus de rapidité et d’efficacité.
 Un nouveau paradigme dans lequel l’informatique collabore avec les acteurs commerciaux et
les « Data Scientists » afin d’identifier et mettre en œuvre des analyses qui permettront
d’accroître l’efficacité opérationnelle et de résoudre de nouvelles problématiques
commerciales.
 Déplacer la prise de décision vers la base de l’entreprise et permettre aux personnels de
prendre de meilleures décisions, plus rapidement et en temps réel.

L’analyse de Big Data n’est pas :

 Uniquement une question technologique. Au niveau des entreprises, il s’agit de déterminer


comment exploiter des sources de données considérablement enrichies afin de développer de
nouvelles perspectives.

 Qu’une question de volume. Il faut également prendre en compte la diversité et la vitesse.


Mais le plus important est sans doute la valeur ajoutée issue des données.
 Générée ou utilisée que par de grandes entreprises en ligne comme Google ou Amazon.
Même si les entreprises d’Internet ont été pionnières dans l’utilisation de Big Data à l’échelle
du web, cette technique peut s’appliquer à tous les secteurs.
 Conçue pour fonctionner avec des bases de données relationnelles classiques et de tailles
standards, construites sur une architecture de disque et de mémoire partagés. L’analyse de
Big Data utilise un réseau de ressources informatiques pour un traitement massivement
parallèle (MPP).
 Destinée à remplacer les bases de données relationnelles ou l’entrepôt de données. Les
données structurées continuent d’être d’une importance capitale pour les entreprises.

6
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Cependant, les systèmes traditionnels peuvent ne pas convenir pour les nouvelles sources et
les nouveaux environnements du Big Data.
L’ENVIRONNEMENT INFORMATIQUE POUR
L’ANALYSE DE BIG DATA
Aujourd’hui, les entreprises du monde entier sont confrontées à une croissance sans
précédent des données. Rendez-vous compte : il était prévu que la quantité globale de
données s’étende à 2,7 zetta octets (Zo) à la fin de l’année 2012 ; et qu’elle double tous les
deux ans, pour atteindre 8 Zo de données en 2015. Il est difficile de concevoir une telle quantité
d’information. Par exemple, la bibliothèque du Congrès américain détient 462 téraoctets (To) de
données numériques, ce qui signifie que 8 Zo est équivalent à près de 18 millions de
Bibliothèques du Congrès. L’expression Big Data prend tout son sens.

SECTION 2 : LE FRAMEWORK TECHNIQUE


ORIGINE

Pour comprendre ce qu’est le Big Data et faire la part des choses entre les fantasmes du marketing
(nombreux), les réalités concrètes (plus rares), et les promesses raisonnables (en nombre suffisant pour
considérer très sérieusement le phénomène), il faut revenir aux fondamentaux, et en cela aux origines
du Big Data.

De ce fait, le Big Data est né d’une rupture technologique essentiellement engagée par les deux
acteurs majeurs de l’Internet que sont Google et Yahoo, tous deux confrontés à plusieurs problèmes
complexes :

 celui du volume gigantesque de données manipulées (pages indexées, recherches


effectuées…),
 celui de la nature essentiellement non structurée de ces informations (du texte, du son, de
l’image…),
 celui de la temporalité et de la nécessaire vitesse d’exécution des algorithmes de traitement
de l’information à mettre en œuvre pour satisfaire les utilisateurs (temps réel).

Face à ces enjeux, les approches traditionnelles de la gestion de bases de données


relationnelles, de l’informatique décisionnelle et de l’ingénierie statistique n’étaient plus
suffisantes, et il fallait inventer un modèle en rupture permettant de régler en une passe
l’ensemble de ces problèmes.

7
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Ce nouveau modèle a fait l’objet de travaux de recherche qui se sont engagés dès le début
des années 2000, pour aboutir au milieu de la décennie sur différentes solutions
technologiques.
Depuis, les solutions ont mûri, des standards ont émergé, et leur mise en œuvre est devenue
opérationnelle chez les géants du web confrontés aux mêmes problèmes de valorisation de
l’information massive que ceux rencontrés par les précurseurs : Google et Yahoo bien sûr,
mais aussi Netflix, Amazon, Microsoft, Facebook, Twitter…

Ces standards s’appuient sur une logique de traitement déporté qui permet de :

 stocker les données en environnement distribué,


 déployer les calculs algorithmiques sur plusieurs nœuds de calcul.

Aujourd’hui bien connu sous le nom de HADOOP, ce paradigme a clairement ouvert la


voie à un nouveau mode de traitement analytique de l’information, et a conduit à l’émergence
du concept marketing de Big Data dont se sont rapidement emparés les acteurs du marché.

Le framework sous-jacent s’appuie sur un mécanisme de fichiers (HDFS) qui distribue,


réplique et éventuellement compresse les données sur de multiples machines, et sur un modèle
de programmation parallèle (MAPREDUCE) qui exécute les traitements localement sur les
machines qui stockent les données, et n’agrège que les résultats de ces calculs parallélisés.

8
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Figure 1 : un nouveau framework de stockage et de traitement des données massives

SECTION 3 : ARCHITECTURE BIG DATA 2016

Aucune technologie ne permet de résoudre tous les types de problèmes posés. Hadoop a
posé les bases du Big Data (surtout en terme de traitement). La plateforme est capable de
traiter des volumes importants de données, mais avec une latence importante. C’est pourquoi
sont apparus des systèmes (quasi) temps réels tels que Spark, Storm, Flink, Druid, ou
encore Tez.

L’enjeu étant de conserver les points forts de la plateforme Hadoop :

 Capacité à traiter des quantités énormes de données.


 Sécurité.
 Distribution.
 Tolérance à la panne.

Ceci tout en augmentant les possibilités d’interactions grâce à des traitements temps
réels. Non seulement ces nouveaux frameworks améliorent les performances grâce à une
meilleure utilisation de la mémoire, mais ils offrent aussi (et surtout) la possibilité de définir
des fenêtres de traitements (micro batch, windowing) ainsi que des traitements itératifs.

Coté stockage, ces dernières années ont vu l’émergence des solutions NoSQL en
remplacement des solutions traditionnelles de type SGBD. Même si certaines solutions
dominent le marché (MongoDB, Cassandra, Neo4j, etc.), le besoin est trop diversifié pour
qu’une seule solution puisse répondre à l’ensemble des besoins.

Du coté des interrogations d’une plateforme de Big Data, le (pseudo-)SQL tente de


s’imposer comme standard avec des solutions comme Hive, Drill ou bien Spark SQL.

Au final, le but est de permettre une exploration interactive des données et d’ouvrir la
plateforme à une population plus large que celle des programmeurs. Certaines architectures et
solutions permettent de résoudre des problèmes complexes mais cela a évidemment un coût
qui peut être rédhibitoire pour des problématiques plus simples.

9
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

En résumé, il faut choisir une architecture évolutive que l’on adaptera en fonction des
nouveaux besoins plutôt qu’une architecture complexe dès le départ.

HADOOP
Définition
Hadoop est un framework qui va permettre le traitement de données massives sur un
cluster, allant d’une à plusieurs centaines de machines. Hadoop est écrit en Java et a été créé
par Doug Cutting et Michael Cafarella en 2005 (après avoir créé le moteur de recherche
Lucene, Doug travaillait alors pour Yahoo sur son projet de crawler web Nutch).

Hadoop va gérer la distribution des données au cœur des machines du cluster, leurs
éventuelles défaillances, mais aussi l’agrégation du traitement final.

L’architecture est de type « Share nothing » : aucune donnée n’est traitée par deux nœuds
différents, même si les données sont réparties sur plusieurs nœuds (principe d’un nœud
primaire et de nœuds secondaires).

Hadoop est composé de quatre éléments :

 Hadoop Common : ensemble d’utilitaires utilisés par les autres briques Hadoop.
 Hadoop Distributed File System (HDFS) : un système de fichiers distribué pour le
stockage persistant des données.
 Hadoop YARN : un framework de gestion des ressources et de planification des
traitements.
 Hadoop MapReduce v2 : Un framework de traitements distribués basé sur YARN.

HDFS est un système de fichiers utilisé pour stocker des données structurées ou pas sur un
ensemble de serveurs. C’est un système distribué, extensible et portable développé par le
créateur d’Hadoop et inspiré du système développé par Google (Google FS).

Écrit en Java, il a été conçu pour stocker de très gros volumes de données sur un grand
nombre de machines équipées de disques durs standard. HDFS s’appuie sur le système de
fichier natif de l’OS pour présenter un système de stockage unifié reposant sur un ensemble
de disques et de systèmes de fichiers hétérogènes.

MapReduce est un framework de traitements parallélisés, créé par Google pour son
moteur de recherche Web. Ce framework permet de décomposer des requêtes importantes en
un ensemble de requêtes plus petites qui vont produire chacune un sous-ensemble du résultat

10
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

final : c’est la fonction Map. L’ensemble des résultats est traité (par agrégation et/ou filtrage):
c’est la fonction Reduce. MapReduce est idéal pour les traitements batchs, mais il n’est pas
itératif par défaut.

Un cas d’utilisation très répandu d’Hadoop actuellement est le “Data Lake”.

Figure 2: Data Lake


Synthèse
Les points forts d’Hadoop sont :

 Distribution des traitements au plus près de la donnée (parallélisassions).


 Reprise automatique sur erreur.
 Coût de stockage très concurrentiel.
 Écosystème très important.

Ses inconvénients sont :

11
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

 Performance (par rapport à des bases NoSQL, à des grilles de données, etc.).
 Fait principalement pour traiter de très gros volume de données.

Plates-formes de traitement distribué et émergence


d’Apache Hadoop

Hadoop est en train de se positionner comme étant la meilleure approche émergente pour
l’analyse de Big Data. Développé dans le prolongement du projet open-source de recherche
Web Apache Nutch, Hadoop est une plate-forme logicielle qui fournit un modèle de
programmation simple afin de permettre le traitement distribué de grandes quantités de
données sur des clusters d’ordinateurs.
Il comprend un système de fichiers distribué, une plate-forme de traitement parallèle
appelée Apache Hadoop MapReduce, et plusieurs composants prenant en charge l’importation
des données, la coordination des flux de travail, la gestion des tâches, et le contrôle du cluster.
Hadoop est un moyen plus économique que les approches traditionnelles pour traiter de
grands ensembles de données non structurées.

Figure 3: Principaux composants d’APACHE HADOOP

12
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

AVANTAGES D’ HADOOP

Hadoop offre plusieurs avantages clés pour l’analyse de Big Data :


 Stocker tout type de données dans leur format natif. Les données ne nécessitant pas de
traduction vers un schéma spécifique, aucune information n’est perdue.
 Adaptabilité au Big Data. Hadoop a déjà fait ses preuves en termes d’adaptabilité via des
sociétés comme Facebook et Yahoo!, qui gèrent des implémentations gigantesques.
 Offrir de nouvelles perspectives. L’analyse de Big Data révèle des interactions cachées
qu’il serait difficile, long et coûteux voire impossible de résoudre en utilisant des approches
traditionnelles de data mining.
 Réduire les coûts. Le logiciel open-source Hadoop fonctionne sur des serveurs standards
et a un coût par téraoctet inférieur pour le stockage et le traitement. Le stockage peut être
ajouté progressivement en fonction des besoins, et le matériel peut être ajouté ou échangé
au sein ou hors d’un cluster.
 Une plus grande disponibilité. Hadoop se remet des erreurs matérielles, logicielles et du
système en offrant une tolérance aux pannes grâce à la réplication des données et au
basculement entre les nœuds de calcul.
 Diminution du risque. La communauté Hadoop est active et diversifiée, avec des
développeurs et des utilisateurs issus de nombreux secteurs à travers le monde. Hadoop est
une technologie qui va continuer à se développer
Deux approches de l’utilisation du logiciel Hadoop pour l’analyse de Big Data

13
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Les entreprises utilisent deux approches de base pour la mise en place de Hadoop.
 Déploiements Hadoop seul
Les déploiements Hadoop sont disponibles sous forme de logiciel open-source
téléchargeable gratuitement depuis Apache ou en tant que distributions via des éditeurs qui
accompagnent la plate-forme Hadoop de certains éléments et logiciels de gestion pour
assister l’administration du système.
Les déploiements Hadoop seul sont parfaitement adaptés à la construction d’une plate-
forme de gestion des données pour l’analyse et l’exploitation de données non structurées. Les
outils open-source permettent également d’interroger des données structurées à l’aide des
applications MapReduce, HBase, ou Hive.
 Hadoop intégré aux bases de données traditionnelles
Les entreprises disposant déjà d’entrepôts de données et de systèmes d’analyse
traditionnels peuvent étendre leur plate-forme existante pour inclure une mise en place
intégrée d’Hadoop. Le raccordement des ressources de gestion des données existantes au
logiciel Hadoop offre la possibilité d’exploiter les données structurées et non structurées pour
en tirer des informations.
Par exemple, l’analyse des transcriptions complexes de centre d’appels peut être associée à
des données structurées sur le comportement d’achat, tels que des références, points de vente
ou zones géographiques spécifiques, et ainsi de suite. Dans ce cas, des connecteurs
propriétaires sont utilisés pour déplacer les données entre Hadoop et les environnements
traditionnels.

SECTION 4 : LES ARCHITECTURES BIG DATA

ARCHITECTURE HADOOP
Confère section 3

ARCHITECTURE LAMBDA

Définition
L’architecture Lambda a été imaginée par Nathan Marz et James Warren, afin de résoudre
des problématiques complexes mélangeant temps réel et batchs. L’architecture Lambda
permet de stocker et de traiter de larges volumes de données (batch) tout en intégrant dans les

14
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

résultats des batchs les données les plus récentes. Cette approche permet de conserver les
principes du Big Data, tels que la scalabilité, la tolérance aux pannes, etc.

Une architecture Lambda est composée de trois couches:

 Couche batch (Batch Layer) :


 Stockage de l’ensemble des données.
 Traitements massifs et réguliers afin de produire des vues consultables par les
utilisateurs.
 La fréquence des traitements ne doit pas être trop importante afin de minimiser les
tâches de fusion des résultats et de constituer les vues.
 Couche temps réel (Speed Layer) :
 Ne traite que les données récentes (flux).
 Calcul des vues incrémentales qui vont compléter les vues batch afin de fournir des
résultats plus récents.
 Suppression des vues temps réel obsolètes (postérieures à un traitement batch)
 Couche de service (Serving Layer) :
 Permet de stocker et d’exposer aux clients les vues créées par les couches batch et
temps réel.
 Aussi capable de calculer dynamiquement ces vues.
 N’importe quelle base NoSQL peut convenir.
 L’architecture Lambda est générique mais complexe dans le nombre de composants
mis en œuvre.
 Il n’y a pas de solutions dédiées à cette architecture, mais une multitude :
 Stockage : NoSQL surtout mais aussi JMS, Kafka, HDFS.
 Couche Batch : Hadoop MapReduce, Spark, Flink, etc.
 Couche Temps réel : Storm, Spark, Flink, Samza, Tez, etc.
 Couche de service : Druid, Cassandra, Hive, HBase, ElasticSearch, etc.
 Il existe toutefois des projets complets implémentant une architecture Lambda :
 Générique : Twitter Summingbird (https://github.com/twitter/summingbird).
 Dédiée au machine learning : Cloudera Oryx 2 (http://oryx.io/).

15
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Figure : Architecture LAMBDA

Synthèse
Les points forts de l’architecture Lambda sont :

On conserve les données brutes afin de pouvoir les retraiter au besoin.

La vision fournie aux clients est la plus fraîche possible.

Solution à tout faire.

Indépendant des technologies.

Ses inconvénients sont :

La logique métier est implémentée deux fois (dans la filière temps réel et dans la filière batch).

Plus de frameworks à maîtriser.

Il faut deux sources différentes des mêmes données (fichiers, web services).

Il existe des solutions plus simples lorsque le besoin est moins complexe. L’évolutivité des solutions
Big Data permettra dans la plupart des cas de migrer vers une architecture Lambda lorsque le besoin
l’exigera.

L’architecture Lambda est utilisée par des entreprises comme Metamarkets ou Yahoo.

ARCHITECTURE KAPPA

L’idée de l’architecture Kappa a été formulée par Jay Kreps (LinkedIn) dans
cet article. L’architecture Kappa est née en réaction à l’architecture Lambda et à sa complexité. Elle

16
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

est née d’un constat simple : la plupart des solutions de traitement sont capables de traiter à la fois
des batchs et des flux.

L’architecture Kappa permet donc de simplifier l’architecture Lambda en fusionnant les couches
temps réel et batch. Elle apporte une autre évolution par rapport à l’architecture Lambda : le
système de stockage des données est plus restreint et doit être un système de fichiers de type log et
non modifiable (tel que Kafka).

Kafka ou un autre système permet de conserver les messages pendant un certain temps afin de
pouvoir les retraiter. De fait, et encore plus que l’architecture Lambda, l’architecture Kappa ne
permet pas le stockage permanent des données. Elle est plus dédiée à leur traitement.

Quoique plus restreinte, l’architecture Kappa laisse une certaine liberté dans le choix des composants
mis en œuvre :

Stockage : Kafka, etc.

Traitements : Storm, Spark, Flink, Samza, Tez, etc.

Couche de service : Druid, Cassandra, Hive, HBase, ElasticSearch, etc.

Figure : Architecture KAPPA

Synthèse
Les points forts de l’architecture Kappa sont :

Solution à tout faire.

17
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Indépendant des technologies.

Plus simple que l’architecture Lambda.

Les inconvénients de cette architecture sont :

Pas de séparation entre les besoins

L’architecture Kappa est utilisée par des entreprises comme Linkedin.

ARCHITECTURE SMACK

L’architecture SMACK (pour Spark-Mesos-Akka-Cassandra-Kafka) est assez différente


des architectures Lambda ou Kappa, puisqu’elle est composée d’une liste de solutions plutôt
que sur des principes et pattern. Toutefois chacune des solutions est dédié à une tâche
particulière. Il est tout à fait possible d’implémenter une architecture Lambda ou Kappa avec
ces solutions, mais aussi d’adopter une architecture plus simple.

Choix de solutions matures, répondant aux exigences du Big Data :

Spark : Framework de traitement des données (batch et streaming).

Mesos : Gestion des ressources du cluster (CPU/RAM), haute disponibilité grâce à


Zookeeper.

Akka : Implémentation du paradigme acteurs pour la JVM (ingestion des données dans
Kafka).

Cassandra : Solution NoSQL (Stockage des données brutes, mais aussi pour l’analyse des
données).

Kafka : Stockage des événements (les événements de mise à jour sont stockés dans Kafka
afin d’assurer leur persistance).

Kafka est parfois remplacé par Kinesis sur le cloud (Amazon AWS). Certaines de ces
solutions sont officiellement supportées par Mesos (Spark, Kafka). Par contre l’intégration de
Cassandra nécessite de s’appuyer sur des projets tiers comme ceux de Mesosphere
(http://mesosphere.github.io/cassandra-mesos/)

18
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Exemple d’implémentation de l’architecture SMACK.

Synthèse
Les points forts de l’architecture SMACK sont :
Un minimum de solutions capable de traiter un très grand nombre de problématiques.
Basée sur des solutions matures du Big Data.
Scalabilité des solutions.
Solution de gestion unique (Mesos).
Compatible batchs, temps réel, Lambda, etc.
Ses inconvénients sont :
Intégration de nouveaux besoins et donc de nouveaux frameworks.
Architecture complexe.
L’architecture SMACK est utilisé par des entreprises comme TupleJump ou ING.

SECTION 5 : CONSTATS ET OPPORTUNITES DU BIG


DATA
Plusieurs sondages sur le Big Data permettent d’en savoir un peu plus sur les éléments qui
empêchent certaines entreprises de franchir le pas (cf. http://www.zdnet.fr/actualites/big-data-
qu-est-ce-qui-bloque-encore-les-entreprises-39821966.htm).

19
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Parmi les points cités, on trouve :


- Coût.
- Manque de compétences.
- Manque de visualisation des opportunités.
- Les entreprises n’ont pas cherché à quantifier le ROI des investissements Big Data (les
investissements ne sont pas pondérés par les gains attendus).
- La collecte de la donnée est limitée aux canaux traditionnels.
- Les données sont non structurées (et on ne sait pas les traiter).

À l’inverse, voici les gains potentiels pour les entreprises qui utilisent le Big Data.
Les plus matures en matière d’exploitation des données (clients, métiers, externes, etc.) se
distinguent par les critères suivants :
- Anticipation des enjeux stratégiques liés à une meilleure utilisation des données internes et
externes.
- Diversité des données collectées et des canaux de collecte.
- Constitution d’équipes de data scientists et autres experts data.
- Adoption de nouvelles technologies d’exploitation de la data.
- Meilleure prise en compte des enjeux de protection de la vie privée et des données à
caractère personnel dans l’exploitation des données clients.

L’étude suivante montre les gains constatés par les entreprises ayant mis en œuvre le Big
Data

20
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Source : http://barc-research.com/research/big-data-use-cases-2015/

Mise en œuvre
Le Big Data a vocation à traiter des problématiques métiers complexes. Il déplace le centre
d’intérêt des entreprises vers les données et la valeur qu’elles peuvent apporter à l’entreprise.
L’exploitation de la donnée est tout d’abord une dette :
- Coût de l’acquisition de données.
- Coût matériel et logiciel.
- Coût humain (recrutement, montée en compétences).
Ce n’est qu’une fois ce cap franchi que le retour sur investissement devient possible. C’est
pourquoi il faut commencer par de petits projets, (et donc limiter les investissements) pour
ensuite réfléchir à des problématiques de généralisation (offre de service) à tout un système

21
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

d’information. Plus globalement, il faut passer d’une entreprise pilotée par les projets à une
entreprise pilotée par les données.
Traitements
Il y a trois grandes familles de traitement dans le Big Data :
- Batch,
- Micro-batch,
- Temps réel (streaming).
Batchs
Les traitements vont analyser l’ensemble des données disponibles à un instant T.
Données en entrée : fichiers, résultat d’une requête (HDFS, Sqoop, etc.).
Résultats : les résultats ne seront disponibles qu’à la fin des traitements.
Latence : souvent de l’ordre de la minute, voire dans certains cas de l’heure.
Exemple d’implémentation : MapReduce.

Micro-batchs
Les traitements vont analyser l’ensemble des données disponibles toutes les n-secondes.

22
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Données en entrée : petits fichiers, données Web, etc.


Résultats : les résultats ne seront disponibles qu’à la fin des traitements d’un micro-batch.
Latence : souvent de l’ordre de la seconde.
Exemple d’implémentation : Spark streaming.

Figure : Architecture BATCH INCREMENTALE

Temps réel
Les traitements vont analyser les données au fur et à mesure de leur disponibilité.
Données en entrée : stream Web, messages provenant d’un bus, flux de logs, etc.
Résultats : les résultats sont disponibles au fur et à mesure.
Latence : parfois inférieure à la seconde.
Exemple d’implémentation : Flink, Tez, Storm.

23
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Figure : Architecture temps reel

Catégories
Catégories des solutions Big Data :
 Ingestion/Extraction de données,
 Traitement de données,
 Analyse/Apprentissage,
 Data visualisation,
 Requête/Interrogation,
 Workflow,
 Stockage,
 Ordonnancement,
 Sécurité,
 Gouvernance,
 Messages.

24
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

Figure : Illustration des catégories des solutions

CONCLUSION
Les architectures Big Data se multiplient. Même si elles se veulent génériques et évolutives,
toutes ne seront pas adaptées aux besoins des utilisateurs.

REFERENCE BIBLIOGRAPHIQUES ET WEBOGRAPHIQUES

Wikipedia : définition du big data


http://barc-research.com/research/big-data-use-cases-2015/
(http://mesosphere.github.io/cassandra-mesos/)

25
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala
LE BIG DATA

26
Par MBOLO MESSOMO Kévin Lionel et MBALLA ONOMO Jacqueline, étudiants en licence professionnelle télécoms et
réseaux à l’ISTIC de Meyomessala

Vous aimerez peut-être aussi