Vous êtes sur la page 1sur 11

avec nos solutions spcialises pour la microfinance

et ses institutions coopratives



Big Data
Historique de Big data
Jusqu lavnement dInternet et surtout du Web 2.0 il ny avait pas
tant de donnes traiter que a. Mais partir du moment o
chaque utilisateur a commenc produire du contenu, la courbe
dvolution du nombre de donnes sest transforme en courbe
exponentielle.
En ce 21
ime
sicle, lheure du tout numrique, dsormais toute
information a vocation tre donne et toute donne reprsente
potentiellement un facteur cl pour la russite dune organisation.
Le problme est le traitement dun dluge de donnes.
Plutt que de dplacer les donnes, dplaons le code.
Entre passer par le rseau 500 Go de donnes ou 40 Mo de code compil, un choix semble simposer de lui-mme.
Il faut trouver une interface simplifie la cration dapplications
massivement parallles.
Arrive Hadoop: un moteur dindexation distribu : un Framework
compos dun systme de fichier distribu sur lequel on excute des
traitements parallles appliquant Map/Reduce.

HADOOP : 4 concepts de base
1. La couche de stockage des donnes
2. La couche de traitement des donnes
3. Lordonnanceur
4. Les abstractions
Premier concept :
La couche de stockage des donnes
HDFS

Quest-ce quun systme de fichier ?
Un systme de fichiers (File system) est une abstraction pour stocker,
rcuprer ou mettre jour des donnes. Dans le cas dHDFS, la mise jour
nest pas autorise.
HDFS est distribu. Le fait quil soit distribu ne se peroit pas
durant lutilisation car on accde aux fichiers HDFS de manire
classique, autrement dit au travers dune arborescence classique
sous la forme dossier/sous_dossier/fichier.extension.
Comment HDFS retrouve linformation ?
HDFS dfinit deux types de nuds :
Le nud principal ou NameNode : il sagit dun nud qui a pour
fonction de rpertorier o sont stockes les donnes, sur quels
nuds prcisment.
Le nud de donnes ou DataNode : Ce nud est rserv pour le
stockage de la donne.
Deuxime Concept :
la couche de traitement des donnes
Map/Reduce
Paralllisme rcursif :
Il sagit de dcomposer le problme initial en sous-problmes plus simples, et ainsi de suite jusqu ce
que le sous-problme soit trivial (ex : oui ou non).
Le principe de base
Map/Reduce est une application de cette stratgie dite rcursive avec une particularit toutefois : on
stocke les rsultats dans une Map .

Prenons un exemple : Nous voulons compter le nombre de retrait caissier plus grand que 1 M FCFA la CIF.
Pour cela, nous avons les tables SAF CJ_MVMiento.

Solution :
Dans notre programme, nous voulons un affichage avec le type de transaction et le nombre de retrait >
1 M.
Ex : Nombre de retrait > 1M$ la CIF : 20 834
Explication :
La phase de mapping va gnrer, pour chaque ligne des tables CJ_MVMIENTO, le nom de la trx =
RETRAIT et le MNT > 1M (qui est notre cl) puis la valeur 1 (pour signaler quil y a une transaction)
dans un objet de type Map. Une mthode map traitera donc chacune des lignes, recevant comme input
la trx et le contenu correspondant.
La phase de reduce va rcuprer cet objet Map, puis faire la somme des valeurs trouves pour le
type de transaction
En quelque sorte, Map spcifie ce que nous voulons comme type de rsultats (ce qui permet de diviser
implicitement le travail) et Reduce rassemble tous ces rsultats intermdiaires pour composer le rsultat
final.

Troisime Concept :
lordonnanceur
Dans la pratique, la mise en uvre de ce que nous avons vu juste
avant suppose un ordonnanceur ou scheduler . En effet, la
cration/allocation de nouvelles tches, leur gestion, le fait de
synchroniser les processus entre eux, etc. ne se fait pas tout seul et
suppose la prsence dun moteur complet qui gre cela au sein
dHadoop.
Oozie est un ordonnanceur de flux de travail (workflow) pour la
gestion d'un graphe acyclique dirig dactions, o des actions
peuvent tre des jobs Map/Reduce mais aussi d'autres jobs
Hadoop est un excellent outil pour travailler sur le Volume, selon le
principe des 3V des big Data (Cf. Gartner Says Solving 'Big Data'
Challenge Involves More Than Just Managing Volumes of Data).
Pour dautres aspects comme la Vitesse, des technologies
comme Microsoft StreamInsight de traitement de flux haut dbit
ou Storm savrent mieux adapts.
Quatrime concept :
Les abstractions
Depuis larrive du projet principal Hadoop maturation, plusieurs outils se sont
construits sur le moteur dexcution pour simplifier le dveloppement dapplications.
En effet, Hadoop dans son package de base demande que le dveloppeur soit initi
au fonctionnement Map/Reduce et quil comprenne les bases de la programmation
fonctionnelle.
Hive
Hive est un logiciel d'analyse de donnes permettant d'utiliser Hadoop avec une
syntaxe proche du SQL appeleHiveQL et ce, via un mcanisme permettant de
dfinir un schma lors de la lecture des donnes. Il permet dexprimer des requtes
la SQL qui se compilent en un ensemble de programmes Map/Reduce optimiss, des
implmentations en Java du Mapper et du Reducer comme nous lavons fait. Il
propose pour cela un support pour la plupart des constructions auxquelles on peut
sattendre dans SQL (agrgation, regroupements, filtrage, etc.).
Pig
Pig possde lui aussi son propre langage (Pig Latin), mais son approche est
diffrente. Pour faire simple, il est plus facile dutiliser un langage dabstraction
proche du pseudo code pour se focaliser sur la smantique puis de laisser un
compilateur optimiser votre code pour une approche Map/Reduce.
Lavantage de Pig rside dans la simplicit de lexpression dune suite logique de
tches Map/Reduce sur les donnes :

Rsoudre le Challenge 'Big Data' implique plus que la
simple gestion des volumes de donnes

De nombreux responsables informatiques tentent de grer le
"big data" dfis en se concentrant sur les volumes d'information
l'exclusion des nombreux autres aspects de la gestion de
l'information, en laissant de grands dfis rsoudre plus tard.
Big data est un terme populaire utilis pour reconnatre la
croissance exponentielle, la disponibilit et l'utilisation des
informations contenues dans la banque de donnes riche
paysage de demain. Le terme big data met un accent
dmesur sur la question du volume de l'information
Les responsables informatiques doivent duquer leurs
homologues d'affaires sur les dfis tout en assurant un certain
degr de contrle et de coordination ainsi que la possibilit de
big data ne devienne chaos, ce qui peut augmenter les risques
de conformit, augmenter les cots et de crer encore plus de
silos .
Pas seulement le volume
Le volume d'information crot annuellement un taux minimum de 59% par an, et le
volume est un dfi important dans la gestion des Big Data. Les entreprises et les
responsables informatiques doivent se concentrer sur le volume de l'information, de la
varit et de la vlocit.
Volume: L'augmentation des volumes de donnes dans les systmes d'entreprise est
cause par des volumes de transactions et d'autres types de donnes traditionnelles, ainsi
que par de nouveaux types de donnes. Trop volume est un problme de stockage, mais
trop de donnes est aussi une question d'analyse massive.
Varit: Les responsables informatiques ont toujours eu un problme pour traduire de
grands volumes de donnes transactionnelles en dcision- maintenant il y a plusieurs
types d'informations analyser - provenant principalement de mdias sociaux et mobiles
(context-aware). Varit comprend des tableaux de donnes (bases de donnes), les
donnes hirarchiques, documents, e-mail, les donnes de mesure, vido, images fixes,
audio, donnes de stock ticker, les transactions financires et plus encore.
Velocit: Cela implique des flux de donnes, la cration de dossier structur, et la
disponibilit de l'accs et la livraison. Velocit signifie la fois la rapidit de donnes
produite et la vitesse laquelle les donnes doivent tre traites pour satisfaire la
demande.
Profiter du big data
Recherche de modles pour de meilleures dcisions
d'affaires.
La capacit grer les donnes extrmes sera une
comptence de base des entreprises qui sont de
plus en plus appeler utiliser de nouvelles formes
d'information - tels que le texte, contexte et le
social.
Il fournit ensuite la base de la modlisation de
nouvelles solutions d'affaires, ce qui permet
l'entreprise de s'adapter. Le modle peut alors tre
complt dans diffrents mdiums, tels que
l'analyse des rseaux sociaux ou des moteurs
informatiques sensibles au contexte..

avec nos solutions spcialises pour la microfinance
et ses institutions coopratives

www.did.qc.ca