Vous êtes sur la page 1sur 17

1ab|es kondes

Le 8|g Data

2012 - 2013
1
|an
Introducnon

1 - rsentanon Ingens|
2 - Le 8|g Data c'est quo| ?
3 - L'h|sto|re
4 - Le monde du ||bre : nadoop
S - Le systme nDIS
6 - Les a|gor|thmes d|str|bus : Map keduce
7 - nbase : La base NoSL




2012 - 2013
2
Ingens|, team du groupe Cyrs
lngensl esL une dlvlslon du groupe Cyres speclallsee dans le
LralLemenL eL l'analyse Lemps reel de gros vo|umes de
donnes.
Ceue dlvlslon esL anlmee par ChrlsLophe Cerquelra (dlrecLeur
de pro[eLs) eL Culllaume olaerL (8esponsable 8&u).



Les 3 ples complemenLalres du Croupe C?8LS :

ArchlLecLures a la demande eL servlces
heberges dans le Cloud. Leader lranals
de la messagerle Collaborauve Lxchange.

ConsulLanLs conrmes et experts de |a
data : u8A Cracle eL osLgreSCL, L1L-
LAl, Cul, 8uslness lnLelllgence

Agence de communlcauon dlglLale
speclallse dans les soluuons moblles eL
2.0


Cuelques experuses cles

Spc|a||ste en lnLegrauon de donnees
avec des ouuls LAl/L1L/LL1 (Cul, 1alend, eLc.)
Infogrance de mllllers de compLes Lxchange/
SharepolnL
Mlse en place d'ouuls alLernaufs de reporung
eL de datav|zua|non comme 1ableau Soware
3 daLacenLers, d|spon|b|||t garanne 99,9
Securlsauon des donnees, cernhcanon CI-DSS
Leve| 1 vlsa & MasLercard pour nC8uA?
arLenarlaL DLLL - Ingens|

Comp|mentar|t : ore globale de servlces eL de
supporL auLour de la soluuon Cloudera (Padoop)
AcLeurs Ma[eur de la fournlLure d'lnfrasLrucLures
de machlnes PauLes erformances pour les
soluuons 8lg uaLa

3
1- Ingens|, notre v|s|on du 8|g Data
LancemenL du pro[eL lngensl en sepLembre 2009,
Creauon d'une equlpe 8&u (LaureaL !CLl-37 en 2011)

ConsLaL

ue plus en plus de dlmculLes a LralLer
les donnees eL canallser les ux enLranLs
Sauvegarde eL resuLuuon de l'lnformauon de plus
en plus complexes
CoL des soluuons edlLeurs crolssanL
(Cracle, Mlcroso, eLc.)
MaLurlLe des pure-players de l'lnLerneL
(Coogle, ?ahoo, lacebook, eLc.)
Cb[ecufs du pro[eL

SLrucLurer une ore de servlces eL de consells
auLour des 8lg uaLa eL de l'ecosysLeme Padoop
Mlse a dlsposluon d'une ore SaaS
pour le LralLemenL poncLuel eL/ou economlque
de grands volumes de donnees
Creauon d'un ple de compeLences
eL de formauons auLour Padoop



Sens|b|||sanon des acLeurs lnformauques aux
problemauques 8lg uaLa eL aux soluuons
adapLees

8eallsauon de roof Cf Concept eL de
maqueue

uenluon des archlLecLures Lechnlques/
foncuonnelles

lormauons eL support (Cloudera)
AdmlnlsLrauon eL opumlsauon d'un clusLer
Padoop
Soluuons : MahouL (Analyse),Plve (8l),P8ase
(noSCL)
La k&D, au cmur de |'ore
arLenarlaL avec l'unlverslLe de 1ours
Mlse en place d'une Lhese
volonLe de creer un ple franals
conLrlbuLeur des soluuons Padoop
ro[eL Luropeen pour consLrulre un ClusLer
de 1600 Cores
4
Cre de serv|ces Ingens|
Cuelques chlres

1,8 zeuaoctets en 2011
so|t une p||e de b|u-ray qu| fera|t 7 fo|s |e tour de |a 1erre
1


60 de cro|ssance]an
des vo|umes d'|nformanons
S pour |es budgets |nformanques
2

Un 8oe|ng produ|t 20 1o]heure
de donnes
2


2S0 m||||ards d'ema||s
envoys par [our (80 de spam)
3

72h de v|dos dposes par m|nute
sur outube

de |'|nformanon
est non-exp|o|te
4
de |'|nformanon
est non-structure
4

!"#
%&'( )*"" +
!)#
,-./01.( )*"" +
!2#
3-456-7 ,.89:( )**; +
!<#
=8..1>/1.( )*"" ?&@A9/ 4B901 089C1DD1 E.1


Les sysLemes acLuels sonL lncapables de gerer de Lelles quanuLes :

80
9S
3
2 - 8|g Data, so|unon au data d|uge ?
2 - 8|g Data, prparer et annc|per
Les soluuons acLuelles repondenL mal (pas) aux problemauques
llees, avec un 1CC eleve (LxadaLa d'Cracle, neLezza d'l8M, eLc.)

Les appllcauons dolvenL changer

ulmenslonnees a l'echelle de la planeLe
llux de donnees complexes, muluples eL
en Lemps reel
AglllLe a Lous les nlveaux : analyse, sLockage,
resuLuuon
our

urer proL de ses donnees mals egalemenL
de celles qul sonL a porLee de maln,
repondre a des besolns qul pour le momenL
n'eLalenL pas adressables

. eL LouL a en temps re|
6
2 - 8|g Data, tro|s V
Les soluuons mlses en ouvre dolvenL repondre aux 3 V dans leur globallLe


Vo|ume

SaLurauon des sysLemes acLuels avec Lou[ours plus de donnees

V|oc|t

Cuel delal pour prendre une declslon a parur de l'lnformauon
collecLee ?

Var|t

lnLegrer une muluLude de formaLs dlerenLs provenanL
d'une muluLude de sources de donnees

8lC uA1A
7
3 - L'h|sto|re : |e 8|g Data, Goog|e : Le systme de hch|er GIS
!"#$ &'"()*$ &"+ ,+-*. /$0+-1&&0+' 2#*33* &"3#4"+ 5"#$ /""63* 7
8431&04"+ -9#+ :/;<= 7
! !$">3?@* -* -1&'$1>#4"+ -*& -"++A*&
! 5$">3?@* -# +"@>$* -9#431&0'*#$&
! 5$">3?@* -* B1'*&&* -# @"'*#$ -* $*(C*$(C*

lnvenuon d'un nouveau sysLeme roprleLalre : ClS ( Coogle llle SysLeme
en 2003)



8
3 - Lhistoire : le Big Data, Google : Le systme de fichier GFS
3 - L'h|sto|re : |e 8|g Data, Comment exp|o|ter ce systme de hch|er ?
D0 +"4"+ -* ;16 <0'0 *&' 1+4@*@*+' 31A E 30 (050(1'A -* '$01'*@*+'& -* 6$"&
F"3#@*& ! 8+ +"#F*3 G36"$1'C@* 0 A'A @1& 0# 5"1+'HI

Le premler Arucle a eLe publle en 2004 : Jeffrey Dean and Sanjay Ghemawat

J05=*-#(* K :1@531L*- <0'0 !$"(*&&1+6 "+ D0$6* M3#&'*$&

C'esL un algorlLhme lnvenLe par Coogle, lnc an de dlsLrlbuer des
LralLemenLs sur un ensemble de machlnes avec le sysLeme ClS

Coogle possede au[ourd'hul plus de 1 000 0000 de serveurs lnLerconnecLes
dans le monde



10
3 - L'h|sto|re : |e 8|g Data, Goog|e et |es autres
11
! Contr|buteur de |'|mp|mentanon L|bre ( Dugg kemng)



! Les pures p|ayers de |'|nternet ont cho|s| d'un||ser ces
a|gos d|str|bus. ( nDIS et MAkLDUCL)


- =-61A88F
- GH5I1.
- J50F14%0
- ?K

12
Le monde du L|bre : nadoop

4 - 8|g Data, so|unon Apache nadoop
Padoop
ro[et |n|n par les pure-players de l'lnLerneL
(?ahoo, lacebook, 1wluer) ds 2008
lnsplre des Lravaux de Coogle
Llbre, fondanon Apache
Lnr|ch|t chaque [our par de nombreuses socleLes
dedlees : Cloudera, PorLonworks, eLc.
2 concepLs cles
nDIS : SLockage conom|que et extens|b|e, pour de
grandes quanuLes d'lnformauon beneclanL d'une haute
to|rance aux pannes
Mapkeduce : AlgorlLhme de LralLemenLs paralleles eL
dlsLrlbues des donnees.

LcosysLeme rlche
Mahout : machlne-learnlng (daLamlng, clusLerlng)
n8ase : base de donnees Lemps-reel noSCL
n|ve : LralLemenL baLch analyuque 8l
3 d|teurs (Cloudera, PorLonworks, Map8)


13
S - nDIS, systme de hch|ers d|str|bus
Cb[ecufs eL prlnclpes

SLocker de grandes quanuLes d'lnformauon
a molndre coL un||sanon de serveurs courants
ldealemenL des chlers volumlneux
PauLe Lolerance aux pannes donne rp||que 3 fo|s
sur 3 serveurs gograph|quement d|stants
SLockage exLenslble a volonLe a[out chaud de
serveurs pour augmenLer les capac|ts de stockage et de
tra|tement de l'archlLecLure

1echnlquemenL

namenode : serveur maiLre. CarLographle des blocs de
donnees sur le clusLer. vlLal pour la plaLeforme
datanode : sLocker localemenL les blocs de donnees.
lnforme le namenode de son eLaL vla un bauemenL de
cour LouLes les secondes. osslblllLe de denlr sa
posluon geographlque (slLe de donnees, rack) pour que le
namenode conLrle au mleux les dlerenLs
emplacemenLs des blocs de donnees
14
nDIS
6 - Mapkeduce, a|gor|thme de tra|tement des donnes
rlnclpe
1ralLemenL dlvlse en Lche lesquelles
sonL LralLees en parallele : MA
SynLhese eL agregauon des LralLemenLs : kLDUCL
Les tra|tements sont eectus | o |a donne
est stocke (sur chaque serveur)
1echnlquemenL

Servlce [obtracker coordonne l'execuuon du
LralLemenL. uecoupe eL aecLe chaque Lche aux
LaskLracker.
Servlce tasktracker responsable de l'execuuon
de la Lche localemenL.
Sl une Lche echoue, le [obtracker la relance sur
un auLre serveur.


13
7- n8ase, base de donnes NoSL temps re|
ourquol ?

necesslLe d'un mode Lemps reel pour le
sysLeme Padoop.
Le mode baLch ne convlenL pas a LouLes les
appllcauons
ConcepLs cles

8ase de donnees noSCL en mode colonne
Cesuon des Lransacuons slmple
ueplolemenL a grande echelle sur un Lres grand
nombre de serveurs
aruuonnemenL auLomauque des Lables par
l'a[ouL de serveur (reglon server)
Modellsauon des donnees orlenLee recherche

usages

SLockage eL recherche de n'lmporLe quel Lype de
donnees (ul, phoLos, documenL word, eLc.).
uonnees accesslbles vla de nombreuses Al
SLockage denormallse des donnees
lnseruon eL recherche en Lemps reel vla une serle
de meLhode
8echerche Lres raplde (concepL ln memory )





16
17
INGLNSI
Groupe Cyrs
19 - 21 rue Ldouard valllanL
37000 1ours
1el : 02 47 68 48 30
contactQ|ngens|.com

Vous aimerez peut-être aussi