Académique Documents
Professionnel Documents
Culture Documents
Steffenel
MA0979 Sries
Temporelles
Cours 1 Introduction au BigData
M2 SEP
MA0979
u Objectifs de ce cours
u Non-objectifs de ce cours
u Organisation
u Matriel de lecture
M2 SEP
MA0979
u 3 sances de 2h
u N'hsitez pas interrompre, poser des questions et demander plus
de dtails
u Surtout, on peut faire voluer les cours !
M2 SEP
MA0979
u Les grands acteurs (Google, Facebook, Yahoo, Amazon, ...) ont dvelopp des
outils pour stocker et explorer ces donnes
u Framework Hadoop
u Bases de donnes NoSQL
M2 SEP
MA0979
~116 jours
M2 SEP
MA0979
u Volume (Volume)
u Volumes de donnes croissants de tous types, qui se comptent en
traoctets ou mme en ptaoctets
u Varit (Variety)
u Grer la complexit de plusieurs types de donnes et de schmas
structurs ou non structurs
u texte, donnes de capteurs, son, vido, logs, ...
u Vitesse (Velocity)
u Parfois, les donnes doivent tre saisies et traites au fur et mesure de
leur collection
M2 SEP
MA0979
Google : 25 ptaoctets/jour
1.3 exaoctets sur mobiles
Youtube : 20h uploads/min
...
VOLUME
VARIETE VITESSE
Mdias sociaux
Internet des Objets 2.9 M emails/sec
Documents non structurs Amazon:72,9 achats/s
Vidos et voix 50M tweets/jour
... ...
M2 SEP
MA0979
u Trackeur dactivit
u Positionnement GPS avec le Tlphone
(+ pression, temprature, luminosit)
u Domotique
M2 SEP
MA0979
u Vracit (Veracity)
u La qualit et la prcision des donnes sont aussi importantes
u Comment se trouver dans un dluge de hashtags ?
u Comment grer les donnes partielles ou incompltes ?
u Valeur (Value)
u La valeur ajoute des donnes ou des informations extraites
u Sans une relle valeur, ce nest quun gaspillage de ressources
M2 SEP
MA0979
Ce qui change dans le cycle de dveloppement L.A. Steffenel
u Besoins bien compris et bien cadrs Le responsable mtier dfinit les besoins :
Quelles questions doit-on poser?
4 2
De nouvelles exigences
ncessitent une IT conoit une
nouvelle conception et solution avec un
construction ensemble de
structures et
fonctionnalits
3
Le responsable mtier excute
les requtes pour rpondre aux
questions encore et encore
M2 SEP
MA0979
Ce qui change dans le cycle de dveloppement L.A. Steffenel
u Approche
Approche Big
Big Data les Data
donnes sont l, il faut les explorer
12
u Les sources guident la dcouverte
Les sources dinformation guident
1 la dcouverte crative
Le responsable mtier et IT
identifient les sources de
donnes disponibles
4
2
IT fournit une
plateforme qui
De nouvelles ides permet une
conduisent exploration
lintgration de crative de toutes
technologies les donnes
traditionnelles disponibles
3
Map-Reduce : Exemple 15
u Patron darchitecture de dveloppement permettant de traiter des donnes
volumineuses de manire parallle et distribue
!
u Dean et al., 2004 Livre
Imaginons que vous ayez plusieurs
! Grand tes!
en
des V
magasins que vous grez travers le
u Au lieu de parcourir le fichier squentiellement,
monde
il est divise en
morceaux qui sont parcourus en parallle
! Un trs grand livre de comptes
contenant TOUTES les ventes
u Exemple
!Objectif : Calculer le total des ventes
u Vous ayez plusieurs magasins que vous magasinpour
par grez travers
lanneleenmonde
cours
! Supposons que les lignes du livres aient
u Un trs grand livre de comptes contient TOUTES
la forme les ventes
suivante: 2012-01-01 London Clothes 25.99
2012-01-01 Miami Music 12.15
o Jour Ville pour
produit 2012-01-02 NYC Toys 3.10
u Objectif : Calculer le total des ventes par magasin lanne Prix
en cours 2012-01-02 Miami Clothes 50.00
u Possibilit :
Map-Reduce : Exemple
u Pour chaque entre, saisir la ville et le prix de vente 16
u Si on trouve une entre avec une ville dj saisie, on les regroupe en
faisant la somme des ventes re !
Liv
Grand ntes!
V e
des
u Dans un environnement traditionnel, on fera des Hashtable sous la forme
! Possibilit :
<cl-valeur>
o Pour chaque entre, saisir la ville et le
emple o
prixudeDans
16
ventece cas, la cl sera ladresse du magasin et la valeur le total de ventes
Si on trouve une entre avec une ville
2012-01-01 London Clothes 25.99
dj saisie, on les regroupe en faisant
2012-01-01 Miami Music 12.15
la somme des ventes
2012-01-02 NYC Toys 3.10
! Dans un environnement Livre de calcul
! 2012-01-02 Miami Clothes 50.00
Grand ntes!
traditionnel, on utilise
des V gnralement
e
et le Clef Valeur
! Dans notre cas, la clef serait ladresse London 25.99 London 25.99
du magasin, et la valeur le total des Miami 12.15 Miami 62.15
e ville
ventes. 2012-01-01 London NYC
Clothes 25.99 3.10 NYC 3.10
isant
Map-Reduce : Exemple
M2 SEP
MA0979
Mthode traditionnelle
!
! Si on utilise les hashtables sur 1To, Livre
Grand ntes!
e
L.A. Steffenel
Problmes ? des V
Map-Reduce : Exemple
a ne marchera pas ?
Problme
Si on utilise les hashtables
u
$
de mmoire
sur 1To,
$ ?
quels sont les problmes ?
17
Temps de traitement long ?
$
q a ne marchera pas ? 2012-01-01 London Clothes 25.99
$ Rponses errones ?
! 2012-01-01 Miami Music 12.15
Si on utiliseqles hashtables
Problme sur 1To,
de mmoire ? Livre
Grand ntes!
! Le traitement squentiel de toutes
des V
e les 2012-01-02 NYC Toys 3.10
Problmes ? donnes peut savrer trs long
q Temps de traitement long ? 2012-01-02 Miami Clothes 50.00
$ a ne marchera pas ?
! Plus
q Rponses errones ? on a de magasins, plus lajout des
Problme de mmoire ? valeurs la table est long
$
u Le traitement squentiel peut savrer long
$ ! Il?est possible de tomber court de
Temps de traitement long
mmoire
u Plus on a de magasins, plus pour enregistrer
lajout cette
des valeurs table
la table estLondon
2012-01-01 long Clothes Clef
25.99 Valeur
$ Rponses errones ?
! Mais cela peut marcher, et le 2012-01-01
rsultat Miami Music 12.15
London 25.99
u Il est possible de
Le traitement squentiel de tomber
toutes court
les de mmoire pour enregistrer
2012-01-02 NYC Toys 3.10
sera correct Miami 62.15
donnes cette
peut table
savrer trs long 2012-01-02 Miami Clothes 50.00
NYC 3.10
Plus onua Mais cela peut marcher,
de magasins, et le
plus lajout desrsultat sera correct
valeurs la table est long
Il est possible de tomber court de
mmoire pour enregistrer cette table Clef Valeur
Mais cela peut marcher, et le rsultat London 25.99
sera correct Miami 62.15
M2 SEP
MA0979
Map-Reduce
Map-Reduce : Exemple 18
L.A. Steffenel
Map-Reduce : Exemple
! Map-Reduce : Moyen plus efficace et
u Au lieu davoir une seule personne qui parcourt le livre, si on en recrutait
rapide de traiter ces donnes
plusieurs?
18
u ! Au lieu
Appeler davoir
un premier une seule
groupe personne
les Mappers et qui
parcourt
un autre le livre, si on en recrutait
les Reducers Mappers
! Map-Reduce
plusieurs? : Moyen plus efficace et
u
rapidelede
Diviser livre en plusieurs
traiter parties, et en
ces donnes
! Appeler
donner un premier
une chaque Mappergroupe les
! Au lieu davoir
Mappers et une
un seuleles
autre personne qui
u Les Mappers peuvent travailler enReducers
mme temps,
parcourt le livre, si on en recrutait
chacun sur unelepartie
! Diviser desplusieurs
livre en donnes parties, et en
plusieurs?
donner une chaque Mapper
! Appeler un premier groupe les
o Les Mappers peuvent travailler en
Mappers et un autre les Reducers
mme temps, chacun sur une partie
! des
Diviser le donnes
livre en plusieurs parties, et en
donner une chaque Mapper
o Les Mappers peuvent travailler en
mme temps, chacun sur une partie Reducers
des donnes
M2 SEP
MA0979
Map-Reduce : Exemple
Map-Reduce L.A. 19
Steffenel
Mappers
u Mappers Mappers :
Pour chaque entre, saisir la ville, et le total
!
des ventes
u Pour chaque entre, saisiretla
lesville
enregistrer dansde
et le total une fiche dans
ventes
une fiche ! Rassembler les fiches du mme magasin dans
une mme pile
u RassemblerReducers
les fiches: dun mme magasin dans une pile N.Y.C. Miami N.Y.C. L. A. Miami N.Y.C
u Reducers ! Chaque Reducer sera responsable dun
L. A.
ensemble de magasins
u Chaque reducer sera responsable
! Ils collectent dun
les fiches qui ensemble de magasins
leur sont associes
des diffrents Mappers
u Collectent les fiches associes des diffrents mappers
Ils regroupent les petites piles dune mme
!
ville en
u Pour chaque ville, ils une seule les piles en ordre
parcourent N.Y.C
alphabtique Ils parcourent
! (Los ensuite
Angeles avant chaque
Miami) pile par
et font ordre
la somme Miami L. A.
alphabtique des villes (L.A avant Miami), et
des enregistrements N.Y.C
font la somme de lensemble des
enregistrements Miami L. A.
N.Y.C
Reducers $603.768
$300,578 $432.900
M2 SEP
MA0979
Map-Reduce : Exemple
Map-Reduce L.A. 19
Steffenel
Mappers
u Mappers
Un Reducer reoit des: donnes comme suit :
! Pour chaque entre, saisir la ville, et le total
u L.A 12.34 des ventes et les enregistrer dans une fiche
u L.A 99.07 ! Rassembler les fiches du mme magasin dans
une mme pile
u NYC 3.14 Reducers : N.Y.C. Miami N.Y.C. L. A. Miami N.Y.C
u NYC 99.77 ! Chaque Reducer sera responsable dun
ensemble de magasins L. A.
u NYC 88.99
! Ils collectent les fiches qui leur sont associes
u Pour chaque des diffrents
entre, de quoiMappers
avons-nous besoin pour calculer
la totalit des!ventes pour chaque
Ils regroupent magasin?
les petites piles dune mme
ville en une seule N.Y.C
q Cot prcdent
! Ils parcourent ensuite chaque pile par ordre
Miami L. A.
alphabtique des villes (L.A avant Miami), et N.Y.C
q Cot en coursfont la somme de lensemble des
enregistrements Miami L. A.
q Ventes totales par magasin N.Y.C
Reducers $603.768
q Magasin prcdent $300,578 $432.900
q Magasin en cours
M2 SEP
MA0979
u Il est possible dajouter des machines votre cluster au fur et mesure que
les donnes augmentent
M2 SEP
MA0979
NN
HDFS
Big Data Donnes Utiles
DN
DN
Donnes Utiles
DN
DN
DN
DN
! Impala :
u Impala :
Extraction des donnes directement
o
u Extraction des donnes partir de HDFS avec SQL Pig Hive Sqoop
o Optimis pour les requtes faible
u Optimise pour les requtes faible latence
latence
Flume
u Requtes plus rapides
o que Hive plus rapides que Hive
Requtes M-R Impala HBase
! HBase :
u HBase :
u
o
Base de donnes temps rel
Base de donnes temps rl HDFS
M2 SEP
Ecosystme de Hadoop 6
MA0979
u Flume : Flume :
! Flume
u Systme distribue permettant de collecter,
o Systme regrouperde
distribu permettant
M-R Impala HBase
collecter, regrouper
et dplacer efficacement un ensemble de donnes et dplacer
efficacement un ensemble de
(des logs) partir de plusieurs sources
(desvers
logs)le HDFSde
donnes partir
plusieurs sources vers le HDFS
HDFS
M2 SEP
MA0979
Ecosystme de Hadoop 7
Ecosystme Hadoop L.A. Steffenel
! Hue :
u Hue : Front-end graphique pour le cluster o Fournit
Front-end graphique pour le cluster
Oozie
o
Fournit Hue
u Un navigateur pour HDFS et HBase
o
u http://cosy.univ-reims.fr/~lsteffenel/cours/Master2/INFO0939-
BigData/vm4learning.ova