Vous êtes sur la page 1sur 26

Big Data, Kesako ?

Christophe Aran, Consultant dcisionnel

Rfrence : ASO-XXX Version : 1.0 Du : 06/11/2012

www.groupeastek.com
Modle : ASO-2007-M_PPT-0012 v2.1

Sommaire

www.groupeastek.com

Contexte actuel Dfinition du Big Data Lcosystme Hadoop Les intrts business du Big Data Un cas concret : Karma chez Air France Conclusion

Modle : ASO-2007-M_PPT-0012 v2.1

Un dluge de donnes
YouTube reoit 24h de vido toutes les minutes 500 traoctets de donnes transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de tlphones mobiles en activit en 2012 Des pics de 22 commandes la seconde chez Spartoo pendant les soldes
www.groupeastek.com

90% des donnes cres dans le monde lont t au cours des 2 dernires annes
Modle : ASO-2007-M_PPT-0012 v2.1

Et une collecte de donnes incessantes


Donnes commerciales
Transactions

Informations Client
CRM Dossiers mdicaux

Informations Produits
Codes barres RFID

Web
www.groupeastek.com

Pages Journaux daccs

Informations non structures


Rseaux sociaux GPS Mobile

Modle : ASO-2007-M_PPT-0012 v2.1

Les limites des SGBD actuels

Cot du stockage Scalabilit Performance Format des donnes Schmas figs


www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Le besoin

Systme qui peut grer de gros volumes de donnes Scalable Robuste Haute disponibilit Economique
www.groupeastek.com

Nouvelle approche

Modle : ASO-2007-M_PPT-0012 v2.1

Dfinition du Big Data


Le Big Data fait rfrence l'explosion du volume des donnes dans l'entreprise et des nouveaux moyens technologiques proposs par les diteurs pour y rpondre
Gartner

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Le concept des 3 V

Volume
Les entreprises sont submerges de volumes de donnes croissants de tous types, qui se comptent en traoctets, voire en ptaoctets.

Vitesse
Parfois, 2 minutes c'est trop. Pour la dtection de fraudes par exemple, le Big Data doit tre utilis au fil de l'eau, mesure que les donnes sont collectes par lentreprise afin d'en tirer le maximum de valeur.

Valeur
www.groupeastek.com

Varit
Le Big Data se prsente sous la forme de donnes structures ou non structures (texte, donnes de capteurs, son, vido, fichiers journaux, etc.).
Modle : ASO-2007-M_PPT-0012 v2.1

Hadoop, kesako ?
Inspir de publications Google (2004)
Google Filesystem Google Map Reduce

www.groupeastek.com

Cr par Doug Cutting, salari chez Yahoo Framework Open Source crit en Java Gr sous l'gide de la fondation Apache Communaut trs active, dveloppement rapide Un primtre qui slargit constamment Orient batch

Modle : ASO-2007-M_PPT-0012 v2.1

Lcosystme Hadoop

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

HDFS
Systme de fichiers distribu Traitement de volumes de donnes considrables Dcoupage des fichiers par blocs Fonctionne sur des serveurs low cost (au minimum 3) Fault Tolerant Scalable NameNode : gestion des mtadonnes DataNode : stockage des donnes

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Map Reduce
Calcul distribu Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : excution des tches Map() et Reduce() sur chaque noeud

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (1/2) : stockage dans le HDFS


Notre fichier sera rparti en un ensemble de blocs rpliqus dans les nuds du HDFS. La rplication des blocs est configurable, dans notre exemple elle est de 3.

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (2/2) : comptage des mots

www.groupeastek.com

Paralllisation des traitements sur lensemble des nuds du HDFS grce Map Reduce
Modle : ASO-2007-M_PPT-0012 v2.1

Pig vs Hive
Objectif commun : sabstraire de la complexit de Map/Reduce

PIG Langage de script N chez Yahoo Flexible / simple ETL Mise en uvre UDF
www.groupeastek.com

HIVE Pseudo-SQL N chez Facebook Rigide / Connu Interrogation JDBC / ODBC

Modle : ASO-2007-M_PPT-0012 v2.1

Hbase et le NoSQL
Monte en puissance du mouvement NoSQL
Pour contourner les contraintes du modle relationnel Pas de jointures, trs flexible Forte scalabilit horizontale Une closion de diffrents paradigmes

HBase
Implmentation open source de Google BigTable Bas sur HDFS (non obligatoire) Base de donnes oriente colonnes En concurrence avec Cassandra

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Exemple : modlisation dun fichier Achat


Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Cration dune table :


create achat, {NAME => acheteur}, {NAME => produit, {NAME => achat}

Insertion dune ligne :


put achat, 1, acheteur:nom, MARIE put achat, 1, acheteur:type, particulier

Suppression dune ligne :


delete 'achat', 1, 'achat:date deleteall 'achat', 1
www.groupeastek.com

Lecture dun enregistrement :


get 'achat', 1 get 'achat', 1, {COLUMN => 'produit:marque'}

Modle : ASO-2007-M_PPT-0012 v2.1

Et pour lintgration au SI existant


Sqoop
Import / Export de donnes Import automatique Prise en charge de nombreuses bases relationnelles

Flume
Collecte de logs Data streaming
www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

La solution Big Data de Talend


Lancement de Talend Open Studio for Big Data Simplification des dveloppements Big Data
Environnement de dveloppement graphique Connecteurs Big Data prts lemploi

Depuis Octobre 2012, support des bases de donnes NoSQL et connecteurs disponibles pour :
www.groupeastek.com

HBase Cassandra MongoDB

Modle : ASO-2007-M_PPT-0012 v2.1

Les intrts business du Big Data


Enfin un supercalculateur la disposition de tous De nouveaux horizons jusque-l inexplors
CRM : segmentation en exploitant les gots et sentiments des clients/prospects rcolts sur les rseaux sociaux Finance : contrle en temps rel des transactions frauduleuses ou risques RH : exploitation des donnes LinkedIn (par exemple) pour anticiper la volont de dpart dun collaborateur cl Logistique : optimisation des flux de transport en temps rel en fonction du trafic routier

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Un cas concret : Karma chez Air France


Karma : Revenue Management AF/KLM Composants Hadoop utilises
HDFS / Map Reduce / Sqoop / Pig Dveloppement en interne : scheduler + interface web

Mise en Production courant 2013 Quelques chiffres :


Un cluster de 90 serveurs pour dployer Hadoop 80 dveloppeurs Valbonne pour lcriture des jobs MR 130 jobs dj dvelopps, 400 dici 2 ans 7h de traitement batch quotidien pour lancer les jobs MR et mettre jour les bases Oracle 300 analystes Roissy pour analyser les donnes
Modle : ASO-2007-M_PPT-0012 v2.1

www.groupeastek.com

Conclusion
Un bol doxygne pour le traitement des donnes volumineuses et pour la BI en particulier Limites
Un cosystme voluant trs rapidement, ncessite encore du temps pour stabiliser les diffrents modules Si les volumes sont faibles (infrieur 10To), un SGBD classique suffira la plupart du temps

A suivre
www.groupeastek.com

Google Dremel / Cloudera Impala / Apache Drill Positionnement des diteurs traditionnels Google, futur acteur majeur de la BI ? Un nouveau mtier : Data Scientist

Modle : ASO-2007-M_PPT-0012 v2.1

Pour plus dinformations


http://hadoop.apache.org/ http://pig.apache.org/ http://hive.apache.org/
https://developers.google.com/bigquery/ http://code.google.com/edu/parallel/mapreducetutorial.html
www.groupeastek.com

http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball)
Modle : ASO-2007-M_PPT-0012 v2.1

Merci. Des questions ?

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Annexe 1 : un autre exemple Map Reduce


Jeu de donnes :

Algorithme MapReduce afin de sortir le nombre doccurrences des mots constituant le texte :

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Annexe 2 : une architecture BI transforme

www.groupeastek.com

Modle : ASO-2007-M_PPT-0012 v2.1

Vous aimerez peut-être aussi