Académique Documents
Professionnel Documents
Culture Documents
www.groupeastek.com
Modle : ASO-2007-M_PPT-0012 v2.1
Sommaire
www.groupeastek.com
Contexte actuel Dfinition du Big Data Lcosystme Hadoop Les intrts business du Big Data Un cas concret : Karma chez Air France Conclusion
Un dluge de donnes
YouTube reoit 24h de vido toutes les minutes 500 traoctets de donnes transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de tlphones mobiles en activit en 2012 Des pics de 22 commandes la seconde chez Spartoo pendant les soldes
www.groupeastek.com
90% des donnes cres dans le monde lont t au cours des 2 dernires annes
Modle : ASO-2007-M_PPT-0012 v2.1
Informations Client
CRM Dossiers mdicaux
Informations Produits
Codes barres RFID
Web
www.groupeastek.com
Le besoin
Systme qui peut grer de gros volumes de donnes Scalable Robuste Haute disponibilit Economique
www.groupeastek.com
Nouvelle approche
www.groupeastek.com
Le concept des 3 V
Volume
Les entreprises sont submerges de volumes de donnes croissants de tous types, qui se comptent en traoctets, voire en ptaoctets.
Vitesse
Parfois, 2 minutes c'est trop. Pour la dtection de fraudes par exemple, le Big Data doit tre utilis au fil de l'eau, mesure que les donnes sont collectes par lentreprise afin d'en tirer le maximum de valeur.
Valeur
www.groupeastek.com
Varit
Le Big Data se prsente sous la forme de donnes structures ou non structures (texte, donnes de capteurs, son, vido, fichiers journaux, etc.).
Modle : ASO-2007-M_PPT-0012 v2.1
Hadoop, kesako ?
Inspir de publications Google (2004)
Google Filesystem Google Map Reduce
www.groupeastek.com
Cr par Doug Cutting, salari chez Yahoo Framework Open Source crit en Java Gr sous l'gide de la fondation Apache Communaut trs active, dveloppement rapide Un primtre qui slargit constamment Orient batch
Lcosystme Hadoop
www.groupeastek.com
HDFS
Systme de fichiers distribu Traitement de volumes de donnes considrables Dcoupage des fichiers par blocs Fonctionne sur des serveurs low cost (au minimum 3) Fault Tolerant Scalable NameNode : gestion des mtadonnes DataNode : stockage des donnes
www.groupeastek.com
Map Reduce
Calcul distribu Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : excution des tches Map() et Reduce() sur chaque noeud
www.groupeastek.com
www.groupeastek.com
www.groupeastek.com
Paralllisation des traitements sur lensemble des nuds du HDFS grce Map Reduce
Modle : ASO-2007-M_PPT-0012 v2.1
Pig vs Hive
Objectif commun : sabstraire de la complexit de Map/Reduce
PIG Langage de script N chez Yahoo Flexible / simple ETL Mise en uvre UDF
www.groupeastek.com
Hbase et le NoSQL
Monte en puissance du mouvement NoSQL
Pour contourner les contraintes du modle relationnel Pas de jointures, trs flexible Forte scalabilit horizontale Une closion de diffrents paradigmes
HBase
Implmentation open source de Google BigTable Bas sur HDFS (non obligatoire) Base de donnes oriente colonnes En concurrence avec Cassandra
www.groupeastek.com
Flume
Collecte de logs Data streaming
www.groupeastek.com
Depuis Octobre 2012, support des bases de donnes NoSQL et connecteurs disponibles pour :
www.groupeastek.com
www.groupeastek.com
www.groupeastek.com
Conclusion
Un bol doxygne pour le traitement des donnes volumineuses et pour la BI en particulier Limites
Un cosystme voluant trs rapidement, ncessite encore du temps pour stabiliser les diffrents modules Si les volumes sont faibles (infrieur 10To), un SGBD classique suffira la plupart du temps
A suivre
www.groupeastek.com
Google Dremel / Cloudera Impala / Apache Drill Positionnement des diteurs traditionnels Google, futur acteur majeur de la BI ? Un nouveau mtier : Data Scientist
http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball)
Modle : ASO-2007-M_PPT-0012 v2.1
www.groupeastek.com
Algorithme MapReduce afin de sortir le nombre doccurrences des mots constituant le texte :
www.groupeastek.com
www.groupeastek.com