Vous êtes sur la page 1sur 6

Benjamin Bengfort

Jenny Kim

Novatec
Authorized Portuguese translation of the English edition of Data Analytics with Hadoop, ISBN
9781491913703 2016 Benjamin Bengfort, Jenny Kim. This translation is published and sold by per-
mission of O'Reilly Media, Inc., the owner of all rights to publish and sell the same.

Traduo em portugus autorizada da edio em ingls da obra Data Analytics with Hadoop, ISBN
9781491913703 2016 Benjamin Bengfort, Jenny Kim. Esta traduo publicada e vendida com a
permisso da O'Reilly Media, Inc., detentora de todos os direitos para publicao e venda desta obra.

Novatec Editora Ltda. 2016.

Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/1998. proibida a reproduo desta
obra, mesmo parcial, por qualquer processo, sem prvia autorizao, por escrito, do autor e da Editora.

Editor: Rubens Prates PY20160831


Traduo: Lcia A. Kinoshita
Reviso gramatical: Smirna Cavalheiro
Editorao eletrnica: Carolina Kuwabata

ISBN: 978-85-7522-521-9

Histrico de impresses:
Setembro/2016 Primeira edio

Novatec Editora Ltda.


Rua Lus Antnio dos Santos 110
02460-000 So Paulo, SP Brasil
Tel.: +55 11 2959-6529
Email: novatec@novatec.com.br
Site: www.novatec.com.br
Twitter: twitter.com/novateceditora
Facebook: facebook.com/novatec
LinkedIn: linkedin.com/in/novatec
Sumrio

Prefcio................................................................................................................................... 9

Parte I Introduo computao distribuda...................................................... 21


Captulo 1 A era do produto de dados....................................................................................22
O que um produto de dados?.............................................................................. 23
Desenvolvendo produtos de dados em escala com o Hadoop.................................. 25
Tirando proveito de conjuntos grandes de dados.................................................26
Hadoop para produtos de dados.........................................................................27
O pipeline de cincia de dados e o ecossistema do Hadoop......................................29
Fluxos de trabalho para big data.........................................................................30
Concluso..............................................................................................................32

Captulo 2 Um sistema operacional para big data..................................................................33


Conceitos bsicos...................................................................................................34
Arquitetura do Hadoop..........................................................................................36
Um cluster Hadoop............................................................................................38
HDFS................................................................................................................41
YARN.............................................................................................................. 44
Trabalhando com um sistema de arquivos distribudo............................................ 44
Operaes bsicas no sistema de arquivos...........................................................45
Permisses de arquivos no HDFS.......................................................................48
Outras interfaces do HDFS................................................................................49
Trabalhando com computao distribuda..............................................................50
MapReduce: um modelo de programao funcional............................................51
MapReduce: implementado em um cluster..........................................................54
Alm de um mapeamento e uma reduo: encadeamento de jobs.........................62
Submetendo um job MapReduce ao YARN............................................................ 64
Concluso..............................................................................................................66

5
6 Analtica de dados com Hadoop

Captulo 3 Um framework para Python e Hadoop Streaming..................................................68


Hadoop Streaming.................................................................................................69
Processamento de dados CSV com o Streaming..................................................73
Executando jobs de Streaming............................................................................78
Um framework para MapReduce com Python.........................................................81
Contando bigramas...........................................................................................85
Outros frameworks............................................................................................89
MapReduce avanado............................................................................................91
Combinadores...................................................................................................91
Particionadores..................................................................................................92
Encadeamento de jobs........................................................................................93
Concluso..............................................................................................................98

Captulo 4 Processamento em memria com o Spark.............................................................99


Bsico sobre o Spark............................................................................................101
A pilha do Spark..............................................................................................103
Conjuntos de dados distribudos resilientes......................................................105
Programando com RDDs.................................................................................107
Spark interativo usando PySpark.......................................................................... 111
Escrevendo aplicaes Spark................................................................................ 114
Visualizando atrasos das companhias areas com o Spark................................. 116
Concluso............................................................................................................123

Captulo 5 Anlise distribuda e padres..............................................................................125


Processando com chaves......................................................................................127
Chaves compostas...........................................................................................129
Padres para espao de chaves..........................................................................133
Pares versus faixas............................................................................................139
Padres de projeto................................................................................................ 143
Sumarizao....................................................................................................144
Indexao........................................................................................................150
Filtragem.........................................................................................................159
Em direo analtica final..................................................................................167
Adequando um modelo....................................................................................168
Validando modelos..........................................................................................170
Concluso............................................................................................................172
Sumrio 7

Parte II Fluxos de trabalho e ferramentas para cincia de big data.....................174


Captulo 6 Minerao de dados e armazm de dados............................................................ 175
Consultas de dados estruturados com o Hive........................................................ 176
A interface de linha de comando (CLI) do Hive.................................................177
Hive Query Language (HQL)...........................................................................179
Anlise de dados com o Hive............................................................................185
HBase..................................................................................................................192
Bancos de dados NoSQL e orientados a colunas................................................193
Analtica em tempo real com o HBase..............................................................196
Concluso............................................................................................................206

Captulo 7 Ingesto de dados..............................................................................................207


Importando dados relacionais com o Sqoop..........................................................208
Importando do MySQL para o HDFS...............................................................209
Importando do MySQL para o Hive.................................................................212
Importando do MySQL para o HBase............................................................... 214
Ingesto de dados de streaming com o Flume........................................................ 217
Fluxos de dados do Flume................................................................................ 217
Ingesto de dados de impresso de produtos com o Flume................................221
Concluso............................................................................................................226

Captulo 8 Analtica com APIs de alto nvel...........................................................................228


Pig ......................................................................................................................229
Pig Latin..........................................................................................................230
Tipos de dados.................................................................................................236
Operadores relacionais.....................................................................................236
Funes definidas pelo usurio.........................................................................237
Concluindo......................................................................................................239
APIs de nvel mais alto do Spark...........................................................................239
Spark SQL....................................................................................................... 241
DataFrames.....................................................................................................245
Concluso............................................................................................................252

Captulo 9 Aprendizado de mquina....................................................................................253


Aprendizado de mquina escalvel com o Spark....................................................253
Filtragem colaborativa......................................................................................256
Classificao....................................................................................................264
Clustering........................................................................................................267
Concluso............................................................................................................271
8 Analtica de dados com Hadoop

Captulo 10 Resumo: fazendo cincia de dados distribuda...................................................272


Ciclo de vida dos produtos de dados..................................................................... 274
Lagos de dados................................................................................................275
Ingesto de dados............................................................................................278
Repositrios de dados para processamento.......................................................281
Ciclo de vida do aprendizado de mquina.............................................................283
Concluso............................................................................................................286

Apndice A Criando um ambiente de desenvolvimento pseudodistribudo com o Hadoop.....288


Incio rpido........................................................................................................288
Configurando o Linux.........................................................................................289
Criando um usurio Hadoop...........................................................................289
Configurando o SSH........................................................................................290
Instalando Java................................................................................................291
Desabilitando o IPv6........................................................................................291
Instalando o Hadoop...........................................................................................292
Desempacotando.............................................................................................293
Ambiente.........................................................................................................294
Configurao do Hadoop.................................................................................295
Formatando o Namenode.................................................................................297
Iniciando o Hadoop.........................................................................................298
Reiniciando o Hadoop.....................................................................................298

Apndice B Instalando os produtos do ecossistema do Hadoop.............................................300


Pacotes de distribuio do Hadoop.......................................................................300
Instalao dos produtos do ecossistema do Apache Hadoop por conta prpria.......301
Instalao bsica e passos para configurao.....................................................301
Configuraes especficas do Sqoop.................................................................303
Configuraes especficas do Hive....................................................................304
Configuraes especficas do HBase.................................................................306
Instalando o Spark...........................................................................................309

Glossrio............................................................................................................................... 313

Vous aimerez peut-être aussi