Académique Documents
Professionnel Documents
Culture Documents
DO BIG DATA
Dados Internacionais de Catalogao na Publicao (CIP)
(Jeane Passos de Souza - CBR 8a/6189)
Bibliografia.
e-ISBN 978-85-396-1228-4
17-499u CDD-001.64
BISAC COM060040
BISAC COM053000
Captulo 1 Captulo 5
Introduo cincia de dados, 7 Modelagem de dados, 65
1 Breve histrico da cincia de 1 Modelo multidimensional, 66
dados, 8 2 NoSQL, 70
2 Business intelligence , 11 3 UML estendida, 72
3 Data warehousing , 13 Consideraes finais, 76
4 Data discovery, 17 Referncias, 77
Consideraes finais, 20
Referncias, 20 Captulo 6
Analtico (analytics) para
Captulo 2 Big Data, 79
Big Data, 23 1 Analtico, 80
1 Big Data , 24 2 Analtico descritivo, 81
2 Critrio dos Vs, 25 3 Analtico preditivo, 91
3 Tratamento dos dados, 29 Consideraes finais, 94
4 Qualidade de dados, 33 Referncias, 95
Consideraes finais, 36
Referncias, 37 Captulo 7
Minerao de dados, 97
Captulo 3 1 Aprendizado de mquina, 98
Arquitetura Big Data, 39 2 Classificao, 99
1 Processamento massivamente 3 Associao, 101
paralelo, 40
4 Regresso, 102
2 Arquitetura GoogleFS, 41
5 Agrupamento, 106
3 Arquitetura HDFS, 42
Consideraes finais, 108
4 MapReduce, 45
Referncias, 109
Consideraes finais, 49
Referncias, 49 Captulo 8
Anlise visual de dados, 111
Captulo 4
1 Anlise OLAP, 112
Ingesto de dados, 51
2 Exploratria de dados, 117
1 Tipos de dados, 52
3 rvores de deciso, 120
2 Coleta de dados, 54
4 Painis de controle , 121
3 Integrao dos dados, 58
Consideraes finais, 121
4 Interoperabilidade dos dados, 61
Referncias, 122
Consideraes finais, 62
Referncias, 63
Captulo 9 Captulo 10
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
Plataformas de Big Data, 123 Novas fontes de dados para
1 Apache Hadoop, 124 Big Data, 135
2 Weka, 128 1 Dados abertos, 136
3 Tableau, 129 2 Web semntica, 139
4 Exemplos de aplicao, 132 3 Dados ligados, 144
Consideraes finais, 133 4 Internet das coisas, 144
Referncias, 134 Consideraes finais, 146
Referncias, 147
Introduo
cincia de dados
7
A administrao de Big Data envolve diversos aspectos, tais como
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
cincia de dados, arquitetura e plataformas de Big Data, anlises es-
tatsticas (analytics), minerao de dados, ingesto e modelagem dos
dados e representao visual para a anlise dos dados (visual analyti-
cs). Este captulo vai apresentar um breve histrico da cincia de dados
e algumas tcnicas relacionadas ao processo de tomada de deciso.
Ele est organizado em sees que abordam os conceitos de business
intelligence, data warehousing e data discovery.
1980 2000
Padro SQL Google
BI
Minerao de dados
MapReduce
Processamento paralelo
Cloud computing
Orkut
Legenda Facebook
Empresas Twitter
Tecnologias Netflix
Hadoop
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
o modelo objeto relacional e as ferramentas CASE (computer-aided
software engineering), ou, em traduo livre para o portugus, enge-
nharia de software guiada por computador, permitiu que o usurio final
assumisse um papel mais ativo, passando a controlar diretamente os
sistemas e os dados fora do domnio do clssico processamento de da-
dos (KIMBALL; CASERTA, 2004). Ainda nos anos 1990, houve tambm o
barateamento do disco magntico, o que propiciou o desenvolvimento
de novos estilos de modelagem de dados, cujos objetivos eram a com-
preensibilidade da base de dados pelo usurio final e o desempenho de
consultas gigantes (TURBAN et al., 2009).
2 Business intelligence
Business intelligence (ou, em traduo livre para o portugus, inte-
ligncia de negcios), ou simplesmente BI, um termo que surgiu nos
anos 1980 e se refere ao processo de coleta, organizao, anlise, com-
partilhamento e monitoramento de informaes (TURBAN et al., 2009).
A informao transformada e aplicada a um determinado processo de
deciso pode gerar vantagem competitiva para a organizao. Assim,
podemos dizer que o BI o produto da transformao de dados em infor-
mao, aps ela ser analisada ou inserida em um determinado contexto.
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
es armazenadas na corporao por meio de ferramentas, ga-
rantindo maior preciso nas tomadas de deciso.
IMPORTANTE
IMPORTANTE
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
mitindo, portanto, atualizaes.
fontes periodicamente
diversas
A
ETL Data Warehouse
BI
B
rea de concentrao Data Mart Data Mart
C processo de metadados
verificao da carga
Alm disso, por meio do ETL que os dados podem ser enviados ao
data mart, que, como j foi dito, um subconjunto do DW que agrupa
esses dados de acordo com um contexto (seja sua caraterstica ou o
tipo de informao que possui), buscando cumprir os requisitos espe-
cficos de determinados grupos/departamentos que precisem daquela
informao.
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
transformao de dados em informao. Ou seja, nessa etapa que o
BI acontece, organizando as informaes e disponibilizando-as para
os usurios.
4 Data discovery
Em um ambiente ideal de BI, 80% das demandas de anlise de dados
deveriam ser conduzidas pelos prprios usurios de negcio, deixan-
do nas mos dos profissionais de TI as aplicaes de BI corporativas.
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
simplesmente no utilizados, gerando desperdcio de trabalho dos pro-
fissionais de TI, que poderiam estar desempenhando atividades com-
plexas e de misso crtica (EVELSON, 2012).
Material para uso exclusivo de aluno matriculado em curso de Educao a Distncia da Rede Senac EAD, da disciplina correspondente. Proibida a reproduo e o compartilhamento digital, sob as penas da Lei. Editora Senac So Paulo.
Este captulo apresentou o conceito e um breve histrico da cincia
de dados, alm de algumas tcnicas relacionadas ao processo de an-
lise de dados e de tomada de deciso.
Por fim, ressalta-se que no existe uma soluo nica para Big Data.
As tcnicas apresentadas neste captulo so complementares: o DW
adequado a negcios com maior previsibilidade, com amplo domnio
sobre as informaes ou com muitas regras j estabelecidas, enquanto
o DD indicado em situaes de auditorias, fiscalizaes e anlises
de tendncia, dando maior flexibilidade e autonomia ao usurio nas
anlises.
Referncias
BARBIERI, Carlos. BI2-Business intelligence: modelagem e qualidade. So
Paulo: Elsevier Campus, 2012.
CHU, Wesley W. Data mining and knowledge discovery for Big Data: methodolo-
gies, challenge and opportunities. New York: Springer-Verlag, 2013.
HEY, Tony; TANSLEY, Stewart; TOLLE, Kristin M. The fourth paradigm: data-
intensive scientific discovery. Redmond: Microsoft Research, 2009.
NATURE. Big Data: science in the petabyte era. Nature international weekly
journal of science, n. 7209, vol. 455, p. 1-136, 2008. Disponvel em: <http://www.
nature.com/nature/journal/v455/n7209/>. Acesso em: 24 out. 2016.
TURBAN, Efraim; SHARDA, Ramesh; ARONSON, Jay E.; KING, David. Business
intelligence: um enfoque gerencial para a inteligncia do negcio. Porto Alegre:
Bookman, 2009.