Vous êtes sur la page 1sur 117

UNIVERSIDADE

FEDERAL DE GOIS
ESCOLA DE ENGENHARIA ELTRICA E DE COMPUTAO

ESPECIALIZAO NAS TECNOLOGIAS PARA A GESTO DE
NEGCIOS
HTTP://WWW.GESTAODENEGOCIOS.EEEC.UFG.BR/

ATA
BIG D

SIRLON DINIZ DE CARVALHO DR

sirlondiniz@gmail.com

Sirlon Diniz de Carvalho, MSc.


Tem experincia de mercado nas reas de Sistemas de Informao,
Engenharia da Computao, Administrao por Processos e Gesto da Qualidade,
com nfase em Mapeamento de Processos, Inteligncia nos Negcios (Business
Intelligence - BI) e Teleinformtica. Atuao como analista de sistemas e consultor
independente para diversas empresas, principalmente nos temas: Anlise e
Desenvolvimento, Sistemas Tutores Inteligentes, Segurana da Informao,
Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt
e Lean Black Belt - liderou e participou de vrios projetos Six Sigma. Com os
conhecimentos obtidos em Administrao por Processos, j atuou em vrios
projetos na rea de tecnologia, melhoria da qualidade em empresa do ramo
educacional, entre outros. Atua na rea acadmica h mais de 14 anos como
docente na graduao e ps-graduao, alm de ter exercido atividades de gesto
de cursos de graduao e ps-graduao. Atualmente servidor pblico federal do
Instituto Federal de Gois.

BIBLIOGRAFIA
Mayer-Schnberger, Viktor; Kenneth, Cukier. Big Data: como extrair
volume, variedade, velocidade e valor da avalanche de informao
cotidiana. Rio de Janeiro: Elsevier, 2013.
Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media
Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33.
Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH
(2011) Big data: the next frontier for innovation, competition, and
productivity. McKinsey Global Institute. Disponvel em http://
www.mckinsey.com/insights/mgi/research/technology_and_innovation/
big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01.
Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997.
Barbieri, Carlos. BI Business Intelligence Modelagem & Tecnologia.
Rio de Janeiro: Editora Axel Books, 2001.
Serra, L., A Essncia do Business Intelligence, Berkeley Brasil, 2002.
Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling (Second Edition)", Wiley, 2002.
3

DETALHES IMPORTANTES
CRONOGRAMA
Dia

Semana

Carga Horria

12/setembro/2014

Sexta

18:00 h 23:00 h

27/setembro/2014

Sbado

14:00 h 19:00 h

04/outubro/2014

Sbado

8:00 h 13:00 h

Total

15 horas

AVALIAO
Avaliao processual e parHcipao 30%.
Avaliao de trabalhos em grupos 70%.

EMENTA
Dos sistemas transacionais tomada de deciso: estrutura de dados transacionais versus
dados para tomada de deciso. Fundamentos de Business Intelligence e sua implicao
no Big Data. Introduo ao conceito e tecnologias de informao associadas ao Big Data.
Estudos de casos. Redes Sociais. Conceitos de Dataficao e o Valor dos Dados. A
cadeia de valor em Big Data. A Anlise de Correlao e o Big Data. Riscos e Controle do
Big Data. Ferramentas de Big Data. NOSQL e sua aplicao no Big Data. Projeto de Big
Data.
4

PROGRAMA
Unidade I Dos Sistemas Transacionais
ao Big Data
Sistemas Transacionais e sua estrutura de
Dados;
C o n c e i t o d e B a n c o s d e D a d o s
Relacionais;
Dos Dados Transacionais ao Data
Warehouse (DW);
A construo do DW e suas implicaes
para a tomada de deciso;
Alm dos Dados Transacionais e do DW:
e-mails, informaes de trfego de rede,
redes sociais etc.;
O Big Data e a Business Intelligence;
O agora em Big Data: aplicaes e
estudos de Casos;
A impreciso dos dados (confuso):
nfase no todo e no no detalhe.
Unidade II Big Data: Volume, Variedade,
Velocidade e Valor
Os Vs do Big Data
Aceitando a Confuso: estudos de caso;
A causalidade: sem saber o porqu,
apenas o qu;

Fundamentos de Correlao e sua


relevncia para o Big Data;
A Dataficao: quantificao, tabulao e
anlise;
Alm dos dados estruturados: o valor dos
dados no estruturados;
Valor dos dados: anlise de custo e benefcio;
Dados: reutilizao, recombinao, expanso
e depreciao;
A cadeia de valor do Big Data: Informao,
Especialista de Dados, Pessoas e Empresas
com mente Big Data;
Riscos do Big Data: Privacidade e Punies
preditivas;
Big Data e normas de regulao.

Unidade III Projetos de Big Data


Ferramentas de Big Data;
Dados no estruturados e o NOSQL;
Projeto de Big Data: ganham os pequenos ou
os grandes;
Construo de uma soluo simples de Big
Data;
Apresentao de trabalhos.
5

Sequncia Did[ca

12/setembro/2014: Dos Sistemas Transacionais ao Big Data

Sistemas Transacionais e sua estrutura de Dados;


Conceito de Bancos de Dados Relacionais;
Dos Dados Transacionais ao Data Warehouse (DW);
A construo do DW e suas implicaes para a tomada de
deciso;
Alm dos Dados Transacionais e do DW: e-mails, informaes
de trfego de rede, redes sociais etc.;
O Big Data e a Business Intelligence;
O agora em Big Data: aplicaes e estudos de Casos;
A impreciso dos dados (confuso): nfase no todo e no no
detalhe.

Tipos de Aplicaes: Sistemas Transacionais ou Operacionais

U[lizado para aplicaes operacionais


Aplicaes crHcas OLTP
Execuo do negcio
Sistemas de controle de estoque
Sistemas bancrios
Sistemas Financeiros
Operaes de manipulao de dados (insert, update, delete),
normalmente on-line e em nvel detalhado.
Sistemas de controle de vendas de mercadorias etc.
7

Banco de Dados Transacionais

Como armazenar dados


Textos
Sistemas de Gerenciamento de Arquivos
Planilhas eletrnicas
Sistemas de Gerenciamento de Bancos de Dados
o SGBD Relacional
o SGBD Orientado a Objetos etc.
8

Modelagem dos dados de aplicaes transacionais

Para armazenar necessrio modelar ou projetar o BD


Normalizao
Porque normalizar
1, 2, 3 e 4 FN
Exemplo de normalizao
Exerccio modelagem

Modelagem dos dados de aplicaes transacionais

10

Empresa informa[zada: novas demandas

Novas Demandas de T.I.


Relatrios gerenciais: clientes por bairro, estado civil etc.
Anlise complexa questes impossveis de se prever
Mais demandas para o departamento de T.I.
Case supermercado produtos por grupo
Mas resumo no contradiz normalizao?
Ambiente de negcio em mudana constante
Dados heterogneos e inconsistentes

11

Problemas com a modelagem transacional

Alto volume de dados e necessidade de resposta rpida


Dados so volteis: clientes mudam, casam, estudam etc.
Enm:
Os modelos de dados tradicionais acabam sendo
muito complexos e di3ceis de ser entendidos pelo
usurio. Alm disso, Joins de ml;plas tabelas,
frequentemente grandes, so demorados e
consomem muitos recursos do sistema.

12

Dvidas e ques[onamentos surgem

Conhecemos o negcio? Entendemos o processo, mas somos


incapazes de analisar situaes mais complexas
Valor da Tecnologia versus valor da Informao
O que est sendo feito com a memria da organizao
Relatrios no atendem Gerncia
Como resolver esse problema

13

Com Aplicaes de Tomada de Deciso

U[lizadas para anlise do negcio


Sistemas de Apoio Deciso - SAD
Exige conhecimento do negcio
Vital para desenvolvimento de estratgias
Extraem informaes necessrias para a tomada de deciso,
uHlizando consultas complexas sobre grandes volumes de dados
(por exemplo, determinar a taxa de crescimento do faturamento
nos lHmos 5 anos)
Podem usar sistemas transacionais como fontes de dados
14

BI Conceito

Business Intelligence (BI)


Refere-se coleta, organizao, anlise, compar;lhamento e
monitoramento de informaes para suporte gesto de negcios.
Contempla:
Data Warehouse (DW)
Data Mining (DM)
Customer RelaHonship
Management(CRM)
OLAP
E o Big Data?

15

Exerccio

Leitura de Texto
Escrever sobre processos de tomada de deciso



Tempo: 15 minutos

16

Nascimento do Data Warehouse (DW)

Data Warehouse um conjunto de dados:


orientados a um assunto
integrados
no-volteis
variveis com o tempo
usado no apoio a decises gerenciais

William H. Inmon
Pai do Data Warehousing

17

Data Warehouse: texto para leitura

Caracters[cas de um DW
Orientado a assuntos: vendas de produtos a diferentes Hpos de clientes,
atendimentos e diagnsHcos de pacientes, rendimento de estudantes.

Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de


dados precisam ser acomodadas em um nico esquema para prover uma
viso unicada e consistente da informao.

No vol[l: os dados de uma data warehouse no so modicados como em


sistemas transacionais (exceto para correes), mas somente carregados e
acessados para leituras, com atualizaes apenas peridicas.

18

DW Fundamentos

Conceitos bsicos
Povoamento: primeira grande carga
Carga: alimentao peridica dos dados
Periodicidade de cargas: depende do assunto
Granularidade: refere-se ao nvel de detalhe

Baixa
Prod.
A1
B1
A1
A1

Data
13/9/00
14/9/00
16/9/00
16/9/00

Qtde.
10
15
20
90

Alta
Valor
100,00
150,00
200,00
890,00

ms/ano Prod. Qtde. Valor


09/00
A1
120
1190,00
09/00
B1
15
150,00

19

DW Conceitos bsicos

Sries temporais: o histrico dos dados por um perodo de


tempo superior ao usual em BDs transacionais permite analisar
tendncias e mudanas
Varivel com o tempo

20

Comparao entre dados transacionais e DW


Operacionais

Data Warehouse

Orientados aplicao

Orientados a assuntos

Preciso Instantnea

Snapshots

Atualizveis

Somente para leitura

Volteis

Histricos

Dispersos em aplicaes

Integrados no DW

Acesso frequente

Acesso espordico

Acesso a quantidade reduzida

Acesso a grande volume

80
70
60
50
40

Transacional

30

DW

20
10
0
0

10
21

O Data Warehouse

Anal, o que o DW?


Um novo modelo de Dados
Uma nova estrutura de armazenamento
Infraestrutura diferente
Acesso diferenciado
Grandes quanHdades de dados

22

DW Abordagem Organizacional
Sistemas Transacionais
Dados
Externos

Dados
Financeiros

Dados de
Manufatura

Dados de
Vendas

Infra-Estrutura de Acesso

Data Warehouse
Corporativo

Dados da empresa com determinado nvel de normalizao


Integrador de reas funcionais
Alto nvel de detalhamento
23

DW Abordagem Organizacional

24

E nos departamentos: Data Mart

Data Mart
Subconjunto dos dados corporaHvos
Informaes especcas para um grupo de usurios
Esquemas no normalizados
Data Warehouse
Corporativo

Data Mart de
Marketing

Data Mart de
Finanas

Data Mart
de Vendas

25

Data Mart - Aplicao

Aplicaes de Data Mart


Uso departamental
Locais remotos (liais, lojas etc.)
Acesso externo (fornecedores, clientes etc.)
EstatsHca/Minerao (segmentao de mercado, previso
oramentria, gerenciamento de campanhas etc.)

26

DW Abordagem Organizacional

Vantagens
Evita a repeHo de extrao
Garante uma interpretao padronizada dos dados
Facilidade de se construir novos Data Marts

Sistemas Transacionais
Dados
Externos

Desvantagens

Dados
Dados de
Financeiros Manufatura

Dados de
Vendas

Infra-Estrutura de Acesso

Prazos longos de construo

Data Warehouse
Corporativo

Alto custo
Alto risco

Data Mart de
Marketing

Data Mart de Data Mart


Finanas de Vendas

27

Abordagem Data Marts Independentes

Proposta por Ralph Kimball


ObjeHvo de minimizar os problemas da
arquitetura organizacional de Inmon

Dados
Operaciona
is

Data
Mart
Ferramentas Relacionais

Data
Mart
Ferramentas OLAP

Dados
Externos

Data
Mart
Aplicaes
28

Abordagem Data Marts Independentes

Vantagens
Construo rpida
Menor custo
Menor risco
Desvantagens
Extrao repeHda
Diferenas de terminologia, semnHca e
formatos
Variedade de regras de transformao
Diculdade de integrao
29

DWing Abordagem Itera[va Incremental

Abordagem Incremental e Iterativa


MODELO DE DADOS CORPORATIVO INICIAL
(apenas as principais entidades e seus relacionamentos)
Refinamento do modelo
de dados de uma rea de
assunto em cada iterao

DW
CORPORATIVO

DATA MART
30

DW - Integrao

Integrao de dados
Aplicao B
Aplicao A

Aplicao A

Aplicao B

Aplicao C

Aplicao C
Valor
atual,
2 anos

Valor
atual,
3 meses

Valor
atual,
1 ano

Valor atual,
6 meses

31

DW - Integrao

Processo de integrao de dados


DATA WAREHOUSE

OPERACIONAL
Aplicao A: m,f
Aplicao B: 1,0
Aplicao C: masculino, feminino

sexo: m, f

Aplicao A: caminho - centmetros


Aplicao B: caminho - ps
Aplicao C: caminho - jardas
Aplicao A: descrio
Aplicao B: descrio
Aplicao C: descrio
Aplicao A: chave char(10)
Aplicao B: chave dec fixed(9,2)
Aplicao C: chave char(12)

caminho:
centmetros

descrio

Chave
char(12)

32

Problemas com Origens dos Dados

Problemas com Sistemas Legados


Modelagem inexistente
Programadores no pertencem mais equipe
Sistemas proprietrios no possibilitam acesso
Domnio de tecnologia obsoleta: cobol, adabas etc.
Dados dependentes da aplicao: diwcil dissociar
Equipe transacional no coesa com B.I.

33

Conceito de ETL: Extrao

Desao da Extrao
Somente a extrao dos dados leva cerca de 60% das horas
de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU,
2007).
A maior parte do esforo exigido no desenvolvimento de um
DW consumido neste momento e no incomum que oitenta
por cento de todo esforo seja empregado no processo de ETL,
(INMON, 1997 apud ABREU, 2007)
A extrao afetada pelo ambiente

34

Conceito de ETL: Transformao

Desao da transformao
Subsequente extrao, esta fase no s transforma
os dados, mas tambm realiza a limpeza dos mesmos.

Correo de erros de digitao


Descoberta de violaes de integridade
SubsHtuio de caracteres desconhecidos
Padronizao de abreviaes

35

ETL: Qualidade dos Dados

necessrio que os dados quem em uma


forma homognea para serem carregados no DW.
Caracters[cas para garan[r a qualidade dos dados:
Unicidade: evitar duplicaes de informao
Preciso: dados no podem perder suas caractersHcas originais
Completude: no gerar dados parciais de todo o conjunto
relevante s anlises
Consistncia: fatos devem apresentar consistncia com as
dimenses que o compem

36

ETL: Transformao


Os principais ;pos de conitos estruturais so
aqueles de domnio de atributo que se caracterizam pelo uso
de diferentes ;pos de dados para os mesmos campos.
Conitos Tpicos - diferenas de
Unidades: centmetro, polegada
Preciso: quanHdade de casas decimais
Cdigos ou expresses: sexo M/F ou 0/1
Granularidade: quando horas trabalhadas correspondem a
semana ou a ms, mesmo mantendo a mesma unidade
Abstrao: quando a forma de estruturar uma mesma
informao segue critrios diferentes
37

Como Construir ETL

No h regra especca, depende dos ambientes de onde os


dados sero extrados. Deve-se avaliar o custo versus bene3cio de
criar todo o processo hard code.
Podem ser desenvolvidas em: C, SQL, XML, Web Service, Java etc.

38

ETL: processo hard code

Vantagens
Controle: se voc desenvolve, voc tem controle do processo
Customizao: o cdigo estar disponvel para mudanas
Convergncia com a plataforma tecnolgica: no ser necessrio
adquirir hardware, so{ware ou sistema operacional para a ETL
Convivncia com o legado: desenvolvimento interno se adaptar
aos sistemas legados e no o contrrio para adaptar-se s cargas
Suporte: a construo prpria dispensa contratos de suporte e
manuteno
Debugao: aHvidades de DEBUG no vo se deparar com uma
parte no "debugvel" do cdigo - cdigo disponvel

39

ETL: U[lizao de ferramentas

Vantagens
Desenvolvimento das cargas: em ferramenta de ETL muito mais
fcil e rpido
Manuteno das cargas: manuteno mais fcil que em cdigo
Desempenho: uHlizam mtodos mais performHcos para
trabalhar com grandes volumes
Execuo em paralelo: possuem recursos de paralelizao
naHvos e facilmente implementveis
Escalabilidade: podem ser transferidas de servidor mais
facilmente e at eventualmente distribuir sua carga entre vrios
servidores

40

ETL: U[lizao de ferramentas

Vantagens
Diversidade de conectores: a conexo de uma ferramenta de ETL
com mlHplas fontes de dados transparente
Separao entre funcionalidade e manipulao de dados: j
possui suas funcionalidades disponveis (Lookup, Merge, Split,
Expresses calculadas etc.)
Reusabilidade: uma carga normalmente pode ser reaproveita
Reinicializao: possuem a capacidade de reiniciar a carga de
onde pararam
Manuteno de Metadados: metadados so gerados e manHdos
automaHcamente

41

ETL: U[lizao de ferramentas

Vantagens
Documentao: possuem mecanismos de documentao
Maior garan[a da qualidade dos dados: Ferramentas de ETL
podem disponibilizar meios para trabalhar a qualidade dos dados
atravs de algoritmos complexos (lgica fuzzy, IA etc.)
Auditoria & Tracking: permite implementar recursos de auditoria
e tracking para conhecer de onde veio o registro, que
transformaes sofreu e como foi carregado
Segurana: permite tornar a segurana mais modular dividindo-
se os papis (criao de cargas, execuo de cargas,
agendamento etc.)

42

Ferramentas de ETL

Centenas disponveis:
kele.pentaho.org
Oracle Warehouse Builder (OWB)
IBM InformaHon Server (Data Stage)
IntegraHon Services (SSIS)
Power Center (anHgo Power Mart)

43

Dados Externos


Dados Externos referem-se a dados essenciais
para a tomada de deciso, mas que no fazem parte dos
dados originados dos sistemas transacionais.
Exemplos de Dados Externos: cotao de moeda estrangeira,
situaes de catstrofe, cenrio de mercado etc.
Fonte de Dados Externos: revistas especializadas, jornais, ndices
governamentais etc.

44

Os Metadados: Conceito

Essencialmente Metadados refere-se a um dicionrio


de dados, ou seja, dados que mantm informaes sobre
outros dados
Para cada atributo no DW, h uma entrada no dicionrio
Dados so consultados e atualizados com base nos metadados
Permite conhecer e entender a estrutura dos dados
Em BD transacional a semnHca est na aplicao

45

DW Exemplo de Modelagem e Normalizao

Exerccios de modelagem em sala

46

Data Marts Virtuais

Soluo que pode usar conceito de data view, voltado para


ambientes mais simples

Warehouse
VENDAS
ESTOQUE

47

Conceito de Modelagem Mul[dimensional

A metfora do cubo d a impresso de mlHplas dimenses


Os cubos podem ter 2, 3, 4 ou mais dimenses
O usurio faHar e cortar em cubos (slice and dice),
escolhendo quais dimenses sero

Tempo

usadas em cada consulta

Linha de Produtos
48

Conceito de Modelagem Mul[dimensional

UHlizando-se uma nica dimenso (Regio) para obter a


agregao de um fato relacionado (Vendas):

Regio

Vendas

Sul

R$1.552M

Nordeste

R$1.732M

49

Conceito de Modelagem Mul[dimensional

UHlizando-se duas dimenses (Regio e Tempo) para obter a


agregao de um fato relacionado
Regio

Trimestre

Sul

T1

R$ 377M

T2

R$ 368M

T3

R$ 423M

T4

R$ 384M

T1

R$ 427M

T2

R$ 418M

T3

R$ 453M

T4

R$ 434M

Nordeste

Vendas

50

Conceito de Modelagem Mul[dimensional

Cada nova dimenso aumenta o nvel de detalhe. Acrescentando-


se uma quarta dimenso (Cliente) possvel analisar as Vendas
por Cliente, por Linha de produtos, por Trimestre, por Regio.
Regio

Trimestre

Sul

T1
T2
T3
T4

Nordeste

T1
T2
T3
T4

Linha de Produtos
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial

Vendas
R$ 250M
R$ 127M
R$ 225M
R$ 143M
R$ 275M
R$ 148M
R$ 253M
R$ 131M
R$ 280M
R$ 147M
R$ 255M
R$ 163M
R$ 305M
R$ 148M
R$ 283M
R$ 151M
51

Conceito de Modelagem Mul[dimensional

Viso MulHdimensional
Regio

Trimestre

Sul

T1
T2
T3
T4

Nordeste

T1
T2
T3
T4
Dimenses

Linha de Produtos
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial
Padro
Especial

Vendas
R$ 250M
R$ 127M
R$ 225M
R$ 143M
R$ 275M
R$ 148M
R$ 253M
R$ 131M
R$ 280M
R$ 147M
R$ 255M
R$ 163M
R$ 305M
R$ 148M
R$ 283M
R$ 151M

Fatos
52

Data Mart - Modelagem Star Scheme


Loja

O Esquema Star
Data
Id Data
Dia
Ms
Trimestre
Ano

Tabelas de
Dimenso

Vendas
Id Loja
Id Data
Id Cliente
Id Produto
Quantidade
Valor

Cliente
Id Cliente
Codigo Cliente
Nome
Sobrenome
Endereo
Cidade
Estado
Pas
CEP

Id Loja
Nmero da Loja
Nome da Loja
Cidade
Estado
Pas
Telefone

Tabelas de
Dimenso

Produto
Id Produto
Cdigo Produto
Descrio
Categoria

Tabela de
Fatos

53
53

Data Mart Tabela de Fatos

Tabela de Fatos
Contm chaves estrangeiras das tabelas de dimenso
Armazenam os nmeros da empresa
Cada conjunto de fatos baseado na interseo de cada
combinao dos atributos dimensionais
Vendas
Id Loja
Id Data
Id Cliente
Id Produto
Quantidade
Valor

Atributos
Dimensionais

Fatos
54

Data Mart Tabelas de Dimensao


Dimenso Tempo

Loja

Data
Id Data
Dia
Ms
Trimestre
Ano
Vendas

Cliente
Id Cliente
Codigo
Cliente
Nome
Sobrenome
Endereo
Cidade
Estado
Pas
CEP

Dimenso Clientes

Id Loja
Nmero da
Loja
Nome da Loja
Cidade
Estado
Pas
Telefone

Id Loja
Id Data
Id Cliente
Id Produto
Quantidade
Valor

Dimenso
Loja

Dimenso
Produto
Produto

Tabela de
Fatos

Id Produto
Cdigo Produto
Descrio
Categoria

55
55

Data Mart - Modelagem Snow Flake

Vantagem: diminuio da redundncia nas tabelas de dimenso


Desvantagem: necessidade da execuo de junes
Acrescenta estruturas hierrquicas ao Esquema Star
Data
Id Data
Dia

Loja
Id Loja
Nmero da Loja
Nome da Loja
Id Cidade
Telefone

Vendas
Id Loja
Id Data
Id Cliente
Id Produto
Quantidade
Valor

Ms
Id Ms
Trimestre
Ano

Produto
Cliente
Id Cliente
Codigo Cliente
Nome
Sobrenome
Endereo
Cidade
CEP

Id Produto
Cdigo Produto
Descrio
Id Categoria

Cidade
Id Cidade
Estado
Pas
Categoria de Produto
Id Categoria
Descrio

56

Data Mart Tabelas de Agregao

Fornecem nveis mlHplos de detalhes do fato


Ms
Id Ms
Ms
Trimestre
Ano

Data
Id Data
Dia
Id Ms

Vendas

Loja
Id Loja
Nmero da Loja
Nome da Loja
Cidade
Estado
Pas
Telefone

Id Loja
Id Data
Id Cliente
Id Produto
Quantidade
Valor
Resumo_Mensal_Cat
Id Ms
Id Categoria
Quantidade_Total
Valor_Total

Cliente

Produto
Id Produto
Cdigo Produto
Descrio
Id Categoria
Categoria_Produto
Id Categoria
Cdigo Categoria
Descrio

Id Cliente
Codigo Cliente
Nome
Sobrenome
Endereo
Cidade
Estado
Pas
CEP

57

Data Mart Tabelas de Agregao

Os resultados das consultas (ou seus valores intermedirios) so


pr-calculados, o que melhora muito o desempenho
As agregaes podem ser acumuladas atravs de agrupamentos
diferentes - frequentemente atravs de vrias dimenses
Uma tabela de resumo deve ter, no mximo, 25% do tamanho da
tabela original [CAAT01]

58

A Dimenso Tempo

A dimenso tempo deve ser capaz de expressar o momento em


que o dado foi gerado, considerando todas as informaes que
possam auxiliar no processo de tomada de deciso.
Data
Id Data
Dia da Semana
Dia do ms
Ms
Trimestre
Ano
Data Juliana
Flag de Feriado
Flag de dia til
Flag de fim-de-semana
Flag de ltimo dia do ms
Estao
Evento
59

OLAP: Online analy[cal processing

Tipos de Ferramentas
MOLAP: MulHdimensional OLAP
ROLAP: RelaHonal OLAP
HOLAP: Hybrid OLAP
DOLAP: Desktop OLAP

60

Ferramentas OLAP

Dados
Operaciona
is

Warehouse

Data
Mart
Ferramentas OLAP

Dados
Externos

Cuidados com solues integradas DW e OLAP


61

Ferramentas Minerao de Dados

Matemtica

Heurstica

Estatstica

Inteligncia
Artificial

Diferenas entre
- OLAP
- Data Mining

Machine Learning
Business Application
Data Mining

62

Nova Fonte de Recursos para a empresa

Questes Hcas
A Informao como aHvo da empresa: novo conceito
Possibilidade de vendas de informao
E as novas fontes de informao?
Para onde vamos? Big Data?

63

O Big Data Agora

Denio
Existem vrias, mas segundo Mayer-Schnberger,
Big data se refere a trabalhos em grande escala que no podem
ser feitos em escala menor, para extrair novas ideias e criar novas
formas de valor de maneiras que alterem os mercados, as
organizaes, a relao entre os cidados e governos etc.

Origem do nome Big Data
Cincias como astronomia e genmica

64

O Big Data Agora

Caso H1N1
CDCs (Centro de Controle de Preveno de Doenas):
Dependia de resultado de exames e informaes do mdicos
Cenrio defasado em 01 ou 02 semanas
Google:
usou dados de 50 milhes de termos de busca comuns
(histrico de 2003 a 2008)
450 milhes de modelos matemHcos
Combinao de 45 termos, num modelo matermHco
Encontrou correlao entre previso e nmeros ociais
Em tempo real
Sem teste de saliva, sem atraso
65

O Big Data Agora

Caso Forecast (Oren Etzioni)


Passagens antecipadas com preo maior?
Como saber se comprar antecipadamente melhor?
Coletou 12000 preos em 41 dias
Criou uma startup
Passou para 200 bilhes de registros
Vendeu para Microso{ por US$ 110 milhes
Qual a matria-prima do negcio?

Revoluo nos dados, no nas mquinas!
66

O Big Data Agora

Caso Sloan Digital Sky Survey


Incio no ano 2000 (Novo Mxico)
Em 2 semanas o telescpio coletou mais dados que em toda a
histria da astronomia
Em 2010 eram 140 terabytes
Uma sucessora, a Large SynopHc Survey Telescope (Chile), prevista
para 2016: coletar isso em 5 dias

67

O Big Data Agora

Projeto Genoma Humano


Criado em 1990 nos EUA, com previso para 15 anos
2003: cienHstas precisaram de uma dcada para sequenciar 3
bilhes de pares-base
Hoje: faz-se em um nico dia

68

O Big Data Agora

Empresas de Internet
Google: processa 24 petabyte/dia
Facebook
Recebe mais de 10 milhes de fotos/hora
CurHr e comentar: 3 bilhes/dia
Trilha digital construda
Youtube
800 milhes de usurios
> 1 hora de vdeo criada por segundo
Twier (2012): 400 milhes/dia
69

O Big Data Agora

Quanto h de informao?
Existem vrios estudos
MarHn Hilbert, da Annenberg School for CommunicaHon and
Journalism, CA, EUA, apresentou um
Considerando Livros, imagens, e-mails, fotograas, msica,
vdeo (analgico e digital), videogames, ligaes
telefnicas, cartas e sistemas de navegao para carros,
alm de televiso e rdio
Resultado: em 2007 esHmou-se 300 hexabytes (um bilho
de GB)
O suciente para
Se impresso, cobrir os EUA com 52 camadas
Em CD-ROMs empilhados: 5 pilhas at a lua
70

O Big Data Agora

Big Data
Inteligncia ArHcial?
Aprendizado de mquina?
Ensinar um computador a pensar?
Na verdade est mais para aplicao de matem;ca a enormes
quan;dades de dados visando prever probabilidades!

71

A impreciso dos Dados

Usar todos os dados (N1=1Tudo)


Amplia a viso, o que no era possvel antes
Fontes diversicadas
Dados normalizados e no normalizados
SQL j no suciente
No se pode abrir mo das conquistas
H ferramentas que resolvem o problema?
Como ca o especialista?
O conhecimento do negcio relevante?
E os sistemas legados?

72

Sequncia Did[ca

27/set/2014: Big Data: Volume, Variedade, Velocidade e Valor

Os Vs do Big Data
Aceitando a Confuso: estudos de caso;
A causalidade: sem saber o porqu, apenas o qu;
Fundamentos de Correlao e sua relevncia para o Big Data;
A Dataficao: quantificao, tabulao e anlise;
Alm dos dados estruturados: o valor dos dados no
estruturados;
Valor dos dados: anlise de custo e benefcio;
Dados: reutilizao, recombinao, expanso e depreciao;
A cadeia de valor do Big Data: Informao, Especialista de
Dados, Pessoas e Empresas com mente Big Data;
Riscos do Big Data: Privacidade e Punies preditivas;
Big Data e normas de regulao.
73

Os 'Vs' do Big Data

3 ou 5 Vs
Volume: grande, crescimento
exponencial e s vezes
subuHlizados
Velocidade: tratamento dos dados
(obteno, gravao, atualizao
etc.) deve ser rpido - muitas vezes
em tempo real
Variedade: diversidade de
informaes (Estruturados - Bancos
de Dados, DWs, No Estruturados -
documentos, imagens, udios,
vdeos etc.)
74

Os 'Vs' do Big Data

3 ou 5 Vs
Veracidade: dados conveis, garanHr o mximo possvel a
consistncia dos dados?
Valor: os resultados devem trazer benewcios signicaHvos e que
compensem o invesHmento?

75

A confuso (inexa[do) dos Dados

N1=1Tudo Usar todos os dados disponveis


H custos
Aumento da quanHdade leva inexaHdo
Solues com menor volume permiHa tratar outliers
Buscou-se trat-los como problemas
Em big data necessrio aprender a conviver com inexaHdo
PraHcamente impossvel trat-los como em amostragens
Historicamente o homem evoluiu ao medir (preciso)
Em big data impreciso (confuso) visto de forma posiHva
Como entender melhor tudo isso?

76

A confuso (inexa[do) dos Dados

Case vinhedo
Medir a temperatura com um nico sensor
o Tem que ser preciso
o No permite confuso
Medir a temperatura com um sensor a cada 100 parreiras
o Pode-se usar sensores mais baratos (no tendenciosos)
o Alguns podem apresentar confuso
o Mas a soma mais abrangente
o Mudar de uma medida por minuto
para 10 ou 100/segundo
o Volume versus perda
77

A confuso (inexa[do) dos Dados

Ento em big data


Dados no totalmente incorretos
2 + 2 = 3,9 pode?
Pretere-se um pouco da preciso em favor de uma tendncia
Big data mais probabilsHco que exato
Case algoritmos de xadrez
o Poucas modicaes
o Regras conhecidas
o Como melhoraram
o Jogadas nais: 6 peas mapeados
o N1=todo para: mais de 1 TB
78

A confuso (inexa[do) dos Dados

Case linguagem natural


Anlise gramaHcal MS Word (2000): Michele Banko e Eric Brill
buscavam melhorar o resultado
Melhorar os algoritmos ou aumentar dados?
1 milho de palavras comum (corpus texto)
10 milhes, 100 milhes, 1 bilho?
O mais simples com 500 mil saiu de 75% para 95% acerto
Google em 2006 usava 1 trilho
Em 2012: 60 idiomas, 14 por voz
Algoritmo pouco inteligente: modelos simples
Modelos simples com muitos dados so melhores
que modelos mais elaborados com menos dados,
disse Peter Norvig

79

A confuso (inexa[do) dos Dados

Mais sobre confuso


Existe porque a tecnologia no perfeita
Dep. Americano de EstatsHcas Trabalhistas faz ndice de preo
ao consumidor (Federal Reserve usa para clculo inao)
o Custo: US$ 250 milhes/ano
o Dados organizados, mas defasados em funo do tempo
o Crise 2008 no foi prevista com tanta preciso
Alberto Cavallo e Roberto Rigobon(MIT): alternaHva confusa
o 500 mil preos da Internet + big data: previu deao 2
meses antes que o governo (2008)
o MIT originou a PriceStats: bancos e outros usam
o The Economist usa: no cona completamente
nos clculos de alguns pases (ArgenHna, p.e.)
80

Aceitando a causalidade

Mais sobre confuso


Flickr: 6 bilhes de imagens e 75 milhes de usurios (2011)
o usou big data para rotular imagens
Maior escala: exato perde importncia
o cone do Twier ou CurHr do Face
o Gmail condensa minutos, horas, dias etc.
o Flexibilidade para BDs tradicionais (campos diferentes)
SQL no suciente: surge NOSQL
Google criou MapReduce: modelo de programao (framework)
Hadoop: rival Open Source Projeto Apache em Java (Distribudo)
o Visa usou para segmentar 70 milhes transaes
o Reduziu de um ms para 13 minutos
81

A causalidade

Sem saber o porqu apenas o qu


Ser humano sente a necessidade de entender a causa
CrHcas a modelos caixas pretas
Importncia para modelos simblicos e estatsHcos
Questes loscas sobre causalidade ( tudo causal?)
Daniel Kahneman professor de psicologia de Princeton e
ganhador do Nobel de Economia de 2002
Ser humano: 2 Hpos de raciocnio (rpido ou reexivo)
Rpido para sobrevivncia no passado
Implica em ver causalidades inexistentes
cultural mas o paradigma um problema em big data
Correlao fcil, causalidade diwcil
82

Correlao

Fundamento esta|s[co
Tenta determinar como uma varivel se relaciona com outras
variveis da mesma populao
Tenta medir quanto e de que maneira se relacionam duas
variveis
Exemplos:
o Frio e setor farmacuHco
o Dia das mes e o comrcio
o Energia eltrica e temperatura etc.
o Grco de disperso auxilia

83

Correlao

Fundamento Esta|s[co: Covarincia


Mede a tendncia e a fora da relao linear entre duas variveis
Pode ser nula, negaHva ou posiHva
Mdia dos produtos dos desvios das duas amostras ou variveis
ObHdas como resultado de dividir:
o Populao: a soma dos produtos dos desvios pela quanHdade
de dados das variveis (big data)
o Amostra: a soma dos produtos dos desvios pela quanHdade
de dados das variveis menos um (mining)
Numeradores das expresses: iguais para populao e amostra
Observao: varincia usa-se para uma varivel

84

Correlao

Fundamento Esta|s[co: Covarincia


Medida do afastamento simultneo das respecHvas mdias
Fornece uma medida no padronizada do grau no qual elas se
movem juntas

85

Correlao

A correlao
Medida padronizada da relao entre duas variveis
Pode ser calculada da covarincia
A raiz evita diviso por zeros
Intervalo entre um e menos um (1 e -1)
Correlao prxima a zero: as variveis no esto relacionadas

Ou

86

Correlao

A correlao
PosiHva: indica que as duas variveis movem juntas
NegaHva: as duas variveis movem-se em direes opostas
Propriedades:
Se X e Y so iguais (mesma varivel): r igual a 1
Permuta das variveis (mantendo-se os dados): no altera r

87

Correlao

Cuidados com a correlao


Coeciente prximo de um ou menos um no implica que a
maioria dos pares de valores esteja numa reta
Forte correlao no sinnimo de uma relao causa-efeito
Exemplo:
o Correlao fortemente posiHva entre X e Y no permite
armar que variaes de X provocam variaes em Y (ou vice-
versa)
Na regresso linear: a relao causa-efeito denida no incio da
anlise

88

Correlao

Cases
Amazon
o Editores e as dicas de leituras
o Modelos automaHzados
Walmart
o 2 milhes de funcionrios, vendas US$ 450 bilhes (maior
que PIB de de pases do mundo)
o Aviso de furaco e Pop-Tarts
o Barbie e Chocolate etc.
Target
Previso de gravidez e cupons via correio
Felicidade e renda
O m da teoria?
89

Exerccios

Tempo esHmado para soluo: 20 minutos


IdenHque um problema que possa ser aplicado correlao

90

Datacao

Quan[cao, Tabulao e Anlise


Case Mahew Fontaine Maury
o Ocial da Marinha americana (1839)
o Big data moda anHga: carta nuHca
Case Shigeomi Koshimizu
o InsHtuto Avanado de Tecnologia (Japo)
o Forma que a pessoa se senta quanHcada e tabulada
o Resultado: cdigo digital nico com at 98% de acerto
o Pode-se aplicar em segurana, cansao etc.

91

Datacao

Quan[cao, Tabulao e Anlise


Dado: origem do grego e pode signicar fato
Datacar: coleta de dados e disposio em formato quanHcado
de modo que possa ser tabulado e analisado
Nmeros Romanos versus arbicos
Itlia no sculo XIV: balano e origem da contabilidade
Datacao de imagem de texto do Google
Geoprocessamento: datacao de um lugar (laHtude/longitude)
GPS teve origem em 1978 e aberto para uso no militar em 1980
Datacao dos smartphones:
o Publicidade direcionada
o Biometria
Grco social
92

Alm dos dados estruturados

O valor dos dados no estruturados


Digitalizao versus datacao
Luis Von Ahn (2000) criou Captcha: problemas com spambots
Yahoo implementou Captcha (Teste Completamente
AutomaHzado para Separar Computadores e Humanos)
E o ReCaptcha, o que tem de diferente?
Movimento e cliques de mouse
Contedo do Twier: entender senHmentos e manifestaes
Contedo do face: entender preferncias de imagens, sons,
vdeos etc.
Quando as palavras se tornam dados: literatura e
estatsHca
Custo de armazenagem jusHca manuteno dos dados
93

Alm dos dados estruturados

NOSQL
Criado por Carlo Strozzi em 1998: BD relacional cdigo aberto
mas sem SQL
DisHnto do modelo relacional: o termo noRel caria melhor
Ressurgiu em 2009: Rackspace evento sobre BD Open Source e
Distribudos
Termo se refere a diferentes sistemas de BDs no estruturados
Buscam performance superior e de alta escalabilidade
Facilidade para distribuio horizontal: mais dados mais
servidores
Todas informaes agrupadas no mesmo registro
Mais tolerantes a erros
Ideal para BDs Transacionais?
94

Valor dos Dados

Anlise Custo e Bene~cio


LogsHca abastecimento carro eltrico: problema para empresa e
motoristas
IBM e big data: previso local abastecimento e construo postos
Mas os carros j no possuem computador de bordo?
Apenas parte dos dados coletados so usados
Empresas inovadoras procuram valor oculto nos dados
Na era big data custo e benewcio pode estar na reuHlizao
bsica, fuso de Bancos de Dados ou novas descobertas
Muitos dados se perdem ou so subuHlizados
O valor est no que possvel extrair
Valor dos dados a soma das possibilidades
95

Extraindo o mximo dos Dados

Reu[lizao e recombinao
ReuHlizao: dados de uso primrio uHlizados para outros ns
o Dados das buscas: corretor ortogrco
o Amazon extraiu preferncia de usurios da AOL
o Reconhecimento de voz: Google versus Nuance
o SWIFT: prever PIB a parHr de transferncias internacionais
o Operadora de Celular: dados de localizao annimos
Recombinao: combinar fontes de dados diferentes
Uso de Celular e Cncer (Dinamarca): 3,8 milhes de dados
Zillow (Ramo imobilirio): informaes de
imveis + preos + mapas para prever
valores
96

Extraindo o mximo dos Dados

Expanso e depreciao
Expanso: dados adequados a vrios usos
o Cmeras: segurana e uxo de clientes
o Street View: fotos, dados de GPS (autopiloto), nomes de redes
WiFi (especula-se que at dados) dois pelo preo de um
Depreciao: perda de uHlidade com o tempo
o Desao de separar dados teis ou manter todos
o NSA mantem dados do maior nmero possvel
Uso exausHvo dos dados
Case corretor: Yahoo pensou, Google agiu (veio de graa)
Treinamento de voz: aprendizado recursivo
Gostamos de aprender com bancos de dados
enormes e barulhentos funcionrio Google
97

Cadeia de Valor do Big Data

Informao
Dados da empresa auxiliam na denio do seu valor contbil
Bancos e a Terceirizao de cartes: qual o custo?
Mastercard analisa 65 bilhes de transaes de 1,5 bilho de
clientes em 210 pases e at vende informaes
Capaz de descobrir: encher tanque 16h, gastar de US$ 35,00 a
US$ 50,00 na prxima hora (em mercearia ou restaurante)
Sensores sem o em nibus pblico para prever quebras
o Diminuiu o custo em at 10%
o Possibilitou a subsHtuio de uma pea com 450
mil Km (antes era com 320 ou 400 mil): economia
de mais de US$ 1 mil/veculo
Origem da informao irrelevante: mdia e dados
98

Cadeia de Valor do Big Data

Especialista de Dados
Ganha bem, trabalha duro e entrega o diamante para o dono
Ideias e habilidades so acessrios: o valor recai sobre os dados
Valor migrou: conhecimento ideia dados
Morte do especialista?
Pioneiros tem origem externa ao seu domnio: especialista em
anlise de dados, IA, matemHca, estatsHca etc.
Piada Microso{: a qualidade das tradues aumenta sempre que
um linguista deixa a equipe
Grupo Google capaz de traduzir para idiomas
que no dominam

99

Cadeia de Valor do Big Data

Pessoas e Empresas com mente Big Data


Novo perl: menos especialista, mais generalista
Setor de videogames faturam mais/ano que Hollywood/mundo
Usam big data para entender o jogador (vendas de itens)
Intermedirios que agrupam e vendem dados
Big data pouco Hl para empresas de porte mdio: vantagens de
escala para grandes e custo e inovao para pequenas
Big data obriga mdias a se tornarem grandes ou pequenas
Veem oportunidades antes dos outros: mesmo sem dados
CriaHvo e observador: no se limita ao que
exequvel, mas ao que possvel
Em expanso e com muitas oportunidades
100

Riscos do Big Data

Privacidade e Punies Predi[vas


Dados podem se tornar instrumento de opresso
Como saber de objeHvos que sequer existem
Case Street View: casa ofuscada
ConsenHmento individual, opo de excluso e anonimizao
perderam ecincia
AplicaHvos de smartphones: solicitam autorizao localizao
NSA em Fort Williams: invesHmento de US$ 1,2 bilhes
Coleta dados o tempo todo, do maior nmero possvel
So capazes de invesHgar assim que idenHcam o suspeito
Comportamento de compra pode idenHcar uma pessoa

101

Riscos do Big Data

Privacidade e Punies Predi[vas


Cases de Anonimato quebrado
o Buscas AOL e pesquisa do New York Time
o Prmio Nelix disponibilizou 100 milhes de registros de 500
mil usurios e US$ 1 milho a quem melhorasse
recomendaes: resultado, idenHcaram clientes
o Nelix e Pesquisadores da Universidade do Texas:
classicao 6 lmes obscuros (de 500 mais vistos) - possvel
idenHcar cliente com 84% preciso (de posse da data da
classicao, sobe para 99%)
Memphis, no Tennessee: big data aplicado na diminuio de
crimes, prevendo aes (Blue CRUSH)
Pode-se punir prediHvamente?
102

Big Data: Normas e Regulao

Regulao
rea nova, ainda no h regulao especca
Como invesHgar? Quem capaz?
Algoritmistas, a nova prosso?
o Algoritmistas externos e internos
Governos tambm devem ser regulados?
Big data altera autocontrole da sociedade?
Para onde vamos?

103

A[vidades de Avaliao

Temas dos trabalhos


1. MapReduce
2. Pentaho
3. IBM Big Data
4. Hadoop
5. Google Bigtable
6. mongoDB
7. CouchDB
8. Cassandra
9. redis
10.HBase
Critrios de Avaliao
Tempo Apresentao Inovao Domnio - Pesquisa
104

Sequncia Did[ca

04/out/2014: Projetos de Big Data


Ferramentas de Big Data
Dados no estruturados e o NOSQL
Projeto de Big Data: ganham os pequenos ou os grandes
Construo de uma soluo simples de Big Data
Apresentao de trabalhos

105

Ferramentas Big Data

Ferramentas de Big Data


H ferramenta ou soluo especca para Big Data?
Big Data: estruturas de indexao de dados e de visualizao
Estrutura de indexao de dados
o Agrupa dados estruturados e no estruturados
o somente a composio dos dados (isso lembra algo?)
Componente de visualizao de dados: um ou vrios
o IBM Cognos, QlikView, SAP Business Objects, Datameer,
splunk, Oragle Business Intelligence entre outros
(lembra algo tambm?)

106

Ferramentas Big Data

Ferramentas de Big Data


Simplicando o NOSQL (Not Only SQL)

Estruturados

No Estruturados

107

Ferramentas Big Data

NOSQL versus BD Relacional


NOSQL no relacional (no estruturado)
NOSQL possui sua linguagem de consulta
Relembrando conceito dos BDs relacionais
O que se ganha com o NOSQL
aplicvel a todos os casos?
Transacional tem propriedades ACID (Atomicity, Consistency,
IsolaHon, Durability)
Relacional: Transacional: indispensvel onde h necessidade de
preciso e consistncia de referncias
Soluo: uHlizar NOSQL conjuntamente com um relacional

108

Ferramentas Big Data

Consultas SQL em uma tabela


SELECT Lista_atributos FROM Tabela WHERE Condio
Exemplos de consultas com funes de agregao
SELECT COUNT(*) FROM CLIENTE
SELECT COUNT(*) FROM CLIENTE WHERE sexo=feminino
SELECT nome FROM CLIENTE WHERE codigo not in (SELECT
codigo FROM FONE)
SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT
avg(salario) FROM CLIENTE WHERE SEXO=MASCULINO)

109

Ferramentas Big Data

Tipos de armazenamento NOSQL


Key/Value Store o mais comum (uma chave, um valor), suporta
mais carga, muita escalabilidade
o Ferramentas: Berkeley DB, Tokyo Cabinet, Kyoto Cabinet,
Project Voldermort, MemcacheDB, SimpleBD, Redis, Riak,
entre outros
Wide Columns Store tem inspirao no BigTable (Google), suporta
vrias linhas, colunas e at subcolunas
o Ferramentas: Hbase (Apache), Cassandra entre outros
Document Store baseados em documentos XML e JSON
o Ferramentas: MongoDB, CouchDB (Apache)
entre outros

110

Ferramentas Big Data

Tipos de armazenamento NOSQL


Graph Store mais complexo pois guarda objetos
o Ferramentas: Neo4J , InfoGrid e HyperGraphDB
Column Oriented Store so bancos de dados relacionais com
caractersHcas NOSQL. Dados armazenados em colunas
o Ferramentas: MonetDB, LucidDB, Infobright e
Ingres/Vectorwise
Cases:
SimpleDB uHlizado pela Amazon
Hbase ligado ao Hadoop
MongoDB uHlizado por: Disney,
MTV Networks entre outros
111

Ferramentas Big Data

Exemplos de NOSQL no MongoDB


MongoDB: orientado a documentos, escalvel, livre de esquema,
de alto desempenho e cdigo aberto escrito em C++
Dados dispostos em colees - estrutura JSON (JavaScript Object
NotaHon). Exemplo:
pessoa{ name: Marcos Paulo, nick: Marquinhos, age: 30, phone:
{mobile: 99998888, residencial:444433333}}

Registros exveis: quando for necessrio, altere


Ideal para leituras de grandes volumes no estruturados
Exemplos de consultas:

112

Projeto de Big Data

Por onde comear


Planejamento estratgico da empresa
Denio do escopo do projeto e demais artefatos
No desenvolvimento:
o Base de dados interna transacionais
o Base de dados informacionais
o Flat les imprescindveis para o negcio
o Dados externos acessveis
o Dados que precisam ser adquiridos
o Dados de mquina relevantes para o negcio
o Ferramentas de indexao de dados
o Ferramentas de visualizao de dados
113

Projeto de Big Data

Estrutura Tradicional
Custo j conhecido
ETLs especcas
Conhecimentos do negcio
Tempo e custo elevados
Dados estruturados e no
estruturados no necessariamente
integrados
Carga de dados
Banco de Dados para o Big Data

114

Construo de uma soluo simples de Big Data

Case Big Data: Simplicao com Splunk


Possui storage de dados prprio
Possibilita integrao com Hadoop (uso de fontes de dados)
Capaz de gerar e integrar dados estruturados e no estruturados
Integra ferramenta de visualizao prpria
Gera relatrios, dashboards etc.
www.splunk.com.br (free download: verso trial)
Neste case uHlizamos
o Dados da mquina local (no estruturados)
o Banco de dados empresarial annimo (estruturado)
Vdeo

115

Ferramentas de Big Data

Apresentao dos trabalhos


Tempo de apresentao: 10 minutos

116

UNIVERSIDADE FEDERAL DE GOIS


ESCOLA DE ENGENHARIA ELTRICA E DE COMPUTAO

ESPECIALIZAO NAS TECNOLOGIAS PARA A GESTO DE
NEGCIOS
HTTP://WWW.GESTAODENEGOCIOS.EEEC.UFG.BR/

ATA
BIG D

SIRLON DINIZ DE CARVALHO DR

sirlondiniz@gmail.com


117

Vous aimerez peut-être aussi