Vous êtes sur la page 1sur 65

O grande livro

de Big Data
Um guia prático para tirar o
seu primeiro projeto de Big Data
do papel.
Conteúdo
Parte C: Sua cadeia de suprimentos de
Introdução 3 36
Big Data descomplicada

Parte A: Como se preparar 4 Sua equipe 37


Cinco lições essenciais para a criação da equipe 38
O que você precisa saber 5 Implemente a governança de dados 42
Por que a maioria das empresas implementa As habilidades que você tem e aquelas de que precisa 45
projetos de Big Data 6
Por que os projetos de Big Data falham 7 Suas ferramentas 47
Como fazer o seu projeto de Big Data funcionar 10 Noções básicas sobre as ferramentas de Big Data 48

Escolha do projeto certo 12 Seus processos 52


Como seria o projeto certo 13 Os oito Big Data 53
Considere o impacto 15
Projetos táticos de Big Data: Alguns exemplos 17 Sua arquitetura 56
A jornada básica do Big Data 19 Primeiros passos: Sua área restrita 57
A arquitetura ideal do Big Data 59
Parte B: Sua estratégia 23
Seu plano de projeto 60
Defina as suas metas 24 Seu plano de projeto 61
As metas de negócios 25
Metas de TI 27 Seguindo em frente 63

Defina as necessidades de dados 29 Próximos passos 64


Quais são os dados que você precisa? 30
Cinco considerações essenciais em relação aos dados 33 Sobre a Informatica 65

Dica: Clique para acessar a seção

2 | O grande livro de Big Data da Informatica


Como Poucas tendências tecnológicas foram
tão comentadas quanto o Big Data.
Este livro tem o objetivo de desfazer
essa confusão.

ser E, ao mesmo tempo, poucas tendências


tecnológicas ofereceram às empresas
O segredo é blindar a sua estratégia
e executá-la de forma pragmática.

grande
tanto potencial de transformação. Desde Este livro servirá como um guia
que o software começou a envolver prático na sua jornada, esteja você
processos de negócios completos, na começando uma iniciativa específica
virada do século, uma coisa ficou clara: e tática ou planejando um esforço
os dados mudam o modo como mais estrutural para toda a empresa.
trabalhamos.
Vamos nos aprofundar.
É claro que, com grandes expectativas,
também vêm grandes desilusões.
E, no caso do Big Data, com certeza
já vimos bons conselhos e informações
erradas difundidos na mesma medida.
Infelizmente, como este admirável
mundo novo de dados infinitos ainda
é bem recente, todo esse barulho deixou
muita gente confusa.
3 | O grande livro de Big Data da Informatica
Parte A:
Como se
preparar
O livro está divido em três partes.
Nesta primeira parte, tentaremos aprimorar a sua
visão para que você possa escolher o projeto certo.

Voltar para Conteúdo <

4 | O grande livro de Big Data da Informatica


O que você 14

precisa saber 12

Antes de falarmos sobre as especificidades 10


do seu próprio projeto, veja algumas questões
que a maioria dos profissionais que estão
trabalhando com Big Data gostaria de ter
ficado sabendo antes de começarem seus 8

projetos.

2
O que você
precisa saber

Por que a maioria das organizações


implementa projetos de Big Data
Quando as empresas  o tentar melhorar suas análises,
A  s empresas querem fazer as
A Todos esses aspectos são ótimos
as empresas percebem que, coisas de maneira mais rápida, motivos para se interessar por
decidem que vão se para isso, precisarão analisar melhor e mais barata usando o Big Data. Mas, se quiser garantir
dedicar ao Big Data, uma quantidade de dados Big Data para comunicar todas que os seus projetos resistam ao
o motivo geralmente significativamente maior. as decisões relacionadas a uma teste do tempo (e da análise
é um dos descritos a Geralmente, uma unidade de unidade de negócio ou a um multidepartamental), você terá
negócio (por exemplo, marketing) processo específico. que ser muito claro sobre qual
seguir. começa essas iniciativas. desses motivos melhor representa
 
Percebem que o Big Data é o seu interesse.
O processo torna evidente que é essencial para todas as unidades
possível envolver os produtos em de negócio da organização e
uma camada de serviços, tentam estabelecer as bases para
fornecendo uma análise (quase uma visão centralizada em
sempre em tempo real) capaz de dados, em todo o seu universo.
ajudar os clientes a usar os
produtos de maneira mais E las sabem que precisam
eficiente e infalível. começar um projeto de Big Data
antes que seja tarde demais,
mas ainda não sabem realmente
o que fazer. O objetivo é aprender
e experimentar.

6 | O grande livro de Big Data da Informatica


O que você
precisa saber

Por que os projetos de


Big Data falham
1
Uma pesquisa descobriu que 1
55% de todos os projetos de Big
Data não são concluídos e muitos Metas vagas
outros ficam aquém dos objetivos.
Embora essa taxa de desistência O motivo de falha mais citado Se envolver com Big Data só
não seja atípica em um estágio na pesquisa foi o “escopo para ter um projeto de Big Data
tão inicial de uma tendência de impreciso” do projeto. Muitas é a receita para o desastre.
tecnologia, seria insensato não empresas têm como meta projetos As complexidades desses projetos
aprender as lições que esses ambíguos,(ambíguos demais, vale exigem um compromisso firme com
projetos podem ensinar. ressaltar), com objetivos não muito a obtenção de um determinado
claros, e que falham quando elas resultado. Sem a certeza das
Vamos analisar os quatro precisam fazer escolhas difíceis metas, isso não é possível.
principais motivos para o sobre o que é ou não é importante.
fracasso de projetos de Big Data.

1.
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
7 | O grande livro de Big Data da Informatica
O que você
precisa saber

Por que os projetos de


Big Data falham
2 3

Expectativas mal administradas Atrasos e demoras nos projetos

Todo o entusiasmo em torno do Big Quando a expectativa de Apesar dessa disciplina ser Quando raros e caros
Data gera algumas expectativas impacto e insights é muito alta, bem nova para as empresas, desenvolvedores de Hadoop Java
muito perigosas sobre o que você se pega navegando em não é novidade que a maioria são contratados e encarregados
o projeto pode proporcionar. terabytes de anônimos e dos projetos de Big Data acaba de implementações gigantescas
Por mais que seja tentador fazer desconhecidos à procura de custando caro ou demorando com codificação manual, as
promessas a curto prazo, ouro. Quando a expectativa de muito. Normalmente, isso é empresas logo percebem que é
é importante manter uma visão resultados não é realista, você resultado de uma mistura de impossível sair do ambiente de
realista do que se pode esperar acaba buscando prazos e expectativas mal administradas área restrita sem erros. Como
do projeto, quanto tempo isso vai orçamentos que não são justos. e de visões inadequadas sobre resultado, os projetos de Big Data
levar e a quantidade de esforços como construir uma arquitetura acabam definhando como um
necessários para chegar lá. dimensionável. experimento científico e nunca
saem do laboratório.

8 | O grande livro de Big Data da Informatica


O que você
precisa saber

Por que os projetos de


Big Data falham
4

Incapacidade de dimensionar

Já é difícil encontrar cinco Muito frequentemente, as empresas Os quatro motivos do fracasso


ótimos desenvolvedores Hadoop buscam a conveniência do curto do Big Data são preocupantes
Java. Mas, quando os projetos prazo em vez da sustentabilidade e muito comuns. Por isso, vamos
aumentam e precisam se ajustar a longo prazo. Embora seja falar sobre como é possível
a 30 desenvolvedores Java em precipitado de nossa parte sugerir evitá-los e construir uma
um único ano, as coisas podem que é sempre possível evitar implementação duradoura.
chegar ao limite. O pior não a troca de um pelo outro, nunca
é o custo da oportunidade é demais enfatizar a importância
de clusters Hadoop não usados; da visão de longo prazo. Para que
é o custo da oportunidade e do os seus dados sejam protegidos
tempo perdidos. e gerenciados adequadamente,
você precisa sempre supervisionar
as implicações de longo prazo
do seu projeto.

9 | O grande livro de Big Data da Informatica


O que você
precisa saber

Como fazer o seu projeto de


Big Data funcionar
Como a maioria dos projetos de 1 2
Big Data falha por falta de
clareza e devido à incapacidade Defina objetivos claros e Defina as métricas que
de demonstrar a funcionalidade administre as expectativas comprovam o valor do projeto
da iniciativa, você mesmo deve
se responsabilizar por isso para Se você não sabe qual deve ser Métricas claramente definidas Isso é crucial, pois os usuários de
a meta do seu projeto, pense nos e que se ajustem aos objetivos negócios precisarão de ajuda
trazer foco e comprovação ao
objetivos que definiu para a podem evitar uma grande para racionalizar compromissos
seu projeto. Seguem três dicas
infraestrutura de dados existente. quantidade de problemas. de curto prazo, e as metas
úteis para garantir que o seu
projeto já comece dando certo Se a sua organização já precisa Ao definir metas realistas que mensuráveis ajudam a provar
e continue em operação. de dados para determinados podem ser medidas, todos ao que você está proporcionando
processos de negócios (como seu redor conseguirão ver o mais valor do que eles imaginam.
detecção de fraudes ou análise progresso que você está obtendo.
de mercado), pense em como
o Big Data pode melhorar O mais importante: eles saberão
ou valorizar esses processos. que você tem como objetivo o
Em vez de abordar um problema longo prazo. Pergunte a si
totalmente novo, você deve ter mesmo como você pode medir
como alvo melhorar um processo o impacto do seu projeto no
ou projeto já existente. contexto das suas metas.
Sem um foco claro e um valor
perceptível aos usuários de
negócios, o projeto estará
condenado ao fracasso.

10 | O grande livro de Big Data da Informatica


O que você
precisa saber

Como fazer o seu projeto de


Big Data funcionar
3

Seja estratégico sobre


ferramentas e codificação manual

Evite a tentação de codificar tudo O mais importante é não cair na Além disso, como as tecnologias
manualmente diretamente no armadilha de desperdiçar talentos do tipo Hadoop evoluem a cada
Hadoop. Lembre-se de que o de desenvolvimento de Java, raros dia, vale a pena considerar uma
objetivo aqui não é construir uma e caros, em aspectos que não camada de abstração que possa
implementação de trabalho podem ser dimensionados ou lhe proteger das constantes
manual a partir do zero; o transferidos para outros mudanças nas especificações
objetivo é entregar o valor do funcionários. A sua função é tomar das tecnologias subjacentes.
Big Data para a sua organização. decisões estratégicas sobre a
implantação de recursos escassos, Acima de tudo, lembre-se de que
de forma a atingir seus objetivos. as habilidades necessárias são
Em vez de tentar codificar
manualmente cada integração, escassas, mas as ferramentas
Adote ferramentas que possam
limpar cada conjunto de dados estão sempre disponíveis.
aumentar a produtividade da
e codificar manualmente todas
equipe de desenvolvimento por
as análises, você deve analisar
meio do aproveitamento das
ferramentas e automação para
habilidades e do conhecimento
ajudar a acelerar esses processos.
da qualidade dos seus dados de
ETL existentes e de especialistas
em Business Intelligence,
enquanto libera os especialistas
em Java para trabalhar na lógica
específica para a qual não há
ferramentas disponíveis.
11 | O grande livro de Big Data da Informatica
Escolha do
projeto certo
Sob a perspectiva dos desafios que você
enfrentará, vamos analisar agora o que você
deve fazer para escolher o projeto certo para
a sua organização.
Escolha do
projeto certo

Como seria o projeto certo

Se a sua organização está 1 2


ansiosa por mudanças e já
aceitou que será preciso ter uma Valor demonstrável Patrocínio
estrutura abrangente de
governança de dados para O projeto certo é aquele em que o Os executivos que aderirem à Portanto, se você sabe que
melhorar a forma como eles valor é compartilhado de maneira sua visão serão essenciais para pode construir análises
trabalham, provavelmente você igual entre a TI e a unidade de o sucesso do projeto. Os projetos excelentes para a logística,
poderá ignorar esta seção. negócio que você está tentando de Big Data precisam de mas o único executivo que aderiu
ajudar. Isso significa proporcionar defensores e patrocinadores em foi o gerente de fábrica, pense
Por outro lado, se você está um valor claro para um altos cargos, que estejam novamente. Se o marketing é o
pensando em um projeto tático departamento, uma unidade de dispostos a defender o trabalho seu defensor, trabalhe para
e específico, que pode ser negócio ou um grupo, de forma que você está fazendo. apoiar os requisitos de análise
adaptado posteriormente para que eles possam ver. de marketing. Não dá para
a empresa como um todo, forçar ninguém a mudar. Siga a
continue lendo. influência e extraia o máximo de
valor possível.
O projeto certo tem estes quatro
componentes.

13 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Como seria o projeto certo

3 4

Um efeito de jogo de boliche Habilidades transferíveis

A importância estratégica do seu Depois de ter demonstrado o  Como dissemos no último ponto, é Portanto, prepare-se para
primeiro projeto tático é vital. valor do Big Data para o seu preciso que o valor do seu primeiro dimensionar, de modo que você
Além de provar, sem sombra de departamento de marketing, por projeto ajude a convencer os possa lidar com mais projetos no
dúvida, que o Big Data pode exemplo, será mais fácil conquistar outros departamentos da empresa. futuro. Não se trata apenas de
ajudar a unidade de negócio a adesão das equipes de logística Para isso, é preciso se certificar dimensionar o seu cluster. Trata-
que você está apoiando, é bom que talvez estejam reticentes. de que você pode aprender as se de dimensionar habilidades
se certificar de que o valor possa habilidades, as capacidades e as e operações. Você vai precisar
ser comunicado facilmente para lições certas do seu primeiro encontrar mais especialistas de
a empresa em geral. projeto. Mais enfaticamente, Java/Hadoop ou encontrar
é preciso garantir que tudo isso maneiras de extrair mais dos
Portanto, ao escolher o seu seja documentado para que você recursos que já tem.
primeiro projeto, faça isso de possa transferir conhecimento para
maneira estratégica. o próximo projeto. Lembre-se, se a
sua meta é o sucesso, então você
já está se preparando para futuros
projetos.

14 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Considere o impacto

Quando for escolher qual será 1


o seu próximo projeto, você
também terá que pensar em como Custo e interrupção
isso afetará a organização.
Há três aspectos gerais que No nível mais básico, o custo do Outras vezes, está relacionada
devem influenciar a sua decisão de projeto se baseia no tempo e no com a tecnologia e as habilidades
buscar o projeto certo de Big Data. dinheiro que serão necessários – ou seja, quando você precisa
para torná-lo realidade. Na integrar novas tecnologias à
verdade, é preciso considerar infraestrutura existente e
também a possível interrupção reorganizar ou atualizar as
que isso causará. capacidades para fazer isso.

Às vezes, a interrupção é Seja qual for o caso, você deve


processual – por exemplo, prever, reconhecer e certificar-se
quando as unidades de negócio de que quer minimizar a
são usadas para armazenar os interrupção ou informar por que
dados e não se sentem à vontade isso é importante.
em abrir mão do controle deles
para uma estrutura centralizada
de governança de dados.

15 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Considere o impacto

2 3

Cronograma de benefícios e Recursos e restrições


impacto
Mais importante: quando os Tendo em conta a análise dos Atingir essa meta funciona nos
Ao considerar o início de usuários de negócios verão os dois últimos fatores, considere dois sentidos. Por um lado, você
diferentes projetos, a tendência resultados nos negócios? Por os recursos à sua disposição. tem como meta o máximo
é que você se volte aos que exemplo, você poderia introduzir Nós abordaremos isso com impacto nos negócios. Mas
podem oferecer o máximo de o gerenciamento de dados mais detalhes posteriormente. também é preciso ser estratégico
impacto e melhoria aos negócios. mestres no data warehouse e Por enquanto, basta lembrar na hora de gastar o orçamento.
Mas também é importante melhorar radicalmente a eficiência que, naturalmente, você quer Embora seja tentador construir
considerar a natureza do de Business Intelligence. Mas esse que o seu projeto ofereça mais uma equipe de cientistas de
impacto nos negócios. O projeto valor só será sentido quando os retorno do que o dinheiro dados similar à equipe do
proporcionará a maior parte do analistas de negócios perceberem investido. Google, há realmente recursos
valor no curto ou no longo prazo? que não precisarão limpar os suficientes para tanto? Fazer
dados financeiros novamente. escolhas inteligentes sobre as
ferramentas e o número de
funcionários será fundamental
para o sucesso do seu projeto.

16 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Projetos táticos de Big Data:


Alguns exemplos
Há uma grande variedade
Financeiro Varejo Mídia
de aplicativos para Big Data.
Por mais emocionante que seja,
∙∙ Análise de ∙∙ Envolvimento ∙∙ Rastreamento
isso também se torna um pouco
risco e portfólio de clientes de comportamento
assustador para as pessoas que
∙∙ Recomendações proativos em jogo
não têm certeza quanto ao
de investimento ∙∙ Serviços baseados ∙∙ Opções de vendas
projeto certo para começar. Aqui
em localização cruzadas e
está uma lista de projetos táticos
adicionais
de Big Data que vimos nossos
clientes empreenderem.
Fabricação Assistência médica Setor público
Se você ainda não tem certeza
sobre qual projeto deve ser ∙∙ Programas de ∙∙ Previsões de ∙∙ Seguro saúde
iniciado primeiro pela veículos resultados de ∙∙ Intercâmbios
organização, considere os conectados pacientes ∙∙ Otimização
seguintes exemplos para ter uma ∙∙ Manutenção ∙∙ Custo total do tributária
ideia melhor do que o Big Data preditiva tratamento ∙∙ Detecção de
pode oferecer para a sua empresa. ∙∙ Descoberta de fraudes
medicamentos

17 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Projetos táticos de Big Data:


Alguns exemplos
O que alguns de nossos clientes ∙∙ U
 ma grande empresa de ∙∙ U
 m fabricante envolvido com
buscam tecnologia no Vale do Silício locomotivas pretende liberar
tem como objetivo economizar uma milha adicional por hora
Confira o modo como alguns de mais de US$ 10 milhões em em rotas diárias para que seus
nossos clientes descrevem seus custos do data warehouse que clientes possam economizar
esforços específicos. Este é o tipo não para de crescer utilizando até US$ 200 milhões por ano.
de foco que você deve buscar. uma combinação de Hadoop
e uma tecnologia tradicional ∙∙ U
 ma empresa global de
de data warehouse para serviços de pagamentos está
diminuir o crescimento do tentando aumentar os negócios
custo total por terabyte. digitais em 30% através do
aumento da personalização
∙∙ U
 m grande fabricante na área do cliente, tudo parte de uma
de transportes está buscando estratégia de Big Data
reduzir a taxa de consumo de denominada “otimização
combustível de seus veículos omni-channel de varejo”.
em 1% ao longo dos próximos
10 anos. Ele também pretende Essas são algumas grandes
reduzir as emissões tóxicas de vitórias para qualquer equipe
carbono aumentando os de Big Data.
períodos de manutenção em
10% e melhorando a
quilometragem em 1%.

18 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada básica do Big Data

Se você estiver pronto para 1


construir as bases para uma
abordagem de Big Data para Otimização do data warehouse
toda a empresa, os três passos
seguintes serão essenciais para Isso implica optar pelo O objetivo é evitar atualizações
a sua jornada. armazenamento e onerosas do seu data warehouse
processamento de dados na e começar a usar hardware
Na verdade, mesmo que esteja plataforma mais econômica. e estruturas de computação
planejando apenas alguns Muitas vezes, isso começa com distribuída mais econômicos,
projetos táticos de Big Data, é a retirada de dados brutos ou como o Hadoop, para que você
necessário considerar estes três pouco usados e de cargas de esteja preparado para lidar com
passos. Cada um é essencial trabalho de ETL do hardware o volume, a variedade e a
para a integridade fundamental caro de data warehouse. velocidade do Big Data.
da organização centrada em
dados. Na verdade, para obter
o máximo custo/benefício, siga
estas etapas na ordem.

19 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada básica
do Big Data
2 3

Um lago de dados gerenciados Inteligência operacional


em tempo real
Um lago de dados gerenciados Isso significa criar um lago
é um local único para gerenciar de dados que refine, governe Aqui, você cria as tecnologias
a oferta e a demanda de todos e domine os dados. Porém, é (interfaces de envolvimento,
os seus dados. A palavra-chave preciso ter uma visão antecipada aplicativos que consomem muitos
aqui é “gerenciar”. O objetivo muito boa para chegar lá, pois é dados e análises) necessárias
é converter a confusão necessário incorporar políticas de para acessar, analisar e entregar
multiestruturada em informações governança de dados e processos todos os dados. Os aplicativos
confiáveis e seguras, adequadas estratégicos rigorosos. Sem eles, criados aqui devem ser fáceis de
à sua finalidade. o lago corre o risco de se usar e entregar as informações
transformar basicamente em que os usuários precisam.
um pântano de dados.
Pode ser uma interface para os
representantes de atendimento
ao cliente que monitoram o
comportamento dos clientes
através de vários canais e
identificam aqueles com maior
probabilidade de rotatividade
nas próximas duas semanas.

20 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Uma jornada de três passos

Como já dissemos, para obter


a melhor relação custo/benefício,
recomendamos seguir três passos,
na ordem apresentada.

Otimização do data warehouse Lago de dados gerenciados Análise em tempo real

Reduza os custos de Crie um único local para Entregue aplicativos avançados


infraestrutura e reforce gerenciar a demanda que forneçam as informações
a arquitetura da empresa. e a oferta de dados. de que as pessoas precisam.

21 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada básica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais

Até mesmo projetos básicos ∙∙ U


 ma organização global que ∙∙ U
 ma organização de
devem ser específicos sobre o que conduz centenas de milhões consultoria financeira global
estão tentando construir. Embora de transações financeiras em criou uma infraestrutura lógica
a especificidade aqui talvez não centenas de países construiu de data warehouse para
seja relacionada aos custos e ao um hub de dados de toda a garantir a disponibilização de
tempo economizados, ela se empresa. O objetivo é fazer informações consistentes em
aplica aos limites do que está a análise do Big Data e todas as plataformas padrão
sendo exatamente construído. identificar as principais (incluindo Hadoop, bancos de
Considere os seguintes exemplos macrotendências e padrões dados operacionais e data
de projetos de infraestrutura de na interação com os clientes. warehouses tradicionais) que
Big Data dos nossos clientes. estão sendo usadas pela
∙∙ U
 ma grande empresa de organização.
tecnologia construiu uma
análise em nuvem de toda Em resumo: Grandes jogadas
a empresa para reduzir o tempo causam grandes impactos, mas
de introdução no mercado de exigem as bases certas.
produtos orientados por dados,
incluindo novos conjuntos de
dados em análises a serem
usadas nas unidades de
negócio.
22 | O grande livro de Big Data da Informatica
Parte B:
Sua estratégia
Agora vamos ser práticos e analisar
os requisitos específicos para o seu
próximo (ou primeiro) projeto de Big Data.

Voltar para Conteúdo <

23 | O grande livro de Big Data da Informatica


598
55mph

Defina as
276m
70mph

suas metas
101m
75mph

Pegue o lápis. Como já dissemos, a causa


número um de falhas em projetos de Big Data
é a falta de objetivos claros. Agora, precisamos
garantir que o projeto que você tem em mente
não se perca em ambiguidades.

501m
69mph

411m
67mph

136m
72mph
Defina as suas
metas

As metas de negócios

Vamos começar com os Seja o mais específico possível Quanto mais claras forem suas
ao estabelecer as metas de metas, maiores serão suas
negócios, porque esses negócios a serem alcançadas chances de atingi-las. Uma meta
objetivos deverão ter pelo projeto. E lembre-se de superfocada vale mais que cinco
precedência sobre as estabelecer metas cujo impacto metas vagas.
metas de TI se você seja mensurável.

quiser total apoio para Por exemplo, no caso da interface


o seu projeto. de serviço ao cliente que prevê
a rotatividade de clientes, as metas
para esse projeto não devem ser
listadas de forma vaga, como, por
exemplo, “melhorar a experiência
do cliente”.

25 | O grande livro de Big Data da Informatica


Defina as suas
metas

As metas de negócios Qual deve ser a duração do


seu projeto de Big Data?

Seu projeto de Big Data deve


Liste, em ordem de importância, as metas do seu Defina intervalos de tempo mínimo e máximo para demorar o tempo que for
necessário para que seja
projeto de Big Data que digam respeito aos cada meta a ser alcançada. plenamente efetivo. Em nossa
negócios e aos usuários de negócios. Fique à Por exemplo, de três a seis meses experiência, o âmbito do projeto
vontade para inserir menos ou mais metas. determina o horizonte de tempo.

Por exemplo, reduzir a rotatividade de clientes Nós trabalhamos com clientes


que entregaram projetos táticos
em menos de três meses.
E trabalhamos com clientes que
passaram três anos produzindo
programas básicos.

Para projetos mais longos, lembre-


se de ter como objetivo demonstrar
Agora, para cada meta, escreva uma medida de o valor do projeto a cada seis
sucesso que possa ser usada para determinar se a meses. Se adotar uma abordagem
ágil, é recomendável mostrar as
meta foi alcançada. Idealmente, essas medidas diferentes fases e marcos como
devem ser métricas disponíveis ou seus respectivos projetos menores.
cálculos.
Uma coisa é certa: você não deve
Por exemplo, reduzir a taxa de rotatividade média tentar adivinhar esse prazo. Estime o
mensal em X% tempo de entrega com base em sua
experiência e na experiência de
outras pessoas que tenham
realizado anteriormente projetos
semelhantes. Se não souber para
quem pedir orientação, você sempre
poderá entrar em contato conosco.

26 | O grande livro de Big Data da Informatica


Defina as suas
metas

Metas de TI

Agora vamos analisar as metas Liste, em ordem de importância, as metas do seu


Pare, colabore e escute
de TI relacionadas ao seu projeto. projeto de Big Data que digam respeito à TI.
Fique à vontade para inserir menos ou mais metas.
Escrevemos este livro para que
(Lembre-se: se o objetivo do seu Por exemplo, estabelecer processos para coleta, você possa iniciar seu projeto de
projeto for melhorar as condições limpeza, criação de dados mestres e armazenamento Big Data, não importando se você
de trabalho ou agilizá-lo, será de dados de clientes globais em tempo real, dados trabalha na área de negócios ou
em TI. Em ambos os casos, não use
bem difícil sensibilizar os usuários de utilização de cartões de crédito, dados de gráfico adivinhações para suas metas.
de negócios. Por isso, as metas de sociais e indicadores de taxa de rotatividade Se precisar de orientações
TI devem ser comunicadas junto específicas sobre quais metas
escolher, procure um parceiro com
com as metas que os usuários de a experiência necessária e comece
negócios estão esperando.) a trabalhar em colaboração agora.

O sucesso do seu projeto depende


de colaborações estratégicas.

27 | O grande livro de Big Data da Informatica


Defina as suas
metas

Metas de TI

Defina intervalos de tempo mínimo e máximo para Agora, para cada meta, escreva uma medida de
cada meta a ser alcançada. sucesso que possa ser usada para determinar se
Por exemplo, de dois a quatro meses a meta foi atingida. Idealmente, essas medidas devem
ser métricas disponíveis ou seus respectivos cálculos.
Por exemplo, a taxa de previsão de rotatividade
exata de X%

28 | O grande livro de Big Data da Informatica


Defina as
necessidades
de dados
Agora que já definimos as metas específicas dos
seus esforços de Big Data, vamos direto ao núcleo
do projeto: os dados em si. Seja qual for o projeto,
você terá que pensar de maneira estratégica sobre
quais informações são necessárias, quais conjuntos
de dados atendem a essa necessidade, como obter
esses dados e como usá-los.
Defina as necessidades
de dados

Quais são os dados


que você precisa?
Primeiro, vamos analisar Para atingir as metas de negócios descritas Para proporcionar esse conhecimento, quais dados
a finalidade mais básica do anteriormente, o que os usuários de negócios precisam podem ser usados?
seu projeto de Big Data: as saber para tomar uma decisão fundamentada? Por exemplo, o histórico de compras do cliente, os
informações que você está Por exemplo, quais dos clientes mais valiosos são dados de revisão, a taxa de compras, a taxa de
tentando fornecer à organização. suscetíveis à rotatividade e quais comportamentos desistência, a taxa de rejeição, a qualidade do
Responda às seguintes perguntas se correlacionam à rotatividade atendimento ao cliente
o mais especificamente possível.

30 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Quais são os dados


que você precisa?
Quais sistemas de origem contêm esses conjuntos Além dos dados já mencionados, há outras
de dados? informações que podem proporcionar contexto ou
Por exemplo, registros de atendimento ao cliente, valor adicional às suas análises?
métricas de desempenho do produto, banco de Por exemplo, dados de pesquisa de atendimento
dados de atividade do cliente, gerenciamento de ao cliente, análise de concorrentes, dados
dados mestres de clientes meteorológicos, dados sociais

31 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Quais são os dados


que você precisa?
Entre os conjuntos de dados que não posso acessar
A busca por dados obscuros
atualmente, quais deles podem conter dados
contextuais adicionais?
Ao considerar os conjuntos de
Por exemplo, dados sociais de terceiros, dados de dados aos quais você não tem
mercado de terceiros, dados meteorológicos acesso, não se limite aos dados
externos à sua organização.
O Gartner descobriu que a
maioria das empresas usa apenas
15% dos seus dados . A Appfluent,
2

uma empresa que faz análise


estatística sobre a utilização de
data warehouse, descobriu que
entre 30% a 70% dos dados de
um data warehouse estão inativos.

O restante fica escondido em silos


de difícil alcance e localização,
cujos custos de utilização são
altos, em arquivos legados e em
repositórios de dados. Isso não
seria um problema se você já não
estivesse pagando para
armazenar todos esses dados.

Ao procurar os dados de que


precisa, vale a pena começar por
aqueles que a sua organização
já tem.

2.
 ite do Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | O grande livro de Big Data da Informatica
Defina as necessidades
de dados

Cinco considerações essenciais


em relação aos dados
Após esboçar os dados que vai 1
procurar, você terá uma visão mais
clara dos desafios específicos do Prepare-se para o volume
Big Data. Em especial, há cinco
elementos-chave que devem ser Você terá que se preparar para Um inventário completo
considerados antes de avançar lidar com a “enormidade” dos e organizado dos seus dados
muito, pois eles determinarão dados que serão necessários. ajudará a determinar como
o que precisará ser feito para Usando dimensões, classifique gerenciar tudo isso. Avalie
cada conjunto de dados, bem os dados com base nos seus sua capacidade atual de
como para o conjunto de dados respectivos valores (por exemplo, armazenamento e
de Big Data. transações de clientes), uso processamento e procure as
(frequência de acesso), tamanho formas mais econômicas e
(gigabytes, terabytes), eficientes de torná-la
complexidade (dados de dimensionável.
máquinas, dados relacionais,
vídeo etc.) e quem tem permissão
para acessá-los (apenas seus
especialistas de dados ou qualquer
usuário ocasional de negócios).

33 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Cinco considerações essenciais


em relação aos dados
2 3

Responsabilize-se pela variedade Administre a velocidade

O aspecto mais desafiador do Tentar codificar manualmente A combinação dos dados de Na verdade, a maioria das
Big Data é a grande variedade cada integração é tão streaming em tempo real e dos análises em tempo real precisa se
de formatos e estruturas que você complicado que poderia seus dados históricos geralmente basear em dados de streaming –
terá que conciliar em suas consumir todo o tempo e os aumenta a capacidade de muitas vezes, a partir de
análises. Será preciso integrar recursos disponíveis. Aproveite previsão da análise. Assim, diferentes fontes, em diferentes
várias fontes se quiser incluir ao máximo as ferramentas de alguns dos dados que você formatos. Prepare seu projeto
novos tipos e estruturas de dados integração e qualidade de dados deseja só poderão ser úteis se com uma tecnologia analítica de
(sociais, sensores, vídeo) às disponíveis para acelerar o estiverem constantemente fluindo streaming e uma infraestrutura
fontes com as quais você já está processo para tarefas mais nos sistemas. lógica para gerenciar todos os
acostumado (relacionais, importantes. dados.
mainframes legados).

34 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Cinco considerações essenciais


em relação aos dados
4 5

Garanta a veracidade Pense na conformidade

Não importa o grau de Para que os dados sejam Os vários conjuntos de dados com Além do arquivamento seguro e
importância de suas análises, adequados à finalidade, você os quais você lidará virão com inteligente de dados confidenciais,
elas não valerão nada se as precisa conhecer essa finalidade. diferentes condições e requisitos de faça o mascaramento dos dados
pessoas não puderem confiar Se um especialista de dados segurança. Para cada conjunto de com regras predefinidas sempre
razoavelmente nos dados que estiver procurando padrões em dados, é preciso considerar o que que migrá-los ou inseri-los nos
conseguirem. Quanto mais dados agregados do cliente, será necessário para torná-los ambientes de desenvolvimento
dados você analisar, mais a preparação necessária será anônimos com base em políticas e teste.
importante será manter um alto mínima. Por outro lado, os dados de segurança.
nível de qualidade dos dados. de relatórios financeiros e da Aplique essas cinco considerações
cadeia de suprimentos deverão Quantidades imensas de dados a cada conjunto de dados que
ser altamente editados, limpos irão se proliferar por toda administrar e, assim, você estará
e certificados para obter precisão
a empresa em centenas de preparado mais realistamente
e conformidade. repositórios de dados. Entenda para o grande desafio relacionado
onde os dados confidenciais aos dados.
Crie categorias baseadas na residem e lembre-se de protegê-
quantidade de preparação los na fonte por meio de
necessária, o que abrange desde criptografia e, em seguida,
dados brutos até um repositório controle quem tem acesso a eles.
de dados mestres altamente
editado, contendo dados limpos,
confiáveis e fidedignos.

35 | O grande livro de Big Data da Informatica


Parte C:
Sua cadeia de
suprimentos
simples de Big Data
Os métodos tradicionais de Business Intelligence e data
warehouse não dimensionáveis o suficiente para atender às
necessidades das iniciativas de Big Data. Agora, veremos como
você pode dimensionar a equipe, os processos e a infraestrutura.

Voltar para Conteúdo <

36 | O grande livro de Big Data da Informatica


Sua
equipe
Sua equipe de Big Data representa o seu maior
desafio e a sua maior oportunidade. Você
precisa de um bom equilíbrio entre pessoas que
entendem as metas de negócios e pessoas que
podem executar suas exigências técnicas.
Sua
equipe

Cinco lições essenciais para


a criação de equipes
A maioria das As estruturas de dados Quando começar a montar sua
distribuídos são muito difíceis de equipe, lembre-se de incorporar
organizações subestima gerenciar. Das habilidades Java as seguintes lições à estratégia
o nível de habilidade necessárias para desenvolver em de contratação.
necessário à aplicação Hadoop às novas habilidades
bem-sucedida de uma em ciências de dados a serem
contratadas, será necessário
nova tecnologia como obter muitas novas habilidades
o Hadoop. para que o projeto realmente
3
decole.

“Hadoop, Python e NoSQL lideram o grupo para tarefas


3.

de Big Data", InfoWorld, 5 de maio de 2014: www.infoworld.com/t/


38 | O grande livro de Big Data da Informatica it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884
Sua
equipe

Cinco lições essenciais para


a criação de equipes
1 2

Use as habilidades dos Pense estrategicamente sobre


profissionais que você contratou a composição da equipe

Um dos maiores erros que as Concentre as habilidades raras Se tudo der certo, o projeto O equilíbrio da sua equipe é
empresas cometem quando em tarefas que realmente crescerá em escopo e recursos. fundamental. Você está
contratam especialistas de dados precisam delas. Você não quer Pense de maneira estratégica procurando a combinação certa
e analistas quantitativos é pedir que os seus melhores profissionais agora e poupe-se da difícil de experiência em gerenciamento
que façam o trabalho pesado. peçam demissão e certamente conscientização de que você não de dados conquistada com
Quando os seus recursos mais não quer que eles percam tempo pode executar determinados trabalho duro e do entusiasmo
qualificados gastam todo o com um trabalho que pode muito processos com a rapidez para aprender novas ferramentas.
tempo em integrações de dados bem ser feito com ferramentas. necessária porque há um número Além disso, é preciso encontrar
que exigem codificação manual limitado de pessoas com as o equilíbrio entre pessoas com
e na limpeza de dados, você não habilidades necessárias, até habilidades técnicas e aquelas
só os deixa frustrados, como mesmo no Vale do Silício. com a experiência de domínio
também não aproveita as necessária para construir os
habilidades que foram tão Se o seu projeto crescer em modelos certos.
difíceis de encontrar. escopo, quais são as competências
que você pode razoavelmente
esperar encontrar a tempo de
atender às suas necessidades? Por
exemplo, especialistas de dados
são infinitamente mais difíceis de
encontrar, treinar e contratar do
4
que desenvolvedores.
“Big Data’s High-Priests of Algorithms” (Big Data - Os bispos dos
4.

algoritmos), Wall Street Journal, 8 de agosto de 2014:


39 | O grande livro de Big Data da Informatica http://online.wsj.com/articles/academic-researchers-find-
lucrative-work-as-big-data-scientists-1407543088
Sua
equipe

Cinco lições essenciais para


a criação de equipes
3 4

Alinhe as metas do seu projeto Quando a sua equipe aumenta,


no início e depois as comunique a necessidade de gerenciá-la
também aumenta

Um dos erros mais comuns que Sem um controle firme do valor Diferentemente de uma nova Elementos como cultura
as empresas cometem ao comercial do seu projeto, os tecnologia que pode ser e coerência não podem ser
contratar uma nova equipe novos contratados correm o risco implantada, implementada e subestimados. Pense muito e com
é esquecer de comunicar as de achar que só precisam pensar integrada de forma objetiva, calma sobre como integrar as
verdadeiras metas do projeto. nas metas de TI do projeto. o novo pessoal precisa se novas contratações em seus
Da primeira entrevista até o acostumar ao local de trabalho, processos. Talvez você não
trabalho em si, é preciso ficar ao trabalho que estão fazendo consiga treiná-los para as
claro o que você está tentando e às razões por que estão habilidades, mas com certeza
oferecer aos usuários de fazendo esse trabalho. Não pode ajudá-los a serem melhores
negócios. Potencialize o apoio importa se é você ou outra integrantes da equipe.
dos executivos para divulgar a pessoa: alguém precisa abraçar
missão e compartilhar histórias o desafio do gerenciamento que
de sucesso, bem como uma nova equipe exige.
problemas.

40 | O grande livro de Big Data da Informatica


Sua
equipe

Cinco lições essenciais


para a criação de equipes A importância de ser
estratégico
5
Uma escolha importante que você
Sua equipe não pode fará várias vezes é a possibilidade
ficar parada de criar seus recursos usando
ferramentas automatizadas
ou integrações manuais.
As tecnologias de Big Data estão As habilidades da equipe
A codificação manual lhe oferece
surgindo todos os dias. E as que precisam evoluir com a mesma um controle completo e preciso
já existem estão evoluindo velocidade das mudanças que sobre o que você está construindo.
rapidamente. Este é um momento estão ocorrendo no mundo. Muitas vezes, isso é inestimável
e necessário; por exemplo, quando
bastante emocionante para A boa notícia é que o que mais você escreve um script complexo
as empresas que são corajosas motiva os melhores profissionais para extrair metadados de uma
o suficiente para adotar as é o desafio de chegar primeiro. forma que ainda não é possível.

práticas recomendadas O desafio está em oferecer As ferramentas, por outro lado,


anteriormente. Mas representa o treinamento e o debate oferecem mais agilidade
e a capacidade de repetir o mesmo
também o desafio definitivo de necessários para continuar processo de forma sustentável.
começar antes dos concorrentes. aumentando as habilidades Para tarefas como a integração
dessas pessoas e as suas e a qualidade dos dados, isso é
essencial, porque significa que você
próprias. não está forçando os seus analistas
e especialistas superinteligentes
para fazer o trabalho pesado.

Seja realista sobre os seus


recursos. Se não pode montar uma
equipe tão grande e genial como
a do Google, não desperdice seus
escassos recursos tentando.

41 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governança de dados

Se (e quando) estiver montando um Essencialmente, a equipe de


trabalho de Big Data mais básico, governança de dados é o quadro
coloque em prática a estrutura formal de executivos responsável
processual para governança de por supervisionar a abordagem
dados. Na verdade, mesmo que de dados da empresa. Mas
o seu projeto de Big Data tenha também deve incluir responsáveis
como meta entregar valor para um pelo gerenciamento de
único departamento, considere dados – pessoas de
a criação de uma pequena equipe departamentos específicos que
de governança de dados para poder tenham a tarefa de gerenciar os
aprender a lidar com os desafios dados provenientes de uma
exclusivos desse tipo de grupo. unidade de negócio específica.

De fato, alguns de nossos


clientes atribuem funções de
responsabilidade pelo
gerenciamento de dados com
base no domínio de dados. Isso
significa que uma pessoa fica
responsável pelos dados de
produtos, enquanto outra fica
responsável pelos dados de
clientes e assim por diante.

42 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governança de dados

Tenha como meta criar processos 1 2


capazes de garantir que a sua
estrutura de governança de dados Interfuncional Comunicativa
seja mais uma ajuda do que uma
dificuldade. Trabalhe ativamente Um conselho de governança Sem uma boa comunicação entre
para assegurar que isso não de dados formado por pessoas as funções, os departamentos
se transformará em sobrecarga diferentes com funções e os domínios, o projeto pode
burocrática – para tanto, garanta semelhantes será ineficaz. se perder na burocracia e nos
que todos estejam empenhados O objetivo é criar um conselho que mal-entendidos. Isso acontece
em atingir os mesmos objetivos, possa representar as opiniões e as com mais frequência do que
e nos mesmos prazos. necessidades exclusivas de cada se imagina. Certifique-se de que
unidade de negócios que o seu todas as preocupações sejam
Sua estrutura de governança de projeto de Big Data deverá apoiar. resolvidas ou tratadas
dados deve conter estas cinco adequadamente.
características.

43 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governança de dados

3 4 5

Eficiente Comprometida Centralizada

O seu processo interfuncional não Lembre-se de comunicar com O maior desafio de uma estrutura
deve ser uma barreira. Será preciso eficiência as metas principais do de governança de dados
ter bastante agilidade para que seu projeto e certifique-se de que é quando você precisa priorizar
o projeto de Big Data tenha êxito. todos os envolvidos na estrutura as metas de uma unidade de
Portanto, crie regras de relatórios de governança de dados estejam negócios sobre as outras que
de automação e exceção sempre comprometidos com essas metas. estão sendo representadas no
que possível e adote ferramentas Metas em comum ajudam a guiar conselho. Garanta que as suas
de colaboração para manter o seu pensamento de governança decisões contemplem o benefício
os canais de comunicação abertos e as suas decisões. a longo prazo de todo o conselho,
e adequados. mesmo que isso signifique
benefícios de curto prazo para
uma única unidade de negócio.

44 | O grande livro de Big Data da Informatica


Sua
equipe

As habilidades que você tem


e aquelas de que precisa
Hora de pegar o lápis novamente. A página a seguir lista funções
Agora que você conhece as várias de Big Data com base em cargos
ciladas e oportunidades subjetivas para os quais já vimos nossos
que a nova equipe apresentará, clientes contratarem.
vamos analisar como é essa Considerando o pessoal
equipe na realidade. realmente disponível e a duração
esperada para o projeto
(conforme inserido na seção
iniciada na página 24), liste
quantas pessoas você precisa
contratar.

45 | O grande livro de Big Data da Informatica


Sua
equipe

A função Alguém já Eu preciso Com base na


pode executar contratar alguém quantidade de tempo
essa função? para essa função disponível, eu preciso
contratar X pessoas
Especialista de dados ou ou

Especialista em domínios

Analista de negócios

Analista de dados
A necessidade de um
Engenheiro de dados pensamento integrado
Administrador de banco de dados
Quando sair em busca de novos
Arquiteto corporativo
integrantes para a equipe, não se
Arquiteto de solução de negócios limite a pessoas com as qualificações
adequadas. Não se engane:
Arquiteto de dados encontrar pessoas com as
qualificações adequadas já é um
Responsável pelo gerenciamento de dados
desafio em si. Mas você também
Desenvolvedor de ETL (integração de dados) precisa buscar pessoas que tenham
vontade de sintetizar as metas de
Desenvolvedor de aplicativos negócios e as capacidades técnicas.
Desenvolvedor de painéis de controle
Cada vez mais, ouvimos de clientes
Modelador de estatísticas sobre como é importante que
as pessoas que se unem aos seus
Outro projetos de Big Data possam ser
capazes de entender a realidade
Outro
dos negócios e trabalhar com uma
Outro ciência de dados complexos. Esse
tipo de pensamento integrado
Outro é importantíssimo e difícil de encontrar.
Vale a pena investir em treinamento.
Outro

46 | O grande livro de Big Data da Informatica


10356

98276

Suas 41523

ferramentas 60303
10392

Como já discutimos várias vezes, as ferramentas


utilizadas desempenham uma função estratégica
na execução do seu projeto de Big Data. Nesta
seção, vamos analisar as ferramentas que você 15234
tem e aquelas de que precisa.

45623
18456

63002
Suas
ferramentas

Noções básicas sobre


as ferramentas de Big Data
Em nossa experiência, as seguintes Ingestão de dados Fluxo de dados
ferramentas são essenciais para a Você coleta dados de forma
arquitetura necessária aos projetos O processo de consumir os confiável em tempo real e os
de Big Data (discutiremos dados necessários de forma transmite nos repositórios de
a arquitetura em mais detalhes adequada, eficiente e metódica. dados?
posteriormente). Claro que as suas
metas e os seus recursos devem Carga de lotes Arquivamento
determinar a combinação das Você acessa todos os tipos Você arquiva e compacta
tecnologias necessárias ao seu de dados de que precisa dados que não são usados
projeto específico. e dimensiona com eficiência com frequência, garantindo
o desempenho da carga de fácil acesso aos dados
Veja esta lista de ferramentas lotes nos repositórios de dados? arquivados, se necessário?
e coloque um para as
mais importantes e mais Captura de dados de mudanças
estrategicamente relevantes Você captura as alterações
ao seu projeto específico. feitas nos dados dos sistemas
de origem sem afetá-los?

48 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noções básicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Gerenciamento de dados Segurança de dados Estrutura distribuída de dados
e coloque um para as Você descobre e protege os Você usa tecnologias como
mais importantes e mais Todas as políticas, processos dados em todos os repositórios o Hadoop para dimensionar
estrategicamente relevantes e práticas necessárias para de dados, atribuindo para isso de forma econômica suas
ao seu projeto específico. gerenciar adequadamente regras sobre uso, acesso necessidades de armazenamento
a eficácia, a precisão, e permissões? e processamento?
a confiabilidade e a
disponibilidade dos dados. Máquina virtual de dados Data warehouse
Você consegue criar uma Você tem uma tecnologia
Integração de dados camada de abstração para de data warehouse que possa
Você consegue preparar os dados que combine lidar com os requisitos
e consolidar várias estruturas vagamente o processamento de desempenho, uso e
e fontes em um conjunto de de dados no ambiente de dimensionamento para análises
dados consistente para análise? implantação subjacente? e integrações de Big Data com
infraestruturas Hadoop?
Qualidade de dados Gerenciamento de dados mestres
Você consegue, de forma Você armazena uma versão
confiável, limpar os dados, consolidada, completa
deduplicar e remover os erros? e fidedigna da verdade para
vários domínios de dados?

49 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noções básicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Entrega de dados Hub de integração de dados
e coloque um para as Você disponibiliza dados usando
mais importantes e mais Processo de envio dos dados uma abordagem como o modelo
estrategicamente relevantes necessários aos sistemas de publicação e assinatura para
ao seu projeto específico. e aplicativos que precisam deles. evitar a proliferação de
integrações ponto a ponto?
Carga de lotes
Você dimensiona com eficiência Visualização de dados
a carga de lotes de dados entre Você entrega dados dos seus
os sistemas de origem, análise e sistemas sem sobrecarregá-los?
back-end operacionais?
Processamento baseado
Fluxo de dados em tempo real em eventos
Você oferece fluxo de dados Você é capaz de detectar,
em tempo real para sistemas analisar e reagir a ameaças,
de aplicativos, análises e oportunidades e outros eventos
back-end que precisam disso? críticos de negócios em tempo
real?

50 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noções básicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Análise Aprendizado de máquina Entre essas ferramentas
e coloque um para as Você consegue aplicar e tecnologias, algumas ferramentas
mais importantes e mais As ferramentas e os processos sofisticados algoritmos de – como a integração de dados,
estrategicamente relevantes que transformam dados brutos aprendizado de máquina para a qualidade de dados e o
ao seu projeto específico. em insights, padrões, previsões identificar padrões e fazer gerenciamento de dados mestres –
e cálculos sobre o domínio que previsões em um nível para são tão essenciais à sua jornada
você está analisando. o qual não tem a largura de de Big Data que realmente não vale
banda manual compatível? a pena recriá-las. O prazo e os
Visualização recursos necessários à criação
Você pode apresentar dados dessas ferramentas com suas
e resultados de maneira próprias mãos não vale as
a facilitar a compreensão preciosas habilidades e horas de
e o entendimento? trabalho do seu projeto de Big Data.

Análise avançada Lembre-se das metas do seu


Você consegue aplicar projeto; elas não incluem criar
algoritmos analíticos avançados tudo de maneira personalizada.
aos seus conjuntos de dados
para fazer cálculos complexos?

51 | O grande livro de Big Data da Informatica


Seus
processos
Vamos nos aprofundar nos processos reais de
que você precisará para lidar com o Big Data.
Seus processos específicos serão exclusivos
para suas metas e necessidades, mas esta seção
pode dar uma visão geral sobre o que esperar
e o que você aprenderá.
Seus
processos

Os oito Big Data

Por experiência, podemos dizer 1 2


que as metodologias ágeis são
uma excelente abordagem para Acessar os dados Integrar os dados
projetos de Big Data. Elas
garantem que você gerencie Seu primeiro desafio será adquirir O desafio mais complexo do Big
as expectativas, aprenda com os todos os dados de que precisa. Data envolve a variedade de
erros e faça a iteração do caminho Em alguns casos, isso implicará estruturas e formatos de dados.
para os melhores processos. a captura de dados de streaming Para que a sua análise seja
Mesmo assim, a abordagem do e, em outros, significará extrair conduzida de forma sustentável,
projeto depende inteiramente dados de um banco de dados. você precisará configurar um
de você e da sua situação. Configure processos gerenciáveis processo de integração
e que possam ser repetidos para e normalização de todos esses
De qualquer maneira, os oito garantir o armazenamento desses dados. Idealmente, isso deve
passos a seguir se mostrarão processos de acordo com o uso usar um processamento que seja
essenciais à cadeia de que fará deles. o menos manual possível.
suprimentos do Big Data. Não
importa como você cuide disso.
Você e a sua equipe devem
estabelecer processos eficazes
para estas etapas.

53 | O grande livro de Big Data da Informatica


Seus
processos

Os oito Big Data

3 4 5

Limpar os dados Criar dados mestres Proteger os dados

Para que a sua análise seja Uma forma de manter uma fonte Aqui, você estabelecerá dois
confiável, é preciso garantir confiável de dados limpos processos básicos. O primeiro
a limpeza dos dados a fim e integrados é estabelecer um será sobre como definir as regras
de eliminar duplicações, erros, processo de criação de dados e as práticas de segurança que
imprecisões e dados incompletos. mestres. O objetivo é criar uma cada conjunto de dados exige.
O processo deve garantir que coleção avançada de dados O segundo será sobre como
analistas e especialistas mais consolidados, organizada por detectar dados confidenciais e
qualificados não fiquem o tempo domínio (como produtos, clientes mascará-los de forma persistente
todo fazendo o trabalho errado. etc.) e repleta de insights de Big ou dinâmica para garantir que
Data, e que, assim, possa essas regras e práticas
alimentar todos os outros sistemas. recomendadas sejam aplicadas
de maneira consistente.

54 | O grande livro de Big Data da Informatica


Seus
processos

Os oito Big Data

6 7 8

Analisar os dados Analisar as necessidades Operacionalizar o insight A importância


de negócios da documentação
O processo de análise dependerá Como já discutimos no início
dos analistas, das ferramentas Esta etapa é crítica, mas quase deste livro, o impacto do seu Tenha como meta dominar esses
de análise e das necessidades sempre esquecida. projeto de Big Data nos negócios oito passos e o seu projeto de Big
Data avançará na direção certa.
relacionadas às metas. Configure um processo claro precisa ser sentido. Crie O objetivo é estabelecer processos
A mentalidade de descoberta para a análise das necessidades pipelines automatizados para as claros, repetíveis, dimensionáveis
iterativa e melhoria contínua dos negócios, mesmo quando respostas que você encontrar e com melhorias contínuas. Para
isso, a documentação desses
desempenhará um papel crucial estiver analisando os dados. Isso e os entregue aos usuários de processos e as melhorias contínuas
nesse caso, pois esse processo é muito importante porque, caso negócios que mais precisam são vitais para a equipe.
deverá ficar melhor, mais rápido, você desacelere o ritmos dos deles. Por exemplo, os dados
As habilidades, os recursos e as
mais barato e mais dimensionável negócios, poderá isolar seus sobre os clientes com maior lições do seu projeto de Big Data
ao longo do tempo e com uma esforços e minimizar o impacto probabilidade de rotatividade devem ser transferíveis e
experiência maior. nos próprios negócios. devem ser disponibilizados aos comunicadas com frequência.

agentes de atendimento ao
cliente por meio de um painel de
controle. Lembre-se de incorporar
um ciclo de feedback também,
assim poderá ver como o insight
é recebido.

55 | O grande livro de Big Data da Informatica


92

93
362

Sua
40

264
654

arquitetura
Para que a cadeia187de suprimentos de Big Data 468
78
seja enxuta e eficaz, é preciso garantir que
a arquitetura seja sólida e construída de maneira 157
estratégica. Nesta seção, vamos discutir como
deve ser uma arquitetura de Big Data ideal e como
implantá-la a sua em uma abordagem em fases.

62

61

50
Sua
arquitetura

Primeiros passos: Sua área restrita

Para começar a criar Comece pequeno Tamanho é importante

a arquitetura do seu Começando com uma área restrita A principal diferença entre a área
projeto de Big Data, bem definida sobre a qual tenha restrita e a implementação real
o ponto de partida mais total controle, você conseguirá é o ambiente de produção, que
lógico é a criação de fazer a interação do caminho será muito maior. Isso exigirá
para uma implementação mais um tratamento automatizado para
um ambiente de bem-sucedida. Comece ingerir, integrar, limpar e distribuir
desenvolvimento em a trabalhar o mais rapidamente a saída. Portanto, será preciso ter
uma área restrita, na possível e a documentar as lições uma estrutura muito mais robusta,
qual você possa usar aprendidas em cada iteração. além de componentes e processos
comprovada e verdadeiramente
dados de teste para confiáveis e flexíveis em um
garantir a viabilidade ambiente de produção dinâmico.
da arquitetura. Ao fazer
isso, lembre-se de levar
em consideração as
seguintes lições.

57 | O grande livro de Big Data da Informatica


Sua
arquitetura

Primeiros passos: Sua área restrita

Faça o mascaramento antes Não se perca na tradução


de testar
Uma das fontes mais comuns de
Quando as organizações usam atrasos e desvios orçamentários
dados de teste, elas geralmente onerosos dos projetos de Big Data
usam uma variante dos dados decorre do fato de que os erros
de produção dinâmicos para de codificação manual (que se
garantir que os formatos e as perderam na área restrita) voltam
estruturas representem o ambiente a assombrar a equipe quando
dinâmico. Infelizmente, se esses a arquitetura é ativada. Assim, se
dados não forem mascarados você codificar manualmente partes
de forma adequada, os dados significativas da arquitetura,
confidenciais poderão ficar espere o refatoramento de vários
expostos em um ambiente de teste códigos para atender aos
totalmente inseguro. requisitos no nível de produção
e administre as expectativas
adequadamente. Como
alternativa, use ferramentas de
produtividade e automação para
evitar a necessidade de refatorar
o código e os erros.

58 | O grande livro de Big Data da Informatica


Sua
arquitetura

A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendação para criar
a arquitetura ideal de tecnologia
e processos de Big Data.

Fontes de dados Ingestão de dados Gerenciamento de dados Entrega de dados Aplicativos

∙ Bancos de dados relacionais Carga de lotes ∙ Integração de dados Carga de lotes ∙ Visualização
∙ Mainframe ∙ Qualidade de dados ∙ Aplicativos móveis
∙ Documentos e e-mails Captura de ∙ Máquina virtual de dados Hub de ∙ Análise
∙ dados de ∙ integração ∙
Mídia social, dados de Segurança de dados Business Intelligence
alterações ∙ de dados ∙
terceiros e arquivos de log Gerenciamento de dados Painéis em tempo real
∙ Sensor de máquina mestres
∙ Nuvem pública Streaming ∙ Armazenamento Virtualização
∙ Nuvem privada de dados dimensionável de dados
(por exemplo, Hadoop)
Arquivamento ∙ Data warehouse Processamento
em tempo real
e baseado
em eventos

59 | O grande livro de Big Data da Informatica


Seu plano
de projeto
Agora, nós já analisamos ​todos os aspectos
da sua jornada de Big Data. O próximo passo
é usar este plano de projeto como um guia
estrutural para gerenciar um projeto de Big
Data, do lançamento à implementação.
Seu plano
de projeto

Seu plano de projeto

Use este modelo de Estágio 1: A estratégia Estágio 2: Os dados


plano de projeto como
uma estrutura para Identificar as metas de TI e de negócios Identificar as informações necessárias

documentar os detalhes Definir as medidas de sucesso Identificar os dados e as origens para entregá-los
e os diferentes elementos
do seu projeto de Big
Data. Depois, use
o documento compilado
como uma maneira
de obter a adesão
necessária do restante
da sua organização.
Ele também será útil
quando você abordar
parceiros externos.

61 | O grande livro de Big Data da Informatica


Seu plano
de projeto

Seu plano de projeto

Estágio 3: A cadeia de suprimentos Estágio 4: Operacionalizar o insight

As pessoas As ferramentas Desenvolver painéis


oo Avaliar as habilidades oo Computação distribuída

necessárias (por exemplo, Hadoop) Automatizar processos para entrega de dados


oo Avaliar as habilidades oo Qualidade de dados

existentes oo Integração de dados Definir um processo de feedback


oo Gerenciamento de dados

O processo mestres
oo Acessar os dados oo Mascaramento de dados

oo Integrar os dados oo Visualização

oo Limpar os dados oo Análise de streaming

oo Criar dados mestres oo Análise

oo Proteger os dados oo Aprendizado de máquina

oo Analisar os dados

oo Analisar as necessidades

de negócios

62 | O grande livro de Big Data da Informatica


Seguindo
Use as listas de verificação, De muitas maneiras, seu primeiro
os princípios e as diretrizes que projeto de Big Data será
descrevemos neste livro para trazer inesquecível. A partir dos erros que

em frente
o potencial do Big Data para poderão ocorrer para criar uma
a sua organização. Seja qual for equipe , você estará pronto para
o tamanho do seu projeto, agora uma jornada de imenso valor
temos certeza de que você estará
estratégico para a sua empresa.
melhor equipado para lidar com
os vários desafios deste projeto.
Ao navegar e evitar as muitas
ciladas que discutimos, e se mantiver
Lembre-se: seja estratégico em
um forte compromisso com a sua
relação aos seus recursos e mantenha
visão desse projeto, você será capaz
um foco preciso no desenvolvimento
de processos e habilidades que sejam de mudar a forma como
transferíveis, dimensionáveis a organização funciona.
e estejam em constante
aperfeiçoamento. Se você mantiver Isso vai ser o máximo!
uma visão de longo prazo ao realizar
esse projeto, poderá preparar
a sua organização para análises
aprimoradas e decisões mais
fundamentadas por um longo tempo.
63 | O grande livro de Big Data da Informatica
Próximos passos
Pronto para começar a colocar
em prática o que aprendeu?

Se você é um desenvolvedor da
Informatica, poderá ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e serviços de Big Data colocarão você
no caminho certo.

64 | O grande livro de Big Data da Informatica


Sobre
a Informatica
Ajudamos as empresas a gerenciar dados
para que elas possam extrair deles um valor
de negócios mensurável. E estamos ajudando
algumas das maiores empresas do mundo a
encontrar os erros mais comuns de gerenciamento
de dados para que alcancem o sucesso em
projetos repetíveis e dimensionáveis de Big Data.

Vamos conversar.

IN18-1014-2730

Vous aimerez peut-être aussi