Académique Documents
Professionnel Documents
Culture Documents
de Big Data
Um guia prático para tirar o
seu primeiro projeto de Big Data
do papel.
Conteúdo
Parte C: Sua cadeia de suprimentos de
Introdução 3 36
Big Data descomplicada
grande
tanto potencial de transformação. Desde Este livro servirá como um guia
que o software começou a envolver prático na sua jornada, esteja você
processos de negócios completos, na começando uma iniciativa específica
virada do século, uma coisa ficou clara: e tática ou planejando um esforço
os dados mudam o modo como mais estrutural para toda a empresa.
trabalhamos.
Vamos nos aprofundar.
É claro que, com grandes expectativas,
também vêm grandes desilusões.
E, no caso do Big Data, com certeza
já vimos bons conselhos e informações
erradas difundidos na mesma medida.
Infelizmente, como este admirável
mundo novo de dados infinitos ainda
é bem recente, todo esse barulho deixou
muita gente confusa.
3 | O grande livro de Big Data da Informatica
Parte A:
Como se
preparar
O livro está divido em três partes.
Nesta primeira parte, tentaremos aprimorar a sua
visão para que você possa escolher o projeto certo.
precisa saber 12
projetos.
2
O que você
precisa saber
1.
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
7 | O grande livro de Big Data da Informatica
O que você
precisa saber
Todo o entusiasmo em torno do Big Quando a expectativa de Apesar dessa disciplina ser Quando raros e caros
Data gera algumas expectativas impacto e insights é muito alta, bem nova para as empresas, desenvolvedores de Hadoop Java
muito perigosas sobre o que você se pega navegando em não é novidade que a maioria são contratados e encarregados
o projeto pode proporcionar. terabytes de anônimos e dos projetos de Big Data acaba de implementações gigantescas
Por mais que seja tentador fazer desconhecidos à procura de custando caro ou demorando com codificação manual, as
promessas a curto prazo, ouro. Quando a expectativa de muito. Normalmente, isso é empresas logo percebem que é
é importante manter uma visão resultados não é realista, você resultado de uma mistura de impossível sair do ambiente de
realista do que se pode esperar acaba buscando prazos e expectativas mal administradas área restrita sem erros. Como
do projeto, quanto tempo isso vai orçamentos que não são justos. e de visões inadequadas sobre resultado, os projetos de Big Data
levar e a quantidade de esforços como construir uma arquitetura acabam definhando como um
necessários para chegar lá. dimensionável. experimento científico e nunca
saem do laboratório.
Incapacidade de dimensionar
Evite a tentação de codificar tudo O mais importante é não cair na Além disso, como as tecnologias
manualmente diretamente no armadilha de desperdiçar talentos do tipo Hadoop evoluem a cada
Hadoop. Lembre-se de que o de desenvolvimento de Java, raros dia, vale a pena considerar uma
objetivo aqui não é construir uma e caros, em aspectos que não camada de abstração que possa
implementação de trabalho podem ser dimensionados ou lhe proteger das constantes
manual a partir do zero; o transferidos para outros mudanças nas especificações
objetivo é entregar o valor do funcionários. A sua função é tomar das tecnologias subjacentes.
Big Data para a sua organização. decisões estratégicas sobre a
implantação de recursos escassos, Acima de tudo, lembre-se de que
de forma a atingir seus objetivos. as habilidades necessárias são
Em vez de tentar codificar
manualmente cada integração, escassas, mas as ferramentas
Adote ferramentas que possam
limpar cada conjunto de dados estão sempre disponíveis.
aumentar a produtividade da
e codificar manualmente todas
equipe de desenvolvimento por
as análises, você deve analisar
meio do aproveitamento das
ferramentas e automação para
habilidades e do conhecimento
ajudar a acelerar esses processos.
da qualidade dos seus dados de
ETL existentes e de especialistas
em Business Intelligence,
enquanto libera os especialistas
em Java para trabalhar na lógica
específica para a qual não há
ferramentas disponíveis.
11 | O grande livro de Big Data da Informatica
Escolha do
projeto certo
Sob a perspectiva dos desafios que você
enfrentará, vamos analisar agora o que você
deve fazer para escolher o projeto certo para
a sua organização.
Escolha do
projeto certo
3 4
A importância estratégica do seu Depois de ter demonstrado o Como dissemos no último ponto, é Portanto, prepare-se para
primeiro projeto tático é vital. valor do Big Data para o seu preciso que o valor do seu primeiro dimensionar, de modo que você
Além de provar, sem sombra de departamento de marketing, por projeto ajude a convencer os possa lidar com mais projetos no
dúvida, que o Big Data pode exemplo, será mais fácil conquistar outros departamentos da empresa. futuro. Não se trata apenas de
ajudar a unidade de negócio a adesão das equipes de logística Para isso, é preciso se certificar dimensionar o seu cluster. Trata-
que você está apoiando, é bom que talvez estejam reticentes. de que você pode aprender as se de dimensionar habilidades
se certificar de que o valor possa habilidades, as capacidades e as e operações. Você vai precisar
ser comunicado facilmente para lições certas do seu primeiro encontrar mais especialistas de
a empresa em geral. projeto. Mais enfaticamente, Java/Hadoop ou encontrar
é preciso garantir que tudo isso maneiras de extrair mais dos
Portanto, ao escolher o seu seja documentado para que você recursos que já tem.
primeiro projeto, faça isso de possa transferir conhecimento para
maneira estratégica. o próximo projeto. Lembre-se, se a
sua meta é o sucesso, então você
já está se preparando para futuros
projetos.
Considere o impacto
Considere o impacto
2 3
A jornada básica
do Big Data
2 3
A jornada básica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais
Defina as
276m
70mph
suas metas
101m
75mph
501m
69mph
411m
67mph
136m
72mph
Defina as suas
metas
As metas de negócios
Vamos começar com os Seja o mais específico possível Quanto mais claras forem suas
ao estabelecer as metas de metas, maiores serão suas
negócios, porque esses negócios a serem alcançadas chances de atingi-las. Uma meta
objetivos deverão ter pelo projeto. E lembre-se de superfocada vale mais que cinco
precedência sobre as estabelecer metas cujo impacto metas vagas.
metas de TI se você seja mensurável.
Metas de TI
Metas de TI
Defina intervalos de tempo mínimo e máximo para Agora, para cada meta, escreva uma medida de
cada meta a ser alcançada. sucesso que possa ser usada para determinar se
Por exemplo, de dois a quatro meses a meta foi atingida. Idealmente, essas medidas devem
ser métricas disponíveis ou seus respectivos cálculos.
Por exemplo, a taxa de previsão de rotatividade
exata de X%
2.
ite do Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | O grande livro de Big Data da Informatica
Defina as necessidades
de dados
O aspecto mais desafiador do Tentar codificar manualmente A combinação dos dados de Na verdade, a maioria das
Big Data é a grande variedade cada integração é tão streaming em tempo real e dos análises em tempo real precisa se
de formatos e estruturas que você complicado que poderia seus dados históricos geralmente basear em dados de streaming –
terá que conciliar em suas consumir todo o tempo e os aumenta a capacidade de muitas vezes, a partir de
análises. Será preciso integrar recursos disponíveis. Aproveite previsão da análise. Assim, diferentes fontes, em diferentes
várias fontes se quiser incluir ao máximo as ferramentas de alguns dos dados que você formatos. Prepare seu projeto
novos tipos e estruturas de dados integração e qualidade de dados deseja só poderão ser úteis se com uma tecnologia analítica de
(sociais, sensores, vídeo) às disponíveis para acelerar o estiverem constantemente fluindo streaming e uma infraestrutura
fontes com as quais você já está processo para tarefas mais nos sistemas. lógica para gerenciar todos os
acostumado (relacionais, importantes. dados.
mainframes legados).
Não importa o grau de Para que os dados sejam Os vários conjuntos de dados com Além do arquivamento seguro e
importância de suas análises, adequados à finalidade, você os quais você lidará virão com inteligente de dados confidenciais,
elas não valerão nada se as precisa conhecer essa finalidade. diferentes condições e requisitos de faça o mascaramento dos dados
pessoas não puderem confiar Se um especialista de dados segurança. Para cada conjunto de com regras predefinidas sempre
razoavelmente nos dados que estiver procurando padrões em dados, é preciso considerar o que que migrá-los ou inseri-los nos
conseguirem. Quanto mais dados agregados do cliente, será necessário para torná-los ambientes de desenvolvimento
dados você analisar, mais a preparação necessária será anônimos com base em políticas e teste.
importante será manter um alto mínima. Por outro lado, os dados de segurança.
nível de qualidade dos dados. de relatórios financeiros e da Aplique essas cinco considerações
cadeia de suprimentos deverão Quantidades imensas de dados a cada conjunto de dados que
ser altamente editados, limpos irão se proliferar por toda administrar e, assim, você estará
e certificados para obter precisão
a empresa em centenas de preparado mais realistamente
e conformidade. repositórios de dados. Entenda para o grande desafio relacionado
onde os dados confidenciais aos dados.
Crie categorias baseadas na residem e lembre-se de protegê-
quantidade de preparação los na fonte por meio de
necessária, o que abrange desde criptografia e, em seguida,
dados brutos até um repositório controle quem tem acesso a eles.
de dados mestres altamente
editado, contendo dados limpos,
confiáveis e fidedignos.
Um dos maiores erros que as Concentre as habilidades raras Se tudo der certo, o projeto O equilíbrio da sua equipe é
empresas cometem quando em tarefas que realmente crescerá em escopo e recursos. fundamental. Você está
contratam especialistas de dados precisam delas. Você não quer Pense de maneira estratégica procurando a combinação certa
e analistas quantitativos é pedir que os seus melhores profissionais agora e poupe-se da difícil de experiência em gerenciamento
que façam o trabalho pesado. peçam demissão e certamente conscientização de que você não de dados conquistada com
Quando os seus recursos mais não quer que eles percam tempo pode executar determinados trabalho duro e do entusiasmo
qualificados gastam todo o com um trabalho que pode muito processos com a rapidez para aprender novas ferramentas.
tempo em integrações de dados bem ser feito com ferramentas. necessária porque há um número Além disso, é preciso encontrar
que exigem codificação manual limitado de pessoas com as o equilíbrio entre pessoas com
e na limpeza de dados, você não habilidades necessárias, até habilidades técnicas e aquelas
só os deixa frustrados, como mesmo no Vale do Silício. com a experiência de domínio
também não aproveita as necessária para construir os
habilidades que foram tão Se o seu projeto crescer em modelos certos.
difíceis de encontrar. escopo, quais são as competências
que você pode razoavelmente
esperar encontrar a tempo de
atender às suas necessidades? Por
exemplo, especialistas de dados
são infinitamente mais difíceis de
encontrar, treinar e contratar do
4
que desenvolvedores.
“Big Data’s High-Priests of Algorithms” (Big Data - Os bispos dos
4.
Um dos erros mais comuns que Sem um controle firme do valor Diferentemente de uma nova Elementos como cultura
as empresas cometem ao comercial do seu projeto, os tecnologia que pode ser e coerência não podem ser
contratar uma nova equipe novos contratados correm o risco implantada, implementada e subestimados. Pense muito e com
é esquecer de comunicar as de achar que só precisam pensar integrada de forma objetiva, calma sobre como integrar as
verdadeiras metas do projeto. nas metas de TI do projeto. o novo pessoal precisa se novas contratações em seus
Da primeira entrevista até o acostumar ao local de trabalho, processos. Talvez você não
trabalho em si, é preciso ficar ao trabalho que estão fazendo consiga treiná-los para as
claro o que você está tentando e às razões por que estão habilidades, mas com certeza
oferecer aos usuários de fazendo esse trabalho. Não pode ajudá-los a serem melhores
negócios. Potencialize o apoio importa se é você ou outra integrantes da equipe.
dos executivos para divulgar a pessoa: alguém precisa abraçar
missão e compartilhar histórias o desafio do gerenciamento que
de sucesso, bem como uma nova equipe exige.
problemas.
3 4 5
O seu processo interfuncional não Lembre-se de comunicar com O maior desafio de uma estrutura
deve ser uma barreira. Será preciso eficiência as metas principais do de governança de dados
ter bastante agilidade para que seu projeto e certifique-se de que é quando você precisa priorizar
o projeto de Big Data tenha êxito. todos os envolvidos na estrutura as metas de uma unidade de
Portanto, crie regras de relatórios de governança de dados estejam negócios sobre as outras que
de automação e exceção sempre comprometidos com essas metas. estão sendo representadas no
que possível e adote ferramentas Metas em comum ajudam a guiar conselho. Garanta que as suas
de colaboração para manter o seu pensamento de governança decisões contemplem o benefício
os canais de comunicação abertos e as suas decisões. a longo prazo de todo o conselho,
e adequados. mesmo que isso signifique
benefícios de curto prazo para
uma única unidade de negócio.
Especialista em domínios
Analista de negócios
Analista de dados
A necessidade de um
Engenheiro de dados pensamento integrado
Administrador de banco de dados
Quando sair em busca de novos
Arquiteto corporativo
integrantes para a equipe, não se
Arquiteto de solução de negócios limite a pessoas com as qualificações
adequadas. Não se engane:
Arquiteto de dados encontrar pessoas com as
qualificações adequadas já é um
Responsável pelo gerenciamento de dados
desafio em si. Mas você também
Desenvolvedor de ETL (integração de dados) precisa buscar pessoas que tenham
vontade de sintetizar as metas de
Desenvolvedor de aplicativos negócios e as capacidades técnicas.
Desenvolvedor de painéis de controle
Cada vez mais, ouvimos de clientes
Modelador de estatísticas sobre como é importante que
as pessoas que se unem aos seus
Outro projetos de Big Data possam ser
capazes de entender a realidade
Outro
dos negócios e trabalhar com uma
Outro ciência de dados complexos. Esse
tipo de pensamento integrado
Outro é importantíssimo e difícil de encontrar.
Vale a pena investir em treinamento.
Outro
98276
Suas 41523
ferramentas 60303
10392
45623
18456
63002
Suas
ferramentas
3 4 5
Para que a sua análise seja Uma forma de manter uma fonte Aqui, você estabelecerá dois
confiável, é preciso garantir confiável de dados limpos processos básicos. O primeiro
a limpeza dos dados a fim e integrados é estabelecer um será sobre como definir as regras
de eliminar duplicações, erros, processo de criação de dados e as práticas de segurança que
imprecisões e dados incompletos. mestres. O objetivo é criar uma cada conjunto de dados exige.
O processo deve garantir que coleção avançada de dados O segundo será sobre como
analistas e especialistas mais consolidados, organizada por detectar dados confidenciais e
qualificados não fiquem o tempo domínio (como produtos, clientes mascará-los de forma persistente
todo fazendo o trabalho errado. etc.) e repleta de insights de Big ou dinâmica para garantir que
Data, e que, assim, possa essas regras e práticas
alimentar todos os outros sistemas. recomendadas sejam aplicadas
de maneira consistente.
6 7 8
agentes de atendimento ao
cliente por meio de um painel de
controle. Lembre-se de incorporar
um ciclo de feedback também,
assim poderá ver como o insight
é recebido.
93
362
Sua
40
264
654
arquitetura
Para que a cadeia187de suprimentos de Big Data 468
78
seja enxuta e eficaz, é preciso garantir que
a arquitetura seja sólida e construída de maneira 157
estratégica. Nesta seção, vamos discutir como
deve ser uma arquitetura de Big Data ideal e como
implantá-la a sua em uma abordagem em fases.
62
61
50
Sua
arquitetura
a arquitetura do seu Começando com uma área restrita A principal diferença entre a área
projeto de Big Data, bem definida sobre a qual tenha restrita e a implementação real
o ponto de partida mais total controle, você conseguirá é o ambiente de produção, que
lógico é a criação de fazer a interação do caminho será muito maior. Isso exigirá
para uma implementação mais um tratamento automatizado para
um ambiente de bem-sucedida. Comece ingerir, integrar, limpar e distribuir
desenvolvimento em a trabalhar o mais rapidamente a saída. Portanto, será preciso ter
uma área restrita, na possível e a documentar as lições uma estrutura muito mais robusta,
qual você possa usar aprendidas em cada iteração. além de componentes e processos
comprovada e verdadeiramente
dados de teste para confiáveis e flexíveis em um
garantir a viabilidade ambiente de produção dinâmico.
da arquitetura. Ao fazer
isso, lembre-se de levar
em consideração as
seguintes lições.
A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendação para criar
a arquitetura ideal de tecnologia
e processos de Big Data.
∙ Bancos de dados relacionais Carga de lotes ∙ Integração de dados Carga de lotes ∙ Visualização
∙ Mainframe ∙ Qualidade de dados ∙ Aplicativos móveis
∙ Documentos e e-mails Captura de ∙ Máquina virtual de dados Hub de ∙ Análise
∙ dados de ∙ integração ∙
Mídia social, dados de Segurança de dados Business Intelligence
alterações ∙ de dados ∙
terceiros e arquivos de log Gerenciamento de dados Painéis em tempo real
∙ Sensor de máquina mestres
∙ Nuvem pública Streaming ∙ Armazenamento Virtualização
∙ Nuvem privada de dados dimensionável de dados
(por exemplo, Hadoop)
Arquivamento ∙ Data warehouse Processamento
em tempo real
e baseado
em eventos
documentar os detalhes Definir as medidas de sucesso Identificar os dados e as origens para entregá-los
e os diferentes elementos
do seu projeto de Big
Data. Depois, use
o documento compilado
como uma maneira
de obter a adesão
necessária do restante
da sua organização.
Ele também será útil
quando você abordar
parceiros externos.
O processo mestres
oo Acessar os dados oo Mascaramento de dados
oo Analisar os dados
oo Analisar as necessidades
de negócios
em frente
o potencial do Big Data para poderão ocorrer para criar uma
a sua organização. Seja qual for equipe , você estará pronto para
o tamanho do seu projeto, agora uma jornada de imenso valor
temos certeza de que você estará
estratégico para a sua empresa.
melhor equipado para lidar com
os vários desafios deste projeto.
Ao navegar e evitar as muitas
ciladas que discutimos, e se mantiver
Lembre-se: seja estratégico em
um forte compromisso com a sua
relação aos seus recursos e mantenha
visão desse projeto, você será capaz
um foco preciso no desenvolvimento
de processos e habilidades que sejam de mudar a forma como
transferíveis, dimensionáveis a organização funciona.
e estejam em constante
aperfeiçoamento. Se você mantiver Isso vai ser o máximo!
uma visão de longo prazo ao realizar
esse projeto, poderá preparar
a sua organização para análises
aprimoradas e decisões mais
fundamentadas por um longo tempo.
63 | O grande livro de Big Data da Informatica
Próximos passos
Pronto para começar a colocar
em prática o que aprendeu?
Se você é um desenvolvedor da
Informatica, poderá ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e serviços de Big Data colocarão você
no caminho certo.
Vamos conversar.
IN18-1014-2730