Vous êtes sur la page 1sur 3

Voc realmente sabe o que Big Data?

O termo Big Data est cada vez mais popular, embora ainda esteja mal
compreendido. Observo em muitas palestras que no existe consenso quanto a
que realmente Big Data e quais as tecnologias fundamentais que o sustentam.
E mais ainda, existem muitas dvidas de como tangibilizar o conceito, ou seja,
como sair do conceitual e criar solues de negcio que agreguem valor para as
companhias.
Eliminar estas dvidas essencial e o primeiro passo para as empresas se
aventurarem em projetos Big Data.

Para colocarmos o termo em contexto, Big Data vem chamando ateno pela
acelerada escala em que volumes cada vez maiores de dados so criados pela
sociedade. J falamos comumente em petabytes de dados gerados cada dia, e
zetabytes comea a ser uma escala real e no mais imaginria e futurista. O que
era futuro h uma dcada, terabytes, hoje ns j temos nas nossas prprias
casas.
As tecnologias que sustentam Big Data podem ser analisadas sob duas ticas: as
envolvidas com analytics, tendo Hadoop e MapReduce como nomes principais e
as tecnologias de infraestrutura, que armazenam e processam os petabytes de
dados. Neste aspecto, destacam-se os bancos de dados NoSQL (No, significa not
only SQL). Por que estas tecnologias? Por que Big Data a simples constatao
prtica que o imenso volume de dados gerados a cada dia excede a capacidade
das tecnologias atuais de os tratarem adequadamente.
Comeando pelo incio. O que Big Data? Outro dia escrevi um post com uma
frmula simples para conceitualiz-lo. Big Data = volume + variedade +
velocidade. Hoje adiciono mais dois Vs: veracidade e valor. Vamos detalhar
estes tpicos um pouco mais.
Volume est claro. Geramos petabytes de dados a cada dia. E estima-se que este
volume dobre a cada 18 meses. Variedade tambm, pois estes dados vm de
sistemas estruturados (hoje minoria) e no estruturados (a imensa maioria),
gerados por e-mails, mdias sociais (Facebook, Twitter, YouTube e outros),
documentos eletrnicos, apresentaes estilo Powerpoint, mensagens

instntaneas, sensores, etiquetas RFID, cmeras de vdeo, etc.


Velocidade porque muitas vezes precisamos agir praticamente em tempo real
sobre este imenso volume de dados, como em um controle automtico de
trfego nas ruas. Veracidade porque precisamos ter certeza que os dados fazem
sentido e so autnticos. E valor porque absolutamente necessrio qua a
organizao que implementa projetos de Big Data obtenha retorno destes
investimentos. Um exemplo poderia ser a rea de seguros, onde a anlise de
fraudes poderia ser imensamente melhorada, minimizando-se os riscos,
utilizando-se, por exemplo, de anlise de dados que esto fora das bases
estruturadas das seguradoras, como os dados que esto circulando diariamente
nas mdias sociais.
Falamos que as tecnologias atuais de tratamento de dados no so mais
adequadas. Por que? Vejamos o modelo relacional, proposto pelo pesquisador da
IBM, Edgar F. Codd, em 1969. Quando foi proposto, a demanda era acessar dados
estruturados, gerados pelos sistemas internos das corporaes. No foi
desenhado para dados no estruturados (futurologia na poca) e nem para
volumes na casa dos petabytes de dados (inimaginvel na poca). Precisava-se
sim de um modelo que categorizasse e normalizasse dados com facilidade. E o
modelo relacional foi muito bem sucedido nisso, tanto que o modelo de dados
mais usado atualmente.
Para tratar dados na escala de volume, variedade e velocidade do Big Data
precisamos de outros modelos. Surgem os softwares de banco de dados NoSQL,
desenhados para tratar imensos volumes de dados estruturados e no
estruturados. Existem diversos modelos como sistemas colunares como o Big
Table, usado internamente pelo Google ( a base de dados sob o Google App
Engine),o modelo Key/value como DynamoDB da Amazon, o modelo document
database baseado no conceito proposto pelo Lotus Notes da IBM e aplicado em
softwares como MongoDB, e o modelo baseado em grafos como o Neo4j. Em
resumo, no faltam opes... Interessante lembrar que antes do modelo
relacional j existia um software de banco dados que lidava com grandes
volumes que o IMS da IBM, modelo hierrquico, criado para suportar o projeto
Apollo de conquista da Lua e que ainda hoje base da maioria das transaes
financeiras que circulam pelo mundo.
Por outro lado, esta diversidade de alternativas demanda que os lderes dos
projetos de Big Data escolham a mais adequada ou mesmo demandem mais de
uma opo, de acordo com as necessidades especficas.
Depois da infraestrutura necessrio ateno aos componentes de analytics,
pois estes que transformam os dados em algo de valor para o negcio. Big Data
Analytics no signfica eliminar os tradicionais sistemas de BI que existem hoje,
mas pelo contrrio, devem coexistir. Recomendo enfticamente a leitura do
livro Competing on Analytics: the new science of winning, de Thomas H.
Davenport, publicado pela Harvard Business Schoool Press. Um bom exemplo de
uso de Hadoop para analytics o BigInsights da IBM.
Alis, ao lado destas alternativas surgem outras opes, como o uso de
appliances, como o Netezza da IBM, que embarcam em um hardware adaptado
todos os softwares necessrios para criar projetos de Big Data. Os appliances
queimam etapas nos projetos de Big Data.
Quanto ao aspecto velocidade o conceito de stream processing permite

tratamento em tempo real de dados. Concretamente, o InfoSphere Streams da


IBM um exemplo muito interessante. A ideia de stream computing fantstica.
Um novo paradigma. No modelo de data mining tradicional uma empresa filtra
dados dos seus vrios sistemas e aps criar um Data Warehouse, dispara
queries. Na prtica faz-se garimpagem em cima de dados estticos, que no
refletem o momento, mas sim o contexto de horas, dias ou mesmo semanas
atrs. Com stream computing esta garimpagem efetuada em tempo real. Em
vez de disparar queries em cima de uma base de dados esttica, coloca-se uma
corrente contnua de dados (streaming data) atravessando um conjunto de
queries. Podemos pensar em inmeras aplicaes, sejam estas em finanas,
sade e mesmo manufatura. Vamos ver este ltimo exemplo: um projeto em
desenvolvimento com uma empresa de fabricao de semicondutores pode
monitorar em tempo real o processo de deteo e classificao de falhas. Com
stream computing as falhas nos chips sendo fabricados so detetados em minutos
e no horas ou mesmo semanas. Os wafers defeituosos podem ser reprocessados
e, mais importante ainda, pode-se fazer ajustes em tempo real nos prprios
processos de fabricao.
Adicionalmente, podemos pensar que a computao em nuvem tambm um
impulsionador para Big Data, pois pode-se usar nuvens pblicas para suportar
imensos volumes de dados e as caratersticas de elasticidade das nuvens
permitem que acionemos servidores virtuais sob demanda, aprenas no momento
de tratar estes dados.
Enfim, Big Data j est batendo nas nossas portas. Seu potencial ainda no est
sendo plenamente reconhecido, mas j vemos sinais claros desta importncia
quando lemos relatrios como o Big Data, Big Impact: new possibilities for
International Development, publicado pelo World Economic Forum. Este
relatrio mostra como a sociedade mundial pode usufruir do imenso volume de
dados gerado por ela para ajudar a resolver problemas diversos como questes
scio-econmicas e mesmo preveno de epidemias.
Quanto s empresas, Big Data abre um novo e ainda inexplorado territrio.
Carecemos de conhecimentos, experincias e mesmo de expertise profissional.
Comea-se a se falar em novas funes como data scientists (escrevi sobre isso
em post anterior), mas inevitvel que os CIOs tenham que colocar Big Data na
tela dos seus radares. As oportunidades que os cinco Vs trazem no podem e
nem devem ser desperdiados.

Vous aimerez peut-être aussi