Computao para uma sociedade conectada e digitalizada BIG DATA Uma cmera registra a placa de um carro. Algum paga uma conta com o carto de crdito, aluga um lme na TV a cabo ou posta uma mensagem em uma rede social... A cada transao, dados vo sendo guardados. A digitalizao e conexo total de nossa sociedade resultam na criao e no armazenamento de uma quantidade enorme de dados. Uma variedade de informaes gerada no s por cientistas, empresas e governos, como acontecia antes, mas tambm pela populao em geral, por meio de equipamentos como cmeras digitais ou programas como as redes sociais. Essa informao pode ser til? Pode ser correlacionada? Geraldo Xexo Departamento de Cincia da Computao, Instituto de Matemtica e Programa de Engenharia de Sistemas e Computao (Coppe), Universidade Federal do Rio de Janeiro >>> B ig Data descreve um conjunto de problemas e suas solues tecnolgicas em computao apli- cada com caractersticas que tornam seus dados difceis de tratar. H consenso de que trs des- sas caractersticas, as iniciadas pelos trs Vs, so as principais: volume, velocidade e variedade. Ape sar de Big Data ser uma expresso criada para ter impacto merca- dolgico, acabou denindo uma nova rea de pesquisa. Como o termo Big Data faz supor, um dos desaos a enorme quantidade de dados, ou seja, seu volume. Os sis- temas tradicionais atuais no esto preparados para tratar certas colees de dados que j temos ou vamos obter nos prximos anos. A previso que passaremos da faixa de muitos gigabytes (bilhes de bytes) ou poucos terabytes (tri- lhes) para a faixa de petabytes (milhares de trilhes) ou at mesmo exabytes (milhes de trilhes). Para dar uma ideia, um disco rgido comum tem atual- mente em torno de 1 terabyte. O LHC, o maior acelerador de partculas do mundo, no Centro Europeu de Pesquisas Nucleares (CERN), na Sua, armazena 15 petabytes por ano de dados na forma original. o equivalente a 15 mil discos rgidos cheios. Ao longo do tempo, os dados j somam 100 petabytes. Velocidade signica que esses dados so enviados aos nossos sistemas com uma taxa de bytes por intervalo de tem- po muito alta, to grande que no temos como armazen-los todos. Assim, muitas vezes, somos obrigados a escolher da- dos para guardar e outros para descartar. Para armazenar aqueles 15 petabytes por ano, o CERN escolhe dados rele- vantes entre 15 petabytes gerados por segundo de operao do LHC. Como saber o que guardar e guardar cada vez mais r- pido o desao. Mais trs Vs Variedade signica que os dados aparecem em formas diferentes. Nossos sistemas tradicionais so oti- mizados para processar dados que podem ser facilmente descritos na forma de tabelas, como uma planilha eletrni- ca, onde cada coluna tem tamanho constante ou previs- vel, mesmo que a quantidade de linhas seja muito gran- de. Entretanto, muitos dos novos tipos de dados tm for- matos mais livres (textos, imagens etc.) ou com estruturas especcas (redes, por exemplo). CINCIAHOJE | 306 | AGOSTO 2013 | 19 C O M P U T A O A partir desses trs Vs, diversos autores propem ainda outros conceitos, como veracidade, variabilidade ou valor. So outras preocupaes importantes, como garantir que o dado seja verdadeiro e ainda vlido no tempo. Outra maneira de entender Big Data est na forma como os dados acabam sendo usados muitas vezes, no planejada desde sua criao. A prtica de guardar informao qualquer que seja permite que, mais tarde, exista uma disponibilidade que pode ser apro- veitada em uma oportunidade no identicada previa- mente. No jargo da rea, modelamos ou remodelamos os dados depois de obt-los. Basicamente, com a diminuio do custo de armazena- mento de dados causada pela reduo do preo dos discos rgidos e das tas magnticos, guarda-se tudo que pos- svel e, mais tarde, descobre-se como usar. Vale lembrar aqui que o preo de armazenar 1 megabyte em mdia mag- ntica caiu de US$ 30 (cerca de R$ 60), em 1980, para menos de US$ 0,0001 (cerca de R$ 0,00005) neste ano. Muitos desses dados esto ou podem ser relacionados, mesmo que criados de forma independente. Por exem- plo, mensagens que so enviadas por redes sociais j fo- ram cruzadas com os movimentos das bolsas de valores e com a evoluo geogrca da gripe. Essas caractersticas geraram novos desaos tecnol- gicos na computao e exigem novos tipos de sistemas, seja de equipamentos, seja de programas. Mercado e empregos Esses dados realmente existem? So to comuns? A resposta armativa para as duas questes. Portanto, resta perguntar: onde esto? No comrcio, por exemplo. Quantas informaes so geradas em cada venda em uma rede de supermercados? E se essas informaes forem cruzadas com mensagens em redes sociais sobre mercados, produtos, receitas e notcias na mdia? Ou e tambm com dados de clubes de relacionamento, de carto de crdito e as regies geogrcas em que acontecem? Raciocinando dessa forma, sistemas que analisam toda essa informao permitem a obteno tanto de per- s de consumo individualizados quanto da experincia de compra do cliente e seus gastos. J na indstria, um dos fatores que aumentaram a quantidade de dados foi a multiplicao dos sensores de vrios tipos, de cmeras de alta denio a simples con- tadores ou termmetros. Mais: uma empresa pode colo- car sensores no s em sua fbrica, para analisar o pro- cesso produtivo, mas tambm em seus produtos, que enviam, ao fabricante, dados sobre sua localizao geo- grca, seu uso e desempenho. A maioria das casas j tem equipamentos que forne- cem constantemente informao aos seus produtores ou provedores de servio, como computadores e as deze- nas de programas neles instalados , equipamentos de TV a cabo e celulares. A cada ano, produtos que consi- deramos mais simples passam a funcionar com compu- tadores integrados que enviam informao a seus fabri- cantes ou empresas que os operam. J temos geladeiras ligadas internet, e a proposta que os produtos guar- dados nessas geladeiras possam informar seu estado ou ritmo de consumo. No Brasil, em especial, a indstria de petrleo gran- de criadora de dados, que vo da pesquisa ssmica inicial Quanto de informao? (em valores aproximados) 20 | CINCIAHOJE | 306 | VOL. 51 B A S E A D O E M : H T T P : / / B I T . L Y / 1 2 Q W L U W CINCIAHOJE | 306 | AGOSTO 2013 | 21 Para isso, precisamos de novas teorias e tecnologias. Uma questo crtica como armazen-los de forma que possam ser rapidamente encontrados e manipula- dos. Um dos grandes desenvolvimentos tecnolgicos em computao do sculo passado foram os Sistemas de Gerenciamento de Banco de Dados (SGBDs). So eles que permitem que tratemos de forma eciente milhes de contas bancrias e outros sistemas que basicamente fazem o gerenciamento de transaes. Todos os SGBDs compartilham uma linguagem cha- mada SQL (sigla, em ingls, para linguagem de con- sulta estruturada), e o modo de organizar essas tabelas para condies timas de acesso bem conhecida. Com novos tipos de dados, essa tecnologia no eciente, e, para alguns, o caminho parece ser o que denominamos bancos de dados No-SQL ou outros ainda mais especia- lizados, como bancos de dados para grafos. Outra solu- o adotada por empresas que produzem os SGBDs adicionar a esse tipo de linguagem funes que tratem especicamente dos novos desaos. Outro caminho a paralelizao do processamento, ou seja, a realizao simultnea de vrias tarefas, o que ajuda a diminuir o tempo de resposta quando lidamos com bases de dados muito grandes. Essa paralelizao se d em muitos nveis. Por exemplo, em um computador com vrios processadores (chips); em processadores com vrios ncleos; ou pela unio de computadores para for- mar uma rede que age como um supercomputador. H ainda a opo do processamento em nuvem, em que computadores podem ser alocados ou alugados sob demanda, no momento em que o processamento ne- cessrio. Propostas como o programa livre Hadoop ba- seado no MapReduce, um dos mecanismos que fazem o e monitorao eletrnica de poos at a venda de com- bustvel na bomba dos postos de abastecimento. Por exemplo, em dezembro do ano passado, o Banco de Da- dos de Explorao, mantido pela Agncia Nacional de Petrleo (ANP), continha 4,57 petabytes e isso s com dados relativos a pesquisas ssmicas. Os dados desse banco da ANP so usados por vrias empresas de petrleo, que produzem ainda mais infor- mao. A partir deles, so gerados imagens e lmes que so analisados e geram textos e relatrios, que, por sua vez, geram investimentos nanceiros, movimentos da bolsa e notcias na mdia. Um desao importante entender como esses dados evoluem. Essa tarefa criar, em 2015, segundo a grande empresa norte-americana de consultoria Gartner Group, cerca de 4,4 milhes de empregos muitos deles para prossionais capacitados a analisar esses dados , em um mercado mundial avaliado, j para este ano, em US$ 34 bilhes (cerca de R$ 70 bilhes). Aproveitando essas oportunidades, grandes empresas de computao j orientam suas linhas de produtos e servios para atender a esse mercado. Desaos pela frente Segundo Simon Szykman, diretor de informtica do Departamento de Comrcio Norte-americano, os desaos em relao aos dados po- dem ser divididos em: i) como adquirir; ii) armazenar; iii) processar; iv) transmitir e disseminar; v) gerenciar e manter; vi) arquivar por longo prazo; vii) garantir a segurana; viii) treinar pessoas para us-los; ix) pagar por tudo isso. Ainda podemos adicionar a esses desaos, como entend-los de forma isolada e como relacion-los. C O M P U T A O 22 | CINCIAHOJE | 306 | VOL. 51 Google funcionar permitem que um problema seja di- vidido por vrias mquinas e, depois, tenha seu resulta- do agregado em uma mquina central. Em todo caso, qualquer que seja o desenvolvimento na rea, uma questo importante entender qual o efei- to do aumento da quantidade de dados (ou de processa- dores), para se obter a soluo de um problema. Para cada algoritmo que usamos, podemos calcular sua com- plexidade, que indica como cresce o tempo de soluo em funo do crescimento da quantidade de dados. Por exemplo, para comparar todos os pares de uma coleo qualquer (nomes, CPFs, nmero de telefones, compras, endereos etc.), precisamos gastar um tempo proporcio- nal ao quadrado da quantidade de dados. Caso o tempo fosse medido em microssegundos e uma lista com quatro nomes levasse 16 microssegundos; uma com 10 nomes levaria, ento, 100 microssegundos. Portanto, com bases de dados enormes, precisamos melhorar nossos algoritmos, diminuindo sua complexida- de, ou buscar solues aproximadas caso contrrio, o processamento se torna invivel pelo enorme tempo de- mandado. Algumas vezes, solues paralelas permitem desempenho superlinear, isto , o aumento de velocida- de maior do que o aumento do nmero exigido de pro- cessadores. Em outros casos, em problemas tipicamente sequenciais, o efeito da paralelizao pode ser inferior multiplicao dos processadores. Outra forma de atacar esses problemas utilizar tcnicas de amostragem, o que exige um tratamento estatstico da forma de trabalho. Desenvolver novos algoritmos uma das tarefas mais difceis postas frente do pesquisador de Big Data. Fora humana Big Data tambm tem relao com outras reas de pesquisa. A chamada nuvem computacio- nal, muitas vezes, o que permite que essas quantidades de dados sejam trabalhadas e compartilhadas. Grandes lojas virtuais de vendas pela internet oferecem gratuita- mente uma enorme quantidade de dados para pesquisa- dores como uma coleo de 5 bilhes de pginas j na- vegadas. Tambm esto disponveis para a pesquisa ba- ses de dados sobre o genoma. Claro que, para usar os dados, muitos pesquisadores acabam comprando recursos computacionais da empre- sa que os forneceu. O principal motivo que no fcil ter poder computacional para tratar tanta informao disposio. Crowdsourcing outra rea relacionada, usada quan- do empregamos pessoas para gerar dados ou realizar parte do processamento, principalmente em processos em que humanos ainda so melhores que computadores, como no reconhecimento de padres. Exemplos: i) pes- quisas sobre redes sociais nos ajudam a detectar vrus; ii) jogos so construdos para que internautas colabora- rem na busca de solues para problemas difceis, como Phylo, no qual podemos tentar alinhar sequncias de DNA (material gentico). Uma das principais aplicaes de ter disposio uma grande quantidade de dados descobrir algo novo. Isso pode se dar por deteces de padres, levantamento de regras ou aprendizado de mquina. Analisando e criando um modelo de execuo a partir de exemplos, podemos fazer com que um computador aprenda a reconhecer padres ou fazer previses. O LHC gera 15 petabytes de informao por segundo, mas s so guardados 15 petabytes por ano C E R N CINCIAHOJE | 306 | AGOSTO 2013 | 23 SENTIMENTO NAS REDES SOCIAIS O Programa de Engenharia de Sistemas e Computao pertence Coppe, como mais conhecido o maior centro de pesquisa em engenharia da Amrica Latina, o Instituto Alberto Luiz Coimbra de Ps-graduao e Pesquisa de Engenharia, da Universidade Federal do Rio de Janeiro, que este ano completa seu 50 aniver- srio de fundao. Naquele programa, so feitas pesquisas que tratam de todo o ciclo de vida de Big Data. No momento, o autor deste artigo investiga modelos de representao para textos e a anlise do sentimento expresso em mensagens em redes sociais. Para o pblico, o resultado das pesquisas em Big Data ca mais claro quando investigamos sua aplicao, mani- pulando dados reais e obtendo resultados surpreendentes. Como grande parte da pesquisa em Big Data aplicada, muitos dos casos de sucesso acontecem em outras reas da cincia, como em sade ou fsica de altas energias. A organizao no governamental Global Viral usa tcnicas de crowdsourcing para descobrir surtos de doen- as contagiosas em seu incio. No Japo, uma rede de milhares de sensores permite detectar terremotos e avi- sar a populao. Empresas de cotao de preos, bem como as de vendas pela internet, analisam o perl dos clientes, para dar sugestes de consumo. Instituies nanceiras e governos avaliam milhes de transaes nanceiras em busca de fraudes. Mesmo o padro de comunicao entre celulares, r- dios, sem que se saiba o que est sendo falado como no escndalo recentemente revelado sobre o monitoramen- to feito pelo governo norte-americano , pode ajudar a descobrir uma conspirao. Mas Big Data pode atender objetivos bem mais pragmticos: por exemplo, empresas de TV por internet observam seus clientes e analisam as manifestaes nas redes sociais para orientar a produo de sries de televiso. E a tica? No podemos deixar de lembrar que Big Data tambm traz tona novos problemas ticos. O que empresas e governos fazem com tantos dados privados? Que informao pode ser deduzida a partir de dados? O uso das informaes que estamos guardando e analisando pode ter resultados no desejados. famosa a histria do caso de um pai que descobriu, por meio da propaganda direcionada de uma rede norte-americana de lojas de varejo, que sua lha adolescente estava gr- vida fato que havia sido detectado pelos algoritmos da empresa. Questes como a diculdade de garantir a segurana e privacidade de dados chegam a inviabilizar projetos, como uma base central de pronturios mdi- cos, devido ao risco de essa informao ser utilizada de forma indevida. A disponibilidade dessas grandes bases de dados e a viabilidade de sua interligao permitem que imagine- mos aplicaes que salvam ou prejudicam vidas. Fazer um julgamento tico ou moral de uma tecnologia no questo simples. Vrios pesquisadores se debruam so- bre o tema, entre eles o professor de histria norte-ame- ricano Melvin Kranzberg (1917-1995), que disse: A tecnologia no boa nem m, nem neutra. No devemos esquecer o ditado que diz: informao poder. Mesmo uma aplicao altamente benfica, como o pronturio mdico integrado, nas mos erradas, pode resultar em polticas discriminatrias. essencial um questionamento tico constante no s sobre o uso, mas tambm sobre a coleta, o armazenamento e contro- le de acesso a esses dados. No Brasil Big Data tambm uma preocupao de muitos pesquisadores e prossionais brasileiros, tanto na computao quanto em outras reas que esto gerando e analisando dados. Como pas de grandes propores e com uma populao de aproximadamente 200 milhes de pessoas, algumas bases de dados aqui j traziam pro- blemas de Big Data antes que esse nome fosse criado. Por exemplo, as bases de dados do Instituto Nacional de Seguro Social (INSS) e do Fundo de Garantia por Tem- po de Servio (FGTS) esto entre as maiores do mundo sobre pessoas. A base da Receita Federal associa e cruza dados fornecidos por empresas e pessoas fsicas sem fa- lar na necessidade de receber milhes de declaraes em curto espao de tempo. Segundo a Agncia Nacional de Telecomunicaes, as empresas de telefonia mvel reali- zaram 262 milhes de acessos apenas em janeiro deste ano. At a questo que parece simples de calcular a conta telefnica no Brasil um problema de Big Data. Assim como nuvem, Big Data um termo que agre- ga muita coisa que j vinha sendo feita. Caracteriz-lo como uma rea especca de pesquisa tem a vantagem de direcionar para ela pesquisadores e prossionais que atuavam em reas distintas e, com isso, abrir mais opor- tunidades de cooperao. um campo interessante para a interao entre universidades e empresas, bem como pesquisadores de computao e de outras reas, devido importncia da utilizao de dados reais nas pesquisas. A oportunidade aparece quando juntamos quem tem os dados com quem tem ou pode criar as ferramentas adequadas para trat-los. Sugestes para leitura Big Data Now: 2012 Edition [Edio Kindle]. OReilly Media Inc. NA INTERNET Quantos bytes? (em ingls): http://bit.ly/12qwLUw