Vous êtes sur la page 1sur 42

BIG DATA:

UMA INTRODUÇÃO

Prof. Fabio Prass


POSICIONAMENTO E MOTIVAÇÃO

Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2006)


Gestão da Informação em Grandes Volumes de Dados Multimída Distribuídos

70% 2005-2
2006-1
60% 57%56%
49% 2006-2
47%45%
50% 2007-1

40% 2007-2
33%
30% 24%
22% 23% 24%
21% 21%
20% 17%

10% 14%13% 6% 6%4%5%5%


1% 0%0%1%0%
0%

-10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos

70% 2005-2 70% 2005-2


2006-1 2006-1
60% 57%56% 60% 57%56%
49% 2006-2 49% 2006-2
47%45% 47%45%
50% 2007-1 50% 2007-1

40% 2007-2 40% 2007-2


33% 33%
30% 24% 30% 24%
22% 23% 24% 22% 23% 24%
21% 21% 21% 21%
20% 17% 20% 17%

10% 14%13% 6% 6%4%5%5% 10% 14%13% 6% 6%4%5%5%


1% 0%0%1%0% 1% 0%0%1%0%
0% 0%

-10% -10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30 Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos

Vários formatos: texto, imagem, vídeos, sons, gráficos, etc...


POSICIONAMENTO E MOTIVAÇÃO

Grandes Desafios da Pesquisa em Computação no Brasil (SBC, 2014)


Gestão da Informação em Grandes Volumes de Dados Multimída Distribuídos
Ciência de Dados

Astronomia Computação:
Biologia • Gerência de
Defesa Dados
Educação • Análise de Dados
Energia Temas Relacionados:
Engenharia • Workflows Científicos
Esporte • Procedência de Dados
Física • Web Semântica
Saúde • Mineração de Dados
Etc... • Etc...
Conceito

 Não existe consenso quanto à definição.

 Guarda-Chuva que abriga fundamentos, conceitos e


tecnologias voltadas à gestão e análise de grandes
volumes de dados.

 Questões prioritárias no contexto de Big Data: 3Vs / 5Vs


 Volume
 Velocidade
 Variabilidade de forma e conteúdo
 Valor
 Veracidade
Internet em números
Emails

 2,2 bilhões de usuários de email.


 144 bilhões de emails enviados diariamente (68,8% de
spam, dos quais mais da metade é sobre produtos
farmacêuticos).
 425 milhões de usuários de Gmail.
 0,22% das ações de e-mails em todo o mundo
continham alguma forma de phishing scam.
Páginas web, sites e
hospedagem web
 634 milhões de sites web.
 51 milhões de sites adicionados durante o ano
 59.4 milhões de sites usando WordPress (3,5 bilhões de
páginas vistas por mês).
 Número de páginas web cresceu quase sete vezes
em 10 anos e o de usuários conectados no mundo
todo 1.114%, desde 2010
Domínios

 246 milhões de domínios registrados.


 100 milhões desses domínios são '.com'.
 GoDaddy e responsável por mais de
33% dos registros de domínios em todo o
mundo.
 'Investing.com' foi o domínio mais caro
da Internet em 2018, vendido por 2,45
milhões de dólares.
Internautas

 2,4 bilhões de internautas em todo o mundo


 1,1 bilhão de internautas na Ásia
 519 milhões de internautas na Europa
 274 milhões de internautas na América do Norte
 255 milhões de internautas na América Latina /
Caribe
 167 milhões de internautas na África
 90 milhões de internautas no Oriente Médio
 24,3 milhões de internautas na Oceania / Austrália
 656 milhões de internautas na China - mais do que
em qualquer outro país do mundo
As mídias sociais

 85,9 posts mensais por página do Facebook no


Brasil, o país mais ativo da rede social de Mark
Zuckerberg.
 1 bilhão de usuários ativos no Facebook.
 47% de usuários do sexo feminino no Facebook.
 2,7 bilhões de 'likes' no Facebook todos os dias.
 200 milhões de usuários ativos no Twitter.
 327.452 tweets por minuto - recorde alcançado
quando Barack Obama foi reeleito nos Estados
Unidos.
 135 milhões de usuários ativos no Google+
Buscas

 1,6 trilhão de buscas no Google em 2018.


 Google representa 67% do mercado nos Estados
Unidos.
Internet móvel

 4,1 bilhão de usuários de smartphones no


mundo.
 11,7 milhões de contas móveis pertencentes a 5
milhões de usuários.
 2,3 bilhão de smartphones usados em 2012.
 865 milhões de Android vendidos no ano.
 59% do tráfego consumido em dispositivos
móveis foram gastos com vídeo.
 500 megas é o consumo médio mensal de cada
smartphone, com uma velocidade média de
1.820 kbps para smartphones e de 504 kbps para
móveis em geral.
Comercio Eletrônico

 83% dos usuários de internet pesquisaram na


web em busca de um serviço ou produto
para comprar;
 91% visitou uma loja virtual a partir de
qualquer dispositivo;
 54% usou um comparador de preços online;
 46% visitou um site de leilões a partir de
qualquer dispositivo;
 74% adquiriu um serviço ou produto pela
internet.
Redes sociais mais
populares
Videos

 14 milhões de usuários do Vimeo.


 2,7 bilhões de visitas a vídeos no YouTube com a tag
de Obama ou Romney durante as eleições.
 4 bilhões de horas de vídeo vistos no Youtube por
mês.
 1 bilhão de views para o vídeo da música 'Gangnam
Style', do cantor Psy, o que o tornou o vídeo mais
assistido da história do site.
O cenário Big Data

De acordo com o documento, o Brasil fechou 2018 com


160 milhões de internautas. O número representa um
crescimento de 12% em relação ao ano anterior e indica
que quase 76% da população brasileira já está
conectada. (goo.gl/Tttaeu)

Statistical Analysis System (SAS) e outras empresas que


se dedicam a vascular e analisar a vasta quantidade de
dados gerados e publicados hoje. (goo.gl/jSau6t)
Big Data - Aplicações

Em parceria com um consórcio da área de saúde, a IBM


está usando seu supercomputador Watson para
escanear mutações genéticas e descobrir o melhor
tratamento para cada tipo de câncer.

Em São Francisco, a startup Premise paga 700


colaboradores que tiram fotos do preço e disponibilidade
de alguns produtos nas prateleiras de 25 cidades na Ásia,
América Latina (incluindo o Brasil) e Estados Unidos.
Reunidos, os dados são usados para medir inflação.
Big Data - Aplicações

O OkCupid e outros sites de encontro já usam big data


para identificar entre seus usuários cadastrados quais
são aqueles que tem a maior chance de formar casais
com potencial de dar certo.

Prever fim de namoro - Um algoritmo


no Facebook analisou 8,6 bilhões de conexões de 1,3
milhão de usuários do Facebook para aprender a prever
quando um namoro está perto do fim.)
Big Data - Aplicações

Acabar com engarrafamentos - A Prefeitura


de Dublin fez um acordo com IBM e usou câmeras e GPS
para monitorar trânsito da cidade a fim de evitar
congestionamentos e a lotação de transportes públicos.

Rastrear o lixo - O MIT (Instituto de Tecnologia de


Massachusetts, em inglês) convidou 500 moradores
de Seattle a etiquetarem o lixo para estudo de logística
que visava melhorar o fluxo dos detritos pela cidade.
Big Data - Aplicações

Evitar suicídios - O Durkheim é um projeto que


acompanha redes sociais para detectar palavras e frases
que caracterizem o autor como um potencial suicida.

Substituir currículos - A Votorantim e outras empresas já


estão substituindo a velha análise de currículos pela
coleta e observação de dados publicados pelos
candidatos sobre si em redes sociais e outros espaços da
internet.
Big Data - Aplicações

Estipular preços - Nos EUA, sites como o Netflix, lojas,


empresas aéreas já usam big data para estipular
variações no preço dos produtos e serviços que
oferecem (Case App Amazon)

Desenvolver vacinas - A Merck usa big data para colher


dados que, reunidos e analisados, são usados para
identificar padrões que ajudam no desenvolvimento de
vacinas pela empresa.
Big Data - Aplicações

Superar a dengue - A IBM desenvolveu um modelo que


articula dados como chuvas, temperatura e acidez do
solo para prever surtos de dengue e malária.

Eleger candidatos - Nas eleições de 2012, Barack


Obama recolheu por 18 meses dados sobre seus
eleitores na internet. Isso permitiu uma melhor
compreensão dos interesses e preocupações do
eleitorado e, provavelmente, o ajudou a ser reeleito
presidente dos EUA.
Big Data - Aplicações

Esportes: Nos EUA, a NBA fez um acordo com a SAP e a


Stats LLC para oferecer aos telespectadores de jogos de
basquete estatistícas detalhadas dos times e jogadores
do esporte. Página de estatísticas da NBA:
goo.gl/eM93a4

Gerir cidades - No Rio de Janeiro, o Centro de


Operações reúne dados recolhidos por câmeras e outros
suportes afim de mapear a cidade e apontar locais com
problemas - que são repassados a 30 órgãos públicos
que podem solucioná-los.
Big Data - Aplicações

Evitar fraudes - Em parceria com a Accenture, uma


grande operadora de celular brasileira (que a Accenture
não conta qual é por razões contratuais) desenvolveu um
sistema baseado em big data voltado para a indústria
financeira. Ao informar dados relativos à localização de
smartphones, a novidade pretende inibir as fraudes nas
compras com cartão.
Big Data - Aplicações

Atender melhor - O Bank of America registrou um ganho


de produtividade e economizou cerca 15 milhões de
dólares após descobrir que funcionários que
conversavam mais atendiam mais rapidamente (e assim,
deixá-los conversar).
Ganhar dinheiro - Por meio do programa
BankAmeriDeals, o Bank of America devolve a seus
clientes parte do dinheiro gasto em compras feitas com
cartões de crédito e débito do banco. A vantagem é
oferecida pelo banco de acordo com a análise de dados
de compras passadas de seus clientes.
Big Data - Aplicações

Espionar pessoas - Em 2013, Edward Snowden revelou a


existência na NSA do X-Keyscore, que captura todo o
conteúdo que trafega na conexão interceptada para,
depois, analisá-lo e extrair os dados desejados. Só em
2012, agências federais dos EUA gastaram 5 bilhões de
dólares com pesquisas em big data - o investimento deve
chegar a 8 bilhões de dólares em 2017.
Estudar o universo - O centro de dados do CERN,
laboratório suíço que estuda a origem do universo e
outros temas, conta com 65 mil processadores que
analisam 30 petabytes de dados por ano. É big data ou
não é?
Bancos NoSQL
Ranking
FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL
 Assunto fortemente relacionado ao Big Data.

 Também não existe consenso quanto à definição.

 “NoSQL é um conjunto de conceitos e tecnologias relacionados a


desempenho, confiabilidade e agilidade que permitam processamento
rápido e eficiente de coleções de dados.” (McCreary e Kelly, 2014)

 Provê contraponto aos SGBDRs tradicionalmente encontrados nas


empresas durante as últimas décadas.

 Não significa exclusão do uso de recursos de SGBDRs e SQL.


FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL
 Ambientes NoSQL – Características Principais:
 Armazenam e recuperam dados em vários formatos.
 Permitem recuperações de dados sem a realização de junções de
estruturas de dados.
 Permitem a distribuição (com ou sem replicação) de bases de
dados em múltiplos processadores que podem ou não estar na
nuvem computacional e, apresentar ou não memória
compartilhada.
 Permitem distribuição de processamento, obtendo, em geral,
escalabilidade linear em relação ao número de processadores.

 BASE vs ACID: Ambientes NoSQL admitem inconsistência


temporária de dados em prol de sua alta disponibilidade
(24 x 7)
FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados


 Pares do Tipo Chave-Valor (Key-Value Stores)
 Cadeia de símbolos (chave) leva a um blob de dados arbitrariamente grande
(valor)
 Não possuem linguagens de consulta específicas
 São indexados por chaves que permitem o acesso direto aos dados
 Valores podem ser de qualquer tipo de dados
 Vantagem: simplicidade de estrutura: economia de tempo e recursos
 Exemplos de ambientes que utilizam este padrão:
 Cassandra
 Dynamo
 Voldemort
 Riak

Chave Valor
Imagem123.jpg Arquivo binário contendo a
imagem
www.ime.eb.br HTML de uma página web
C:/Documentos/LivroKDD.pdf Documento PDF
FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados


 Bases de Dados de Grafos (Graph Stores)
 Armazenamento e recuperação de informações em grafos
 Dados são triplas: vértice-relacionamento-vértice
 Vértices e relacionamentos podem conter propriedades
 Informações podem estar contidas em vértices ou na estrutura dos grafos
 Forte aplicação: modelagem de redes complexas como as redes sociais,
por ex.
 Oferecem linguagens de consulta específicas. Ex: Cypher (Neo4j)
 Exemplos de BDs de grafos:
 Neo4j
 Allegro Graph
 DEX
 Infinite Graph
FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados


 Bigtables (Column-Oriented Stores)
 Admitem chaves complexas, formada por duas ou mais informações.

Row-ID ColumnFamily ColumnName TimeStamp Valor


----------------------------------------------------------------------------
----------------

 Campo ColumnFamily agrupa as colunas indicadas em ColumnName.


 Timestamp associa aspecto temporal às informações (versionamento dos
dados)
 Permite armazenar matrizes esparsas de alta dimensionalidade
 Também dispensa o uso da operação de junção
 Exemplos de ambientes que utilizam este padrão:
 Cassandra
 HBase
 Hypertable
FUNDAMENTOS E CONCEITOS BÁSICOS

NoSQL – Padrões Arquiteturais de Dados


 Coleções de Documentos (Document Stores)
 Cada documento corresponde a uma árvore.

 Conteúdo da árvore pode ser acessado via linguagem apropriada (ex: SPARQL)
 JSON e XML são exemplos de formatos de apresentação de documentos
 Exemplos de sistemas de gestão de documentos:
 MongoDB

 RavenDB

 CouchDB
FUNDAMENTOS E CONCEITOS BÁSICOS

MapReduce
 Modelo de programação: processa grandes volumes de
dados em paralelo
 “Proposto” pela Google em 2004.
 Exemplo que ilustra o funcionamento do MapReduce:
 Distribuição da tarefa de contagem da população de Roma por regiões.
 A contagem em cada conjunto ocorre em paralelo.
 Dados levantados são consolidados no número final

 Outro exemplo: Chav Valor Chav Valor


No fim de cada e e
1 [a, é, o] 1 3
iteração, é realizada 2 [No, de, de, de, de, 2 7
a soma das na, um] 3 3
frequências locais de 3 [das, que, fim] 4 4
4 [soma, cada, cada, 5 2
cada conjunto de cada] 6 2
itens, o que resulta na 5 [itens, deles] 7 1
frequência global de 6 [locais, global] 8 2
7 [resulta] 9 1
cada um deles. 8 [iteração, conjunto] 10 1
9 [realizada] 11 1
10 [frequência]
11 [frequências]
FUNDAMENTOS E CONCEITOS BÁSICOS

Hadoop
 Projeto da Fundação Apache
 Oferece framework para operações paralelas em grandes volumes de
dados.
 Funciona sobre sistema de arquivos organizados em clusters distribuídos.
 Se baseia no paradigma do MapReduce.
FUNDAMENTOS E CONCEITOS BÁSICOS

Análise de Dados

Necessidade:

Ferramentas inteligentes que auxiliem na análise de dados e na busca


por conhecimentos em GRANDES conjuntos de dados (nos mais
diversos formatos).

Mineração de Dados
(Data Mining)

Descoberta de Conhecimento
em Bases de Dados (KDD)
FUNDAMENTOS E CONCEITOS BÁSICOS

Descoberta de Conhecimento em Bases de Dados – KDD


“É um processo, de várias etapas, não trivial, interativo e
iterativo, para identificação de padrões compreensíveis,
válidos, novos e potencialmente úteis a partir de grandes
conjuntos de dados.” (Fayyad et al., 1996)

Interação

Especialista
Especialista de
de Domínio
Domínio Especialista
Especialista em
em KDD
KDD

Etapas
Etapas Operacionais
Operacionais do
do Processo
Processo de
de KDD
KDD

Dados Pré-Processamento Mineração de Dados Pós-Processamento

Estruturado
Modelo de
s Iteração
Conhecimento
FUNDAMENTOS E CONCEITOS BÁSICOS

“BUSCA” VS “DESCOBERTA”

Busca Descoberta

Dados Data
estruturados

Dados não-estruturados
(Texto)
FUNDAMENTOS E CONCEITOS BÁSICOS

 Há vários tipos de “mining” :


 Data Mining
 Multimídia Mining (Som, Imagem, …)
 Text Mining
 Graph Mining
 Web Mining
 Educational Data Mining (EDM)
 Social Data Mining
 Opinion Mining
 ...

 Terminologia acima não é um consenso.


FUNDAMENTOS E CONCEITOS BÁSICOS

DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA

Descoberta de
Conhecimento

Dados Estruturados Dados Textuais Dados Multimídia


Mineração de Dados Mineração de Dados Mineração de Dados
Clássica Textuais Multimídia

70% 2005-2
2006-1
60% 57%56%
49% 2006-2
47%45%
50% 2007-1

40% 2007-2
33%
30% 24%
22% 23% 24%
21% 21%
20% 17%

10% 14%13% 6% 6%4%5%5%


1% 0%0%1%0%
0%

-10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos

Vous aimerez peut-être aussi