Académique Documents
Professionnel Documents
Culture Documents
UMA INTRODUÇÃO
70% 2005-2
2006-1
60% 57%56%
49% 2006-2
47%45%
50% 2007-1
40% 2007-2
33%
30% 24%
22% 23% 24%
21% 21%
20% 17%
-10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos
-10% -10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30 Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos mínimos
Astronomia Computação:
Biologia • Gerência de
Defesa Dados
Educação • Análise de Dados
Energia Temas Relacionados:
Engenharia • Workflows Científicos
Esporte • Procedência de Dados
Física • Web Semântica
Saúde • Mineração de Dados
Etc... • Etc...
Conceito
NoSQL
Assunto fortemente relacionado ao Big Data.
NoSQL
Ambientes NoSQL – Características Principais:
Armazenam e recuperam dados em vários formatos.
Permitem recuperações de dados sem a realização de junções de
estruturas de dados.
Permitem a distribuição (com ou sem replicação) de bases de
dados em múltiplos processadores que podem ou não estar na
nuvem computacional e, apresentar ou não memória
compartilhada.
Permitem distribuição de processamento, obtendo, em geral,
escalabilidade linear em relação ao número de processadores.
Chave Valor
Imagem123.jpg Arquivo binário contendo a
imagem
www.ime.eb.br HTML de uma página web
C:/Documentos/LivroKDD.pdf Documento PDF
FUNDAMENTOS E CONCEITOS BÁSICOS
Conteúdo da árvore pode ser acessado via linguagem apropriada (ex: SPARQL)
JSON e XML são exemplos de formatos de apresentação de documentos
Exemplos de sistemas de gestão de documentos:
MongoDB
RavenDB
CouchDB
FUNDAMENTOS E CONCEITOS BÁSICOS
MapReduce
Modelo de programação: processa grandes volumes de
dados em paralelo
“Proposto” pela Google em 2004.
Exemplo que ilustra o funcionamento do MapReduce:
Distribuição da tarefa de contagem da população de Roma por regiões.
A contagem em cada conjunto ocorre em paralelo.
Dados levantados são consolidados no número final
Hadoop
Projeto da Fundação Apache
Oferece framework para operações paralelas em grandes volumes de
dados.
Funciona sobre sistema de arquivos organizados em clusters distribuídos.
Se baseia no paradigma do MapReduce.
FUNDAMENTOS E CONCEITOS BÁSICOS
Análise de Dados
Necessidade:
Mineração de Dados
(Data Mining)
Descoberta de Conhecimento
em Bases de Dados (KDD)
FUNDAMENTOS E CONCEITOS BÁSICOS
Interação
Especialista
Especialista de
de Domínio
Domínio Especialista
Especialista em
em KDD
KDD
Etapas
Etapas Operacionais
Operacionais do
do Processo
Processo de
de KDD
KDD
Estruturado
Modelo de
s Iteração
Conhecimento
FUNDAMENTOS E CONCEITOS BÁSICOS
“BUSCA” VS “DESCOBERTA”
Busca Descoberta
Dados Data
estruturados
Dados não-estruturados
(Texto)
FUNDAMENTOS E CONCEITOS BÁSICOS
Descoberta de
Conhecimento
70% 2005-2
2006-1
60% 57%56%
49% 2006-2
47%45%
50% 2007-1
40% 2007-2
33%
30% 24%
22% 23% 24%
21% 21%
20% 17%
-10%
Até 3 De 4 a 8 De 9 a 15 De 16 a 25 De 26 a 30
salários salários salários salários salários
mínimos mínimos mínimos mínimos mínimos