Vous êtes sur la page 1sur 93

Tecnologias Emergentes: Conceitos e Modelagem

e dados para Data Warehouses, Data Mining, Big


Data. Modelos de Dados Avanados para
Aplicaes Avanadas; XML.
Cssio
Grace
Guilmour
Vanessa
Business Intelligence
Business Intelligence
O que ?
Origem
Usado em que?
Beneficios
BI nas redes sociais
Definio de BI - Gartner Group
Business Intelligence o processo de
transformar dados em informao atravz da
descoberta de transformar informao em
conhecimento
Business Intelligence
Business Intelligence
Business Intelligence
Data Warehousing
Conceito
Data warehouse um depsito de dados digitais que serve para armazenar
informaes detalhadas relativamente a uma empresa, criando e organizando
relatrios atravs de histricos que so depois usados pela empresa para ajudar
a tomar decises importantes com base nos fatos apresentados.
O data warehouse serve para recolher informaes de uma empresa para que essa
possa controlar melhor um determinado processo, disponibilizando uma maior
flexibilidade nas pesquisas e nas informaes que necessitam.
Para alm de manter um histrico de informaes, o Data Warehouse cria
padres melhorando os dados analisados de todos os sistemas, corrigindo os erros
e restruturando os dados sem afetar o sistema de operao, apresentando somente
um modelo final e organizado para a anlise.
Surgiu da necessidade de integrar dados corporativos espalhados em diferentes
mquinas e sistemas operacionais, para tornar os dados acessveis.
Problemas
Ns possumos montanhas de dados, no entanto, no
conseguimos acessa-los.
Ns precisamos analisar os dados de todas as maneiras
possveis. (quebrar as informaes em conjunto menores,
ou analisar em diferentes pontos de vista)
necessrio facilitar o acesso s informaes para os
usurios de negcio.
Apenas mostre-me o que importante. (facilitar o acesso
ao dados para o usurio tomar decises)
Misso
1. Tornar a misso facilmente acessvel (informao de
fcil entendimento)
2. Apresentar informaes consistente (informao de alta
qualidade)
3. Adaptvel e flexvel mudana (necessidades do
usurio, condies e dados do negcio)
4. Proteger e tornar a informao segura
5. Auxiliar no processo de tomada de deciso
6. Ser aceito pela comunidade de negcio
Vantagens e desvantagens de Data
warehousing
Algumas das principais vantagens do data warehouse so:
Inconsistncias so identificadas e solucionadas antes dos dados serem carregados, o que
facilita a execuo da anlise e de relatrios;
Contribuem para o processo de tomar decises, atravs de relatrios de tendncias, de
exceo e relatrios que revelam os objetivos versus desempenho real.
O data warehouse tambm tem algumas desvantagens, entre as quais:
No uma soluo adequada para dados no-estruturados;
Podem ter custos elevados e podem ficar ultrapassados com alguma rapidez.
Caractersticas principais
Orientado por tema/assunto
Integrado
Variante no tempo
No voltil
Data warehouse X Banco de dados
operacional
Data warehouse X Banco de dados
operacional
Data warehouse X Banco de dados
operacional
Data warehouse X Banco de dados
operacional
Estrutura do DW - Segundo Kimbal
Data Mart
Arquiteturas de Data Warehouse
Arquitetura resumida DW
Arquiteturas de Data Warehouse
A escolha da arquitetura e implementao de um DW
so decises gerenciais do projeto. Estes fatores esto
relacionados infraestrutura disponvel (banco de
dados, ferramentas de consulta e visualizao,
processamento paralelo, particionamento de dados),
ambiente de negcios, porte da empresa, escopo de
abrangncia desejado, assim como a capacidade da
equipe interna de TI e dos recursos disponibilizados
para investimento.
Arquitetura de Data Warehouse Empresarial
(Enterprise Data Warehouse EDW)
A construo do Data Warehouse em 7
etapas
Tipos de Data Warehouse
DW baseado em Servidor
Mainframe ou servidor de rede local (LAN)
DW Virtual
Rene dados operacionais e dados histricos mantidos em BDs no h um
DW central
DW Distribudo
DW global rene dados de vrios DWs locais
DW baseado na Web
Dados provenientes da World Wide Web
Data Mining
- Data Mining ou minerao de dados, um processo
analtico para explorar grandes quantidades de dados.
- Busca padres consistentes e relacionamentos entre
variveis, e os valida, aplicando os padres a novos
subconjuntos.
- Segundo a Gartner Group (desenvolve tecnologias
relacionadas a introspeco necessria para seus
clientes tomarem suas decises todos os dias.) uma
tecnologia emergente e uma das mais promissoras.
- No entanto, Data Mining ainda est baseado em
princpios conceituais de Dados Exploratrios e de
modelagem.
Data Mining uma das seis fases do KDD ( Processo de
Descoberta de Conhecimento em Banco de dados),
juntamente com a seleo de dados, limpeza,
enriquecimento, transformao ou codificao -datamining-
construo de relatrios e apresentao da informao.
Metas do Data Mining
Predio
Identificao
Classificao
Otimizao
Regras e/ou padres descobertos pelo Data
Mining
rvore de Classificao
Regras de Associao
Hierarquia de Classificao
Padres Sequenciais
Padres com sries temporais
Clustering
Aplicaes do Data Mining
Marketing Aplicaes como anlises de
comportamento do consumidor baseadas em padres
de consumo e definio de estratgias de marketing;
Finanas Analise de crdito de clientes, segmentao
de contas a receber.
Algoritmo de Clustering (k-means)
De uma forma resumida: Atribuem-se valores iniciais para
os prottipos seguindo algum critrio; depois, atribui-se
cada objeto ao grupo cujo prottipo possua maior
similaridade com o objeto; seguindo essa linha, se
recalcula o valor do centroide de cada grupo como sendo a
mdia dos objetos atuais do grupo; depois, apenas se
repetem-se a atribuio de valor cujo prottipo tenha maior
similaridade, e se recalcular o valor do centroide at que os
grupos se estabilizem.
BIG DATA

Contextualizao:
TARGET, loja EUA com 1800 pontos de vendas. Rastreava e armazenavas as
pegadas digitais deixadas pelos consumidores;
BIG DATA
Nome em ingls usado para definir a tectnica quantidade de dados e
informaes que produzimos no mundo digital.
Conceito:
Conjuntos de dados extremamente grandes e que, por este motivo, necessitam
de ferramentas especialmente preparadas para lidar com grandes volumes, de
forma que toda e qualquer informao nestes meios possa ser encontrada,
analisada e aproveitada em tempo hbil.
Curiosidade:
A cada DIA:
2,5 exabytes de informaes so produzidos pela humanidade.
25 petabytes so processados pelo Google.
43 petabytes so trocados por smartphones e tablets conectados pela internet.
No facebook os usurios sobem 300 milhes de fotos diariamente.
Petabyte (1 000 000 000 000 000 de bytes)
1,5 petabytes armazena todas as msicas j criadas pela humanidade.
Exabyte (1 000 000 000 000 000 000 de bytes)
3 Exabytes tudo que a humanidade conseguia guardar em 1986 - hoje
produzimos quase o dobro em DOIS dias.
Porque esse aumento?
O custo para se armazenar dados caiu. H duas dcadas
atrs, estocar 1gigabyte custava 1000 dlares, hoje custa 6
centavos.
Estruturados x No estruturados
Pequena parte;
so limpos, corretos e
checados, como uma
pesquisa do IBGE;
Grande novidade do Big Data;
So dados sujos, incompletos e
caticos;
Exemplos: E nova foto no
Facebook, um novo tute, o novo
vdeo no You tube; a pesquisa no
Google, a msica que se escuta
online, livro que se l no leitor
eletrnico;
o lixo online, mas um lixo que vale
ouro;
O que podemos obter atravs dos
dados:
Uma pesquisa na Universidade de Cambridge
com base nos dados de 58 000 usurios do
Facebook descobriu que pessoa com alto QI
tem um apreo especial pela voz de Morgan
Freeman.
O que podemos obter atravs dos
dados:
A Master Card, analisando 65 bilhes de
transaes de 1,5 bilho de clientes de 210
pases descobriu que o consumidor que enche
o tanque do carro, por volta das 16hrs tente a
gastar 35 a 50 dlares na hora seguinte num
mercado ou restaurante.
Em 80% religio e posio poltica.
Em 95% descobriram a raa do usurio.
Em 88% a orientao sexual.
Caractersticas no revelados no
Facebook:
Revolucionrio BIG DATA
Em toda histria, a humanidade tomou
decises com base numa parte do todo, agora
pela primeira vez, podemos comear a tomar
decises com base no todo, com 100% de
informao.
Aplicao :
Stephan Fihn coordena o sistema Big Data da rede mdico hospitalar que
atende 25 milhes de veteranos de guerra dos EUA.
Sua base de dados:
80 milhes de arquivos;
9 milhes de internaes;
6 milhes de exames de laboratrios;
3 bilhes de bilhetes mdicos;
Cruzando tudo Fihn faz projees sobre a sade dos pacientes:
Suas previses so semanais:
Qual a probabilidade de tal paciente ser internado em trinta dias?
Qual o risco de falecimento?
Outras aplicaes: Google
Permitir que centenas de milhes de usurios
recebam resultados de suas buscas em meio
segundo no o grande desafio do Big Data
no Google.
O tesouro de verdade est nos zilhes de
informaes que os usurios fornecem aos
computadores da Google.
Outras aplicaes: Amazon
De cada 100 pessoas que entram no Amazon,
apenas 2 cumprem todas as etapas para
efetivamente comprar algum item.
Sobre esses 2% o Amazon sabe quase tudo, o
grande desafio capturar os dados dos 98%
dos que no chegaram ao fim.
Os Vs do Big Data
Volume
Velocidade
Variedade
Veracidade
Valor
Modelagem de dados para Data Warehousing
Um modelo de dados bem estruturado prover empresa a capacidade
de extrair as informaes certas das mais diferentes formas e maneiras,
independente da ferramenta ou do grau de complexidade exigido nas
consultas.
Sem uma estrutura bem elaborada, a enorme quantidade de informaes
pode tornar as consultas muito lentas, podendo tambm tornar inviveis
algumas operaes de consulta.
Modelagem de dados para Data Warehousing
Sistema OLAP
On Line Analytical Processing
Permite aos usurios de alto nvel, como gerentes e analistas de negcio,
navegarem entre os dados da empresa com maior facilidade, proporcionando
uma viso multi-dimensional desses dados.
O sistema OLAP fornece uma viso multi-dimensional dos dados, no
importando como estes dados esto fisicamente armazenados. Os dados so
percebidos pelo usurio como um cubo multi-dimensional onde cada clula
contm um valor ou medida.
Modelagem de dados para Data Warehousing
Sistema Transacional X Sistema Analtico
Caracterstica Sistemas Transacionais
(OLTP)
Sistemas Analticos
(OLAP)
Atualizaes Mais frequentes Menos freqentes
Tipo de Informao Detalhes Agrupamento
Quantidade de Dados Poucos Muitos
Preciso Dados atuais Dados histricos
Complexidade Baixa Alta
Consistncia Microscpica Global
Exemplos CRM, ERP, Supply Chain MIS, DSS, EIS
Terminologia Linhas e Colunas Dimenses, Medidas e Fatos
Modelagem de dados para Data Warehousing
*Consultas ad-hoc: consultas com acesso casual nico e tratamento dos dados segundo parmetros nunca antes utilizados
Sistema Transacional X Sistema Analtico
Caracterstica Sistemas Transacionais
(OLTP)
Sistemas Analticos
(OLAP)
Usurios Tpicos Usurios em Geral Gerentes, Analistas de
Negcios
Aplicao Operaes do Dia-a-Dia Anlises de Negcios
Interao do Usurio Pr-determinado Ad-hoc*
Caractersticas de
Trabalho
Leitura/Gravao Leitura
Unidade de Trabalho Transao Consulta
Processamento Orientado a processos Orientado a assuntos
Atualizao Um registro por vez Vrios registros por vez
Modelagem de dados para Data Warehousing
Banco de Dados Multi-dimensional
Modelagem de dados para Data Warehousing
Banco de Dados Multi-dimensional
Modelagem de dados para Data Warehousing
Banco de Dados Multi-dimensional
Modelagem de dados para Data Warehousing
Modelo Relacional
Surgiu para atender sistemas transacionais que possuem operaes atmicas (que devem ocorrer
por completo ou ento serem desfeitas) predefinidas, geralmente, com um grande nmero de
usurios simultneos realizando operaes repetidamente.
Modelo Dimensional
Surgiu para atender sistemas de processamento analtico, com consultas para planejamento ttico e
estratgico da empresa. Para melhor desempenho nas consultas, h redundncia planejada dos
dados, compensando os gastos com armazenamento e atualizao das informaes. As atualizaes
so feitas periodicamente em batch, no havendo a necessidade de controle de concorrncia. Os
usurios somente realizam consultas na base de dados, podendo extrair e formatar seus prprios
relatrios, no dependendo da equipe de tecnologia para isso.
Modelagem de dados para Data Warehousing
Modelo Dimensional
Formado por trs elementos bsicos
Dimenses
Fatos
Medidas
Modelagem de dados para Data Warehousing
Modelagem de dados para Data Warehousing
Modelos de dados Avanados para aplicaes
avanadas
Temporais
Ativos
Multimdia
Dedutivos
Conceito de Banco de Dados Temporais
Tipos de Tempo
Tempo Instantneo
Tempo de uma Transao
Tempo de Validade
Tempo Bi-temporal
Conceito de Banco de Dados Temporais
Ordem do Tempo
Ordem Linear
Forma mais usual de ordenao temporal.
Um dado com no mximo um sucessor e um predecessor.
Exemplo: evoluo do salrio de um empregado.
Ordem Ramificada
Um dado pode ter vrios sucessores e/ou predecessores
Exemplos: alternativas para futuro estado de um paciente que j possui um histrico de passagens no hospital por uma
determinada doena (futuro ramificado). Hiptese para a evoluo do homem at os dias de hoje (passado ramificado).
Ordem Circular
Um conjunto de dados se repete periodicamente em uma certa ordem.
Exemplo: perodos de promoo de uma loja, vero, pascoa, dia das mes, Outono//Inverno, dias dos pais, natal, queima de
estoque.
Banco de Dados Ativos
Banco de Dados Ativos (BDA)
Definio das regras ou gatilhos
Seu correspondente modelo de execuo
Otimizao.
Uso dos Sistemas Ativos
Suporte automtico ao usurio
Notificao
Execuo automtica de procedimentos
Provimento de valores default
Funcionalidade do modelo de dados
Manuteno da integridade
Proteo
Uso dos Sistemas Ativos
Gerenciamento dos recursos
Otimizao do armazenamento fsico
Gerenciamento de vises
Regras e Gatilhos
Regras E-C-A
Evento
Condio
Ao
Regras E-C-A: Componentes
Conceito de Banco de Dados Multimdia
Coleo controlada de itens de dados multimdia, como imagem, udio e
vdeo.
Dados complexos, como imagem, vdeo e texto livre, so diferentes dos
dados alfa-numricos clssicos, em termos tanto de apresentao quanto de
semntica.
Conceito de Banco de Dados Multimdia
Processamento de Dados Multimdia
O dado multimdia requer um processamento mais elaborado para extrair
informaes de seu contedo
O contedo do dado multimdia capturado por tcnicas variadas, diferentes entre si (por
exemplo: o processamento digital de imagens).
Pesquisas feitas em bancos de dados multimdia geralmente no podem ser retornadas s com
uma resposta textual. A resposta a uma consulta pode ser uma apresentao multimdia
complexa;
Um usurio que faz uma pesquisa pode desejar modific-la, e importante que seja possvel
alterar de forma incremental a apresentao multimdia original, de modo a permitir seu reuso,
ao invs de criar uma nova apresentao desde o incio.
Conceito de Banco de Dados Temporais
Geralmente, todo sistema de Banco de Dados trata de informaes relativas a
tempo. Um exemplo clssico um controle acadmico onde se deve
armazenado o histrico de cada aluno, como ano e semestre cursado.
Mas os desenvolvedores normalmente no se preocupam especificamente
com esse conceito. Devido, talvez, a sua complexidade, tratam essa
informao como algo que no merea ateno especial.
http://lms.ead1.com.
br/webfolio/Mod3160/mod_topicos_avancados_em_banco_de_dados_v1.pdf
Conceito de Banco de Dados Dedutvel
Bancos de dados dedutivos fornecem um mecanismo para derivar dados que no esto
explicitamente armazenados no banco de dados (conhecidos como dados virtuais ou dados
derivados). So mais poderosos e expressivos que as vises, embora mais problemticos para serem
suportados [LT92].
No existe uma diviso bvia entre os bancos de dados dedutivos e os ativos. A principal diferena
est baseada no modelo de execuo. No primeiro tipo, geralmente a preocupao a derivao de
informao, e as regras so executadas explicitamente pela aplicao. No segundo, as regras (ou
gatilhos) so disparadas como efeito colateral das aes normais do banco de dados [Wid93].
XML
Dados Estruturados
Dados Semi estruturados
Heterogneos
Irregulares
auto-descritivos
Dados No estruturados
O que so?
Onde so armazenados?
O que BLOB?
Exemplos
Bancos de dados e Web
Banco de dados e Web
Documentos de hyperlink
HTML
Cdigo HTML
Evoluo da Internet
XML
XML
XML bem formatado
Estrutura do XML
Exemplos de Regras
HTML X XML
3 tipos principais de XML
Data-Centric: XML centrado em dados;
Document-Centric: XML centrado em
documentos;
Hibrid: XML que mescla dados e
documentos.
APIs
XQuery
Software
Revisando
Data Warehouse
Data Mart
Big Data
Data Mining
Concluso
Referncias
http://www.efagundes.com/Artigos/O%20que%20eum%20data%20warehouse.htm
http://www.uniritter.edu.
br/graduacao/informatica/sistemas/downloads/tcc2k9/TCCII_Andre_2009_2.pdf
http://meusite.mackenzie.com.br/rogerio/tgi/2004ModelagemDW.pdf
http://www.inf.unioeste.br/~olguin/4458-semin/G8-monografia.pdf
http://www.documentar.com.br/tag/big-data/
http://www.dct.ufms.br/~mzanusso/Data_Mining.htm
http://www.tecmundo.com.br/programacao/1762-o-que-e-xml-.htm