Académique Documents
Professionnel Documents
Culture Documents
UFRPE
Projeto Fsico do DW
Vrios aspectos relacionados ao projeto fsico de BDs devero ser considerados para garantir performance no acesso s estruturas relacionais ou dimensionais:
Estimativa de Tamanho do DW/DM Criao do Data Base Criao de Espaos e Tabelas Criao das Tabelas Definio de Campos Chaves e Restries Definio de ndices e Estruturas especiais para acesso aos DW/DM
2/23
Estimativa de Tamanho
Tabelas Fatos
Supor 5 transaes de cliente dia, 15.000 clientes e perspectiva de armazenamento para 6 anos 5 x 15.000 x 365 x 6 = 164.250.000 ocorrncias Supor 7 chaves na tabela Fato, cada qual com 4 bytes. Quatro mtricas, cada qual com 4 bytes. Logo, cada linha da tabela Fato, ocupa 44 bytes Estimativa Final = 164.250.000 x 44 bytes = 7,2 GB
4/23
6/23
8/23
Opes de Armazenamento
A estratgia de armazenamento do DW/DM permite as seguintes opes:
ROLAP: so usados os prprios SGBDs relacionais, com as tabelas sendo implementadas com estruturas relacionais clssicas Oferece todas as vantagens de um SGBDR como debug, paralelismo, otimizadores, monitorao e etc. Exige cuidado no projeto, onde o excesso de tabelas normalizadas podem comprometer a performance das buscas Esquema estrele e floco de neve
9/23
Opes de Armazenamento
MOLAP: so usado gerenciadores de BDs proprietrios, com caractersticas de armazenamentos especiais e ferramentas para tratamento dimensional de dados Dispem de propriedades especiais de armazenamento como matrizes, operaes com array e indexao de bitmap No oferece recursos de debug, paralelismo, log, otimizadores e monitorao encontrados nos SGBDR, vista que a especialidade para anlise multidimensional Tanto as estruturas bsicas (maior granularidade), quanto as estruturas agregadas so armazenadas nesse formato
10/23
Opes de Armazenamento
HOLAP: representa uma abordagem hibrida, um misto das estratgias ROLAP e MOLAP As estruturas relacionais so normalmente utilizadas para os dados de maior granularidade As estruturas dimensionais nativas so dedicadas ao armazenamento de agregados (menor gro) DOLAP: representa uma abordagem entre estruturas dimensionais ou relacionais, transferidas do DW/DM para as estaes cliente So armazenadas com o objetivo de facilitar a performance de certas anlises, minimizando o trfego de informaes entre o ambiente cliente e o ambiente servidor
11/23
Opes de Armazenamento
Opes de armazenamento/ implementao de estruturas dimensionais
12/23
Processo de ETL
ETL, do ingls Extract Transform Load (Extrao, Transformao e Carga), o processo de extrair dados de um sistema (um banco de dados), transform-los de alguma forma e inseri-los em outro banco de dados especial, o Data warehouse (DW). A transformao pode ser uma limpeza dos dados, alterao de acordo com regras de negcios, traduo etc. Em portugus, podemos encontrar a sigla ETC no lugar de ETL.
13/23
Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
1. Os dados precisam ser extrados de fontes mltiplas, heterogneas. Ex.: BDs, arquivos textos (flat files), mercado financeiro, dados do ambiente e etc. 2. Os dados precisam ser formatados visando consistncia dentro do DW. Ex.: empresas subsidirias de uma corporao podem calendrios fiscais diferentes, com trimestres fiscais que terminam em datas diferentes, tornando difcil agregar os dados financeiros por trimestre
14/23
Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
3. Os dados precisam ser limpos para assegurar a validade. A limpeza um processo complicado e complexo que tem sido identificado como o componente com maior exigncia de trabalho na construo do DW. Ex.: uma mesma cidade pode aparecer com diversos nomes Joao Pessoa, Joo Pessoa, Joo Pessoa PB Esse processo tambm chamado de backflushing
15/23
Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
4. Os dados precisam ser ajustados ao modelo de dados do DW. Os dados precisam ser convertidos de modelo OO, ER, rede, hierrquico para um modelo multidimensional. Ex.: O campo Nome da tabela Cliente, ser divido em dois campo na tabela Dimenso Cliente: PrimeiroNome, ltimoNome; Ex.: Os dados das tabelas Produto e Fornecedor, sero agrupados na dimenso Produto, que tamb contm informao de Fornecedores
16/23
Processo de ETL
A aquisio de dados para o DW envolve os seguintes passos:
5. Os dados precisam ser carregados no DW. O volume dos dados torna a carga uma tarefa significativa. Ferramentas de monitorao de carga, bem como mtodos de recuperao de cargas incompletas ou incorretas Atualizao Incremental x Carga Total
Quo atualizados os dados devem estar? O DW pode ficar fora de servio por quanto tempo? Quais os requisitos de distribuio (replicao partio? Qual o tempo de carga?
17/23
Processo de ETL
Consideraes sobre a carga das Tabelas:
Planeje cuidadosamente a carga dos DW/DM, analisando estratgias de mapeamento entre os dados fonte e o DW/DM Planeje o processo de transformao dos dados, atentando para a sequncia dos processamentos, arquivos intermedirios, tabelas de mapeamento de cdigo e etc. Alguns processos de transformao so: Filtro: somente valores especificados sero considerados
18/23
Processo de ETL
Consideraes sobre a carga das Tabelas:
Integrao: quando o mesmo dado se origina de fontes diversas Condensao: reduo e sumarizao (modificao de granularidade). Ex.: data (ddmmaaaa) em trs unidades separadas: dia, ms, ano Converso: tipos, formatos, unidades, obscurecimento (efeito de segurana). Ex.: 1, 2, 3 para ruim, mdio, bom Derivao: dados obtidos por clculos no processo de transformao
19/23
Processo de ETL
Consideraes sobre a carga das Tabelas:
Considere os processos de transferncia entre ambientes operacionais diferentes, como legado e cliente/servidor Considere a possibilidade de usar utilitrios de carga oferecidos pelos SGBDs ou ferramentas especficas SQL*Loader (Oracle), BCP (SQL Server) Quando um certo volume de dados atingido, fica impraticvel a carga total. Neste momento recursos para realizao de atualizao incremental devem estar disponveis
20/23
10
Processo de ETL
Consideraes sobre a carga das Tabelas:
Considere a possibilidade eliminar (drop) os ndices antes de efetuar as cargas e recri-los posteriormente
21/23
Projeto
Construir o projeto fsico do DW para os modelos dimensionais do projeto final da disciplina
Coluna A, tamanho 4 bytes
22/23
11
Referncias
Leitura Obrigatria
Captulo 7 - Barbieri, Carlos. BI Business Intelligence. Axcel Books. 2001.
Leitura Sugerida
Captulo 28 - Viso geral de data warehousing e OLAP. Elmasri, R., Sistemas de Bancos de Dados. Addison Wesley, 2005.
23/23
12