Vous êtes sur la page 1sur 5

Uma generalizao do processo ETL em Sistemas Data Warehouse Clayton M.

Costa Universidade Federal do Cear (UFC) Campus do Pici, Fortaleza CE Brasil

Resumo. Este trabalho tem como objetivo mostrar o funcionamento geral do processo ETL (Extract Transform Load Extrao Transformao Carga) em Sistemas Data Warehouse (DW), abordaremos suas fases, caractersticas e propriedades. Pode-se dizer que o processo ETL um das fases mais crtica e rdua da modelagem de um DW, pois nela ocorre movimentao, padronizao e modelagem dos dados, em geral de grandes volumes de dados. Assim, sucintamente veremos tal processo sobre dois esquemas relacionais, definiremos a modelagem de fatos, e por fim, mostraremos as operaes de um DW neste contexto. 1. Introduo Nos ltimos anos produes de informaes estratgicas para tomadas de deciso utilizando tcnicas de Data Warehouse (DW) tm despertado grande interesse das organizaes [4], pois esta uma tecnologia que apresenta muitos benefcios, entre eles: a agilidade da tomada de deciso, a melhoria do gerenciamento de recursos e a descoberta de novas oportunidades. Um DW, ilustrado na figura 1, um sistema computacional provido de um conjunto de dados e ferramentas relativas s atividades de uma organizao, de forma consolidada [2]. Geralmente, um DW trabalha sobre grandes volumes de dados, onde sua base de dados desenvolvida de forma a facilitar a anlise sobre esses dados, que a sua principal funo. Dessa forma, um DW tem como principal objetivo disponibilizar dados aos analistas de negcio para dar suporte as tomada a decises. Assim, um DW integra e modela mltiplas bases de dados fornecendo uma viso consolidada dos mesmos, que est voltada necessariamente para as metas de anlise. Para tanto, um DW utiliza-se de diversas ferramentas para prover o objetivo final, onde se destacam: Ferramentas de projeto e desenvolvimento; Ferramentas de extrao e transformao de dados (ferramentas ETL); Ferramentas de acesso de anlise de dados (ferramentas OLAP); Ferramentas de gerenciamento do sistema. Para o escopo do nosso trabalho, focaremos no processo ETL, dado pelas ferramentas ETL, que vai desde a extrao dos dados at a incluso no DW. O processo ETL tambm pode ser denominado de processo de carga. Neste processo, so realizados procedimentos de limpeza, integrao e transformao dos dados, pois necessrio para que eles sejam inseridos no DW em um formato adequado produo de informao gerencial. Os procedimentos do processo de carga podem ser implementados por programas desenvolvidos em alguma linguagem de programao, ou, podem ser utilizadas ferramentas disponveis no mercado destinadas a esta finalidade.

Figura 1 Arquitetura de DW. Fonte: Ricardo S. Santos, 2004, p. 6 In [4].

2. O Processo ETL ETL o processo de extrair dados de um sistema (um banco de dados), transform-los de alguma forma e inser-los em outro banco de dados especial [1]. Os DW utilizam-se deste processo j que estes consolidam dados de diferentes fontes. Deste modo, um sistema ETL capaz de se comunicar com diferentes bases de dados, lendo arquivos de diferentes formatos. Este processo um dos mais crticos, pois envolve movimentao, modelagem e padronizao de grandes volumes de dados. Assim, o termo ETL divide o processo em trs fases, que nominal da prpria sigla: Extrao: esta fase consiste em definir as fontes de dados e mov-las para o DW, de forma a manter os dados no mesmo local. Entretanto, sero movidos apenas os dados que esto de acordo com os objetivos do DW; Transformao: este processo consiste em limpar e alterar os dados obtidos da fonte, de forma a padronizar os dados. A limpeza dos dados est ligada ao lixo e inconsistncias existentes entre e nas bases de dados [1]. J a alterao servir para padronizar um dado que tem a mesma representao semntica, s que escrito de forma diferente. Sero apresentados exemplos na prxima seo; Carga: este processo consiste em integrar os dados, mantendo sua integridade. Este processo tem enorme complexidade, pois muitos fatores so considerados, que podem ser visto em [1]. 2.1. Utilizando o processo ETL em bases relacionais No contexto de DW, um dos tipos de modelos de dados utilizado o modelo multidimensional, que de melhor entendimento para usurios comuns e facilita a elaborao de consultas. Neste modelo, existe a relao de fatos e dimenses, onde os fatos so as medidas de desempenho e as dimenses so contextos de um fato. Em bases relacionais uma dimenso pode ser vista como uma tabela ou um atributo ou um conjunto de atributo(s) de uma tabela, e um fato pode ser visto como uma juno entre duas ou mais dimenses. Para nosso exemplo, considere a existncia de dois esquemas relacionais com seus respectivos estados. Esses esquemas simulam fontes de dados distinta, como mostra a figura 2.

Figura 2 Fontes Distintas de Dados

Esses esquemas necessitam ser modelados e integrados de forma a prover uma viso materializada para o DW. Assim, o Sistema ETL percorrer as duas fontes de dados: No esquema fonte 1 da figura 2: ocorrero ajustes de padronizao do atributo sexo de autores_rel e da Data_Publicacao de artigo_autor_rel. De forma que, ao invs de ter no atributo sexo os valores H para homem e M para mulher, ser M para o sexo masculino e F para o sexo feminino. Da mesma forma com o atributo Data_Publicacao, ao invs do formato DD/MM/YYYY, ser trocado para o formato YYYY/MM/DD. Estas alteraes so dadas pela fase de transformao do processo ETL. No esquema fonte 2 da figura 2: no haver ajustes, pois no ser necessrio j que est de acordo com o padro determinado pelo usurio. Duas coisas so de importante entendimento, os ajustes no modificaro as fontes de dados, e sim, os dados no momento de extrao para o DW. E esses ajustes so modelados de acordo com o operador do DW, atendendo assim as restries que for determinadas pelo usurio. Aps o processo de transformao, entra o processo de carga, onde ocorrero mapeamentos sinttico e semntico entre os esquemas, respeitando as restries de integridade, criando assim uma viso materializada e unificada das fontes. Este processo um dos mais difceis de obter devido ao seu nvel de complexidade, que depender da heterogeneidade das bases de dados. Existem muitos estudos nessa rea que pode ser visto em [6]. Assim, uma possvel viso materializada e integrada dos esquemas pode ser exemplificada na figura 3:

Figura 3 - Uma possvel viso integrada no DW

Portanto, foi apresentada uma forma genrica e sucinta de como o processo ETL trabalha, pois existem muitas ferramentas no mercado, cada qual com suas particularidades podendo ser utilizadas dependendo do caso de cada empresa. E a escolha da ferramenta mais adequada acarretar em maiores produes para uma empresa [1]. 3. Modelagem do Data Warehouse

Um DW pode ser modelado utilizando dois tipos de representao de consultas: modelo estrela e modelo flocos de neve [3]. O modelo mais utilizado o modelo em estrela, onde so abordados fatos e dimenses. Um exemplo deste modelo pode ser visto na figura 4. Perceba que a figura uma estrela com um fato no centro e as dimenses na suas pontas. Contudo no necessrio ter cinco pontas, ou seja, cinco dimenses, para ser chamada de modelo estrela.

Figura 4 Exemplo de Modelo Estrela

Considerando os esquemas da seo anterior podemos tirar alguns fatos, so exemplos: Considere a seguinte questo, suponha que um usurio deseja consultar sobre o DW o total de artigos publicados por autor entre os anos de 2000 e 2007. Teria ento o seguinte modelo:

Figura 5 Fato: Produo dos Autores

Considere agora outra questo, suponha que o usurio deseja saber o total de artigos publicados com menos de 10 pginas por autor em 2002, ento teria o seguinte modelo:

Figura 6 Fato: Artigos Curtos

O processo de modelagem de DW fornece ao usurio uma fonte riqussima de informaes, que podem ser relacionadas umas com as outras, auxiliando ainda mais o processo da tomada de deciso. E a confiana que essas informaes apresentam depender de quo confiveis so as fonte de dados, o que tomar mais fora no processo decisrio. 4. Operaes sobre a modelagem do Data Warehouse Em um DW, os dados podem ser representados de diversas formas, e na maioria dos casos utiliza-se a representao de cubos de dados, ou seja, os dados so postados como se estivesse em um cubo onde cada lado desse cubo representa uma dimenso. Atualmente, a modelagem de cubo a mais utilizada por existir ferramentas poderosas de manipulao trabalhando com esta abordagem, que so as ferramentas OLAP (Online Analytical Processing Processamento Analtico Online). As ferramentas OLAP oferecem ao usurio interfaces para fazer operaes (consultas e manipulaes) sobre os dados de um DW. Podem-se citar operaes como drill-down e roll-up, que so as mais utilizadas.

A operao drill-down consiste em detalhar uma fatia do cubo de dados, ou seja, decompor parte de um cubo formando um novo cubo, que conseqentemente, estar em um maior nvel de detalhe. A operao roll-up consiste em gerar um cubo de dados em um nvel mais generalizado, ou seja, esta operao faz o inverso da operao drill-down, criando um cubo mais abrangente que o cubo original. Essas operaes podem ser exemplificadas na figura 7, no contexto da modelagem do fato Artigos Curtos declarado da seo anterior.

Figura 7 Operaes Drill-down e Roll-up sobre o fato Artigos Curtos, da seo anterior.

5. Concluses Pode-se dizer que o processo ETL o processo mais rduo e difcil na construo de um Data Warehouse, devido aos aspectos j visto neste trabalho. Atualmente, so disponibilizadas diversas ferramentas de ETL no mercado cada uma com suas particularidades, entre elas so: Data Stage da Informix, o ETI da IBM, o Data Flow (antigo Sagent) da Pitney Bowes Software, Informtica Power Conect da Informtica e o DTS da Microsoft. Um fato importante que, essas ferramentas so adequadas para cada caso de cada organizao, e isto o fator que determinar a produtividade das informaes na organizao. Referncias 1. 2. 3. 4. 5. 6. 7. 8. WIKIPDIA: http://pt.wikipedia.org/wiki/ETL. WIKIPDIA: http://pt.wikipedia.org/wiki/Data_Warehouse Data Warehouse: Luis Felipe M. Gheller. UFRGS, 2002 Projeto de um Data Warehouse para Sade Pblica: Ricardo S. Santos, Marco Antnio Gutierrez, Sergio Furuie, Umberto Tachinardi. UNIFESP, 2004 Desenvolvimento e Implantao de um Data Warehouse Corporativo com Data Marts Distribudos em uma Cooperativa Agroindustrial: Antnio Csar Centenaro. UFSC, 2003 Usando Assertivas de Correspondncia para Especificao e Gerao de Vises XML de Aplicaes Web: Fernando Cordeiro de Lemos. UFC, 2007 Sistemas de Banco de Dados Quarta Edio: Shamkant Navathe, Ramez E. Elmasri. Editora Pearson, 2005 Database Management Systems Second Edition: Raghu Ramakrishnan, Johannes Gehrke. McGraw-Hill College, 2002

Vous aimerez peut-être aussi