0 évaluation0% ont trouvé ce document utile (0 vote)
69 vues68 pages
Este documento apresenta um estudo analítico de ferramentas open source para ambientes OLAP. Inicialmente, conceitos como OLTP, Business Intelligence e Data Warehouse são explicados. Em seguida, características e arquiteturas de Data Warehouse e OLAP são detalhadas, incluindo recursos como drill down, slice and dice e pivoting. Por fim, bancos de dados multidimensionais e ferramentas open source para OLAP são avaliados.
Este documento apresenta um estudo analítico de ferramentas open source para ambientes OLAP. Inicialmente, conceitos como OLTP, Business Intelligence e Data Warehouse são explicados. Em seguida, características e arquiteturas de Data Warehouse e OLAP são detalhadas, incluindo recursos como drill down, slice and dice e pivoting. Por fim, bancos de dados multidimensionais e ferramentas open source para OLAP são avaliados.
Este documento apresenta um estudo analítico de ferramentas open source para ambientes OLAP. Inicialmente, conceitos como OLTP, Business Intelligence e Data Warehouse são explicados. Em seguida, características e arquiteturas de Data Warehouse e OLAP são detalhadas, incluindo recursos como drill down, slice and dice e pivoting. Por fim, bancos de dados multidimensionais e ferramentas open source para OLAP são avaliados.
ESTUDO ANALTICO DE FERRAMENTAS OPEN SOURCE PARA AMBIENTES OLAP
CRICIMA, AGOSTO DE 2006 1 RENATO CRAMER
ESTUDO ANALTICO DE FERRAMENTAS OPEN SOURCE PARA AMBIENTES OLAP
Monografia apresentada Diretoria de Ps- Graduao da Universidade do Extremo Sul Catarinense- UNESC, para a obteno do ttulo de especialista em Gerenciamento de Banco de Dados.
Orientador: Prof. M.Sc. Rafael Gasto Coimbra Ferreira.
CRICIMA, AGOSTO DE 2006 2
Dedico minha querida Me.
3 RESUMO
O objetivo principal deste trabalho foi apresentar o estado atual das ferramentas open source para ambientes OLAP, oferecendo informaes relevantes para os profissionais da rea de informtica que desejam utilizar estas tecnologias. Foi dedicada uma grande parte do mesmo para apresentao terica dos conceitos, de OLTP a OLAP. Isso justifica-se pelo fato de que a grande maioria dos profissionais de informtica, principalmente os desenvolvedores, trabalham somente com sistemas OLTP, muitas vezes desconhecendo as tecnologias de Data Warehouse e OLAP. Por este motivo tambm foram descritas as reas de aplicao e os benefcios do OLAP. Houve uma preocupao em selecionar as ferramentas que pudessem oferecer uma soluo OLAP prxima das necessidades dos desenvolvedores, por exemplo, possuindo servidor e cliente OLAP e rodando nos sistemas operacionais mais difundidos, ou seja, Windows e Linux. Por estes motivos esta pesquisa foi basicamente descritiva quanto aos objetivos. Alm disso, teve como idia principal que os dados operacionais dos sistemas OLTP sejam transformados em informaes nos sistemas OLAP, como excelentes ferramentas que so, para o apoio tomada de deciso de gestores e executivos.
Palavras-chave: Business Intelligence; OLAP; Modelagem Multidimensional; Open Source.
4 LISTA DE ILUSTRAES
Figura 1 Arquitetura Funcional de um DW...........................................................19 Figura 2 Viso de um Tesseract ..........................................................................28 Figura 3 Cubo tridimensional produtos, meses e revendas.................................29 Figura 4 Star Schema..........................................................................................30 Figura 5 Entidades do Ambiente DW...................................................................32 Figura 6 Snowflake Schema................................................................................33 Figura 7 Volume de Vendas por Regio..............................................................35 Figura 8 Volume de Vendas da Regio Sul .........................................................35 Figura 9 Slice por Produto...................................................................................36 Figura 10 Dice por Revenda e Tempo.................................................................37 Figura 11 Drill Across ..........................................................................................37 Figura 12 Pivoting................................................................................................38
5 LISTA DE TABELAS
Tabela 1 Comparao entre atividades de processamento de informaes operacionais e baseadas em anlise, orientadas a deciso...................................15 Tabela 2 Diferenas entre um Data Mart e um Data Warehouse........................22 Tabela 3 Ferramentas Descartadas ....................................................................53 Tabela 4 Caractersticas da ferramenta Pentaho BI .........................................58
6 LISTA DE ABREVIATURAS E SIGLAS
DBMS Database Management System ou Sistema de Gerenciamento de Banco de Dados SGBD Sistema de Gerenciamento de Banco de Dados SGBDR Sistema de Gerenciamento de Banco de Dados Relacional TI Tecnologia da Informao
7 SUMRIO
1 INTRODUO ....................................................................................................10 1.1 Tema ................................................................................................................10 1.2 Delimitao do Tema......................................................................................10 1.3 Problema .........................................................................................................11 1.4 Objetivos .........................................................................................................11 1.4.1 Objetivo Geral ..............................................................................................11 1.4.2 Objetivos Especficos .................................................................................11 1.5 Justificativa.....................................................................................................12 2 CONCEITOS E TERMINOLOGIA.......................................................................13 2.1 Open Source ...................................................................................................13 2.2 Flat File............................................................................................................13 2.3 OLTP................................................................................................................14 2.4 Business Intelligence (BI) ..............................................................................15 3 DATA WAREHOUSE..........................................................................................17 3.1 Caractersticas................................................................................................17 3.1.1 Orientado ao Assunto .................................................................................18 3.1.2 Integrado ......................................................................................................18 3.1.3 No Voltil ....................................................................................................18 3.1.4 Variante no Tempo ......................................................................................18 3.2 Granularidade .................................................................................................19 3.3 Arquitetura Funcional ....................................................................................19 3.3.1 rea Interna .................................................................................................20 8 3.3.2 rea Externa.................................................................................................21 3.4 Data Mart .........................................................................................................22 4 OLAP...................................................................................................................23 4.1 O que OLAP? ...............................................................................................23 4.2 O Modelo Multidimensional ...........................................................................24 4.2.1 Fatos.............................................................................................................25 4.2.2 Dimenses ...................................................................................................25 4.2.3 Membros e Hierarquias...............................................................................26 4.2.4 Medidas ........................................................................................................27 4.2.5 Cubos de Dados ..........................................................................................27 4.2.6 Star Schema.................................................................................................30 4.2.7 Surrogate Key..............................................................................................31 4.2.8 Snowflake Schema ......................................................................................33 4.3 Recursos OLAP ..............................................................................................34 4.3.1 Drill Down e Roll Up ....................................................................................34 4.3.2 Slice and Dice ..............................................................................................36 4.3.3 Drill across...................................................................................................37 4.3.4 Pivoting ........................................................................................................38 4.3.5 Ranking ........................................................................................................38 4.4 Bancos de Dados Multidimensionais ...........................................................39 4.5 Servidor e Cliente OLAP ................................................................................40 4.6 Arquiteturas OLAP .........................................................................................41 4.6.1 ROLAP..........................................................................................................42 4.6.2 MOLAP..........................................................................................................43 4.6.3 HOLAP..........................................................................................................43 9 4.6.4 DOLAP..........................................................................................................44 4.6.5 WOLAP .........................................................................................................45 4.7 Benefcios do OLAP .......................................................................................46 4.8 reas de Aplicao para OLAP.....................................................................47 5 CRITRIOS PARA AVALIAO DE FERRAMENTAS OLAP ..........................49 5.1 As 12 Regras de Codd....................................................................................49 5.2 O Teste FASMI ................................................................................................50 5.3 Caractersticas Selecionadas........................................................................51 5.3.1 Recursos OLAP ...........................................................................................52 5.3.2 Linguagens...................................................................................................52 5.3.3 Gerais ...........................................................................................................52 6 FERRAMENTAS OPEN SOURCE PARA AMBIENTES OLAP..........................53 6.1 Ferramentas Selecionadas ............................................................................54 6.1.1 Pentaho - Business Intelligence.................................................................54 6.1.2 Mondrian ......................................................................................................55 6.1.3 JPivot............................................................................................................56 7 METODOLOGIA..................................................................................................57 7.1 Tipo de Pesquisa ............................................................................................57 7.1.1 Abordagem...................................................................................................57 7.1.2 Objetivos ......................................................................................................57 8 APRESENTAO E ANLISE DOS DADOS....................................................58 9 CONCLUSO .....................................................................................................59 REFERNCIAS......................................................................................................61 ANEXOS ................................................................................................................64
10 1 INTRODUO
O presente trabalho visa apresentar o estado atual das ferramentas open source para ambientes OLAP, analisando as caractersticas e funcionalidades especficas de cada ferramenta, com embasamento terico de conceitos reconhecidos de autoridades no assunto. Sero analisadas exclusivamente as ferramentas que possurem servidor e cliente OLAP. Como resultado, esta pesquisa pretende oferecer informaes relevantes para os profissionais da rea de informtica que desejam utilizar a tecnologia OLAP com ferramentas open source.
1.1 Tema
OLAP - Online Analytical Processing (Processamento analtico em tempo real).
1.2 Delimitao do Tema
Ferramentas open source para ambientes OLAP.
11 1.3 Problema
No h, de forma explcita e sistematizada, a identificao e caracterizao de ferramentas open source para ambientes OLAP.
1.4 Objetivos
A seguir sero apresentados o objetivo geral e os objetivos especficos deste trabalho.
1.4.1 Objetivo Geral
Conhecer as ferramentas Open Source para ambientes OLAP e suas caractersticas especficas.
1.4.2 Objetivos Especficos
Possibilitar operaes e atividades de anlise para diversos tipos de negcios atravs de ferramentas open source. Viabilizar o desenvolvimento de sistemas para suporte tomada de deciso atravs de custos acessveis.
12 1.5 Justificativa
O suporte tomada de deciso baseado em ferramentas OLAP comerciais possui um custo elevado, que para a maioria das pequenas e mdias empresas torna-se proibitivo. Identificar ferramentas open source para ambientes OLAP capazes de atender os principais requisitos que tais ambientes exigem tornar possvel para muitas destas empresas a implementao de sistemas para suporte tomada de deciso. Tal possibilidade de implementao ser maior para empresas que possuem equipe prpria de desenvolvimento de sistemas de informao.
13 2 CONCEITOS E TERMINOLOGIA
O objetivo deste captulo apresentar conceitos relacionados tecnologia OLAP e esclarecer parte da terminologia utilizada nesse trabalho.
2.1 Open Source
A Open Source Initiative (OSI) uma corporao sem fins lucrativos dedicada a administrar e promover a definio de software open source. A definio, alm da exigncia da disponibilidade de acesso ao cdigo fonte dos programas, contm alguns critrios para a distribuio do software, descritos no ANEXO A - The Open Source Definition.
2.2 Flat File
Um Flat File, que pode ser traduzido como arquivo plano, um tipo de arquivo usado para armazenamento de dados. Uma definio para Flat File pode ser encontrada em WIKIPEDIA CONTRIBUTORS (2006. Flat file database):
Um flat file um arquivo contendo registros, geralmente um registro por linha. Os campos podem simplesmente ter uma largura fixa com preenchimento ou serem delimitados por espao em branco ou tabulaes ou vrgulas (CSV) ou outros caracteres. Uma formatao extra pode ser necessria para distinguir um espao interno de um delimitador. No existem relacionamentos estruturais. Os dados so planos como em uma folha de papel, em contraste com modelos mais complexos tal como um banco de dados relacional.
14 Uma outra definio para Flat File, que complementa a anterior, mencionada em Chapple (2006):
Flat files so arquivos de dados que contm registros sem relacionamentos estruturados. necessrio um conhecimento adicional para interpretar estes arquivos, tal como as propriedades de formato do arquivo. SGBDs modernos usam uma abordagem mais estruturada para administrao de arquivos (tal como a definida pela SQL) e portanto tm uma estrutura de armazenamento mais complexa.
2.3 OLTP
OLTP o acrnimo de Online Transaction Processing (Processamento de Transaes em Tempo Real). uma categoria de software utilizado no nvel operacional, para armazenar dados detalhados das transaes de negcios de uma organizao conforme as mesmas ocorrem. Uma aplicao OLTP possui vrios usurios concorrentes inserindo, alterando e excluindo dados em tempo real. As aplicaes OLTP atendem a manipulao de dados operacionais, sendo incapazes de efetuarem anlises complexas para apoiar o usurio na tomada de decises estratgicas. O conceito de OLTP exemplificado, citando brevemente o contraste com OLAP, em Garcia-Molina (2001, p. 654):
Em geral, as consultas de apoio deciso usadas em aplicativos de OLAP examinam quantidades muito grandes de dados, ainda que os resultados das consultas sejam pequenos. Em contraste, cada uma das operaes comuns de bancos de dados, como depsitos bancrios ou reservas de passagens areas, toca apenas uma poro minscula do banco de dados; esse ltimo tipo de operao chamado freqentemente OLTP (On-Line Transaction Processing).
Erik Thomsen, na tabela a seguir (Tabela 1), resume as diferenas entre as atividades de sistemas operacionais e aquelas baseadas em anlise, orientadas 15 a deciso.
Tabela 1 Comparao entre atividades de processamento de informaes operacionais e baseadas em anlise, orientadas a deciso. ATIVIDADES OPERACIONAIS ATIVIDADES BASEADAS EM ANLISE, ORIENTADAS A DECISO Mais freqentes Menos freqentes Mais previsveis Menos previsveis Menores quantidades de dados acessados por consulta Maiores quantidades de dados acessados por consulta Consulta principalmente de dados primitivos Consulta principalmente de dados derivados Exige principalmente dados atuais Exige dados passados, presentes e projetados Pouca ou nenhuma derivao complexa Muitas derivaes complexas Fonte: Thomsen (2002, p. 13).
Na medida em que uma organizao acumula dados operacionais com o passar do tempo, os mesmos podem ser utilizados para suportar tomadas de decises estratgicas, em nvel de gerncia. Os dados detalhados das transaes de negcios de uma organizao devem passar por um processo de transformao para atender este tipo de demanda de informaes, resultando em conhecimento estratgico, que auxilia os diversos nveis de uma organizao na tomada de decises.
2.4 Business Intelligence (BI)
O Business Intelligence, que pode ser traduzido como Inteligncia de Negcios ou Inteligncia Empresarial, uma classe de tecnologias e ferramentas voltadas para atender o nvel gerencial das organizaes, transformando dados em 16 informaes significativas. Wayne Eckerson conceitua Business Intelligence, em Eckerson (2002), como: Os processos, tecnologias e ferramentas necessrias para transformar dados em informao, informao em conhecimento, e conhecimento em planos que conduzem aes de negcio lucrativas. Entre estas tecnologias e ferramentas encontram-se Data Warehouses, ferramentas OLAP, e outras, como Decision Support Systems (DSS), Executive Information Systems (EIS), Data Mining e Knowledge Management, por exemplo.
17 3 DATA WAREHOUSE
O objetivo deste captulo fornecer as informaes necessrias a respeito da tecnologia de Data Warehouse que sero utilizadas no prximo captulo, que trata especificamente sobre OLAP. Os Data Warehouses (DWs) possuem uma arquitetura com o objetivo de oferecer acesso a dados para anlises complexas, descoberta de conhecimento e tomada de deciso. No Data Warehouse no existem controles necessrios de bancos de dados tradicionais que suportam processamento de transaes em tempo real (OLTP), que inclui inseres, atualizaes e excluses, ao mesmo tempo que suportam requisies de consultas. Data Warehouses so projetados para suportar extrao, apresentao de dados e processamento eficientes, para finalidades analticas e de tomada de deciso. A utilizao inicial da expresso Data Warehouse atribuda a William H. Inmon. A expresso caracterizada em Inmon (2002, p. 31): "Um data warehouse uma coleo de dados orientados ao assunto, integrados, no-volteis e variantes no tempo, para fornecer suporte s decises de gerentes".
3.1 Caractersticas
A seguir sero explicadas brevemente as caractersticas de um Data Warehouse.
18 3.1.1 Orientado ao Assunto
Significa que as informaes so armazenadas e se relacionam em grupos de assuntos de interesse de uma organizao, focando as principais atividades de negcio.
3.1.2 Integrado
Significa que as informaes provenientes dos sistemas operacionais de uma organizao so consolidadas, de forma que sejam consistentes e tenham um nico significado, ou seja, so codificadas de uma nica forma.
3.1.3 No Voltil
Significa que as informaes so carregadas em massa no Data Warehouse e no sofrem atualizaes como nos sistemas OLTP, sendo disponibilizadas somente para consultas.
3.1.4 Variante no Tempo
Significa que as informaes do Data Warehouse sempre esto associadas a um ponto no tempo, compondo sries histricas.
19 3.2 Granularidade
A granularidade em um Data Warehouse se refere ao nvel de detalhamento das informaes armazenadas, ou seja, quanto mais detalhadas as informaes, menor a granularidade do Data Warehouse. A granularidade afeta o volume de informaes armazenadas e os tipos de consultas que podem ser respondidas aos usurios: quanto menor o nvel de granularidade, mais informaes sero armazenadas, e maior o detalhamento possvel das consultas dos usurios; por outro lado, um alto nvel de granularidade possui um volume menor de informaes armazenadas e permite maior rapidez nas respostas das consultas, porm limita as mesmas quanto ao seu detalhamento.
3.3 Arquitetura Funcional
A arquitetura funcional de um Data Warehouse divide-se basicamente em duas grandes reas: interna e externa, conforme ilustrado a seguir:
Figura 1 Arquitetura Funcional de um DW. Fonte: Ferreira (2004, p. 25). 20 3.3.1 rea Interna
A rea interna composta pelas fontes externas de dados, staging area, armazenamento de dados do DW e metadados. As fontes externas armazenam os dados de origem que abastecem o DW, geralmente provenientes de sistemas OLTP legados. Os dados tambm podem estar armazenados em flat files ou em algum outro meio. A staging area uma rea intermediria de armazenamento entre as fontes externas e o DW, nela os dados so preparados, limpos e integrados para posterior carga no DW. O armazenamento de dados, ou repositrio do DW contm as informaes j consolidadas e disponveis para serem utilizadas pela rea externa, sendo que os dados so carregados em massa. Os metadados contm dados sobre os dados do DW, ou seja, so informaes que descrevem um conjunto de dados. Geralmente so armazenados em um repositrio fora do alcance dos usurios. Algumas das informaes contidas nos metadados so descritas em Imhoff, Galemmo e Geiger (2003, p. 403):
Ele fornece definies para dados, os clculos usados, informao sobre de onde os dados vieram (quais sistemas fontes), o que foi feito com ele (transformaes, rotinas de limpeza, algoritmos de integrao, etc.), quem est usando ele, quando o usam, quais as mtricas de qualidade existem para vrias partes de dados, e assim por diante.
Na rea interna ocorre o processo de Extrao, Transformao e Carga, denominado ETL (Extraction, Transformation and Load). Este processo dividido em etapas e responsvel pela integridade, qualidade e consolidao das informaes provenientes das fontes externas at o armazenamento do DW. Este processo 21 ocorre na carga inicial e nas atualizaes peridicas dos dados do Data Warehouse, sendo que a periodicidade das atualizaes deve levar em considerao o volume de dados e de processamento envolvido. A ETL um fator crtico de sucesso na implantao de um Data Warehouse. Deve-se atribuir uma importncia fundamental a este processo na fase de projeto de um DW, pois conforme citado em Inmon (2002, p. 295): "O processo de integrao e transformao de dados tipicamente consome at 80% dos recursos de desenvolvimento. Esta informao reiterada por Eckerson e White (2003, p. 4): De acordo com a maioria dos profissionais, o trabalho de projeto e desenvolvimento com ETL consome de 60% a 80% de um projeto inteiro de BI. Um processo de ETL mal projetado ou executado pode arruinar completamente a implantao de um DW em uma empresa, tanto pelos recursos e custos necessrios, como pela qualidade das informaes fornecidas para a rea externa, ou seja, para os usurios analistas, tomadores de deciso. O valor da qualidade de uma informao pode ser medido comparando-se os resultados das aes tomadas a partir de uma informao exata com os resultados obtidos atravs de uma informao equivocada.
3.3.2 rea Externa
Na rea externa encontram-se os metadados e as aplicaes e ferramentas de acesso aos dados, possibilitando consultas ad hoc e relatrios especficos. Consultas ad hoc so consultas circunstanciais, no programadas, pertinentes a um determinado momento de anlise. Na rea externa localizam-se as ferramentas OLAP alm de outras, como por exemplo, Data Mining e Relatrios Analticos. 22 3.4 Data Mart
Um Data Mart uma diviso lgica de um Data Warehouse que atende a uma rea especfica de negcio de uma organizao. Um Data Mart no um pequeno Data Warehouse, mas uma unidade lgica de um DW, podendo ser qualificado como um Data Warehouse departamental. Uma organizao pode construir vrios Data Marts ao longo do tempo, e vincul-los a um Data Warehouse da empresa inteira. Um conceito de Data Mart citado em Inmon, Tederman e Imhoff (2001, p. 11):
Os data marts so estruturas moldadas pelos dados granulares encontrados no data warehouse corporativo. Os data marts pertencem aos departamentos especficos dentro de uma empresa geralmente finanas, contabilidade, vendas ou marketing e so moldados pelos requerimentos dos departamentos. Conseqentemente, o design de cada data mart nico.
A grande maioria dos DWs atualmente em produo, na realidade, so Data Marts. Algumas diferenas entre um Data Mart e um Data Warehouse so relacionadas na tabela a seguir, conforme Inmon (1999, p. 4):
Tabela 2 Diferenas entre um Data Mart e um Data Warehouse. DATA MART DATA WAREHOUSE Departamental Corporativo Alto nvel de granularidade Baixo nvel de granularidade Estrutura star-join Estrutura normalizada Pequena quantidade de dados histricos Grande quantidade de dados histricos Tecnologia otimizada para acesso e anlise Tecnologia otimizada para armazenamento e gerenciamento de grandes volumes de dados Cada departamento possui uma estrutura diferente Estrutura adequada ao entendimento corporativo de dados Altamente indexado Levemente indexado Fonte: Inmon (1999, p. 4). 23 4 OLAP
O objetivo deste captulo apresentar a tecnologia OLAP e seus conceitos, a modelagem multidimensional, os recursos e as arquiteturas OLAP, fornecendo o embasamento necessrio para o prximo captulo, que trata dos critrios para avaliao de ferramentas OLAP.
4.1 O que OLAP?
OLAP o acrnimo de Online Analytical Processing (Processamento analtico em tempo real). Foi criado em 1993 por Edgar F. Codd, que tambm criou o Modelo Relacional, utilizado por Sistemas Gerenciadores de Banco de Dados Relacionais (SGBDRs). Basicamente uma classe de tecnologias projetada para anlise de dados multidimensionais, muito utilizada nos sistemas de suporte deciso, permitindo avaliar sries histricas de dados. Em Codd, Codd e Saley (1993), quando da criao do termo OLAP, citada a limitao das ferramentas disponveis na poca e proposta a anlise de dados multidimensionais:
As ferramentas de consultas/relatrios e as planilhas eletrnicas tm sido extremamente limitadas nas formas pelas quais os dados (j recuperados do SGBD) podem ser agregados, resumidos, consolidados, somados, visualizados e analisados. A carncia mais notada tem sido a capacidade para consolidar, visualizar e analisar dados de acordo com mltiplas dimenses, de maneira que faa sentido para um ou mais analistas especficos em um determinado ponto no tempo. Este requisito chamado anlise de dados multidimensionais. Talvez um melhor e mais genrico nome para este tipo de funcionalidade online analytical processing (OLAP), em que a anlise de dados multidimensionais apenas uma de suas caractersticas. 24 Em janeiro de 1995, THE OLAP COUNCIL (1995), um conselho para padronizar a tecnologia OLAP, publica sua conceituao do termo:
O online analytical processing (OLAP) uma categoria de tecnologia de software que possibilita que os analistas, gerentes e executivos tenham entendimento sobre os dados de forma rpida, consistente, e com acesso interativo a uma ampla variedade de vises possveis de informaes que foram transformadas a partir de dados brutos para refletir a dimensionalidade real da empresa como entendida pelo usurio.
4.2 O Modelo Multidimensional
A modelagem de dados descreve e representa de uma forma abstrata os dados de uma organizao. Data Warehouses e ferramentas OLAP se utilizam do modelo de dados multidimensional, e apresentam informaes na forma de cubos de dados (Data Cubes). Um conceito de modelo multidimensional pode ser encontrado em Imhoff, Galemmo e Geiger (2003, p. 400):
Um modelo dimensional uma forma de modelagem de dados que acondiciona os dados de acordo com consultas e processos especficos do negcio. Os objetivos so a compreensibilidade dos usurios de negcio e o desempenho de consultas multidimensionais.
A respeito dos benefcios da modelagem multidimensional, h uma breve descrio em Abell (2002, p. 11):
Os benefcios da modelagem multidimensional so dois. De um lado, ela torna os esquemas de dados mais compreensveis para os usurios finais, e por outro lado, ela permite usar armazenamento especfico e tcnicas de acesso que melhoram o desempenho de queries. A maneira para obter estes benefcios a simplificao dos esquemas de dados, de forma que eles s contenham as coisas essenciais (i.e. um fato para ser analisado e suas dimenses de anlise). Estes esquemas so prximos da concepo de dados dos analistas, e sugerem um tipo especfico de queries, de forma que o sistema pode ser personalizado facilmente para resolv-las com bons tempos de resposta. 25 O relacionamento entre modelos multidimensionais e OLAP citado em Kimball e Ross (2002, p. 466):
Os modelos dimensionais so a base de muitos aprimoramentos de desempenho de DBMS, inclusive agregaes e mtodos de indexao avanados. Tambm so a base do desenvolvimento incremental e distribudo do data warehouse atravs do uso de dimenses e fatos em conformidade e a base lgica de todos os sistemas OLAP.
A seguir sero apresentados brevemente os principais elementos do modelo de dados multidimensional.
4.2.1 Fatos
Um fato um conjunto de itens de dados contextualizados e mensurados em termos numricos, que representam transaes ou eventos de negcio, demonstrando a evoluo do mesmo no decorrer do tempo. No modelo multidimensional um fato representado por uma tabela fato (Fact Table). Uma tabela fato constituda de valores quantitativos e numricos e representa um assunto do DW. Um conceito de tabela fato citado em Imhoff, Galemmo e Geiger (2003, p. 401): Uma tabela fato a tabela dentro de um modelo dimensional que contm as medidas e mtricas de interesse.
4.2.2 Dimenses
Dimenses armazenam as descries textuais das dimenses do negcio. No modelo multidimensional uma dimenso representada por uma tabela 26 dimenso (Dimension Table). Um conceito de tabela dimenso citado em Imhoff, Galemmo e Geiger (2003, p. 400):
Uma tabela dimenso um conjunto de tabelas de referncia que provem a base para restringir e agrupar consultas para a informao em uma tabela fato dentro de um modelo dimensional. A chave da tabela dimenso tipicamente uma parte da chave concatenada da tabela fato, e a tabela dimenso contm informao descritiva e hierrquica.
4.2.3 Membros e Hierarquias
As definies a seguir, de membros e hierarquias, assinalam a possibilidade de haver uma classificao dos dados dentro de uma dimenso. Um membro de uma dimenso definido em THE OLAP COUNCIL (1995):
Um membro de uma dimenso um nome ou identificador discreto usado para identificar uma posio e descrio de um item de dado dentro de uma dimenso. Por exemplo, janeiro de 1989 ou primeiro semestre de 1993 so exemplos tpicos de membros de uma dimenso Tempo. Atacado, Varejo, etc., so exemplos tpicos de membros de uma dimenso Canal de Distribuio.
Uma hierarquia de uma dimenso caracterizada tambm em THE OLAP COUNCIL (1995):
Quaisquer membros de uma dimenso podem ser organizados com base em relacionamentos pai-filho, tipicamente onde um membro pai representa a consolidao dos membros que so seus filhos. O resultado uma hierarquia, e os relacionamentos pai/filho so relacionamentos hierrquicos.
Em uma dimenso geogrfica, por exemplo, podem existir hierarquias de Logradouro, Bairro, Cidade, Estado e Regio.
27 4.2.4 Medidas
Medidas so as caractersticas especficas e mensurveis de um fato, relevantes para anlises. Um conceito de medida citado em Imhoff, Galemmo e Geiger (2003, p. 403):
Uma medida um termo da modelagem dimensional que se refere a valores, geralmente numricos, que medem algum aspecto do negcio. Medidas residem em tabelas fato. Os termos dimensionais medida e atributo, juntos, so equivalentes ao uso do termo atributo da modelagem relacional.
Fatos, Dimenses e Medidas so inter-relacionados na modelagem multidimensional, como citado em Singh (2001, p. 146):
Na modelagem, as estruturas de dados so organizadas para descrever medies e dimenses. Medies fornecem os dados numricos coletados que ficam armazenados na tabela de fatos central. As dimenses so os parmetros do negcio que definem cada transao. So armazenadas em tabelas satlites vinculadas tabela de fatos central. Por exemplo, os dados armazenados em tabelas de fatos incluem dados de vendas, estoque, assinaturas de peridicos, despesas e margem bruta. Tabelas tpicas incluem dados de tempo, geografia, conta e produto.
4.2.5 Cubos de Dados
Os cubos de dados so estruturas nas quais os usurios finais fazem anlises de dados multidimensionais, ou seja, navegam e exploram os mesmos, extraindo informaes e conhecimento a partir dos dados. Uma definio para cubos de dados encontrada em Kay (2005):
Um cubo de dados um tipo de matriz multidimensional que permite que os usurios explorem e analisem uma coleo de dados de muitas perspectivas diferentes, geralmente considerando trs fatores (dimenses) de cada vez. 28 A metfora visual de um cubo com trs dimenses fcil de se entender, ao passo que com mais dimenses se torna difcil, conforme citado em Thomsen (2002, p. 56): Tentar usar um cubo como base para visualizao de quatro ou mais dimenses pode se tornar rapidamente muito complicado. Um cubo com mais de trs dimenses chamado de hipercubo (Hypercube) ou tesseract, um termo matemtico para designar um cubo com quatro dimenses. A dificuldade de entendimento de uma metfora visual com mais de trs dimenses pode ser percebida pela viso de um tesseract na figura 2.
Figura 2 Viso de umTesseract Fonte: Thomsen (2002, p. 57).
Como exemplo, ser considerado uma empresa que comercializa determinados produtos e possui revendas em diversas cidades, de diversas regies do pas. A demanda dos clientes atendida pelas revendas, de acordo com a localizao do cliente e a rea de cobertura das revendas. Uma representao das vendas desta empresa atravs de um cubo poderia ser a da figura 3.
29
Figura 3 Cubo tridimensional: produtos, meses e revendas Fonte: Do autor.
Neste exemplo apresentado um cubo de trs dimenses. Poderiam ser adicionados os clientes - mais uma dimenso - mas se teria um hipercubo de quatro dimenses, no entendido to facilmente. Uma unidade de dados representada em cada clula do cubo, localizada atravs da interseo das dimenses. Por exemplo, observando o cubo pode-se verificar que o valor das vendas do produto D pela revenda 1 no ms de maro 200. A relao entre anlise multidimensional e estrutura de dados citada brevemente em Ballard et al. (2006, p. 86):
A anlise multidimensional tornou-se uma forma popular de estender as capacidades de consultas e relatrios. Isto , melhor do que submeter mltiplas queries, os dados so estruturados para possibilitar acesso fcil e rpido para responder as questes que os usrios tipicamente perguntam.
A estruturao dos dados para possibilitar acesso fcil e rpido aos mesmos pode ser percebida no Star Schema, que ser visto a seguir. 30 4.2.6 Star Schema
Conforme citado em Thomsen (2002, p. 638), um Star Schema :
Um arranjo de tabelas em um banco de dados relacional onde uma tabela de fatos central conectada a um conjunto de tabelas de dimenso, uma por dimenso. O nome star vem da representao diagramtica normal desse esquema, com a tabela de fatos no centro e cada tabela de dimenso mostrada ao seu redor, como as pontas em uma estrela.
Ralph Kimball caracteriza um Star Schema em Kimball (2002, p. 459), como: Representao genrica de um modelo dimensional em um banco de dados relacional em que uma tabela de fatos com uma chave composta unida a vrias tabelas de dimenso, cada uma com uma chave primria.
Um Star Schema tambm conhecido por Star-Join, Star-Join Schema e Modelo Star Schema. Para o exemplo, o Star Schema poderia ser o exibido na figura 4.
Figura 4 Star Schema. Fonte: Do autor.
31 Neste modelo est representado o armazenamento de dados em tabelas, relacionando o fato da venda com suas dimenses produto, cliente, revenda e tempo.
4.2.7 Surrogate Key
Surrogate keys so componentes das entidades de um DW com o objetivo principal de identificar unicamente os registros de tabelas fato e dimenso. Por exemplo, com a possibilidade de existirem mltiplas fontes externas de dados, existe tambm a possibilidade de que uma determinada informao possua identificadores diferentes nas vrias fontes externas. As surrogate keys garantem a unicidade de identificadores por todo o ambiente do DW, e via de regra so inteiros, que ocupam pouco espao e possibilitam joins mais rpidos do que outros tipos de dados. A seguir sero apresentadas trs definies para surrogate keys. Uma definio citada em Imhoff, Galemmo e Geiger (2003, p. 406):
Uma surrogate key uma chave substituta que geralmente um valor numrico arbitrrio atribudo pelo processo de carga ou pelo sistema de banco de dados. A vantagem da surrogate key que ela pode ser estruturada de forma que seja sempre nica por toda a extenso de integrao para o data warehouse.
Outra definio encontrada em DM Review (2006. Glossary: Surrogate Key): Uma surrogate key uma parte nica, um identificador estabelecido artificialmente para uma entidade. A atribuio de uma surrogate key um caso especial de dados derivados - aquele onde a chave primria derivada. Uma forma comum de derivar valores para uma surrogate key atribuir valores inteiros seqencialmente.
Denis Howe define surrogate keys, em Howe (2004): 32 Uma chave primria nica gerada pelo SGBDR que no derivada de quaisquer dados no banco de dados e cujo nico significado funcionar como a chave primria. Uma surrogate key freqentemente um nmero seqencial, mas no obrigado que seja. Ter a chave independente de todas as outras colunas isola os relacionamentos do banco de dados das alteraes nos valores de dados ou do projeto do banco de dados e garante unicidade. Alguns projetistas de banco de dados usam surrogate keys religiosamente apesar da adequabilidade de outras chaves candidatas. De qualquer forma, se uma boa chave j existe, o acrscimo de uma surrogate key somente diminuir a velocidade de acesso, especialmente se ela for indexada.
Seguindo do Star Schema para um projeto de banco de dados, detalhando as tabelas dimenso e fato, o modelo de entidades do ambiente DW poderia ser ilustrado conforme a figura 5.
Figura 5 Entidades do Ambiente DW. Fonte: Do autor. 33 As dimenses Revenda e Cliente esto desnormalizadas em relao s informaes de Logradouro, Bairro, Cidade, Estado e Regio. Esta tcnica garante melhor desempenho na recuperao dos dados por evitar joins, operao cara para SGBDs relacionais. Como ponto fraco, comparado ao Snowflake Schema, o volume de informaes armazenadas maior, por haver muita redundncia de dados.
4.2.8 Snowflake Schema
O Snowflake Schema uma extenso do Star Schema, e tem por caracterstica principal a normalizao das dimenses. No exemplo, o Snowflake Schema poderia ser o exibido na figura 6.
Figura 6 Snowflake Schema. Fonte: Do autor. 34 As dimenses Revenda e Cliente esto normalizadas em relao s informaes de Logradouro, Bairro, Cidade, Estado e Regio. Esta tcnica garante uma otimizao do espao necessrio para o armazenamento de dados, porm o desempenho na recuperao dos mesmos inferior por serem necessrios mais joins do que no Star Schema.
4.3 Recursos OLAP
A seguir sero definidos e exemplificados os principais recursos OLAP, ou seja, operaes realizadas com cubos de dados que possibilitam visualizaes OLAP.
4.3.1 Drill Down e Roll Up
Drill Down e Roll Up so operaes onde a visualizao dos dados percorre as hierarquias de uma dimenso, ou seja, h uma navegao entre nveis de maior para menor granularidade e vice-versa. O recurso Drill Down definido em THE OLAP COUNCIL (1995):
Drill down/up uma tcnica analtica especfica atravs da qual o usurio navega entre nveis de abrangncia de dados a partir do mais resumido (up) para o mais detalhado (down). Os caminhos de navegao podem ser definidos pelas hierarquias dentro de dimenses ou outros relacionamentos que podem ser dinmicos dentro ou entre dimenses. Por exemplo, na visualizao de dados de vendas da Amrica do Norte, uma operao drill- down na dimenso Regio mostraria Canad, o leste e o oeste dos Estados Unidos. Um drill-down mais alm sobre o Canad poderia mostrar Toronto, Vancouver, Montreal, etc.
Como exemplo, ser considerado o volume de vendas de uma empresa por regio nos ltimos cinco anos, ilustrado na figura 7. 35 Volume de Vendas Regio 2002 2003 2004 2005 2006 Centro-Oeste 23 22 25 24 28 Nordeste 20 28 26 25 25 Norte 15 18 22 19 16 Sudeste 25 22 29 30 35 Sul 30 22 25 35 38
Figura 7 Volume de Vendas por Regio. Fonte: Do autor.
Uma operao de Drill Down sobre a regio sul poderia detalhar as informaes de vendas por estados desta regio. O resultado poderia ser como o ilustrado na figura 8. Volume de Vendas Estado 2002 2003 2004 2005 2006 Paran 8 5 6 9 11 Rio Grande do Sul 12 10 11 14 15 Santa Catarina 10 7 8 12 12
Figura 8 Volume de Vendas da Regio Sul. Fonte: Do autor.
O recurso Drill Down tambm chamado de Roll Down por alguns autores. O recurso Roll Up o caminho oposto do Drill Down, ou seja, ocorre a partir de uma informao detalhada para uma informao sumarizada. Por exemplo, uma consulta de volume de vendas poderia ser feita por Cidade e logo aps ser resumida por Estado e depois por Regio. O recurso Roll Up tambm chamado de Drill Up por alguns autores.
36 4.3.2 Slice and Dice
O termo Slice conceituado em Ballard et al. (2006, p. 87): O termo slice na terminologia mutidimensional usado para definir um membro ou um grupo de membros que so separados (de TODAS as outras dimenses) e ento avaliado atravs de todas as dimenses. Ou seja, quando se faz um slicing, os membros ou grupo de membros escolhidos de uma dimenso so resumidos atravs de todas as outras dimenses. Uma operao de Slicing sobre um grupo de membros da dimenso produto poderia ter o resultado como o ilustrado na figura 9. Neste exemplo, so apresentados dois membros isolados da dimenso produto (Produtos B e D) e os totais de vendas correspondentes, resumidos por todas as revendas, clientes e datas. Volume de Vendas Produto Total de Vendas Produto B 2.200 Produto D 812 Total 3.012
Figura 9 Slice por Produto. Fonte: Do autor.
O termo Dice conceituado em Ballard et al. (2006, p. 88):
O conceito de dicing significa que voc coloca mltiplos membros de uma dimenso sobre um eixo e ento coloca mltiplos membros de uma dimenso diferente sobre um outro eixo. Isto permite que voc veja a inter- relao de membros de dimenses diferentes. Dicing a anlise de inter- relaes entre dimenses diferentes ou seus membros.
Uma operao de Dicing com os membros da dimenso revenda em um 37 eixo e os membros da dimenso tempo em outro eixo, poderia ter como resultado o ilustrado na figura 10. Volume de Vendas 2006 Revenda Janeiro Fevereiro Maro Revenda 1 250 300 280 Revenda 2 280 310 305 Revenda 3 212 220 231 Revenda 4 300 340 330 Total 1.042 1.170 1.146
Figura 10 Dice por Revenda e Tempo. Fonte: Do autor.
4.3.3 Drill across
O recurso Drill Across conceituado em Ballard et al. (2006, p. 92): Drill- across um mtodo onde voc faz um drill de uma dimenso para outra. Voc deve definir o caminho do drill-across. Esta funo freqentemente usada em ROLAP. Uma operao de Drill Across, tomando como base a figura 10 e trocando a dimenso revenda pela dimenso produto com relao Revenda 1, poderia ter como resultado o ilustrado na figura 11. Volume de Vendas Revenda 1 2006 Revenda Janeiro Fevereiro Maro Produto A 75 85 81 Produto B 65 78 72 Produto C 59 73 80 Produto D 51 64 47 Total 250 300 280
Figura 11 Drill Across Fonte: Do autor. 38 Neste exemplo pode-se ver um detalhamento de produtos vedidos pela Revenda 1 no primeiro trimestre de 2006.
4.3.4 Pivoting
O significado do recurso Pivoting (tambm conhecido como Rotate) apresentado em Ballard et al. (2006, p. 89): Pivoting em modelagem multidimensional significa trocar linhas com colunas e vice-versa [...] simplesmente uma forma rpida de ver os mesmos dados de uma perspectiva diferente. Uma operao de Pivoting, tomando como base o Volume de Vendas da Regio Sul (ilustrado na figura 8), poderia ter como resultado o ilustrado na figura 12.
Volume de Vendas Estado Ano Paran Rio Grande do Sul Santa Catarina 2002 8 12 10 2003 5 10 7 2004 6 11 8 2005 9 14 12 2006 11 15 12
Figura 12 Pivoting. Fonte: Do autor.
4.3.5 Ranking
O recurso Ranking conceituado em DWBRASIL (2003): A opo de ranking permite agrupar resultados por ordem de maiores/menores, baseado em objetos numricos (Medidas). Esta opo impacta somente uma tabela direcionada 39 (relatrio) no afetando a pesquisa (Query). Ou seja, uma operao simples de classificao ascendente ou descendente das informaes de acordo com uma medida escolhida em uma visualizao, podendo ser escolhido o nmero de itens que a classificao ter.
4.4 Bancos de Dados Multidimensionais
Ralph Kimball caracteriza um banco de dados multidimensional em Kimball (2002, p. 450), como: Banco de dados em que os dados so apresentados em cubos de dados, em oposio a tabelas em uma plataforma de banco de dados relacional. W. H. Inmon, destaca a relao entre SGBDs Multidimensionais e Data Warehouses em Inmon (2002, p. 182):
Uma das tecnologias freqentemente discutidas no contexto do data warehouse o processamento de SGBDs multidimensionais (algumas vezes chamado de processamento OLAP). SGBDs multidimensionais, ou data marts, fornecem um sistema de informao com a estrutura que permite a uma organizao ter acesso muito flexvel a dados, para fazer slice and dice de dados de qualquer nmero de formas, e para explorar dinamicamente o relacionamento entre dados resumidos e detalhados. SGBDs multidimensionais oferecem flexibilidade e controle ao usurio final, e como tal eles ajustam-se bem em um ambiente de sistemas de suporte deciso.
Erik Thomsen comenta brevemente sobre o uso de bancos de dados relacionais e multidimensionais no OLAP, em Thomsen (2002, p. 7):
[...] os produtos de bancos de dados relacionais so muito mais equipados para lidar com as quantidades imensas de dados, normalmente associadas a iniciativas corporativas de data warehouse. Bancos de dados multidimensionais so muito mais bem equipados para oferecer clculos rpidos e em estilo dimensional (embora [...] os bancos de dados SQL estejam evoluindo para o suporte mais eficiente aos clculos em estilo OLAP. 40 As estruturas fsicas de armazenamento de dados de um banco de dados multidimensional, conhecidas por arrays multidimensionais, so diferentes das estruturas utilizadas em bancos de dados relacionais (que dominam grande parte do mercado hoje), justamente para prover as necessidades de multidimensionalidade dos dados. A linguagem MDX (Multidimensional Expressions), usada em bancos de dados multidimensionais, a equivalente multidimensional da SQL, usada em bancos de dados relacionais. Sua origem descrita em WIKIPEDIA CONTRIBUTORS (2006. Multidimensional Expressions):
A MDX foi primeiramente introduzida como parte do OLEDB para a especificao OLAP da Microsoft em 1997. A especificao foi rapidamente seguida pela liberao comercial do Microsoft OLAP Services 7.0 em 1998, e depois pelo Microsoft Analysis Services. Apesar de que no era um padro aberto, mas particularmente uma especificao de propriedade da Microsoft, ela foi adotada pela ampla extenso de fornecedores OLAP.
4.5 Servidor e Cliente OLAP
Um servidor OLAP definido em THE OLAP COUNCIL (1995):
Um servidor OLAP um mecanismo de manipulao de dados multiusurio de alta capacidade projetado para suportar e operar sobre estruturas de dados multidimensionais. Uma estrutura multidimensional organizada de forma que cada item de dado localizado e acessado baseado na interseo dos membros de dimenses que o definem. O projeto do servidor e da estrutura de dados so otimizados para rpida recuperao de informaes ad-hoc em qualquer orientao, e tambm para rapidez, clculos flexveis e transformao de dados brutos baseados em relacionamentos que consistem de frmulas. O servidor OLAP pode ou preparar fisicamente as informaes multidimensionais processadas para dar rpidos e consistentes tempos de resposta para usurios finais, ou pode povoar suas estruturas de dados em tempo real a partir de bancos de dados relacionais ou outros, ou oferecer uma opo de ambos. Dado o estado atual de tecnologia e o requisito de usurio final para rpidos e consistentes tempos de resposta, preparar os dados multidimensionais no servidor OLAP freqentemente o mtodo preferido.
41 Ou seja, um servidor OLAP processa e atende requisies que envolvem clculos, consolidao e recuperao de informaes multidimensionais. Essas informaes podem estar armazenadas em bancos de dados multidimensionais, relacionais ou ambos. No caso de um banco de dados multidimensional, o prprio j incorpora a funo de servidor OLAP. Em um banco de dados relacional necessrio um servidor OLAP que acesse as informaes do mesmo. A abordagem quanto ao armazenamento OLAP ser ilustrada neste trabalho no tpico seguinte sobre arquiteturas OLAP. Uma caracterstica interessante presente em servidores OLAP o Multipass SQL, que conceituado em Kimball (1997):
[...] a ferramenta de consulta deve quebrar o relatrio em um nmero de queries simples que so processadas separadamente pelo SGBD. A ferramenta de consulta ento automaticamente combina os resultados das queries separadas de uma forma inteligente. Quebrar uma nica requisio complexa em vrias requisies pequenas chamado multipass SQL. [...] multipass SQL d ao navegador agregado uma oportunidade de aumentar a velocidade do relatrio, porque cada requisio SQL atmica simples e facilmente analizada pelo navegador agregado.
Um cliente OLAP definido em THE OLAP COUNCIL (1995):
Aplicaes de usurios finais que podem requerer slices de servidores OLAP e prover exibies bidimensionais ou multidimensionais, modificaes de usurios, selees, classificaes, clculos, etc para propsitos de visualizao e navegao. Clientes OLAP podem ser to simples como um programa de planilha eletrnica recuperando um slice para favorecer o trabalho de um usurio instrudo em planilhas eletrnicas ou to altamente funcional como uma modelagem financeira ou uma aplicao de anlise de vendas.
4.6 Arquiteturas OLAP
Erik Thomsen, autor reconhecido em OLAP, destaca a origem do termo e sua utilizao pelos vendedores de ferramentas OLAP em Thomsen (2002, p. 7): 42 Como se o termo de marketing OLAP no fosse suficiente, muitos vendedores e alguns eruditos do setor se sentiram compelidos especialmente entre 1995 e 1998 a criar variantes, normalmente na forma de uma nica consoante acrescentada na frente do termo OLAP, para distinguir seu tipo de letra de OLAP dos outros.
Thomsen refere-se proliferao de termos derivados do OLAP para descrever arquiteturas OLAP, como ROLAP, MOLAP, HOLAP, DOLAP e WOLAP. Estes termos derivados sero abordados brevemente a seguir.
4.6.1 ROLAP
ROLAP o acrnimo de Relational OLAP (OLAP Relacional). A arquitetura ROLAP consiste de um servidor OLAP que acessa dados armazenados em um banco de dados relacional. Um dos pontos positivos desta arquitetura o fato de que a tecnologia de bancos de dados relacionais estabelecida e madura, e seus maiores fornecedores estenderam seus produtos com a finalidade de fornecer um melhor suporte ao OLAP. Isso comeou a acontecer por volta de 1994, conforme citado em Powell (2006): Em 1994, [...] foi tambm nesta poca que os fornecedores de SGBDs reconheceram que suporte a deciso era diferente de OLTP e comearam a implementar reais capacidades OLAP em seus bancos de dados. O prprio padro SQL99 ANSI/ISO determina algumas extenses OLAP. Quanto aos pontos negativos, a mesma SQL deixa a desejar tanto no desempenho quanto no conjunto de funes para anlises multidimensionais (extenses OLAP). Uma definio para ROLAP encontrada em DM REVIEW (2006. Glossary: ROLAP):
43 Um produto que prov anlise multidimensional de dados, agregados e metadados armazenados em um SGBDR. O processamento multidimensional pode ser feito dentro do SGBDR, de um servidor em uma camada intermediria ou no cliente. Um ROLAP comercial aquele de um fornecedor independente que pode funcionar com qualquer SGBDR padro.
4.6.2 MOLAP
MOLAP o acrnimo de Multidimensional OLAP (OLAP Multidimensional). Uma definio para MOLAP pode ser encontrada em WIKIPEDIA CONTRIBUTORS (2006. MOLAP):
MOLAP uma alternativa para a tecnologia ROLAP (OLAP Relacional). Enquanto ambas ferramentas analticas ROLAP e MOLAP so projetadas para permitir anlise de dados atravs do uso de um modelo de dados multidimensional, o MOLAP difere significativamente por requerer a pr- computao e armazenamento de informaes no cubo a operao conhecida como processamento. O MOLAP guarda estes dados em um armazenamento de arrays multidimensionais otimizado, em vez de um banco de dados relacional (i.e. em ROLAP).
Na arquitetura MOLAP os dados so armazenados em um banco de dados multidimensional, que propriamente executa a funo de servidor OLAP.
4.6.3 HOLAP
HOLAP o acrnimo de Hybrid OLAP (OLAP Hbrido). O conceito de HOLAP encontrado em DM REVIEW (2006. Glossary: HOLAP): Um produto que pode prover anlise multidimensional simultaneamente de dados armazenados em um banco de dados multidimensional e em um SGBD Relacional. Tornou-se uma arquitetura popular para servidor OLAP. Ou seja, HOLAP uma tecnologia mista de ROLAP e MOLAP que tira 44 proveito do melhor de cada uma delas: a escalabilidade do ROLAP e o alto desempenho do MOLAP.
4.6.4 DOLAP
DOLAP o acrnimo de Desktop OLAP (OLAP Desktop). Uma breve explanao sobre DOLAP pode ser encontrada em Howson (2002):
Ferramentas DOLAP criam dinamicamente um micro cubo ou no PC cliente, ou em uma instalao na internet, ou em um servidor de aplicao em uma camada intermediria. Para criar o micro cubo, os usurios lanam uma query SQL usando uma viso de negcios do data warehouse. A ferramenta DOLAP ento envia os resultados de volta para o desktop e os formata em um cubo. O formato de micro cubo permite aos usurios executar certas funes tais como drill-down que historicamente s eram disponveis com cubos MOLAP. Ele tambm permite aos usurios lanar instrues SQL complexas, combinando dados de diferentes tabelas fato ou at mesmo planilhas eletrnicas, ainda assim apresentando aos usurios um documento perfeitamente consistente. O principal benefcio desta abordagem sobre o MOLAP a flexibilidade; os usurios no tem que definir suas requisies de informaes antes do tempo de uma forma precisa como acontece com o MOLAP. Alm disso, um banco de dados relacional pode armazenar mais dados do que cubos MOLAP, dando liberdade aos usurios para analisar grandes conjuntos de dados. O aspecto negativo so os tempos de resposta mais lentos e clculos multidimensionais limitados.
Ou seja, h uma diminuio da carga de trabalho do SGBD do data warehouse, pois o processamento feito nas mquinas cliente e no no servidor. Ao servidor compete garantir a integridade dos dados e atualizar os cubos de dados existentes. Esta arquitetura tambm til para usurios mveis, pois no necessita de uma conexo permanente com o DW. Um fator a ser considerado o tamanho do micro cubo, pois se for muito grande as consultas e anlises podem tornar-se demoradas ou at mesmo a 45 mquina cliente pode no suportar a carga de trabalho.
4.6.5 WOLAP
WOLAP o acrnimo de Web OLAP (OLAP Web). WOLAP refere-se simplesmente a uma interface Web para acessar a aplicao OLAP, ou seja, os dados OLAP so acessveis a partir de um Web browser. Com relao ao que foi exposto anteriormente, a respeito dos mecanismos de armazenamento e acesso a dados, pode-se constatar que a SQL utilizada nas arquiteturas ROLAP e HOLAP, como tambm pode-se observar a utilizao de bancos de dados multidimensionais nas arquiteturas MOLAP e HOLAP. Alm disso, clientes OLAP com processamento multidimensional possivelmente estaro presentes nas arquiteturas ROLAP e WOLAP, e certamente na arquitetura DOLAP. A respeito de alguns debates na comunidade de Tecnologia da Informao sobre qual arquitetura OLAP seria mais indicada, e sobre a adio de letras ao termo OLAP, h uma meno em Thomsen (2002, p. 7):
Infelizmente, fazer a pergunta o que melhor, MOLAP ou ROLAP? faz to pouco sentido quanto perguntar o que melhor, um carro ou um barco? Obviamente, isso depende do que voc est tentando fazer atravessar uma cidade ou um lago e tambm das suas restries. A existncia do debate ROLAP versus MOLAP baseada na falsa premissa de que a escolha binria. Na moda, a integrao das capacidades multidimensionais e das capacidades relacionais melhor descrita por um espectro de possibilidades, onde as noes de ROLAP puro e MOLAP puro so limites inatingveis e tericos. [...] a maioria das organizaes precisa de alguma mistura de capacidades que, se precisasse de uma qualificao por letra, seria HOLAP. Mas, como qualquer conhecimento apropriado de OLAP distinguiria entre a linguagem ou aspectos lgicos do OLAP e sua implementao fsica, tal conhecimento apropriado do OLAP revela que, fisicamente, ele pode ser de qualquer espcie. Assim, o conceito do H j est includo nas caractersticas fsicas do OLAP e nenhuma espcie de letra adicional necessria. 46 4.7 Benefcios do OLAP
Um dos maiores benefcios do OLAP justamente o suporte para tomadas de deciso atravs do fornecimento de informaes de forma rpida e precisa, com alta flexibilidade e desempenho. Com as informaes extradas a partir dos dados corporativos e atravs de formas simples e intuitivas de navegao, pesquisa e visualizao, os executivos so capazes de analisar vrios cenrios, fazer anlises what if (o que acontece se), consultas ad hoc, predies e descobrir tendncias. Isso pode determinar a competitividade e sucesso de uma empresa. Na terceira pesquisa chamada The OLAP Survey, foram destacados alguns benefcios obtidos com a utilizao do OLAP, relatados em Pendse (2006): Relatrios mais rpidos ou mais precisos Melhores decises de negcios atravs de anlises mais completas ou oportunas Satisfao dos clientes aumentada atravs da melhoria da qualidade de produtos e/ou servios Economia de outros custos (que no de TI) (e.g. inventrio, desperdcio, financiamento) Rendimentos aumentados atravs de melhores anlises de vendas e marketing Economia de pessoal em departamentos comerciais Custos externos de TI reduzidos (suporte de hardware, assessoria ou licenciamento de software) Economia de pessoal em TI 47 4.8 reas de Aplicao para OLAP
Algumas aplicaes para OLAP so descritas em Reinschmidt e Franoise (2000):
Aplicaes OLAP abrangem uma variedade de funes organizacionais. Departamentos financeiros usam OLAP para aplicaes tais como oramento, atividades baseadas em custos (destinao de verbas), anlise de desempenho financeiro e modelagem financeira. Anlise de vendas e previses so duas das aplicaes OLAP encontradas em departamentos de vendas. Entre outras aplicaes, departamentos de marketing usam OLAP para anlise de pesquisa de mercado, previso de vendas, anlise de promoes, anlise de clientes e segmentao mercado/cliente. Aplicaes OLAP tpicas para manufatura incluem planejamento de produo e anlise de defeitos.
Nigel Pendse enumera algumas aplicaes para OLAP em PENDSE (2005. OLAP applications): Marketing e Anlise de vendas Anlise de Clickstream Database marketing Oramento Relatrios e consolidao financeiros Management reporting EIS Balanced scorecard Anlise de Rentabilidade Anlise de Qualidade
Ralph Kimball ilustra a criao de modelos multidimensionais com estudos de caso e aborda algumas reas de aplicao para OLAP em Kimball e Ross (2002): 48 Vendas a varejo Estoque Compras Gerenciamento de Pedidos Gerenciamento de relacionamento com o cliente (CRM) Contabilidade Gerenciamento de recursos humanos Servios financeiros Telecomunicaes e utilitrios Transporte Educao Assistncia mdica Comrcio eletrnico Seguro
49 5 CRITRIOS PARA AVALIAO DE FERRAMENTAS OLAP
O objetivo deste captulo apresentar os critrios conhecidos para avaliao de ferramentas OLAP, finalizando com a seleo das caractersticas para a anlise das ferramentas open source, motivo deste trabalho.
5.1 As 12 Regras de Codd
Edgar F. Codd foi quem definiu os primeiros critrios, suas famosas 12 Regras para avaliar produtos OLAP em Codd, Codd e Salley (1993): 1. Viso Conceitual Multidimensional 2. Transparncia 3. Acessibilidade 4. Desempenho Coerente de Relatrio 5. Arquitetura Cliente-Servidor 6. Dimensionalidade Genrica 7. Tratamento Dinmico de Matriz Esparsa 8. Suporte para Multiusurio 9. Operaes Irrestritas de Dimenso Cruzada 10. Manipulao de Dados Intuitiva 11. Relatrios Flexveis 12. Dimenses e Nveis de Agregao Ilimitados
50 Quando da publicao de suas 12 regras para OLAP, Codd era um pesquisador contratato por uma empresa que possua um produto OLAP e notou-se uma parcialidade das mesmas em relao ao produto. Por esse motivo, suas 12 regras (s quais posteriormente foram adicionadas mais 6) foram muito criticadas. Houveram alegaes de que eram especficas demais e tambm que no podiam ser atendidas por sistemas que poderiam ser considerados OLAP. Este assunto abordado em WIKIPEDIA CONTRIBUTORS (2006. OLAP):
O primeiro produto que executava queries OLAP foi o Express da empresa IRI, que foi liberado em 1970 (e adquirido pela Oracle em 1995). Porm, o termo no apareceu at 1993 quando foi cunhado por Ted Codd, que havia sido descrito como o pai do banco de dados relacional. Mas o artigo de Codd foi financiado pela antiga Arbor Software (agora Hyperion Solutions), como uma espcie de golpe de marketing: a companhia havia liberado seu prprio produto OLAP Essbase um ano antes. Como resultado, as doze regras de processamento analtico online de Codd eram explcitas em sua referncia ao Essbase. Houve alguma controvrsia como conseqncia disso, e quando a Computerworld descobriu que Codd era pago pela Arbor, ela retratou o artigo.
5.2 O Teste FASMI
O teste FASMI de Nigel Pendse uma alternativa s 12 regras de Codd, conforme relatado em Pendse (2005. What is OLAP?):
Nossa definio projetada para ser curta e fcil de lembrar 12 regras ou 18 caractersticas so demais para a maioria das pessoas levar em suas cabeas; ns estamos satisfeitos em ser capazes de resumir a definio OLAP em simplesmente cinco palavras chave: Fast Analysis of Shared Multidimensional Information ou FASMI para abreviar.
Dessa forma, a sigla FASMI apresenta cinco caractersticas para OLAP, descritas brevemente a seguir e relatadas em PENDSE (2005. What is OLAP?): Fast significa que o sistema deve apresentar respostas aos usurios 51 dentro de aproximadamente cinco segundos, com as anlises mais simples no demorando mais de um segundo e pouqussimas anlises demorando mais de vinte segundos. Analysis significa que o sistema pode suportar qualquer lgica de negcio e anlise estatstica que relevante para a aplicao e para o usurio e que possam ser feitas com suficiente facilidade pelo usurio final. Shared significa que o sistema implementa todas as condies de segurana para a confidencialidade, e se mltiplos acessos de escrita no necessrios, existe um bloqueio de atualizaes concorrentes em um nvel apropriado. Multidimensional o requisito chave. O sistema deve prover uma viso conceitual multidimensional dos dados, incluindo total suporte a hierarquias e mltiplas hierarquias, certamente a maneira mais lgica para anlise de negcios e organizaes. Information - So todos os dados e informaes derivadas necessrias, sempre que ela seja relevante para a aplicao. A medio da capacidade de vrios produtos em termos de quantos dados eles poder tratar, e no de quantos gigabytes eles podem armazenar.
5.3 Caractersticas Selecionadas
A seguir sero descritas as caractersticas que sero verificadas nas ferramentas open source para ambientes OLAP, divididas em trs categorias.
52 5.3.1 Recursos OLAP
Ser verificada a existncia ou no dos seguintes recursos OLAP: Drill Down e Roll UP; Slice and Dice; Drill Across; Pivoting; Ranking.
5.3.2 Linguagens
Sero verificadas as seguintes caractersticas relativas linguagens: Linguagem MDX Verificao se a ferramenta implementa ou no a MDX; Consultas ad hoc Verificao da possibilidade de execuo ou no; Multipass SQL Verificao de existncia ou no (aplicvel para ROLAP e HOLAP); Suporte a Java Verificao da existncia ou no; Suporte a JDBC Verificao da existncia ou no.
5.3.3 Gerais
Sero verificadas as seguintes caractersticas gerais: Suporte a Hierarquias Verificao da existncia ou no; Acesso Multiusurio Verificao se permite acesso multiusurio ou no; Arquitetura OLAP Verificao da arquitetura OLAP das ferramentas. 53 6 FERRAMENTAS OPEN SOURCE PARA AMBIENTES OLAP
Conforme relatado na introduo deste trabalho, as ferramentas analisadas devem obrigatoriamente possuir servidor e cliente OLAP. As ferramentas foram selecionadas principalmente atravs do SourceForge.net, o maior repositrio de projetos de software open source da internet, e tambm atravs de pesquisas na prpria internet. A data de fechamento desta seleo foi 18/07/2006. O SourceForge.net foi consultado atravs da URL http://sourceforge.net/search/?type_of_search=soft&words=olap. A amostragem foi feita considerando-se o percentual de atividade da ferramenta no repositrio, com um limite mnimo desejado no inferior a 90%. As ferramentas devem rodar pelo menos nos sistemas operacionais Windows e Linux. Este aspecto importante devido portabilidade das aplicaes que possam ser desenvolvidas com estas ferramentas. Considerando estes requisitos, foram descartadas deste trabalho algumas ferramentas que no atendem aos mesmos. Estas ferramentas e o motivo principal do descarte esto relacionados na tabela a seguir (Tabela 3).
Tabela 3 Ferramentas Descartadas FERRAMENTA / SITE DO PROJETO MOTIVO DO DESCARTE BEE http://sourceforge.net/projects/bee No roda em Windows BIRT Project - Business Intelligence and Reporting Tools http://www.eclipse.org/birt/phoenix/ Ferramenta voltada para gerao de relatrios e no para OLAP gratis OLAP (gOLAP) http://sourceforge.net/projects/golap Atividade muito baixa no SourceForge.net: 12,49% Hydracube http://sourceforge.net/projects/hydracube No possui cliente OLAP 54 JasperReports - Java Reporting http://sourceforge.net/projects/jasperreports No possui servidor OLAP JMagallanes Olap and Report http://sourceforge.net/projects/jmagallanes No possui servidor OLAP OpenI: Web-based BI Application for OLAP http://sourceforge.net/projects/openi No possui servidor OLAP OpenOLAP for MySQL http://sourceforge.net/projects/r-kajiyama No possui cliente OLAP PALO - Open Source MOLAP http://www.opensourceolap.org/ No possui cliente OLAP pocOLAP - the little OLAP project http://sourceforge.net/projects/pocolap No possui servidor OLAP Rubik http://sourceforge.net/projects/rubik No possui servidor OLAP XML-OLAP http://sourceforge.net/projects/xml-olap No possui desenvolvimento ativo desde 02/06/2005 Fonte: Do autor.
6.1 Ferramentas Selecionadas
Somente uma ferramenta foi selecionada: Pentaho - Business Intelligence. A ferramenta Pentaho possui um mdulo chamado Pentaho Analysis que incorpora o servidor OLAP Mondrian e o cliente OLAP JPivot. Por este motivo, sero analisadas como uma nica ferramenta. A seguir sero apresentadas algumas caractersticas relevantes desta ferramenta e seus dois componentes principais para OLAP, coletadas no repositrio SourceForge.net.
6.1.1 Pentaho - Business Intelligence
Descrio do projeto: Uma completa plataforma de BI que inclui relatrios, anlises (OLAP), dashboards, data mining e ETL. Use-a como uma sute completa ou como componentes individuais que so acessveis via web services. Classificada como nmero 1 em BI open source. 55 Atividade no repositrio: 99,95%; Status de desenvolvimento: 4 - Beta, 5 - Produo/Estvel; Sistema Operacional: Independente de SO (Escrita em uma linguagem interpretada); Linguagem de Programao: Java, JavaScript, JSP, XSL (XSLT/XPath/XSL-FO); Interface de Usurio: Java SWT, Eclipse, Web-based; Licena: Mozilla Public License 1.1 (MPL 1.1); Categoria: Enterprise, Data Warehousing, ERP, OLAP; Site do Projeto: http://sourceforge.net/projects/pentaho.
6.1.2 Mondrian
Descrio do projeto: Mondrian um banco de dados OLAP escrito em Java. Ele implementa a linguagem MDX, a XML for Analysis e as especificaes JOLAP. Ele l a partir de SQL e outras fontes de dados, e agrega dados em uma memria cache. Atividade no repositrio: 99,87%; Status de desenvolvimento: 5 - Produo/Estvel; Sistema Operacional: (Nenhum listado); Linguagem de Programao: Java; Interface de Usurio: (Nenhuma listada); Licena: Common Public License; Categoria: Database Engines/Servers, Enterprise, OLAP; Site do Projeto: http://sourceforge.net/projects/mondrian. 56 6.1.3 JPivot
Descrio do projeto: Um cliente OLAP baseado em JSP. JPivot uma biblioteca customizada JSP que desenha uma tabela e grfico OLAP. Os usurios podem executar tpicas navegaes OLAP como drill down e slice and dice. Ele usa Mondrian e XMLA como seus engines OLAP; Atividade no repositrio: 99,03%; Status de desenvolvimento: 5 - Produo/Estvel; Sistema Operacional: Independente de SO (Escrita em uma linguagem interpretada); Linguagem de Programao: Java; Interface de Usurio: Web-based; Licena: Common Public License; Categoria: Front-Ends, Dynamic Content, Financial, Software Development; Site do Projeto: http://sourceforge.net/projects/jpivot.
57 7 METODOLOGIA
Este captulo descreve a metodologia utilizada neste trabalho de pesquisa.
7.1 Tipo de Pesquisa
Os itens seguintes descrevem o tipo desta pesquisa, quanto abordagem e aos objetivos.
7.1.1 Abordagem
A pesquisa possui uma abordagem qualitativa considerando-se que a mesma prope-se a identificar e caracterizar seus objetos de pesquisa. Tambm uma pesquisa aplicada visto que seus objetos sero operacionalizados na prtica.
7.1.2 Objetivos
Quanto a seus objetivos, de acordo com Thomsen (2002, p. 543) no captulo Orientaes multidimensionais, esta pesquisa descritiva:
A finalidade destas orientaes descrever as principais reas da funcionalidade multidimensional em termos de categorias de especialidade que qualquer ferramenta precisa oferecer e em termos das caractersticas que as ferramentas podem ou no oferecer.
58 8 APRESENTAO E ANLISE DOS DADOS
As caractersticas analisadas da nica ferramenta open source que possui servidor e cliente OLAP, que possui uma atividade no SourceForge.net no inferior a 90% e que roda nos sistemas operacionais Windows e Linux so exibidas na tabela a seguir (Tabela 4).
Tabela 4 Caractersticas da ferramenta Pentaho BI. CARACTERSTICA RESULTADO Recursos OLAP Drill Down e Roll UP Sim Slice and Dice Sim Drill Across No Pivoting Sim Ranking Sim Linguagens Linguagem MDX Sim Consultas ad hoc Sim (MDX Query Editor) Multipass SQL Sim Suporte a Java Sim Suporte a JDBC Sim Gerais Suporte a Hierarquias Sim (Agregao) Acesso Multiusurio Sim Arquitetura OLAP ROLAP Fonte: Do autor.
59 9 CONCLUSO
O panorama atual de ferramentas OLAP proprietrias mostra fornecedores e produtos estabelecidos, maduros e consistentes. Sendo que os principais fornecedores de SGBDs proprietrios oferecem ferramentas OLAP e estenderam seus produtos para um melhor suporte ao OLAP, tudo isso j a alguns anos. Tais caractersticas ainda no esto presentes nas ferramentas OLAP open source. Como exemplo pode-se citar a ferramenta Pentaho BI que no suporta o recurso OLAP Drill-across, que uma operao OLAP bsica. No site da ferramenta observa-se que este recurso est a mais de um ano para ser implementado. Quanto extenso dos SGBDs open source para um melhor suporte ao OLAP a cena se repete. Existem alguns movimentos isolados iniciais, como o caso do SGBD Bizgres, que uma extenso do PostgreSQL para um melhor suporte a Data Warehouse. Observa-se uma expectativa da comunidade de TI sobre ferramentas open source no s para OLAP, mas para Business Intelligence de uma maneira geral, e tambm que est havendo um movimento dos desenvolvedores open source nesse sentido; mas tambm observa-se que h um grande caminho a percorrer at chegar ao estgio atual das ferramentas proprietrias. Atravs deste estudo tambm possvel concluir que vrias ferramentas no oferecem uma soluo completa (ou algo prximo disso) para OLAP, mas somente alguns componentes, como servidor ou cliente OLAP. A prpria ferramenta Pentaho BI incorporou dois projetos open source independentes Mondrian e JPivot 60 para montar sua soluo OLAP, chamada de Pentaho Analysis. No repositrio SourceForge.net tambm encontram-se ferramentas OLAP com baixssimo percentual de atividade, ou ento com pouqussimos desenvolvedores trabalhando em alguns projetos. Por tudo que foi visto, pode-se afirmar que as ferramentas open source para ambientes OLAP ainda esto em um estgio de desenvolvimento um tanto quanto inconsistente, e que os profissionais de TI que desejam usufruir de seus benefcios ainda tero um tempo de espera pela frente at que as mesmas estejam em um patamar mais slido.
61 REFERNCIAS
ABELL, Alberto. YAM: A Multidimensional Conceptual Model. 2002. 179 f. Tese (Programa de Doctorat de Software) Universitat Politcnica de Catalunya, Barcelona.
BALLARD, Chuck et al. Dimensional Modeling: In a Business Intelligence Environment. International Business Machines Corporation (IBM Corp.), 2006. Disponvel em: <http://www.redbooks.ibm.com/redbooks/pdfs/sg247138.pdf>. Acesso em: 06 jun. 2006.
CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP to User-Analysts: An IT Mandate. E. F. Codd & Associates, 1993. Disponvel em: <http://dev.hyperion.com/resource_library/white_papers/providing_olap_to_user_anal ysts.pdf>. Acesso em: 10 out. 2005.
DM REVIEW. Glossary: HOLAP. DM Review and SourceMedia, Inc., 2006. Disponvel em: <http://www.dmreview.com/resources/glossary.cfm?keywordId=H>. Acesso em 18 jul. 2006.
DM REVIEW. Glossary: ROLAP. DM Review and SourceMedia, Inc., 2006. Disponvel em: <http://www.dmreview.com/resources/glossary.cfm?keywordId=R>. Acesso em 18 jul. 2006.
DM REVIEW. Glossary: Surrogate Key. DM Review and SourceMedia, Inc., 2006. Disponvel em: <http://www.dmreview.com/resources/glossary.cfm?keywordId=S>. Acesso em 18 jul. 2006.
ECKERSON, Wayne. A New Old Market. The Data Warehouse Institute, 2002. Disponvel em: <http://www.tdwi.org/research/display.aspx?id=6475>. Acesso em 05 abr. 2006.
ECKERSON, Wayne; WHITE, Colin. Evaluating ETL and Data Integration Platforms. The Data Warehouse Institute, 2003. Disponvel em: <http://download.101com.com/tdwi/research_report/2003ETLReport.pdf>. Acesso em 06 abr. 2006.
FERREIRA, Rafael. G. C. Data Warehouse e Sistema OLAP. Porto Alegre: [s/e], 2004. (mimeo) 62 GARCIA-MOLINA, Hector; ULLMAN, J. D.; WIDOM, Jennifer. Implementao de Sistemas de Bancos de Dados. Traduo de Vandenberg D. de Souza. Rio de Janeiro: Campus, 2001. 685 p.
HOWE, Denis. Surrogate Key Definition. Learnthat.com, 2004. Disponvel em: <http://www.learnthat.com/define/view.asp?id=7032>. Acesso em 04 maio 2006.
HOWSON, Cindi. MOLAP and DOLAP: Apples and Oranges. The Data Warehouse Institute, 2002. Disponvel em: <http://www.askcindi.com/TDWI_DOLAP_MOLAP07_02.htm>. Acesso em 12 jul. 2006.
IMHOFF, Claudia; GALEMMO, Nicholas; GEIGER, J. G. Mastering Data Warehouse Design: Relational and Dimensional Techniques. Indianapolis: Wiley Publishing, Inc., 2003. 438 p.
INMON, W. H. Building the Data Warehouse. Third Edition. New York: John Wiley & Sons, Inc., 2002. 412 p.
______. Data Mart Does Not Equal Data Warehouse. DM Review, 1999. Disponvel em: <http://dmreview.com/article_sub.cfm?articleId=1675>. Acesso em 05 abr. 2006.
INMON, W. H.; TEDERMAN, R. H.; IMHOFF, Claudia. Data Warehouse: Como transformar informaes em oportunidades de negcios. Traduo de Melissa Kassner. So Paulo: Berkeley Brasil, 2001. 266 p.
KAY, Russell. Data Cubes. Computerworld Inc., 2005. Disponvel em: <http://www.computerworld.com/databasetopics/data/story/0,10801,91640,00.html>. Acesso em 25 abr. 2006.
KIMBALL, Ralph. Features for Query Tools. Miller Freeman, Inc., 1997. Disponvel em: <http://www.dbmsmag.com/9702d05.html>. Acesso em 21 jul. 2006.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: Guia completo para modelagem dimensional. Traduo de Ana Beatriz Tavares e Daniela Lacerda. 2. ed. Rio de Janeiro: Campus, 2002. 494 p.
OPEN SOURCE INITIATIVE. The Open Source Definition. Version 1.9. 2006. Disponvel em: <http://www.opensource.org/docs/definition.php>. Acesso em 27 fev. 2006.
PENDSE, Nigel. OLAP applications. Londres: The OLAP Report, 2005. Disponvel em: <http://www.olapreport.com/Applications.htm>. Acesso em 13 jul. 2006.
______. What is OLAP? Londres: The OLAP Report, 2005. Disponvel em: <http://www.olapreport.com/fasmi.htm>. Acesso em 10 out. 2005.
63 ______. Drilling Into OLAP Benefits. DM Review and SourceMedia, Inc., 2006. Disponvel em: <http://www.dmreview.com/article_sub.cfm?articleId=8174>. Acesso em 13 jul. 2006.
POWELL, Ron. A 10 Year Journey. DM Review and SourceMedia, Inc., 2006. Disponvel em: <http://www.dmreview.com/article_sub.cfm?articleId=3003>. Acesso em 18 jul. 2006.
REINSCHMIDT, Joerg; FRANCOISE, Allison. Business Intelligence Certification Guide. IBM Corp., 2000. Disponvel em: <http://www.redbooks.ibm.com/redbooks/pdfs/sg245747.pdf>. Acesso em 14 jul. 2006.
SINGH, H. S. Data Warehouse: Conceitos, Tecnologias, Implementao e Gerenciamento. Traduo de Monica Rosemberg. So Paulo: Makron Books, 2001. 382 p.
THE OLAP COUNCIL. OLAP and OLAP Server Definitions. 1995. Disponvel em: <http://dssresources.com/glossary/olaptrms.html>. Acesso em 17 out. 2005.
THOMSEN, Erik. OLAP: Construindo sistemas de informaes multidimensionais. Traduo de Daniel Vieira. 2. ed. Rio de Janeiro: Campus, 2002. 708 p.
WIKIPEDIA CONTRIBUTORS. Flat file database. Wikipedia, The Free Encyclopedia, 2006. Disponvel em: <http://en.wikipedia.org/wiki/Flat_file_database>. Acesso em: 18 jul. 2006.
WIKIPEDIA CONTRIBUTORS. MOLAP. Wikipedia, The Free Encyclopedia, 2006. Disponvel em: <http://en.wikipedia.org/wiki/MOLAP>. Acesso em 18 jul. 2006.
WIKIPEDIA CONTRIBUTORS. Multidimensional Expressions. Wikipedia, The Free Encyclopedia, 2006. Disponvel em: <http://en.wikipedia.org/wiki/Multidimensional_Expressions>. Acesso em: 18 jul. 2006.
WIKIPEDIA CONTRIBUTORS. OLAP. Wikipedia, The Free Encyclopedia, 2006. Disponvel em: <http://en.wikipedia.org/wiki/Olap>. Acesso em: 18 jul. 2006.
64
ANEXOS
65 ANEXO A - The Open Source Definition
A definio do termo open source encontrada em OPEN SOURCE INITIATIVE (2006):
1. Redistribuio Livre A licena no deve restringir qualquer parte de vender ou dar o software como um componente de uma distribuio de software agregado contendo programas de vrias fontes diferentes. A licena no deve exigir direitos autorais ou outro pagamento para tal venda. 2. Cdigo Fonte O programa deve incluir o cdigo fonte e permitir a distribuio do mesmo, tambm na forma compilada. Onde alguma forma de um produto no distribuda com o cdigo fonte, devem existir, bem publicados, os meios de obteno do cdigo fonte, que no sejam mais do que uma reproduo razovel de melhor custo, por download pela internet sem pagamento algum. O cdigo fonte deve ser a forma preferida pela qual um programador modificar o programa. Cdigo fonte deliberadamente confuso no permitido. Formas intermedirias tais como a sada de um pr-processador ou tradutor no so permitidas. 3. Trabalhos Derivados A licena deve permitir modificaes e trabalhos derivados, e deve permitir que os mesmos sejam distribudos sob os mesmos termos da licena do software original. 4. Integridade do Cdigo Fonte do Autor A licena pode restringir o cdigo fonte de ser distribudo na forma modificada somente se a licena permitir a distribuio de arquivos de correes 66 com o cdigo fonte para o propsito de modificar o programa em tempo de construo. A licena deve permitir explicitamente a distribuio de software construdo a partir de cdigo fonte modificado. A licena pode exigir trabalhos derivados para produzir um nome ou nmero de verso diferente do software original. 5. Nenhuma Discriminao Contra Pessoas ou Grupos A licena no deve discriminar contra qualquer pessoa ou grupo de pessoas. 6. Nenhuma Discriminao Contra rea de Aplicao A licena no deve restringir qualquer um de fazer uso do programa em uma rea especfica de aplicao. Por exemplo, ela no pode restringir o programa de ser usado em um negcio ou de ser usado para pesquisa gentica. 7. Distribuio de Licena Os direitos anexados ao programa devem ser aplicados a todos para quem o programa redistribudo sem a necessidade de execuo de uma licena adicional para aquelas partes. 8. A Licena No Deve Ser Especfica para um Produto Os direitos anexados ao programa no devem depender de partes do programa de uma distribuio de software particular. Se o programa extrado desta distribuio e usado ou distribudo dentro dos termos da licena do programa, todas as partes para quem o programa redistribudo devem ter os mesmo direitos como aqueles que so concedidos em conjuno com a distribuio de software original. 9. A Licena No Deve Restringir Outro Software A Licena no deve estabelecer restries sobre outro software que distribudo junto com o software licenciado. Por exemplo, a licena no deve insistir 67 que todos os outros programas distribudos na mesma mdia devem ser software open source. 10. A Licena Deve Ser Tecnologicamente Neutra Nenhum fornecimento da licena pode ser estabelecido sobre qualquer tecnologia individual ou estilo de interface.