Vous êtes sur la page 1sur 7

O Que Data Warehouse

Escrito por Carlos Alberto Sowek


Buscando dar uma melhor
viso sobre uma proposta de
arquitetura de um Data
Warehouse para a Celepar,
bem como para os clientes da
Celepar, sentimos a
necessidade de elaborar
alguns documentos para
estabelecer um entendimento
comum sobre alguns termos
utilizados, e que as vezes no
so bem compreendidos ou
so usados de forma incorreta. Neste sentido elaboramos este documento que uma traduo
do tpico tcnico divulgado pela Prism Solutions, Inc , volume 1 n. 1 escrito por W. H. Inmon
"What is a Data Warehouse".
Data Warehouse o centro da arquitetura dos sistemas de informaes dos anos 90. Data
Warehouse suporta processamento informatizado provendo uma plataforma slida e integrada,
com dados histricos dos quais se faz anlises. Data Warehouse prov as facilidades para
integrao em um mundo de sistemas de aplicaes no integrados. Data Warehouse organiza
e armazena os dados necessrios para processamento informatizado e analtico sobre
perspectivas histricas ao longo do tempo.
Ento o que um Data Warehouse ?
Por Willian H. Inmon
"Data Warehouse um banco de dados orientado por assunto, integrado, no voltil e
histrico, criado para suportar o processo de tomada de deciso."
Fig. 1: O que um Data Warehouse?
O dado entra no Data Warehouse vindo de um ambiente operacional em quase todos os casos.
O Data Warehouse sempre um armazenamento de dados transformados, separados
fisicamente do ambiente operacional e da fonte do dado da aplicao.
Esta definio de um Data Warehouse (por W. H. Inmon) merece uma completa explanao,
porque existem alguns detalhes importantes e sutilezas bsicas nas caractersticas de um
Warehouse.

Orientado por Assunto

A primeira caracterstica de um Data Warehouse que ele est orientado ao redor do principal
assunto da organizao. O percurso do dado, orientado ao assunto est em contraste com a
mais clssica das aplicaes orientadas por processos/funces ao redor dos quais os sistemas
operacionais mais antigos esto organizados. Figura 2 mostra o contraste entre os dois tipos
de orientaes.

Figura 2: O
Data
Warehouse
tem uma forte
orientao por
assunto

O mundo
operacional
est
desenhado ao
redor de
aplicaes e
funes de
uma instituio
financeira
assim como:
emprstimo,
crdito, carto
bancrio. O
mundo do Data
Warehouse
est
organizado ao
redor do
principal
assunto assim
como cliente,
vendas,
produtos e
atividades. O alinhamento ao redor das reas de assunto afetam o desenho e implementao
do dado criado no Data Warehouse. A rea de assunto mais influente a parte mais
importante da estrutura chave.
O mundo das aplicaes est preocupado com o desenho de processos e de banco de dados.
O mundo do Data Warehouse est focado exclusivamente na modelagem de dados e desenho
do banco de dados. Desenho de processos (como na forma clssica) no parte de um
ambiente de Data Warehouse.
As diferenas entre aplicaes orientadas por processos/funes e as orientadas por assunto
mostra as diferenas no contedo dos dados e no nvel de detalhes dos mesmos. No Data
Warehouse so excludos os dados que no devem ser usados no processo de DSS( Sistemas
de Suporte a Deciso), enquanto no ambiente operacional as aplicaes contm dados para
satisfazer imediatamente as requisies funcionais/processamento que podem ou no ser
usadas para anlise de DSS.
Outra importante maneira na qual os dados operacionais das aplicaes diferem dos dados
para Data Warehouse est no relacionamento dos dados. Dados operacionais mantm
relacionamentos entre duas ou mais tabelas baseadas nas regras de negcio que esto em
efeito. Dados do Data Warehouse usam um espectro de tempo e os relacionamentos criados
no Data Warehouse so muitos. Muitas regras de negcio so representadas no Data
Warehouse entre duas ou mais tabelas.

Integrado

Facilmente o mais importante aspecto do ambiente de Data Warehouse que dados criados
dentro de um ambiente de Data Warehouse so integrados. SEMPRE. COM NENHUMA

EXCEO. A melhor essncia do ambiente de warehouse que dados contidos dentro dos
limites do warehouse esto integrados. A integrao mostra-se em muitas diferentes maneiras:
na conveno consistente de nomes, na forma consistente das variveis, na estrutura
consistente de cdigos, nos atributos fsicos consistente dos dados, e assim por diante.
Contrastes e diferenas ao construir integrao dentro do Data Warehouse com a falta de
integrao criada no ambiente das aplicaes, so totais assim como mostrado pela figura 3

Fig. 3: Como dado orientado para aplicaes movido para Data Warehouse
A habilidade coletiva de muitos arquitetos de aplicaes em criar aplicaes inconsistentes
legendrio. Figura 3 mostra algumas das muitas diferenas importantes na maneira como as
aplicaes so desenhadas.
Codificao - desenvolvedores de aplicaes tm preferido codificar o campo SEXO de
diferentes maneiras. Um desenvolvedor representa SEXO com um "M" e um "F". Outro
desenvolvedor de aplicao representa SEXO com um "1" e um "0". Outro desenvolvedor de
aplicao representa SEXO com um "x" e um "y". E ainda outro desenvolvedor de aplicao
representa SEXO com "masculino" e "feminino". "M" e "F" so provalvelmente bons para
algumas representaes. Entretanto quando SEXO carregado para o Data Warehouse de
uma aplicao onde tem sido representado em outro formato que no "M" e "F", o dado deve
ser convertido para o formato do Data Warehouse.
Forma dos atributos - desenvolvedores de aplicaes tm preferido ao longo dos anos usar
uma variedade de medidas. Um desenvolvedor armazena dados em centmetros. Outro
desenvolvedor armazena em polegadas. Outro desenvolvedor de aplicao armazena dados
em milhes de ps cbicos por segundo. E outro desenvolvedor armazena informaes em
termos de jardas. Quando a informao chega no Data Warehouse necessrio ser
mensurada de algum modo.

Figura 4
Como mostra a figura 3, o uso da integrao afeta sempre alguns aspectos do desenho, as
caractersticas fsicas do dado, o dilema de ter mais de uma fonte do dado, o uso de padres
de nomes inconsistentes, formatos de dados inconsistentes, e assim por diante.
Enquanto o analista de DSS olha o Data Warehouse, o foco do analista deve ser no uso do
dado que est no Data Warehouse, melhor que surpreender-se sobre a credibilidade ou
consistncia do dado.

Histrico

Todo dado no Data Warehouse exato em algum momento do tempo. A caracterstica bsica
do dado em warehouse ter muitas fontes de dados diferentes no ambiente operacional. No
ambiente operacional o dado exato no momento do acesso. Em outras palavras, no ambiente
operacional quando voc acessa uma unidade do dado, voc espera que isto deva refletir os
valores corretos no momento do acesso.

Por causa do dado em Data Warehouse ser exato em algum momento do tempo (isto , no
"correto no momento"), dado criado no warehouse dito ser "histrico". Figura 4 mostra os
valores histricos do dado no warehouse.
Os valores histricos dos dados no Data Warehouse so mostrados em vrias maneiras. O
modo mais simples que o dado no Data Warehouse representa os dados sobre um horizonte
de tempo distante - de 5 at 10 anos. O horizonte de tempo representado pelo ambiente
operacional muito curto - do valor corrente do dia at o sexto ou nono dia.
O segundo modo que "histrico" mostrado no Data Warehouse na estrutura chave. Sempre
na estrutura chave do Data Warehouse existe - explicitamente ou implicitamente - um elemento
de tempo, assim como dia, semana, meses, etc. O elemento de tempo est quase sempre no
final da chave concatenada criada no Data Warehouse. Em certas ocasies, o elemento de
tempo dever existir implicitamente, assim como no caso onde um arquivo todo duplicado no
final do ms.
A terceira maneira que "histrico" aparece no Data Warehouse, uma vez o registro estando
correto, no pode ser atualizado. Dado no Data Warehouse e, para todos os propsitos
prticos, uma srie longa de snapshots. Naturalmente se os snapshots do dado tm sido
feitos incorretamente, eles no so alterados uma vez feitos. Em alguns casos isto pode ser
sempre ilegal podendo os snapshots no Data Warehouse serem alterados. Dados
operacionais, iniciam pontualmente no momento do acesso, podendo ser atualizados quando
surgir a necessidade.

No Voltil

A quarta caracterstica definida para um Data Warehouse que ele no voltil. Figura 5
ilustra este aspecto no Data Warehouse.

Figura 5
Na figura 5 abaixo, mostra que atualizaes - incluso excluso, e alterao - so feitas
regularmente no ambiente operacional de um registro bsico. Mas a manipulao de dados
bsicos que ocorre no Data Warehouse mais simples. Tem somente duas espcies de
operaes que ocorre no Data Warehouse - a carga inicial do dado, e o acesso ao dado. Esta

no uma atualizao do dado (no sentido geral de atualizao) no Data Warehouse como
parte normal do processamento.
Estas so mais algumas das diferenas bsicas entre processamento operacional e
processamento do Data Warehouse. Para o nvel de desenho, existe a necessidade de ter
cautela nas atualizaes anormais, o que no um fato importante no Data Warehouse,
atualizaes neste dado no so feitas. Existem meios para que no nvel fsico do desenho,
permisses possam ser feitas para otimizar o acesso ao dado, particularmente em
procedimentos com o uso de normalizao e desnormalizao fsica. Outras conseqncias da
simplicidade das operaes do Data Warehouse esto na tecnologia bsica usada para rodar
no ambiente de Data Warehouse. Como suporte para atualizao de registro por registro em
modo on-line requer uma tecnologia com uma fundamentao muito complexa em baixo da
simplicidade de uso. A tecnologia que suporte backup, recovery, transao com integridade do
dado, a deteco e correo de deadlock muito complexa. Isto no necessrio para
processamento de Data Warehouse.
As caractersticas de um Data Warehouse - desenho orientado ao assunto, integrao dos
dados com o Data Warehouse, histrico, e simplicidade de gerenciamento dos dados - todos
conduzem para um ambiente que MUITO, MUITO diferente do ambiente operacional bsico.
A fonte para aproximar todos os dados do Data Warehouse o ambiente operacional. Isto
uma tentao para pensar que isto mais uma redundncia do dado entre os dois ambientes.
De fato, na primeira impresso muitas pessoas acham que uma grande redundncia de
dados entre o ambiente operacional e o ambiente de Data Warehouse. Mas este entendimento
superficial a necessidade de demonstrar o que est ocorrendo no Data Warehouse. Em fato,
este um MNIMO de redundncia do dado entre o ambiente operacional e o ambiente de
Data Warehouse.
Considere o seguinte:

dado filtrado quando passa do ambiente operacional para o ambiente de Data


Warehouse. Muitos dados nunca saem do ambiente operacional. Somente o dado que
necessrio para o processamento do DSS encontrado no ambiente warehouse;
o histrico do dado muito diferente de um ambiente para outro. Dado no ambiente
operacional muito recente. Dado no warehouse muito antigo. S na perspectiva de
histrico recente, muito pequeno o overlap entre o ambiente operacional e o
ambiente de Data Warehouse;
o Data Warehouse contm dados sumarizados que nunca so encontrado no ambiente
operacional;
dados sofrem uma fundamental transformao ao passar para o Data Warehouse.
Figura 3 mostra que muitos dados so alterados significativamente aps serem
selecionados e movidos para o Data Warehouse. Dito de outra maneira, muitos dados
so fisicamente e radicalmente alterados quando movidos para o warehouse. Estes
dados no so os mesmos que residem no ambiente operacional do ponto de vista de
integrao.

Para clarear esses fatores, redundncia de dados entre os dois ambientes uma ocorrncia
rara, resultando em menos que 1% de redundncia entre os dois ambientes.

Vous aimerez peut-être aussi