Académique Documents
Professionnel Documents
Culture Documents
Sumário
Data Warehouse ............................................................................................................................... 1
1. DW ......................................................................................................................................... 1
1.1. Conceitos e características ....................................................................................... 1
1.2. Tipos de DW ................................................................................................................... 5
1.3. Processo de DW ............................................................................................................ 7
1.4. Arquitetura de DW ....................................................................................................... 8
1.5. Kimball x Inmon.......................................................................................................... 11
2. Modelagem multidimensional .................................................................................... 12
2.1. Star Schema ................................................................................................................. 14
2.2. Processo de design dimensional ........................................................................... 16
2.3. Revisitando o modelo ............................................................................................... 18
2.4. Esquemas multidimensionais ................................................................................. 24
3. ETL ....................................................................................................................................... 25
3.1. Componentes de ETL ................................................................................................ 26
3.2. Processo de ETL .......................................................................................................... 30
Questões comentadas .............................................................................................................. 31
Questões extras .......................................................................................................................... 40
Considerações Finais ..................................................................................................................... 50
Data Warehouse
1. DW
Nosso objetivo nesta aula é tratar dos conceitos de Data Warehouse (DW)
e ETL. Começaremos pelos aspectos do DW e logo em seguida examinaremos as
especificidades relacionadas à ETL. 16712855225
O fato de ser não volátil significa que o Data Warehouse permite apenas
a carga inicial dos dados e consultas a estes dados. Após serem integrados e
16712855225
16712855225
1.2. Tipos de DW
A indústria atualmente reconhece pelo menos três tipos diferentes de
Data Warehouses: Data Mart (DM), Data Warehouse Empresarial (EDW) e
Armazenamento de Dados Operacionais (ODS).
Outra definição importante para Data Mart vem do Date. Ele diz que um
Data Mart deve ser especializado e volátil. Por especializado queremos dizer que
ele possui uma estrutura baseada em um ambiente, tema, situação, área, setor
ou aplicação específica. Enquanto o EDW se baseia em várias fontes de diversas
aplicações, fontes e situações para facilitar um suporte a decisão gerencial.
figura a seguir uma hierarquia dos diferentes tipos de DW e sua relação com as
demais bases existentes dentro de uma organização.
1.3. Processo de DW
Apresentamos abaixo uma figura que descreve o processo de DW/BI. Essa
figura exibe os componentes que fazem parte do sistema. Vejamos a descrição
sucinta de cada um deles.
16712855225
1.4. Arquitetura de DW
Há algumas arquiteturas básicas de DW. As arquiteturas de 2 e 3
camadas são mais comuns. Hoffer as distingue dividindo o DW em três partes:
1. O próprio DW, que contém os dados e o software associados, 2. Software de
16712855225
16712855225
2. Modelagem multidimensional
Um modelo dimensional contém as mesmas informações que um modelo
normalizado. Os pacotes de dados oferecem um formato com as seguintes
preocupações: facilidade de compreensão ao usuário, desempenho da consulta e
resiliência às mudanças.
Imagine um executivo que descreve o seu negócio como, "Nós vendemos
produtos em vários mercados e medimos o nosso desempenho ao longo do
tempo." Projetistas multidimensionais devem ouvir atentamente a ênfase no
produto, mercado e tempo.
A modelagem multidimensional, ou dimensional como às vezes é
chamada, é a técnica de modelagem de banco de dados para o auxílio às
consultas em um Data Warehouse nas mais diferentes perspectivas. A visão
multidimensional permite o uso mais intuitivo para o processamento analítico
pelas ferramentas OLAP (On-line Analytical Processing).
Toda modelagem dimensional possui dois elementos imprescindíveis: as
tabelas Fatos e as tabelas Dimensões. Ambas são obrigatórias e possuem
característica complementares dentro de um Data Warehouse. As Dimensões são
os descritores dos dados oriundos das tabelas Fato. Possui o caráter qualitativo
16712855225
Uma única linha da tabela fato tem uma relação um-para-um com o
evento de medição, como descrito pela granularidade da tabela fato. Uma tabela
fato corresponde a um evento físico observável, e não às exigências de um
relatório específico. Dentro de uma tabela fatos, apenas fatos consistentes com
a granularidade definida são permitidos. Por exemplo, em uma transação de
vendas no varejo, a quantidade de um produto vendido e seu preço são bons
fatos. Veja a figura abaixo que representa uma tabela fato de vendas:
dimensão.
dimensão. Ela aparece apenas como uma das colunas da tabela fato.
Passo 04: Identificando os fatos
A quarta e última etapa do projeto é a determinação cuidadosa dos fatos
que aparecerão na tabela fato. Mais uma vez, a declaração de granularidade
ajuda a ancorar o raciocínio. Ao considerar os fatos em potencial, você pode
descobrir novamente ajustes precisam serem feitos tanto na granularidade
quanto na escolha das dimensões.
Os dados coletados pelo sistema incluem, por exemplo, a quantidade de
vendas por unidade regular, o desconto, preços líquidos pagos, valores de
vendas em dólares. O valor de vendas é igual a quantidade de vendas
16712855225
Gabarito: C
Vamos agora apresentar algumas características e taxonomia para as
tabelas de dimensões.
Cada tabela de dimensão tem uma única coluna de chave primária. Esta
chave primária é incorporada como uma chave estrangeira em qualquer tabela
de fatos onde a descrição textual presente na linha da dimensão é exatamente a
correta para a linha da tabela de fatos. Tabelas de dimensão são geralmente
grandes, desnormalizadas, com muitos atributos de texto de baixa
cardinalidade.
Embora os códigos operacionais e os indicadores possam ser tratados
como atributos, os atributos de dimensão mais poderosos são preenchidos com
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 21 de 50
DW, ETL e Data Mart
Prof. Thiago Rodrigues Cavalcanti Aula 01
3. ETL
Um ambiente de DW devidamente projetado possui um trade off entre o
trabalho na sala de aplicações de BI e o trabalho do sistema de ETL. O primeiro
deve ser feito repetidas vezes pelos usuários de negócios, enquanto o segundo é
feito uma vez pela equipe de ETL.
O processo de ETL é o processo mais crítico e demorado na construção de
um DW. ETL e as ferramentas de limpeza de dados consomem um terço do
orçamento num projeto de DW e 80% do tempo de desenvolvimento de um DW
consiste no processo de ETL. Abaixo temos uma figura que descreve as etapas
de um processo de ETL.
16712855225
armazém de dados fornecesse um quadro preciso dos dados à medida que forem
capturados dos sistemas de produção da organização. Encontrar o equilíbrio
adequado entre estes objetivos conflitantes é essencial.
2. Esquema de eventos de erro - O esquema de evento de erro é um
esquema dimensional centralizado, cuja finalidade é registrar todos os eventos
de erro lançada por uma tela em qualquer lugar do fluxo do mapa ETL. Embora
nosso foco seja no processamento ETL para o DW, esta abordagem pode ser
usada em integração de dados genéricos (DI) que são aplicações onde os dados
estão sendo transferidos entre aplicações legadas.
3. Dimensão de auditoria - A dimensão de auditoria contém o contexto
dos metadados no momento em que uma linha específica da tabela de fatos é
criada.
Prof. Thiago Rodrigues Cavalcanti
www.estrategiaconcursos.com.br 27 de 50
DW, ETL e Data Mart
Prof. Thiago Rodrigues Cavalcanti Aula 01
vamos nos limitar a lista-los abaixo para não excedermos o conteúdo necessário
para provas de concursos.
1. Gestão da alteração lenta da dimensão
2. Gerador de chave substituta
3. Gerencia de hierarquia
4. Gerencia de dimensões especiais
– Date/Time Dimensions, Junk(lixo) Dimensions, Mini-Dimensions,
Shrunken Subset Dimensions, Small Static Dimensions
5. Construtores da tabela fato
6. Pipeline da chave substituta
16712855225
Questões comentadas
Apresentamos abaixo um conjunto de questões, principalmente das
bancas CESPE, FCC, ESAF sobre o assunto de BI. Esperamos que elas ajudem na
fixação da matéria. Qualquer dúvida, estamos às ordens!
Aproveitando para falar um pouco mais sobre BPM, ele também é chamado de
Corporate Performance Management (CPM). BPM é um conceito que veio ratificar
a importância de ter sempre o alinhamento das informações com a estratégia da
16712855225
16712855225
Nesta arquitetura
A Data Mining se refere ao processo que, na construção do Data Warehouse, é
utilizado para composição de análises e relatórios, armazenando dados
descritivos e qualificando a respectiva métrica associada.
16712855225
10. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No contexto de Business Intelligence, os sistemas OLAP e OLTP se diferenciam
em diversas características. Na tabela abaixo, no que diz respeito às
características, está INCORRETO:
A Letra A
B Letra B
C Letra C
D Letra D
E Letra E
Comentários: Vamos falar um pouco mais sobre OLAP na próxima aula. Mas se
lembrarmos do que vimos até aqui, podemos verificar que o texto presente na
característica foco está trocado. OLAP foca no nível estratégico da organização,
enquanto OLTP visa atender as demandas operacionais. Desta forma a
alternativa E encontra-se incorreta. Como a questão pede para marcarmos a
incorreta, temos a nossa resposta.
Gabarito: E
A Data Mining.
B Online Transactional Database.
C Data Mart.
D Datawarehouse.
E Big Data.
Comentários: Vejam que a questão trata de um gigantesco repositório de
dados que sabemos que é o DW – Data warehouse.
Gabarito: D
16712855225
Questões extras
Gabarito: A
16712855225
Gabarito: E
16. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 3ª REGIÃO (MG) PROVA:
TÉCNICO JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Um técnico de TI precisa utilizar um subconjunto de dados de um Data
Warehouse direcionado à área administrativa de um Tribunal. Esses dados serão
armazenados em um banco de dado modelado multidimensionalmente, que será
criado capturando-se dados diretamente de sistemas transacionais, buscando as
informações relevantes para os processos de negócio da área administrativa.
Esse banco de dados será um
A Big Data.
B Data Mart.
C OLAP.
D MOLAP.
E Data Mining.
Gabarito: B
Gabarito: B
Gabarito: C
Gabarito:C
16712855225
E transacional.
Gabarito: B
21. ANO: 2015 BANCA: FCC ÓRGÃO: TRT - 3ª REGIÃO (MG) PROVA:
TÉCNICO JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
A modelagem multidimensional é utilizada especialmente para sumarizar e
reestruturar dados e apresentá-los em visões que suportem a análise dos
valores desses dados. Um modelo multidimensional é formado por dimensões, e
por uma coleção de itens de dados composta de dados de medidas e de
contexto, denominada
A schema.
B pivot.
C slice.
D fato.
E versão.
Gabarito: D
Gabarito: D
Gabarito: E
16712855225
Gabarito: B
Gabarito: A
26. ANO: 2009 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No contexto OLAP:
I. As visões materializadas agregadas a partir de uma tabela de fatos podem ser
identificadas exclusivamente pelo nível de agregação para cada dimensão.
II. Quando aplicada a configuração star schema as tabelas de fatos e as de
dimensão são idênticas quanto à totalidade dos atributos que contêm e também
quanto ao grau de granularidade.
III. O esquema snow flake é uma variação do star schema.
Está correto o que consta em
16712855225
A I, somente.
B I e III, somente.
C II e III, somente.
D III, somente.
E I, II e III.
Gabarito B
Gabarito: A
28. ANO: 2010 BANCA: FCC ÓRGÃO: TRT - 22ª REGIÃO (PI) PROVA:
ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No âmbito dos DWs, uma outra concepção do ODS (Staging Area) está sendo
estabelecida por alguns autores. Trata-se de
A OLAP.
B Drill throught.
C ETL.
D Data Mining.
E Dynamic Data Storage.
Gabarito: E
16712855225
29. ANO: 2011 BANCA: FCC ÓRGÃO: TRT - 14ª REGIÃO (RO E AC)
PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
No contexto de DW, é uma categoria de ferramentas de análise denominada
open-end e que permite ao usuário avaliar tendências e padrões não conhecidos
entre os dados. Trata-se de
A slice.
B star schema.
C ODS.
D ETL.
E data mining.
Gabarito: E
30. ANO: 2013 BANCA: FCC ÓRGÃO: TRT - 15ª REGIÃO (CAMPINAS-
SP) PROVA: ANALISTA JUDICIÁRIO - TECNOLOGIA DA INFORMAÇÃO
Arquitetar e manter processos ETL é considerado por muitos uma das tarefas
mais difíceis de um projeto de data warehouse. Muitos projetos deste tipo
utilizam ferramentas para manter este processo. ......, por exemplo, provê
recursos de ETL e tira vantagem das capacidades de banco de dados inerentes.
A lacuna acima é corretamente preenchida com Oracle
A Warehouse Builder (OWB).
B Loading Data (OLD).
C Data Transformation (ODT).
D Query and Input (OQI).
E Business Intelligence (OBI).
Gabarito: A
Gabarito: E
16712855225
Considerações Finais
Outros assuntos dentro deste tema estarão presentes nas próximas aulas.
Até a próxima!
Thiago Cavalcanti
16712855225