Académique Documents
Professionnel Documents
Culture Documents
RINALDO DEMÉTRIO
Gravataí
2016
RINALDO DEMÉTRIO
PROCESSO DE TOMADA DE DECISÃO COM BUSINESS
INTELLIGENCE
Gravataí
2016
UNYLEYA
RINALDO DEMÉTRIO
APROVADO EM ____/____/____
BANCA EXAMINADORA
______________________________________________________________
______________________________________________________________
______________________________________________________________
Dados são o novo petróleo e como tal devem ser extraídos, refinados, tratados para
que possam gerar lucros, dividendos, resultados. Pode parecer um exagero, mas só deverá
permanecer no mercado a organização que der atenção especial as suas informações. Será
preciso profissionais capacitados e analíticos que possuam a capacidade de extrair das
informações as vantagens competitivas.
Esta monografia introduz o leitor no trabalho com dados para a futura tomada de
decisão. Cada vez mais as empresas estão dando guinadas para a inteligência dos negócios
buscando soluções que as diferenciem da concorrência.
Indiscutivelmente um banco de dados se bem administrado por um profissional
competente poderá agregar valor à empresa gerando maiores lucros e ganhos de
produtividade.
Diversos projetos de análises de bases de dados com vistas a gerar ganhos maiores às
empresas envolvidas podem falhar devido à ausência de profissionais capacitados na área.
Sendo o assunto inteligência dos negócios de vital importância para os dias de hoje é
fundamental que em qualquer organização tenha em seus quadros profissionais com alta
capacidade analítica sejam eles analistas ou não. O autor espera que o texto desperte nos
profissionais a vontade e a capacidade de se desenvolver nesta área tão apaixonante.
Data is the new oil and as such should be extracted, refined, processed so they can
generate profits, dividends, results. It may seem an exaggeration, but it should only remain in
the market organization that gives special attention to your information. You will need skilled
and analytical professionals who have the ability to extract information from the competitive
advantages.
This paper introduces the reader to work with data for future decision making. More
and more companies are giving lurches to Business Intelligence seeking solutions that
differentiate from the competition.
Arguably a database is well run by a competent professional can add value to the
company generating higher profits and productivity gains.
Several projects database analysis in order to generate greater gains to the companies
involved may fail due to lack of trained professionals in the area.
Being the subject of intelligence vital to business today is critical that any organization
has on their staff with high analytical capacity whether or not analysts. The author hopes that
the text arouse in professional will and the ability to develop this area so exciting.
Figura 2 relacionamento.......................................................................................................................24
CAPÍTULO 1 – O PORQUÊ DO BI
1.1. INTRODUÇÃO
1.2. OBJETIVOS
1.2.1. GERAL
1.2.2. ESPECÍFICO
1.3. JUSTIFICATIVA
1.3.1. PESSOAL
1.3.2. GERAL
Thomas Davenport (autor do best seller Dados Demais) que trabalha especificamente
o desenvolvimento de habilidades analíticas para a solução de problemas complexos que
envolvam grande quantidade de dados.
Assim como Silver, Davenport vaticina que vivemos em um mundo inundado de
dados que se acumulam em uma velocidade espantosa. A IBM estima que são produzidos
diariamente 2,5 quintilhões de bytes de dados. Google processa cerca de 24 petabytes de
dados de Internet por dia. AT&T transfere em torno de 30 petabytes de voz e dados ao dia.
Davenport afirma que é necessário que estes dados sejam explorados com vistas a uma
melhor tomada de decisão ou a falta desta análise fará com que os gestores sejam pegos de
surpresa por reveses que poderiam ter sido previstos.
Davenport defende que todos, sem distinção, em uma organização (do porteiro ao
executivo de ponta) saibam usar a Analítica em maior ou menor grau. No lugar de confiar nos
instintos é necessário munir-se de dados para compreender melhor os resultados e usá-los para
melhorar o desempenho da organização.
1.5. METODOLOGIA
Sobre BI (Businnes Intelligence) alguns autores costumam dizer que não se trata de
tecnologia, mas sim de um conceito (PITON, 2016). Também chamado de inteligência nos
negócios o que o BI pode fazer por uma organização? De acordo com o IBGE, em junho de
2016 as vendas do comércio varejista acumularam uma queda de 7,3 %. Na comparação entre
maio/2015 e maio/2016 a queda nas vendas chega a um patamar de 9% de queda. Recentes
estatísticas sinalizam que as empresas que optaram por acrescentar business Intelligence em
suas operações arrebanharam ganhos entre 5% e 6% de produtividade e rentabilidade acima
de seus principais concorrentes (SANCHEZ, 2015).
Em momentos de crise como o que vivemos atualmente torna-se crucial conhecer seu
negócio. Saber onde estão as perdas e os ganhos podem tornar a empresa única entre seus
competidores. Ter um profundo conhecimento dos dados relacionados ao estoque, às vendas e
até quais perdas, podem fazer um diferencial na hora de destacar-se da concorrência.
Infelizmente, de acordo com observações do autor, o assunto ainda é tabu entre a
maioria das pequenas empresas. Em conversa informal o autor manteve contato com
proprietários de pequenos negócios, academias, escolas, comércios de alimentos, etc.
Seus gestores por não saberem do que se trata e quais benefícios o BI poderá trazer,
rechaçam quaisquer tentativas de aproximação de uma equipe de inteligência de negócios.
Alguns gestores temem a perda ou revelação de seus dados para os concorrentes (SOUSA,
2016). Ironia que talvez justamente estas empresas precisariam do benefício desta ação de TI.
Trabalhar com BI significa integrar fontes de dados de várias origens: planilhas,
arquivos de texto, variados bancos de dados, etc. De posse destas informações cria-se um
Data Warehouse também conhecido como armazém de dados que poderá ser usado para
criação dos cubos de informações. Estes cubos poderão informar quais produtos vendem mais
na empresa e fazer com que procure o porquê destes produtos venderem mais. A resposta
poderá ser usada para multiplicar as estratégias de vendas para outros produtos.
Um cubo pode permitir inferir qual a causa de determinado produto não vender para a
partir daí criar campanhas de promoção que façam este produto aumentar suas vendas.
Como trabalhar com BI não necessariamente precisa desta ou daquela tecnologia, de
uma simples planilha com informações de uma empresa tais como, vendas, clientes,
fornecedores é possível inferir diversas constatações. Tomar decisões com base nestas
informações significa em última instância não mostrar que a empresa deixou de vender uma
14
quantidade maior de pizza por que faltou queijo ralado orégano, mas fazer até uma análise
preditiva e mostrar com antecedência que este revés poderia acontecer.
Para uma empresa que atua no mercado financeiro pode ser muito importante
antecipar quais clientes poderiam contrair determinado valor de empréstimo e aumentar a
base de vendas ou ainda descobrir quais possíveis fraudes podem ser perpetradas se não for
aumentada a segurança das informações.
em conjunto (na mesma cesta) a ideia deveria sugerir uma rearrumação de mercadorias nas
lojas para saber como as vendas seriam afetadas. Como exemplo didático o arroz poderia ficar
junto do feijão e o refrigerante junto do salgadinho se estes itens fossem comprovadamente
vendidos em conjunto.
No início apenas tinha-se a certeza de que itens específicos para bebês erram muito
lucrativos (fraldas inclusas). Seria necessário descobrir quais itens poderiam ser vendidos em
conjunto ou ainda levar a compra dos itens infantis. O trabalho examinou cerca de 1,2 milhão
de cestas de mercado que foram extraídos de um total de 25 lojas e apesar dos relatos
apócrifos afirmarem o contrário a Teradata descobriu que na verdade um grande número de
clientes (não foram identificados como homens) compareciam as lojas entre as 17 e 19 horas
das quintas-feiras e sábados para comprar cerveja e fraldas com frequência acima do normal.
Esperava-se que de posse destas valiosas informações as fraldas e as cervejas fossem
colocadas lado a lado para facilitar ou induzir a venda, mas para total estranheza nada foi feito
com estes dados. De certa forma a direção da Osco Drugs achou a descoberta divertida, mas
não tomou nenhuma atitude com relação a esta.
O que prova que examinando os dados é possível fazer descobertas valiosas, mas que
de nada servirão se não houver uma pessoa disposta a tomar decisões.
Apenas possuir e armazenar os dados não é suficiente, é preciso saber o que fazer com
eles. Uma análise dados com métodos estatísticos que por vezes é subutilizada é a correlação
ou coeficiente de correlação. O Professor Charles (WHEELAN, 2016) cita o caso da Netflix.
Como a Netflix sabe que o usuário iria gostar de determinado filme ou série? A empresa não
conhece o usuário nem tampouco tem uma grande quantidade de estagiários pesquisando
sobre sua vida e seus gostos de filmes. Muito menos a Netflix encarregaria espiões e
entrevistadores para conhecer a família do usuário desde que estes dessem pistas sobre seus
anseios cinematográficos.
Usando coeficientes de correlação a empresa recomenda filmes que são semelhantes a
filmes dos quais o usuário já gostou e avaliou, informando a empresa. Cruza estas
informações com recomendações de usuários que também deram avaliações similares.
Desta forma correlação faz a medição do grau no qual dois fenômenos mantém uma
relação mútua. Como no caso famoso da correlação positiva entre venda de sorvete e aumento
da temperatura. Se sobem os termômetros a venda aumenta. Produtos que possuem correlação
positiva poderiam ser oferecidos em conjunto ou no mesmo local. Carvão e carne de
churrasco. Celulares de cartão de memória. Pode-se tirar grande vantagem da correlação.
16
O autor possui grande conhecimento na área estatística e análise de dados que se junta
a uma sólida formação em banco de dados. O conhecimento adquirido já tecnicamente o
autoriza a discorrer sobre o tema. Também o tema é instigante de grande interesse pelo
público já que dados armazenados são de interesse qualquer instituição.
A pesquisa será bibliográfica em biblioteca privada do autor com consultas prévias a
fontes disponíveis na Internet.
O capítulo 1 introduz o leitor ao conceito de Business Intelligence.
No capítulo 2 ao autor conceitua banco de dados e seus tópicos principais
aprofundando-se em modelagem relacional.
No terceiro capítulo entra a modelagem de dados dimensional que é um conceito
relativamente novo, mas que se tornou muito útil para a criação de ambientes de tomada de
decisão.
O capítulo 4 trabalha a tomada de decisão. De posse dos dados o que pode ser feito
para otimizar processos, aumentar vendas, diminuir prejuízos.
17
Para (HEUSER, 2009, p. 22) “um banco de dados é um conjunto de dados integrados
que tem por objetivo atender a uma comunidade de usuários”. Em tempo o termo preferido
pelos utilizadores é database (base de dados). Antigamente o termo databank (banco de
dados) era preferido pelos autores tendo caído em desuso e sido substituído pelo atual banco
ou base de dados. Na língua portuguesa ambos os termos são aceitos.
Ainda de acordo com (GUIMARÃES, 2003, p. 19), “um banco ou base de dados é
uma coleção de dados ou informações relacionadas entre si. Elas representam aspectos do
mundo real com significado próprio e que desejamos armazenar para uso futuro”.
O autor desta monografia também avaliza que ambos os termos sejam usados.
18
Desenvolvidos a partir do início dos anos 1970 basicamente os SGBDs primais e que
se tornariam mais tarde comerciais foram baseados em dois principais modelos lógicos de
dados. Um deles, o modelo de redes foi determinado pelo comitê “Codasyl Data Base Task
Group”.
Outro, o modelo hierárquico foi teve seu desenvolvimento pela IBM com vistas aos
seus mainframes. Evidentemente estes SGBDs são de interesse puramente histórico onde os
SGBDs de modelo relacional ocupam posição de destaque.
Um banco de dados terá seu gerenciamento por um SGBD. Este por sua vez deve
permitir uma série de funções necessárias ao manejo do banco, a saber, um SGBD deve
possuir funções básicas como a inserção de dados, sua eventual atualização e até a exclusão
dos dados. Também o gerenciador deve permitir a seleção ou obtenção dos dados quando esta
for necessária.
De acordo com (HEUSER, 2009, p. 23), “um SGBD é um software que incorpora as
funções de definição, recuperação e alteração de dados em um banco de dados”.
Os mecanismos internos de um SGBD devem evitar que os dados inseridos sejam
conflitantes, estes devem ser consistentes. O uso do banco de dados deverá permitir seu uso
de forma simultânea sem que isso afete o desempenho do banco e na hipótese de eventuais
falhas os dados devem ser armazenados com a necessária segurança para que possam ser
recuperados.
O modelo conceitual resultante não deverá de modo algum ser projetado levando-se
em conta determinado tipo banco de dados disponível ou como será a forma de acesso aos
dados. Também não deverá ser levada em conta a forma de acesso aos dados ou sua
manutenção. Deve-se efetuar a modelagem conceitual tendo em mente que o mais
importante é a representação clara e adequado entendimento da realidade modelada.
3.5. ENTIDADE
Alguns autores preferem referir-se à entidade como conjunto de entidades (CE) para
representar uma coleção de objetos do mesmo tipo e apenas a palavra entidade para a
representação de um único objeto deste conjunto. Já outros autores preferem o uso da
palavra entidade para representar o todo e a palavra ocorrência de entidade para referir-se a
um objeto deste conjunto.
Uma entidade é um objeto ou ente do mundo real que possui existência própria e
cujas características ou propriedades desejamos registrar. Ela pode ter uma
existência física (uma pessoa, um carro, um livro, uma peça) ou abstrata (um
departamento, um projeto, um curso). (GUIMARÃES, 2003, p. 33)
PESSOA DEPARTAMENTO
Figura 2 Entidades
3.6. RELACIONAMENTO
Não é impossível apenas é muito raro que uma entidade não se relacione ou esteja
interligada a outra. Em uma modelagem que pretenda representar corretamente uma situação
do mundo real é muito comum que uma entidade esteja intimamente ligada à outra, pois
normalmente as informações que serão armazenadas em uma entidade serão solicitadas em
outras.
À ligação que envolve duas ou mais entidades dá-se o nome de relacionamento.
POSSUI POSSUI
PERTENCE
Figura 3 Relacionamentos
3.7. MODELO RELACIONAL
Desenvolvido por Edgar F. Codd nos anos de 1970, o modelo de dados relacional
baseia-se em conceitos matemáticos simples: a teoria dos conjuntos. Com vistas a facilitar a
visualização dos dados para os usuários, o modelo de dados relacional simplifica um banco de
dados em um conjunto de tabelas (Tabela 2) formadas por suas linhas e colunas. Para
Machado (2008, p. 42), “São conjuntos de dados vistos segundo um conjunto de TABELAS, e
as operações que utilizam são feitas por linguagens que o manipulam, não sendo procedurais,
ou seja, manipulando conjuntos de uma só vez”.
Em uma tabela serão encontradas diversas colunas que correspondem diretamente aos
atributos de uma entidade no caso do modelo entidade-relacionamento. No MER os atributos
descrevem uma entidade, no MR as entidades serão representadas por tabelas que irão
22
armazenar os dados do banco. Assim todas as colunas de uma tabela traduzirão todos os
atributos de uma entidade. Cada tabela deverá conter um número variável de linhas (também
chamadas tuplas) que tenderá a aumentar com o tempo.
Complementa o modelo relacional o domínio de cada coluna, ou seja, quais valores ou
tipos de dados (datatype) são admitidos para esta coluna. Devem ser uma cadeia de caracteres
ou valores inteiros ou decimais, entre outros. Sendo o tipo de domínio uma restrição natural
do banco de dados, garante que todos os dados que irão ser recebidos pela coluna sejam
sempre do mesmo tipo de dados.
O modelo relacional foi criado seis anos antes do MER e, portanto, é independente
do mesmo na sua definição e nos seus conceitos básicos. Do ponto de vista
didático, porém, fica mais simples introduzir esses conceitos via analogia com o
MER, além de que ela simplifica a compreensão do mapeamento do MER para o
MR no projeto top down de um BD. (GUIMARÃES, 2003, p. 36)
devem-se deixar os valores em branco o que significa que o campo assumirá o valor vazio ou
nulo (do inglês null value).
Evidentemente esta será uma solução tampão pois um valor null pode assumir diversas
significações de acordo com (GUIMARÃES, 2003, p. 55), “(...) temporariamente vazio,
inexistente, desconhecido, não se aplica (...)”.
Depois de vários debates a comunidade científica não chegou a nenhum consenso
sobre o null, se deveria ser mais específico ou não.
Uma chave é uma coluna ou combinação de colunas que assegurem que cada linha de
uma tabela possui um valor único. A chave deve sempre possuir um valor, ou seja, não podem
existir valores null em uma chave primária. Ao se conhecer o valor da chave deverá ser
possível distinguir uma linha de todas as outras.
Sempre é possível que uma tabela possua mais de uma coluna em condições de
responder como chave primária da tabela. Neste caso deve-se escolher a chave com menor
número de colunas ou que seja mais significativa na identificação das linhas da tabela. As
chaves que não forem escolhidas tornar-se-ão chaves candidatas.
É a chave que permite que existam relacionamentos entre as tabelas, o fato de existir
entre duas tabelas um relacionamento confirma que uma das tabelas recebe a chave primária
de outra e que uma vez na tabela que recebe a chave, esta é chamada de chave estrangeira.
Tabela 2 Funcionário (parcial). Fonte: Machado (2008, p. 62)
NumReg NomeFunc DtAdmissão Sexo CdDepto
101 Luis Sampaio 10/8/2003 M D5
104 Carlos Pereira 2/3/2004 M D6
134 José Alves 23/5/2001 M D1
24
Nas tabelas 3 e 4 NumReg e CdDepto são chaves primárias das respectivas tabelas.
CdDepto na tabela 3 é chave estrangeira.
Esta restrição define que o tipo de dados (datatype) escolhido para uma coluna
(domínio) de uma tabela deverá ser o tipo de dados para todos os dados que esta coluna
receber. Desta forma se, por exemplo, for escolhido um valor numérico para determinada
coluna, esta coluna só aceitará valores numéricos, o que garante que os dados quando forem
solicitados por ocasião de uma consulta estejam exatamente como foram modelados.
É por este tipo de restrição que se faz a definição se uma coluna é de preenchimento
obrigatório ou opcional. O padrão de um banco de dados quando da sua implementação
sempre é de preenchimento opcional, ou seja, excetuando os campos que compõe a chave
primária que devem ser obrigatoriamente preenchidos já que chaves não aceitam valores null,
todos os campos podem deixar de serem preenchidos. Para obrigar que um campo seja
obrigatoriamente preenchido será necessário na criação da tabela fazer com que o null seja
negado, usando not null.
Esta restrição especifica que campos que fazem parte da chave primária e da chave
alternativa devem ser únicos, não podem se repetir.
Especifica que os valores que aparecem na chave estrangeira de uma tabela devem
obrigatoriamente aparecer na chave primária da tabela que está sendo referenciada.
25
De acordo com (HEUSER, 2009, p. 127), “as restrições dos tipos acima especificados
devem ser garantidas automaticamente por um SGBD relacional, isto é, não deve ser exigido
que o programador escreva procedimentos para garanti-las explicitamente”.
3.17. NORMALIZAÇÃO
para passarem pelo processo de normalização. Projetar um banco desta forma pode ser muito
proveitoso pelo fato de que com algum conhecimento por parte do usuário poderá facilitar e
muito o processo final da implementação por que o modelo já deverá estar quase pronto.
(BEIGHLEY, 2008) cita duas regras para que uma tabela possua dados atômicos:
Uma coluna para possuir dados atômicos não poderá possuir muitos valores do
mesmo tipo de dados na mesma coluna (tabela 5).
Uma tabela que possua múltiplas colunas com o mesmo tipo de dados não
possui dados atômicos (tabela 6).
Para (BEIGHLEY, 2008) quando do projeto de uma base de dados algumas perguntas
deverão ser feitas, por exemplo, exatamente o que uma tabela deverá armazenar? Pessoas,
vacas ou rosquinhas?
27
Observa-se que o fato de uma tabela não possuir dados atômicos acabará por
prejudicar a manutenção e consequente desempenho do banco. A tabela 5 à medida que for
recebendo informações terá naturalmente uma grande redundância de informações, pois visto
que é uma tabela que pretende cadastrar diversos pratos de um restaurante, será muito natural
que os ingredientes se repitam de um prato para outro. Além do evidente consumo de disco
para armazenar informações repetidas, uma simples pesquisa por determinado prato ou
ingrediente irá consumir muito tempo e carga do processador.
Já na tabela de número 6, da forma em que está fará com que as disciplinas sejam
constantemente repetidas para os diversos professores. Uma pesquisa sobre determinada
disciplina também irá consumir muito tempo devido às diversas colunas com informações.
Em suma optar por dados atômicos fará com que os dados estejam corretos, pois em
uma coluna denominada logradouro teremos a garantia de que esta apenas possui os
logradouros e nenhum outro tipo de informação.
3.19. ANOMALIAS
B é funcionalmente dependente de A ou
A determina B ou
30
B depende de A
A tabela 8 tem uma chave primária composta formada pelas colunas nome e poder.
Conforme (BEIGHLEY, 2008) a coluna iniciais não é funcionalmente dependente de toda a
chave, pois depende apenas da coluna nome já que apenas se a coluna nome for alterada
haverá alteração na coluna iniciais. As outras colunas todas dependem da chave como um
todo. Neste caso esta tabela possui uma dependência funcional parcial.
Tabela 8 Fonte: (TONSIG, 2006, p. 41)
Nr_Pedido Cod_produto Qtde_Comprada Descrição_produto
123456 321 12 Parafuso Metálico
Neste caso será necessário verificar o relacionamento de uma coluna não-chave com
as outras colunas. Quando um atributo não-chave depende de outro atributo não-chave existe
uma dependência funcional transitiva.
De acordo com Beighley (2008, p. 262), “dependência funcional transitória: quando
qualquer coluna não-chave é relacionada a qualquer outra das colunas não-chave”.
O autor optou nesta monografia por ater-se as regras de normalização que foram
propostas pelo Doutor Edgar Ted Codd.
Para que uma tabela esteja na primeira forma normal será necessário que:
As colunas da tabela só poderão possuir valores atômicos (unívocos).
Não poderão existir múltiplas colunas com o mesmo tipo de dados.
Para (MACHADO, 2008, p. 183), “uma tabela está na primeira forma normal se e
somente se todas as colunas possuem um único valor, e não existem grupos repetitivos
(colunas) em uma linha ou atributos compostos”.
(HEUSER, 2009) por sua vez sugere que uma tabela se encontre na 1FN quando esta
não possua tabelas aninhadas. O autor concorda pelo fato de reafirmar o conceito de uma
tabela não misturar assuntos e apenas pretender armazenar informações sobre um único item.
Os atributos repetitivos e multivalorados deverão obrigatoriamente gerar novas tabelas para o
modelo.
Uma tabela estará de acordo com as regras da segunda forma normal se já estiver na
primeira forma normal e se não possuir dependências funcionais parciais. Uma estrutura de
dados que possua chaves primárias compostas, para estar na 2FN não pode possuir colunas
que sejam funcionalmente dependentes apenas uma parte da chave.
(BEIGHLEY, 2008) vaticina que uma tabela em que todas as colunas façam parte da
chave primária e que já esteja na 1FN automaticamente também será 2FN. Ou ainda se uma
tabela já estiver respeitando as regras de 1FN e tenha apenas uma coluna como chave
primária, também estará em 2FN. Em tempo, para uma tabela em que foi criada uma chave
primária artificial (sintética) e que esteja em 1FN também estará na 2FN.
33
De acordo com (HEUSER, 2009, p. 197), “uma tabela encontra-se na segunda forma
normal (2FN) quando, além de encontrar-se na 1FN, cada coluna não chave depende da chave
primária completa”.
Para que uma tabela fique na terceira forma normal será necessário que a mesma já
esteja na 2FN e que não possua dependências funcionais transitórias. Uma vez que o conceito
de DF seja bem compreendido é muito difícil que ao se projetar um modelo de dados com
suas tabelas já não se enxergue as possíveis DF e já se vá evitando ocorrerem.
(HEUSER, 2009, p. 200) assinala que, “uma tabela encontra-se na 3FN quando, além
de estar na 2FN, não contém dependências transitivas”.
Para (MACHADO, 2008), o fato de uma tabela estar na 3FN e não possuir
dependências funcionais transitivas evita que ocorram as anomalias de inclusão, atualização e
exclusão.
34
Data warehouse
(FILHO, 2012, p. 86) afirma que a melhor definição para DW é um grande armazém
de dados para armazenar informações e propiciar a constiutição de ambientes mais
estruturados para suporte à decisão. O ponto de partida para a implementação de um bom
ambiente de business intelligence parte da criação de um Data warehouse.
Utliliza-se o DW para fazer consultas sobre todo o banco e todos os setores da
empresa. Leia-se vendas, estoque, financeiro, compras, RH, etc.
Dentre as razões para estruturar um Data warehouse podemos citar:
Otimização do processo de consulta em grandes volumes de dados – até pelo fato de
armazenar dados sem normalização um DW poderá ter uma quantidade de dados absurda, da
ordem de terabytes.
Analisar eventos passados – quem conhece o passado pode prever o futuro. Se uma
danceteria souber que determinada semana do ano passado teve poucos frequentadores será
possível tomar alguma atitude para que isso não se repita este ano. Promoções, ingresso grátis,
etc.
Busca de informações de acordo com a necessidade do usuário – ao gerente comercial
é possível fazer acompanhamento de vendas de sua equipe e corrigir rumos. Já o supervisor
de cobrança pode montar um mapa de devedores de acordo com suas consultas ao DW.
como se estivessem em um cubo. Desta forma será possível “cortar” este cubo em fatias que
poderão ser analisadas a procura de métricas pré-estabelecidas.
Criado por Ralph Kimball este modelo não é normalizado como no modelo relacional.
Isto faz com que os dados sejam extremamente redundantes e por este fato, de evitar os
JOINS faz com que a consulta tenha altíssimo desempenho. Muito utilizada na concepção de
Data warehouses.
Este modelo contém a tabela fato ao centro cercada pelas tabelas dimensões.
De acordo com (PINHO, 2016, p. 30) no modelo Star todas as tabelas relacionam-
se diretamente com a tabela de fatos, sendo assim as tabelas dimensionais devem
conter todas as descrições que são necessárias para definir uma classe como
Produto, Tempo ou Loja nela mesma, ou seja, as tabelas de dimensões não são
normalizadas no modelo estrela.
Figura 4 a tabela de fatos fica ao centro cercada
das tabelas dimensionais assemelhado a uma
estrela.
Os dados são modelados em tabelas dimensionais ligados a uma tabela de fatos. Desta
forma a consulta ocorre inicialmente nas tabelas de dimensão e depois nas tabelas de fatos,
garantindo a precisão dos dados por meio de uma estrutura de chaves onde não é preciso
percorrer todas as tabelas como aconteceria se fosse o modelo relacional normalizado. Isso
garante velocidade de acesso e excelente desempenho.
Basicamente é considerado uma variação do modelo estrela mas conta com tabelas
normalizadas.
37
MÉTRICAS
Figura 6 - Métricas
As métricas são o foco da análise dos dados, pois expressam os valores que irão
quantificar o que desejamos analisar. Podemos analisar o valor total em Real dos
produtos vendidos, assim como podemos, em uma análise, representar a métrica
das quantidades vendidas de produtos (SERPA, 2015, p. 17).
ADITIVAS
Os fatos que mais fazem sentido para serem analisados são os perfeitamente aditivos.
Exemplo: valor das vendas em dólares e unidades. Entretanto, medidas numéricas de
intensidade, que não são perfeitamente aditivas (semiaditivos), também podem ser utilizadas
(CORDEIRO, 2015).
38
DERIVADAS
SEMI-ADITIVAS
NÃO-ADITIVAS
Os fatos mais úteis em uma tabela Fato são numéricos e aditivos. Teoricamente, um
fato medido pode ser textual; no entanto, isso raramente acontece. Na maioria dos casos, uma
medida textual é uma descrição de algo e é obtida a partir de uma lista discreta de valores.
Não armazenamos informações textuais em tabelas Fato, como comentários textuais. A menos
que o texto seja exclusivo para cada linha. Exemplo: descrição climática de um registro de
acidente (CORDEIRO, 2015).
A modelagem dimensional envolve basicamente o uso das tabelas fato e das tabelas
dimensões.
TABELAS FATO
A tabela fato está ligada sempre a duas ou mais dimensões (data e outras). É a
principal tabela do DW e é onde as métricas estão armazenadas.
Figura 7 - Tabela fato (FILHO,
2012)
Tabela de fatos de entregas
Valor de faturamento
Quantidade de produtos
Quantidade de entregas
Peso
Valor impostos
Volumes
As tabelas de fatos são utilizadas para armazenar medidas numéricas, que são
associadas a eventos de negócios. O valor de faturamento, a quantidade de produtos
entregues e a quantidade de entregas são exemplos de fatos que podem ser
visualizados por várias dimensões (FILHO, 2012, p. 174).
TABELAS DIMENSÕES
É toda e qualquer informação que qualifique uma métrica, mas na maioria das vezes
pode ser encontrada ao perguntar “o porquê” o usuário deseja mensurar uma informação.
39
CUBOS
Basicamente o cubo pode ser uma metáfora onde os lados são as dimensões como por
exemplo tempo, região, produto e assim por diante. Por questões espaciais nossa visão apenas
consegue lidar com três dimensões, mas um cubo pode ter muito mais dimensões. Na figura
em exemplo de um cubo com 3 dimensões: localização, produto e período de vendas.
OLAP
O termo OLAP surgiu em 1993, proferido por Edgar Frank Codd, matemático
britânico, que é considerado “o pai do banco de dados relacional”. OLAP, ou
Online Analytical Processing, como a capacidade de manipular e analisar grandes
volumes de dados (SERPA, 2015, p. 11).
OPERAÇÕES OLAP
Drill throught – ocorre quando o usuário passa de uma informação contida numa
dimensão para outra. Por exemplo: a navegação está concentrada na dimensão tempo e em
seguida a análise passa para a dimensão região (FILHO, 2012, p.79).
Slice and disse – utiliza-se para modificar o eixo das informações. Trocar uma visão
de dados e colunas por uma de linhas.
41
Para alimentar os decididores, de informações para que possam tomar as decisões mais
acertadas precisamos falar de Big Data, um banco de dados de tamanho bem maior que os que
já conhecemos (SILVER, 2013).
DAVENPORT (2014) afirma em seu livro de título homônimo ao deste capítulo que
Big Data denota volumes de dados inusitadamente grandes ou tipos de dados não
estruturados. Dados armazenados em tabelas ou planilhas possuem uma determinada estrutura
do tipo que possui um campo ou cabeçalho em uma coluna e as informações em linhas como
na modelagem de dados relacional. Relacional tem a origem na palavra relação ou também
conhecida como tabela. Na tabela é possível fica de fácil entendimento de como as
informações seriam recuperadas.
Tabela 12 - Fonte: do autor
Nome Data de nascimento Time de futebol
Pedro 14/10/1990 Grêmio
Alessandro 10/01/2000 Juventude
Como se fosse etiquetas as colunas nome, data de nascimento e time de futebol
facilitam a compreensão e posterior recuperação destas informações.
Já os dados não-estruturados são encontrados em postagens em redes sociais,
documentos de texto, e-mails, vídeos, animações, etc. É uma tarefa hercúlea recuperar estas
informações. E observe que a cada dia mais e mais informações vão se juntando as anteriores
formando o que chamamos de Big Data.
DAVENPORT (2014) sugere uma pequena lista do volume de informações que
compõe o Big Data (dados referentes a 2014):
Trinta bilhões de unidades de conteúdo são acrescentadas ao facebook por mês
por mais de um bilhão de usuários.
Usuários do Youtube assistem mais de 2 bilhões de vídeos por dia.
Os usuários do Google realizaram mais de 5 bilhões de buscas por dia em
2011.
E por aí vai.
DAVENPORT (2014) infere que as instituições que contarem em suas fileiras com
indivíduos que tenham perfil analítico conquistarão grande vantagem sobre seus principais
concorrentes. O autor inclusive afirma que todos em uma instituição deveriam ter perfil
analítico. Da recepção aos andares de cima.
42
O algoritmo FICO que é constituído de um número de 3 dígitos entre 300 e 850 mostra
um instantâneo da situação financeira de um possível cliente em certo ponto de sua vida
financeira. Se um cliente se apresenta para comprar a crédito um automóvel ou apartamento,
os analistas da FICO podem avaliar o risco da transação e autorizarem ou não
(CORPORATION, 2016).
A analítica prescritiva busca não apenas identificar o que aconteceu, mas com base nas
descobertas procura sugerir um curso de ação. Por exemplo qual tipo de investimento traria
mais vantagens financeiras a um banco.
Como já citado anteriormente é possível tomar decisões com base em intuição, mas
não é recomendado. Boas decisões necessariamente precisam vir acompanhadas ou
embasadas em bons dados. Se a vida real fosse como no filme Minority Report, grande filme
de Steven Spielberg estrelado pelo astro de block busters Tom Cruise. No filme era possível
prever o futuro e saber com antecedência o que iria acontecer.
4.3. CORRELAÇÃO
A correlação deverá medir o grau no qual dois fenômenos ou variáveis terão forte
relação entre si. Com certeza existe uma correlação entre altas temperaturas e a venda de
cerveja. Se a temperatura sobe a venda de cerveja também sobe (G1, 2016).
Correlação = +1 (correlação positiva que significa que se uma variável cresce a outra
acompanha este crescimento.
Correlação = 0 (zero) (não existe correlação). Por exemplo a altura do indivíduo com a
nota obtida em um exame de matemática. Nenhuma relação.
Correlação = -1 (correlação negativa, se uma variável sobe a outra variável deverá
cair. Como exemplo o número de horas de academia versus a queda do peso ou percentual de
gordura. Tecnicamente quanto mais horas de exercício menor o peso do praticante.
Na seguinte tabela é mostrado uma correlação positiva entre idades e percentual de
gordura corporal, meramente ilustrativa.
44
aumentam no verão assim como casos de conjuntivite. Existe correlação entre as duas
variáveis, mas não existem relação entre elas.
A título de curiosidade o site Correlations Spurious (VIGEN, 2014) mostra uma série
de correlações que não são causais. Na figura a falsa relação entre os gastos com ciência
relacionados com o índice de mortes por suicídio.
É possível usar a análise de regressão para prever resultados. Foi descoberta por Sir
Francis Galton (1822-1911) quando estudava como a altura dos pais poderia influenciar a
altura dos filhos. Seus dados mostraram que em média pais mais baixos tinham filhos mais
altos e pais altos teriam filhos mais baixos. Chamou de regressão à mediocridade (MILTON,
2010).
Para exemplificar, o histograma a tabela a seguir foi criado com idades de um grupo de
400 pessoas entre 20 e 53 anos de idade.
Figura 12 Histograma - Fonte: do autor
Note que a distribuição das idades dos indivíduos é um tanto assimétrica sendo que
temos poucos colaboradores com idade abaixo de 29 anos. Os mais jovens e os mais maduros
são a minoria dos colaboradores. Temos muitos indivíduos na faixa etária de 31 e 43 anos. O
histograma permite uma boa análise em grupos de valores. Usando histogramas poderíamos
avaliar quais as faixas de disciplinas em que alunos de uma universidade matriculam-se mais.
47
Observe que a maior parte dos funcionários obteve aumentos de salário na faixa entre
5% e 6%. Parece um bom número para solicitar sem correr riscos.
Mas seguindo adiante podemos criar um gráfico de dispersão comparando duas
variáveis que estão disponíveis para consulta pela consultoria: aumento solicitado e aumento
recebido. Estes dados podem abastecer a consultoria com informações de maior exatidão que
sugiram um percentual satisfatório de aumento que poderá ser solicitado sem que o
colaborador corra o risco de parecer ir com muita sede ao pote.
Figura 14 Gráfico de dispersão - Fonte: (MILTON, 2010)
Uma olhada atenta no gráfico de cascata e é possível perceber que das mais de 20 mil
curtidas o conteúdo onde existe mais engajamento são fotos. Mas isso não constitui nenhuma
surpresa conforme pesquisa da Social Bakers (BAKERS, 2014).
Das mais de 20 mil curtidas cerca de 17 mil são em imagens ou 84% das curtidas.
Uma boa dica seria continuar postando imagens mais elaboradas. Caso seja um restaurante,
fotos de comida podem funcionar muito bem.
Figura 15 curtidas por categoria - Fonte:
do autor
Observe-se que vídeos tem audiência muito baixa, cerca de 3% das curtidas e/ou
visualizadas. Dependendo do tipo de negócio da empresa, poderia ser investido mais tempo e
cuidado com vídeos mais elaborados. De qualquer forma existe espaço para crescer.
49
colunas, hora a hora. A ideia aqui é saber em qual hora do dia a página é mais curtida até para
que o administrador se programe para postar no horário em que os usuários estão curtindo.
Uma rápida olhada e se perceberá que os horários onde os conteúdos recebem mais cliques
são as 6 horas da manhã e as 16 horas. Erroneamente as postagens da página estão se
concentrando as 11 horas e as 21 horas. Primeira decisão será trocar o horário da postagem.
Outra observação nos mesmos moldes da anterior é quanto ao dia da semana. Qual é o
dia em que a página recebe mais curtidas? É preciso descobrir para priviliegiar este dia com
mais postagens. De acordo com o gráfico os dias de maior curtida na página são domingo,
segunda-feira e quarta-feira. Observe que salvo o domingo na segunda e na quarta quase nada
de conteúdo novo é postado. Será preciso mudar isso.
Figura 17 curtidas por dia da semana - Fonte: do
autor
Para finalizar ainda será necessária uma examinada nas curtidas da página. É
importante descobrir quem mais curte as postagens da página pois este é um dos clientes que
Figura 18 Nuvem de palavras - Fonte: do autor
50
por ser fã da empresa pode engajar mais usuários ao empreendimento. Uma alternativa é usar
uma nuvem de palavras que mostrará com fonte de tamanho maior quem são os maiores
curtidores.
Uma boa recomendação seria incentivar os curtidores com prêmios ou brindes para
que continuem sendo fãs da página.
51
5. CONSIDERAÇÕES FINAIS
O autor considera que todos os objetivos propostos foram atingidos, tendo permitido o
acesso ao mundo do Business Intelligence ao público leigo. Conseguiu demonstrar a
importância da análise de dados nas organizações e como as decisões que devem ser tomadas
precisam ser embasadas em dados concretos.
Acredita que ainda existe um longo caminho a percorrer para que as pessoas e
organizações se deem conta que a análise de dados é muito importante e pode afetar
diretamente as decisões que são tomadas diariamente.
52
6. BIBLIOGRAFIA
BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015.
BEIGHLEY, L. Use a Cabeça: SQL. 1ª. ed. Rio de Janeiro: Altabooks, 2008.
CHURCHER, C. Introdução ao Design de Bancos de Dados. 1ª. ed. Rio de Janeiro: Altabooks, 2009.
CORPORATION, F. I. Fico, 2016. Disponivel em: <http://www.fico.com/br/>. Acesso em: 30 out. 2016.
HEUSER, C. A. Projeto de banco de dados. 6ª. ed. Porto Alegre: Bookman, 2009.
LIMA, C. A. L. Estudo de Caso – Toyota USA. Blog do Lito - Data Warehouse/Business Intelligence,
2011. Disponivel em: <https://litolima.com/2011/03/05/estudo-de-caso-toyota-usa/>. Acesso em: 14
out. 2016.
LOH, S. BI na Era do Big Data para Cientistas de Dados. Porto Alegre: Amazon, 2014.
MACHADO, F. N. R. Banco de Dados: Projeto e Implementação. 2ª. ed. São Paulo: Érica, 2008.
MONEYBALL. Direção: Bennett Miller. Produção: Michael DeLuca, Michael De Luca, Rachael Horovitz
Brad Pitt. Intérpretes: Philip Seymour Hoffman, Robin Wright, Jonah Hill Brad Pitt. [S.l.]: Sony Pictures.
2011.
MOURA, G. A. C. D. Quatro cantos. Lendas e folclore da Internet. As pulhas virtuais, 2015. Disponivel
em: <http://www.quatrocantos.com/lendas/136_pontiac_baunilha.htm>. Acesso em: 08 Agosto
2016.
SILBERSCHATZ, A. Sistema de Banco de Dados. 3ª. ed. São Paulo: Pearson Makron Books, 1999.
TEIXEIRA, D. Docplayer, 2015. Disponivel em: <http://docplayer.com.br/>. Acesso em: 12 out. 2016.
WHEELAN, C. Estatística: o que é, para que serve, para que serve, como funciona. 1ª. ed. Rio de
Janeiro: Zahar, 2016.