Projeto

INSTITUTO DE EDUCAO SUPERIOR DA PARABA
SISTEMAS DE INFORMAO
RAMON RIBEIRO BARBOSA
BUSINESS INTELLIGENCE: Anlise da Incidncia do Cncer no Brasil com

o Qlikview
Joo Pessoa
2016

o Qlikview
Trabalho de Concluso de Curso

apresentado
ao
Instituto
de
Educao Superior da Paraba, no
curso Bacharelado em Sistemas de
Informao, como pr-requisito para
obteno do grau de Bacharel em
Sistemas
de
Informao
sob
orientao do Professor Ms. Fbio
Niccio de Medeiros.
Joo Pessoa
2016

o Qlikview
Trabalho de Concluso de Curso,

apresentado
ao
Instituto
de
Educao Superior da Paraba,
como parte das exigncias para
obteno do ttulo de Bacharel em
Sistemas de Informao.
Joo Pessoa, _____ de ____________ de 2016.
BANCA EXAMINADORA
________________________________________________
Prof. Ms. Fbio Niccio de Medeiros
Orientador
________________________________________________
Examinador
________________________________________________
Examinador
AGRADECIMENTOS
Aos meus pais, em especial a minha me por todo o esforo e sacrifcio. Ao

meu orientador e professor Fbio Niccio, por toda ateno, pacincia e dedicao.
minha Professora Jeane, sempre dedicada e atenciosa. Aos meus amigos
Nadyelle Targino, Everaldo Coelho e Talita Neves, por toda ajuda de valor
imensurvel. E a todos os professores que de alguma forma contriburam para que
eu pudesse chegar at aqui, o meu muito obrigado a todos.
RESUMO
O avano da tecnologia nos ltimos anos tem gerado uma quantidade exaustiva de
dados e informaes a todo o momento. Seguindo a tendncia de dados abertos,
muitas organizaes esto disponibilizando, para qualquer pessoa, o acesso aos
dados que elas produzem. Entretanto, a forma como os dados esto sendo
disponibilizados so de difcil compreenso para as pessoas, tornando-se invivel
sua utilizao. Uma fonte de dados muito importante e de acesso pblico pode ser
obtida atravs do INCA (Instituto Nacional do Cncer). Essa fonte de dados se refere
a registros hospitalares de pacientes acometidos ao cncer, uma grave doena que
tem gerado progressivos aumentos no nmero de ocorrncias. Contudo as
informaes contidas nessa fonte de dados no esto explcitas, sendo necessrio o
uso de ferramentas de anlises de dados para que se possa extrair algum
conhecimento. O BI (Business Intelligence) oferece tcnicas e mtodos que
permitem a extrao e transformao de conhecimento a partir de grandes bases de
dados. A proposta deste trabalho evidenciar os nmeros da incidncia do cncer
atravs das anlises criadas a partir das tcnicas de BI. A metodologia adotada no
trabalho fez uso de referncias bibliografias, publicaes e ferramentas que
auxiliaram na aplicao das tcnicas e seus mtodos, possibilitando com o uso da
ferramenta QlikView a realizao do processo de ETL (Extrao, Transformao e
Carga) e tambm a criao das anlises sobre a incidncia do cncer no Brasil.
Portanto, permitindo a visualizao de forma rpida, precisa e dinmica das
informaes acerca da incidncia da doena que estavam implcitas nos dados
brutos, a partir de diferentes formas de anlises.
Palavras-Chaves: Business Intelligence. QlikView. Incidncia do Cncer.
ABSTRACT
The technological advances that occurred in the last years have been generating an
exhausting quantity of data and information all the time. A great number of
organizations, by following the trend of open data, are providing access to its
statistics to anyone who may be interested. On the other hand, they are available in a
very difficult way to understand for the people in general, making it impracticable to
use. A very important and of public use data source may be obtained through INCA
(National Institute of Cancer) of Brazil that provides hospital records of patients with
cancer, a severe disease that has been having a progressive increase in its
occurrence number. Notwithstanding, the information available in this data source is
not explicit, which means that it is necessary the use of data analysis tools to extract
any knowledge. Business Intelligence (BI), therefore, offers technics and methods
that permit the extraction and transformation of knowledge from these great data
sources. Thus, the main object of this paper is to point out the incidence of cancer
through the analysis obtained by the technics of BI. The methodology chosen allowed
us to make use of bibliographic reference, publications and tools that supported the
application of the technics and its methods, by making possible, with the use of
QlikView, the realization of the process of ETL (Extraction, Transformation and Load)
and also the creation of analysis of cancer incidence in Brazil. Consequently, it
permitted a quick, precise and dynamic preview regarding the information of the
incidence of such a disease, information that was implicit in the raw data from the
different forms of analysis.
Keywords: Business Intelligence. QlikView. Cancer Incidence.
LISTA DE FIGURAS
FIGURA 1: Os dez tipos de cncer mais incidentes estimados para 2016...............13

FIGURA 2: Etapas do Processo de Business Intelligence.........................................16
FIGURA 3: Pirmide dos Dados.................................................................................19
FIGURA 4: Etapas do ETL..........................................................................................20
FIGURA 5: Integrao de Dados................................................................................23
FIGURA 6: No-Volatilidade.......................................................................................24
FIGURA 7: Representao do Modelo Estrela...........................................................27
FIGURA 8: Representao do Modelo Snowflake.....................................................27
FIGURA 9: Etapas do processo KDD.........................................................................33
FIGURA 10: Arquitetura Associativa do QlikView.......................................................34
FIGURA 11: Selees no QlikView.............................................................................35
FIGURA 12: Parte de consulta dos dados brutos......................................................37
FIGURA 13: Tabela XML da localizao detalhada....................................................37
FIGURA 14: Extrao Qlikview...................................................................................38
FIGURA 15: Diagrama Multidimensional Estrela.......................................................40
FIGURA 16: Script Dimenso DimTratamento...........................................................41
FIGURA 17: Funo IF na dimenso de pacientes....................................................42
FIGURA 18: Script DimTempoConsulta......................................................................42
FIGURA 19: Script Tabela de Fatos............................................................................43
FIGURA 20: Painel Introduo...................................................................................44
FIGURA 21: Painel Pacientes.....................................................................................45
FIGURA 22: Exemplo de expresso do grfico de pizza...........................................45
FIGURA 23: Painel Cenrio........................................................................................46
FIGURA 24: Grfico de barras Tumores mais frequentes..........................................47
FIGURA 25: Grfico de linha Estado final do tratamento...........................................47
FIGURA 26: Grfico de pizza Razo para no tratar.................................................48
FIGURA 27: Grfico de linhas Percentual de tratamento de por Estados.................48
FIGURA 28: Grfico de barras Pirmide Etria..........................................................49
FIGURA 29: Painel Classificao...............................................................................49
FIGURA 30: Lista de seleo Localizao Primria...................................................50
FIGURA 31: Grfico de barras Localizao Detalhada..............................................50
FIGURA 32: Grfico de barras Tipos Histolgicos.....................................................51
FIGURA 33: Grficos de pizza com Caractersticas dos pacientes...........................51
LISTA DE SIGLAS
BI Business Intelligence
CID Classificao Internacional de Doena
DOLAP Database OLAP
EIS Sistemas de Informaes Executivas
ER Entidade-Relao
ETL Extract, Transform and Load
GM General Motors
IBGE Instituto Brasileiro de Geografia e Estatsticas
IBM International Business Machines
ID Identificador
INCA Instituto Nacional de Cncer Jos Alencar Gomes da Silva
KDD Knowledge Discovery in Databases
MOLAP OLAP Multidimensional
MS Ministrio da Sade
OLAP Online Analytical Processing
OLTP Online Transaction Processing
RHC Registro Nacional de Cncer
ROLAP OLAP Relacional
SOE Sem Outra Especificao
SGBD Sistema de Gerenciamento de Banco de Dados
SIG Sistemas de Gerao de Relatrios
WOLAP Web OLAP
SUMRIO
1 INTRODUO...........................................................................................................9
1.1 OBJETIVO GERAL............................................................................................11
1.2 OBJETIVOS ESPECFICOS..............................................................................11
2 O CNCER NO BRASIL.........................................................................................12
3 BUSINESS INTELLIGENCE...................................................................................15
3.1 DADOS..............................................................................................................17
3.1.1 Dados, informao e Conhecimento...........................................................19
3.2 EXTRAO, TRANSFORMAO E CARGA (ETL).........................................20
3.3 DATA WAREHOUSE..........................................................................................21
3.3.1 Granularidade..............................................................................................24
3.4 MODELO MULTIDIMENSIONAL.......................................................................25
3.4.1 Modelos Estrela e Flocos de Neve..............................................................26
3.5 DATA MART.......................................................................................................28
3.6 METADADOS.....................................................................................................29
3.7 OLAP..................................................................................................................30
3.8 DATA MINING....................................................................................................31
3.8.1 Tarefas de Minerao de Dados.................................................................32
3.8.2 Descoberta de Conhecimento em Base de Dados.....................................32
4 O QLIKVIEW............................................................................................................34
5 ANLISE BI SOBRE A INCIDNCIA DE CNCER NO BRASIL..........................36
5.1 FONTE DE DADOS...........................................................................................36
5.2 EXTRAO.......................................................................................................38
5.3 TRANSFORMAO..........................................................................................39
5.4 CARGA..............................................................................................................43
5.4.1 Anlises.......................................................................................................44
6 CONCLUSO..........................................................................................................52
REFERNCIAS...........................................................................................................53
1 INTRODUO
A Lei de Acesso Informao (Lei n 12.527/11) que entrou em vigor no dia

16 de maio de 2012 regulamenta o direito constitucional de acesso s informaes
pblicas. O Marco Civil da Internet (Lei n 12.965, de 23 de abril de 2014) tambm
foi de grande contribuio para que o acesso aos dados pblicos chegassem ao
alcance da populao em geral (MORAIS, 2013). Atualmente os dados referentes
transparncia pblica esto disponveis e acessveis para qualquer pessoa.
importante saber que uma enorme fatia dos dados pblicos que esto sendo
disponibilizados aps a criao das leis citadas acima, na verdade so informaes,
ou seja, dados j processados no formato de relatrios, grficos ou estimativas.
O problema dos dados j processados que a sua utilizao em aplicaes
personalizadas tornam-se quase sempre inviveis. Outra parte dessa fatia, de menor
tamanho, referente aos dados brutos, essa fonte de informao pode ser
incompreensvel para a maioria das pessoas, seja por sua organizao, por sua
estrutura ou por seu formato, mas so esses dados brutos que abrem as portas para
uma infinidade de possibilidades de aplicaes que permitem a extrao de
conhecimentos. Mas disponibilizar os dados brutos ao alcance do pblico em geral
no suficiente. Hoje vivemos um dilema: Existem informaes pblicas disponveis
em dados brutos para que qualquer pessoa possa acess-las, porm a
confiabilidade desses dados de uma qualidade questionvel.
Embora os dados brutos no sejam, em sua grande maioria, encontrados em
um padro de qualidade ideal, no significa que a sua utilizao no possa gerar
conhecimentos satisfatrios, ao receberem os devidos tratamentos (que ser
discutido com mais detalhes) os dados estaro prontos para serem utilizados
gerando conhecimentos confiveis.
Seguindo a tendncia das Leis de Acesso Informao, diversas
organizaes pblicas e privadas dos mais diversos setores, j disponibilizam dados
para qualquer pessoa fsica ou jurdica, sem a necessidade de apresentar motivo.
Vale lembrar que a maior parte desses dados so informaes de transparncia das
contas pblicas, mas no apenas esse tipo especfico.
Uma fonte de dados muito importante, que ser a base para esse trabalho,
est disponvel pelo Integrador RHC (Registro Hospitalar de Cncer), aplicativo web
10
fornecido pelo Instituto Nacional de Cncer Jos Alencar Gomes da Silva (INCA),
rgo singular do Ministrio da Sade (MS) responsvel por aes de preveno e
controle do Cncer no Brasil. Embora o Integrador RHC disponibilize dados abertos,
ele no representa diretamente as leis de transparncia pblica, porm no
podemos desprezar a importncia e impacto que leis desse tipo tm sobre diversos
outros servios e setores.
O Cncer uma doena em evidncia em qualquer parte do mundo, no Brasil
no diferente, ocupa o segundo lugar no ndice de mortalidade. A estimativa de
que at 2029 a doena seja a principal causa de morte no pas, superando as
doenas do sistema circulatrio o qual ainda ocupa o primeiro lugar.
A estimativa para o Brasil, binio 2016-2017, aponta a ocorrncia de cerca
de 600 mil casos novos de cncer. Excetuando-se o cncer de pele no
melanoma (aproximadamente 180 mil casos novos), ocorrero cerca de 420
mil casos novos de cncer. O perfil epidemiolgico observado assemelha-se
ao da Amrica Latina e do Caribe, onde os cnceres de prstata (61 mil) em
homens e mama (58 mil) em mulheres sero os mais frequentes (INCA,
2015, p. 26).
Tendo em vista a assombrosa taxa de incidncia e o nmero crescente de

casos, surge a necessidade de obter conhecimento acerca da realidade desta
doena no pas. Os SGBD (Sistemas de Gerenciamento de Banco de Dados)
fornecem poderosos recursos de manipulao de dados, todavia s conseguem
extrair informaes que esto evidentemente armazenadas, dessa forma no sendo
possvel a obteno de nenhuma base de conhecimento. A simples anlise dos
dados sobre a incidncia da doena podem ser um tanto insuficientes, ficando
evidente de que preciso utilizar mtodos mais avanados que auxiliem na tomadas
de decises em aes e orientaes de polticas pblicas que atuem na melhoria
dos quadros apresentados.
O Business Intelligence (Inteligncia de Negcios) um dos maiores aliados
na busca e extrao de conhecimentos nas gigantescas bases de dados, onde as
tcnicas convencionais no conseguem extrair informaes teis.
Business Intelligence (BI) um termo guarda-chuva que inclui arquiteturas,
ferramentas, bancos de dados, aplicaes e metodologias. Os principais
objetivos do BI so permitir o acesso interativo dos dados (s vezes, em
tempo real), proporcionar a manipulao desses dados e fornecer aos
gerentes e analistas de negcios a capacidade de realizar a anlise
adequada. O Processo do BI baseia-se na transformao de dados em
11
informaes, depois em decises e finalmente em aes (TURBAN, et al,

2009, p. 27).
A utilizao dos mtodos do BI pode ir alm do que foi citado anteriormente. A

proposta deste estudo evidenciar as tcnicas e mtodos mais comuns nas
aplicaes BI, utilizando a fonte de dados sobre incidncias do Cncer no Brasil
disponvel no Integrador RHC, com o objetivo de obter conhecimentos que auxiliem
em tomadas de aes contra a doena, para isso ser utilizada bibliografias
especficas
nesta
rea
de
conhecimento,
publicaes
as
ferramentas
computacionais mais comuns para esse tipo de aplicao.
1.1 OBJETIVO GERAL

Utilizar a ferramenta QlikView para aplicar as tcnicas de ETL (Extrao,
Transformao e Carga) e realizar anlises sobre a incidncia do cncer no Brasil a
partir dos dados de registros hospitalares disponibilizados pelo INCA.
1.2 OBJETIVOS ESPECFICOS

Expor os conceitos de Business Intelligence;
Aplicar as tcnicas de ETL nos dados de registros hospitalares de pacientes
acometidos pelo cncer;
Utilizar a ferramenta QlikView para criar anlises sobre a incidncia de
cncer no Brasil.
12
2 O CNCER NO BRASIL
O cncer uma doena conhecida desde tempos remotos. Civilizaes

antigas como Egito, Sumria, China e Persa j prescreviam medicamentos para o
tratamento da doena por volta de 2000 a.C. A utilizao de plantas no preparo dos
medicamentos foi o mais comum, todavia derivados de minrios (ferro, cobre,
enxofre, arsnico e mercrio) e animais (fgado, ossos e urina) tambm tiveram
ampla utilizao (HAJDU, 2000). Entretanto, o conhecimento sobre a doena era
muito pequeno e continuou assim durante muito tempo. Os mdicos por sua vez,
pouco podiam fazer para minimizar o sofrimento e as mortes. A populao tinha
escasso entendimento sobre o cncer e, geralmente a doena era atribuda a uma
grande lista de enfermidades que causavam dor e morte (TEIXEIRA, FONSECA,
2007).
Os primeiros tratamentos modernos surgiram no incio do sculo XX, mas s
tornaram-se eficazes em meados do mesmo sculo. Ao mesmo tempo em que o
tratamento se tornava cada vez mais promissor, a populao entendia melhor o que
era a doena, a extenso do mal causado por ela e as limitaes da medicina no
processo de cura (TEIXEIRA, FONSECA, 2007).
As primeiras iniciativas para o controle do cncer no Brasil remontam ao
incio do sculo 20, orientadas quase que exclusivamente para o
diagnstico e tratamento. Pouca nfase era dada preveno, pela
escassez de conhecimento sobre a etiologia da doena. (BARRETO, 2005,
p. 268).
O cncer atualmente engloba um conjunto de mais de 100 doenas que tem

como caracterstica o crescimento desordenado de clulas. Geralmente as clulas
normais crescem e se multiplicam de forma ordenada, porm, nem todas as clulas
so iguais, algumas nunca se dividem (neurnios) e outras se dividem de forma
rpida e contnua (tecido epitelial). Diferente do que ocorrem com as clulas
normais, as clulas cancerosas ao invs de morrerem, apresentam um crescimento
incontrolvel e desordenado, se dividem de forma rpida e agressiva, e podem se
espalhar por outras regies do corpo (INCA, 2011).
Nos pases industrializados as doenas cardiovasculares e os cnceres
ocupam os primeiros lugares de causas de morte. No Brasil, o cncer ocupa o
13
segundo lugar como principal causa de morte por doena. evidente o crescimento
no nmero de novos casos da doena nas ltimas dcadas, tendo a urbanizao e
industrializao como um dos principais fatores associados ao aumento na
quantidade de casos (MOHALLEM, RODRIGUES, 2007).
Segundo o INCA (2015) a estimativa para o Brasil no binio 2016-2017 indica
que ocorrer cerca de 600 mil novos casos. Excetuando o cncer de pele no
melanoma, estima-se que os tipos mais frequentes em homens sero: prstata
(28,6%), pulmo (8,1%), intestino (7,8%), estmago (6,0%) e cavidade oral (5,2%).
Enquanto nas mulheres os cnceres mais comuns sero: mama (28,1%), intestino
(8,6%), colo do tero (7,9%), pulmo (5,3%) e estmago (3,7%). Ver Figura 1.
Figura 1: Os dez tipos de cncer mais incidentes estimados para 2016

Fonte: (INCA, 2015, p. 56)
Desconsiderando o cncer de pele no melanoma, os quatros tipos com

maiores ndices de ocorrncia no Brasil podem ser vistos com mais detalhes a
seguir:
Cncer de prstata: mais comum entre os homens, estimam-se 61.200
casos no Brasil em 2016, sendo a 15 posio em nmero de mortes no mundo
(INCA, 2015). Os maiores fatores de risco identificados para o cncer de prstata
so: idade, histria familiar de cncer e etnia/cor da pele. Entretanto, a idade o
nico fator de risco bem estabelecido para o desenvolvimento do cncer de
prstata. (INCA, 2015, p. 31).
14
Cncer da mama: ocupa o primeiro lugar entre os tipos com maior incidncia
e maior mortalidade de mulheres em todo o mundo, para o Brasil em 2016 estima-se
57.960 novos casos.
Envelhecimento, fatores relacionados vida reprodutiva da mulher, histria
familiar de cncer de mama, alta densidade do tecido mamrio (razo entre
o tecido glandular e o tecido adiposo da mama) so os mais bem
conhecidos fatores de risco para o desenvolvimento do cncer de mama.
Alm desses, consumo de lcool, excesso de peso, sedentarismo e
exposio radiao ionizante tambm so considerados agentes
potenciais para o desenvolvimento desse cncer (INCA, 2015, p. 33).
Cncer de clon e reto: ocupa no Brasil o segundo lugar entre as mulheres,

com 17.620 novos casos estimados para 2016, e o terceiro entre os homens com
16.600 casos. Uma maior incidncia deste tipo de cncer notada em pases onde
o hbito alimentar rico em consumo de carnes vermelhas e carnes processadas,
pouca ingesto de frutas, legumes e verduras. Outras caractersticas como
obesidade, sedentarismo, tabagismo e alcoolismo tambm representam um
aumento na incidncia (INCA, 2015). A histria familiar do cncer de coln e reto, a
predisposio gentica ao desenvolvimento de doenas crnicas do intestino e a
idade so outros fatores de risco para o desenvolvimento da doena. (INCA, 2015,
p. 35)
Cncer do pulmo: para 2016 no Brasil estimam-se 17.330 novos casos em
homens e 10.890 em mulheres, esses nmeros incluem os cnceres de traqueia,
brnquios e pulmes. O principal fator de risco o tabagismo, entretanto outros
fatores de risco tambm contribuem para o surgimento da doena: exposio a
carcingenos ocupacionais e ambientais, a alguns metais e poluio do ar.
O tabagismo passivo e a emisso da combusto derivada do carvo
tambm so considerados fatores de risco para o cncer de pulmo. Alm
desses, repetidas infeces pulmonares, histria de tuberculose, deficincia
e excesso de vitamina A so considerados fatores de risco para o
desenvolvimento desse tipo de neoplasia (INCA, 2015, p. 36).
Um dos grandes responsveis pelo aumento no nmero de casos de todos os

tipos do cncer a exposio a fatores de riscos, por exemplo: o estilo de vida
adotado pela populao, a alimentao e o consumo, a exposio a agentes
qumicos, fsicos e biolgicos (INCA, 2011).
15
3 BUSINESS INTELLIGENCE
Para Loh (2014), um dos melhores exemplos para explicar o que BI, o
caso da GM (General Motors) e o sorvete de baunilha. Segundo a lenda, um cliente
que havia comprado um carro, enviou uma carta reclamando de um eventual
problema: quando ele ia a uma sorveteria e comprava um sorvete de baunilha ao
voltar para o carro ele tinha dificuldades para dar partida, porm este problema no
acontecia se ele comprasse outro sabor de sorvete.
Na GM ningum conseguia imaginar qual ligao um sorvete de baunilha
poderia ter com o problema. Um engenheiro resolveu investigar o caso e procurou o
cliente. Eles foram juntos sorveteria testar a teoria, compraram um sorvete de
baunilha e ao voltarem para o carro realmente tiveram dificuldades ao dar partida.
Numa segunda tentativa refizeram o teste comprando um sorvete de sabor diferente,
e para a surpresa do engenheiro o carro funcionou perfeitamente.
claro que o engenheiro sabia que o sabor do sorvete no seria o causador
do problema, mas que havia uma relao do problema associada ao sabor
escolhido. Ento ele percebeu que para comprar o sorvete de baunilha levava
menos tempo que os demais sabores, uma vez que o sorvete de baunilha ficava na
entrada da loja, enquanto outros sabores no fundo. Ele tambm notou que havia
uma pea no carro que precisava resfriar para que pudesse funcionar. Dessa forma
o engenheiro conseguiu fazer uma associao ao tempo que era gasto para comprar
o sorvete com o tempo que era necessrio para que a pea pudesse ser resfriada,
desvendando desta forma, o mistrio.
Essa analogia mostra como funciona um processo de um sistema BI, mesmo
que tenha sido feita manualmente, sem o auxilio computacional. A anlise das
informaes disponveis junto com o conhecimento do engenheiro possibilitou a
descoberta do problema. Um sistema BI ir fazer exatamente isso, encontrar nos
dados disponveis informaes que no estejam em evidencia e tenham relevncia
para determinada situao. Porm, diferente da analogia, o processo BI tende a ser
muito mais eficiente, uma vez que as informaes so expostas de forma imediata.
O termo Business Intelligence surgiu em meados da dcada de 1990,
difundido pelo Gartner Group. Entretanto, seus conceitos tm um pouco mais de
idade, surgindo por volta de 1970 nos Sistemas de Gerao de Relatrios (SIG), que
nessa poca produziam apenas relatrios estticos, bidimensionais e no possuam
16
recursos de anlise. J nos anos 1980, surgiu o conceito de Sistemas de

Informaes Executivas (EIS), foi esse conceito que expandiu o suporte
computadorizado aos gerentes executivos. Com recursos de gerao de relatrios
dinmicos multidimensionais, prognsticos e previses, anlise de tendncias,
detalhamento, acesso a status e fatores crticos de sucesso. Foram esses mesmos
recursos e alguns novos que mais tarde na metade da dcada de 1990 receberam o
nome de BI (TURBAN, et al, 2009 apud ZAMAN, 2005; RAISINGHANI, 2004).
Segundo Loh (2014), BI um processo que envolve mtodos, tcnicas,
tecnologia, pessoas, informaes, fontes de informaes, mtricas e ferramentas. E
tem por objetivo encontrar causas ou explicaes para eventos e resultados. A
busca por padres tambm objetivo do BI, preciso encontrar uma ordem para
que os dados possam fazer sentido e serem teis. O BI tambm procura encontrar
explicaes para eventos com fundamentaes em dados.
Figura 2: Etapas do Processo de Business Intelligence

Fonte: Prprio Autor
A Figura 2 mostra as diferentes etapas dos processos que envolvem o BI,

comeando na coleta dos dados brutos, que mais tarde iro compor o Data
Warehouse. Os dados brutos representam os tradicionais sistemas de bancos de
dados, mas tambm podem ter origem em diversos formatos e tipos de arquivos. Os
dados brutos no representam uma nica fonte de dados, muitas vezes se faz
17
necessrio o uso de diferentes fontes de dados para formar um nico Data

Warehouse.
A etapa de ETL, em geral a etapa que demanda mais tempo, envolve os
processos de extrao dos dados brutos, toda a parte de tratamento, limpeza e
normalizao, para por fim os dados serem carregados no Data Warehouse. O Data
Warehouse um banco de dados onde sero armazenados o contedo dos dados
brutos e suas posteriores atualizaes, mantendo seus histricos. Os Data Marts
so subconjuntos do Data Warehouse, que tendem a serem divididos por setores ou
assuntos. As ferramentas OLAP e Data Mining so utilizadas para as anlises dos
dados armazenados no Data Warehouse. Os Metadados fornecem informaes e
caractersticas sobre os dados. Todos esses processos sero vistos com mais
detalhes nos tpicos seguintes.
3.1 DADOS
Desde sua criao, a computao permitiu que as pessoas e organizaes
executassem tarefas de forma mais simples, gastando menos tempo que os
mtodos tradicionais. Tambm tornou possvel o uso de inmeras novas atividades
que auxiliam os diversos processos utilizados pelas organizaes. O avano da
tecnologia dos ltimos anos permitiu e fez-se necessrio a introduo dos sistemas
de informatizao em todos os tipos de organizao. Desde os primrdios, as
aplicaes computacionais tm como principal foco armazenar e manipular dados,
essas aplicaes so conhecidas por sistemas rotineiros ou transacionais, que
envolvem principalmente contabilidade, pagamentos, controle de estoque (LOH,
2014).
Com a demanda cada vez mais alta, as organizaes tm a necessidade de
gerar e armazenar grandes fluxos de dados e informaes a todo o momento. Dessa
forma, acumulando uma imensa quantidade de dados, que est se tornando comum
alcanar a casa dos petabytes e algumas vezes at mesmo os exabytes. Essas
gigantescas bases de dados tem recebido o nome de Big Data (LOH, 2014).
Os dados podem ser definidos como a matria-prima ou como a fonte de
toda a obteno de conhecimento, inclusive das tcnicas de Business Intelligence.
Individualmente os dados no tem a capacidade de transmitir nenhuma mensagem,
18
eles so armazenados de forma que sua estrutura lgica seja de fcil compreenso
para mquinas.
Um conjunto de dados muitas vezes pode ser visto como uma coleo de
objetos de dados. Outros nomes para um objeto de dados so registros,
ponteiros, vetores, padres, eventos, casos, exemplos, observaes ou
entidades. Por sua vez, objetos de dados so descritos por um nmero de
atributos que capturam as caractersticas bsicas de um objeto, como a
massa de um objeto fsico ou o tempo no qual um evento tenha ocorrido.
Outros nomes para um atributo so varivel, caracterstica, campo, recurso
ou dimenso (TAN, STEINBACH, KUMAR, 2009, p. 26).
Os dados no representam informaes teis que possam ser entendidas a

nvel humano, para obter informaes ou conhecimento de uma fonte de dados
necessrio aplicar uma srie de processos e tratamentos nos dados brutos.
Os SGBDs so uma das ferramentas mais comuns de manipulao de dados,
com diferentes recursos que permitem o armazenamento e controle dos dados
gerados. Seu uso em ampla escala consequncia de diversos fatores, uma vez
que os SGBDs tm muitas vantagens (RAMAKRISHNAN, GEHRKE, 2008):
Independncia de Dados;
Acesso Eficiente aos Dados;
Integridade e Segurana de Dados;
Administrao de Dados;
Acesso Cocorrente e Recuperao de Falha;
Tempo Reduzido de Desenvolvimento de Aplicativo.
O primeiro SGBD surgiu na dcada de 1960, chamado de Depsito de Dados
Integrados (Integrated Data Store) e foi projetado por Charles Bachman. Por volta
dos anos de 1970, Edgar Codd, no laboratrio da IBM, props o modelo de banco de
dados relacional, o qual impulsionou o desenvolvimento de vrios SGBDs, e
continua sendo amplamente utilizado em tempos atuais (RAMAKRISHNAN,
GEHRKE, 2008).
19
3.1.1 Dados, informao e Conhecimento

de fundamental importncia ressaltar a grande diferena existente entre
dado, informao e conhecimento. Isoladamente os dados tendem a no fornecer
nenhum significado. Numa anlise hierrquica, os dados estariam na base, dando
origem as informaes, que iria compor o centro, o qual daria origem ao
conhecimento no topo (LOH, 2014).
Figura 3: Pirmide dos Dados

Fonte: Prprio Autor.
A Figura 3 representa esse conceito hierrquico (pirmide). A base da

pirmide representa os dados brutos, esses tem o menor valor em uma tomada
deciso e possui os maiores volumes. Ao passo que subimos de nvel aumentamos
a complexidade e o valor ao passo em que diminumos o volume.
Os dados representam apenas valores isolados. A anlise e combinao dos
dados resultam nas informaes, que so mensagens com significado e
contextualizao. Por sua vez uma combinao de informaes tem o poder de
gerar conhecimentos. O conhecimento est diretamente relacionado com a
capacidade humana de refletir e absorver ideias. A experincia humana est
diretamente ligada ao conhecimento. Em uma tomada de deciso ser o
conhecimento que ir desempenhar a funo mais importante, auxiliando o gestor
nesse processo.
20
3.2 EXTRAO, TRANSFORMAO E CARGA (ETL)

Os dados que compem os tradicionais sistemas transacionais utilizados
pelas organizaes no possuem um padro definido em sua estrutura, dessa forma
so encontrados com uma grande variedade de formatos. Fato esse, impossibilita
seu uso direto nas aplicaes de Business Intelligence. Antes dos dados serem
carregados no Data Warehouse faz-se necessrio a aplicao das tcnicas de ETL.
O processo de ETL consiste em extrao (leitura dos dados de um ou mais
bancos de dados), transformao (converso dos dados extrados de sua
forma anterior na forma em que precisam estar, para que sejam colocados
em um Data Warehouse ou apenas em outro banco de dados) e carga
(colocao dos dados no Data Warehouse) (TURBAN, et al, 2009, p. 72).
Turban et al (2009), descreve que o processo de ETL tem como principal

objetivo carregar dados integrados e limpos no Data Warehouse. Os dados que
sero utilizados nesse processo podem ter origens em qualquer fonte de dados que
sejam relevantes para os devidos fins. Nesse processo o ETL tambm recebe a
funo de transportar os dados das fontes para os alvos, alm de registrar como os
metadados iro se modificar ao passo que se movimentam entre a fonte e o alvo.
No corao da parte tcnica do processo de data warehousing esto
extrao, transformao e carga (ETL). As tecnologias de ETL, que j
existem h algum tempo, so providenciais para o processo e uso de Data
Warehouses. O processo de ETL um componente integral de qualquer
projeto centrado em dados. Os gerentes de TI constantemente enfrentam
desafios, pois os processos de ETL costumam consumir 70% do tempo em
um projeto centrado em dados (TURBAN, et al, 2009, p.72).
Figura 4: Etapas do ETL

Fonte: (TURBAN, et al, 2009, p. 72) apud (SONGINI, 2004), (ARIYACHANDRA, WATSON, 2006).
21
A Figura 4 mostra as etapas do processo de ETL. O processo comea com a

extrao dos dados fonte para o Data Warehouse. Esses dados podem ser extrados
de diferentes locais e tambm pode apresentar diferentes formatos, como: arquivos
de texto, planilhas do Excel, arquivos XML ou SGBDs. Todos esses arquivos so
gravados em tabelas temporrias antes de serem carregados no Data Warehouse
(TURBAN, et al, 2009).
A segunda etapa consiste na transformao dos dados. Como no existe uma
regra de padronizao para a codificao dos bancos de dados transacionais e
como existem diferentes formas de armazenar os dados, a transformao e
tratamento tornam-se tarefas indispensveis. na etapa de transformao que
todos os problemas relacionados com a qualidade dos dados fontes devero ser
sanados. O processo de transformao responsvel pela integrao, limpeza,
tratamento de valores nulos ou ausentes e dados duplicados, alm de diversas
outras correes de inconsistncias. S aps todo esse processo os dados tero
qualidade suficiente para serem carregados no Data Warehouse (TURBAN, et al,
2009).
A terceira etapa se refere ao procedimento de carga, ou seja, inserir os dados
fonte j tratados no Data Warehouse. H vrios mtodos de carga do Data
Warehouse: um registro por vez, por meio de uma interface de linguagem, ou em
massa com a ajuda de um utilitrio. Em geral, a carga de dados por meio de um
utilitrio mais rpida. (INMON, 1997, p. 165).
3.3 DATA WAREHOUSE
O Data Warehouse um repositrio de dados desenvolvido para apoiar a
tomada de deciso. Ele um banco de dados que possui como principal
caracterstica a capacidade de extrair dados que geralmente so inseridos pelos
sistemas tradicionais baseados em OLTP (Online Transaction Processing ou
Processamento de Transaes em Tempo Real).
Em poucas palavras, um Data Warehouse (DW) um conjunto de dados
produzido para oferecer suporte tomada de decises; tambm um
repositrio de dados atuais e histricos de possvel interesse aos gerentes
de toda a organizao. Os dados normalmente so estruturados de modo a
estarem disponveis em um formato pronto para as atividades de
processamento analtico (p. ex. processamento analtico online [OLAP],
data mining, consultas, gerao de relatrios, outras aplicaes de suporte
22
deciso). Portanto, um Data Warehouse uma coleo de dados

orientada por assunto, integrada, varivel no tempo e no-voltil, que
proporciona suporte ao processo de tomada de decises da gerncia
(TURBAN, et al, 2009, p. 57).
Das caractersticas do Data Warehouse, quatro delas so mais marcantes,

destaca Inmon (1997, p.33): Um Data Warehouse um conjunto de dados baseado
em assuntos, integrado, no-voltil, e varivel em relao ao tempo, de apoio s
decises gerenciais.. Veja cada uma delas de acordo com Inmon (1997):
A primeira caracterstica concerne o fato do Data Warehouse ser baseado em
assuntos. Os dados so organizados por assuntos especficos, como clientes,
vendas ou produtos. Os bancos de dados operacionais so organizados em torno
das aplicaes da empresa e ajustados para lidar com transaes e suas
atualizaes.
Outra caracterstica marcante do Data Warehouse o fato dele ser
integrado. Esse o aspecto mais importante do Data Warehouse. As decises que
os projetistas de aplicaes tomam aparecem de diferentes maneiras. No existe um
padro na forma como as codificaes so produzidas, cada projetista cria seu
prprio padro e toma suas prprias decises. Dessa forma as aplicaes
apresentam muitas inconsistncias, que precisaro ser desfeitas ao passo que sero
introduzidas no Data Warehouse.
A integrao de dados compreende trs grandes processos que, quando
implementados corretamente, permitem que os dados sejam acessados por
e disponibilizados a uma gama de ferramentas de ETL e anlise e ao
ambiente de data warehousing. Os processos so: acesso aos dados (a
capacidade de acessar e extrair dados de qualquer fonte), federao de
dados (a integrao das visualizaes de negcios em diversos data stores)
e captura de alteraes (com base na identificao, captura e entrega das
alteraes feitas nas fontes de dados da empresa). (TURBAN, et al, 2009,
p. 72).
Observe a Figura 5, ela mostra a integrao de dados. Note que pouco

importa a forma como se apresenta a codificao da aplicao de origem. To pouco
importa qual padro ser adotado no Data Warehouse, desde que se mantenha a
devida consistncia no que diz respeito ao cdigo. Os dados das aplicaes de
origem sero convertidos medida que forem transferidos para o Data Warehouse.
De acordo com Inmon (1997) no h nenhuma vantagem em carregar os dados do
ambiente operacional para o de Data Warehouse sem antes integr-los. Se os dados
23
do Data Warehouse no esto integrados a sua utilizao como base para uma
viso corporativa de dados no pode ser feita.
Figura 5: Integrao de Dados

Fonte: (INMON, 1997, p. 35)
A condio de o Data Warehouse ser no-voltil o terceiro importante

aspecto em que consiste as suas caractersticas.
No ambiente operacional os
dados sofrem alteraes, so atualizados ou excludos. Isso no acontece no Data

Warehouse, uma vez que os dados sejam carregados eles permanecem inalterados.
As atualizaes so registradas como novos dados e geralmente ocorrem em
grande volume por vez.
A figura 6 mostra que no ambiente operacional os dados sofrem diversas
modificaes e que tal situao no acontece no ambiente de Data Warehouse.
Uma vez que os dados estejam no Data Warehouse eles permanecem sem sofrer
nenhuma alterao, exceto quando se tornam obsoletos, nesse caso so
descartados.
24
Figura 6: No-Volatilidade
Fonte: (INMON, 1997, p. 36)
A caracterstica seguinte se refere ao fato do Data Warehouse ser varivel

em relao ao tempo. No Data Warehouse o horizonte de tempo maior que o dos
sistemas operacionais. Um horizonte de tempo de 60 a 90 dias normal para os
sistemas operacionais; um horizonte de tempo de 5 a 10 anos de dados normal
para o Data Warehouse. (INMON, 1997, p. 36).
3.3.1 Granularidade
A Granularidade responsvel pela definio do nvel de detalhamento dos
dados, esse um dos aspectos mais importantes no projeto de um Data Warehouse.
Ela ir definir se os dados sero resumidos ou se apresentaro um alto nvel de
detalhamento. Um nvel muito baixo de granularidade ir resultar em uma grande
quantidade de dados armazenados no Data Warehouse. O baixo nvel tambm ir
afetar o desempenho, uma vez que ter uma quantidade maior de dados para serem
analisados, dessa forma podendo fazer com que as consultas sejam mais
demoradas (INMON, 1997).
J o inverso, um alto nvel de granularidade pode afetar a qualidade das
consultas, resultado do alto resumo dos dados, gerando em consequncia consultas
tendenciosas. Explicando de outro modo, com um nvel muito baixo de
granularidade, possvel responder a qualquer consulta. Todavia, com um alto nvel
25
de granularidade, o nmero de questes a que os dados podem satisfazer

limitado. (INMON, 1997, p. 47).
3.4 MODELO MULTIDIMENSIONAL
A modelagem multidimensional caracterizada por ser uma alternativa ao
modelo tradicional baseado em entidade-relao. De diversas formas diferentes
essa modelagem tende a ser mais simples e mais fcil de entender, entretanto por
ser um conceito relativamente recente ainda no tem os mesmos detalhes de
tcnicas de desenvolvimento que podemos encontrar na modelagem ER. (KIMBALL,
MERZ, 2000; MACHADO, 2007).
Machado (2007), expe que o objetivo das tcnicas multidimensionais tem
foco na sumarizao e reestruturao de dados de modo que eles proporcionem
suporte para a anlise dos valores e consequentemente a criao de vises onde os
dados analisados sero apresentados. A modelagem multidimensional uma
tcnica de concepo e visualizao de um modelo de dados de um conjunto de
medidas que descrevem aspectos comuns de negcios. (MACHADO, 2007, p. 79).
Modelagem dimensional uma disciplina que busca modelar dados para
aprimorar o entendimento e o desempenho. Modelos dimensionais so o
formato preferido para a apresentao dos dados no Data Warehouse. A
modelagem dimensional uma alternativa disciplina de modelagem
tradicional de entidade-relao (E/R), com a qual a maioria de ns
crescemos (KIMBALL, MERZ, 2000, p. 121).
Ainda segundo Machado (2007) um modelo multidimensional possui pelo

menos trs elementos bsicos, que sero apresentados com mais detalhes nas
prximas linhas:
Fatos;
Dimenses;
Medidas (variveis).
O Fato corresponde a uma tabela de fatos central que contm dados de
medidas e de contexto ligada a diversas tabelas de dimenso. Fato tudo aquilo
que pode ser representado por um valor aditivo, ou melhor, sem academicismos, por
26
meio de valores numricos. Esse conjunto de valores numricos denominado de

mtricas ou medidas simplesmente. (MACHADO, 2007, p. 100).
Um fato pode ser a venda de um produto no varejo, o preo de uma ao
em um determinado momento no tempo, a quantidade de cobertura de
seguro includa em uma nova aplice sendo criada, o balano de uma conta
ou a alterao em seu salrio como resultado de sua promoo. Todos
esses fatos so numricos. Alguns deles so verdadeiros em um instante
especfico no tempo, e outros representam uma medida acumulada sobre
um perodo de tempo (KIMBALL, MERZ, 2000, p. 122).
As Dimenses so tabelas que possuem atributos que descrevem os dados

contidos na tabela de fatos, normalmente elas no possuem atributos numricos,
uma vez que so apenas descritivas. As dimenses tambm iro ser as
responsveis pela forma de como os dados sero analisados (MACHADO, 2007).
Os atributos numricos que representam um fato so denominados de
Medidas. Uma medida determinada pela combinao das dimenses que
participam de um fato, e esto localizadas como atributos de um fato. (MACHADO,
2007, p. 81).
3.4.1 Modelos Estrela e Flocos de Neve
O Modelo Estrela ou Star Schema representa a arquitetura bsica de
um modelo multidimensional, embora haja diversos modelos da arquitetura, ele o
mais importante deles. Sua estrutura composta por uma entidade principal (fato)
ligada a um conjunto de vrias outras entidades (dimenses), formando uma estrela
(MACHADO, 2007).
No modelo relacional no existe um estilo nico de diagrama, podendo alguns
serem mais complexo que outros, no modelo multidimensional isso no acontece, o
estilo altamente simtrico (MACHADO, 2007). Esse modelo tem a capacidade de
processar consultas de forma extremamente rpida, alm de permitir a manuteno
de sua estrutura de um jeito fcil e simples (TURBAN, et al, 2009).
Na figura 7 pode ser visto o diagrama do modelo Estrela, a tabela de Fatos de
Vendas est no centro da estrela, ao redor esto as dimenses ligadas a Fato:
Tempo, Cliente, Regio, Vendedor e Produto.
27
Figura 7: Representao do Modelo Estrela

Fonte: (MACHADO, 2007, p. 93)
O modelo Flocos de Neve ou Snowflake similar ao modelo estrela,

entretanto uma ou mais de suas dimenses possuem hierarquias entre seus
membros. Ele de fcil entendimento pelos desenvolvedores de sistemas OLTP,
pois aplica as formas normais como em um projeto relacional. (MACHADO, 2007, p.
95).
Figura 8: Representao do Modelo Snowflake

Fonte: (MACHADO, 2007, p. 95)
28
A Figura 8 mostra o diagrama de uma estrutura em Flocos de Neve,

possvel observar que o modelo muito semelhante ao modelo Estrela, apresentado
na Figura 7, entretanto aqui as dimenses possuem ramificaes.
O modelo Flocos de neve uma dimenso normalizada, onde as tabelas de
dimenses so decompostas em uma estrutura de rvore com muitos nveis de
aninhamento. Numa modelagem multidimensional a tabela de Fatos dos modelos
Estrela e Flocos de Neve seriam idnticos, entretanto as dimenses teriam
apresentaes diferentes. Embora o modelo Flocos de Neve utilize o disfarce de
economia de espao e facilidade de manuteno, ele geralmente compromete a
inteligibilidade do usurio e o desempenho da navegao, e em relao ao tamanho
geral de um Data Warehouse economia de espao pode ser algo insignificante
(KIMBALL, ROSS, 2002).
3.5 DATA MART
O Data Warehouse une o conjunto de dados de toda a organizao, o Data
Mart por sua vez engloba apenas uma parte especfica dos dados, geralmente
focado em assuntos ou departamentos. Na viso de Kimball (2000) o Data Mart
um subconjunto lgico e fsico do Data Warehouse. Em um primeiro momento os
Data Marts eram classificados como um subconjunto altamente agregado de dados,
que normalmente eram selecionados para uma questo especfica do negcio, mas
essa definio no funcionou.
A primeira definio mudou e agora o Data Mart definido como um conjunto
flexvel de dados, frequentemente baseado em dados com alta granularidade e
apresentado em um modelo simtrico (dimensional). Um Data Mart um conjunto
de tabelas de fatos juntamente a um conjunto de tabelas de dimenso conectadas
que atende s necessidades de um grupo particular de negcio. (KIMBALL, MERZ,
2000, p. 148).
Conforme retratado por Turban (et al, 2009), enquanto um Data Warehouse
abrange todos os dados de uma empresa, o Data Mart se concentra em um assunto
especfico. Normalmente menor, o Data Mart um subconjunto de um Data
Warehouse. Ele pode ser dividido em depende ou independente. Um Data Mart
dependente um subconjunto criado diretamente a partir do Data Warehouse. Ele
tem a vantagem de usar um modelo de dados consistente e apresentar dados de
29
qualidade. (TURBAN, et al, 2009, p. 58). A vantagem de sua implementao se

deve a alta consistncia e qualidade dos dados, em contrapartida seu alto custo
limita seu uso em grandes empresas.
O Data Mart independente se torna uma alternativa para reduo de custos.
Ele um Data Warehouse em escala reduzida, projetado para uma unidade
estratgica de negcios ou um departamento, desde que sua fonte no seja um
Data Warehouse empresarial. (TURBAN, et al, 2009)
3.6 METADADOS
Segundo Inmon (1997), os metadados tm uma longa jornada na histria dos
processamentos de informaes. Todavia, por vrios motivos seu destaque muito
maior no Data Warehouse do que nos ambientes operacionais. Os metadados tem a
capacidade de tornar o trabalho do usurio do Data Warehouse muito mais simples
e eficaz, mas precisam estar sempre atualizados e com exatido em suas
informaes. Inmon (1997, p. 163) destaca alguns componentes do metadados:
Estruturas das tabelas do Data Warehouse;
Atributos das tabelas do Data Warehouse;
Fonte de dados do Data Warehouse (o sistema de registro);
Correspondncia entre o sistema de registro e o Data Warehouse;
Especificao do modelo de dados;
Logging de extraes;
Rotinas comuns de acesso a dados.
Um importante aspecto do ambiente de Data Warehouse diz respeito aos
metadados. Metadados so dados sobre dados. Os metadados fazem parte
do meio de processamento de informaes h tanto tempo quanto os
programas e os dados. Contudo, no mundo dos Data Warehouses que os
metadados assumem um novo nvel de importncia. por meio dos
metadados que a utilizao mais produtiva do Data Warehouse alcanada
(INMON, 1997, p. 108).
Outro aspecto muito importante dos metadados descrito por Inmon (1997),
remete-se ao gerenciamento do mapeamento entre o ambiente operacional e o
ambiente de Data Warehouse. Os dados que so carregados no Data Warehouse
passaram por mudanas distintas durante todo o processo de ETL, entre essas
30
transformaes ocorrem: converses, filtragens, resumos e alteraes estruturais. E

no metadados onde ficam armazenadas todas as informaes sobre as
transformaes que ocorreram com os dados. Essas informaes contidas no
metadados tambm possibilita chegar fonte de dados operacional (origem) a partir
do Data Warehouse.
3.7 OLAP
O OLAP - Online Analytical Processing (Processamento Analtico Online)
um conjunto de atividades que oferecem suporte ao apoio deciso utilizando uma
estrutura dimensional dos dados. Atualmente os sistemas de Gerenciamento de
Banco de Dados e Data Warehouse contam com ferramentas OLAP que oferecerem
recursos de modelagem, anlise e visualizao de grandes conjuntos de dados
(TURBAN, et al, 2009). Os principais tipos de OLAP segundo Turban (et al, 2009, p.
110) so:
MOLAP: OLAP Multidimensional, implementado atravs de um banco de
dados multidimensional. A organizao dos dados feita por uma estrutura de
cubos, que permite ao usurio realizar consultas com maior velocidade j que a
consolidao j foi feita.
ROLAP: OLAP Relacional, implementado sobre um banco de dados
relacional j existente. Tendem a ser usado em dados que possui muitos atributos, o
que dificultaria a implementao de uma estrutura de cubos. O ROLAP tambm
permite a criao de vises multidimensionais dinamicamente.
DOLAP: Database OLAP, se refere a um sistema de gerenciamento de
banco de dados relacional (SGBDR) projetado para hospedar estruturas e executar
clculos de OLAP.
WOLAP: Web OLAP, se refere aos dados de OLAP acessveis de um
navegador da Web.
31
Desktop OLAP: executam anlise local multidimensional e apresentao de

dados baixados de bancos de dados relacionais ou multidimensionais para as
mquinas do cliente.
3.8 DATA MINING
A Minerao de Dados (Data Mining) a etapa de maior notoriedade no
processo de Descoberta de Conhecimento em Base de Dados (Knowledge
Discovery in Databases - KDD). Ela utiliza um processo de descoberta de
informaes atravs de uma combinao de mtodos tradicionais de anlise de
dados com algoritmos sofisticados (TAN, STEINBACH, KUMAR, 2009).
Data Mining a explorao e anlise, de forma automtica ou
semiautomtica, de grandes bases de dados com objetivo de descobrir
padres e regras. O objetivo principal do processo de data mining fornecer
as corporaes informaes que a possibilitem montar melhores estratgias
de marketing, vendas e suporte, melhorando assim os seus negcios
(BERRY, LINOFF, 1997, p.7).
A minerao de dados no s pode auxiliar na tomada de deciso como

tambm tem a capacidade de prever possveis situaes ou acontecimentos. Um
bom exemplo disso a utilizao desse sistema no comrcio, a coleta de dados
atualizados dos clientes permite os lojistas utilizar essas informaes para tomar
decises de negcio e compreender melhor a necessidade de cada cliente (TAN,
STEINBACH, KUMAR, 2009).
As tcnicas de minerao de dados tornam possveis traar perfis dos mais
diversos tipos de clientes, podendo dessa forma direcionar vendas, detectar fraudes
e oferecer os melhores servios para aquele determinado cliente. Tambm torna
possvel obter informaes acerca de situaes que podero ocorrer, por exemplo,
uma grande parte de um determinado grupo de cliente que comprou o produto x,
tem grande tendncia de comprar o produto y nos prximos 90 dias. Vale lembrar
que a minerao de dados no est limitada apenas ao uso de tomadas de
decises, seu uso vai muito alm e atinge as mais diversas situaes (TAN,
32
3.8.1 Tarefas de Minerao de Dados

As tarefas na minerao de dados se referem ao tipo ou categoria de padres
que se deseja obter com a descoberta de conhecimento. Elas esto diretamente
ligadas forma de como os dados foram tratados na fase de pr-processamento,
uma vez que determinados algoritmos possuem restries quanto ao tipo de certas
variveis (TAN, STEINBACH, KUMAR, 2009).
A escolha da tarefa est diretamente relacionada com a tcnica de minerao
de dados que ser utilizada, preciso saber em qual tarefa (categoria) o problema
ao qual se tem necessidade de resolver se encaixa, para que possa ser escolhida
uma tcnica ou mtodo que ir permitir descobrir os padres existentes (TAN,
No livro Introduo ao Data Mining, os autores dividem as tarefas da
minerao em duas categorias principais: as Tarefas de Previso e as Tarefas de
Descrio. Os resultados destas tarefas so obtidos atravs das tarefas primrias da
minerao de dados (classificao, regresso, agrupamento, associao e deteco
de anomalias):
Tarefas de Previso: O objetivo dessa tarefa prever o valor de um
determinado atributo baseado nos valores de outros atributos. O atributo a
ser previsto comumente conhecido como a varivel dependente ou alvo,
enquanto que os atributos usados para fazer a previso so conhecidos
como as variveis independentes ou explicativas (TAN, STEINBACH,
KUMAR, 2009, p. 8).
Tarefas Descritivas: Aqui, o objetivo derivar padres (correlaes,
tendncias, grupos, trajetrias e anomalias) que resumam os
relacionamentos subjacentes os dados. As tarefas descritivas da minerao
de dados so muitas vezes exploratrias em sua natureza e frequentemente
requerem tcnicas de ps-processamento para validar e explicar resultados
(TAN, STEINBACH, KUMAR, 2009, p. 8).
3.8.2 Descoberta de Conhecimento em Base de Dados

O KDD (Descoberta de Conhecimento em Base de Dados) um processo
que atravs de uma srie de passos de transformao, possibilita a converso de
dados brutos em informaes teis (TAN, STEINBACH, KUMAR, 2009).
Os processos do KDD vo desde a seleo de dados que podem estar
armazenados em diversas fontes e formatos at a exibio da informao
descoberta. O KDD pode ser definido da seguinte maneira: Processo, no trivial, de
extrao de informaes implcitas, previamente desconhecidas e potencialmente
33
teis, a partir dos dados armazenados em um banco de dados (FAYYAD,

PIATETSKY-SHAPIRO, SMYTH, 1996, p. 41).
Figura 9: Etapas do processo KDD

Fonte: (FAYYAD, PIATETSKY-SHAPIRO, SMYTH, 1996, p. 41)
Na Figura 9 podemos observar de forma superficial todos os processos do

KDD. A seleo de dados brutos que ir representar a Entrada de Dados pode vir de
muitas fontes, distribudas em diferentes locais e formatos (arquivos de texto,
planilhas, tabelas relacionais). O Pr-processamento e Transformao tem o
importante papel de transformar esses dados brutos em um formato apropriado, que
incluem a normalizao dos dados, limpeza e remoo de dados duplicados. Por
sua vez a minerao de dados cria padres que sero filtrados e interpretados, o
qual ir permitir que os analistas visualizem os resultados da minerao de acordo
com suas necessidades.
34
4 O QLIKVIEW
O QlikView uma plataforma de Business Discovery que possui poderosos

recursos. Ele possibilita seus usurios a explorarem e analisarem dados, e a partir
de suas descobertas, resolverem os problemas ligados ao suporte tomada de
deciso. (VISO, 2011).
O QlikView oferece a primeira arquitetura associativa do mundo. O QlikView
gerencia as associaes entre os conjuntos de dados internamente, atravs de seus
prprios recursos, e no nas aplicaes. (A EXPERINCIA..., 2010, p. 5). No
QlikView as tabelas so armazenas e tratadas uma a uma em memria, todos os
dados de todos os campos esto associados a todos os outros dados de qualquer
ponto do esquema. A Figura 10 compara a arquitetura tradicional com a arquitetura
associativa do QlikView (A EXPERINCIA..., 2010).
Figura 10: Arquitetura Associativa do QlikView

Fonte: (A EXPERINCIA..., 2010, p. 5)
As camadas de aplicativos e de dados so coisas distintas nas ferramentas BI

que se baseiam em queries. Os desenvolvedores precisam personalizar a camada
de aplicativo de acordo com a necessidade especfica do negcio. Qualquer
alterao que precisar ser feita ir demandar mais tempo e esforo dos
desenvolvedores, e isso um processo de alto custo. O QlikView no aciona
35
nenhuma query, no momento que o usurio realiza uma seleo, os campos so

filtrados instantaneamente (A EXPERINCIA..., 2010).
Figura 11: Selees no QlikView

Fonte: (A EXPERINCIA..., 2010, p. 7).
Como possvel observar na Figura 11, as selees feitas pelos usurios so

destacadas na cor verde, todos os dados que possuem alguma relao com o que
foi selecionado permanecem na cor branca, enquanto os dados sem relao
adquirem a cor cinza. O QlikView garante que o usurio conhea a relao existente
entre diferentes tipos de dados. Ao limitar as anlises a partir de algum dado
especfico, como por exemplo, a um produto, uma cidade ou um perodo de tempo, o
usurio poder ver o resultado em todas as anlises que foram criadas (A
EXPERINCIA..., 2010).
Com o QlikView, todas as agregaes so recalculadas em tempo real,
independentemente dos campos de origem. (A EXPERINCIA..., 2010, p. 7). Todas
as anlises feitas no QlikView esto sempre prontas para atender a qualquer
necessidade que surgir, sem a necessidade de personalizaes, uma vez que os
dados de todas as tabelas esto sempre associados uns aos outros e prontos para
dar as respostas.
Segundo Oliveira (2014), o QlikView trabalha com duas extenses de
arquivos nativos: O QVD, que um arquivo de dados que foi exportado pela
ferramenta a partir dos dados brutos. Esse arquivo otimizado para agilizar a leitura
e tende a ser dezenas de vezes mais rpido que outras fontes de leituras de dados.
E o QVW, que so os arquivos de design do QlikView, so eles que armazenam os
relatrios, grficos e scripts.
36
5 ANLISE BI SOBRE A INCIDNCIA DE CNCER NO BRASIL
A anlise foi divida em quatro etapas principais, comeando pela obteno

dos dados que sero analisados (Fonte de Dados), passando pelo processo de
Extrao, onde os dados sero carregados para seguirem para o processo de
Transformao, que ir tratar os dados e criar a modelagem multidimensional,
terminando essas etapas iniciasse o processo de Carga, aqui os dados prontos
sero usados para a realizao das anlises. Todos esses processos podem ser
vistos em detalhes nas prximas linhas.
5.1 FONTE DE DADOS
Para realizar as anlises foi utilizada uma seleo de dados disponibilizados
pelo INCA, na pgina do seu Integrador RHC, que aplicao web de tabulao de
dados. Esses dados so de acesso pblico e esto disponveis para qualquer
pessoa que acessar a pgina.
Atualmente possvel obter registros hospitalares de pacientes de todos os
estados brasileiros, que foram acometidos pelo cncer, em um perodo de tempo
que vai do ano de 1985 at o ano de 2014. Os arquivos de dados esto organizados
pelo ano, logo faz parte do acervo 29 arquivos, referente a cada um dos anos
disponibilizados.
importante ressaltar que os arquivos mais antigos possuem poucos dados e
maiores inconsistncias. Por sua vez o arquivo referente ao ano de 2014 contm
dados pertencentes apenas ao estado do Rio Grande do Sul. Para realizar as
anlises BI foram utilizados 14 arquivos de dados que vo do ano 2000 at o ano de
2013. Esses dados esto armazenados em uma nica tabela, sem normalizao, e
possuem exatamente 2.089.657 registros de diferentes pacientes, cada registro com
45 colunas contendo informaes detalhadas de cada paciente, todos os atributos
so do tipo varchar (20), a Figura 12 exibe uma parte da consulta feita nesses dados
da forma em que so disponibilizados.
37
Figura 12: Parte de consulta dos dados brutos

Fonte: Prprio Autor
Originalmente os arquivos de dados esto disponveis no formato DBF, como

o Qlikview no reconhece esse tipo de arquivo foi necessrio realizar uma
converso para outro formato, no caso foi escolhido o formato XML. Para fazer a
converso foi utilizada a ferramenta Tabwin, criada pelo DATASUS para elaborar
tabulaes em seus arquivos de dados.
Uma vez que os registros possuem apenas chaves (estrangeiras) e o arquivo
de dados no dispunha das tabelas estrangeiras que seriam referenciadas por essas
chaves, foi necessrio a criao de forma quase manual de todas as tabelas que
iro dar sentido aos dados presentes nos campos.
Figura 13: Tabela XML da localizao detalhada

Fonte: Prprio Autor
Para a criao dessas tabelas foi necessrio pegar informaes em arquivos

especficos do Tabwin, os arquivos de definio (.def) e os arquivos de converso
38
(.cnv). Criado como uma espcie de legenda, esses arquivos foram indispensveis
para o entendimento dos dados armazenados. A Figura 13 mostra a criao da
tabela que contm a descrio do CID (Classificao Internacional de Doena) que
ir referenciar o campo loctudet (que aparece na Figura 12). Para cada campo que
possua uma chave ou cdigo foi feita a criao de uma nova tabela com suas
descries.
5.2 EXTRAO
A Extrao uma das etapas mais simples de todo o processo que foi
realizado, visto que consiste apenas em transportar todos os arquivos de dados
fonte para o arquivo QVD que ser gerado pelo Qlikview. Nesse processo os dados
so mantidos inalterados, ou seja, foram extrados mantendo sua forma exatamente
igual a da sua origem.
A Figura 14 ilustra o script de extrao dos dados brutos. Todas as tabelas
com as descries das chaves e cdigos foram criada em arquivos individuais, ento
foi necessrio realizar o mesmo processo para cada uma delas.
Figura 14: Extrao Qlikview

Fonte: Prprio Autor
A declarao do comando LOAD responsvel pela carga dos campos do

arquivo de dados que definido no comando FROM, note que o asterisco (rhc*.xml)
simboliza que ser referenciado todos os arquivos com prefixo rhc, dessa forma
criado um nico arquivo para todos os arquivos de dados nominados de rhc. J o
comando STORE ir criar o arquivo QVD e armazen-lo no caminho definido pelo
39
comando INTO. Em um primeiro momento os dados so armazenados em memria,

aps serem gerados os arquivos QVDs no h mais necessidades de us-los, ento
o comando DROP TABLE utilizado para descartar as tabelas da memria.
5.3 TRANSFORMAO
A Transformao ir trabalhar com os arquivos QVD gerados no processo de
extrao e ao final do processo ir gerar um novo arquivo QVD para os dados j
transformados. Essa a etapa de maior importncia para o sucesso das anlises,
uma vez que os tipos de anlises possveis estaro limitados diretamente a forma
como os dados foram transformados.
justamente na transformao que ser
criado o modelo multidimensional, a tabela de fatos e as tabelas de dimenses.

Como pode ser visto na Figura 15, foi criado um modelo estrela composto por seis
elementos:
DimPaciente;
DimDoena;
DimTratamento;
DimTempoConsulta;
DimTempoDiagnostico;
Fato.
Tambm na Figura 15 possvel notar que houve uma mudana em relao
aos campos que foram carregados no processo de extrao (Figura 14), como a
maioria dos campos no representava real interesse das anlises que sero
realizadas, no foram carregados em nenhuma das dimenses. Entretanto outros
campos foram criados a fim de oferecer mais preciso nas anlises.
40
Figura 15: Diagrama Multidimensional Estrela

Fonte: Prprio Autor
O processo de transformao para as dimenses de paciente, doena e

tratamento comea com a criao de uma tabela temporria, nela ser carregado
todos os campos, condicionais e junes. Logo aps as junes a tabela definitiva
declarada e os campos que passaram por tratamento so carregados. Para carregar
os dados da tabela temporria foi utilizado o comando RESIDENT, que tem a funo
de carregar dados de uma tabela carregada anteriormente na utilizao do comando
LOAD (Ver Figura 16).
Para as dimenses de tempo e para a tabela de fatos no foi preciso a
criao da tabela temporria. Entretanto assim como ocorreu na extrao, todas as
dimenses e fato compartilham os comandos que carregam os campos (LOAD), que
referenciam o arquivo de dados (FROM), que armazenam o novo arquivo QVD
(STORE) e o comando que descartam a tabela da memria (DROP TABLE), dessa
forma gerando o arquivo QVD no final do processo de transformao.
Um dos campos que merece destaque est presente em todas as dimenses
e tem a funo de ligar as dimenses tabela de fatos: o campo identificador (ID).
Para criar o campo ID foi utilizada a funo de script autonumberhash128, essa
funo calcula um hash de 128bits a partir dos valores de entrada (campos) e
retorna um valor inteiro distinto para cada valor de hash nico, ou seja, ele associa
chaves aos conjuntos de valores distintos.
41
Outra caracterstica comum entre as dimenses concerne a unio das tabelas

pela chave estrangeira. Como j foi descrito anteriormente, o arquivo de dados fonte
continha apenas chaves e para que pudessem ter sentido foi necessrio a criao
das tabelas que possuem as descries para cada chave. Para realizar essa ligao
foi utilizado o comando LEFT JOIN. A Figura 16 mostra o script da dimenso
DimTratamento, onde pode ser visto os procedimentos citados acima.
Figura 16: Script Dimenso DimTratamento

Fonte: Prprio Autor
A dimenso DimPaciente foi criada a partir da unio dos campos

relacionados com as caractersticas pessoais dos pacientes. Essa dimenso
composta pelo ID mais 13 outros campos. Trs deles merecem destaque especial
nesta dimenso, por terem sidos criados a parte do arquivo de dados original. Para
criar esses campos novos foram usados os campos IDADE e LOCALNAS que se
referem consecutivamente a idade e ao local de nascimento (Estado brasileiro) de
cada paciente. A principal caracterstica dos novos campos foi agrupar a idade dos
pacientes por faixa etria em dois grupos (a cada cinco e a cada 10 anos) e agrupar
o local de nascimento por regies. Para a criao dos grupos foi utilizada a funo
condicional IF. A Figura 17 mostra como exemplo o script da criao do campo faixa
etria (a cada cinco anos) utilizando a funo IF.
42
Figura 17: Funo IF na dimenso de pacientes

Fonte: Prprio Autor
A dimenso DimDoena foi definida pelos campos que caracterizam a

doena. Essa dimenso fornece dados como a localizao primria e a localizao
detalhada afetada, os tipos histolgicos e a presena de tumores mltiplos.
A dimenso DimTratamento segue o mesmo modelo da DimDoena, mas
suas caractersticas so voltadas a informaes sobre o estado de tratamento dos
pacientes. Essa dimenso contm dados como o estado brasileiro em que o
paciente recebeu tratamento, a condio do paciente ao termino do tratamento e
caso ocorra, a razo pelo o qual o tratamento no foi realizado.
Figura 18: Script DimTempoConsulta

Fonte: Prprio Autor
No que diz respeito a dimenso de tempo foram criadas duas dimenses

distintas, entretanto muito semelhantes: a dimenso DimTempoConsulta e a
DimTempoDiagnostico. A nica caracterstica que diferente essas dimenses que
uma est relacionada ao tempo da primeira consulta dos pacientes, enquanto a
43
outra se refere ao tempo em que os pacientes receberam o primeiro diagnstico. Os

campos de tempo precisaram receber correes em seus atributos para evitar
inconsistncia, alguns atributos possuam espaos vazios entre o dia, ms ou ano.
Para realizar a correo foi utilizada a funo REPLACE, que retorna uma string
depois de remover todas as ocorrncias dentro da string de entrada. A partir da
string retornada foi alterado o formado para DATE, YEAR, MONTH e DAY. Tambm
foram criados perodos trimestrais e semestrais. A Figura 18 mostra o script da
dimenso DimTempoConsulta, onde possvel observar as funes descritas acima.
Figura 19: Script Tabela de Fatos

Fonte: Prprio Autor
A tabela de fatos foi criada com base nos identificadores (ID) das dimenses.
Portanto possvel notar que na Figura 19 existe um campo chamado de
QUANTIDADE, que recebe 1 como valor numrico. Esse campo tem a caracterstica
de facilitar clculos no momento da realizao das anlises.
5.4 CARGA
A Carga a etapa final do processo ETL. Nesse ponto os dados j foram
tratados e o modelo multidimensional j foi estruturado. Os arquivos QVDs que
foram criados no processo de transformao sero ento carregados para que as
anlises possam finalmente ser criadas.
44
5.4.1 Anlises
As anlises foram apresentadas a partir de quatro painis, que foram
construdos e organizados de forma harmnica. A fcil visualizao das anlises foi
uma questo de grande relevncia na organizao da estrutura. Para isso os quatro
painis
foram
divididos
por
categorias:
Introduo,
Pacientes,
Cenrio
Classificao.
A Introduo remete-se ao primeiro painel em ordem sequencial, trata-se, no
entanto apenas de uma tela de boas-vindas. Como mostra a Figura 20, foram
inseridos neste painel o ttulo, texto introdutrio, imagens e um boto Iniciar.
Figura 20: Painel Introduo

Fonte: Prprio Autor
O segundo painel expe os aspectos dos Pacientes, exibindo o percentual

dos valores calculados, conforme mostra a Figura 21. Uma das caractersticas desse
painel apresentar apenas grficos de pizza, ele composto por sete grficos:
Regio de Origem, Sexo, Ocupao, Etnia, Faixa Etria, Grau de Instruo e Estado
Civil.
45
Figura 21: Painel Pacientes

Fonte Prprio Autor
Os sete grficos possuem caractersticas em comum em relao a suas

expresses. Embora cada um seja constitudo a partir de campos distintos, suas
expresses baseiam-se no clculo da porcentagem de cada atributo em relao
quantidade total de ocorrncias. A expresso utilizada no grfico que exibe a
porcentagem de incidncia por sexo pode ser visto na Figura 22, ela representa a
sintaxe utilizada em todos os grficos deste painel.
Figura 22: Exemplo de expresso do grfico de pizza

Fonte: Prprio Autor
O Cenrio o terceiro painel criado, ele retrata as ocorrncias mais

frequentes da doena no Brasil, as condies dos pacientes ao trmino do
46
tratamento, os principais motivos para que a doena no seja tratada, o percentual

de pacientes tratados por Estados e a incidncia da doena por faixa etria. As
anlises desse painel possuem filtros diferenciados em relao aos demais painis,
os filtros propostos aqui permitem que as anlises sejam feitas a partir de opes
selecionadas, que podem ser por: ano, regio ou estado brasileiro. Ver Figura 23.
Figura 23: Painel Cenrio

Fonte Prprio Autor
Tumores mais frequentes: um grfico de barras que assim como o ttulo

evidencia, mostra o percentual de incidncia dos tipos de tumores mais comuns.
Nessa anlise foram desconsiderados todos os casos de cncer de pele, tendo em
vista ser o tipo mais comum, entretanto o menos agressivo (no melanoma). A
Figura 24 estampa o grfico e logo abaixo dele, na mesma figura, pode ser visto a
expresso que realiza o clculo dos valores expresso no grfico. O Comando de
funo SUM calcula a quantidade de ocorrncias de cada atributo do campo
LOCPRIMARIA_, exceto os que possuem os valores: Pele e Localizao Primria
Desconhecida.
47
Figura 24: Grfico de barras Tumores mais frequentes

Fonte: Prprio Autor
Estado final do tratamento: um grfico de linha que mostra a condio

em que o se encontra paciente ao fim do tratamento, na Figura 25 possvel ver o
grfico detalhadamente, inclusive a expresso que foi utilizada na sua criao.
Figura 25: Grfico de linha Estado final do tratamento

Fonte: Prprio Autor
Razo para no tratar: um grfico de pizza que destaca os motivos pelo

qual os pacientes no receberam o tratamento para cncer. Para essa anlise
alguns valores do campo RZNTR_ foram desconsiderados, uma vez que no se
tinha interesse da participao desses valores na anlise. possvel observar na
Figura 26 a expresso e o grfico criado com mais detalhes.
48
Figura 26: Grfico de pizza Razo para no tratar

Fonte: Prprio Autor
Percentual de tratamento de pacientes por Estados: um grfico de

linhas que exibe o percentual de pacientes que receberam tratamentos em cada um
dos estados brasileiros. Ver detalhes na Figura 27.
Figura 27: Grfico de linhas Percentual de tratamento de por Estados

Fonte: Prprio Autor
Pacientes por faixa etria: um grfico de barras que forma uma pirmide
etria, onde o lado esquerdo representa o gnero feminino e o lado direito o gnero
masculino, enquanto as barras representam os valores referentes incidncia por
faixa etria (grupos de 10 anos) para cada um dos gneros. Nesse grfico foi
necessrio criar duas expresses muito parecidas, uma para o masculino e uma
para o feminino. A multiplicao por -1 da expresso feminino que pode ser vista na
Figura 28, faz com que as barras tomem posio contrria ao masculino, resultando
assim no formato de pirmide.
49
Figura 28: Grfico de barras Pirmide Etria

Fonte: Prprio Autor
A Classificao o ltimo painel, nele apresentada a incidncia do cncer

por localizao detalhada e por tipo histolgico, de acordo com a seleo (filtros)
feita pelo usurio. Esse painel tambm apresenta caractersticas dos pacientes em
um grupo de seis grficos de pizza. Ver Figura 29.
Figura 29: Painel Classificao

Fonte: Prprio Autor
Localizao Primria: uma lista de seleo que contm todas as

descries das localizaes primrias que podem ser acometidas pelo cncer. Os
50
grficos desse painel iro apresentar os resultados a partir das selees feitas nesta
lista de seleo. A Figura 30 mostra a lista com uma seleo feita no atributo Mama.
Figura 30: Lista de seleo Localizao Primria

Fonte: Prprio Autor
Localizao Detalhada: um grfico de barras que expe a incidncia da

doena pela localizao detalhada. Como exemplo, a Figura 31 exibe as incidncias
do cncer de Mama, onde possvel observar que a localizao com maior
ocorrncia a Mama, SOE.
Figura 31: Grfico de barras Localizao Detalhada

Fonte: Prprio Autor
Tipos Histolgicos: um grfico de barras que exibe os tipos histolgicos mais

incidentes do cncer de acordo com a localizao primria selecionada. Na figura 32
aparecem os tipos histolgicos mais comuns no cncer de mama.
51
Figura 32: Grfico de barras Tipos Histolgicos

Fonte: Prprio Autor
Caracterstica dos Pacientes: um conjunto de seis grficos de pizza que

representam as caractersticas dos pacientes por percentual. Essas anlises esto
vinculadas com as selees feitas na lista de seleo da localizao primria. Os
resultados visveis na Figura 33 so referentes ao cncer de mama.
Figura 33: Grficos de pizza com Caractersticas dos pacientes

Fonte: Prprio Autor
Embora o Painel Classificao tenha algumas anlises idnticas aos outros

painis, ele difere na possibilidade de aplicar filtros nessas anlises, permitindo
dessa forma que o usurio obtenha resultados personalizados atravs das selees
realizadas.
52
6 CONCLUSO
notvel o temor que rodeia o cncer desde tempos primrdios. As

estimativas evidenciam o crescente nmero de casos da doena em todo mundo,
principalmente nos pases em desenvolvimento. Entender a doena e suas causas
de fundamental importncia para que possa ser aplicadas aes de controle e
preveno. A utilizao das tcnicas de Business Intelligence para a criao das
anlises sobre a incidncia do cncer, foi gerada a partir dos dados brutos de
registros hospitalares de pacientes acometidos pela doena, tornando possvel o
conhecimento acerca do cenrio de ocorrncias do cncer no Brasil de forma
simples, interativa e compreensvel para usurios de todos os nveis.
Com os grficos desenvolvidos os usurios da ferramenta conseguem
visualizar informaes personalizadas instantaneamente, possvel obter nmeros
de incidncia de um tipo de cncer especfico de forma rpida e precisa, condio
essa que no podia ser alcanada com os dados brutos. Entretanto a fonte de dados
brutos representa apenas registros de uma parcela de unidades hospitalares,
podendo gerar resultados tendenciosos em algumas anlises distintas. De forma
geral as anlises realizadas tendem a fornecerem resultados muito prximos com as
estimativas divulgadas pelo INCA, entretanto com a possibilidade de visualizaes
especficas e dinmicas.
Como perspectiva futura planeja-se aprimorar as anlises para evitar qualquer
eventual tendncia nos resultados, alm dar maior nfase s necessidades
especficas da rea. Para realizar isso existe a possibilidade de integrao de fontes
de dados brutos de outras instituies governamentais, que assim como INCA,
disponibiliza livremente esses dados (dados abertos), por exemplo, o Ministerio da
Sade (MS) e o Instituto Brasileiro de Geografia e Estatsticas (IBGE) que abrangem
dados sobre: a incidncia de cncer, atendimentos ambulatoriais, internaes
hospitalares e mortalidade.
53
REFERNCIAS
A EXPERINCIA Associativa: Notvel vantagem do QlikView. Documento sobre a

Tecnologia do QlikView. So Paulo, 2010. Disponvel em: <http://imaps.com.br/wpcontent/uploads/2014/03/QlikView-10-Whitepaper-Associative-Experience-A4-PDFPortuguese.pdf>. Acesso em: 22 mai. 2016.
BARRETO, Eliana Maria Teixeira. Acontecimentos que fizeram a histria da
oncologia no Brasil: Instituto Nacional de Cncer (INCA). Rio de Janeiro: Revista
Brasileira de Cancerologia, 2005; 51(3).
BERRY, Michael J. A.; LINOFF, Gordon. Data Mining Techniques: For Marketing,
Sales, and Customer Support. New York: Wiley Computer Publishing, 1997.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data
Mining to Knowledge Discovery in Databases. American Association for Artificial
Intelligence, 1996.
HAJDU, Steven I. 2000 Years of Chemotherapy of Tumors. Cancer, v.103,
California: Wiley InterScience, 2005.
INCA - Instituto Nacional de Cncer. Estimativa 2016 Incidncia de Cncer no
Brasil. Rio de Janeiro: Coordenao de Preveno e Vigilncia, 2015.
INCA - Instituto Nacional de Cncer. ABC do cncer: abordagens bsicas para o
controle do cncer. Rio de Janeiro: INCA, 2011.
INMON, William H.; traduo de Ana Maria Neto Guz. Como construir o data
warehouse. Rio de Janeiro: Campus, 1997.
KIMBALL,
Ralph;
MERZ,
Richard;
traduo
Edson
Furmankiewicz,
Joana
Figueiredo. Data Webhouse: construindo o Data Warehouse para a WEB. Rio de

Janeiro: Campus, 2000.
54
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit : the complete guide
to dimensional modeling. - 2nd Ed. New York: Wiley Computer Publishing, 2002.
LOH, Stanley. BI na Era do Big Data para Cientistas de Dados - indo alm de
cubos e dashboards na busca pelos porqus, explicaes e padres. Porto
Alegre, 2014.
MACHADO, Felipe Nery Rodrigues. Tecnologia e Projeto de Data Warehouse:
Uma viso multidimensional. 3 ed. So Paulo: rica, 2007.
MOHALLEM,
Andra
Gomes
da
Costa;
RODRIGUES,
Andrea
Bezerra.
Enfermagem oncolgica. Barueri, SP: Manole, 2007.

MORAIS, Marco Tulio Braga de. MARCO CIVIL DA INTERNET NO BRASIL: das
origens dos Direitos Fundamentais aos propsitos do Direito de Acesso
Informao. Revista Democracia Digital e Governo Eletrnico, n 9, p. 138-157.
Curitiba: 2013.
OLIVEIRA, Roberto. O que QVW e QVD. 24 mai 2014. Disponvel em:
<http://robertooliveira.com.br/curso-qlikview-o-que-e-qvw-e-qvd/>. Acesso em: 22
mai. 2016.
RAMAKRISHNAN, Raghu; GEHRKE, Johannes. Sistemas de Gerenciamento de
Banco de Dados. So Paulo: McGraw-Hill, 2008.
TAN, Pang-Nin; SETEINBACH, Michael; KUMAR, Vipin. Introduo ao DATA
MINING. Rio de Janeiro: Cincia Moderna LTDA., 2009.
TEIXEIRA, Luiz Antonio; FONSECA, Cristina M. O. De Doena desconhecida a
problema de sade pblica: o INCA e o controle do Cncer no Brasil. Rio de
Janeiro: Ministrio da Sade, 2007.
55
TURBAN, Efrain ...[et al]; traduo Fabiano Bruno Gonalves.
Business
Intelligence: Um enfoque gerencial para a inteligncia de negcio. Porto Alegre:

Bookman, 2009.
VISO geral da arquitetura do QlikView. Documento sobre a Tecnologia do
QlikView.
So
Paulo,
2011.
Disponvel
em:
<http://www.nordicasoft.com.br/dv_files/arquivos/20130115170003_dbarquivos.pdf>.
Acesso em: 02 mai. 2016.

Projeto

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projeto

Transféré par

Droits d'auteur :

Formats disponibles

INSTITUTO DE EDUCAO SUPERIOR DA PARABA

RAMON RIBEIRO BARBOSA

BUSINESS INTELLIGENCE: Anlise da Incidncia do Cncer no Brasil com

RAMON RIBEIRO BARBOSA

BUSINESS INTELLIGENCE: Anlise da Incidncia do Cncer no Brasil com

Trabalho de Concluso de Curso

RAMON RIBEIRO BARBOSA

BUSINESS INTELLIGENCE: Anlise da Incidncia do Cncer no Brasil com

Trabalho de Concluso de Curso,

Joo Pessoa, _____ de ____________ de 2016.

Aos meus pais, em especial a minha me por todo o esforo e sacrifcio. Ao

FIGURA 1: Os dez tipos de cncer mais incidentes estimados para 2016...............13

A Lei de Acesso Informao (Lei n 12.527/11) que entrou em vigor no dia

Tendo em vista a assombrosa taxa de incidncia e o nmero crescente de

informaes, depois em decises e finalmente em aes (TURBAN, et al,

A utilizao dos mtodos do BI pode ir alm do que foi citado anteriormente. A

computacionais mais comuns para esse tipo de aplicao.

1.1 OBJETIVO GERAL

1.2 OBJETIVOS ESPECFICOS

O cncer uma doena conhecida desde tempos remotos. Civilizaes

O cncer atualmente engloba um conjunto de mais de 100 doenas que tem

Figura 1: Os dez tipos de cncer mais incidentes estimados para 2016

Desconsiderando o cncer de pele no melanoma, os quatros tipos com

Cncer de clon e reto: ocupa no Brasil o segundo lugar entre as mulheres,

Um dos grandes responsveis pelo aumento no nmero de casos de todos os

recursos de anlise. J nos anos 1980, surgiu o conceito de Sistemas de

Figura 2: Etapas do Processo de Business Intelligence

A Figura 2 mostra as diferentes etapas dos processos que envolvem o BI,

necessrio o uso de diferentes fontes de dados para formar um nico Data

Os dados no representam informaes teis que possam ser entendidas a

3.1.1 Dados, informao e Conhecimento

Figura 3: Pirmide dos Dados

A Figura 3 representa esse conceito hierrquico (pirmide). A base da

3.2 EXTRAO, TRANSFORMAO E CARGA (ETL)

Turban et al (2009), descreve que o processo de ETL tem como principal

Figura 4: Etapas do ETL

A Figura 4 mostra as etapas do processo de ETL. O processo comea com a

deciso). Portanto, um Data Warehouse uma coleo de dados

Das caractersticas do Data Warehouse, quatro delas so mais marcantes,

Observe a Figura 5, ela mostra a integrao de dados. Note que pouco

Figura 5: Integrao de Dados

A condio de o Data Warehouse ser no-voltil o terceiro importante

dados sofrem alteraes, so atualizados ou excludos. Isso no acontece no Data

A caracterstica seguinte se refere ao fato do Data Warehouse ser varivel

de granularidade, o nmero de questes a que os dados podem satisfazer

Ainda segundo Machado (2007) um modelo multidimensional possui pelo

meio de valores numricos. Esse conjunto de valores numricos denominado de

As Dimenses so tabelas que possuem atributos que descrevem os dados

Figura 7: Representao do Modelo Estrela

O modelo Flocos de Neve ou Snowflake similar ao modelo estrela,

Figura 8: Representao do Modelo Snowflake

A Figura 8 mostra o diagrama de uma estrutura em Flocos de Neve,

qualidade. (TURBAN, et al, 2009, p. 58). A vantagem de sua implementao se

transformaes ocorrem: converses, filtragens, resumos e alteraes estruturais. E

Desktop OLAP: executam anlise local multidimensional e apresentao de

A minerao de dados no s pode auxiliar na tomada de deciso como

3.8.1 Tarefas de Minerao de Dados

3.8.2 Descoberta de Conhecimento em Base de Dados

teis, a partir dos dados armazenados em um banco de dados (FAYYAD,

Figura 9: Etapas do processo KDD

Na Figura 9 podemos observar de forma superficial todos os processos do

O QlikView uma plataforma de Business Discovery que possui poderosos

Figura 10: Arquitetura Associativa do QlikView

As camadas de aplicativos e de dados so coisas distintas nas ferramentas BI

Joo Pessoa, _ de ________ de 2016.