Académique Documents
Professionnel Documents
Culture Documents
SISTEMAS DE INFORMAO
Joo Pessoa
2016
Joo Pessoa
2016
BANCA EXAMINADORA
________________________________________________
Prof. Ms. Fbio Niccio de Medeiros
Orientador
________________________________________________
Examinador
________________________________________________
Examinador
AGRADECIMENTOS
RESUMO
O avano da tecnologia nos ltimos anos tem gerado uma quantidade exaustiva de
dados e informaes a todo o momento. Seguindo a tendncia de dados abertos,
muitas organizaes esto disponibilizando, para qualquer pessoa, o acesso aos
dados que elas produzem. Entretanto, a forma como os dados esto sendo
disponibilizados so de difcil compreenso para as pessoas, tornando-se invivel
sua utilizao. Uma fonte de dados muito importante e de acesso pblico pode ser
obtida atravs do INCA (Instituto Nacional do Cncer). Essa fonte de dados se refere
a registros hospitalares de pacientes acometidos ao cncer, uma grave doena que
tem gerado progressivos aumentos no nmero de ocorrncias. Contudo as
informaes contidas nessa fonte de dados no esto explcitas, sendo necessrio o
uso de ferramentas de anlises de dados para que se possa extrair algum
conhecimento. O BI (Business Intelligence) oferece tcnicas e mtodos que
permitem a extrao e transformao de conhecimento a partir de grandes bases de
dados. A proposta deste trabalho evidenciar os nmeros da incidncia do cncer
atravs das anlises criadas a partir das tcnicas de BI. A metodologia adotada no
trabalho fez uso de referncias bibliografias, publicaes e ferramentas que
auxiliaram na aplicao das tcnicas e seus mtodos, possibilitando com o uso da
ferramenta QlikView a realizao do processo de ETL (Extrao, Transformao e
Carga) e tambm a criao das anlises sobre a incidncia do cncer no Brasil.
Portanto, permitindo a visualizao de forma rpida, precisa e dinmica das
informaes acerca da incidncia da doena que estavam implcitas nos dados
brutos, a partir de diferentes formas de anlises.
Palavras-Chaves: Business Intelligence. QlikView. Incidncia do Cncer.
ABSTRACT
The technological advances that occurred in the last years have been generating an
exhausting quantity of data and information all the time. A great number of
organizations, by following the trend of open data, are providing access to its
statistics to anyone who may be interested. On the other hand, they are available in a
very difficult way to understand for the people in general, making it impracticable to
use. A very important and of public use data source may be obtained through INCA
(National Institute of Cancer) of Brazil that provides hospital records of patients with
cancer, a severe disease that has been having a progressive increase in its
occurrence number. Notwithstanding, the information available in this data source is
not explicit, which means that it is necessary the use of data analysis tools to extract
any knowledge. Business Intelligence (BI), therefore, offers technics and methods
that permit the extraction and transformation of knowledge from these great data
sources. Thus, the main object of this paper is to point out the incidence of cancer
through the analysis obtained by the technics of BI. The methodology chosen allowed
us to make use of bibliographic reference, publications and tools that supported the
application of the technics and its methods, by making possible, with the use of
QlikView, the realization of the process of ETL (Extraction, Transformation and Load)
and also the creation of analysis of cancer incidence in Brazil. Consequently, it
permitted a quick, precise and dynamic preview regarding the information of the
incidence of such a disease, information that was implicit in the raw data from the
different forms of analysis.
Keywords: Business Intelligence. QlikView. Cancer Incidence.
LISTA DE FIGURAS
LISTA DE SIGLAS
BI Business Intelligence
CID Classificao Internacional de Doena
DOLAP Database OLAP
EIS Sistemas de Informaes Executivas
ER Entidade-Relao
ETL Extract, Transform and Load
GM General Motors
IBGE Instituto Brasileiro de Geografia e Estatsticas
IBM International Business Machines
ID Identificador
INCA Instituto Nacional de Cncer Jos Alencar Gomes da Silva
KDD Knowledge Discovery in Databases
MOLAP OLAP Multidimensional
MS Ministrio da Sade
OLAP Online Analytical Processing
OLTP Online Transaction Processing
RHC Registro Nacional de Cncer
ROLAP OLAP Relacional
SOE Sem Outra Especificao
SGBD Sistema de Gerenciamento de Banco de Dados
SIG Sistemas de Gerao de Relatrios
WOLAP Web OLAP
SUMRIO
1 INTRODUO...........................................................................................................9
1.1 OBJETIVO GERAL............................................................................................11
1.2 OBJETIVOS ESPECFICOS..............................................................................11
2 O CNCER NO BRASIL.........................................................................................12
3 BUSINESS INTELLIGENCE...................................................................................15
3.1 DADOS..............................................................................................................17
3.1.1 Dados, informao e Conhecimento...........................................................19
3.2 EXTRAO, TRANSFORMAO E CARGA (ETL).........................................20
3.3 DATA WAREHOUSE..........................................................................................21
3.3.1 Granularidade..............................................................................................24
3.4 MODELO MULTIDIMENSIONAL.......................................................................25
3.4.1 Modelos Estrela e Flocos de Neve..............................................................26
3.5 DATA MART.......................................................................................................28
3.6 METADADOS.....................................................................................................29
3.7 OLAP..................................................................................................................30
3.8 DATA MINING....................................................................................................31
3.8.1 Tarefas de Minerao de Dados.................................................................32
3.8.2 Descoberta de Conhecimento em Base de Dados.....................................32
4 O QLIKVIEW............................................................................................................34
5 ANLISE BI SOBRE A INCIDNCIA DE CNCER NO BRASIL..........................36
5.1 FONTE DE DADOS...........................................................................................36
5.2 EXTRAO.......................................................................................................38
5.3 TRANSFORMAO..........................................................................................39
5.4 CARGA..............................................................................................................43
5.4.1 Anlises.......................................................................................................44
6 CONCLUSO..........................................................................................................52
REFERNCIAS...........................................................................................................53
1 INTRODUO
10
fornecido pelo Instituto Nacional de Cncer Jos Alencar Gomes da Silva (INCA),
rgo singular do Ministrio da Sade (MS) responsvel por aes de preveno e
controle do Cncer no Brasil. Embora o Integrador RHC disponibilize dados abertos,
ele no representa diretamente as leis de transparncia pblica, porm no
podemos desprezar a importncia e impacto que leis desse tipo tm sobre diversos
outros servios e setores.
O Cncer uma doena em evidncia em qualquer parte do mundo, no Brasil
no diferente, ocupa o segundo lugar no ndice de mortalidade. A estimativa de
que at 2029 a doena seja a principal causa de morte no pas, superando as
doenas do sistema circulatrio o qual ainda ocupa o primeiro lugar.
A estimativa para o Brasil, binio 2016-2017, aponta a ocorrncia de cerca
de 600 mil casos novos de cncer. Excetuando-se o cncer de pele no
melanoma (aproximadamente 180 mil casos novos), ocorrero cerca de 420
mil casos novos de cncer. O perfil epidemiolgico observado assemelha-se
ao da Amrica Latina e do Caribe, onde os cnceres de prstata (61 mil) em
homens e mama (58 mil) em mulheres sero os mais frequentes (INCA,
2015, p. 26).
11
nesta
rea
de
conhecimento,
publicaes
as
ferramentas
12
2 O CNCER NO BRASIL
13
segundo lugar como principal causa de morte por doena. evidente o crescimento
no nmero de novos casos da doena nas ltimas dcadas, tendo a urbanizao e
industrializao como um dos principais fatores associados ao aumento na
quantidade de casos (MOHALLEM, RODRIGUES, 2007).
Segundo o INCA (2015) a estimativa para o Brasil no binio 2016-2017 indica
que ocorrer cerca de 600 mil novos casos. Excetuando o cncer de pele no
melanoma, estima-se que os tipos mais frequentes em homens sero: prstata
(28,6%), pulmo (8,1%), intestino (7,8%), estmago (6,0%) e cavidade oral (5,2%).
Enquanto nas mulheres os cnceres mais comuns sero: mama (28,1%), intestino
(8,6%), colo do tero (7,9%), pulmo (5,3%) e estmago (3,7%). Ver Figura 1.
14
Cncer da mama: ocupa o primeiro lugar entre os tipos com maior incidncia
e maior mortalidade de mulheres em todo o mundo, para o Brasil em 2016 estima-se
57.960 novos casos.
Envelhecimento, fatores relacionados vida reprodutiva da mulher, histria
familiar de cncer de mama, alta densidade do tecido mamrio (razo entre
o tecido glandular e o tecido adiposo da mama) so os mais bem
conhecidos fatores de risco para o desenvolvimento do cncer de mama.
Alm desses, consumo de lcool, excesso de peso, sedentarismo e
exposio radiao ionizante tambm so considerados agentes
potenciais para o desenvolvimento desse cncer (INCA, 2015, p. 33).
15
3 BUSINESS INTELLIGENCE
Para Loh (2014), um dos melhores exemplos para explicar o que BI, o
caso da GM (General Motors) e o sorvete de baunilha. Segundo a lenda, um cliente
que havia comprado um carro, enviou uma carta reclamando de um eventual
problema: quando ele ia a uma sorveteria e comprava um sorvete de baunilha ao
voltar para o carro ele tinha dificuldades para dar partida, porm este problema no
acontecia se ele comprasse outro sabor de sorvete.
Na GM ningum conseguia imaginar qual ligao um sorvete de baunilha
poderia ter com o problema. Um engenheiro resolveu investigar o caso e procurou o
cliente. Eles foram juntos sorveteria testar a teoria, compraram um sorvete de
baunilha e ao voltarem para o carro realmente tiveram dificuldades ao dar partida.
Numa segunda tentativa refizeram o teste comprando um sorvete de sabor diferente,
e para a surpresa do engenheiro o carro funcionou perfeitamente.
claro que o engenheiro sabia que o sabor do sorvete no seria o causador
do problema, mas que havia uma relao do problema associada ao sabor
escolhido. Ento ele percebeu que para comprar o sorvete de baunilha levava
menos tempo que os demais sabores, uma vez que o sorvete de baunilha ficava na
entrada da loja, enquanto outros sabores no fundo. Ele tambm notou que havia
uma pea no carro que precisava resfriar para que pudesse funcionar. Dessa forma
o engenheiro conseguiu fazer uma associao ao tempo que era gasto para comprar
o sorvete com o tempo que era necessrio para que a pea pudesse ser resfriada,
desvendando desta forma, o mistrio.
Essa analogia mostra como funciona um processo de um sistema BI, mesmo
que tenha sido feita manualmente, sem o auxilio computacional. A anlise das
informaes disponveis junto com o conhecimento do engenheiro possibilitou a
descoberta do problema. Um sistema BI ir fazer exatamente isso, encontrar nos
dados disponveis informaes que no estejam em evidencia e tenham relevncia
para determinada situao. Porm, diferente da analogia, o processo BI tende a ser
muito mais eficiente, uma vez que as informaes so expostas de forma imediata.
O termo Business Intelligence surgiu em meados da dcada de 1990,
difundido pelo Gartner Group. Entretanto, seus conceitos tm um pouco mais de
idade, surgindo por volta de 1970 nos Sistemas de Gerao de Relatrios (SIG), que
nessa poca produziam apenas relatrios estticos, bidimensionais e no possuam
16
17
18
eles so armazenados de forma que sua estrutura lgica seja de fcil compreenso
para mquinas.
Um conjunto de dados muitas vezes pode ser visto como uma coleo de
objetos de dados. Outros nomes para um objeto de dados so registros,
ponteiros, vetores, padres, eventos, casos, exemplos, observaes ou
entidades. Por sua vez, objetos de dados so descritos por um nmero de
atributos que capturam as caractersticas bsicas de um objeto, como a
massa de um objeto fsico ou o tempo no qual um evento tenha ocorrido.
Outros nomes para um atributo so varivel, caracterstica, campo, recurso
ou dimenso (TAN, STEINBACH, KUMAR, 2009, p. 26).
19
20
21
22
23
do Data Warehouse no esto integrados a sua utilizao como base para uma
viso corporativa de dados no pode ser feita.
No ambiente operacional os
24
Figura 6: No-Volatilidade
Fonte: (INMON, 1997, p. 36)
25
26
27
28
29
Outro aspecto muito importante dos metadados descrito por Inmon (1997),
remete-se ao gerenciamento do mapeamento entre o ambiente operacional e o
ambiente de Data Warehouse. Os dados que so carregados no Data Warehouse
passaram por mudanas distintas durante todo o processo de ETL, entre essas
30
31
32
33
34
4 O QLIKVIEW
35
36
37
38
(.cnv). Criado como uma espcie de legenda, esses arquivos foram indispensveis
para o entendimento dos dados armazenados. A Figura 13 mostra a criao da
tabela que contm a descrio do CID (Classificao Internacional de Doena) que
ir referenciar o campo loctudet (que aparece na Figura 12). Para cada campo que
possua uma chave ou cdigo foi feita a criao de uma nova tabela com suas
descries.
5.2 EXTRAO
A Extrao uma das etapas mais simples de todo o processo que foi
realizado, visto que consiste apenas em transportar todos os arquivos de dados
fonte para o arquivo QVD que ser gerado pelo Qlikview. Nesse processo os dados
so mantidos inalterados, ou seja, foram extrados mantendo sua forma exatamente
igual a da sua origem.
A Figura 14 ilustra o script de extrao dos dados brutos. Todas as tabelas
com as descries das chaves e cdigos foram criada em arquivos individuais, ento
foi necessrio realizar o mesmo processo para cada uma delas.
39
40
41
42
43
A tabela de fatos foi criada com base nos identificadores (ID) das dimenses.
Portanto possvel notar que na Figura 19 existe um campo chamado de
QUANTIDADE, que recebe 1 como valor numrico. Esse campo tem a caracterstica
de facilitar clculos no momento da realizao das anlises.
5.4 CARGA
A Carga a etapa final do processo ETL. Nesse ponto os dados j foram
tratados e o modelo multidimensional j foi estruturado. Os arquivos QVDs que
foram criados no processo de transformao sero ento carregados para que as
anlises possam finalmente ser criadas.
44
5.4.1 Anlises
As anlises foram apresentadas a partir de quatro painis, que foram
construdos e organizados de forma harmnica. A fcil visualizao das anlises foi
uma questo de grande relevncia na organizao da estrutura. Para isso os quatro
painis
foram
divididos
por
categorias:
Introduo,
Pacientes,
Cenrio
Classificao.
A Introduo remete-se ao primeiro painel em ordem sequencial, trata-se, no
entanto apenas de uma tela de boas-vindas. Como mostra a Figura 20, foram
inseridos neste painel o ttulo, texto introdutrio, imagens e um boto Iniciar.
45
46
47
48
Pacientes por faixa etria: um grfico de barras que forma uma pirmide
etria, onde o lado esquerdo representa o gnero feminino e o lado direito o gnero
masculino, enquanto as barras representam os valores referentes incidncia por
faixa etria (grupos de 10 anos) para cada um dos gneros. Nesse grfico foi
necessrio criar duas expresses muito parecidas, uma para o masculino e uma
para o feminino. A multiplicao por -1 da expresso feminino que pode ser vista na
Figura 28, faz com que as barras tomem posio contrria ao masculino, resultando
assim no formato de pirmide.
49
50
grficos desse painel iro apresentar os resultados a partir das selees feitas nesta
lista de seleo. A Figura 30 mostra a lista com uma seleo feita no atributo Mama.
51
52
6 CONCLUSO
53
REFERNCIAS
KIMBALL,
Ralph;
MERZ,
Richard;
traduo
Edson
Furmankiewicz,
Joana
54
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit : the complete guide
to dimensional modeling. - 2nd Ed. New York: Wiley Computer Publishing, 2002.
LOH, Stanley. BI na Era do Big Data para Cientistas de Dados - indo alm de
cubos e dashboards na busca pelos porqus, explicaes e padres. Porto
Alegre, 2014.
MACHADO, Felipe Nery Rodrigues. Tecnologia e Projeto de Data Warehouse:
Uma viso multidimensional. 3 ed. So Paulo: rica, 2007.
MOHALLEM,
Andra
Gomes
da
Costa;
RODRIGUES,
Andrea
Bezerra.
55
Business
So
Paulo,
2011.
Disponvel
em:
<http://www.nordicasoft.com.br/dv_files/arquivos/20130115170003_dbarquivos.pdf>.
Acesso em: 02 mai. 2016.