Vous êtes sur la page 1sur 178

Business Intelligence

Flvio Ceci
Crditos
Universidade do Sul de Santa Catarina | Campus UnisulVirtual | Educao Superior a Distncia
Avenida dos Lagos, 41 Cidade Universitria Pedra Branca | Palhoa SC | 88137-900 | Fone/fax: (48) 3279-1242 e 3279-1271 | E-mail: cursovirtual@unisul.br | Site: www.unisul.br/unisulvirtual
Reitor Coordenadores Graduao Marilene de Ftima Capeleto Patrcia de Souza Amorim Karine Augusta Zanoni
Ailton Nazareno Soares Alosio Jos Rodrigues Patricia A. Pereira de Carvalho Poliana Simao Marcia Luz de Oliveira
Ana Lusa Mlbert Paulo Lisboa Cordeiro Schenon Souza Preto Mayara Pereira Rosa
Vice-Reitor Ana Paula R.Pacheco Paulo Mauricio Silveira Bubalo Luciana Tomado Borguetti
Sebastio Salsio Heerdt Artur Beck Neto Rosngela Mara Siegel Gerncia de Desenho e
Bernardino Jos da Silva Simone Torres de Oliveira Desenvolvimento de Materiais Assuntos Jurdicos
Chefe de Gabinete da Reitoria Charles Odair Cesconetto da Silva Vanessa Pereira Santos Metzker Didticos Bruno Lucion Roso
Willian Corra Mximo Dilsa Mondardo Vanilda Liordina Heerdt Mrcia Loch (Gerente) Sheila Cristina Martins
Diva Marlia Flemming Marketing Estratgico
Pr-Reitor de Ensino e Horcio Dutra Mello Gesto Documental Desenho Educacional
Lamuni Souza (Coord.) Cristina Klipp de Oliveira (Coord. Grad./DAD) Rafael Bavaresco Bongiolo
Pr-Reitor de Pesquisa, Itamar Pedro Bevilaqua
Ps-Graduao e Inovao Jairo Afonso Henkes Clair Maria Cardoso Roseli A. Rocha Moterle (Coord. Ps/Ext.) Portal e Comunicao
Daniel Lucas de Medeiros Aline Cassol Daga Catia Melissa Silveira Rodrigues
Mauri Luiz Heerdt Janana Baeta Neves
Aline Pimentel
Jorge Alexandre Nogared Cardoso Jaliza Thizon de Bona Andreia Drewes
Pr-Reitora de Administrao Jos Carlos da Silva Junior Guilherme Henrique Koerich Carmelita Schulze Luiz Felipe Buchmann Figueiredo
Acadmica Jos Gabriel da Silva Josiane Leal Daniela Siqueira de Menezes Rafael Pessi
Marlia Locks Fernandes Delma Cristiane Morari
Miriam de Ftima Bora Rosa Jos Humberto Dias de Toledo
Eliete de Oliveira Costa
Joseane Borges de Miranda Gerncia de Produo
Pr-Reitor de Desenvolvimento Luiz G. Buchmann Figueiredo Gerncia Administrativa e Elosa Machado Seemann Arthur Emmanuel F. Silveira (Gerente)
e Inovao Institucional Marciel Evangelista Catneo Financeira Flavia Lumi Matuzawa Francini Ferreira Dias
Renato Andr Luz (Gerente) Geovania Japiassu Martins
Valter Alves Schmitz Neto Maria Cristina Schweitzer Veit
Ana Luise Wehrle Isabel Zoldan da Veiga Rambo Design Visual
Maria da Graa Poyer
Diretora do Campus Mauro Faccioni Filho Anderson Zandr Prudncio Joo Marcos de Souza Alves Pedro Paulo Alves Teixeira (Coord.)
Universitrio de Tubaro Moacir Fogaa Daniel Contessa Lisboa Leandro Roman Bamberg Alberto Regis Elias
Milene Pacheco Kindermann Nlio Herzmann Naiara Jeremias da Rocha Lygia Pereira Alex Sandro Xavier
Onei Tadeu Dutra Rafael Bourdot Back Lis Air Fogolari Anne Cristyne Pereira
Diretor do Campus Universitrio Patrcia Fontanella Thais Helena Bonetti Luiz Henrique Milani Queriquelli Cristiano Neri Gonalves Ribeiro
da Grande Florianpolis Roberto Iunskovski Valmir Vencio Incio Marcelo Tavares de Souza Campos Daiana Ferreira Cassanego
Hrcules Nunes de Arajo Rose Clr Estivalete Beche Mariana Aparecida dos Santos Davi Pieper
Gerncia de Ensino, Pesquisa e Marina Melhado Gomes da Silva Diogo Rafael da Silva
Secretria-Geral de Ensino Vice-Coordenadores Graduao Extenso Marina Cabeda Egger Moellwald Edison Rodrigo Valim
Adriana Santos Ramm Janana Baeta Neves (Gerente) Mirian Elizabet Hahmeyer Collares Elpo Fernanda Fernandes
Solange Antunes de Souza Aracelli Araldi Pmella Rocha Flores da Silva
Bernardino Jos da Silva Frederico Trilha
Diretora do Campus Catia Melissa Silveira Rodrigues Rafael da Cunha Lara Jordana Paula Schulka
Elaborao de Projeto Roberta de Ftima Martins Marcelo Neri da Silva
Universitrio UnisulVirtual Horcio Dutra Mello Carolina Hoeller da Silva Boing
Jucimara Roesler Jardel Mendes Vieira Roseli Aparecida Rocha Moterle Nelson Rosa
Vanderlei Brasil Sabrina Bleicher Noemia Souza Mesquita
Joel Irineu Lohn Francielle Arruda Rampelotte
Equipe UnisulVirtual Jos Carlos Noronha de Oliveira Vernica Ribas Crcio Oberdan Porto Leal Piantino
Jos Gabriel da Silva Reconhecimento de Curso
Jos Humberto Dias de Toledo Acessibilidade Multimdia
Diretor Adjunto Maria de Ftima Martins Vanessa de Andrade Manoel (Coord.) Srgio Giron (Coord.)
Moacir Heerdt Luciana Manfroi
Rogrio Santos da Costa Extenso Letcia Regiane Da Silva Tobal Dandara Lemos Reynaldo
Secretaria Executiva e Cerimonial Rosa Beatriz Madruga Pinheiro Maria Cristina Veit (Coord.) Mariella Gloria Rodrigues Cleber Magri
Jackson Schuelter Wiggers (Coord.) Sergio Sell Vanesa Montagna Fernando Gustav Soares Lima
Marcelo Fraiberg Machado Pesquisa Josu Lange
Tatiana Lee Marques Daniela E. M. Will (Coord. PUIP, PUIC, PIBIC) Avaliao da aprendizagem
Tenille Catarina Valnei Carlos Denardin Claudia Gabriela Dreher Conferncia (e-OLA)
Mauro Faccioni Filho (Coord. Nuvem)
Assessoria de Assuntos Smia Mnica Fortunato (Adjunta) Jaqueline Cardozo Polla Carla Fabiana Feltrin Raimundo (Coord.)
Internacionais Ps-Graduao Ngila Cristina Hinckel Bruno Augusto Zunino
Coordenadores Ps-Graduao Anelise Leal Vieira Cubas (Coord.) Sabrina Paula Soares Scaranto
Murilo Matos Mendona Alosio Jos Rodrigues Gabriel Barbosa
Anelise Leal Vieira Cubas Thayanny Aparecida B. da Conceio
Assessoria de Relao com Poder Biblioteca Produo Industrial
Pblico e Foras Armadas Bernardino Jos da Silva Salete Ceclia e Souza (Coord.) Gerncia de Logstica Marcelo Bittencourt (Coord.)
Adenir Siqueira Viana Carmen Maria Cipriani Pandini Paula Sanhudo da Silva Jeferson Cassiano A. da Costa (Gerente)
Walter Flix Cardoso Junior Daniela Ernani Monteiro Will Marlia Ignacio de Espndola Gerncia Servio de Ateno
Giovani de Paula Renan Felipe Cascaes Logsitca de Materiais Integral ao Acadmico
Assessoria DAD - Disciplinas a Karla Leonora Dayse Nunes Carlos Eduardo D. da Silva (Coord.) Maria Isabel Aragon (Gerente)
Distncia Letcia Cristina Bizarro Barbosa Gesto Docente e Discente Abraao do Nascimento Germano Ana Paula Batista Detni
Patrcia da Silva Meneghel (Coord.) Luiz Otvio Botelho Lento Enzo de Oliveira Moreira (Coord.) Bruna Maciel Andr Luiz Portes
Carlos Alberto Areias Roberto Iunskovski Fernando Sardo da Silva Carolina Dias Damasceno
Cludia Berh V. da Silva Rodrigo Nunes Lunardelli Capacitao e Assessoria ao Fylippy Margino dos Santos Cleide Incio Goulart Seeman
Conceio Aparecida Kindermann Rogrio Santos da Costa Docente Guilherme Lentz Denise Fernandes
Luiz Fernando Meneghel Thiago Coelho Soares Alessandra de Oliveira (Assessoria) Marlon Eliseu Pereira Francielle Fernandes
Renata Souza de A. Subtil Vera Rejane Niedersberg Schuhmacher Adriana Silveira Pablo Varela da Silveira Holdrin Milet Brando
Alexandre Wagner da Rocha Rubens Amorim
Assessoria de Inovao e Jenniffer Camargo
Gerncia Administrao Elaine Cristiane Surian (Capacitao) Yslann David Melo Cordeiro Jessica da Silva Bruchado
Qualidade de EAD Acadmica Elizete De Marco
Denia Falco de Bittencourt (Coord.) Jonatas Collao de Souza
Angelita Maral Flores (Gerente) Fabiana Pereira Avaliaes Presenciais
Andrea Ouriques Balbinot Juliana Cardoso da Silva
Fernanda Farias Iris de Souza Barros Graciele M. Lindenmayr (Coord.)
Carmen Maria Cipriani Pandini Juliana Elen Tizian
Juliana Cardoso Esmeraldino Ana Paula de Andrade
Secretaria de Ensino a Distncia Kamilla Rosa
Maria Lina Moratelli Prado Angelica Cristina Gollo
Assessoria de Tecnologia Samara Josten Flores (Secretria de Ensino) Simone Zigunovas
Mariana Souza
Osmar de Oliveira Braz Jnior (Coord.) Cristilaine Medeiros Marilene Ftima Capeleto
Giane dos Passos (Secretria Acadmica) Daiana Cristina Bortolotti
Felipe Fernandes Adenir Soares Jnior Tutoria e Suporte Maurcio dos Santos Augusto
Felipe Jacson de Freitas Delano Pinheiro Gomes Maycon de Sousa Candido
Alessandro Alves da Silva Anderson da Silveira (Ncleo Comunicao) Edson Martins Rosa Junior
Jefferson Amorin Oliveira Andra Luci Mandira Claudia N. Nascimento (Ncleo Norte- Monique Napoli Ribeiro
Phelipe Luiz Winter da Silva Fernando Steimbach Priscilla Geovana Pagani
Cristina Mara Schauffert Nordeste)
Fernando Oliveira Santos
Priscila da Silva Djeime Sammer Bortolotti Maria Eugnia F. Celeghin (Ncleo Plos) Sabrina Mari Kawano Gonalves
Rodrigo Battistotti Pimpo Lisdeise Nunes Felipe Scheila Cristina Martins
Douglas Silveira Andreza Talles Cascais Marcelo Ramos
Tamara Bruna Ferreira da Silva Evilym Melo Livramento Daniela Cassol Peres Taize Muller
Marcio Ventura Tatiane Crestani Trentin
Fabiano Silva Michels Dbora Cristina Silveira Osni Jose Seidler Junior
Coordenao Cursos Fabricio Botelho Espndola Ednia Araujo Alberto (Ncleo Sudeste) Thais Bortolotti
Coordenadores de UNA Felipe Wronski Henrique Francine Cardoso da Silva
Diva Marlia Flemming Gisele Terezinha Cardoso Ferreira Janaina Conceio (Ncleo Sul) Gerncia de Marketing
Marciel Evangelista Catneo Indyanara Ramos Joice de Castro Peres Eliza B. Dallanhol Locks (Gerente)
Roberto Iunskovski Janaina Conceio Karla F. Wisniewski Desengrini
Jorge Luiz Vilhar Malaquias Kelin Buss Relacionamento com o Mercado
Auxiliares de Coordenao Juliana Broering Martins Liana Ferreira Alvaro Jos Souto
Ana Denise Goularte de Souza Luana Borges da Silva Luiz Antnio Pires
Camile Martinelli Silveira Luana Tarsila Hellmann Maria Aparecida Teixeira Relacionamento com Polos
Fabiana Lange Patricio Luza Koing Zumblick Mayara de Oliveira Bastos Presenciais
Tnia Regina Goularte Waltemann Maria Jos Rossetti Michael Mattar Alex Fabiano Wehrle (Coord.)
Jeferson Pandolfo
Universidade do Sul de Santa Catarina

Business Intelligence
Livro Digital

Palhoa
UnisulVirtual
2012
Copyright UnisulVirtual 2012

Nenhuma parte desta publicao pode ser reproduzida por


qualquer meio sem a prvia autorizao desta instituio.

Edio Livro Digital


Professor Conteudista
Flvio Ceci
Coordenao de Curso
Vera Rejane Niedersberg Schuhmacher
Design Instrucional
Silvana Souza da Cruz Clasen
Joo Marcos de Souza Alves (2 edio rev. e atual).
Projeto Grfico e Capa
Equipe Design Visual
Diagramao
Daiana Ferreira Cassanego
Reviso
Diane Dal Mago
ISBN
978-85-7817-465-1

005.74
C38 Ceci, Flvio
Business intelligence : livro digital / Flvio Ceci ; design instrucional
Silvana Souza da Cruz Clasen ; Joo Marcos de Souza Alves. Palhoa :
UnisulVirtual, 2012.
176 p. : il. ; 28 cm.

Inclui bibliografia.
ISBN 978-85-7817-465-1

1. Banco de dados. 2. Inteligncia em negcios. 3. Tecnologia da


informao. 4. Sistema de informao gerencial. I. Alves, Joo Marcos de
Souza. II. Ttulo.

Ficha catalogrfica elaborada pela Biblioteca Universitria da Unisul


Flvio Ceci

Business Intelligence
Livro Digital

Designer instrucional
Joo Marcos de Souza Alves

2 edio revista e atualizada

Palhoa
UnisulVirtual
2012
Sumrio

5 Sumrio

7 Apresentao

9 Palavras do Professor

11 Plano de estudo

15 Unidade 1
O poder da informao e do conhecimento nas organizaes

45 Unidade 2
Colocando inteligncia nos negcios

63 Unidade 3
Data Warehouse

95 Unidade 4
Descobrindo o conhecimento

131 Unidade 5
Processo OLAP

159 Para concluir os estudos


161 Minicurrculo

163 Respostas e comentrios das atividades


deautoaprendizagem e colaborativas

169 Referncias
Apresentao

Caro/a estudante,

O livro digital desta disciplina foi organizado didaticamente, de modo a oferecer a


voc, em um nico arquivo pdf, elementos essenciais para o desenvolvimento dos
seus estudos.

Constituem o livro digital:


Palavras do professor (texto de abertura);
Plano de estudo (com ementa, objetivos e contedo programtico
dadisciplina);
Objetivos, Introduo, Sntese e Saiba mais de cada unidade;
Leituras de autoria do professor conteudista;
Atividades de autoaprendizagem e gabaritos;
Enunciados das atividades colaborativas;
Para concluir estudos (texto de encerramento);
Minicurrculo do professor conteudista; e
Referncias.

Lembramos, no entanto, que o livro digital no constitui a totalidade do material


didtico da disciplina. Dessa forma, integram o conjunto de materiais de estudo:
webaulas, objetos multimdia, leituras complementares (selecionadas pelo
professor conteudista) e atividades de avaliao (obrigatrias e complementares),
que voc acessa pelo Espao UnisulVirtual de Aprendizagem.

Tais materiais didticos foram construdos especialmente para este curso, levando
em considerao as necessidades da sua formao e aperfeioamento profissional.

Atenciosamente,

Equipe UnisulVirtual
Palavras do Professor

Bem-vindo caro aluno!

Na disciplina de Business Intelligence voc ter a oportunidade de navegar por


vrios conceitos das reas de administrao, sistemas de informao, banco de
dados, inteligncia artificial e gesto de TI.

Inicialmente, so tratados os conceitos relacionados com dado, informao


e conhecimento, qual o papel de cada um desses itens e como eles podem
auxiliar na gesto de uma organizao. Posteriormente, so vistos os conceitos
de sistema e depois, de maneira mais especfica, sistemas de informao e,
especializando mais ainda, sistemas de apoio deciso.

Percebe-se que as aplicaes de business intelligence (BI) so, na verdade,


sistemas de apoio deciso. Na unidade 2 so tratados com mais detalhes os
conceitos relacionados com BI, bem como suas caractersticas e usos.

A unidade 3 traz o tema Data Warehouse, que geralmente utilizando como


repositrio de dados para as aplicaes de BI, mas tambm pode ser utilizado
em outros contextos organizacionais. Nesta unidade, tambm ser estudada a
modelagem de dados dimensional e como ela pode trazer benefcios a sistemas
de apoio deciso.

Na unidade 4 so abordadas as fases do BI, alm de dar foco a algumas outras


reas envolvidas, como por exemplo: descoberta de conhecimento e banco de
dados e descoberta de conhecimento em textos.

Por fim, so apresentados os conceitos relacionados com OLAP e como podem


ser consumidas as informaes e os conhecimentos explicitados pela ferramenta
em questo.

timos estudos!

Flvio Ceci
Plano de estudo

O plano de estudos visa a orient-lo/a no desenvolvimento da disciplina. Possui


elementos que o/a ajudaro a conhecer o contexto da disciplina e a organizar o
seu tempo de estudos.

O processo de ensino e aprendizagem na UnisulVirtual leva em conta instrumentos que


se articulam e se complementam, portanto a construo de competncias se d sobre a
articulao de metodologias e por meio das diversas formas de ao/mediao.

So elementos desse processo:


o livro digital;
o Espao UnisulVirtual de Aprendizagem (EVA);
as atividades de avaliao (a distncia, presenciais e de autoaprendizagem);
o Sistema Tutorial.

Objetivo geral
As empresas devem tomar decises em todos os nveis organizacionais e em
todas suas reas de atuao. Ter informao precisa e de qualidade pode ser
a diferena entre tomar decises certas ou no. Nesse sentido, a qualidade
da informao um diferencial competitivo nas empresas. Apenas armazenar
dados sobre clientes, fornecedores, vendas, compras e colaboradores, no o
suficiente. Asorganizaes buscam a qualidade dos dados e sua transformao
em informaes que gerem conhecimento dentro da empresa, apoiando o
processo de tomada de deciso. O objetivo da disciplina trazer para o aluno
conhecimento sobre conceitos, arquitetura e componentes dos sistemas de
BI (BusinessInteligence). Os sistemas de BI fornecem uma arquitetura com a
viso do analista de negcios, permitindo s organizaes a transformao e a
extrao dos dados coletados em seus sistemas de informao, em informao e
conhecimento, para auxlio ao processo decisrio das organizaes.
Ementa
Informao e deciso nas organizaes. Dados, informao e conhecimento.
Sistemas de Informao nas organizaes: sistemas transacionais e de apoio
deciso. Arquitetura e componentes de uma soluo de BI-BusinessIntelligence.
Data Warehouse: motivao, conceitos, definio e caractersticas.
ModeloDimensional: fatos, dimenses, medidas e granularidade. Sistemas ETL:
extrao limpeza, transformao e carga de um modelo dimensional. rea de
apresentao: caractersticas das tcnicas analticas (OLAP) como ferramentas de
apresentao e extrao de informao.

Contedo programtico/objetivos
A seguir, as unidades que compem o livro digital desta disciplina e os seus
respectivos objetivos. Estes se referem aos resultados que voc dever alcanar
ao final de uma etapa de estudo. Os objetivos de cada unidade definem o
conjunto de conhecimentos que voc dever possuir para o desenvolvimento de
habilidades e competncias necessrias a este nvel de estudo.

Unidades de estudo: 5

Unidade 1 O poder da informao e do conhecimento nas


organizaes

Nesta unidade, apresentada uma viso geral entre dado, informao e


conhecimento, quais as suas fronteiras e sua aplicabilidade. Aps visto o que so
sistemas de informao, qual a sua utilidade e como se pode classific-los. Por fim,
apresentada uma viso geral sobre os sistemas de apoio deciso e como eles
podem agregar valor camada gerencial das organizaes.

Unidade 2 Colocando inteligncia nos negcios

Verifica-se que os sistemas de informao trazem muitos benefcios para uma


organizao. Para a camada tomadora de deciso, a utilizao de aplicaes
de Business Intelligence tem sido cada vez mais comum. Nesta unidade, so
apresentados conceitos introdutrios sobre Business Intelligence e de que forma
eles auxiliam nas decises estratgicas para uma organizao.

Ps-graduao
Unidade 3 Data Warehouse

Esta unidade focada no estudo dos conceitos relacionados com os Data


Warehouse (DW), qual a sua participao numa aplicao de Business Intelligence
e como a modelagem de dados dimensional pode auxiliar na construo desse
tipo de repositrio.

Unidade 4 Fases do Business Intelligence

Na unidade 4, so apresentadas as fases do Business Intelligence, a diferena


do processo Knowledge Discovery in Database (KDD) e Knowledge Discovery
Text(KDT), e como esses processos podem auxiliar na etapa de tomada de deciso.

Unidade 5 Processo OLAP

Na nossa unidade final ilustrado o processo On-line Analytical Processing (OLAP),


que est focado no consumo das informaes armazenadas e na apresentao
para os usurios do sistema de apoio deciso.

Carga horria: 45 horas

Business Intelligence
Unidade 1

O poder da informao e do
conhecimento nas organizaes

Objetivos de Aprendizagem
Compreender o papel da informao e do conhecimento como
facilitadores para a tomada de decises e planejamento em organizaes.
Entender em que mbito a tecnologia contribui no processo de tomada
de decises.
Diferenciar sistemas de informao dentro de um ambiente organizacional.

Introduo
No novidade que as organizaes esto cada vez mais utilizando recursos
computacionais para auxiliar nas suas operaes. Com o uso indiscriminado
dos computadores, gerase, diariamente, uma quantidade enorme de dados
estruturados(em banco de dados), semiestruturados(emails, logs, entre outros)
e no estruturados(texto livre como, por exemplo: relatrios, manuais, artigos,
entre outros).

Esses dados, de maneira isolada, no trazem vantagens para o gerenciamento das


operaes e tomada de deciso, mas servem como matriaprima para a gerao
de informaes. Os sistemas de informao vm com esse propsito, entregar
informaes organizacionais a partir dos dados armazenados.

Os sistemas de informao tradicionais so focados no apoio das operaes de


uma organizao, no trazendo vantagens diretas camada tomadora de deciso,
tendo em vista essas carncias, desenvolveuse um subtipo especfico de sistemas
de informao, chamados de sistemas de apoio deciso.
16

Dado, informao e conhecimento


Flvio Ceci

A cada dia mais e mais as pessoas esto produzindo dados de maneira involuntria,
seja efetuando compras, navegando pela internet, escutando msicas online,
fazendo buscas em sites como Google, Yahoo e Bing, participando de redes sociais,
entre outras atividades. Esses dados de maneira bruta no revelam segredos,
apenas apresentam trajetrias e dados provenientes de operaes, mas a partir
do seu processamento podese chegar a valiosas informaes.

Bill Tancer um especialista em anlise de dados do mundo virtual, em seu livro


Click, lanado no Brasil no ano de 2009 pela editora Globo, o autor apresenta sua
trajetria no mundo da anlise de dados virtuais. A partir das consultas feitas em
sites de busca, Tancer demonstra como os dados gerados pelas buscas esto
diretamente relacionados com eventos atuais e como esses dados cruzados de
maneira correta podem apresentar tendncias e indicadores.

Percebese que o processamento do dado bruto gera a informao. Para


Fialhoetal.(2006), dados so representaes simblicas para descries de
atributos de qualquer nvel. Segundo Pinheiro(2008), a camada de dados
responsvel pela existncia dos sistemas transacionais, que tem como funo
apoiar as operaes da organizao. Segundo Ceci(2010), h bastante tempo
as organizaes utilizam seus dados operacionais para gerar informao que os
ajudem na etapa de tomada de deciso. Mas nunca se produziu tantos dados no
ambiente virtual como nos dias de hoje. O surgimento de uma srie de dispositivos
que mantm cada vez mais as pessoas conectadas proporciona uma verdadeira
avalanche de novos dados por segundo.

Tendo esse cenrio como atual, muitas empresas esto utilizando no apenas os
seus dados operacionais(dados provenientes de operaes como, por exemplo,
uma venda ou compra de um determinado produto) e transacionais(dados em
nvel de transao), mas tambm os disponveis na web, como por exemplo,
textos publicados em microblogs, como o twitter, para identificar a opinio de
um grupo sobre um dos seus produtos ou servios. Esses dados disponveis na
web combinados com os internos da organizao geram informaes ainda mais
relevantes e estratgicas para a etapa da tomada de deciso.

Don Tapscott considerado por muitos como gnio das estratgias empresariais
em seu bestseller Wikinomics, lanado em 2006, e escrito em parceria com seu
colega de trabalho Anthony D. Williams, fala sobre como a colaborao pode
auxiliar e muito as organizaes. Nesse livro apresentado um caso em que
uma organizao tinha um problema que no conseguia encontrar uma soluo

Ps-graduao
17

efetiva pelos seus engenheiros e pesquisadores, a alternativa encontrada foi abrir


os dados na internet e ofertar um prmio para o pesquisador que conseguisse
resolvlo, ouseja, processar o dado bruto, para gerar informao e conhecimento.

Segundo Fialho et al.(2006), informao um conjunto de dados que so


processados corretamente e tornamse compreensveis, ou seja, apresentem um
significado, criando padres e acionando significados na mente dos indivduos.

Percebese que os dados esto relacionados diretamente com as operaes de


uma organizao ou de um indivduo e esto armazenados na forma de bases
de dados transacionais. O processamento sobre eles gera as informaes, como
por exemplo, no contexto de um sistema de controle de estoque, saber que
existe 10unidades de um produto no depsito um dado, agora, saber que se
a quantidade deste produto for inferior a 3 unidades, significa que est com o
estoque em baixa, uma informao.

Segundo Fialho(2006), para que os dados se transformem em informao,


necessrio que as correlaes entre os muitos fatos e suas implicaes para
os indivduos e para as organizaes sejam evidenciados, ou seja, explicitados.
AFigura 1 ilustra a afirmao feita pelo autor:

Figura 1 - Transformando dados em informao

Fatos X Indivduos X Organizao

Processamento
Dados Informao

Fonte: Fialho, 2006.

Vemos que a informao por si s no apenas fato, instruo ou nmero de uma


tabela, informao o significado expresso pelo ser humano, trazendo benefcios
etapa de tomada de deciso(GOUVEIA; RANITO, 2004).

As anlises dos dados nos levam at a informao, tecnologicamente, os sistemas


de informao fazem essa ponte, entregando para o usurio final informaes
relevantes permitindo uma economia de tempo. O cenrio a seguir apresenta uma
situao para ilustrar essas afirmaes:

A UnisulVirtual o campus da Universidade do Sul de Santa Catarina responsvel por


todos os projetos e programas de ensino a distancia da UNISUL, contando com mais
de 12 mil alunos espalhados por todo o Brasil.

O poder da informao e do conhecimento nas organizaes


18

Imaginase que todas as notas dos alunos esto armazenadas numa mesma tabela,
no banco de dados, como apresentado abaixo:

Tabela 1 - Tabela de relacionamento entre aluno e disciplina


codAluno codDisciplina prova1 prova2 prova3 Media
98413 2009412 10 9 9,5 9,5
87536 2007324 7 4 3 4,7
96784 2009413 6 8 7 7
... ... ... ... ... ...
Fonte: Elaborao do autor, 2012.

O campo codAluno equivale ao cdigo de identificao do aluno numa tabela onde


so mantidos os dados relacionados com os alunos, como por exemplo, oseu nome,
seu telefone, nome dos seus pais, endereo, entre outras informaes. Ocampo
codDisciplina representa o cdigo identificador da disciplina numa tabela que
armazena as informaes relacionadas com as disciplinas, outras informaes
relevantes para essa tabela so: nome da disciplina, nome do curso que a contm,
qual semestre ela foi ministrada, entre outras informaes.

Os campos prova1, prova2 e prova3 representam as trs notas de provas feitas


pelosalunos da disciplina, o ltimo campo representa a mdia aritmtica das trs
notas registradas.

Suponhase que a secretria do curso de Cincia da Computao gostaria de premiar


todos os alunos que possuem mdia superior a 9, se no existir um sistema de
informao, seria necessrio que algum funcionrio da secretaria identificasse quais
so as disciplinas que fazem parte do curso em questo e depois verificar todos os
registros da tabela aluno_disciplina que possuem o campo codDisciplina, equivalente
a um cdigo de disciplina do curso e depois se a mdia apresentada superior a 9.

Dessa maneira, o funcionrio da secretaria est interagindo diretamente com os


dados da tabela. Agora, se a secretaria dispor de um sistema de informao que
possua um ambiente onde possa fazer cruzamento de informaes e aplicar filtros,
facilmente ser retornado um relatrio com a informao solicitada.

Percebese que a informao traz mais benefcios que os dados para a camada
tomadora de deciso de uma organizao. Segundo Primak(2008), a informao
faz parte da base da construo do conhecimento. Para Fialho et al.(2006),
podese definir conhecimento como um conjunto completo de informaes,
dados e relaes que auxiliam os indivduos na tomada de deciso, realizao de
tarefas e a gerao de novas informaes e conhecimentos. Outra definio para

Ps-graduao
19

conhecimento, dada pelo autor um conjunto de informaes contextualizadas e


dotadas de semntica inerentes ao agente que o detm, e seu contedo semntico
se dar em funo do conjunto de informaes que o compem, de suas ligaes
com outras unidades de conhecimento e do processo de contextualizao.

Para transformar informao em conhecimento no basta apenas a aplicao


de uma etapa de processamento(como no caso dos dados para a informao),
necessrio um processo de sntese por parte de quem est consumindo a
informao. Segundo Ghisi, Ceci e Sell(2011), a visualizao de informao
participa diretamente do processo de aquisio(quando se acessa um
conhecimento j existente) e criao(que permitido a partir da interpretao
das informaes por parte do indivduo). A Figura 2 apresenta essa transformao.

Figura 2 - Da informao ao conhecimento


Sntese
Processamento

Dados Informao Conhecimento

Fonte: Ghisi, Ceci e Sell, 2011.

Cada vez mais a informao e o conhecimento vm desempenhando um papel


importante para as organizaes. Atualmente, com a grande quantidade de
documentos digitais, emails e dados em base de dados h uma fonte gigantesca
para a gerao de informao e, posteriormente, para a descoberta e extrao
de conhecimento.

As organizaes que possuem atividades intensivas em conhecimento e que se


caracterizam por ter o conhecimento como fator de produo so chamadas
de organizaes do conhecimento. Para Fialho(2006), podese caracterizar
uma organizao como do conhecimento quando ela de base tecnolgica
e de servios que apresentam propores ativas intangveis, acima do seu
valor contbil. Segundo Ceci(2010), um problema bastante recorrente, nas
organizaes ditas organizaes do conhecimento, para trabalhar com o
conhecimento como encontrlo, recuperlo, armazenlo e compartilhlo
entre os seus membros.

A rea da gesto do conhecimento nasce com a misso de auxiliar as organizaes


a gerenciarem melhor o seu conhecimento, j que esse est, em grande maioria,
na cabea dos funcionrios. Cada baixa de funcionrio uma perda considervel
para o capital intelectual da organizao, dessa forma, a gesto do conhecimento

O poder da informao e do conhecimento nas organizaes


20

pensa em mecanismos para adquirir o conhecimento da cabea dos funcionrios


de modo que ele seja compartilhado e armazenado.

Prticas adotadas pela gesto do conhecimento vo da criao de comunidades


de prtica, adoo de programas de lies aprendidas, estmulo aos funcionrios
para a utilizao de wikis internas a organizao. Todas essas prticas so
diretamente aplicadas sobre os seus funcionrios, mas sabese que muito dos
conhecimentos da organizao esto implcitos em documentos textuais no
estruturados. Para esses casos, a gesto do conhecimento conta com a rea da
Engenharia do Conhecimento.

A rea da Engenharia do Conhecimento nasceu como subrea da Inteligncia


Artificial, que tinha como foco a criao de sistemas especialistas, esses sistemas
eram baseados em regras lgicas extradas da cabea de um especialista em
um determinado domnio. Essa era a caracterstica da chamada engenharia do
conhecimento clssica, que adotava o paradigma de transporte, ou seja, que
estava focada em transpor o conhecimento da cabea de um especialista para
compor um conjunto de regras que fazem parte de um sistema especialista de
umdomnio(STUDER; BENJAMINS; FENSEL, 1998).

A engenharia do conhecimento clssica adota o paradigma de transporte e


apresenta alguns problemas:
quanto escala: havia a reinveno da roda em cada projeto;
quanto ao contexto: no tinha a viso do contexto onde o problema
estava inserido(tarefa modelada);
quanto modelagem: o paradigma de transporte era moldado
expectativa de funcionamento do aplicativo(regras em shell) e no
natureza do contexto da tarefa intensiva em conhecimento;
quanto ao desenvolvimento: a prototipao rpida tornava o sistema
gerado de difcil manuteno.

Ps-graduao
21

Tendo em vista esses problemas, nasce a chamada Nova Engenharia do


Conhecimento, que faz uso do paradigma de modelagem. Esse nome dado
pois essa abordagem est focada na modelagem do conhecimento, de modo que
o mesmo possa ser reaproveitado em outros sistemas baseados em conhecimento,
permitindo, assim, a sua socializao entre os membros da organizao.

Para a explicitao do conhecimento existente em bases de dados e documentos


textuais no estruturados, a engenharia do conhecimento utilizase de tcnicas da
inteligncia artificial, como as apresentadas a seguir:
Reconhecimento de entidades nomeadas;
Algoritmos de clusterizao(agrupamentos);
Processamento de linguagem natural;
Raciocnio baseado em casos;
Algoritmos genticos
Redes neurais artificiais.

Depois de extrair o conhecimento implcito nas bases de documentos e de dados


da organizao, necessrio representlo formalmente de maneira que ele possa
ser corretamente armazenado e reutilizado, para isso so utilizadas as ontologias.

As ontologias nasceram da rea da filosofia onde eram conceituadas como uma


definio de mundo. Para a computao podese definir como uma representao
formal de um conhecimento de domnio, de modo que tanto um indivduo quanto
um computador podem interagir com o conhecimento modelado. Segundo Studer,
Benjamins e Fensel(1998), uma ontologia uma especificao explcita e formal
de conceitos e relaes que existem em um domnio.

Para Souza(2003), as ontologias so usadas como uma forma de representao


e integrao do conhecimento pela sua capacidade de reuso e interoperabilidade.
Uma outra utilizao que se pode levantar o fato de serem empregadas como
uma linguagem comum entre agentes de softwares e humanos, permitindo, assim,
a socializao do conhecimento. A Figura 3 apresenta um exemplo de ontologia:

O poder da informao e do conhecimento nas organizaes


22

Figura 3 - Exemplo de uma ontologia de domnio

Fonte: Ceci, 2010.

As ontologias utilizam conceitos similares aos do paradigma de desenvolvimento


de software orientado a objetos, sendo compostas por classes, instncias, relaes,
propriedades e domnio. Na Figura 3 apresentase a representao de uma ontologia
bastante simples, onde so apresentadas cinco classes, por meio de quadrados
amarelos. Como se pode observar todas as classes Pessoa, rea_do_conhecimento,
Organizao, Lugar e Outra so filhas de uma classe Thing(em portugus coisa),
ou seja, todas as cinco so coisas do domnio modelado.

Os quadrados em lils so as instncias das classes em questo, facilmente


podemos visualizar que Santa Catarina uma lugar, verificase que Administrao
foi classificada com uma instncia da ontologia, mas o mtodo que a gerou no
conseguiu classificla.

As ontologias so formas para representar conhecimento, de modo que os


indivduos e os sistemas possam inferir sobre elas, sendo parte fundamental
dos sistemas baseados em conhecimento, ferramenta indispensvel para as
organizaes do conhecimento.

Ps-graduao
23

Referncias

CECI, Flvio. Um modelo semiautomtico para a construo e manuteno de ontologias


a partir de bases de documentos no estruturados. 2010. Dissertao(Mestrado em
Engenharia e Gesto do Conhecimento) Universidade Federal de Santa Catarina,
Florianpolis, 2010. Disponvel em: <http://btd.egc.ufsc.br/wpcontent/uploads/2011/04/
Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.

FIALHO, Francisco Antnio Pereira et al. Gesto do conhecimento e aprendizagem: as


estratgias competitivas da sociedade psindustrial. Florianpolis: Visualbooks, 2006.

GHISI, Fernando B.; CECI, Flvio; SELL, Denilson. Aspectos relacionados com a eficcia
do processo de aquisio de conhecimento a partir de apresentao de informaes
numricas: sumrios textuais podem ser mais adequados que representaes grficas?
5CIDI Congresso Internacional de Design da Informao. Florianpolis, 2011.

GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.

PINHEIRO, Carlos Andr Reis. Inteligncia analtica: minerao de dados e descoberta de


conhecimento. Rio de Janeiro: Cincia Moderna, 2008.

PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.

STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering: principles


and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.

TANCER, Bill. Click: O que milhes de pessoas esto fazendo online e por que isso
importante. Editora Globo S.A. So Paulo, 2009.

TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: Como a colaborao em massa pode


mudar o seu negcio. Editora Nova Fronteira, Rio de Janeiro, 2006.

O poder da informao e do conhecimento nas organizaes


24

Sistemas de informao
Glucio Adriano Fontana e Flvio Ceci

Na leitura anterior sobre dado, informao e conhecimento, foram apresentados


detalhes e conceitos sobre esses temas, bem como as suas principais diferenas.
Abordouse tambm como o uso de informaes e conhecimento podem
auxiliar a camada tomadora de deciso de uma organizao. Segundo Gouveia
e Ranito(2004), os sistemas de informao(SI) possuem diversas funes
relacionadas com a manipulao de dados e de informao, que so executadas
com base num conjunto de procedimentos manuais e automticos, visando a
auxiliar na tomada de deciso.

Percebese que os sistemas de informao so um meio para acessar as


informaes de maneira mais efetiva, mas antes de apresentar mais conceitos
relacionados com SI, importante entender o que um sistema. Basicamente,
podese definir sistema como um conjunto de componentes(e subsistemas) que
formam um todo, e que interagindo chegam a um objetivo comum(GOUVEIA;
RANITO, 2004). Um sistema possui algumas caractersticas, as quais, segundo
Gouveia e Ranito(2004), so:
Objetivo: a proposta que justifica o sistema, esse pode ter mais de
umobjetivo;
Componentes: so partes dos sistemas que funcionam juntas para
atender os objetivos;
Estrutura: relaes entre componentes cuja funo a definio das
fronteiras(limite) do sistema e o meio que est envolvido;
Comportamento: determinado pelos processos desenvolvidos para,
nosistema, alcanar os resultados esperados;
Ciclo de vida: ocorre em qualquer sistema e inclui alguns fenmenos:
evoluo, desgaste, desadequao, envelhecimento, reparao,
substituio e morte do sistema.

Verificando as caractersticas de um sistema, facilmente entendemos o porqu


de chamarmos o fluxo dentro do aparelho digestivo de sistema digestivo,
podemos simplificar a ideia de um sistema como algo que possui: entrada,
processamento e sada, logo, as organizaes so sistemas sociais.

Cruzando os conceitos de sistemas com elementos da teoria da complexidade,


Axelrod e Cohen(1999) apresentam o conceito de sistemas adaptativos
complexos(SAC), que podem ser conceituados como os que contm
agentes(pessoas, entidades etc.) ou populaes que procuram se adaptar por
meio da interao. Para Ceci(2010), as organizaes podem ser facilmente

Ps-graduao
25

caracterizadas como sistemas adaptativos complexos, a Figura 1 apresenta um


exemplo desta afirmao:

Figura 1 - Organizao vista como um sistema adaptativo complexo

Organizao (Sistema adaptativo complexo)

Qualidade
Compras Compras Fabricao Qualidade Fabricao

Gerenciamento Qualidade Empacotamento


Compras
Tesoureiro Tesoureiro
Recebimento
Remessa Pessoal Remessa

Marketing Marketing
Pessoal Vendas Vendas
Recepo Recebimento

Fonte: Ceci, 2010.

Percebese que a organizao como um todo um sistema composto por uma


srie de outros subsistemas que interagem, para cumprir as metas organizacionais
ou do seu setor.

Ainda caracterizando uma organizao como um sistema, Gouveia e


Ranito(2004) constroem uma justificativa a partir de cada caracterstica
anteriormente apresentada:
Objetivo: dependendo do nvel de responsabilidade, possvel definir
objetivos tticos, estratgicos e operacionais;
Componentes: as organizaes envolvem uma srie de pessoas, essas
pessoas so agrupadas por funo e atividade. Os departamentos da
empresa contribuem para a prpria organizao, e cada uma dessas
exige informaes em diferentes nveis de responsabilidade;
Estrutura: definida pela forma como a responsabilidade distribuda
pelos indivduos. Lembrando que as estruturas definem as fronteiras;
Comportamento: definido pelos processos organizacionais. Os processos
so sequncias especficas de atividades para realizar os objetivos.
Ciclo de vida: a organizao passa por vrias fases ao longo da sua
vida. Exige uma reviso peridica dos objetivos para assegurar a
suasobrevivncia.

O poder da informao e do conhecimento nas organizaes


26

Vendo a organizao como um sistema, podese afirmar que um sistema de


informao um subsistema tecnolgico, os sistemas de informao consistem
no conjunto de componentes interrelacionados, trabalhando juntos para coletar,
recuperar, processar, armazenar e distribuir informaes com a finalidade de
facilitar o planejamento, o controle, a coordenao, a anlise e o processo
decisrio em empresas.

Os sistemas de informao tm evoludo tanto em importncia para as organizaes,


quanto em tecnologia. Os sistemas de arquivamento manual podem satisfazer
muitas necessidades para organizar e recuperar informaes, mas por meio desses
tornase lenta e difcil a tarefa de recuperar grandes quantidades de informao,
bem como coletar e transmitilas de grandes distncias. Os sistemas de informao
computadorizados, por sua vez, facilitam o acesso aos dados em um nico local,
suportando rpidas e repetidas pesquisas de dados, permitindo tambm recuperar
informaes de mltiplos locais quase sempre instantaneamente.

Com a crescente competitividade entre as organizaes, a tecnologia da


informao ganha valor fundamental para as estratgias de administrao.
Asorganizaes que almejam diferenciais competitivos, para conquistar mercados
e obter vantagens, precisam conhecer as tendncias, desejos e anseios desses
mercados, o que somente poder ser realizado por meio de um eficiente sistema
de informao(LAUDON; LAUDON, 2001).

Decises podem ser estruturadas quando possuem procedimentos bem definidos


e documentados; no estruturadas, quando h bastante subjetividade de
julgamento e avaliao; ou ainda semiestruturadas, quando hbridas em relao
aos tipos referidos. Dessa maneira, diferentes SI so necessrios, a pensar
inclusive pelo ambiente dinmico em que esto inseridos, leiase mercado que
exige respostas rpidas em funo de suas necessidades e mudanas.

A interpretao, por meio dos dados, sobre o que realmente os clientes,


osconcorrentes e outros atores do ambiente interno e externo esto
querendo dizer, mesmo que de forma indireta, auxilia os gestores a monitorar
o desempenho da empresa, possibilitandolhes adotar medidas efetivas para
melhorar seus produtos e processos, bem como utilizar informaes sobre as
melhores prticas de outras empresas, estabelecendo, assim, um padro de
desempenho de alto nvel para essa empresa(GORDON; GORDON, 2006).

Maas(1999) define o sistema de informao como o conjunto interdependente das


pessoas, das estruturas da organizao, das tecnologias de informao(hardware
e software), dos procedimentos e mtodos que deveriam permitir empresa
dispor, no tempo desejado, das informaes de que necessita(ou necessitar) para
seu funcionamento atual e para sua evoluo. Percebese a importncia do item

Ps-graduao
27

pessoas, tanto como trabalhadores de informao e conhecimento como usurios


desses, abrangendo, portanto, alm de tecnologias e um ambiente(organizao), o
componente humano.

Os sistemas de informao influenciam diretamente o modo como os gestores


decidem, planejam e, em muitos casos, determinam como e quais produtos e
servios so produzidos. Atualmente, podem ajudar as empresas a ampliar seu
alcance a mercados distantes, oferecer novos produtos e servios, reformar
tarefas e fluxos de trabalho e at mesmo mudar profundamente a maneira de
conduzir negcios(LAUDON; LAUDON, 2001).

Esse o principal papel para os sistemas de informao, ou seja, sua aplicao


em problemas que se relacionam vantagem competitiva de uma empresa.
Eles tm importncia estratgica, uma vez que se concentram em resolver
problemas relacionados tanto ao desenvolvimento da empresa, a mdio e longo
prazo, quanto a sua sobrevivncia. Tais problemas podem significar a criao ou
inovao em novos produtos e servios, o estabelecimento de novas relaes com
clientes e fornecedores, ou a descoberta de meios mais efetivos de administrar as
atividades da empresa.(BIO, 1996).

Segundo Gouveia e Ranito(2004), o objetivo de um sistema de informao


orientar a tomada de deciso, o seu comportamento deve ser aferido pela forma
como cumpre os objetivos levantados e tambm a capacidade de fornecimento
de dados e informaes de maneira adequada, levando em considerao o seu
formato, tempo e custo.

De maneira geral, os sistemas de informao tm como objetivo fornecer


informaes a partir de dados brutos, de maneira rpida e eficiente para o usurio
que estiver se privilegiando do seu uso.

Os autores Gouveia e Ranito(2004) apresentam, em seu trabalho, as funes dos


sistemas de informao:
coleta de informao: garantir a entrada dos dados do sistema;
armazenamento da informao: assegurar o registro dos dados
necessrios ao sistema;
processamento da informao: prover resposta s exigncias de dados e
informao para suporte do sistema;
representao da informao: permitir uma percepo com qualidade
dos dados e informao disponvel no sistema;
distribuio da informao: assegurar o fluxo de dados e de informaes
no sistema.

O poder da informao e do conhecimento nas organizaes


28

Para suportar o desenvolvimento de sistemas de informao, Almeida(1998)


apresenta uma metodologia para o seu planejamento que pode ser resumida
naFigura 2:

Figura 2 - Metodologia para Planejamento de SI

Viso Estratgica

Engenharia de Processos de Negcios

Engenharia da Informao
Dados Corporativos

Modularizao

Priorizao

Plano de Ao

Fonte: Almeida(1998).

Percebese que o primeiro passo no planejamento de um sistema de informao est


centrado no levantamento da viso estratgica, a partir do estudo da organizao, o
prximo passo a criao da definio de todos os processos que so desenvolvidos
nos vrios setores da organizao, naFigura2 essa etapa representada pelo
quadrado Engenharia de Processos de Negcios(ALMEIDA, 1998).

Da mesma forma que na engenharia de software, inicialmente, fazse o


levantamento dos requisitos do sistema a partir das necessidades do cliente e do
usurio dos sistemas. No planejamento do sistema de informao no diferente,
podese perceber isso no fato dos dois processos iniciais(levantamento da viso
estratgica da organizao e engenharia de processo de negcio) serem focados no
entendimento da organizao, seus processos e necessidades. A partir dessas duas
etapas, so facilmente levantados os requisitos para o desenvolvimento do sistema
de informao que ir auxiliar o processo decisrio da organizao em questo.

O quadrado apresentado na Figura 2 e intitulado de Engenharia de Informao,


como o prprio nome sugere, focado nas informaes que sero consumidas e
geradas pelo SI. Essa etapa dividia em 3 outras etapas, as quais so:
Dados corporativos: so relevantes para a organizao, eles
representam a entrada principal para a gerao da informao por
parte do SI. Esses dados e informaes devem atender a todos os
processos levantados anteriormente;

Ps-graduao
29

Modularizao: nessa fase construda a estrutura informacional da


organizao(ALMEIDA, 1998). onde as fontes so organizadas;
Priorizao: nesta ltima fase analisase qual dos grupos de informaes
levantados na fase anterior mais prioritrio, ou seja, os mdulos de
informao so organizados por prioridade, para poder gerenciar as
fontes de uma maneira mais efetiva.

A ltima etapa o Plano de ao, segundo Almeida(1998), esse plano o


resultado do encadeamento das informaes obtidas nas fases anteriores,
objetivando a apresentao das diretrizes e metas para o desenvolvimento do SI.

O uso dos sistemas de informao muito importante para a organizao, como j


foi visto nesta leitura, mas existem outros componentes que so to importantes
quanto o prprio SI para o seu sucesso. A Figura 3 ilustra melhor esta afirmao:

Figura 3 - Composio de um sistema de informao


Ambiente externo

Pessoas Gesto de
atividades
Sistema de
informao

Tecnologia

Fonte: Gouveia e Ranito(2004).

O recurso humano tem uma grande importncia para os sistemas de informao,


seja tomadores de deciso, produtores de informao e construtores de
conhecimento, entre outros, pois so vistos como peas fundamentais para o SI.
Analisando a Figura 3, percebese claramente que sem a combinao das pessoas,
com a tecnologia e a gesto das atividades, a organizao no ter um sistema de
informao atuando efetivamente.

Concluise que a informao estratgica para a camada tomadora de deciso,


eque os sistemas de informao so um meio para se chegar at elas. Percebese
que o uso de sistemas de informao de maneira s no eficiente, necessrio
a participao de pessoas qualificadas e ter uma gesto das atividades que sero
apoiadas com a sada do SI.

O poder da informao e do conhecimento nas organizaes


30

Referncias

ALMEIDA, Adiel Teixeira de. Um modelo de deciso para a priorizao no planejamento de


sistemas de informao. Prod., So Paulo, v. 8, n. 2, Dec. 1998. Available from <http://www.
scielo.br/scielo.php?script=sci_arttext&pid=S010365131998000200003&lng=en&nrm=iso>.
Acessado em 15 Dez. 2011

AXELROD, R.; COHEN, M. D. Harnessing Complexity: Organizational Implications of a


Scientific Frontier. Free Press, New York, 1999.

BIO, Srgio Rodrigues. Sistemas de informao: um enfoque gerencial. So Paulo: Atlas, 1996.

CECI, Flavio. O conhecimento nas organizaes como um sistema adaptativo complexo. In:
ROVER, Aires J.; CARVALHO Marisa A..(Org.). O sujeito do conhecimento na sociedade em
rede. 001 ed. Florianpolis: Editora: Fundao Jos Arthur Boiteux, 2010, v. 001, p. 2072010

GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.

GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.

LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando


a empresa digital. So Paulo: Prentice Hall, 2001.

MAAS, Antonio Vico. Administrao de sistemas de informao. So Paulo: rica, 1999.

Ps-graduao
31

Classificao dos sistemas de informao


Glucio Adriano Fontana e Flvio Ceci

Os sistemas de informao nas empresas podem ser classificados de muitas maneiras,


representando diferentes possibilidades de uso. Uma classificao, apresentada
por Laudon e Laudon(2001) feita por meio dos nveis hierrquicos, aos quais os
sistemas de informao do suporte operacional, gerencial ou estratgico.

Os Sistemas de Nvel Operacional so direcionados ao suporte das atividades


fins da empresa, acompanhando a rotina, indicando o nvel das vendas, compras,
fluxo de caixa, emisso de notas fiscais. Esses sistemas esto ligados diretamente
s operaes e ao dia a dia, e so denominados Sistemas de Informaes
Transacionais(SIT), formando a base de informaes para os Sistemas de
Informaes Gerenciais(SIG) e Sistemas de Apoio Deciso(SAD).

Os Sistemas de Nvel Gerencial so direcionados ao controle e monitoramento das


atividades relacionadas ao nvel operacional, indicando simulaes de cenrios
estruturados, sendo um sistema direcionado mdia gerncia, e podem ser
divididos em dois tipos de sistemas: os Sistemas de Informaes Gerenciais(SIG),
que so destinados ao suporte de atividades, agregando dados internos e
apresentando resumos das transaes operacionais, permitindo acompanhar o
andamento e comparar desempenhos e os Sistemas de Apoio Deciso(SAD),
direcionados a apoiar a deciso em situaes no rotineiras e semiestruturadas.

Os Sistemas de Nvel Estratgico so direcionados para situaes e decises


no estruturadas, tais como: tendncia, posicionamento da empresa, mudanas
no ambiente interno ou externo, e so classificados como Sistemas de Suporte
aos Executivos(SSE), com base na comunicao e utilizao de informaes
externas(LAUDON; LAUDON, 2001).

Os sistemas de informao esto presentes em vrios nveis da organizao,


afigura a seguir ilustra est afirmao:

O poder da informao e do conhecimento nas organizaes


32

Figura 1 - SI em relao com a hierarquia organizacional

Apoio s
Estratgias para
Vantagem Competitiva

Apoio Tomada de Deciso Empresarial

Apoio s Operaes e aos Processos

Fonte: OBrien, 2004 apud Oliveira; Carreira; Moreti, 2009.

Os sistemas transacionais ou de apoio operao esto atuando diretamente


sobre a base da pirmide, onde se tem como objetivo atuar junto base de
dados operacional, automatizando tarefas. A camada de Apoio Tomada de
Deciso Empresarial coberta pelos sistemas de apoio deciso, que procuram
prover ferramentas para auxiliar as decises organizacionais. O nvel mais alto da
pirmide conta com o Apoio s Estratgias para Vantagem Competitiva, nesse
caso, tambm se faz uso dos sistemas de apoio deciso, mas esse no busca
reforar as decises operacionais, mas as estratgicas, ou seja, centrado na
camada gerencial da organizao.(OLIVEIRA; CARREIRA; MORETI, 2009).

Tipos de Sistemas de Informao


As organizaes utilizam vrios tipos de Sistemas de Informao porque esses
possuem funes diferentes, embora possam funcionar em conjunto, suportando
uns aos outros, isto , fornecendo informaes entre si. Os sistemas foram
classificados de acordo com seus objetivos e tipos de informaes que manipulam
e podem ser classificados em mais de um tipo.

Segundo Oliveira, Carreira e Moreti(2009), a visualizao dos tipos de sistemas


operacionais a partir de um organograma auxilia no seu entendimento:

Ps-graduao
33

Figura 2 - Tipos de Sistemas de Informaes

Sistemas de
Informao

Sistemas de Apoio
Apoio s Sistema de
Apoio s Tomada de
Operaes Apoio Gerencial Deciso Gerencial
Operaes

Sistema de Sistemas de Sistemas de Sistemas de Sistemas de


Sistemas de
Processamento Controle Informao Apoio Informao
Colaborativos
de Transaes de Processos Gerencial Deciso Executiva
Processamento Controle de Colaborao entre Relatrios Apoio Interativo Informao
de Transaes Processos Equipes e Grupos Padronizados Deciso Elaborada
Industriais de Trabalho para os Gerentes Especificamente
para Executivos
Fonte: OBrien, 2004 apud Oliveira; Carreira; Moreti, 2009.

Percebese que a Figura 2 est dividindo os sistemas de informao pela sua


aplicao dentro da organizao, no nvel logo abaixo da caixa Sistemas de
informao, vse a diviso por apoio s operaes da organizao ou apoio
tomada de deciso gerencial.

Abaixo da caixa dos sistemas de apoio s operaes esto os sistemas de


processamento de transao, de controle de processos e os colaborativos.
Elesatuam diretamente sobre os dados operacionais armazenados nos bancos de
dados da organizao, entregam para os usurios dados resultantes de consultas
e informaes para apoio operacional.

Os sistemas de apoio deciso esto diretamente ligados com a camada gerencial


da organizao, a que est ligada s atividades estratgicas. Esses sistemas atuam
sobre repositrio de dados dimensionais(data warehouses) e bases de dados com
valores consolidados, a fim de facilitar a entrega de informaes estratgicas para
apoio deciso.

O poder da informao e do conhecimento nas organizaes


34

Sistemas de Informao Transacionais

Os sistemas de informao transacionais so os mais simples e os mais comuns


nas organizaes. Eles apoiam as funes operacionais da organizao, aquelas
realizadas no dia a dia. Por isso, so facilmente identificados no nvel operacional
da organizao(fechamento de um pedido, matrcula de um aluno, emisso de
uma receita mdica, dar baixa no estoque, emitir uma nota fiscal etc.).

Geralmente, so os primeiros a serem implantados, apesar de essa no ser


necessariamente uma regra. A razo que so os mais fceis e baratos de
serem implementados(ou adquiridos), alm de darem origem aos sistemas mais
avanados(gerenciais e de apoio deciso). As informaes tm de ser reunidas
earmazenadas de alguma maneira!

Esses sistemas tm por objetivo processar dados, isto , fazer clculos, armazenar
e recuperar dados(consultas simples), ordenar e apresentar de forma simples
dados para os usurios. Seu benefcio principal a agilizao nas rotinas e tarefas,
incluindo documentao rpida e eficiente, busca acelerada de informaes
e clculos rpidos e precisos. Outros benefcios podem ser conseguidos com
esse tipo de sistema, como, por exemplo, confiabilidade, reduo de pessoal e
custos e melhor comunicao(interna entre setores ou externa com clientes
efornecedores). Incluemse entre eles: sistemas de cadastro em geral(incluso,
excluso, alterao e consulta), como de clientes, produtos e fornecedores;
ossistemas de contabilidade(contas a pagar e a receber, balanos, fluxo de caixa,
etc.); sistemas de vendas e distribuio(pedidos, entregas), folha de pagamento,
controle de estoque.

Dois casos especiais de SIs rotineiros, de acordo com Loh(2009), so:


os sistemas de gesto empresarial(ERP): responsveis por administrar,
automatizar ou apoiar todos os processos de uma organizao de
formaintegrada;
os sistemas de automao comercial: que incluem apoio s vendas,
estoque e contabilidade, com uso de terminais ponto de venda(PDV) e
centrais automatizadas, como se v em supermercados e lojas em geral.

No mercado, hoje, existem inmeros pacotes de software prontos(j


implementados) para serem adquiridos, a preos bem acessveis, o que pode ser
mais vantajoso do que desenvolver o software por conta prpria ou com terceiros.

Ps-graduao
35

Sistemas de Informaes Gerenciais e Sistemas de Informao


Executiva

Como o prprio nome diz, os SIGs surgiram com o intuito de auxiliar gerentes em
suas funes. Com o passar do tempo, esse tipo de sistema acabou sendo usado
por qualquer funcionrio que tome decises.

Eles atuam como um espelho de um setor, dando uma ideia das atividades
sumarizadas de um departamento.

O objetivo de um SIG fornecer informaes para a tomada de decises, ou


seja, so sistemas que fornecem relatrios. O usurio deve solicitar, de alguma
forma,(escolha por menus, uso de comandos etc.) a informao de que
necessita e o SIG procura tal informao em seus registros, apresentandoa da
melhor maneira possvel ao usurio. Essa maneira pode ser textual(relatrios
descritivos), por planilhas ou de modo grfico. Esse ltimo caso o preferido
pelos administradores, pois oferece mais informaes em menor espao(uma
figura vale por mil palavras), por meio de grficos.

importante que o relatrio tenha o nvel de detalhe adequado ao usurio:


no pode ser muito detalhado ou extenso, de modo a facilitar o uso do gestor.
Oresumo em abundncia deve ser evitado para no correr riscos de omisso de
detalhes importantes para a tomada de deciso. Os SIGs aparecem nos 3 nveis
da pirmide administrativa(estratgico, ttico e operacional), sempre que houver
alguma deciso sendo tomada(LOH, 2009).

Um caso especial de SIG so os EIS(Executive Information Systems), que


possibilitam diferentes vises dos dados de uma organizao, por meio de
operaes tipo zoom. Por exemplo, em uma empresa que fabrica produtos de
beleza, podese ver a produo por filial ou por regio ou ento analisar em
detalhe o desempenho de cada gerente de produo(zoom in). Por outro lado,
podese verificar a produo por produto especfico ou por categorias de produto.

Os EIS, do ponto de vista segmentado:


Coleta: os dados so coletados de fontes internas e externas.
Processamento: programas que disponibilizam resumos, grficos de
modo a transformar a mesa do executivo em um centro de controle.
Disponibilizam tambm meios de comunicao para comentar decises
com outros executivos.
Armazenamento: os dados armazenados devem espelhar a situao
atuale as tendncias.

O poder da informao e do conhecimento nas organizaes


36

Distribuio: geram relatrios e grficos que permitem ter o controle e


tomar decises.
Feedback: permite obter relatrios que indicam desvios dos objetivos.

Sistemas de Apoio Deciso

Um SAD recebe, como entrada, alternativas para soluo de um problema e


devolve as consequncias para cada alternativa. Assim, o administrador pode
avaliar qual a melhor alternativa. O SAD no decide qual a melhor deciso,
nemindica que alternativas existem.

A diferena para o SIG que um SAD interativo(o usurio pode entrar com
vrias alternativas) e ainda avalia as alternativas por meio de tcnicas de
whatif(= e se eu fizer isso, o que acontecer... tipo de anlise que testa
mudana das variveis e suas consequncias), tais como projeo e regresso.

Em Loh(2009) dado um exemplo: qual o preo final de um produto? Para


responder a essa pergunta, podemos utilizar as seguintes frmulas:
Lucro = receitas total despesas
Receitas = quantidade vendida X preo final
Preo final = custo unitrio X margem de lucro
Total de despesas = custo de produo + despesas gerais
Custo de produo = quantidade produzida X custo unitrio

Percebese que os sistemas de apoio deciso so a resposta para os problemas


da falta de agilidade na tomada de deciso por parte da camada gerencial das
organizaes. Esses sistemas cada vez mais estaro presentes nas empresas,
damesma forma que os sistemas de informaes transacionais fazem parte do
cotidiano de praticamente todos os segmentos.

Referncias

LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando


a empresa digital. So Paulo: Prentice Hall, 2001.

LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.


Disponvel em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.

OLIVEIRA, Andr Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a
gesto de negcios com a utilizao de tecnologias de informao. Revista de Cincias
Gerenciais. Vol XIII, N 17, 2009.

Ps-graduao
37

Sistemas de apoio deciso


Flvio Ceci

Os sistemas de informao so, para as organizaes, uma poderosa ferramenta


para a gesto das suas operaes cotidianas, bem como para auxiliar a tomada
de deciso. Na leitura anterior, podese verificar que os sistemas de informao
possuem vrios tipos de classificao, talvez a mais natural seja pela sua atividade
foco. Tendo em vista essa classificao, temse, inicialmente, dois principais grupos
de sistemas de informao, quais so:
Sistemas de apoio s operaes: sistemas caracterizados por apoiar as
atividades operacionais da organizao, ou seja, auxiliar os processos no
nvel de transaes, como por exemplo: controle de estoque, contas a
receber, cadastro de clientes, entre outros.
Sistemas de apoio gerencial: so sistemas focados no auxilio a atividades
estratgicas da organizao, apoiando a camada tomadora de deciso.

Atualmente, muitas organizaes, independente do seu tamanho(de pequeno,


mdio ou grande porte), possuem sistemas de apoio as suas operaes,
omotivo para tal pela vasta quantidade de sistemas j desenvolvidos para os
inmeros segmentos com preos acessveis. Tento as operaes e transaes da
organizao suportadas por sistemas de informao, passouse a buscar solues
computacionais para apoiar as decises de maneira estratgica.

Segundo Gouveia e Ranito(2004), as organizaes atuais competem entre si para


entregar solues aos clientes de maneira mais eficiente, de modo que o produto
e/ou servio seja de maior qualidade e de baixo custo, informaes que possam
auxiliar nessas solues so tidas como estratgicas e de muito valor para a
tomada de deciso.

At aqui se fala muito em tomada de deciso, mas o que so decises?


ParaBidgole(1989) e Mittra(1996) apud Barbosa e Almeida(2002), podese
classificar decises da seguinte forma:
Deciso estruturada: possui procedimentos operacionais padro, bem
definidos e muito bem projetados. Conta com sistemas de informao
simples, programveis e baseado em lgica clssica, fatos e resultados
bem definidos, voltados para camada mais de base da organizao.
Deciso semiestruturada: no possui procedimento bem definidos, mas
inclui aspectos de estruturao. Podese contar em partes com o apoio
de sistemas de informao.
Deciso no estruturada: no possuem qualquer padro de procedimento
operacional. Conta fortemente com a intuio, experincia do tomador de
deciso. So difceis de formalizar, envolvem heursticas, tentativas e erro.

O poder da informao e do conhecimento nas organizaes


38

O processo de tomada de deciso teve um modelo desenvolvido por Simon(1960)


apud Cabral(2001), que dividido em 3 fases iterativas e interativas:
reconhecimento: consiste no levantamento do problema ou
oportunidade de mudana;
desenho: consiste na verificao e na estruturao das decises opcionais;
escolha: relacionase com as avaliaes e com a escolha da melhor alternativa.

Para ilustrar a interao entre as trs fases do processo de tomada de deciso


Cabral(2001) apresenta a seguinte figura:

Figura 1 - Interao entre as fases da tomada de deciso

Reconhecimento

Desenho

Escolha

Fonte: Cabral, 2001.

Pela anlise da figura acima, facilmente percebido o motivo para a


caracterizao das fases como iterativas e interativas, por exemplo, um
gestor percebe que determinado produto no est gerando lucros para a
organizao(fase de reconhecimento), a partir dessa informao, ele levanta as
possveis alternativas para o problema em questo(fase de desenho), o ponto
que em algumas dessas alternativas podese verificar que ser gerado outro
problema ou oportunidade. Com isso, fazse necessrio que voltemos para a etapa
de Reconhecimento, aps levantar todas as possibilidades, o gestor pode tomar
uma deciso(fase de escolha). Se a deciso resolver o problema em questo,
finalizase o processo de deciso, caso contrrio, podese voltar para a fase inicial.

Segundo Heinzle, Gauthier e Fialho(2010), a tomada de deciso podese definir


como um processo que consiste em optar(escolher) uma, ou algumas, entre
vrias alternativas para a realizao de uma ao, levando em considerao os
possveis reflexos presentes e futuros que a escolha pode gerar.

Como j foi apresentado anteriormente, os sistemas de apoio deciso so os


sistemas de informao responsveis a auxiliar os gestores das organizaes na
etapa de tomada de deciso.

Ps-graduao
39

Os sistemas de apoio deciso(SAD) comearam a surgir no final da dcada de60,


mas somente em 1971 esse termo foi apresentado numa publicao de Gorry
e Scottmorton. Nos anos seguintes, o desenvolvimento deste tipo de sistema
tornouse muito comum, acarretando em evolues muito significativas para a
rea. Na dcada de 80, com a popularizao do uso dos computadores devido
significativa reduo do preo do software e do hardware, as organizaes
passaram a utilizar computadores para auxiliar no seu ambiente de trabalho,
dessamaneira, os gestores tinham condio de ter os seus sistemas de apoio
deciso personalizados realidade da sua empresa(CABRAL, 2001).

Segundo Barbosa e Almeida(2002), os sistemas de apoio deciso tm como


objetivo dar suporte aos processos decisrios que apresentam problemas de
estruturao, alm de apresentarem caractersticas tecnolgicas estruturais e
de utilizao especfica. Os SAD visam a apoiar decises semi e no estruturadas.
Para Heinzle, Gauthier e Fialho(2010), os SAD so sistemas computadorizados
que possibilitam comparar, analisar, sumular e apoiar a escolha de alternativas,
com base na criao de cenrios que incluem um significativo nmero de variveis
relacionadas ao domnio de um processo decisrio.

Laudon(2001) chama os SAD como sistemas de suporte a deciso. Em seu


trabalho, ele apresenta algumas caractersticas que diferenciam esse tipo de
sistema dos demais tipos de sistemas de informao:
Disponibilizar para o usurio flexibilidade, e respostas rpidas;
Permitir iniciar e controlar os processos de entrada e sada;
Funcionar com pouco ou nenhum suporte de programadores;
Permitir apoio para as decises e problemas para os quais as solues
no podem ser identificadas previamente;
Utilizarse de anlises sofisticadas e de ferramentas de modelagem.

Ainda sobre as caractersticas dos sistemas de apoio deciso, Turban(1990) apud


Cabral(2001) apresentam outras caractersticas:
Incorporam modelos e dados;
So sistemas focados em auxiliar o gestor na tomada de deciso a
problemas semiestruturados e no estruturados;
Do suporte tomada de deciso, mas dependem da avaliao do gestor;
O objetivo melhorar a qualidade das decises e no a eficincia em que
as decises so tomadas.

Os sistemas de apoio deciso possuem uma arquitetura bsica. Segundo


Heinzle(2010), a arquitetura composta por trs subsistemas:

O poder da informao e do conhecimento nas organizaes


40

Subsistema de dados: composto pelo gerenciador de dados, que tem


como responsabilidade a construo e gerncia do banco de dados,
que possui dados relacionados com o domnio do problema. Nesse
subsistema esto contemplados sistemas de extrao, transformao
e carga de dados. Tambm se pode utilizar de repositrios de dados ao
estilo Data Warehouse.
Subsistema de modelos: composto pelo banco de modelos e seu
gerenciamento. Neste subsistema esto as estratgias analticas
que atuam sobre os dados disponibilizados pelo subsistema de
dados. Tambm podem existir motores de inferncia para auxiliar o
processamento dos dados, gerando informaes e conhecimentos
valiosos para a etapa de tomada de deciso.
Subsistema de interface: como o prprio nome sugere, responsvel
pela interao entre o sistema e o usurio. Oferece, por meio de uma
interface grfica, componentes para auxiliar a anlise das informaes
processadas no subsistema de modelo. Esse subsistema tambm pode
suportar processadores de linguagens naturais.

A figura 2 apresenta como os subsistemas se interagem na arquitetura de um SAD:

Figura 2 - Arquitetura de um SAD

Sistema de Apoio Deciso


Dados Internos Modelos Internos
e Externos e Externos
Banco de Banco de
Dados Modelos

Gerenciador Gerenciador
de Dados de Modelos

Software
SAD

Interface

Usurio

Fonte: Sprague e Watson(1989) apud Heinzle(2010).

Ps-graduao
41

Como se pode observar na Figura 2, todas as requisies so feitas ao subsistema


de interface, que pode acessar diretamente o subsistema de dados para
apresentar o resultado de uma consulta, ou ainda aplicar um processo de anlise
sobre os dados, a fim de gerar informaes mais relevantes, que auxiliem no
processo decisrio.

Atualmente, a implementao dessa arquitetura mais utilizada a de Business


Intelligence(BI) que, segundo Fourlan e Gonalves Filho(2005), a evoluo dos
sistemas de apoio deciso.

A Figura 3 apresenta uma arquitetura de BI e como o seu fluxo de carga dos


dados, a partir dos sistemas de informao da organizao:

Figura 3 - Arquitetura de BI

Data Mining

ERP Fonte de
dados
Sistema de Operacionais
Gesto da Empresa
Data
Warehouse

Fonte de
dados OLAP
Operacionais Metadados
Metadados
Metadados

Business Intelligence
Fonte: Fourlan; Gonalves Filho, 2005.

A arquitetura de BI traz alternativas para os trs subsistemas apresentados na


arquitetura clssica dos sistemas de apoio deciso.

No subsistema de dados so utilizados geralmente repositrios do tipo Data


Warehouse, esses, geralmente, utilizamse da modelagem dimensional. A partir
dos dados operacionais provenientes dos sistemas de informao da organizao,
organizaos na forma de dimenses e fatos para auxiliar a etapa de analise.

Os subsistemas de modelo da arquitetura clssica de SAD so atendidos por


ferramentas de minerao de dados(Data mining), essas tm como funo explicitar
as informaes e conhecimentos implcitos nas bases de dados da organizao.

O poder da informao e do conhecimento nas organizaes


42

O ltimo dos trs subsistemas da arquitetura clssica de SAD, o subsistema de


interface, representado na arquitetura de BI pelas ferramentas OLAP, que so
responsveis pela apresentao e pelo cruzamento das informaes, a fim de
apoiar o processo decisrio.

Referncias

BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de apoio deciso sob o
enfoque de profissionais de TI e de decisores. XXII Encontro Nacional de Engenharia de
Produo. Curitiba, 2002.

CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio deciso O Sistema de


Apoio ao Licenciamento da Direo Regional do Ambiente do Alentejo. Dissertao para
obteno do grau de Mestre em Sistemas de Informao Geogrfica. Universidade Tcnica
de Lisboa. Portugal, 2001.

FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de aplicao de


Business Intelligence no chodefbrica. Gesto e Produo. V.12, n.1, p. 5566, 2005.

GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto. Porto,
Portugal: Sociedade Portuguesa de Inovao, 2004.

HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de apoio


deciso com recursos para raciocnio abdutivo. Tese para obteno do grau de Doutor
em Engenharia e Gesto do Conhecimento. Universidade Federal de Santa Catarina.
Florianpolis, 2010.

HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.


Semntica nos sistemas de apoio deciso: o estado da arte. Revista da Unifebe, v. 1,
p.Artigo 14, 2010.

LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informao gerenciais: administrando


a empresa digital. So Paulo: Prentice Hall, 2001.

Ps-graduao
43

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:

a. ( ) As ontologias so estruturas formadas para representao de dados.

b. ( ) O processo de sntese utilizado na transformao da informao para


oconhecimento.

c. ( ) O paradigma de transporte demonstrou, ao longo do tempo, sua


eficincia e utilizado at hoje na Nova Engenharia do Conhecimento.

d. ( ) Os Sistemas de Informao possuem uma classificao muito bem definida.

e. ( ) A arquitetura clssica de um Sistema de Apoio Deciso composta por


trs subsistemas: de dados, de modelo e de interface.

f. ( ) Podese afirmar que Business Intelligence uma evoluo de sistemas de


apoio deciso.

g. ( ) O subsistema de modelo da arquitetura clssica de SAD equivalente ao


Data Warehouse da arquitetura de BI.

h. ( ) Uma organizao pode ser vista como um sistema, desde que ela faa uso
de computadores.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e de apoio deciso. Responda pergunta a seguir utilizando a
ferramenta Frum, no se esquea de comentar as respostas dos seus colegas.

O uso de dados disponveis na Web(como por exemplo, em mdias sociais) pode


auxiliar os sistemas de apoio deciso na entrega de uma informao mais
estratgica para a organizao?

O poder da informao e do conhecimento nas organizaes


44

Sntese
Nesta unidade foi apresentada uma viso geral entre dado, informao e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Aps isso, foi visto o
que so sistemas de informao, qual a sua utilidade e como se pode classificlos.
Por fim, foi apresentada uma viso geral sobre os sistemas de apoio deciso e
como eles podem agregar valor camada gerencial das organizaes.

Saiba Mais
Artigos muito interessantes que valem a pena serem lidos para complementar o
estudo desta unidade.

HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio


P. Semntica nos sistemas de apoio deciso: o estado da arte. Revista da
Unifebe, v. 1, p. Artigo 14, 2010. Disponvel em: <http://www.unifebe.edu.br/
revistadaunifebe/2010/artigo014.pdf>.

FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de


aplicao de Business Intelligence no chodefbrica. Gesto e Produo. V.12, n.1,
p. 5566, 2005. Disponvel em: <http://www.scielo.br/pdf/%0D/gp/v12n1/a06v12n1.pdf>.

Ps-graduao
Unidade 2

Colocando inteligncia nos negcios

Objetivos de Aprendizagem
Assimilar conceitos bsicos de Business Intelligence;
Examinar a arquitetura bsica de um sistema de BI e suas partes;
Identificar o BI em diferentes meios.

Introduo
As organizaes esto inseridas num cenrio que est em constante modificao
e mutao. Teorias baseadas na ideia da complexidade so aplicadas sobre o
modelo organizacional, para terse um melhor entendimento e uma possvel
previso de modificao em curto prazo.

Esse contexto, combinado com a crescente quantidade de dados digitais gerados


de maneira desordenada e distribuda em vrios setores da organizao, gera
uma srie de demandas para o departamento de TI, de modo que seja gerado
ferramental computacional para ajudar a camada gerencial no ganho de agilidade
na tomada de deciso.

As utilizaes de estratgias de BI esto cada vez mais presentes nas organizaes,


como suporte computacional para a camada tomadora de deciso, mas ser que
o BI por si s resolve os problemas citados anteriormente? E qual o futuro do BI,
ser que existem pesquisadores que esto pensando em sua evoluo de modo a
sempre acompanhar as tendncias do mercado? Este captulo tem como objetivo
dissertar sobre essas perguntas.
46

O que Business Intelligence?


Flvio Ceci

Nesta leitura, so apresentados mais detalhes sobre Business Intelligence(BI), os


seus pontos histricos, sua evoluo, objetivos, entre outras informaes relevantes.

As constantes mudanas nas relaes econmicas afetam substancialmente a


administrao das organizaes, que so obrigadas a buscar meios para garantir sua
sobrevivncia, melhorarem o desempenho empresarial e, com isso, promover seu
crescimento em mercados cada vez mais competitivos. Ao afetarem o ambiente
empresarial, essas mudanas fazem as organizaes repensarem sua estrutura para
se adaptar s novas exigncias do mercado(GORDON; GORDON, 2006).

Ainda conforme Gordon e Gordon(2006), a TI permite que as pessoas, grupos


e organizaes faam a gesto de suas informaes de maneira eficiente. A TI
possui a capacidade de atuar diretamente sobre a necessidade de uma melhora na
qualidade e disponibilidade de informaes e conhecimento organizacionais, alm
de oferecer oportunidades sem precedentes para melhoria dos processos internos
e dos servios prestados ao consumidor final, devese ao fato de que Avanos
significativos na tecnologia de informao tornaram possvel obter, gerir e usar
quantidades enormes de informao a um custo relativamente baixo(GORDON;
GORDON, 2006, p.5).

Nesse contexto, entre os recursos tecnolgicos, a Tecnologia da Informao(TI)


tem sido considerada como um fator importante para potencializar o
desenvolvimento dos processos produtivos e da gesto das organizaes.

Aplicar inteligncia a negcios no sinnimo de TI, como vastamente confundido,


mas significa que a primeira no vive sem a segunda. importante entender que
a TI prove ferramental para que a camada gerencial possa tomar as decises.
Podese fazer uma analogia com a relao que existe entre a engenharia do
conhecimento e a gesto do conhecimento. A engenharia do conhecimento
responsvel por gerar ferramental computacional e metodolgico para apoiar os
processos da gesto do conhecimento.

Histrico
O termo Business Intelligence foi patenteado pela empresa Gartner, mas, na
prtica, esse conceito j era aplicado muito antes do invento dos computadores,
pelos povos antigos. A sociedade do Oriente Mdio antigo utilizavase dos
princpios bsicos de BI quando cruzavam informaes obtidas pela natureza

Ps-graduao
47

para auxiliar na tomada de deciso das aldeias. A anlise do comportamento


das mars, o levantamento dos perodos chuvosos e de seca, a movimentao e
posicionamento dos astros era a forma de obter informaes que serviam de base
para a tomada de decises importantes para a comunidade(PRIMAK, 2010).

No contexto computacional, a partir da dcada de 70 os pacotes de softwares


analticos comeam a surgir no mercado, esses pacotes de dados trabalhavam na
gesto dos dados transacionais. Na dcada de 90, as planilhas eletrnicas, como
Lotus 123 e, posteriormente, o Excel, facilitaram ainda mais a anlise de dados,
possibilitando a utilizao de filtros e a construo de grficos de maneira simples.
As planilhas eletrnicas fizeram tanto sucesso que so utilizadas at hoje pelas
empresas. O uso de consultas utilizando SQL possibilitou ainda o desenvolvimento
de sistemas baseados em modelos relacionais e, posteriormente, em modelos
dimensionais, dando suporte a arquitetura de BI(RASMUSSEN; GOLDY; SOLLI, 2002).

Figura 1 Evoluo a partir de relatrios estticos para business intelligence

Alto 2002
Ao - BI
Interao com o usurio

1996 Aconselhar - Minerao de Dados

Anlise - Processamento analtico online


1992

Investigao - Sistemas de Informao Executiva

1985 Agregao - Sistemas de Informao Gerencial

Baixo Relatrios
Baixo Recursos analticos Alto
Fonte: Adaptado de Rasmussen, Goldy e Solli(2002).

A Figura 1 apresenta a evoluo dos recursos analticos em relao possibilidade


de interao dos usurios na anlise em questo. Analisando a figura acima, vse
que os primeiros recursos analticos apresentados so os relatrios.

Os relatrios so utilizados at hoje pelas organizaes, o seu uso possibilita a


apresentao de dados e informaes de maneira esttica, basicamente uma
fotografia de um cenrio ou situao. A interao com o usurio muito baixa,
permitindo apenas o consumo do seu contedo.

Colocando inteligncia nos negcios


48

Entre a dcada de 80 e 90 surgem os recursos analticos classificados como de


agregao(sistemas de informao gerencial) e de investigao(sistemas de
informaes executivas), esses recursos permitem uma interao com o usurio
maior, possvel entrar com consultas, o que permitia uma melhor investigao
dos fatos nas informaes retornadas pelos sistemas de informao.

importante ressaltar que a partir da dcada de 90 surge a necessidade das


organizaes serem capazes de fazer anlises e planejamentos de modo a reagir
a mudanas dos negcios rapidamente. O motivo para tal um mercado cada vez
mais competitivo e um consumidor cada vez mais exigente(SASSI, 2010).

A partir de meados da dcada de 90, percebese mais duas caractersticas


dos recursos analticos, o de anlise(OLAP) e o de aconselhar(minerao de
dados). Nesse perodo, so inseridas inteligncias nos sistemas de informao,
permitindo uma anlise muito mais detalhada, de modo que as tcnicas de
inteligncia artificial utilizadas possam explicitar muitas informaes estratgicas
para a camada tomadora de deciso.

Ainda a partir da dcada de 90, inserida a caracterstica de ao aos


recursos analticos, provendo uma grande interao por parte dos usurios.
Essacaracterstica possibilitada pelos sistemas construdos em cima de uma
arquitetura de business intelligence.

Definio
Percebese que as prticas de business intelligence representam uma das
abordagens mais modernas da evoluo dos sistemas de apoio s decises
tradicionais. Mas afinal, o que business intelligence?

Segundo Crtes(2002) apud Sell(2006), business intelligence um conjunto


de conceitos e metodologias que visam a apoiar a tomada de decises nos
negcios, a partir da transformao do dado em informao e da informao
emconhecimento.

Silva(2011, p.32), afirma que business intelligence:

consiste na transformao metdica e consciente dos dados


provenientes de quaisquer fontes de dados(estruturados e no
estruturados) em novas formas de proporcionar informao e
conhecimento dirigidos aos negcios e orientados aos resultados.

Ps-graduao
49

Podese conceituar BI tambm como a utilizao de vrias fontes de


informao para firmar estratgias de competitividade nos negcios da
organizao(NAPOLI, 2011).

Para Almeida et al.(1999) apud Sell(2006), BI objetiva usar os dados da


organizao para apoiar decises bem informadas, facilitando o acesso e a anlise
de dados, assim, possibilita a descoberta de novas oportunidades.

As ferramentas provenientes da arquitetura de BI podem fornecer uma viso


sistmica dos negcios da organizao, ajudando na distribuio uniforme dos
dados entre os usurios, tambm se pode definir BI como um guardachuva
conceitual, tendo em vista que tem como preocupao capturar dados,
informaes e conhecimentos que permitam a organizao agir com mais
eficincia em uma abordagem evolutiva de modelagem de dados, capaz de
promover a estruturao da informao em repositrios retrospectivos e
histricos(REGINATO; NASCIMENTO, 2007).

De acordo com Sharma e Gupta(2004) apud Sell(2006), implantaes


bemsucedidas de solues de BI proveem uma viso integrada do negcio,
estendem as capacidades analticas dos usurios e impulsionam a formao de
expertise nas organizaes.

O investimento em BI por parte das organizaes incentivado pela necessidade


de criao de um ambiente prativo para a tomada de deciso, com base nos seus
sistemas transacionais(SILVA, 2011).

Objetivos
O foco de solues de BI facilitar o entendimento do negcio das organizaes,
fornecendo a todos os nveis das organizaes informaes relevantes sobre
suas operaes internas e o ambiente externo, incluindo clientes e competidores,
parceiros e fornecedores(SELL, 2006). O ambiente externo inclui ainda variveis
independentes que possam impactar no negcio, como tecnologia, leis e
economia mundial, entre outros(BROHMAN et al., 2000 apud SELL 2006).

Segundo Napoli(2011), as tcnicas de BI objetivam definir regras e tcnicas para


a formatao adequada dos dados, tendo em vista a sua transformao em
depsitos estruturados de informaes, no levando em considerao a sua
origem. Para Reginato e Nascimento(2007), BI tem como objetivos transformar
grandes quantidades de dados em informaes de qualidade, para a tomada
de deciso, de modo a possibilitar uma viso sistmica do negcio e auxiliar na
distribuio uniforme dos dados entre os seus usurios.

Colocando inteligncia nos negcios


50

Ao analisar os objetivos da aplicao de solues de BI, fica claro como elas se


enquadram na arquitetura clssica de um sistema de apoio deciso, percebese
que muito dos objetivos so comuns. Como por exemplo, a preocupao
de tratamento dos dados e a transformao deles em informao ou a
disponibilizao dessa informao focada no processo decisrio pela camada
gerencial da organizao.

As aplicaes de BI podem auxiliar em vrios segmentos das organizaes,


segundo Xavier e Pereira(2009), essas aplicaes podem auxiliar a anlise de:
tendncias de transformao do mercado;
alteraes no comportamento de clientes e padres de consumo;
preferncias de clientes;
recursos das empresas;
condies de mercado.

Os autores ainda afirmam que sistemas de BI permitem que as organizaes:


coletem informaes sobre as tendncias do mercado e ofeream produtos e
servios inovadores, antecipando as transformaes das exigncias dos clientes.

importante ressaltar que as solues de BI acompanham a necessidade da


organizao, evoluindo conforme vo surgindo novos recursos, mdias e desafios.

Evoluo
A evoluo das solues de BI est relacionada com a evoluo do papel dos
sistemas de informao nas organizaes. Inicialmente, nos anos 70 e at
meados dos anos 80, solues de processamento e impresso de relatrios em
lote dominavam a cena do processo de apoio deciso. Os usurios tinham,
ento, que trabalhar sobre extensos relatrios para extrair elementos bsicos de
informao. Com a proliferao dos terminais de acesso aos mainframes, o acesso
aos relatrios digitais foi disseminado, mas o acesso informao era dificultado
devido complexidade dos sistemas da poca(SELL, 2006).

A segunda fase dos sistemas de apoio deciso marcada pelo surgimento do


Data Warehouse(DW), repositrios de dados integrados e preparados para o
apoio deciso, que, em conjunto com a evoluo das ferramentas analticas,
ofereceu performance e poder analtico para o nvel ttico e executivo nas
organizaes(INMON, 2002; KIMBALL et al., 1998).

Ps-graduao
51

A terceira fase corresponde ao surgimento do BI. Segundo Almeida et al.(1999)


apud Sell(2006), o foco do DW estava muito orientado tecnologia de
consolidao dos dados. Ainda segundo os autores, as vantagens de projetos de
BI em relao aos de DW so:
solues de BI no so orientadas unicamente aplicao de tecnologia
de informao de ltima gerao, mas tambm ao fornecimento de
solues que integram pacotes verticais de aplicativos e metodologias
para diversos segmentos de negcio;
o foco das solues de BI est no acesso e na distribuio de informao
para o apoio deciso; e solues de BI suportam o acesso a todos os
dados da organizao, estruturados e no estruturados, e no somente
aos armazenados no DW existe um foco na independncia.

O termo BI 2.0 vem sendo cada vez mais utilizados em notcias e artigos cientficos,
ele se refere a uma prxima gerao do BI que promete seguir a mesma linha da
web 2.0 e apostar nos dados colaborativos. Xavier e Pereira(2009) desenvolveram
o quadro a seguir, apresentando um comparativo entre BI 1.0 e BI 2.0:

Quadro 1 - Comparativo entre BI e BI 2.0

BI BI 2.0
Comunidades de usurios dinmicas,
Consumo esttico de relatrios. colaborao ativa e compartilhamento
imediato das informaes.
Fornecimento de informaes dinmicas
Envio e apresentao de relatrios e interativas, com usurios elaborando
estticos para os usurios. seus prprios relatrios ou assinando
as informaes de que necessitam.
Funo de alto custo e considerada Solues econmicas e rentveis
um luxo dentro da organizao. disponibilizadas para a empresa como um todo.
BI para todos dentro da organizao,
BI para uns poucos usurios especializados.
na medida em que for necessrio.
Aplicaes de gerao de relatrios
Relatrios orientados para a impresso.
interativas e baseadas na Web.
Grficos com barras estatsticas e Visualizao de dados intuitiva,
grficos circulares segmentados. dinmica e interativa.
OLAP junto a alternativas inovadoras,
OLAP para anlise. menos complexas e de alto desempenho
e gerao ad hoc de relatrios.
Instalao, upgrade e uso complexos
Instalao, upgrades e uso simplificados.
e de alto consumo de tempo.
Relatrios integrados com eventos e
Relatrios baseados no desktop
processos automatizados; relatrios
ou em HTML estticos.
como servios na Web(via XML).

Colocando inteligncia nos negcios


52

BI BI 2.0
Aplicaes baseadas na Web com
Aplicaes de gerao de relatrios para
ambientes de usurios ricos e interfaces
desktop, com ActiveX e smart client.
de usurios altamente interativas.
Pesquisas dinmicas ou de estilo
Parmetros de pesquisa predefinidos.
livre e explorao de dados.
Conjunto ampliado de tipos de dados
suportados, inclusive dados no
Dados estruturados.
estruturados e servios XML da Web,
assim como mixagem de seu contedo.
Fonte: Xavier e Pereira(2009).

Analisando o quadro desenvolvido por Xavier e Pereira(2009), percebese


que muitos dos pontos levantados como caractersticos do chamado BI 2.0 j
foram atendidos pelo BI tradicional. Essa classificao no oficial, mais
uma terminologia adotada por alguns autores para caracterizar a utilizao das
estratgias de BI ao longo dos anos e momentos.

Como caractersticas principais apresentadas no quadro podemse levantar:


Aumento da quantidade de usurio aplicao de BI na organizao(mais
setores a utilizam, tirando o foco somente da camada gerencial);
Aplicaes mais simples e intuitivas, com melhora no tempo de resposta;
Combinao dos dados dos repositrios da organizao com dados
disponveis na Web.

Na viso de Pintas e Siqueira(2011), a maior deficincia das solues tradicionais


de BI est na latncia entre o acontecimento do evento e a tomada de deciso.
Segundo os autores em questo, o BI 2.0 tem como foco atacar essa latncia.
Nesse contexto, os autores sugerem a adio de recursos semnticos para auxiliar
nessa tarefa.

A utilizao de semntica para auxiliar as solues de BI no uma ideia muito


nova. Sell(2006) apresenta em seu trabalho Uma arquitetura para business
intelligence baseada em tecnologias semnticas para suporte a aplicaes
analticas uma srie de informaes sobre essa abordagem. O autor apresenta
alguns requisitos funcionais para possibilitar o Semantic Business Intelligence:
RF001 Possibilitar a navegao sobre as fontes de dados a partir dos
conceitos do negcio e seus relacionamentos;
RF002 Permitir a utilizao s regras de negcio para apoiar o
processoanaltico;

Ps-graduao
53

RF003 Propiciar flexibilidade para modificaes dos conceitos de regras


do negcio;
RF004 Permitir a extenso s funcionalidades exploratrias a partir e
aplicaes existentes na Web ou na organizao;
RF005 Permitir a composio de servios para a extenso de
funcionalidades exploratrias;
RF006 Suportar recomendao proativa de recursos aos usurios para
apoiar o processamento analtico.

Tendo os requisitos a mo, Sell(2006) apresenta a arquitetura de soluo para


viabilizar o BI semntico:

Figura 2 - Arquitetura para Semantic Business Intelligence


OLAP Relatrios Portais
Clientes

Gerenciador
de Anlises
Mdulos Funcionais
Gerenciador Gerenciador
de Servios de Ontologias

Mecanismos
Infraestrutura WSS Reasoner
de Inferncia

Ontologia
do Domnio Repositrios
de Ontologias
Ontologia Ontologia
de Servios BI

Data Warehouse Fontes de Dados

Fonte: Sell(2006).

Um ponto muito importante apresentado na figura da arquitetura so as


ontologias, que possibilitam a representao de um conhecimento ou conceitos
de domnio, o que permite os recursos semnticos e viabiliza os requisitos
apresentados anteriormente. Segundo Napoli(2011), o repositrio de ontologias
permite o mapeamento da semntica do negcio, dos dados da organizao e dos
servios necessrios para o apoio ao processo decisrio.

Colocando inteligncia nos negcios


54

Outra contribuio importante desse modelo que no segue o clssico de BI a


presena dos mecanismos de inferncia, que possibilitam raciocinar sobre os
conceitos das ontologias e instncias da base de conhecimento. Para Napoli(2011),
os mecanismos de inferncia permitem a realizao de processamento de regras
sobre ontologias, o autor tambm afirma que esse recurso possibilita a capacidade
de filtrar os dados reunidos na anlise ou a expanso dos dados por meio da
definio das regras.

Existem trabalhos que utilizam o termo Business Intelligence 3.0 para arquiteturas
de BI que fazem uso de fontes de dados no estruturadas a partir de mdias sociais.
Essas informaes so muito importantes para a organizao e podem auxiliar
a inteligncia competitiva, a anlise de opinio sobre os produtos e servios da
organizao(LUNARDI, 2011).

De maneira geral, percebese que algumas das prticas de BI j eram utilizadas


muito antes do invento do computador, e que at hoje essa abordagem
muito utilizada e pesquisada pelas organizaes e universidades. Percebese
que as propostas de BI 2.0 e BI 3.0 so respostas a eventos que as organizaes
vivem. A prxima leitura est focada na utilizao e na descrio dos principais
componentes de uma arquitetura de Business Intelligence.

Referncias

GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.

INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.

LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese(Doutorado)


2011 Universita Degli Studi di Padova, Facolta di Ingegneria. Ingegneria Informatica,
Padova(Itlia), 2011.

KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.

NAPOLI, Marcio. Aplicao de ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.

PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semntica no Business Intelligence2.0:


Um exemplo no contexto de um programa de psgraduao. VIISimpsio Brasileiro de
Sistemas de Informao. Salvador, 2011.

Ps-graduao
55

PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.

RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence Trends,
Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New
York, 2002.

REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso envolvendo


business intelligence como instrumento de apoio controladoria. Revista Contabilidade
& Finanas. So Paulo, p.6983, 2007.

SASSI, Renato Jose. Data Warehouse e Business Intelligence Operacional: Revistando a


Tecnologia e Analisando as Tendncias do Armazm de Dados. XXX Encontro Nacional de
Engenharia de Produo. ENEGEP 2010. So Carlos, 2010.

SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias


semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.

SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Colocando inteligncia nos negcios


56

Arquitetura tpica de BI
Flvio Ceci

Muitas das prticas utilizadas no BI j eram utilizadas pelos povos antigos para
auxiliar na sua prtica na agricultura e pecuria. O termo em si ganhou mais
representao quando suportado por ferramental computacional. medida
que novas tendncias surgem, as arquiteturas de BI se moldam para atender os
novos desafios e de modo a utilizar os novos recursos da organizao. possvel
perceber essa linha de evoluo olhando o surgimento do conceito de Semantic
Business Intelligence, junto popularizao e ascenso da rea de Web Semntica,
ou ainda, com o surgimento e a grande utilizao das redes sociais surgem
trabalhos que alguns autores utilizam o termo business intelligence 3.0, como
sendo os que utilizam os dados desse tipo de mdia para auxiliar a anlise e
tomada de deciso nas organizaes. Tambm so utilizadas tcnicas avanadas
de processamento de linguagem natural, alm dos componentes da arquitetura
tpica(clssica) de BI.

Essa leitura est mais focada na aplicao das solues de BI, bem como na sua
arquitetura clssica. Dando continuidade aos nossos estudos, apresentado
abaixo um quadro adaptado por Sell(2006), que exibe as caractersticas de
utilizao das solues de BI:

Quadro 1 - Caractersticas de utilizao das solues de BI

FOCO AMBIENTE INTERNO AMBIENTE EXTERNO


Segmentao, preferncias e
comportamentos dos clientes.
Operaes do negcio.
Economia.
Cadeia de suprimentos.
Objetivos Aspectos regulatrios.
de anlise Gesto de relacionamento
com os clientes. Concorrncia:
-- segmentao;
Clientes e fornecedores.
-- lderes.
Perfil de compra.
Objetivos Eficincia. Posicionamento no mercado.
Modelagem e previso do
comportamento do mercado.
Anlise, refinamento
Utilizao e reengenharia do Posicionamento no mercado.
desempenho do mercado. Aprendizagem das tendncias de consumo.
Identificao de riscos, tecnologias e regulao.
Fonte: Sell(2006). Adaptado.

Ps-graduao
57

As solues de BI no so guiadas unicamente a aplicaes de TIC(tecnologia


da informao) de ltima gerao, mas tambm ao fornecimento de solues
que integram recursos verticais de aplicativos e metodologias para diversas
reas do negcio. Vale lembrar que o foco das solues de BI est no acesso e na
distribuio de informaes para auxiliar o apoio deciso(SELL, 2006).

As arquiteturas tradicionais de BI utilizam vrios elementos e tcnicas para


transformao (processamento) de dados em informao(SILVA, 2011). Demaneira
mais ampla, podese dividir a arquitetura de BI em trs principais componentes:
ETL(Extraction, Transformation and Loading), processo responsvel por
extrair os dados das bases operacionais(transacionais) da organizao,
efetuar transformaes a fim de gerar informaes vlidas para a
anlise e apoio ao processo decisrio e, por ltimo, armazenlas em um
repositrio que facilite o acesso s informaes.
Repositrio de dados analticos: so representados pelosData
Warehouses(DW), repositrios de dados que utilizam modelagens
(geralmente modelagem dimensional), as quais podem dispor os dados
de maneira mais natural para a anlise e o processo de deciso.
O ltimo componente a camada de apresentao. Essa camada podese
utilizar de uma srie de tcnicas e / ou ferramentas para auxiliar o
consumo e apresentao das informaes armazenadas pelo DW.

A figura a seguir adaptada por Silva(2011) do trabalho de Hodge(2011)


representa a arquitetura tradicional de BI com os seus principais componentes
etcnicas utilizadas:

Colocando inteligncia nos negcios


58

Figura 1 - Arquitetura tradicional de BI com os principais componentes

Fonte: Silva(2011).

A primeira camada a chamada de Sistemas Operacionais, ou seja, so as


fontes de dados operacionais(transacionais) da organizao, Nessa camada
esto todas as bases por setor: finanas, servios. Suprimentos, RH, P&D,
Logstica, clientes, vendas.

O processo de ETL recupera os dados dispersos pelas vrias bases operacionais


das organizaes e aps o processamento os concentra na forma de informaes
analticas, no data warehouse da organizao.

Os dados organizados no repositrio podem ser consumidos pela camada de


apresentao que representada pelas vrias tcnicas de ferramentas:
Relatrios;
OLAP;
Dashboards;
Alertas;
Scorecards.

importante ressaltar que no existe soluo de BI genrica, ou seja, cada


organizao possui um cenrio particular e mais importante ainda, perguntas
especficas que procuram respostas. O que temos em comum a todas as
organizaes a arquitetura geral tradicional de BI.

Ps-graduao
59

Iniciando um projeto de BI
A implantao de uma soluo de BI em nvel organizacional no uma tarefa
fcil, nem to pouco rpida! necessrio um bom planejamento e reservar uma
boa parcela de tempo para ter sucesso nesse processo. Segundo Primak(2008),
deve ficar claro que apesar desses projetos envolverem o uso de ferramentas e
solues de Tecnologia da Informao(TI), importante entender que BI um
projeto de negcio aplicado para a empresa no contexto geral. O que o autor
quer dizer com a afirmao anterior que o uso de uma soluo de BI no igual
ao uso de um sistema de informao comum, necessrio que a organizao
esteja preparada para utilizar o sistema e saber como chegar s informaes e aos
conhecimentos implcitos.

Para Primak(2008), existem dois tipos de planejamento que devem ser feitos para
a execuo bemsucedida de um projeto de BI, que so:
Planejamento Estratgico Corporativo(PEC): explicitam as oportunidades,
os riscos, os pontos fortes e fracos da organizao. Esse procedimento que
traa as principais metas e as estratgias para alcanlas.
Planejamento Estratgico da Informao(PEI): de responsabilidade
darea de administrao de dados e visa a identificar todos os sistemas
da organizao, suas bases de dados, alm da avaliao da qualidade
dosdados.

Partindo para o desenvolvimento e implantao da soluo de BI, devese,


inicialmente, ter uma viso sistmica da organizao, de modo que sejam
facilmente identificados quais tipos de pergunta desejase responder utilizando
a soluo de BI. Quando essas informaes j tiverem sido levantadas, podese
partir para a modelagem do repositrio nico dos dados e informaes(DW).
Geralmente esses repositrios utilizam para a organizao a modelagem
dimensional, que constituda por tabelas de dimenses(filtros e informaes
que sero cruzadas) e tabelas fato(possuem uma srie de valores j processados
e distribudos pelas dimenses em questo).

Aps a construo do DW, necessrio criar rotinas para carga, para isso se
utilizam ferramentas ETL. Essas ferramentas devem ler os dados armazenados
nas vrias bases operacionais da organizao, processlos(de modo que os
agrupe de modo mais natural para a anlise) e, posteriormente, carreglos nas
tabelas do DW.

Tendo os repositrios de dados e informaes modelados e devidamente


carregados, devese identificar quais tcnicas de anlises(minerao de
dados) podem ser aplicadas para a extrao de informaes implcitas e at
mesmoconhecimento.

Colocando inteligncia nos negcios


60

Devemse combinar as tcnicas de minerao de dados com o ferramental da


rea de apresentao para auxiliar o consumo de informao e conhecimento
proveniente da soluo de BI, de modo que seja o mais natural para a tomada
dedeciso.

O que se deve levar em conta para a implementao de uma soluo de BI numa


organizao? Primak(2008) apresenta algumas questes que devem ser verificadas:
Questes de balanceamento de metas: quais so as metas para o curto,
mdio e longo prazo?
Questes de base: quais so as competncias da minha organizao para
atingir a meta e o que eu devo procurar no mercado?
Investimentos e riscos: quanto vai custar o projeto de BI? Quanto e o que
eu espero de retorno?
Levantar os interessados: verificar quem, no contexto organizacional,
sero os beneficiados com a soluo de BI;
Avaliao dos resultados: devese sempre avaliar os resultados, em todas
as etapas, pois mudanas podem ser necessrias para um maior sucesso.

De modo geral, percebese que as solues de BI no so apenas tecnolgicas,


necessrio que a organizao esteja preparada para usufruir dos seus
recursos, bem como adotar atividades que utilizem tais recursos para um maior
aproveitamento da soluo.

Os prximos captulos apresentam mais detalhes sobre cada uma das camadas da
arquitetura de business intelligence tradicional.

Referncias

HODGE, P. Business intelligence Architecture. Disponvel em <http://sites.google.com/a/


paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.

PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia Moderna, 2008.

SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias


semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.

SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

Ps-graduao
61

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:

a. ( ) As prticas de BI s foram possveis com o advento dos computadores.

b. ( ) DW nada mais do que um banco de dados que utiliza como modelagem


de dados a abordagem relacional.

c. ( ) ETL o processo de minerao de dados previsto pela arquitetura de BI.

d. ( ) O planejamento estratgico corporativo e da informao so


planejamentos que devem ser feitos para um projeto de BI bem sucedido.

e. ( ) A chamada rea de apresentao onde as informaes so organizadas


ecentralizadas.

f. ( ) A ideia de adicionar recursos semnticos arquitetura de BI anterior aos


chamados BI 2.0 e BI 3.0.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e sistemas de apoio deciso. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.

O uso de recursos semnticos permite uma sria de possibilidades para as


anlises de informaes disponveis pelo BI, quais possibilidades so essas?
Comoelas podem auxiliar na anlise das informaes?

Sntese
Nesta unidade, estudado com mais detalhes a arquitetura de BI, qual a sua
origem, seus fatores histricos, quais so os seus principais objetivos, como
se deu a sua evoluo, quais as suas tendncias(BI 2.0, BI 3.0...). Tambm
apresentado como iniciar um projeto de BI e quais so os principais componentes
de uma arquitetura de BI.

Colocando inteligncia nos negcios


62

Saiba Mais
O artigo abaixo foi publicado em 2012 e traz uma viso geral sobre BI e como as
tecnologias semnticas podem dar suporte as suas anlises, vale muito a pena
esta leitura:

SELL, Denilson; SILVA, Dhiogo, C.; GHISI, Fernando B.; NAPOLI, Marcio; TODESCO,
Jos L. Adding Semantics to Business Intelligence: Towards a Smarter Generation
of Analytical Tools. In. Business Intelligence: Solution for Business Development.
InTech, 2012.Disponvel em: <http://www.intechopen.com/articles/show/title/
adding-semantics-to-business-intelligence-towards-a-smarter-generation-of-
analytical-tools>.

Ps-graduao
Unidade 3

Data Warehouse

Objetivos de Aprendizagem
Compreender a construo e o funcionamento dos Data Warehouses,
como suporte ao armazenamento das informaes das organizaes;
Identificar as principais caractersticas de um Data Warehouses;
Entender o que modelagem dimensional.

Introduo
A crescente produo de dados pelos sistemas transacionais da organizao,
de maneira distribuda pelos vrios setores e ferramentas, acaba dificultando a
visualizao e a anlise dos dados pela camada gerencial.

Desse modo, importante a utilizao de repositrios de dados centralizados,


que facilitam o acesso aos dados e permitam que eles possam ser cruzados e
comparados. Alm da disponibilizao dos dados em um repositrio, tambm
necessrio que esses repositrios possuam os dados organizados de maneira mais
natural para a anlise, sendo, assim, mais eficiente.

Esta unidade focada no estudo dos repositrios de dados do tipo Data


Warehouse(DW), sua arquitetura, como ele pode ser desenvolvido, quais as
etapas necessrias para a sua implantao e como feita a integrao e a carga
dos seus dados.
64

Componentes de um DW
Flvio Ceci e Glucio Adriano Fontana

Com o aumento do uso dos sistemas de informaes transacionais, cada vez mais
so armazenados dados em bases no centralizadas. O que funciona bem para o
controle operacional dos setores da organizao apresenta um problema para a
camada gerencial, que atua transversalmente, pois no traz uma viso sistmica
das operaes organizacionais.

Alm de no possuir uma viso integrada das operaes da organizao, esta


abordagem mantm todos os dados operacionais distribudos entre vrios
sistemas, o que dificulta a anlise deles, alm de no possuir uma garantia de que
esto corretos.

Os Data Warehouse(DW) tm como funo atuar neste contexto. Segundo Teorey,


Lightstone e Nadeau(2007), um DW um grande repositrio de dados histricos
da organizao, que podem ser integrados, a fim de apoiar o processo decisrio.
Para Xavier e Pereira(2009), DW uma grande base de dados que organiza e
armazena informaes integradas a partir de bases de dados operacionais.

DW um conjunto de dados orientado por assuntos, no voltil, varivel com o


tempo e integrado, criado para dar suporte deciso. Isto , direcionar a viso
do negcio da empresa, de maneira no modificvel, como nos bancos de dados
transacionais, pois neste nterim dados passados so histricos, variveis no
tempo, sincronizados e integrados, necessrios ao pensamento estratgico e
tomada de decises(CIELO, 2008; INMON, 2001).

Em um exemplo simples e claro: A empresa X possui um cliente chamado Joo,


que solteiro. Joo realizou diversas compras de cerveja e macarro durante dois
anos. Ento, ele se casou, agora, na base de dados(BD), Joo agora casado.
Eele passou a comprar fraldas. Uma anlise nesse BD dos produtos comprados
por um cliente iria nos informar que Joo casado, compra cerveja, macarro,
refrigerante e fraldas. O fato de ele ter mudado seu perfil de compra aps o
casamento no seria registrado pelo banco de dados transacional, logo, seria
informao perdida, que poderia ser muito melhor aproveitada pela organizao.

O DW permite ter uma base de dados integrada e histrica para anlise dos dados,
isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo
uma ferramenta desse porte na mo, o executivo pode decidir com muito mais
eficincia e eficcia. As decises sero embasadas em fatos e no em intuies,
podero ser descobertos novos mercados, novas oportunidades, novos produtos,
podemse criar relaes melhores com clientes, por exemplo, conhecendo hbitos
mais a fundo e com mais detalhes do que se poderia imaginar.

Ps-graduao
65

A orientao por assunto, conforme Cielo(2008), nada mais do que o


direcionamento que se d da viso que ser disponibilizada, do negcio da empresa.
Por exemplo: em uma empresa de Telecom, o principal assunto o cliente, e esses
clientes podem ser residenciais, empresas, telefonia pblica etc. Ento, quando um
arquiteto de Warehouse for desenhar esse modelo, deve levar em considerao
essas premissas e dividir as vises de acordo com o que o decisor quer ver. Observe
que tudo girar em torno dos assuntos, seja qual for a viso que se quer ter, ou seja,
a viso financeira da empresa tambm girar em torno disso, seja a inadimplncia,
ofaturamento, a lucratividade etc. A Figura 1 ilustra est situao:

Figura 1 Exemplo de disposio de tabelas por assunto


Empresa

Cliente Lucro Telefonia Pblica

Ano

Fonte: Elaborao do autor(2012).

Como se pode observar na Figura 1, as tabelas esto centradas num determinado


assunto, nesse caso, so os lucros da empresa de Telecom. Alm do assunto central,
existem tabelas que trazem as dimenses que sero cruzadas para chegar a uma
informao, nesse caso, obrigatoriamente consolidada e distribuda por ano.

A volatilidade referese ao Warehouse no sofrer mumificaes como nos sistemas


tradicionais, por exemplo: no sistema de faturamento de uma empresa, todos
os dias h incluses e alteraes de novos clientes, novos produtos e consumo.
J no Warehouse, acontecem somente cargas de dados e consultas, ou seja,
falando tecnicamente, h somente selects e inserts, e no h updates. Existem
basicamente duas operaes, a carga e a consulta, nada mais que isso(CIELO,
2008). A Figura 2 apresenta mais detalhes sobre esta caracterstica:

Data Warehouse
66

Figura 2 Relacionamento de volatilidade entre bases operacionais e DW


Base Operacional Data Warehouse
Alterao Acesso
Insero
Acesso

Acesso
Remoo Carga
Remoo
Insero Alterao Acesso
Registro por registro/ Carga em massa/
Manipulao de dados acesso aos dados
Fonte: Adaptado de Inmon(2007), p.34.

A Figura 2 demonstra como as bases operacionais recebem requisies em


nvel de operao, ou seja, cada nova venda ou baixa no estoque gera uma
nova requisio. As operaes podem ser de insero, alterao, remoo ou
acesso. J os DW so carregados de tempos em tempos, armazenando dados j
consolidados, posteriormente s tero acesso a essas informaes.

Varivel com o tempo uma caracterstica mpar no Warehouse. Ele sempre


retrata a situao que estamos analisando em um determinado ponto do tempo.
Cielo(2008, p.1) utiliza uma interessante analogia com fotografias:

pegue uma fotografia sua, quando recm nascido, depois, pegue


outra quando voc tinha 5 anos, e compare. Com certeza muitas
modificaes ocorreram, mas ela retrata exatamente a sua situao
naquele exato momento do tempo, e isso acontece da mesma
forma com o Data Warehouse. Ns guardamos fotografias dos
assuntos em determinados pontos do tempo, e com isso possvel
poder traar uma anlise histrica e comparativa entre os fatos.

A Figura 3 ilustra a situao da analogia da fotografia. A tabela azul representa


como os dados esto organizados numa base operacional, onde cada operao
de venda para um cliente gera uma linha inserida na tabela. Aps o processo de
transformao representado pela seta vermelha, os dados estaro armazenados,
consolidados por dia na tabela do DW, representado pela tabela verde da Figura 3.

importante destacar que a consolidao dos dados poderia ser feita sobre
outra unidade atmica de tempo que no seja dia. Poderia ser feita por ms ou
ano, caso tivesse muitas operaes, seria por hora. Esse tipo de deciso deve ser
tomada pensando no tipo de anlise que se pretende efetuar e da distribuio da
massa de dados.

Ps-graduao
67

Figura 3 Demonstrando a analogia da fotografia dos dados

Fonte: Elaborao dos autores(2012).

A integrao talvez seja a parte mais importante desse processo, pois ela ser
responsvel por sincronizar os dados de todos os sistemas existentes na empresa
e coloclos no mesmo padro.

Como sabemos, o Warehouse extrai dados de vrios sistemas da empresa e,


emalguns casos, dados externos, como a cotao do dlar. Porm, geralmente
os dados no esto padronizados, devido aos problemas que citamos acima,
enecessrio integrar antes de carregarmos no DW.

Um exemplo clssico o do sexo. Em um sistema, esse dado est guardado no


formato M para masculino e F para feminino, j no outro, o mesmo dado est
guardado como 0 para masculino e 1 para feminino. Isso geraria um grande problema
na hora da anlise, porm, na fase de ETL(Extrao, Transformao e Carga), isso
tudo vira uma coisa s, ou seja, todos os formatos so convertidos em um nico
padro, que decidido com o usurio final e ento carregado no Warehouse.

Data Warehouse
68

Figura 4 Exemplo da padronizao das informaes

Fonte: Elaborao dos autores(2012).

A Figura 4 representa como funciona a integrao dos dados das tabelas azul,
vermelha e laranja, ou seja, registros em vrias bases de dados distribudos pelos
sistemas transacionais da organizao. Nesse exemplo vse que a informao
relacionada com o sexo apresentada de trs maneiras completamente
diferentes, no caso da tabela azul, est por extenso, na tabela vermelha utilizado
M para masculino e F para feminino, j no caso da tabela laranja, o sexo masculino
representado pelo nmero inteiro 0 e o feminino pelo 1. A tabela em verde
demonstra a integrao dos dados, essa tabela representa uma dimenso Sexo
que possui um identificador padro, ou seja, em todas as tabelas do DW que tiver
referncia para sexo, ser utilizado um identificador que, nesse caso, M para
masculino e F para feminino.

Viso geral do DW
O uso dos Data Warehouse traz uma srie de benefcios para a tomada de
deciso da camada gerencial da organizao, os autores Teorey, Lightstone
e Nadeau(2007), desenvolveram uma tabela que compara os sistemas
transacionais(OLTP online transaction processing):

Ps-graduao
69

Quadro 1 Comparativo entre OLTP e DW

OLTP Data Warehouse

Orientado a transao(operao) Orientado ao processo do negcio(a assuntos)


Poucos usurios
Milhares de usurios
(normalmente a camada gerencial)
Geralmente utiliza pouco espao Utiliza muito espao
(MB at vrios GB) (de milhares de GB a vrios TB)
Dados atuais Dados histricos(fotografias)
Dados normalizados Dados no normalizados
(muitas tabelas, poucas colunas por tabela) (poucas tabelas com muitas colunas)
Atualizaes em lote
Atualizao contnua
(processo de carga de tempos em tempos)
Consultas de simples a complexas Normalmente, consultas muito complexas.
Fonte: Teory, Lightstone e Nadeau(2007).

O Quadro 1 apresenta caractersticas muito importantes dos DWs. Primeiramente,


so apresentados como orientados a processo de negcio, ou seja, so projetados
pensando nos assuntos relacionados organizao que se deseja tratar. Pelo
fato do DW armazenar informaes dispostas de modo a facilitar a anlise, o seu
uso focado na camada gerencial, que corresponde a uma pequena parcela de
funcionrios da organizao.

A ideia de ter um repositrio de dados implica diretamente armazenar uma grande


quantidade de dados, dados esses que so armazenados de maneira histria, ou
seja, consolidados por um perodo de tempo especfico. Por esse motivo, a carga
do DW feita em lote, e de tempos em tempos.

Como foi comentado anteriormente, os data warehouse so repositrios


integradores de informaes relevantes organizao. Para facilitar o seu
consumo, podese utilizar a ideia de data marts. Segundo Xavier e Pereira(2009),
data mart um pequeno data warehouse que possibilita apoio deciso de um
pequeno grupo de pessoas e assuntos.

Na viso de data mart de Kimball um data mart um DW orientado por assunto


ou rea organizacional, uma verso reduzida de um DW que se concentra na
exigncia de um departamento especfico(TURBAN et al, 2009).

Data Warehouse
70

Requisitos de um Data Warehouse


Os autores Teorey, Lightstone e Nadeau(2007) elaboraram uma lista de requisitos
e princpios para um projeto de DW:
1. Possuem orientao por assunto, ou seja, reas de interesses como, por
exemplo: vendas, gerenciamento de projetos, compras etc.
2. Devem ter a capacidade de integrao, reunir os vrios dados espalhados
pelas bases transacionais no DW;
3. Os dados so caracterizados como no volteis e so carregados em lote.
Tambm devese utilizar o recurso de limpeza de dados;
4. Os dados podem ter vrios nveis de granularidades, isso quer dizer que
podem ser consolidados por vrias dimenses diferentes, como por
exemplo, de tempo entre outras;
5. O DW deve ser suficientemente flexvel para dar suporte rapidamente s
necessidades constantes de mudana;
6. Deve ter a capacidade de reescrever a histria, ou seja, permitir anlises
hipotticas do tipo: o que acontece se...;
7. Dever suportar uma interface de usurio para interagir com os dados
armazenados, no geral utilizase SQL;
8. Os dados devem estar centralizados ou distribudos fisicamente, e dever
suportar uma viso lgica centralizada.

Muitos dos requisitos apresentados j haviam sido abordados nessa leitura, alm
dos requisitos importante identificar os principais componentes de um DW,
esses so apresentados a seguir.

Principais Componentes de um DW
Sabese que os data warehouses so repositrios de dados, mas eles, por si s, no
trazem suporte s etapas de apoio deciso. Para viabilizar um projeto de DW,
fazse necessria a presena de uma srie de componentes. Turban et al(2009)
desenvolveram a seguinte figura para ilustrar esses componentes e suas interaes:

Ps-graduao
71

Figura 5 Principais componentes de um DW


Aplicaes

Aplicaes
Personalizadas

Acesso Ferramentas
A de produo
Replicao Data P de relatrios
Seleo Mart I
S
Legados Marketing Ferramenta
Extrair Relatrios de de consulta
metadados M relacional
Transformar i Visualizao
Data d
OLTP Mart de Informao
Integrar Data d
warehouse Gesto l OLAP/ROLAP
Manter empresarial e
Externos de Risco
w
Preparao a
Sistemas Data r
Mart Navegadores
operacionais/ Banco de dados alvo e Web
dados (HDB, MDDB) Engenharia

Minerao
de Dados

Fonte: Turban et al(2009), p. 61.

A partir da anlise da Figura 5 so apresentados mais detalhes sobre os componentes:


Fontes de dados: so as vrias bases de dados transacionais espalhadas pela
organizao, que fazem parte dos sistemas de informaes operacionais
como, por exemplo: OLTP, ERP(sistemas integrados de gesto);
Extrao de dados: o chamado processo de ETL, ou seja, o processo de
extrao, transformao e carga dos dados no DW;
rea de estagiamento: uma camada intermediria entre os dados
operacionais e a carga do DW, serve para o processo de limpeza dos
dados antes que eles ingressem no DW;
Metadados: so mantidos para que sejam acessados pela equipe
de TI e pelos usurios. Facilitam a recuperao e organizao dos
dadosarmazenados;
Ferramentas de Middleware: permite o acesso ao DW de maneira mais
padronizada, como uma interface de acesso, para que outros servios
possam interagir com as informaes armazenadas.

Data Warehouse
72

importante lembrar que h outros componentes participando, como por


exemplo, se a abordagem de BI que utiliza o DW em questo tiver recursos
semnticos, muito provvel que ser necessrio a presena de ferramentas de
processamento de linguagem natural, de anotao de contedo e at mesmo de
ontologias e bases de conhecimento.

Referncias

ANGELONI, Maria Terezinha. Organizaes do conhecimento: infraestrutura, pessoas e


tecnologias. So Paulo: Saraiva, 2008. 363 p.

BONOMO, Peeter. Construo de Data Warehouse(DW) e Data Mart(DM). Artigo online.


Disponvel em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009.

CIELO, Iv. Data Warehouse como diferencial competitivo. Artigo on line. Disponvel em
<http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008.

INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar
informaes em oportunidades de negcios. So Paulo: Berkeley, 2001. 266 p.

INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.

KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.

TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de


Dados. Elsevier, Rio de Janeiro, 2007.

TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Ps-graduao
73

Ciclo de vida de desenvolvimento


Flvio Ceci

Cada vez mais as organizaes esto utilizando repositrios centrais de dados


e informao, com a inteno de facilitar a anlise desses dados, melhorando
o seu consumo por solues de BI. Os Data Warehouses(DW) so os maiores
representantes das solues de repositrios de dados analticos. Mas como se
deve desenvolver um DW? Existe alguma arquitetura ou metodologia para facilitar
a implementao desse tipo de projeto? Essa leitura tem como foco responder a
essas questes.

A implantao de um projeto de DW possui um ciclo de vida para o seu


desenvolvimento, ou seja, possui fases necessrias para a obteno do sucesso.
Segundo Teorey, Lightstone e Nadeau(2007), o ciclo de vida se inicia com uma
conversa para determinar o plano de projeto e as necessidades do negcio.
Parafacilitar o entendimento do ciclo, os autores desenvolveram a Figura 1 a
seguir, baseada no livro de Kimball e Ross(2002):

Figura 1 Ciclo de vida de um DW

Fonte: Teorey, Lightstone e Nadeau(2007), p. 157.

Data Warehouse
74

Inicialmente, feito o planejamento prvio do projeto como o levantamento dos


recursos necessrios, qual o perfil dos executores e envolvidos, custos estimados,
verba disponibilizada, entre outras atividades. O prximo passo fazer um
levantamento das necessidades do negcio, essa etapa muito importante, pois
aqui sero levantados os assuntos que o repositrio tratar, bem como quais
perguntas se deseja responder.

Com o entendimento das necessidades, necessrio atualizar o planejamento do


projeto para contemplar as informaes e requisitos levantados, essa interao
entre as duas primeiras atividades iniciais do ciclo so cclicas, ou seja, podese
passar pelas duas atividades vrias vezes, na verdade, devese passar por elas at
ter o plano completamente alinhado com as necessidades da organizao.

Tendo as duas primeiras etapas concludas, partese para a execuo que est
dividida em trs frentes:
Arquitetural: essa frente inicialmente est focada no projeto tcnico
da arquitetura do DW, como sua estrutura, tanto de carga quanto de
consumo de informao e definise a interface de acesso. O prximo
passo a identificao de ferramental que possa auxiliar esses processos.
Essa leitura trar mais detalhes sobre esta frente;
Modelagem de dados: nesta frente concebida a modelagem dos dados
a partir dos assuntos levantados na etapa de definio das necessidades
de negcios. Nesta frente tambm so levantadas as dimenses de
anlise para o cruzamento das informaes;
Analtica: para esta frente, levantamse quais abordagens analticas so
mais indicadas para responder s questes levantadas anteriormente.

Aps as trs frentes concludas, devese partir para a implementao do DW


como um todo, ligando o novo repositrio com os sistemas de carga e com as
ferramentas que consumiro as informaes armazenadas. Ao longo do uso do
DW, podese detectar mudanas nos requisitos, o que acarreta no retorno etapa
de planejamento, o mesmo acontece caso encontre alguma possvel manuteno.

Arquitetura
As implementaes de Data Warehouse possuem algumas possveis arquiteturas
para a sua implantao. Entendese como arquitetura de um DW, a estrutura fsica
dos componentes, como esto organizados e relacionados. Segundo Dill(2002),
uma arquitetura de DW um conjunto de normas que possibilitam uma viso da
sua estrutura e auxilia no entendimento de como ocorre o fluxo dos dados ao
longo do processo.

Ps-graduao
75

A escolha da arquitetura do DW uma deciso muito importante, ela de cunho


gerencial e devese levar em conta principalmente a infraestrutura atual existente,
ambiente de desenvolvimento, escopo de implementao, disponibilidade de
recursos financeiros e equipe para desenvolvimento(DILL, 2002. p.17).

Existem algumas arquiteturas que so clssicas, segundo Turban et al(2009), as


arquiteturas de duas e trs camadas so bastante comuns, possvel ter at uma
nica camada, onde cada camada pode ser:
O prprio DW que contm os dados;
Os softwares de aquisio e extrao de dados;
Softwares clientes que so utilizados para consumir e apresentar as
informaes solicitadas.

A Figura 2 apresenta uma viso das trs camadas comentadas anteriormente e


como elas esto integradas:

Figura 2 Arquitetura clssica de DW em trs camadas

Ferramentas ETL Ferramentas analticas


Data Warehouse

Fonte: Elaborao do autor(2012).

A nica das camadas que obrigada a existir a central, representada pelo


prprio repositrio o DW. A arquitetura de duas camadas conta, alm do DW, com
a camada que contm as ferramentas ETL. O trabalho de Dill(2002) apresenta
mais detalhes sobre cada uma das camadas:
Ferramentas ETL: ou populao do warehouse, tem como funo
a coleta dos dados armazenados nas bases operacionais, efetuar seu
processamento e transformao e, por fim, a carga do DW. Nessa etapa,
est concentrado o maior volume de trabalho;
Data Warehouse: ou na viso de Dill(2002), administrao do
warehouse, responsvel pela manuteno dos metadados, que tem
como funo fornecer informaes sobre os relacionamentos dos dados
armazenados no DW;
Ferramentas analticas: usurios acessam DW por meio de ferramentas
de anlise e explorao de dados. Essas ferramentas produzem
informaes para suporte deciso.

Data Warehouse
76

Existem variaes a partir da arquitetura genrica. Dill(2002) demonstra uma


possvel extenso da arquitetura em trs camadas. Basicamente nesta arquitetura
so adicionados data marts focados em setores especficos da organizao.
AFigura 3 a ilustra com mais detalhes:

Figura 3 Arquitetura de trs camadas estendida

Data
Fonte Warehouse
Corporativo Data Data
Warehouse Warehouse
Integrao Departamental Departamental
Fonte de Dados

Transformao de Dados
Fonte

Usurios
Fonte: Dill(2002), p. 19

A extenso da arquitetura apresentada na Figura 3 mostra a insero de data


marts focados em setores da organizao. Esse tipo de abordagem facilita a
organizao e o consumo das informaes.

Existem outras variantes possveis de arquiteturas, algumas focadas na camada


das ferramentas de ETL, como apresentado por Oliveira(2002), em que para
cada base de dados operacional desenvolvida uma ferramenta de ETL e entre
as ferramentas e o DW existe o chamado integrador. A Figura 4 apresenta essa
arquitetura com mais detalhes:

Ps-graduao
77

Figura 4 Arquitetura utilizando o conceito de integrado


Consultas

Data Warehouse

Integrador

Extrator Extrator Extrator

BD BD BD

Fonte: Adaptado de Oliveira(2002. p.48).

Existem outras possibilidades de arquiteturas para empreendimentos de data


warehouse. Turban et al(2009) elaboraram a tabela a seguir para apresentar essas
alternativas de arquiteturas ilustrando os seus prs e contras:

Tabela 1 Prs e contras para as arquiteturas de DW


Dados centralizados
Data marts Deixar os dados Data marts
integrados com
independentes onde esto dependentes
acesso direto
Visualizao da
No h necessidade
Fceis de construir Facilidade de empresa, consistncia
de ETL;
organizacionalmente; customizao de de projeto e qualidade
Prs No h necessidade dos dados;
Fceis de construir interfaces de usurios
de plataforma e relatrios.
tecnicamente. Dados podem ser
separada.
reutilizados.
Vivel apenas para
Visualizao da um volume pequeno;
empresa indisponvel Visualizao da
Problemas com
Custos redundantes empresa desafiadora;
metadados;
com dados; Custo com dados
Problemas com
Altos custos com ETL; redundantes; Exige liderana e
Contras largura de banda
e complexidade Altos custos viso corporativa.
Altos custos com
aplicaes; na unificao; operacionais e
com DBA;
Altos custos Carga de trabalho
operacionais e normalmente Latncia de dados;
com DBA. posta na estao
de trabalho.
Fonte: Turban et al(2009).

Data Warehouse
78

Como se pode observar, o processo de integrao de dados est presente em


quase todas as arquiteturas, isso ocorre, pois por meio dessas ferramentas que
os DW so alimentados.

Integrao de dados
O processo de integrao de dados uma dos mais importantes relacionados com
o ciclo de vida de um data warehouse, ele garante que os dados que alimentaro o
DW sejam de qualidade e representativos para os assuntos escolhidos.

Segundo Turban et al(2009), a integrao de dados possui trs grandes processos:


Acesso aos dados: a capacidade de acesso e extrao de dados de
qualquer fonte;
Federao de dados: integrao das visualizaes de negcios em
diversos data stores;
Captura de alteraes: baseado na identificao, captura e entrega das
alteraes feitas nas fontes de dados da organizao.

No processo de acesso aos dados necessrio, anteriormente, identificar todas as


bases de dados operacionais da organizao que devem ser fontes para o DW. O
prximo passo verificar os recursos tecnolgicos, algumas perguntas podem ser
feitas para auxiliar:
Todas as bases so acessveis pela mesma rede onde ser abrigado o DW?
Se no est na mesma rede, o acesso possvel via requisio HTTP?
O uso de crawler auxiliaria neste processo?

Com o acesso a todas as fontes j mapeadas, necessrio qualificar quais


dadosso relevantes, ou seja, quais consultas devem ser feitas para extrair os
dados desejados.

O prximo processo organizar os dados coletados e verificar em quais


assuntos se encaixam melhor, nesse ponto, so montadas as instrues INSERTs
para o repositrio DW.

O ltimo processo(captura de alteraes) muito importante, pois por meio


dele que so detectadas as atualizaes nos dados organizacionais. Entendese
por alterao como:

alterao() = situao atual situao armazenada.

Ps-graduao
79

Esse processo mais complexo que apenas identificar as alteraes nos dados.
Como j sabido, a modelagem de dados utilizados pelos DWs os organizam
como fotografias de um perodo especfico. Tendo em vista essas caractersticas,
devese verificar todos os novos dados inseridos nas bases operacionais,
no intervalo de tempo escolhido para compor as fotografias. A seguir
apresentado um exemplo:

Imaginase que a unidade mnima de tempo utilizada seja um ms, todos os


dados estariam agrupados por ms e distribudos pelas dimenses. Caso os
gestores da organizao tenham interesse apenas nos dados do ms fechado,
ou seja, do ms com todas as vendas e compras finalizadas, podese configurar o
sistema de integrao de dados para rodar a cada final de ms. Agora imagine se
os gestores dessa organizao querem os dados agrupados por ms, mas no caso
do ms atual desejase verificar as vendas at o momento, neste cenrio o sistema
de integrao de dados deve ser configurado para ter ciclos num intervalo menor
de tempo(por exemplo, a cada hora). Assim, as alteraes que se devem levar
em conta seriam todas as operaes feitas no perodo da primeira hora do ms
corrente, at o momento, inserir esses registros no repositrio.

Segundo Turban et al(2009), faz parte dos objetivos de um data warehouse a


integrao de dados de mltiplos sistemas. Para isso, existem vrias tecnologias
que permitem a integrao de dados e metadados:
Integrao de aplicaes corporativas(EAI): possibilita um meio para
transportar dados dos sistemas de origem para o data warehouse.
Seufoco na integrao das funcionalidades da aplicao, o que permite
a reutilizao da aplicao e flexibilidade;
Integrao de informaes corporativa(EII): promete a entrega da
informao em tempo real, a partir de diversas fontes relacionais, web
services e fontes dimensionais. Extrai dados dos sistemas fontes para
atender ao pedido da informao;
Extrao, transformao e carga(ETL): este processo apresentado
com mais detalhes a seguir.

O processo de ETL responsvel pela carga das tabelas do DW. A Figura 5, aseguir,
elaborada por Turban et al(2009), ilustra este processo:

Data Warehouse
80

Figura 5 Processo ETL

Fonte de dados
temporrios
Aplicao
pronta
Data
warehouse

Sistema Extrair Transformar Limpar Carregar


legado

Outras Data mart


aplicaes
internas

Fonte: Turban et al(2009), p.72.

Por ser um processo de integrao de dados, as ferramentas ETL incorporam as


operaes j mencionadas. O processo Extrair do processo de ETL o mesmo
apresentado no processo de acesso aos dados.

O processo transformar aplica as regras de negcio levantadas em cima dos


requisitos baseados nos assuntos do DW, a fim de normalizar os dados que sero
armazenados no repositrio. Segundo Napoli(2011), as transformaes podem ser
complexas quando os dados so extrados de um ambiente heterogneo, o autor
apresenta alguns desses problemas:
Chaves primrias inconsistentes;
Inconsistncias nos dados;
Dados invlidos(essa deficincia deve ser atacada pelo processo
delimpeza);
Sinnimos e homnimos(ou seja, dados redundantes no so fceis
dereconhecer);
Lgica de processo embutido(valores identificadores do tipo 0 e 1,
queno so descritivos).

A etapa de Limpar os dados consiste em retirar os que no respeitam as regras


de negcio levantadas ou que esto incompletos.

O uso de bases de estagiamento para manter os dados psextrao e durante


os processos de transformao e limpeza bastante comum. Por fim, os dados j
transformados e limpos so persistidos no repositrio data warehouse.

Ps-graduao
81

Referncias

DILL, Srgio Luis. Uma metodologia para desenvolvimento de Data Warehouse e


Estudo de Caso. Dissertao submetida para obteno do grau de Mestre em Cincia da
Computao. Universidade Federal de Santa Catarina, Florianpolis, 2002.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.

NAPOLI, Marcio. Aplicao de Ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.

OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.

TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de


Dados. Elsevier, Rio de Janeiro, 2007.

TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

Data Warehouse
82

Modelagem Dimensional
Flvio Ceci

Para um projeto de um repositrio de dados analticos, aqui representado pelos


Data Warehouse, necessrio, inicialmente, a definio de uma estratgia de
implementao e implantao.

Uma das fases iniciais do ciclo de vida de desenvolvimento de um DW a


identificao das necessidades do negcio, bem como o seu entendimento. Essa
fase muito importante, pois por meio dela que so levantadas as perguntas a
que se deseja responder, com a anlise dos dados e informaes contidas no DW
etambm como ele ser organizado.

Aps o entendimento das necessidades e do prprio contexto organizacional,


podese atacar trs frentes em paralelo: a arquitetura do DW, a sua modelagem
dimensional, como ser a camada de anlise dos dados e informaes
armazenadas nele.

Esta leitura focada no processo de modelagem dimensional. Segundo Sell(2006),


uma das primeiras fases de um projeto de um repositrio a identificao do
modelo de dados, para isso, preciso verificar os dados necessrios e que podem
ser obtidos junto aos sistemas transacionais.

Uma das principais diferenas entre os repositrios do tipo DW e das fontes


de dados transacionais a forma como eles esto organizados, ou seja, qual a
modelagem de dados utilizada. Segundo Silva(2011), geralmente os dados de
bases relacionais encontramse em modelos que evitam redundncia e possveis
inconsistncias geradas por meio de inseres ou atualizaes, que so os modelos
entidaderelacionamento. Esse modelo eficiente para os sistemas transacionais,
mas no propcio s anlise que envolvam grande volume de dados.

A modelagem dimensional apresentase como alternativa ao modelo


entidaderelacionamento para auxiliar a anlise de grandes volumes de dados.
Segundo Sell(2006), esse modelo remete ideia do cubo, contendo trs ou mais
dimenses, onde cada uma representa um atributo diferente. Para Silva(2011),
omodelo dimensional, tambm conhecimento como esquema estrela, organiza os
dados de uma forma intuitiva, que focado no alto desempenho das consultas e
orientado estratificao de informao.

A modelagem de um DW chamada de Modelagem Dimensional, esse nome dado


devido forma com que as dados esto organizados. Como foi dito anteriormente,
um DW orientado ao assunto, que representado pelas tabelas fato.

Ps-graduao
83

Para Napoli(2011), na composio tpica o modelo dimensional possui uma


grande entidade central(fato), que representa a evoluo dos negcios do
dia a dia de uma organizao, tambm apresenta um conjunto de entidades
menores(dimenses), arranjadas ao redor da entidade central e utilizadas de
maneira combinada, como variveis de anlise do fato.

Segundo Oliveira(2002), as tabelas fato contm muitos registros de valores e


medidas relacionadas a vendas e transaes de compras na empresa, em qua cada
medida dessa tomada segundo a interseo de todas as dimenses. Segundo
Kimball e Ross(2002), quanto menor a granularidade de uma tabela fato, maior
ser o nvel de detalhamento armazenado.

A modelagem dimensional tambm conhecida como modelo estrela, esse nome


dado devido tabela fato estar ao centro, ligada s dimenses nas pontas.
AFigura 1 ilustra essa analogia:

Figura 1 - Exemplo da modelagem em estrela

Fonte: Elaborado pelo autor, 2012.

As dimenses podem ser classificadas como resposta a quatro perguntas:


Quando?
Quem?
Onde?
O qu?

Data Warehouse
84

nas dimenses que so armazenadas as informaes complementares aos dados


cadastrados na tabela fato, e so utilizadas como variveis de corte e para auxiliar
em filtros de ferramentas OLAP.

Segundo Oliveira(2002), as dimenses contm descries textuais das dimenses


do negcio, e elas geralmente so utilizadas como variveis de corte ou filtros.
Para Napoli(2011), as dimenses podem ser formadas por um conjunto de
atributos, denominados hierarquias, que so utilizados como base para regras de
agrupamentos, quebras e filtros em consultas a uma tabela de fato.

Sabese que o DW trabalha com dados consolidados por tempo, isso leva a crer
que os sistemas de controle de processos das empresas armazenam os dados
direto na base operacional(relacional).

Sell(2006) desenvolveu um quadro que faz o comparativo entre fatos, dimenses


e medidas:

Quadro 1: Tabela descritiva de fatos, medidas e dimenses


FATOS DIMENSES MEDIDAS
So os atributos
Determinam o contexto
numricos que
de um assunto de
Representam um item, representam um fato
negcios, como por
Escopo uma transao ou um e so determinados
exemplo, uma anlise
evento de negcio. pela combinao
da produtividade dos
das dimenses que
grupos de pesquisa.
participaram desse fato.
Representam o
desempenho de
Refletem a evoluo So os balizadores de um indicador de
Objetivo
dos negcios. anlise de dados. negcios relativo
s dimenses que
participam de um fato.
Normalmente no
So representados por possuem atributos
conjuntos de valores numricos, pois so Podem possuir
Tipo de dado numricos(medidas) somente descritivas uma hierarquia de
que variam ao e classificatrias composio de seu valor.
longo do tempo. dos elementos que
participam de um fato.
Fonte: Sell(2006), p.31.

Segundo Datta e Thomas(1999) apud Napoli(2011), um cubo de dados uma das


peas fundamentais na criao e construo de um banco de dados dimensional,
ele serve como uma unidade bsica de entrada e sada para todos os operadores
definidos em um banco de dados, ele contm clulas as quais so valores ou

Ps-graduao
85

medidas que tomam como base um conjunto de dimenses. A Figura 2 apresenta


um exemplo de cubo multidimensional, cujo assunto as vendas de uma loja.

Figura 2 Cubo multimensional de vendas de uma loja

Produto 253 10 541


40
36 103 698
30
457 66 269
20

399 620 87
Loja
10 3
2
1
Perodo 01/2003 02/2003 03/2003
Fonte: Campos(2005).

A fase frontal do cubo apresentado na Figura 2 representa o assunto venda,


ou seja, a tabela do tipo fato vendas, possvel perceber as dimenses
utilizadas para chegar no valores apresentados, foram combinadas as dimenses
produtoxloja, ou seja, o cubo foi movido de maneira que foi apresentada a
quantidade de vendas de produtos por lojas.

Para facilitar o entendimento do processo de concepo de um modelo


dimensional apresentado a seguir um estudo de caso.

Estudo de caso: Concepo de um modelo dimensional


O cenrio escolhido para ilustrar esse estudo de caso o de uma biblioteca
universitria. Essa biblioteca faz parte de uma das maiores universidades do
Brasil, ela conta com mais de 20 mil usurios e conhecida nacionalmente pelo
seu vasto acervo.

Como a rea de pesquisa dessa universidade no para de crescer, a reitoria


disponibilizou uma verba bastante significativa para a construo de um DW que
auxilie na tomada de deciso.

Data Warehouse
86

Como base de dados para a carga do DW, existe um sistema transacional que
gerencia as operaes dirias dessa biblioteca. A Figura 3 apresenta a modelagem
relacional da base de dados utilizados por esse sistema:

Figura 3 Modelo relacional da biblioteca universitria

Fonte: Elaborao do autor, 2012.

O modelo apresentado acima serve como base para a carga do DW, o sistema
transacional que o utiliza gerencia as operaes dirias da biblioteca, como
porexemplo:
Gerenciamento de usurios;
Gerenciamento do acervo;
Controle das multas referente a atrasos na devoluo de livros.

Aps o entendimento do cenrio base, foi levantado, junto aos gestores da


biblioteca, quais necessidades eles possuem e quais perguntas eles gostariam
deobter respostas por meio da implantao do DW.

O que foi identificado junto aos gestores que se deseja ganhar agilidade
na compra dos livros, para isso necessrio identificar quais ttulos so mais
solicitados, para a compra de mais exemplares. Alm desse ponto, desejase

Ps-graduao
87

identificar quais assuntos so mais solicitados, distribudos pelos meses do ano,


para facilitar a previso na aquisio de novos ttulos por assunto.

Como a universidade no para de crescer, previsto que ela se expanda para as


cidades prximas, com isso, importante saber se existem interesses em comum
entre os moradores da cidade em questo.

Como foi falado anteriormente, o DW deve auxiliar a compra de novos livros e na


distribuio deles entre as cidades, caso acontea e expanso da universidade.
sabido que a modelagem dimensional centrada em assuntos, analisando o
modelo relacional e as informaes dadas pelos gestores. Tanto a anlise para
compra quanto a anlise para a distribuio centrada nos emprstimos feitos,
ouseja, esse o assunto em questo que se deve trabalhar no DW.

Identificando o assunto, sabese que, num modelo dimensional, ele


representado por uma tabela fato, ou seja, os valores que so totalizados so
relacionados aos emprstimos feitos.

Como foi verificado que todas as decises que se deseja tomar so relacionadas
aos valores dos emprstimos, no existe a necessidade de ter outras tabelas fato,
mas importante lembrar que num modelo dimensional podem existir muitas
tabelas fato.

Aps identificar os assuntos que o DW ir tratar, devemse levantar as


dimenses que so utilizadas para agrupar e cruzar as informaes contidas no
DW, para isso, devemos responder a questes do tipo: quem?, quando?,
oqu? e onde?.

Iniciando pelo quem?, fcil verificar que associado est diretamente


relacionado com a pergunta quem, mas em nenhum momento os gestores
fizeram perguntas do tipo: quem so os associados que..., dessa maneira
podese dispensar essa dimenso.

A prxima pergunta quando?, pois os gestores falaram que se deseja agrupar


valores por ms, ento, essa ser a unidade atmica de tempo, ou seja, temse
uma dimenso que possui todos os meses no formato ms/ano, os quais
tiverem registros de emprstimo na base relacional.

Identificando o quando? podese passar para as questes o qu?,


remetendoa: o que emprestado? A resposta nos guia para a dimenso: Livro.
A dimenso livro ajuda a saber quais ttulos no esto suprindo a necessidade e
devem ser comprados imediatamente. Outra informao que importante ser
utilizada como dimenso e est relacionada com Livro Assunto, ou seja, quais os
assuntos que esto sendo mais solicitados?

Data Warehouse
88

Por fim, perguntado onde? e podese chegar resposta de cidade, que um


dos requisitos apresentados na descrio das necessidades da camada gerencial.
Concludo isso, podemse levantar as seguintes dimenses: tempo, livro, assunto
e cidade. Para facilitar a visualizao apresentada a modelagem dimensional,
apartir das informaes levantadas na Figura 4:

Figura 4 Modelagem dimensional para o DW da biblioteca

Fonte: Elaborao do autor, 2012.

Por meio do modelo apresentado so facilmente respondidos quais foram os


assuntos de livros mais requisitados por moradores de uma cidade no perodo de
um ano, apenas fazendo cruzamento das dimenses e totalizando os valores da
tabela fato_emprstimo.

O modelo responde s necessidades solicitadas pela gerncia da biblioteca e


permite, de maneira mais intuitiva e rpida, o consumo das suas informaes.

Abordagens para desenvolvimento de um DW


Para a modelagem e desenvolvimento do DW do estudo de caso apresentado
anteriormente, o autor segue alguns passos. Mas vale lembrar que existem vrias
outras abordagens para o desenvolvimento de um DW. Sempre que se fala em
data warehouse, difcil no se lembrar dos autores principais desse assunto:
Inmon e Kimball, cada um desses autores apresenta abordagens diferentes,
apresentadas a seguir. Inicialmente, apresentanda a abordagem de Inmon, que
se pode entender como de cima para baixo ou em ingls top down. Segundo
Dill(2002), a abordagem de Inmon requer que o planejamento e o projeto sejam

Ps-graduao
89

efetuados no incio do projeto, o que traz a necessidade de envolver pessoas de


todos os departamentos envolvidos na implementao do DW. Nessa abordagem,
a criao dos data marts so feitas a partir do DW j construdo e no diretamente
dos dados operacionais.

Na abordagem de Kimball ou de baixo para cima, em ingls bottom up,


trabalha com a ideia de, primeiramente, construir os data marts por setor,
nonecessitando da viso global do repositrio, o que no necessita do
envolvimento de todos os setores na primeira fase de planejamento e projeto.
ODW construdo medida que os data marts so feitos. Segundo Dill(2002),
osdata marts so carregados a partir dos dados existentes nas bases operacionais,
e o DW vai tendo os data marts incorporados dentro dele.

No livro de Turban et al(2009), apresentado um quadro com o comparativo das


duas abordagens, o mesmo pode ser observado no Quadro 2:

Quadro 2 - Comparativo da abordagem de Inmon e Kimball

Caracterstica Inmon Kimball


Metodologia e
De cima para baixo De baixo para cima
arquitetura
Os data marts modelam um nico
DW para toda a processo de negcio, e chegase
Abordagem geral empresa(atmico) alimenta os consistncia da empresa por
bancos de dados departamentais meio de um barramento de dados
e do ajustarse s dimenses
Complexidade
Bastante complexo Bastante simples
do mtodo
Comparao com Processo de quatro passos;
metodologias uma fase dos mtodos de
Derivado da metodologia espiral
consagradas de sistema de gerenciamento de
desenvolvimento banco de dados relacional.
Discusso do
Bastante detalhada Bastante leve
projeto fsico
Modelagem de dados Orientada por assunto Orientada por processo
Acessibilidade ao
Baixa Alta
usurio final
Proporcionar uma soluo
Proporcionar uma soluo
que facilite aos usurios finais
tcnica slida com base
Objetivo fazer consultas diretas aos
em mtodos e tecnologias
dados e ainda obter tempos
comprovadas de banco de dados
razoveis de resposta
Fonte: Turban et al(2009, p. 78).

Data Warehouse
90

Alguns autores afirmam que possvel trabalhar com uma abordagem mista,
que utiliza vantagens especficas de cada modelo para o seu cenrio em
questo(DILL, 2002).

Evoluo do DW
A ideia do uso dos repositrios do tipo DW est cada vez mais presente nas
organizaes, por conta dessa demanda, comum novos trabalhos sobre esse
tema, o que muito bom, pois faz com que essa abordagem acompanhe a
evoluo dos cenrios que as emprega.

No livro de Inmon, Strauss e Neusjloss(2007), foi cunhado o termo DW 2.0, que


trata da chamada segunda gerao dos data warehouse. Nessa nova abordagem,
oDW no se preocupa apenas em integrar dados de vrias bases operacionais, mas
tambm integrar dados estruturados com dados no estruturados(texto livre).

O trabalho de Silva(2011, p. 36) apresenta mais detalhes sobre os DW 2.0:

a segunda gerao do DW apresenta distintos setores conforme a


necessidade de acesso e a temporalidade da informao. Esses setores so:
Interactive, Integrated, Near line e Archival. Outra mudana importante que
os metadados, tanto tcnicos quanto de negcio, precisam de um ambiente
comum e uma estrutura local para cada componente das plataformas de BI.

Como pode ser observado, a evoluo do DW para o DW 2.0 segue as mesmas


tendncias previstas para a evoluo da rea de business intelligence, sabido
que o chamado BI 2.0 e BI 3.0 considera tambm a anlise dos dados no
estruturados, bem como o cruzamento das informaes do repositrio com os
provenientes da web.

Referncias

CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC(Graduao em Bacharelado


em Sistemas de Informao). Centro de Ensino Superior de Juiz de Fora, Juiz de Fora, 2005.

INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The Architecture for the Next
Generation of Data Warehousing. 2007.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.

Ps-graduao
91

NAPOLI, Marcio. Aplicao de Ontologias para apoiar operaes analticas sobre fontes
estruturadas e no estruturadas. 2011. Dissertao(Mestrado) Universidade Federal de
Santa Catarina, Programa de PsGraduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.

OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.

SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias


semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado) Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.

SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analtico baseado em tecnologias semnticas e em linguagem natural. 2011.
Dissertao(Mestrado) Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

Data Warehouse
92

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:

a. ( ) A utilizao dos repositrios do tipo DW esto cada vez mais presentes nas
empresas.

b. ( ) O processo de integrao dos dados algo bastante simples e rpido


deconceber.

c. ( ) Os dados nas tabelas fato so agrupados e consolidados de modo a facilitar


o consumo da informao.

d. ( ) Podese fazer uma analogia das dimenses de um DW com filtros a serem


aplicados numa consulta.

e. ( ) As abordagens de DW esto em constante evoluo, a prova disso a


concepo do chamado DW 2.0.

f. ( ) As medidas de um DW uma nomenclatura equivalente a tabelas fato.

Atividade colaborativa
Nesta unidade, voc estudou uma srie de conceitos relacionados com sistemas
de informao e sistemas de apoio deciso. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.

Nesta unidade, foi estudado sobre os repositrios data warehouse, tambm foi
visto que Inmon, considerado como um dos pais dessa abordagemj trabalha
com o conceito do DW2.0. Sendo assim, faa um paralelo dessa evoluo com a
evoluo do BI, BI 2.0 e BI 3.0.

Ps-graduao
93

Sntese
Nesta unidade, so estudados os componentes de um DW, bem como qual o
seu ciclo de vida de desenvolvimento, qual a sua importncia para a tomada de
deciso, sua arquitetura bsica, como se d a integrao e carga dos seus dados,
quais as suas possveis abordagens e construes.

Saiba Mais
Bill Inmon apresenta um artigo para o site Information Management, falando
sobre as novas tendncias dos Data Warehouse e mais detalhes sobre DW2.0;
uma leitura bastante interessante, vale a pena:

http://www.informationmanagement.com/issues/20060401/10511111.html

Data Warehouse
Unidade 4

Descobrindo o conhecimento

Objetivos de Aprendizagem
Compreender as fases do processo de descoberta de conhecimento
emvolume de dados.
Conhecer tcnicas de minerao existentes e aplicveis em um sistema
de Business Intelligence.
Julgar o uso de cada tcnica levando em considerao o contexto
doproblema.

Introduo
O conhecimento junto aos ativos intangveis das organizaes est cada vez
mais ganhando espao como um dos bens mais valiosos para as chamadas
organizaes do conhecimento. Os sistemas de apoio deciso surgiram como
resposta falta de sistemas focados em auxiliar a camada gerencial.

Com a evoluo desses sistemas nascem as solues de Business Intelligence, que


possuem repositrio de dados unificados, prprocessados e com uma organizao
focada para facilitar a anlise dos seus dados. Para conseguir chegar ao
conhecimento que est implcito nesses dados e nos repositrios de documentos,
devemse utilizar solues baseadas em descoberta de conhecimento.

Esta unidade est focada nas estratgias de descoberta de conhecimento,


utilizando como fonte bancos de dados ou textos no estruturados, que sejam
relevantes para o domnio da organizao.
96

Introduo descoberta de conhecimento


Flvio Ceci

A utilizao de repositrios centralizados de informao, como os Data Warehouse,


auxilia a organizar os dados espalhados pelas vrias bases da organizao e os
modela de modo a facilitar a anlise.

Normalmente, o DW tem os seus dados modelados utilizando a modelagem


dimensional, que os organiza de maneira mais apropriada para a anlise, tanto
humana quanto computacional. Desse modo, o acesso informao fica muito
mais fcil e rpido. Cada vez mais as organizaes esto dando ateno para as
suas informaes e conhecimentos implcitos nas bases de dados e documentos.
Segundo Garcia, Varejo e Ferraz(2005), a informao e o conhecimento vm
movimentando o desenvolvimento mundial, e cada vez mais so necessrias
pessoas especializadas e ferramentas para auxiliar na aquisio, representao,
manipulao, apresentao e armazenamento.

Com os dados organizados e armazenados no DW, o prximo passo para a


descoberta de conhecimento aplicar mtodos de anlises estatsticas e de
inteligncia artificial(IA), dessa maneira, novas relaes e informaes sero
descobertas(CARVALHO, 2005).

A descoberta de conhecimento a etapa que visa a entregar contedo de


mais valor para os tomadores de deciso da organizao. Tradicionalmente,
adescoberta de conhecimento sensvel aos tipos de dados que se utiliza como
fonte. Essas fontes podem armazenlos no estruturados ou estruturados.

Entendese como dados estruturados aqueles que possuam uma estrutura que
facilite a sua organizao, armazenamento e recuperao, podese citar como
exemplo aqueles armazenados em bancos de dados, em arquivos XML, JSON,
entre outros.

Os dados no estruturados so armazenados geralmente em linguagem natural,


ou seja, esto em livros, manuais, revistas, blogs, nas redes sociais, entre outros.
Arecuperao de informao para esse tipo de dado muito mais complexa,
jque no existe um padro prdefinido que facilite a sua organizao.

Tendo em vista os dois tipos de dados apresentados anteriormente existem


tcnicas especficas para a anlise de cada tipo. Para a anlise de dado estruturada,
utilizase o processo chamado de: descoberta de conhecimento em banco de
dados, em ingls: Knowledge Discovery in Database(KDD), para a anlise dos
dados no estruturados utilizase a tcnica descoberta de conhecimento em

Ps-graduao
97

bases textuais, em ingls: Knowledge Discovery in Text(KDT), a Figura 1 mostra


graficamente as informaes apresentadas nesse pargrafo:

Figura 1 - Tipos de descoberta de conhecimento

Descoberta de
conhecimento

KDT KDD

Banco de
Dados
Documentos
no estruturados
Fonte: Elaborao do autor(2012).

A grande quantidade de dados existentes em bancos de dados ou via internet


tornouse um desafio para as pessoas cuja funo a tomada de deciso.
Osmtodos tradicionais de transformao de dados em conhecimento dependem
da anlise e da interpretao pessoal deles, o que um processo lento, caro e
altamente subjetivo.

Nesse contexto, fazse necessria uma metodologia capaz de extrair informaes


teis para o suporte s decises, estratgias de marketing e campanhas
promocionais, entre outras. A busca por essas informaes realizada
utilizandose sofisticadas tcnicas na anlise daqueles dados, a fim de encontrar
padres e regularidades neles. A esse processo dse o nome de Descoberta de
Conhecimento em Banco de Dados(REZENDE, 2005).

Descoberta de conhecimento e minerao de dados


Embora muitos autores usem o termo minerao de dados(data mining) como
sendo um passo particular do KDD, que consiste na aplicao de algoritmos
especficos para a extrao de padres a partir das bases de dados, neste texto,
o qual est baseado em diversos autores e em concordncia com vrios deles,
trataremos os termos KDD e minerao de dados como sinnimos.

Descobrindo o conhecimento
98

A Figura 2 apresenta a relao entre KDD e data mining:

Figura 2 - Relao entre KDD e DM

KDD
Data Mining

Fonte: Carvalho(2002).

As ferramentas de data mining podem prever futuras tendncias e


comportamentos, permitindo s empresas um novo processo de tomada
de deciso, baseado, principalmente, no conhecimento acumulado e,
frequentemente, deixado de lado, contido em seus prprios bancos de dados.

Um dado a estrutura fundamental sobre a qual um sistema de informao atua.


A informao pode ser vista como uma representao ordenada e enxuta dos
dados resultantes de uma consulta que permite a visualizao e interpretao
deles. O conhecimento provm da interpretao das informaes apresentadas
pelo sistema de banco de dados.

Existem muitas reas que do apoio ao processo de tomada de deciso, veja a


Figura 3:

Figura 3 - reas relacionadas com a descoberta do conhecimento

Sistema
Especialista

Aprendizado Estatstica
de Mquina
Descoberta de
Conhecimento

Visualizao Processamento de
Linguagem natural

Fonte: Adaptado de Adriaans e Zantinge(1996).

O processo de descoberta de conhecimento conta com a utilizao de abordagens


estatsticas, aprendizagem de mquina, sistemas especialistas, processamento de
linguagem natural, entre outras. Outra etapa muito importante como apresentar
e visualizar o conhecimento extrado a partir das informaes.

Ps-graduao
99

Referncias

ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.

CARVALHO, D. R. Um mtodo hbrido rvore de deciso / algoritmo gentico para data


mining, Tese Doutorado PUCPR, Curitiba, 2002.

CARVALHO, Lus Alfredo V. Data Mining: A Minerao de Dados no Marketing, Medicina,


Economia, Engenharia e Administrao. Editora Cincia Moderna. Rio de Janeiro, 2005.

GARCIA, Ana Cristina B.; VAREJO, Flvio M.; FERRAZ, Inhama N. Aquisio de
Conhecimento. In Sistemas Inteligentes: Fundamentos e Aplicaes. Organizao:
REZENDE, Solange O. Editora Manole, So Paulo, 2005.

REZENDE, Solange. Sistemas Inteligentes; Fundamentos e aplicaes. So Paulo:


Ed.Manole, 2005.

Descobrindo o conhecimento
100

O processo de KDD
Flvio Ceci e Glucio Adriano Fontana

As tecnologias para armazenamento de informao so to comuns quanto


numerosas. Juntase a isso a vontade dos empreendedores de extrair o mximo
de vantagem de suas informaes. Esses elementos tornam a minerao de dados
e a busca de conhecimento a partir de banco de dados uma rea de conhecimento
em crescente expanso nos dias de hoje. Ser rara, em um futuro prximo, uma
empresa ou organizao que no invista nas tecnologias do conhecimento.

Segundo Navega(2002), talvez a definio mais importante de Data Mining


ou Minerao de Dados tenha sido elaborada por Fayyad et al.(1996) apud
Navega(2002), [...] o processo notrivial de identificar, em dados, padres
vlidos, novos, potencialmente teis e ultimamente compreensveis.

Navega(2002) expe ainda que esse processo valese de diversos algoritmos


(muitos deles desenvolvidos recentemente), que processam os dados e
encontram esses padres vlidos, novos e valiosos.

preciso ressaltar um detalhe que costuma passar despercebido na literatura,


embora os algoritmos atuais sejam capazes de descobrir padres vlidos e novos,
ainda no temos uma soluo eficaz para determinar padres valiosos. Por essa
razo, o Data Mining ainda requer uma interao muito forte com analistas humanos,
que so, em ltima instncia, os principais responsveis pela determinao do valor
dos padres encontrados. Alm disso, a conduo(direcionamento) da explorao
de dados tambm tarefa fundamentalmente confiada a analistas humanos, um
aspecto que no pode ser desprezado em nenhum projeto que queira ser bem
sucedido. Data Mining parte de um processo maior de conhecimento denominado
Knowledge Discovery in Database(KDD).

KDD consiste, fundamentalmente, na estruturao do banco de dados; na seleo,


preparao e prprocessamento dos dados; na transformao, adequao e
reduo da dimensionalidade dos dados; no processo de Data Mining; e nas
anlises, assimilaes, interpretaes e uso do conhecimento extrado do banco
de dados, por meio do processo de Data Mining.

As tarefas de minerao de dados(ou processo de descoberta de conhecimento


em bancos de dados KDD Knowledge Discovery in Database) auxiliam esse
processo de aquisio de conhecimento. Diversos algoritmos de minerao
existem e cada um possui uma particularidade e aplicao.

Ps-graduao
101

As tarefas concernentes ao processo de KDD incluem dificuldades com a extrao,


preparao e validao dos dados extrados e a alocao de recursos no cliente
e, frequentemente, so subestimadas durante o planejamento dos cronogramas
para a execuo dos projetos. As atividades de obteno e limpeza dos dados
geralmente consomem mais da metade do tempo dedicado ao trabalho.

Em se tratando de regras de classificao(uma das tcnicas de minerao de


dados que se prope a agrupar conjuntos de padres semelhantes para anlise),
a maioria das ferramentas de data mining se reporta a problemas de classificao
que atentam a encontrar regras que particionam dados em conjuntos disjuntos.
Aplicaes incluem aprovao de crdito, determinao de perfil de clientes etc.

Por exemplo, se h um registro de vendas de produtos em um supermercado,


podese particionar conjuntos de produtos como altamente lucrativos,
namdia ou no lucrativos, baseandose no lucro da rede e no volume de
vendas. Isto , se a tecnologia corrente em bancos de dados no puder acomodar
diretamente a histria das vendas, no se poder deduzir a evoluo da
lucratividade de itens individuais.

Origem dos dados


Como o prprio nome sugere no processo KDD, a descoberta de conhecimento
feita em cima do banco de dados da organizao.

recomendado que se utilize um repositrio de dados como Data Warehouse (DW),


o qual os armazena de maneira centralizada e j prprocessados, facilitando a
suaanlise.

Caso a organizao no disponha, podese utilizar uma base operacional, mas o


resultado pode no ser to efetivo. Outro problema que pode ocorrer, utilizando
como base uma base operacional, a falta de agilidade na resposta.

Vale lembrar que todas as transformaes, limpezas e agrupamentos feitos pelo


processo de ETL para o DW, no esto presente nas bases operacionais das
organizaes, o que reflete numa quantidade de dados maior e no orientadas
anlise, e sim a processo, o que dificulta o trabalho das tcnicas e das ferramentas
de minerao de dados, refletindo diretamente na performance da anlise.

Descobrindo o conhecimento
102

Caractersticas dos dados


Sobre as caractersticas de dados, Romo(2002) afirma que elas, quando
incorporadas nos dados de anlise, tais como nmero de registros, tipo dos dados,
e quantidade de erros, afetam diretamente a exatido da aprendizagem, de
forma bastante significativa. Tendo em vista esse detalhe, podese concluir que
comparada com os efeitos de algumas caractersticas dos dados, a escolha do
algoritmo de aprendizagem se torna menos importante.

Para se ter certeza do impacto, Romo(2002) diz que se deve considerar os


seguintes questionamentos:
Quais caractersticas dos dados afetam mais a minerao de dados?
Como estas caractersticas interagem entre si?
Os dados podem ser caracterizados de forma a melhorar a descoberta
deconceitos?

Percebese que so necessrias etapas para preprocessar esses dados antes de


submetlos aos algoritmos de minerao de dados. A seguir, so apresentadas as
etapas do processo KDD.

Etapas do processo de KDD


Segundo Dias(2002), o termo processo remete ao entendimento que existem
vrios passos envolvendo preparao de dados, procura por padres, avaliao
de conhecimento e refinamento. Todos esses passos so interativos e iterativos,
ou seja, dependem da constante interferncia de um tcnico especialista e se
repetem de acordo com a necessidade:
1. Conhecimento do domnio da aplicao: inclui o conhecimento relevante
anterior e as metas da aplicao, ou seja, a identificao do problema.
Esse passo utiliza o domnio do especialista para identificar problemas
importantes e os itens necessrios para resolvlos. Entretanto,
importante que essa etapa seja realizada em conjunto com um
engenheiro de conhecimento.
2. Criao de um banco de dados alvo: definir o local de armazenamento e
selecionar um conjunto de dados ou dar nfase para um subconjunto de
dados nos quais o descobrimento ser realizado.

Ps-graduao
103

3. Prprocessamento: inclui operaes bsicas, como remover rudos


ou subcamadas, se necessrio, coletando informao para modelar,
decidindo estratgias para manusear(tratar) campos, onde se nota
facilmente que no influenciam na soluo das perguntas que se deseja
responder. a fase mais trabalhosa e frequentemente a mais demorada
de todo o processo.
4. Transformao de dados e projeo: consiste em encontrar formas
prticas para representao dos dados, dependendo da meta do
processo e o uso de reduo de dimenses e mtodos de transformao
para diminuir o nmero efetivo de variveis que deve ser levado em
considerao; ou encontrar representaes invariveis para os dados.
5. Minerao de dados(Data Mining): A fase que muitas vezes d nome
ao processo de KDD inclui a deciso do propsito do modelo derivado
do algoritmo de minerao. Alm dessa deciso, necessrio selecionar
mtodos para serem usados na procura por padres nos dados, bem
como decidir quais modelos e parmetros podem ser apropriados,
determinando um mtodo de minerao particular a ser aplicado.
Referemse a dados que provavelmente contenham erros de digitao
ouvalores absurdos.
6. Interpretao: inclui a interpretao dos padres descobertos e o possvel
retorno a algum passo anterior, alm de uma possvel visualizao dos
padres extrados, removendo aqueles redundantes ou irrelevantes e
traduzindo os teis em termos compreendidos pelos usurios.
7. Utilizao do conhecimento obtido: inclui a necessidade de incorporar
este conhecimento para a melhora de performance do sistema, adotando
aes baseadas no conhecimento, ou simplesmente documentando e
reportando esse conhecimento para grupos interessados.

Descobrindo o conhecimento
104

Figura 1 - Fases do processo KDD

Fonte: Imasters, 2012.

A Figura 1 apresenta a interao e o fluxo entre as sete etapas apresentadas do


processo KDD; vale lembrar que alguns autores podem considerar mais ou menos
etapas. A Figura 2 apresenta os processos KDD na viso de Romo(2002):

Figura 2 - Processo KDD na viso de Romo(2002)

Dados Dados

Integrao

Pr Processamento Minerao dos Dados Ps Processamento

Conhecimento

Fonte: Romo(2002).

Ps-graduao
105

Analisando a Figura 2, o autor parte do processo de integrao dos dados das


bases e/ou uso de repositrios, partese para o processo de prprocessamento
que contempla a seleo de atributos e transformaes sobre os dados; aplicao
de mtodos(algoritmos) de minerao de dados para extrair os padres deles;
por fim, avaliado o resultado da etapa de minerao de dados para identificar os
padres considerados como conhecimento.

A seguir so apresentados os tipos de usurios envolvidos no processo de KDD.

Classe de usurios envolvidos no processo KDD


O processo KDD possui alguns perfis de usurios que so auxiliares e participam
do processo KDD. Segundo Oliveira(2000), as classes de usurios envolvidos so:
Especialista do Domnio: o responsvel por deter o entendimento do
domnio da aplicao. Durante a etapa de anlise de dados, o especialista
sensvel a qual rea est sendo analisada, como por exemplo, se o
contexto analisado for o de vendas o especialista pode ser o diretor
demarketing;
Analista: responsvel pela execuo do processo KDD. Deve possuir
amplo conhecimento das etapas que fazem parte desse processo.
Elepode ser o analista de sistemas, estatstico ou administrador de
banco de dados da organizao;
Usurio final: frequentemente aquele que utiliza o conhecimento
extrado no processo de KDD para auxililo em um processo de tomada
de deciso.

A interao entre as classes de usurio bastante importante para o processo


como um todo. Segundo Oliveira(2000), durante a realizao do processo KDD,
ainterao e comunicao entre o analista, especialista do domnio e usurio
final muito importante uma vez que o sucesso da extrao de conhecimento
depende da comunicao entre eles.

Descobrindo o conhecimento
106

Pesquisas sobre KDD atuais


O uso do KDD uma prtica bastante utilizada e atual, tendo em vista isso, as
pesquisas nessa rea continuam constantes. No trabalho de Dias(2002) foram
identificados alguns desafios para a rea:
Grandes conjuntos de dados e alta dimensionalidade;
Interao com o usurio e conhecimento anterior adquirido;
Dados perdidos;
Gerenciamento de mudana de variveis e conhecimento;
Interao;
Multimdia e dados orientados a objetos.

O trabalho do autor apresentado anteriormente foi desenvolvido h, pelo menos,


10 anos, e muitos desses desafios no foram solucionados ainda. Podese encarar
tambm como o futuro ou o presente das pesquisas relacionadas com KDD a
utilizao de contedo semntico na cruzada de informao dimensional.

Referncias

DIAS, Cristiano Araujo. Descoberta de Conhecimento em Banco de Dados para Apoio


Tomada de Deciso. Especializao em Informtica Empresarial. Unesp. Guaratinguet, 2002.

NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.


Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: maro de 2012.

OLIVEIRA, Robson Butaca Taborelli de. O Processo de Extrao de Conhecimento de


Base de Dados Apoiado por Agentes de Software.(Dissertao) Cincia da Computao.
Universidade de So Paulo. So Carlos, 2000.

ROMO, Wesley. Descoberta de Conhecimento Relevante em Banco de Dados sobre


Cincia e Tecnologia.(Tese) Programa de PsGraduao em Engenharia de Produo.
Universidade Federal de Santa Catarina. Florianpolis, 2002.

Ps-graduao
107

Tcnicas de Minerao de Dados


Flvio Ceci e Glucio Adriano Fontana

A evoluo da computao permitiu a automatizao de uma srie de processos


organizacionais, bem como a comunicao interna e externa. No entanto,
junto a essa evoluo nasce a exploso na quantidade de dados produzidos.
Segundo Witten e Frank(2000), um dos grandes problemas atuais a produo
desordenada de dados a partir das operaes de um indivduo ou organizao.
Essa grande quantidade faz emergir a necessidade de discos de armazenamento
maiores, e esse processo nunca para, ou seja, sempre ser necessrio comprar um
novo disco rgido maior.

Junto ao armazenamento, surge a necessidade de recuperao, de maneira rpida


e eficiente, o que faz as organizaes se preocupar em como organizar esses
dados. sabido que por trs dos dados brutos se esconde uma grande quantidade
de informaes e conhecimento valiosos para a tomada de deciso.

O uso das tcnicas de minerao de dados(em ingls Data Mining) com a criao
de repositrios de dados organizacionais representam processos imprescindveis
para a descoberta de conhecimento. Para Rezende(2003), o uso de tcnicas
de minerao de dados se d pela combinao de uma srie de algoritmos que
definem um paradigma de extrao de conhecimento, importante destacar que
para uma mesma tcnica podese utilizar mais de um algoritmo.

Processos da minerao de dados


Para que as tcnicas de minerao de dados obtenham sucesso na sua anlise
e atuem na resoluo dos problemas, necessrio que sejam efetuados alguns
processos. A Figura 1 foi retirada do trabalho de Quoniam et al(2001), que
apresenta todos os seus processos.

Descobrindo o conhecimento
108

Figura 1 - Processos para a minerao de dados

Base de
Dados Bruta Visualiza

2 Etapa de Seleo Limpa


dos Dados

1 Etapa Base de Dados Data Mining


Problema que ser de Trabalho
objeto de estudo
3 Etapa de Anlise dos
Preparao dos Dados resultados

Assimilao do
Conhecimento

4 Etapa de
Anlise dos dados

Fonte: Quoniam et al(2001).

Inicialmente, identificado qual(quais) problemas se deseja resolver utilizando as


tcnicas de minerao de dados. Alm disso, podese partir para o levantamento
das perguntas que se deseja responder com a sua utilizao.

A segunda etapa do processo a seleo e organizao dos dados que sero


utilizados como base para a anlise. Essas duas etapas iniciais so comuns no
processo de implementao de um data warehouse e podem ser reaproveitadas.

A terceira etapa est focada na preparao dos dados, o prprocessamento.


Agora eles so organizados de modo a serem melhor analisados pelos
algoritmosutilizados.

Na quarta e ltima etapa feita a anlise propriamente dita e aplicado o


algoritmo para a minerao de dados, a fim de explicitar novas informaes e
conhecimentos de domnio da organizao.

A utilizao das tcnicas de minerao de dados no esto limitadas ao domnio


da computao, muitas outras reas tambm a utilizam, na prxima seo so
apresentadas essas reas com mais detalhes.

Ps-graduao
109

Segmentos para o uso de minerao de dados


Muitas so as reas e segmentos que fazem uso das tcnicas de minerao de
dados, segundo Carvalho(2005), muitos so os exemplos do seu uso. A seguir so
apresentados alguns desses exemplos, levantados do livro desse autor:
Aplicaes do governo: o governo americano utiliza minerao de dados
h bastante tempo para identificao de padres de transferncias de
fundos internacionais, que se parecem com a manipulao do dinheiro
pelo narcotrfico;
Supermercados: algumas redes de supermercados utilizamse de
tcnicas de minerao de dados para oferecerem ofertas a seus clientes
de maneira personalizada, a partir dos dados anteriores de suas compras;
Na medicina: o uso de minerao de dados para auxiliar na deteco de
doenas a partir de sintomas e do histrico de sade do paciente.

Segundo Martinhago(2005), no existe uma s tcnica que pode ser aplicada


a fim de solucionar um problema ou fazer uma anlise, mas existem tcnicas
que so mais eficientes para resolver melhor alguns problemas, por esse motivo
devese conhecer bem as tcnicas de minerao de dados, seus algoritmos e suas
possveis aplicaes.

Muitas so as tcnicas utilizadas de minerao de dados para os mais variados fins,


as mais utilizadas so:
Classificao de dados(data classification): consiste no processo
de encontrar propriedades comuns e um determinado conjunto de
objetos de um banco de dados e classificlos em diferentes classes,
deacordo com um modelo de classificao. Para construir um modelo
de classificao, um banco de dados de exemplo definido como o
conjunto de treinamento, onde cada tupla, que se pode definir com
uma linha de uma tabela do banco de dados, consiste em um conjunto
de mltiplos atributos comuns das tuplas de um grande banco de
dados e, adicionalmente, cada tupla contm um rtulo marcado com
a identificao de uma classe conhecida associada a ela. O objetivo da
classificao de dados primeiro analisar o conjunto de treinamento e
desenvolver uma apurada descrio ou modelo para futuros testes, com
os dados de um grande banco de dados. Os passos bsicos so: definio
de um conjunto de exemplos conhecidos(treinamento); treinamento
sobre esse conjunto; gerar regras de classificao ou descrio.

Descobrindo o conhecimento
110

Clusterizao: instintivamente, as pessoas visualizam os dados


segmentados em grupos discretos, como, por exemplo, tipos de
plantas ou animais. Na criao desses grupos discretos podese
notar a similaridade dos objetos em cada grupo. Enquanto a anlise
de grupos frequentemente feita de modo manual em pequenos
conjuntos de dados, para grandes conjuntos, um processo automtico
de clusterizao(dataclustering), por meio da tecnologia de minerao
de dados mais eficiente. Em adio, os cenrios existentes so
muito similares, tornandoos competitivos, requerendo a utilizao de
algoritmos complexos, que determinem a segmentao mais apropriada.
Nesse mtodo de minerao, considerado do tipo diviso e conquista,
o algoritmo deve criar as classes por meio da produo de parties do
banco de dados em conjuntos de duplas. Essa partio feita de modo
que duplas com valores de atributos semelhantes, ou seja, propriedades
de interesse comuns sejam reunidas dentro de uma mesma classe.
Estimativa: estimar algum ndice determinar seu valor mais provvel
diante de dados de outros ndices semelhantes sobre os quais se
tm conhecimento. Suponha que se deseja saber o gasto de famlias
cariocas com lazer e que para isso existam ndices de gastos de famlias
paulistanas com lazer em funo da faixa etria e padro sociocultural.
No sabemos exatamente quanto as famlias cariocas gastam com lazer,
mas podemos estimar, baseados nos dados das famlias paulistanas.
Certamente, essa estimativa pode nos levar a erros, uma vez que
Rio de Janeiro e So Paulo so cidades com geografias diferentes e
oferecem diferentes opes de lazer a seus frequentadores. A arte de
estimar exatamente esta: determinar da melhor forma possvel um
valor, baseandose em outros valores de situaes idnticas, mas nunca
exatamente iguais.
Previso: resumese na avaliao do valor futuro de algum ndice,
baseandose em dados de comportamento passado a esse ndice.
Apreviso pode incluir tarefas como: se o ndice da bolsa de valoresX
ir subir ou descer amanh, quanto o valor da bolsa ir variar, qual ser
a populao de uma cidade Y daqui a dez anos, entre outras. Onico
meio de verificarmos se uma previso foi bem feita aguardar o
acontecimento do fato e conferir se ela se verificou ou no.
Regras de associao: determinam que fatos ocorrem simultaneamente
com probabilidade razovel de coocorrncia, ou que itens em uma
massa de dados esto presentes juntos(correlao). Vendas casadas ou
a anlise de um carrinho de supermercado para ver quais itens os clientes
compram conjuntamente, so exemplos desta tcnica. Umaregra de
associao definida como: Se X ento Y ou X Y, ondeXe Y so

Ps-graduao
111

conjuntos de itens e X Y = . Dizse que X o antecedente da regra,


enquanto que Y o consequente dela. Um algoritmo baseado em
regras de associao consiste em descobrir esse tipo de regra entre os
dados preparados para a garimpagem. Medidas estatsticas revelam a
frequncia de uma regra no universo dos dados garimpados.

Para clarificar o entendimento de como funcionariam tcnicas de minerao de


dados aplicadas sobre uma massa de dados, seja ela proveniente de informaes
de um DW, de um banco de dados transacional ou da Web(webmining), so
demonstrados dois exemplos de regras de associao e de clusterizao,
mostrando como se pode descobrir nova informao e assumila como regra,
isto, conhecimento.

Utilizando Regras de Associao para venda casada


Pense em uma cadeia de lojas de farmcias. Desejase saber quais produtos
desencadeiam a compra de outros.

Por exemplo, ao encontrar a seguinte associao {mercrio, gaze, esparadrapo}


{algodo}(0,78), significando que 78% dos clientes que compram mercrio, gaze,
esparadrapo tambm compram algodo, o gerente de uma farmcia pode veicular
campanhas publicitrias utilizando esses produtos, displos em lugares prximos
na prateleira, entender o porqu de uma possvel queda nas vendas de alguns dos
produtos, entre outras concluses. Muitos algoritmos foram desenvolvidos com
o objetivo de descobrir regras de associao. Desses, o mais utilizado o Apriori,
sendo que os demais ou so extenses deste ou o utilizam(AGRAWAL, 1995 apud
CARVALHO, 2000).

O algoritmo Apriori realiza a garimpagem em dois passos: gerao e poda.


Noprimeiro, feita uma varredura sobre o arquivo, a fim de gerar todos os
conjuntos de combinaes de valores de colunas que aparecem no arquivo.
Nosegundo, so considerados apenas aqueles conjuntos que aparecem no
arquivo com uma frequncia no menor que um valor mnimo prfixado, so
os chamados grandes conjuntos. A medida da frequncia de um conjunto X de
valores chamada de suporte, assim definido:

N de registros que contm os elementos do conjunto X


Suporte (X) =
N total de registros do arquivo

Descobrindo o conhecimento
112

E o fator de confiana da regra dado por:

N de registros com X e Y
Confiana (R) =
N de registros com X

Na tabela seguinte, exemplificando um espao amostral de dez registros,


considerase 1 para produto comprado por cada cliente.

Tabela 1 Transaes de vendas a clientes

Transao Gaze Esparadrapo Mercrio


1 1 1 0
2 1 1 0
3 1 1 1
4 1 1 1
5 1 1 1
6 1 1 1
7 1 0 1
8 1 1 1
9 0 1 1
10 1 1 1
Fonte: Carvalho(2000).

E considerandose um grau de confiana mnimo de 0,80, os clculos denotaram


as seguintes relaes vlidas(com grau de confiana superior ao mnimo):

Tabela 2 Regras com confiana maior que o mnimo

Regra Fator de confiana


{Gaze}=Esparadrapo 0,88
{Esparadrapo}=Gaze 0,88
{Gaze}=Mercrio 0,77
{Mercrio}=Gaze 0,87
{Esparadrapo}=Mercrio 0,77
{Mercrio}= Esparadrapo 0,87
{Gaze, Esparadrapo}=Mercrio 0,75
{Gaze, Mercrio}= Esparadrapo 0,85
{Esparadrapo, Mercrio}=Gaze 0,85
Fonte: Carvalho(2000).

Ps-graduao
113

Quem leva mercrio tambm leva gaze? Vale comentar aqui que essa relao nem
sempre comutativa. Veja as linhas 3 e 4 da tabela. Ela contm valores diferentes
e regras invlidas e vlidas, respectivamente, simplesmente modificando a ordem
dos produtos, como precedente e consequente. Como voc pode notar, podese
confiar que quem leva mercrio, leva gaze(87% dos clientes), mas est abaixo do
limiar afirmar que quem leva gaze, leva mercrio. O precedente normalmente ser
o carrochefe das vendas, ele chamar o cliente para dentro do estabelecimento e
o far consumir mais.

Criando classes Clusterizando


Fazer grupos e procurar caractersticas em comum entre vrios itens e aproximar
os semelhantes o que se chama Clusterizar. Essa tcnica, muitas vezes, uma
das primeiras etapas dentro de um processo de Data Mining, j que identifica
grupos de registros correlatos.

Um cluster um agrupamento de itens que so similares a outros dentro do


mesmo agrupamento e diferentes em outros agrupamentos(HAN; KAMBER, 2006
apud ARAGO, 2008). Podemos, ento, definir a anlise de cluster, ou clusterizao,
como um processo que permite agrupar itens, de forma a maximizar a similaridade
dentro da mesma classe e a minimizar a similaridade entre as classes.

Para medir a similaridade entre itens, a anlise de cluster se baseia na proximidade


entre os valores de seus atributos. Mapeando cada atributo em uma coordenada
unidimensional, itens compostos por m atributos podem ser representados
como pontos em um espao euclidiano mdimensional.

A distncia euclidiana entre dois pontos p =(p1, p2,, pm) e q =(q1, q2,, qm)
definida como:

m 2
dist ( p, q) =
i=1
( pi qi )

O exemplo abaixo, apresentado por Arago(2008), considera o conjunto e a


renda representando pessoas, conforme a Tabela 3. A partir dos valores dos
atributos desses itens, podemos formar o grfico bidimensional apresentado
na Figura 2, em que cada ponto representa um item(ou pessoa). Os crculos
representam os clusters ou agrupamentos mais prximos, como um algoritmo
declusterizao faria.

Descobrindo o conhecimento
114

Tabela 3 - Valores dos atributos

Idade Renda
5 0,00
27 3.000,00
42 5.000,00
29 3.500,00
18 500,00
22 1.000,00
31 3.200,00
39 4.600,00
20 800,00
10 0,00
6 0,00
46 4.500,00
40 1.500,00
42 1.000,00
39 1.200,00
Fonte: Arago(2008)

Para usar esses clusters como classes, precisamos antes identificlos e nomelos
adequadamente. Por exemplo:

C1: Crianas. Nesses clusters temos apenas crianas, que no podem trabalhar,
portanto, sua renda nula.

C2: Jovens Iniciando a Carreira. Nesses clusters temos pessoas com idade
prxima mnima para poder trabalhar. Mas, como provavelmente no possuem
formao superior nem experincia, tm uma renda relativamente baixa.

C3: Profissionais com Curso Superior. Nesses clusters temos pessoas que
j tmexperincia e pelo patamar salarial provavelmente tambm possuem
formao superior.

C4: Altos Executivos. Nesses clusters temos pessoas de certa idade que, para
ter uma renda to alta em tal faixa etria, provavelmente fazem parte de alto
escalo gerencial.

C5: Profissionais sem Curso Superior. Nesses clusters temos pessoas de


certa idade que, por terem uma renda relativamente baixa, provavelmente no
possuem curso superior.

Ps-graduao
115

Figura 2 - Grfico bidimensional


6.000
C4
5.000
4.000
C3
Renda

3.000
2.000 C2 C5
1.000 C1
0
0 10 20 30 40 50
Idade
Fonte: Arago(2008).

A identificao e nomeao acima so apenas aproximadas e ilustrativas,


contribuindo para o entendimento didtico, e j possuem interpretao mais
emcima.

Aps a identificao e nomeao dos clusters(ou classes), podemos associar a cada


item sua respectiva classe, de acordo com o resultado da clusterizao, usando
esses dados como exemplos de treinamento para um algoritmo de classificao.

Pensar em agrupar pode ser muito til se quisermos, por exemplo, conhecer
diferenas entre hbitos de consumo de diferentes clientes em uma loja que
vende diferentes produtos. Sazonalidade de compras, qual produto determinado
cliente leva e quem mais compra este produto, e onde vivem esses clientes com
gostos e comportamentos semelhantes. Talvez seja interessante abrir uma filial
prxima a eles, no? Criando classes, estamos prospectando negcios.

Concluso
O uso das tcnicas de minerao de dados para apoiar o processo de tomada de
deciso pela camada gerencial, possibilitaa descoberta de conhecimento a partir
dos seus repositrios de dados.

Essa descoberta de conhecimento se d a partir da aplicao de tcnicas baseadas


em estatsticas e na inteligncia artificial para encontrar padres e informaes
implcitas nos dados armazenados nos repositrios das organizaes.

A minerao de dados utilizada hoje em vrios segmentos de mercado, como


por exemplo: rea mdica, geologia, economia, marketing, administrao,
engenharias, entre outras reas.

Descobrindo o conhecimento
116

Referncias

AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh


International Conf on Data Engineering. 1995.

ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados. 2008.


Monografia(Graduao em Tecnologia)Faculdade de Tecnologia de So Paulo, So Paulo,
2008.

BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal
Logic; Temporal Databases Research and Practice. Heidelberg: Ed SpringerVerlag, 1998.

CARVALHO, Lus Alfredo V. Data Mining: A Minerao de Dados no Marketing, Medicina,


Economia, Engenharia e Administrao. Editora Cincia Moderna. Rio de Janeiro, 2005.

CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para reconhecimento de


caracteres manuscritos. Universidade Federal da Paraba, 2000.

FAYYAD, Usama M; PIATESTSKYSHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY,


Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996.

LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.


Disponvel em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.

MARTINHAGO, Srgio. Descoberta de Conhecimento sobre o Processo Seletivo da


UFPR.(Dissertao) Mestrado em Mtodos Numricos em Engenharia. Universidade
Federal do Paran, Curitiba, 2005.

NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.

QUONIAM, Luc; et al. Inteligncia obtida pela aplicao de data mining em base de teses
francesas sobre o Brasil. Cincia da Informao, v. 30, n.2, p, 2028. Braslia, 2001.

REZENDE, Solange. Sistemas Inteligentes Fundamentos e aplicaes. So Paulo: Ed.


Manole, 2003.

WITTEN, Ian H.; FRANK, Eibe. Data Mining Practical Machine Learning Tools and
Techniques with Java Implementations. Morgan Kaufmann Publishers. 2000.

Ps-graduao
117

O processo KDT
Flvio Ceci

O processo de descoberta de conhecimento traz uma srie de benefcios para a


camada de deciso. Esse processo de conhecimento em banco de dados(KDD) o
mais conhecido e utilizado pelas organizaes.

O fato que muito dos conhecimentos organizacionaisl esto disponveis


nos mais variados meios e j formados. Grande parte est disponvel como
documento textual no estruturado, por exemplo, em relatrios, emails, manuais,
notas de compra e venda.(CECI et al, 2010). Tendo em vista essa afirmao,
apresentado o Processo de Descoberta de Conhecimento em Texto(ou em ingls
KDTKnowledge Discovery in Text).

Segundo Feldman e Hirsh(1997), o processo de extrao de conhecimento em


texto no trivial de informaes implcitas nos documentos organizacionais, que
trazem muito valor para a tomada de deciso. Por no trivial Bovo(2011) explica
que isso envolve alguma busca ou inferncia, de modo que no apenas uma
computao direta de valores prdefinidos, os padres encontrados devem ser
vlidos perante os novos dados, com algum grau de certeza.

O processo KDT bastante similar ao processo KDD, basicamente o processo de


extrao de padres relevantes e no triviais a partir de bases de dados semi ou
no estruturadas. Tambm utiliza tcnicas da minerao de dados, mas nesse caso
usamse tcnicas de processamento de linguagem natural para extrair conceitos
de texto e mais uma vez anlises estatsticas, mas para recuperar padres e
tcnicas de visualizao, permitindo anlises interativas(GONALVES, 2006).
Segundo Turban(2009), Text Mining a aplicao do Data Mining sobre textos
noestruturados.

A Figura 1 apresenta as etapas mais comuns de um processo de descoberta de


conhecimento em banco de dados.

Figura 1 - Etapas do processo KDD


Interpretao/Avaliao
Minerao de Dados
Transformao
Conhecimento
Pr-processamento
Seleo
Padres
Dado
Dado Transformado
Base de Data set Pr-processado
Dados
Fonte: Gonalves(2006).

Descobrindo o conhecimento
118

Aps verificar se as etapas do processo KDD na Figura 1, a seo a seguir apresenta


as etapas do processo de Descoberta de Conhecimento em Texto, de modo que se
pode ter uma viso comparativa entre os dois processos.

Etapas do processo de Descoberta de Conhecimento


em Texto
Como j foi afirmado anteriormente, o processo KDT se assemelha e muito ao
processo KDD. A Figura 2 apresenta as etapas desse processo.

Figura 2 - Etapas do processo KDT


Interpretao/Avaliao

Minerao de Textos
Conhecimento
Pr-processamento
Extrao de
Informao
Padres
Dado
Data set Pr-processado
Texto
Fonte: Gonalves(2006).

Para explicar melhor o processo KDT Ceci et al(2010) p. 3676, apresenta o


seguinte pargrafo:

Dados os objetivos que se deseja alcanar com o processo, o primeiro passo


eleger o conjunto de textos que ser utilizado. A partir desse conjunto
de documentos, iniciase o processo de prprocessamento dos dados.
O propsito do prprocessamento eliminao de rudos, termos no
relevantes(stopwords), reduo das palavras aos seus radicais(stemming),
correes ortogrficas e outros aspectos morfolgicos e tambm sintticos
que as expresses textuais possuem. Aps o prprocessamento, a etapa
de transformao do texto iniciada. Nessa etapa, ocorre a normalizao
do texto e sua transformao e representao no formato de vetor,
tabela, matrizes, etc. As prximas etapas so a seleo e a projeo dos
dados, em que h uma reduo da dimensionalidade do modelo criado
no passo anterior, e a escolha das palavras relevantes. Os textos tm
a caracterstica de possurem alta dimensionalidade, visto que cada
palavra pode ser uma dimenso do vetor ou matriz. Portanto, reduzir a
dimensionalidade importante para que o resultado seja encontrado
com maior eficincia e desempenho. Dado o modelo estabelecido,
astcnicas de KDT podem ser usadas no passo seguinte, com a escolha
do algoritmo. Conforme o objetivo do problema, existem muitos mtodos
de descoberta de padres em textos, com aprendizado supervisionado
e no supervisionado, analogamente aos mtodos de descoberta em
banco de dados. Por fim, o ltimo passo do processo KDT constitui a
interpretao dos resultados obtidos e a obteno do conhecimento.

Ps-graduao
119

A etapa de minerao de texto apresentada na Figura 2 utilizase de tcnicas de


agrupamento, classificao, sumarizao de documentos, regras de associao e
anlise de ligaes. Podem ser utilizadas tambm tcnicas da minerao de dados
tradicional, fazendo as devidas modificaes. Gonalves(2006) apresenta uma
tabela demonstrando as principais funes, algoritmos e exemplos de aplicaes
disponveis na minerao de dados tradicional.

Tabela 1 - Funes e algoritmos da minerao de dados

Funes Algoritmos Aplicaes

Associao Estatstica, teoria dos conjuntos. Anlise de mercado.

rvores de deciso, redes Controle de qualidade,


Classificao
neurais, algoritmos genticos. avaliao de riscos.

Agrupamento Redes neurais, estatstica. Segmentao de mercado.

Regresso linear e no Ranking de clientes, controle de


Modelagem
linear, redes neurais. processos, modelo de preos.

Previso de sries Previso de vendas,


Estatstica, redes neurais.
temporais controle de inventrio.

Anlise de mercado
Padres sequenciais Estatstica, teoria dos conjuntos.
sobre o tempo.
Fonte: Gonalves(2006).

Segundo Gonalves(2006), a escolha de uma ou outra tcnica apresentada na


tabela 1 depende essencialmente do negcio, da aplicao e da quantidade e
qualidade dos dados em questo.

Uso de minerao de texto


A minerao de texto pode ser utilizada para auxiliar a organizao em vrias
situaes, Turban(2009) apresenta algumas:
Encontrar o contedo implcito dos documentos, adicionando
relaesadicionais;
Relacionar documentos que possuam contedos similares;
Descobrir entidades que possam fazer sentido no modelo relacional;
Recuperar documentos completos a partir de buscas.

Para viabilizar as situaes apresentadas acima necessrio que os documentos no


estruturados sejam antes de qualquer coisa convertidos para uma estrutura que seja
fcil de processar, podese fazer uma analogia da converso dos dados presentes

Descobrindo o conhecimento
120

nas bases operacionais de uma organizao para os repositrios do tipo data


warehouse, com o intudo de facilitar a anlise na minerao de dados tradicional.

Os dados contidos nos documentos da organizao so transformados para


oschamados ndices textuais, que so apresentados com mais detalhes na
prxima seo.

Indexao
O processo de indexao fundamental para a minerao de texto, pois organiza
os dados presentes no texto de uma forma que seja facilmente recuperado. Por
conta disso, a indexao uma das tarefas mais importantes para a recuperao
de informao(CECI, 2010).

Segundo Ebecken, Lopes e Costa(2003), a indexao tem como funo permitir


que se efetue uma busca em texto sem a necessidade de varrer o documento
inteiro, similarmente ao que acontece com o processo homnimo utilizado
convencionalmente em bancos de dados. Os autores classificam a indexao em
quatro tipos distintos, a saber:
indexao de texto completo;
indexao temtica;
indexao semntica latente;
indexao por tags.

A indexao para Wives(2002) consiste na identificao de caractersticas


para um dado documento, o que proporciona a construo de uma estrutura
chamada ndice. O objetivo do ndice selecionar os documentos de maior
relevncia, filtrandoos entre os irrelevantes. Essa estruturao descrita aqui
pode ser realizada de forma manual normalmente utilizada pela rea de
biblioteconomiaou por um processo automatizado, relacionado com a rea de
computao, qual esse trabalho est intrinsecamente ligado.

Segundo Igarashi(2005), o ndice possui uma estrutura composta dos seguintes


termos:
DocCnt: identifica em quantos documentos o termo est contido;
FreqCnt: identifica a frequncia total do termo em relao a todos
osdocumentos;
Freq: nmero de vezes em que o termo se encontra no documento;
Posio termo: identifica a posio do termo no documento.

Ps-graduao
121

Uma das tcnicas mais utilizadas a baseada em ndice invertido, de acordo com
BaezaYates e RibeiroNeto(1999 apud AIRES, 2005). A Tcnica de Arquivo(ou
ndice) Invertido trabalha com uma lista de palavraschave ordenadas, onde cada
palavra est ligada ao documento que a possui. Esse documento associado
a uma lista invertida de palavraschave, que passa a ser ordenada por ordem
alfabtica. Essas palavraschave possuem um peso. Aps o processamento, alista
fica dividida em dois arquivos, um de vocabulrio e outro de endereamento.
AFigura 3 apresenta um exemplo de um ndice invertido:

Figura 3 - Exemplo de ndice invertido


Dicionrio Apontadores

Term Doc # Freq Term N docs Tot freq Doc # Freq


a 2 1 a 1 1 1 1
aid 1 1 aid 1 1 1 1
all 1 1 all 1 1
and 1 1 2 1
the 2 1 come 1 1 1 1
their 2 1

Fonte. Elaborao do autor.

Aps a indexao dos documentos so aplicados algoritmos de inteligncia


artificial para extrair os padres e possibilitar as anlises, de modo a explicitar as
informaes latentes do corpus de documentos.

O processo de indexao faz parte da etapa marcada como Extrao de


informao, apresentada na Figura 2. Na prxima seo so mencionados alguns
tratamentos que podem ser utilizados na etapa de extrao de informao
eprprocessamento.

Prprocessamento
Esta etapa no possui um nico algoritmo ou tcnica disponvel, na verdade,
existem algumas operaes que podem ser feitas dependendo diretamente do
contexto e da anlise pretendida.

Quando a semntica no importante, ou seja, no ser feita nenhuma


anlise baseada em processamento de linguagem natural, como por exemplo,
umaaplicao focada em busca completa a documentos textuais(recuperao de
informao), utilizase:

Descobrindo o conhecimento
122

Stemmer: os algoritmos de stemming tratam isoladamente todas


as palavras do texto, sempre tentando trabalhar com a sua possvel
palavraraiz. Eles no se apegam ao contexto da palavra, pois os ganhos
obtidos em preciso no justificam a grande quantidade de erros
decorridos de uma anlise de sentido equivocado(AIRES, 2005).
Retirada de stopwords: as palavras consideradas como stopwords
contidas em um documento trazem consigo duas influncias para osSRI.
A primeira delas o fato de influenciarem no grau de frequncia das
palavras do documento, pois elas ocorrem vrias vezes; j a segunda,
o processamento desnecessrio proveniente dessas palavras que no
auxiliam na busca do usurio(KORFHAGE, 1997).

Essas tcnicas tambm podem ser utilizadas na etapa de extrao de


informaoantes da indexao dos documentos, na base do foco da aplicao,
ouseja, abusca.

Na etapa de prprocessamento tambm utilizamse mtodos estatsticos para


levantar mais informaes para auxiliar a minerao e anlise das informaes
contidas nos documentos, como por exemplo:
Calculo de coocorrncia: esse tipo de clculo pode levantar informaes
sobre quantas vezes duas palavras aparecem prximas em uma frase;
Calculo de correlao: identificao de relao direta ou indireta de dois
elementos, a partir da anlise dos textos;
Agrupamento: montar grupos de documentos agrupados pelo
seucontedo.

Todas as tcnicas apresentadas nessa seo tm como foco levantar informaes


e preparar os dados para facilitar a descoberta de conhecimento a partir dos
documentos da organizao. Na prxima seo so apresentados alguns
exemplos de tcnicas de minerao para descoberta de conhecimento.

Minerao de texto
Como j foi afirmado anteriormente, as tcnicas de minerao de texto so
baseadas em mtodos estatsticos e algoritmos da rea de inteligncia artificial.
Nessa etapa, que de fato descoberto novos conceitos e relacionamentos.

Podese reparar que no existe uma nica forma para trabalhar com minerao
de dados e texto, esse tipo de soluo diretamente dependente do contexto do
problema que se deseja resolver, ou do tipo de informao que pretende extrair.

Ps-graduao
123

Para exemplificar uma situao vamos imaginar que uma organizao pretende
desenvolver um mapa de conhecimento baseado nos principais termos que a
representam, para isso podese obter tais termos a partir da frequncia que eles
ocorrem nos documentos relevantes para o contexto organizacional. Alguns
problemas que so encontrados inicialmente.

Problema 1: quantidade de documentos para serem analisados. Como j foi


apresentado, o processo de indexao minimiza esse problema, mantendo todo o
contedo dos documentos estruturados, de modo que seja fcil recuperar tanto
os documentos quanto a anlise do seu contedo.

Problema 2: identificao do limite(fronteiras) das palavras. Ou seja, como


identificar uma palavra composta, por exemplo, comUnisul Virtual, no meio de
um texto que nada mais que um conjunto de palavras?

Para resolver esse problema, podese utilizar uma tcnica chamada de


Reconhecimento de Entidades Nomeadas(NER Named Entity Recognition).
Essatcnica tem como objetivo encontrar as fronteiras de um termo no texto
e se disponvel uma base de conhecimento, tambm classificar este termo, como
por exemplo, podese reconhecer o termo Unisul Virtual e apresentlo como
uma organizao.

Problema 3: como relacionar os termos encontrados para formar o mapa? Paraisso


podese utilizar a tcnica apresentada anteriormente, ou seja, o clculo de
coocorrncia, que ir pegar os termos reconhecidos pela tcnica de NER, voltar
no ndice gerado e identificar as relaes dos termos.

importante destacar que as tcnicas utilizadas podem compor etapas


diferentes em situaes diferentes, como por exemplo, a utilizao da tcnica de
reconhecimento de entidades na etapa de prprocessamento para j levantar esses
termos anteriormente e utilizlos para anotar os documentos semanticamente.

Para ilustrar a ltima etapa do processo KDT Interpretao/avaliao,


apresentado o estudo de caso do trabalho de Ceci et al(2010).

Descobrindo o conhecimento
124

Interpretao / avaliao do conhecimento


O estudo de caso apresentado no artigo Towards a SemiAutomatic Approach
for Ontology Maintenance, de Ceci et al(2010), traz o resumo do currculo lattes
de quatro pesquisadores. Os autores os utilizaram como dados de entrada para
a descoberta de conhecimento em bases textuais. A Plataforma Lattes a base
de dados de currculos, instituies e grupos de pesquisa das reas de Cincia e
Tecnologia, mantidos pelo CNPq.

Pelo fato do tamanho do texto no ser muito grande, no foi necessrio construir
um ndice textual, fazendo o levantamento dos termos em memria e numa
estrutura prpria do modelo proposto pelos autores. O texto a seguir foi o
utilizado na pesquisa:

Flvio Ceci concluiu a graduao em Cincia da Computao pela Universidade


do Sul de Santa Catarina em 2007. Flvio mestrando do curso de Engenharia e
Gesto do Conhecimento pela Universidade Federal de Santa Catarina. Atualmente,
Desenvolvedor do Instituto Stela. Possui 6 softwares e outro item de produo
tcnica. Entre 2004 e 2007 participou de 4 projetos de pesquisa. Atualmente,
participa de 3 projetos de pesquisa. Flvio atua na rea de Cincia da Computao,
com nfase em Sistemas de Informao, atuando, principalmente, nos seguintes
temas: reconhecimento de entidades; tcnicas de inteligncia artificial aplicada
engenharia do conhecimento; populao de ontologias; descoberta de conhecimento
em bases textuais e recuperao de informao. Em suas atividades profissionais
interagiu com 13 colaboradores, em coautorias de trabalhos cientficos.

Alexandre Leopoldo Gonalves possui Bachareladol em Cincias da Computao


pela Fundao Universidade Regional de Blumenau(1997), mestrado em Engenharia
de Produo pela Universidade Federal de Santa Catarina(2000) e doutorado
em Engenharia de Produo pela Universidade Federal de Santa Catarina(2006).
Atualmente, colaborador e lder da Unidade de Produto do Instituto Stela.
Alexandre tem experincia na rea de Cincia da Computao, com nfase em
Engenharia do Conhecimento, atuando, principalmente, nos seguintes temas:
extrao e recuperao de informao, minerao de textos e extrao e engenharia
do conhecimento. Possui trabalhos publicados em peridicos especializados e em
eventos nacionais e internacionais, em diversos pases, assim como softwares com
e sem registro. Desde 2001 participa tanto na atuao quanto na coordenao de
projetos de pesquisa no Brasil e no exterior.

Ps-graduao
125

Denilson Sell concluiu o doutorado em Engenharia de Produo pela Universidade


Federal de Santa Catarina, em 2007. Atualmente, Professor da Universidade
Federal de Santa Catarina, Analista de Sistemas do Instituto Stela e Professor
da Universidade do Estado de Santa Catarina. Publicou 1 artigo em peridico
especializado e 16 trabalhos em anais de eventos. Possui 16 softwares , sendo
1com registro e outros 11 itens de produo tcnica. Participou de 3 eventos no
exterior e 6 no Brasil. Denilson coorientou 5 dissertaes de mestrado, alm de ter
orientado 2 trabalhos de concluso de curso nas reas de Cincia da Computao e
Administrao. Recebeu 2 prmios e/ou homenagens. Entre 1997 e 2005 participou de
11 projetos de pesquisa. Atualmente, participa de 5 projetos de pesquisa, sendo que
coordena 2 deles. Atua na rea de Cincia da Computao, com nfase em Sistemas
de Informao. Em suas atividades profissionais interagiu com 55 colaboradores,
emcoautorias de trabalhos cientficos.

Dhiogo Cardoso da Silva possui graduao em Bacharelado em Sistemas de


Informao pela Universidade Federal de Santa Catarina(2007). No momento,
mestrando de Engenharia do Conhecimento da Universidade Federal de Santa
Catarina. Atualmente Dhiogo colaborador do Instituto Stela. Dhiogo tem
experincia na rea de Cincia da Computao, com nfase em Sistemas de
Informao, atuando, principalmente, nos seguintes temas: Business Intelligence,
Web Semntica, Data Warehousing e Text Mining.

Os autores submeteram o texto apresentado a uma tcnica de reconhecimento


de entidades nomeadas que utilizava como base de conhecimento alguns termos
retirados das palavraschaves dos currculos, bem como uma lista de reas de
conhecimento e instituies.

A partir dos termos reconhecidos, foi aplicado um clculo de correlao que


identificou as ligaes e o peso delas entre os termos em questo. Por fim, o
resultado foi apresentado na forma de uma rvore hiperblica para facilitar a
anlise das informaes descobertas.

A Figura 4 apresenta uma dessas rvores hiperblicas geradas a partir do estudo


de caso:

Descobrindo o conhecimento
126

Figura 4 - rvore hiperblica que representa a relao entre as entidades


reconhecidas

Fonte: Ceci et al(2010).

Na Figura 4 facilmente identificada uma srie de termos que representam o


contexto dos resumes, instituies como: universidade federal de santa catarina
e universidade do estado de santa catarina esto presentes.

Tambm so apresentados alguns termos que a aplicao identificou como


importantes, mas no conseguiu classificlos, como por exemplo: minerao de
texto e engenharia do conhecimento.

Agora a descoberta mais significativa que est disponvel para a anlise


do especialista a relao indireta entre os pesquisadores alexandre e
denilson, em nenhum momento no currculo deles apresentada uma relao
direta entre os dois, mas por meio da anlise da figura fcil verificar que os
dois pesquisadores esto ligados pelas reas de conhecimento: cincia da
computao(curso de graduao dos dois) e engenharia de produco(que foi
o programa de psgraduao que ambos fizeram o mestrado e doutorado).

Os dois pesquisadores tambm esto relacionados pelas organizaes:


Universidade Federal de Santa Catarina(os dois fizeram a psgraduao nesta
instituio) e pelo instituto stela(instituto de pesquisa que ambos trabalhavam
na poca da pesquisa).

Podese verificar todo o poder do uso da descoberta de conhecimento em texto


para as organizaes, tanto essa abordagem quanto a minerao de dados
representa uma importante evoluo para os sistemas de apoio deciso, passando
a no lidar apenas com dados e informaes, mas tambm com conhecimento.

Ps-graduao
127

Referncias

AIRES, Rachel Virgnia Xavier. Uso de marcadores estilsticos para a busca na Web em
portugus. 2005. 202 f. Tese(Doutorado) Programa de Ps Graduao em Cincias da
Computao e Matemtica Computacional Instituto de Cincias e Matemticas e de
ComputaoICMC, Universidade de So PauloUSP, So Carlos(SP).

BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento inerente


evoluo temporal dos relacionamentos entre elementos textuais. 2011. 127(Doutorado).
Programa de PsGraduao em Engenharia e Gesto do Conhecimento, UFSC,
Florianpolis(SC).

CECI, Flavio. Um modelo semiautomtico para a construo e manuteno de ontologias


a partir de bases de documentos no estruturados. 2010. 131(Mestrado). Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, UFSC, Florianpolis(SC).

CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONALVES, Alexandre L. Towards a
SemiAutomatic Approach for Ontology Maintenance. 7 CONTECSI International
Conference on Information Systems and Technology Management. USP, So Paulo, 2010.

EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Minerao de texto.
In: REZENDE, Solange O.(Coord.). Sistemas inteligentes: fundamentos e aplicaes. So
Paulo: Manole, 2005.

FELDMAN, R.; HIRSH, H. Exploiting Background information in Knowledge discovery


from text. Journal of Intelligent Information System, 1997.

GONALVES, A. L. Um modelo de descoberta de conhecimento baseado na correlao de


elementos textuais e expanso vetorial aplicado engenharia e gesto do conhecimento.
2006. 196(Doutorado). Programa de PsGraduao em Engenharia de Produo, UFSC,
Florianpolis(SC).

IGARASHI, Wagner. Construo automtica de vocabulrios temticos e


clculo de aderncia curricular: uma aplicao aos fundos setoriais. 2005. 95 f.
Dissertao(Mestrado) Programa de PsGraduao em Engenharia de Produo e
Sistemas, Universidade Federal de Santa Catarina, Florianpolis(SC).

KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer
Publishing, 1997.

TURBAN, Efraim et al. Business Intelligence Um enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos aplicados


inteligncia competitiva. Monografia apresentada ao Exame de Qualificao do Programa
de PsGraduao em Computao, Universidade Federal do Rio Grande do Sul, Porto
Alegre, 2002.

Descobrindo o conhecimento
128

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:

a. ( ) A minerao de dados responsvel pela modelagem do conhecimento


daorganizao.

b. ( ) As tcnicas utilizadas no processo KDD so completamente diferentes das


utilizada no processo KDT.

c. ( ) Reconhecimento de entidades nomeadas pode ser utilizada para facilitar o


processo KDT.

d. ( ) Os Data Warehouse so uma alternativa ao processo KDD, no tendo


nenhuma relao.

e. ( ) A minerao de dados e texto vivel pela utilizao de algoritmos, com


base estatstica e de inteligncia artificial.

f. ( ) Os processos KDT e KDD utilizam como fonte solues do tipo DW.

Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
est disponvel em documentos no estruturados. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas dos
seuscolegas.

As redes sociais so hoje um dos principais canais de comunicao das


organizaes com o seu cliente final. Dessa forma, possvel utilizar a descoberta
de conhecimento em texto a fim de extrair informaes para contribuir com a
base de conhecimento da organizao e auxiliar no processo decisrio?

Ps-graduao
129

Sntese
Nesta unidade, so estudados os processos de descoberta de conhecimento,
tanto utilizando como base repositrios DW quanto por meio da anlise dos
seusdocumentos.

O processo KDT funciona igual ao processo KDD, so conjuntos de tcnicas para


se obter conhecimento de uma determinada base de dados. O KDD utiliza bases
j estruturadas para descobrir informaes e o KDT usa textos, normalmente em
Linguagem Natural, tambm para descobrir informaes. No caso, os mtodos mais
utilizados so a Extrao de informao e o Processamento de Linguagem Natural.

Saiba Mais
Dborah Oliveira, da Computerworld, apresenta um artigo com o seguinte ttulo:
Data mining comea a conquistar espao na estratgia empresarial, leitura
bastante recomendada:

http://cio.uol.com.br/gestao/2012/03/19/data-mining-comeca-a-conquistar-espaco-na-
estrategia-empresarial/

Descobrindo o conhecimento
Unidade 5

Processo OLAP

Objetivos de Aprendizagem
Identificar o processo OLAP, bem como as suas caractersticas.
Examinar as funcionalidades exploratrias do processamento OLAP.
Entender qual a sua participao numa arquitetura de BI.

Introduo
As solues de Business Intelligence so compostas por uma srie de componentes
tecnolgicos que possibilitam um ambiente propcio tomada de deciso. Essas
solues podem combinar os componentes para cada situao, para a camada de
apresentao dos dados e das informaes utilizamse as solues OLAP.

As solues OLAP apresentam uma alternativa para a publicao dos dados


e informaes vindas dos modelos dimensionais. A apresentao dessas
informaes pode ser de maneira tabular ou grfica, tanto dos dados histricos
armazenados nos repositrios data warehouse, bem como os dados reais para
auxiliar o processo decisrio.
132

O que processo OLAP?


Flvio Ceci

Uma arquitetura de Business Intelligence composta por vrios componentes,


quepodem ser combinados para se obter a melhor soluo ao problema em
questo da organizao.

Aps finalizar a concepo dos repositrios de dados, o prximo passo


identificar qual a melhor abordagem para consumir os dados e apresentar as
informaes e conhecimentos descobertos.

Normalmente, podese utilizar duas abordagens diferentes para a etapa de consumo


e processamento, transformando os dados em informaes e conhecimento para,
posteriormente, o seu processamento. Veja quais so as abordagens:
Minerao de dados: tcnicas e ferramentas com base estatstica ou
de inteligncia artificial, as quais possuem como funo explicitar os
conhecimentos implcitos, seja nos repositrios ou nos seus documentos.
Sistemas OLAP: sigla para a expresso processamento analtico
online(em ingls, On line Analytical Processing). Esses sistemas
se referem a uma grande quantidade de atividades normalmente
executadas por usurios finais no ambiente online. Inclui como suas
atividades a gerao e a resposta de consultas, solicitaes de relatrios
e grficos ad hoc e a execuo deles(TURBAN et al, 2009).

Podese verificar que as solues de visualizao de informao e conhecimento


podem utilizar as prticas da minerao de dados, bem como as dos sistemas
OLAP, mas qual a relao entre essas duas abordagens?

A distino entre OLAP e minerao de dados vai alm das distines entre dados
de resumo e detalhes. As funes ou algoritmos normalmente encontrados
em ferramentas OLAP so funes de modelagem descritiva, no caso da
minerao de dados, so funes de descoberta de padro e modelagem
explicativa(THOMSEN, 2002).

Thomsen(2002) apresenta os algoritmos utilizados pelos sistemas OLAP e pelos


baseados em minerao de dados:

Funes e algoritmos utilizados pelos sistemas OLAP:


agregao;
alocaes;
razes;

Ps-graduao
133

produtos;
entre outros.

Funes e algoritmos utilizados na minerao de dados:


regresses;
redes neurais;
rvores de deciso;
clustering.

Sobre o conceito de OLAP, Gouveia et al(2011) afirmam que uma soluo


desenvolvida para a recuperao das informaeschave, com o intuito de
proporcionar facilidade e flexibilidade para a anlise de dados da organizao
como um todo, permitindo uma melhor tomada de deciso pela camada gerencial.
Para Vinci e Narciso(2006), a multidimensionalidade uma caracterstica que faz
parte desse conceito, isso quer dizer que se pode ver uma anlise em diferentes
graus de detalhamento, chegando at no nvel atmico, que foi modelado o
repositrio de origem dos dados.

Segundo Thomsen(2002), podese falar em conceitos de OLAP(mltiplas


dimenses hierrquicas que podem ser utilizadas em vrias escalas), linguagens
OLAP(Data Definition LanguageDDL, Data Manipulation LanguageDML,
DataRepresentation LanguageDRL e seus analisadores e compiladores), camadas
de produto OLAP(geralmente residem sobre os bancos de dados relacionais e
geram SQL como sada) e produtos OLAP completos.

Tipos de arquiteturas OLAP


Existem vrias abordagens para os processos OLAP. Turban et al(2009) apresentam
a descrio dos principais deles:
MOLAP: ou OLAP multidimensional implementado por um banco
de dados multidimensional especializado, os dados so organizados
em estruturas de cubos em que os usurios podem girlo de modo a
visualizar vrias fases dos dados. Podese caracterizar como possuindo
consultas rpidas devido s informaes j terem sido consolidadas.
ROLAP: utiliza como base um banco de dados com modelo relacional.
Cria vises multidimensionais dinmicas, mas pelo fato de no serem
prprocessadas utilizamse de consultas complexas e com tempo de
resposta bastante significativo;
WOLAP: tambm conhecido com Web OLAP, referese aos dados OLAP
acessveis de um navegador web.

Processo OLAP
134

Segundo Gouveia et al(2011), as solues do tipo OLAP surgiram na dcada de


60 e continuam evoluindo at os dias de hoje. No seu trabalho, so apresentadas
duas outras arquiteturas:
HOLAP:(Hybrid On line Analysis Processing) surgiu na dcada de 90 e utiliza
como base os dois conceitos de ROLAP e MOLAP, caracterizado por unir
o alto desempenho da arquitetura MOLAP com a alta escalabilidade da
arquitetura ROLAP, bastante utilizada at os dias de hoje.
DOLAP:(Desktop On line Analysis Processing) reconhecida pela sua
capacidade de diminuir o trfego na rede, isso ocorre pelo fato de todo o
processamento de dados do cubo multidimensional ser feito na prpria
mquina, tirando, assim, o processamento pesado do lado do servidor.

Os autores Gouveia et al(2011) ainda completam sobre as arquiteturas, que mesmo


com o surgimento de todas as arquiteturas mencionadas a principal caracterstica
que est presente em todas as abordagens o cubo multidimensional, capaz de
filtrar os dados por diversas formas e modos customizados pelo usurio. A Figura 1
apresenta uma representao para o cubo multidimensional.

Figura 1-Cubo multidimensional

Fonte: Gouveia et al(2011).

Para entender os conceitos por trs do cubo multidimensional, podese fazer uma
analogia com o brinquedo cubo mgico ou cubo de Rubik). Nesse brinquedo, a
pessoa deve mover as fases do cubo e chegar at a situao em que todas as fases
fiquem com a mesma cor. A Figura 2 apresenta este brinquedo.

Ps-graduao
135

Figura 2 - Cubo de Rubik

Fonte: Cincia Hoje, 2010.

Da mesma forma que quem manipula o brinquedo movendo uma das fases
tem uma nova viso sobre o mesmo brinquedo, no cubo dimensional, ao mover
uma das dimenses do cubo gerase uma nova viso sobre os mesmos dados
do repositrio. Essa interao entre as dimenses possibilita uma anlise muito
maior e chega a informaes antes no conhecidas. Cada dimenso que o cubo
possui pode ser uma tabela de dimenso de um modelo dimensional como o
apresentado na Figura 3.

Figura 3 - Representao de um modelo dimensional

Fonte: Elaborao do autor(2012).

Com o modelo dimensional fica bastante fcil relacionar as dimenses com as


fases do cubo, mas no precisaria necessariamente ser uma base modelada
nesta abordagem, poderia se ter uma base relacional normal, que mesmo assim
teramos um cubo multidimensional, a diferena que se teria um processamento
a mais para organizar e consolidar as informaes antes de apresentar em forma
de cubo(ROLAP).

Processo OLAP
136

Requisitos de uma soluo OLAP


Para se ter um soluo OLAP, Thomsen(2002) pensou numa srie de requisitos
que so apresentados a seguir, a fim de se ter uma soluo eficiente:
Utilizao de uma estrutura dimensional para garantir uma alta
performance e anlise dos dados;
Especificao eficaz de dimenses e clculos: agregar dos valores e
permitir a utilizao de ferramentas analticas sobre esses valores. Essas
anlises devem ser compostas por frmulas que devem ser utilizadas
para: agregar, alocar, comparar, analisar, explicar e deduzir;
Flexibilizao: possibilitar as visualizaes das informaes de vrias
maneiras, sejam elas grficas, matrizes ou diagramas. O usurio pode
selecionar como a informao mapeada para o formato de visualizao;
Separao de estrutura e representao: permite que os modos de
exibio sejam reorganizados por um usurio final sem a necessidade
de modificao dos dados. A falta de separao entre estrutura e
representao um problema enfrentado pelas planilhas eletrnicas.

O trabalho de Castro, Gonalves e Cazarini(2004) apresenta outros requisitos


fsicos para uma soluo OLAP, como:
Acesso rpido informao: mesmo com o recurso de aumento de
nvel de detalhes em consultas(drilldown), so necessrias grandes
quantidades de dados e um clculo desses. Esperase que mesmo com
esse recurso, o tempo no possa exceder 5 segundos;
No necessrio possuir suporte a multiusurios, mas esse requisito esta
cada vez mais presente entre as organizaes que adotam esta tecnologia.

Segundo Anzanello(2002), alm dos requisitos j preestabelecidos, os usurios


possuem requisitos particulares que devem ser atendidos no projeto OLAP, como
por exemplo, a necessidade de integrao de dados de plataformas diferentes,
questes de conectividade, entre outras.

Os requisitos aqui apresentados esto diretamente ligados a questes


arquiteturais e da soluo OLAP como um todo. A seguir so apresentados os
requisitos de uma ferramenta OLAP.

Ps-graduao
137

Requisitos de uma ferramenta OLAP


Muitas so as ferramentas disponveis no mercado para solues OLAP, no
trabalho de Anzanello(2002), foram levantados alguns requisitos comuns a essas
ferramentas, a seguir so apresentados:
Consultas adhoc: geradas pelo usurio final, conforme a sua necessidade
de relacionar e cruzar informaes de uma forma no prevista
anteriormente, mas que facilite a descoberta do que procuram;
Slice and Dice: permite a alterao da perspectiva de viso, possibilitando
a modificao da posio de uma informao, trocas de linha por coluna,
de maneira a tornar mais fcil a anlise por parte do usurio e girar o
cubo sempre que necessrio;
Drill down/up: permite explorar em diferentes nveis de detalhes da
informao. Com drill down podese visualizar as informaes de maneira
resumida, at a forma mais detalhada, como por exemplo, ver as
informaes agrupadas por ano, ms, semana, dia at chegar no nvel de
operao(caso essa seja a unidade atmica de agrupamento).

Os requisitos apresentados anteriormente so muito importantes para garantir a


efetividade das ferramentas OLAP.

Concluindo
De maneira geral, podese verificar que as solues OLAP possuem uma grande
importncia para a tomada de deciso, elas podem ser utilizadas de maneira
isolada numa arquitetura de Business Intelligence, ou combinadas com tcnicas de
minerao de dados e texto.

As ferramentas OLAP geram relatrios analticos em tempo de execuo, ou


seja, a partir do cruzamento de informaes podemse gerar vrios relatrios
dinmicos, permitindo uma visualizao mais detalhada ou mais resumida, a partir
das interaes com o cubo multidimensional resultante.

Processo OLAP
138

Referncias

ANZANELLO, C. A. OLAP Conceitos e Utilizao. Universidade Federal do Rio Grande do


Sul(UFRGS), 2002.

CASTRO, Sergio A.; GONALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na
estratgia de vendas em uma indstria de calados alavancando a gesto de cadeia de
suprimentos. XXIV Encontro Nacional de Engenharia de Produo, Florianpolis, 2004.

GOUVEIA, Henrique C. et al. Aplicao da ferramenta OLAP em diferentes mdulos de


um sistema ERP melhorando a tomada de deciso. Revista Eletrnica de Sistemas de
Informao e Gesto Tecnolgica. Vol. 01, n. 01, 2011.

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2ndEdition.


John Wiley & Sons, Inc, 2002.

TURBAN, Efraim et al. Business IntelligenceUm enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

VINCI, Wilson L.; NARCISO, Marcelo G. Integrao AccessExcel para produzir um sistema
de apoio deciso que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpsio de
Engenharia de Produo, Bauru, 2006.

Ps-graduao
139

Caractersticas do processamento OLAP


Flvio Ceci

As solues de Business Intelligence tem ganhado cada vez mais espao entre as
organizaes, o motivo para tal a falta de ferramentas eficientes e focadas na
tomada de deciso.

Uma soluo de Business Intelligence(BI) composta por uma srie de


componentes e etapas que possuem arquiteturas e ferramentas particulares,
basicamente uma soluo de BI composta por um repositrio unificado de
dados, geralmente na forma de um Data Warehouse(DW); para consumir esse
dados, transformando em informao e possibilitando uma melhor anlise, dessa
forma, so utilizadas as ferramentas do tipo OLAP(On Line Analytical Processing).

Segundo Xavier e Pereira(2009), OLAP uma abordagem para fornecimento


de respostas rpidas para consultas analticas de fonte multidimensional.
ParaOliveira(2002), o processo OLAP focado na transformao de dados em
informao, a fim de dar suporte ao processo de tomada de deciso de uma
maneira amigvel e flexvel ao usurio em um tempo hbil, utilizando um conjunto
de tecnologias para acesso e anlise adhoc de dados.

O processo OLAP se diferencia do processo de transaes online(OLTP), segundo


Turban(2009), explica que o OLTP focado em processamento de transaes
repetitivas em grande quantidade e de manipulao simples, diferente do OLAP,
que envolve uma anlise de muitos itens de dados em relacionamentos complexos,
buscando padres, tendncias e excees, ou seja, focado no suporte a deciso.

No trabalho de Anzanello(2012), apresentada uma tabela comparativa entre os


requisitos funcionais e de desempenho entre aplicaes OLAP e OLTP:

Tabela 1-Comparao entre aplicaes OLAP e OLTP

Caractersticas OLTP OLAP


Operao Tpica Atualizao Anlise
Telas Imutvel Definida pelo usurio
Nvel de Dados Atomizado Altamente Sumarizado
Idade dos Dados Presente Histrico, atual e projetado
Recuperao Poucos registros Muitos registros
Orientao Registro Arrays
Modelagem Processo Assunto
Fonte: Anzanello(2012).

Processo OLAP
140

Uma informao bastante importante apresentada nessa tabela, na


modelagem adotada entre os dois tipos de aplicao. No caso de aplicaes
OLTP, a modelagem focada nos processos, ou seja, cada operao gerenciada
pela aplicao gera pelo menos uma nova linha na base de dados referente
operao. No caso das aplicaes OLAP, a modelagem focada no assunto
em questo, possuindo os dados muitas vezes agrupados e j prprocessados.
Essa abordagem adotada, pois mais indicada para a anlise dos dados,
transformandoos em informaes.

Podemse utilizar solues OLAP para vrios segmentos de organizaes, segundo


Xavier e Pereira(2009), o uso das solues OLAP geralmente relacionase aos
seguintes seguimentos:
Gerao de relatrios empresariais para vendas;
Marketing;
Gerao de relatrios de gerenciamento;
Gerenciamento de processos de negocio em ingls, Business Process
Management(BPM);
Planejamento oramentrio;
Projees.

Percebese que as solues OLAP so muito utilizadas quando se deseja fazer


anlise sobre dados organizados de maneira dimensional. Segundo Vinci e
Narciso(2006), a anlise multidimensional representa uma das maiores utilidades
da tecnologia OLAP, permitindo ver determinados cubos de dados de diferentes
ngulos e faces, e de vrios nveis de agregao.

Entendese como cubo de dados o resultado proveniente de uma consulta num


modelo dimensional por uma ferramenta OLAP. A Figura 1 foi desenvolvida por
Silve e Saias(2011) e representa exatamente este cubo:

Ps-graduao
141

Figura 1-Representao grfica de um cubo de dados


Indicador 1 = (Atributo 1, Valor 5;
Atributo 2,Valor 4;
Atributo 1 Atributo 3, Valor 3)
(1 dimenso)
5

4
Atributo 3
3 (3 dimenso)
2 3
2
1 1
1 2 3 4
Atributo 2
(2 dimenso)
Fonte: Silva e Saias(2011).

Nessa Figura 1 verificamse as vrias dimenses resultantes de uma mesma


consulta e como se organiza a visualizao desse cubo de vrias maneiras e a
granularidade dos dados em questo.

Segundo Turban(2009), os cubos de dados possibilitam obter informao para


suporte deciso de maneira eficiente, eles so utilizados para representar
dados em conjunto com alguma medida de interesse, podendo ser bidimensional,
tridimensional ou com apenas uma dimenso. justamente pela anlise de cubo
que permite os usurios realizarem consultas por meio da busca de uma srie de
visualizaes de relatrios.

Muitas das caractersticas das solues OLAP esto diretamente ligadas


utilizao dos cubos de dados e uso da multidimensionalidade. O trabalho
desenvolvido por Vinci e Narciso(2006) apresenta as principais caractersticas
dessas solues:
Slice and dice: possibilita a anlise de informaes de diversos ngulos,
permitindo que o usurio faa muitas combinaes, chegando a outras
vises e visualizando informaes de outras formas;
Consultas adhoc: permite que o usurio gere consultas nunca antes
utilizadas em tempo de execuo da aplicao, permitindo responder
os questionamentos que deseja, com vises de informaes ainda no
exploradas, alm da utilizao de mtodos que auxiliem a encontrar o
que procuram;
Drill DownUP: torna possvel a interao do usurio com vrios nveis de
agrupamento, ou seja, subir e descer dentro de uma hierarquia.

Processo OLAP
142

No livro escrito por Oliveira(2002), apresentada mais uma caracterstica, a de


gerao de consultas mais amigveis, de modo que seja feita de maneira simples,
amigvel e transparente, fazendo com que o usurio final tenha um conhecimento
mnimo em informtica para chegar at as informaes desejadas.

Todas as caractersticas apresentadas no trabalho de Vinci e Narciso(2006) so


apresentadas no trabalho de Sell(2006) como funcionalidades exploratrias.
Alm das funcionalidades j mencionadas, Sell(2006) apresenta mais algumas:
Drill Across: permite alterar o nvel de anlise dentro da dimenso em
questo, pulando um nvel intermedirio, caso necessrio, por exemplo;
a anlise alterada diretamente de ano para ms, sem precisar passar
por semestre;
Drill Through: permite que o usurio passe de uma informao contida
em uma dimenso para outra;
Drill Out: um detalhamento de uma determinada informao contida
em uma base externa, por exemplo, verificar a quantidade de vendas
em uma semana; caso se deseja saber as informaes detalhadas da
venda em questo, podese acessar uma base operacional que abriga
talinformao;
Sort: permite a ordenao das informaes, que, nesse caso, no precisa
ser necessariamente numrica;
Ranking: possibilita o agrupamento de resultados numricos por ordem
de tamanho;
Paging: paginao do resultado das consultas;
Filtering: apresentao de consultas com restries sobre atributos
oufatos;
Alerts: permite que seja enviado um sinal caso uma situao definida
anteriormente acontea;
Break: permite separar o resultado de uma anlise por grupos de
informao, possibilitando assim a subtotalizao de valores para
cadagrupo.

O autor comenta que nem todas as implementaes apresentadas na lista anterior


so comuns a todas as solues OLAP.

Sobre as caractersticas principais do processamento OLAP, o autor Sell(2006)


baseouse nos trabalhos de Codd(1995), Donald(1997) e Thomsen(2002), demodo
que o resultado da sua pesquisa apresenta 12 caractersticas, originalmente
levantadas por Codd(1995), agrupadas pela sua natureza, que, segundo o
Sell(2006) e Thomsen(2002), torna mais fcil o entendimento das mesmas.

Ps-graduao
143

Primeiramente, so apresentadas as caractersticas marcadas como bsicas, que,


segundo Sell(2006), baseandose no trabalho de Thonsen(2002) so:

Tabela 2-Caractersticas bsicas do OLAP

Caracterstica Descrio
Possibilitar a ao direta sobre as clulas e os recursos
Manipulao de dados intuitiva
dosgrficos.
Acessibilidade Disponibiliza uma viso lgica nica dos dados da empresa
Permite que a ferramenta OLAP rode em um cliente,
Arquitetura Cliente/Servidor
acesse dados e faa operaes em um servidor.
Permite inserir as funcionalidades OLAP dentro do
Transparncia
contexto de uma aplicao do domnio do usurio final.
Suporte para multiusurios Possibilitar operaes simultneas de leitura e escrita.
Fonte: Sell(2006).

O segundo grupo de caractersticas chamado de caractersticas de relato. Segundo


Sell(2006), que se baseou no trabalho de Thomsen(2002), so as seguintes:

Tabela 3-Caractersticas de relato

Caracterstica Descrio
Apresentar dimenses de um cubo por meio de
Relato flexvel
diferentes combinaes de linhas, colunas e pginas.
Preservar o desempenho da apresentao medida
Desempenho coerente do relato
que o volume de dados e dimenses aumente.
Tratamento dinmico A organizao fsica dos dados deve ser sensvel mudana
de matriz esparsa das caractersticas dos dados ao longo do tempo.
Fonte: Sell(2006).

O terceiro e ltimo grupo de caractersticas apresentadas por Sell(2006)


chamado de caractersticas dimensionais e so apresentadas na tabela a seguir:

Tabela 4-Caractersticas dimensionais

Caracterstica Descrio
Viso conceitual A viso conceitual do usurio analista deve possibilitar
multidimensional a anlise do negcio sobre diferentes perspectivas.
Cada dimenso deve ser equivalente tanto em sua estrutura
Dimensionalidade genrica
quando nas capacidades exploratrias aplicveis.
A estrutura criada no servido dever possibilitar a criao
Dimenses e nveis de
detantas dimenses e cubos quanto necessrio para se
agregao limitados
analisar o negcio.
Permitir clculos e manipulao de dados por meio
Operaes irrestritas de
dequalquer quantidade de dimenses e relacionamento
dimenso cruzada
dedados.
Fonte: Sell(2006)

Processo OLAP
144

A Tabela 2 apresenta caractersticas bsicas e compartilhadas por todas as


ferramentas OLAP. Na Tabela 3 so apresentadas caractersticas relacionadas
operao de gerao de relatrios pelas ferramentas OLAP. As caractersticas
apresentadas na Tabela 4 so centradas nas operaes diretamente ligadas ao DW
ou modelo dimensional.

Referncias

ANZANELLO, Cynthia A. OLAP Conceitos e Utilizao. Instituto de InformticaUniversidade


Federal do Rio Grande do Sul. Porto Alegre. Disponvel em: <http://bit.ly/I0WoEb>. Acessado
em: 10 de abril de 2012.

CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP(online analytical processing) to


useranalysts: An IT mandate. 1995.

DONALD, B. High performance Oracle Data Warehousing. USA: The Coriolis Group, 1997.

OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.

SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias


semnticas para suporte a aplicaes analticas. 2006. Tese(Doutorado)Universidade
Federal de Santa Catarina, Centro Tecnolgico. Programa de PsGraduao em
Engenharia de Produo, Florianpolis, 2006.

SILVA, Joo; SAIAS, Jos. OLAP em mbito hospitalar: transformao de dados de


enfermagem para anlise multidimensional. JIUE 2011, 2th Jornada de Informtica da
Universidade de vora, Portugal, 2011.

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2ndEdition.


John Wiley & Sons, Inc, 2002.

TURBAN, Efraim et al. Business IntelligenceUm enfoque gerencial para a inteligncia do


negcio. Editora Bookman, Porto Alegre, 2009.

VINCI, Wilson L.; NARCISO, Marcelo G. Integrao AccessExcel para produzir um sistema
de apoio deciso que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpsio de
Engenharia de Produo, Bauru, 2006.

XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos s Consultas
Complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Ps-graduao
145

Desenvolvendo um projeto OLAP


Flvio Ceci

O uso das solues OLAP combinadas a estratgias de Business Intelligence(BI)


so abordagens bastante requisitadas atualmente, tanto essas solues como
as baseadas em tcnicas de descoberta de conhecimento esto na extremidade
do usurio final. Sua funo processar os dados para gerar informaes e
transformlas em conhecimento, de modo a apoiar o processo decisrio da
camada gerencial da organizao.

Da mesma forma que existem processos para o desenvolvimento de uma


soluo de BI, ou para a modelagem e implantao de um repositrio Data
Warehouse(DW), ou ainda para a definio de um cenrio utilizando tcnicas
de descoberta de conhecimento, tambm existem etapas para o projeto e
implementao de modelos OLAP.

Nesta leitura, so apresentadas as etapas prticas para o projeto e implantao de


uma soluo OLAP, guiando para o sucesso desse projeto, a partir do livro escrito
por Thomsen(2002).

Etapas prticas para o projeto e a implementao de


modelos OLAP na viso de Thomsen(2002)
Um dos livros mais conceituados e utilizados como referncia base para as reas
relacionadas com OLAP o livro de Erik Thomsen. Segundo um dos maiores
nomes da rea W.H. Inmono, descreve da seguinte maneira: O livro de Erik
Thomsem se aprofunda onde outros livros no se aprofundaram. Em termos
de inteireza, legibilidade e fuso de teoria e prtica, recomendo este livro, com
certeza.(THONSEN, 2002, p. 4).

Esta seo no deve ser encarada como uma metodologia, mas sim como um
guia que explica as etapas prticas associadas ao projeto e implementao da
soluo OLAP, ou ainda como o prprio autor explica essas orientaes: Elas
foram escritas para o projetista e o implementador do modelo OLAP(THONSEN,
2002, p.302).

Inicialmente, devese identificar os pontos do cenrio atual onde se deseja


desenvolver e implantar a soluo OLAP, como por exemplo, se j foi investido
anteriormente no desenvolvimento de um DW e agora gostaria de trabalhar com
as informaes contidas nele, se a fonte de dados est em uma planilha eletrnica,
ou se no existe nada desenvolvido ainda.

Processo OLAP
146

Dos cenrios apresentados acima, o mais complicado o para iniciar a concepo


de uma soluo OLAP a partir do zero, ou seja, sem nenhum dos outros
componentes de uma arquitetura ou soluo de BI j criado.

O autor sugere que para identificar o ponto de partida, devese procurar o ponto
em que o projetista se sinta mais vontade e confiante sobre o que feito ou que
precisa ser feito e trabalhar a partir disso. Por exemplo, caso ele tenha domnio
sobre os dados em questo, mas no tem certeza sobre todas as finalidades para
as quais os usurios finais iro utilizlos, nesse caso, podese adotar um sequncia
de passos de baixo para cima, ou seja, dos dados para a funo.

De maneira geral, Thomsen(2002) afirma que para a concepo de um projeto


OLAP devese cumprir as seguintes etapas:
Entender o fluxo de dados atual e ideal;
Definir cubos;
Definir dimenses, membros e vnculos;
Definir nvel e/ou hierarquias de dimenso;
Definir agregao e outras formas.

Conhecendo o cenrio atual


importante lembrar que antes mesmo de iniciar de fato o projeto do modelo ou
qualquer tarefa de implantao, necessrio entender o problema e a situao
atual, Thomsen(2002, p.304) faz a seguinte afirmao:

No importa as ferramentas especficas que esto sendo usada, voc precisa


descobrir a respeito dos esquemas dos usurios e de quaisquer esquemas
relevantes aos dados de origem. Voc tambm precisa entender as regras
comerciais relevantes, como as regras sobre limites de desempenho,
acesso aos dados ou a distribuio de informaes baseada em evento.
Asregras poderiam estar codificadas ou nas mentes do pessoal chave.

A interao do projetista com a equipe de usurios finais da aplicao OLAP


fundamental para o sucesso do projeto, para isso, podese elaborar algumas
perguntas para auxiliar no entendimento da situao atual.

Ps-graduao
147

Thomsen(2002) elaborou um questionrio para se chegar at o levantamento da


situao real:

1) Com que frequncia quais tipos de usurios usam o sistema?


a. Quantos usurios existem para cada tipo(classe de usurios do sistema)?
b. Que tipo de dilogo cada tipo de usurio tem com o sistema?
c. Quantos dados cada tipo de usurio examina durante uma sesso tpica?
d. Quantos dados atravessam a rede em resposta s consultas tpicas para
cada tipo de usurio?
e. Quais so as caractersticas de informao normalmente navegadas por
cada usurio?
f. Quais tipos de ferramentas do usurio final esto sendo usadas para
navegar e analisar os dados?
g. Quantas vises distintas so necessrias por tipo de usurio final?

2) Em geral, quantos dados do entrada no sistema?

3) Quantas origens de dados distintas existem?


a. Para cada origem, qual o seu esquema?
b. Quantos dados existem?
c. Em que velocidade os vnculos so atualizados?
d. Que aspecto de integrao e refinamento forma envolvidos nos dados
deorigem?

4) Que clculos ocasionais normalmente so realizados no servidor?

5) Que clculos so prrealizados no servidor?

6) Que clculos normalmente so realizados no cliente?

7) Que mquinas, quais sistemas operacionais e configuraes de redes so usados?

A partir das respostas dadas s perguntas apresentadas anteriormente, oprojetista


deveria estar apto para preencher o chamado diagrama de origem e uso. Segundo
Thomsen(2002), este diagrama representa o que importante para origens e
usurios que utilizaro a soluo em questo. A Figura 1 apresenta um exemplo
desse diagrama.

Processo OLAP
148

Figura 1-Diagrama de origens e uso


Origens Usurios
2 origens 2 usurios (tipos)
01 = Dados de vendas U1 = analista de marketing
M204 Excel
MVS 1 milho de linhas 30 relatrios dirios Windows 95
IBM 32 colunas 200 relatrios semanais Compaq 586
Nmerico 100.000 navegaes semanais
Dirio Dados OLAP 25 relatrios dirios

100.000 linhas 25 relatrios dirios


128 colunas 500 relatrios semanais
Nmerico 100.000 navegaes semanais
02 = dados de Marketing 25 relatrios dirios U2 = Gerente regional
Semanal
Oracle 7.3 Forest & Trees
Unix Approach
Dell NT
Fonte: Thomsen(2002).

Aps entender a situao real e atual, levantamse algumas perguntas sobre


possveis problemas que os usurios esto experimentando. Esses problemas
podem ser de natureza fsica ou lgica.

Informaes sobre restries tambm so bastante importantes para o projeto,


essas restries podem ser:
o tipo de mquina;
o sistema operacional em questo;
a topologia de rede;
a dependncia de softwares de terceiros;
o nmero de usurios do sistema;
o tamanho do conjunto de dados;
os tipos de dados vlidos;
entre outros.

Da mesma forma que praticamente todas as metodologias de desenvolvimento


de software so guiadas por requisitos de usurio, nesse caso no
diferente, devese levantar a documentao dos requisitos dos usurios finais.
Essesrequisitos tambm podem ser provenientes dos sistemas transacionais
da organizao. Esse tipo de informao pode ajudar e muito no trabalho de
identificao das fontes de dados e at mesmo para saber que tipo de informao
poder ser gerada, ou ainda quais perguntas podem ser respondidas.

Ps-graduao
149

Projeto da soluo
O primeiro passo para a definio do projeto da soluo a definio do modelo
lgico, essa definio nada mais que a concepo do modelo multidimensional.
Para o desenvolvimento desse modelo podese utilizar de qualquer metodologia j
conhecida para esta etapa.

Tento em vista a utilizao de uma metodologia para auxiliar a criao do


modelo multidimensional, o autor chama a ateno para alguns pontos que so
apresentados abaixo:
Cubos e dimenses;
Refinar a quantidade de dimenses;
Verificar as dimenses que mudam com o tempo;
Quais vnculos devem existir no modelo?
Hierarquias da dimenso;
Hierarquias mltiplas;
Membros da dimenso;
O contexto da deciso;
Frmulas.

Os pontos apresentados anteriormente tm como funo auxiliar o projetista


na validao e concluso do modelo multidimensional necessrio para a
ferramenta OLAP. Aps finalizar o projeto de soluo, devese investir tempo no
levantamento de informaes sobre as agregaes e anlises mais complexas.

Agregaes e anlises mais complexas


O autor afirma que existem vrias formas de se iniciar um projeto OLAP e que
na maioria dos casos deixado para o final questes mais complexas, pois,
dependendo da situao, nem necessrio se preocupar com isso.

No geral, necessrio levar em considerao pelo menos as questes relacionadas


s agregaes bsicas. Tendo em vista esse fato, o autor apresenta questes de
descries derivadas, que aparecem em ambientes multidimensionais e podem
atrapalhar o processo analtico.

Processo OLAP
150

Dados de entrada intermediria: esse caso gira em torno de anlises que tm


dependncia com dados de entrada vindos de outras fontes(dados operacionais),
mas caso no esteja preparad, pode gerar anlises com erros para o usurio.

percebido que no existe uma metodologia formada para o desenvolvimento


de uma soluo OLAP, mas sim uma sequncia de passos para auxiliar o
desenvolvimento do seu projeto e implantao. A soluo OLAP tem dependncia
direta do modelo dimensional, por esse motivo, devese dar um foco especial
nesse modelo.

Referncias

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.


2ndEdition. John Wiley & Sons, Inc, 2002.

Ps-graduao
151

Exemplo de uma soluo OLAP


Flvio Ceci

As ferramentas OLAP tm como funo apresentar um caminho mais amigvel


para que o seu usurio final navegue pelas informaes mantidas nos seus
repositrios de dados e informaes.

Essas ferramentas geralmente possuem um ambiente em que se pode configurar


o tipo de consulta desejada, de modo que graficamente o usurio pode combinar
uma srie de dimenses na forma de linhas e colunas, alm de aplicar filtros e
paginadores.

Para facilitar a visualizao, a Figura a seguir foi retirada de um dos ambientes


do Diretrio de Conhecimento da Vigilncia Sanitria(http://dcvisa.anvisa.gov.br),
esse e os demais exemplos sero tirados desse portal.

Figura 1-Painel para elaborao das consultas OLAP

Fonte: Anvisa, 2012.

Processo OLAP
152

No caso do ambiente apresentado na Figura 1, podese utilizar recursos do tipo


draganddrop para arrastar as dimenses que se deseja alocar como linha ou
como coluna. A Figura 2 apresenta esse recurso com mais detalhes:

Figura 2 Recurso drag and drop da ferramenta OLAP

Fonte: Anvisa, 2012.

Esse tipo de ambiente traz uma srie de benefcios, j que bastante intuitivo e
permite que o seu usurio final no precise ser um especialista em computao,
bastando apenas ter um conhecimento mdio em informtica e, principalmente,
conhecer o domnio em questo.

Podese facilmente cruzar as dimenses funcionrio com estado e chegar


seguinte situao:

Figura 3-Tabela de funcionrios por estado

Fonte: Anvisa, 2012.

Esse mesmo resultado apresentado pela ferramenta pode ser facilmente


convertido em um grfico, possibilitando visualizar mais dados, como apresentado
na Figura 4:

Ps-graduao
153

Figura 4-Selecionando a opo de visualizao a partir de grfico

Fonte: Anvisa, 2012.

A Figura 5 apresenta a configurao demonstrada na Figura 4, possibilitando a


visualizao do mesmo resultado de maneira grfica.

Figura 5-Representao grfica para os dados apresentados na planilha resultante

Fonte: Anvisa, 2012.

Processo OLAP
154

A representao grfica permite eventos de clique, possibilitando que o usurio


chegue at a informao gro, a qual, muitas vezes, pode estar na forma de um
dado na base operacional.

Esse recurso tambm pode estar presente na visualizao de forma tabelar,


demodo que ao clicar no valor totalizado de uma clula, podese ver o detalhe at
chegar no gro, como ocorre com o caso da representao grfica.

Outro recurso bastante interessante de uma ferramenta OLAP a criao


de dashbords, em que o usurio pode manter alguns grficos resultantes de
consultas(cruzamento entre dimenses),sendo atualizadas em tempo real.

A Figura 6 apresenta um exemplo de um dashbord criado a partir de trs consultas:

Figura 6-Dashbord do usurio

Fonte: Anvisa, 2012.

O dashbord ilustrado na Figura 6 apresenta a viso de um usurio do sistema


em que foram construdas trs projees. O resultado foi publicado na forma
grfica, cada grfico segue o conceito de widget, em que possvel verificar as
informaes na forma tabular, ver um widget em tela cheia.

Ps-graduao
155

O conceito de dashbord permite que o usurio tenha um painel no qual se pode


acompanhar a evoluo dos dados para apoiar a deciso gerencial da organizao.
Por exemplo, podese demonstrar o grfico Produo por ano, onde projetada
a quantidade de produo distribuda por ano e, tambm so apresentadas duas
linhas em que demostra a situao ideal e a de risco.

As solues OLAP so hoje uma das solues grficas mais utilizadas e efetivas
para apresentar os dados e informaes contidos nos modelos dimensionais.
Vale lembrar que as solues OLAP apresentam os dados histricos e para
acompanhamento em tempo real da situao da organizao. A combinao
dessas solues com as tcnicas de descoberta de conhecimento possibilitam
a construo de previses a partir dos dados passados, tanto para descobrir
informaes implcitas quanto para montar simulaes para a previso de
situaes futuras.

Referncias

ANVISA. Diretrio de Conhecimento da vigilncia Sanitria. Disponvel em:


http://dcvisa.anvisa.gov.br. Acesso em: 16 jul. 2012.

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.


2ndEdition. John Wiley & Sons, Inc, 2002.

Processo OLAP
156

Atividades de Autoaprendizagem
1) Levando em considerao o contedo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:

a. ( ) Para o desenvolvimento de solues OLAP, existem vrias metodologias


que se podem seguir para obter sucesso no mesmo.

b. ( ) MOLAP, HOLAP, DOLAP so tipos de arquiteturas OLAP.

c. ( ) Podese fazer uma analogia das solues OLAP com o brinquedo cubo mgico.

d. ( ) OLAP e OLTP so siglas para o mesmo tipo de processo.

e. ( ) A minerao de dados uma tcnica utilizada para compor a base de dados


consumida pelas ferramentas OLAP.

f. ( ) ROLAP um tipo de arquitetura OLAP que utiliza como base um banco de


dados com modelo relacional.

Atividade colaborativa
Nesta unidade, voc estudou sobre as solues OLAP. Responda pergunta a
seguir utilizando a ferramenta Frum, no se esquea de comentar as respostas
dos seus colegas.

As ferramentas OLAP apresentam uma forma amigvel de navegar entre as


dimenses modeladas na base de dados, essa forma geralmente tabelar(por
meio de tabelas), voc acha que existem outras formas de navegao? Se sim,
falesobre elas e apresente quais as suas vantagens e desvantagens.

Ps-graduao
157

Sntese
Nesta unidade, so estudadas as solues OLAP, os seus conceitos, como so
montadas, quais as suas dependncias tecnolgicas e exemplos.

As solues OLAP so baseadas na disposio das informaes disponveis nos


modelos dimensionais, essas solues tm como funo auxiliar no consumo e
explicitao dos dados e informaes, de modo a apoiar a tomada de deciso,
tambm possvel acompanhar os dados em tempo real, a fim de acompanhar os
dados de entrada para apoiar o processo decisrio de maneira mais gil.

Saiba Mais
A professora Cynthia Aurora Anzanello, da Universidade Federal do Rio Grande do
Sul, escreveu um timo artigo falando sobre OLAP e suas utilizaes, vale a pena
ler este material:

http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20
Sistemas%20de%20Informa%E7%E3o/OLAP.pdf

Processo OLAP
Para concluir os estudos

Chegamos ao final deste livro sobre Business Inteligence, onde passamos pelas
principais reas que esto relacionadas com essa proposta. Inicialmente, foi
abordada uma reviso sobre o conceito de dado, informao e conhecimento,
chegando aos sistemas de informao. Nesse tpico verificouse que no existe
uma classificao nica, mas que iramos nos concentrar no tipo de sistemas de
informao chamado de sistemas de apoio deciso.

Os conceitos relacionados a Business Inteligence (BI) nasceram muito antes da


era da computao, mas nesse contexto as ferramentas de BI so representadas
como evoluo dos sistemas de apoio deciso. Dentro dessa abordagem,
utilizamse, normalmente, repositrios de dados e informao para apoiar os
processos analticos. Costumeiramente, utilizase a modelagem dimensional para
esse tipo de proposta.

Os Data Warehouse (DW) so responsveis pelo armazenamento centralizado


dos dados e informaes, de maneira dimensional e prprocessada, garantindo
uma qualidade muito maior na sua fonte de informao. Para isso, utilizamse
ferramentas ETL, as quais tm como funo a coleta de dados das bases
operacionais, proveniente dos sistemas de informao transacionais da
organizao. A partir dessa coleta, feita a transformao e limpeza dos dados e
posteriormente a carga no repositrio do tipo DW.

Para consumir e apresentar esses dados e informaes contidos nos repositrios


podese utilizar algumas abordagens. Quando se deseja descobrir conhecimento
implcito nos repositrios, podese utilizar de tcnicas de minerao de dados,
as quais podem auxiliar no reconhecimento de padres e gerar indicativos para
acontecimentos futuros.

Quando se deseja visualizar os dados e informaes histricos, podendo cruzar


vrias dimenses, de modo a chegar em novas informaes, utilizamse as
solues OLAP, que, alm de navegao pelos dados histricos, podem fazer um
acompanhamento em tempo real das operaes da organizao.
160

Podese verificar que cada vez mais os dados no estruturados esto fazendo
parte das solues de BI, o motivo para tal que muito do conhecimento
organizacional est implcito nas bases de documentos. O cruzamento e
carga dessas informaes cada vez mais comum nos repositrios e bases de
conhecimento, alm dos dados no estruturados provenientes dos documentos
da organizao. Tambm, cada vez mais esto utilizando como base os dados
publicados em mdias sociais, que representam um canal direto do cliente com as
organizaes, podendo auxiliar e muito no processo de tomada de deciso.

Ps-graduao
Minicurrculo

Flvio Ceci graduado em Cincia da Computao pela Universidade


do Sul de Santa Catarina (Unisul2007), Mestre em Engenharia do
Conhecimento pela Universidade Federal de Santa Catarina (UFSC2010)
e, atualmente, doutorando em Engenharia do Conhecimento,
tambm pela Universidade Federal de Santa Catarina.

Trabalha com desenvolvimento de softwares desde 2005 e na concepo


de sistemas de apoio deciso, desde 2007, no Instituto Stela.

Suas reas de pesquisa incluem: Recuperao de informao,


Business Intelligence, Extrao de conhecimento, Processamento
de linguagem natural e Anlise de sentimentos.
Respostas e comentrios das atividades
de autoaprendizagem e colaborativas

Unidade 1

Atividades de Autoaprendizagem

1) Gabarito: F V F F V V F F

a. ( F ) As ontologias so estruturas formais para a representao de dados.

Comentrio: As ontologias so estruturas formais para a representao


deconhecimento.

c. ( F ) O paradigma de transporte demonstrou, ao longo do tempo, sua


eficincia e utilizado at hoje na Nova Engenharia do Conhecimento.

Comentrio: A nova engenharia do conhecimento baseada no paradigma de


modelagem, devido falta de sucesso do paradigma de transporte na concepo dos
sistemas de apoio deciso.

d. ( F ) Os Sistemas de Informao possuem uma classificao muito bem definida.

Comentrio: Essa afirmao no est correta, at hoje os pesquisadores dessa


rea ainda no chegaram em um consenso sobre a classificao dos sistemas
deinformao.

g. ( F ) O subsistema de modelo da arquitetura clssica de SAD equivalente ao


Data Warehouse da arquitetura de BI.

Comentrio: os Data Warehouse so equivalentes ao subsistema de dados e no de


modelo da arquitetura clssica de um SAD.

h. ( F ) Uma organizao pode ser vista como um sistema, desde que ela faa uso
de computadores.

Comentrio: Um sistema qualquer ambiente que seja composto de trs processos


bsicos: Entrada, processamento e sada. Exemplo: sistema digestivo.
164

Atividade colaborativa

O uso de dados disponveis na Web (como por exemplo, em mdias sociais) pode
auxiliar os sistemas de apoio deciso na entrega de uma informao mais
estratgica para a organizao?

Comentrio: Atualmente, as mdias sociais representam um canal direto entre as


organizaes e seus clientes, nelas podemse encontrar informaes sobre um
produto, servio e atendimento. Cada vez mais as organizaes esto utilizando essas
informaes para montar campanhas de marketing, e at cruzar essas informaes
com as internas, para auxiliar na tomada de deciso.

Unidade 2

Atividades de Autoaprendizagem:

1) Gabarito: F F F V F V

a. ( F ) As prticas de BI s foram possveis com o advento dos computadores.

Comentrio: apresentado durante a unidade 2 que as tcnicas de BI no possuem


dependncia com sistemas computacionais, que at mesmo em tempos remotos j
existiam tcnicas de BI inseridas nas suas atividades produtivas, como por exemplo,
asociedade egpcia.

b. ( F ) DW nada mais do que um banco de dados que utiliza como modelagem


de dados a abordagem relacional.

Comentrio: Um DW utiliza como modelagem para os seus dados a modelagem


dimensional, que mais indicada para anlise de dados.

c. ( F ) ETL o processo de minerao de dados previsto pela arquitetura de BI.

Comentrio: O processo de ETL responsvel pela coleta dos dados das bases
operacionais, processamento, transformao e carga desses dados no DW.

e. ( F ) A chamada rea de apresentao onde as informaes so organizadas


ecentralizadas.

Comentrio: Essas caractersticas so dos repositrios DW.

Ps-graduao
165

Atividade colaborativa

O uso de recursos semnticos permite uma sria de possibilidades para as anlises


de informaes disponveis pelo BI, quais possibilidades so essas? Como elas
podem auxiliar na anlise das informaes?

Comentrio: O uso de recursos semnticos est cada vez mais presente na web
(web semntica) e dentro das organizaes. Os artifcios semnticos podem estar
presentes tanto no processamento das informaes, podendo classificlas levando
em considerao o contexto do dado em questo, bem como na apresentao das
informaes, sabendo qual a melhor maneira de apresentla.

Unidade 3

Atividades de Autoaprendizagem:

1) Gabarito: V F V V V F

b. ( F ) O processo de integrao dos dados algo bastante simples e rpido


deconceber.

Comentrio: Sabese que o processo de integrao de dados um dos mais custosos


e demorados.

f. ( F ) As medidas de um DW uma nomenclatura equivalente a tabelas fato.

Comentrio: As medidas representam os valores totalizados, que so colunas de uma


tabela fato.

Atividade colaborativa

Nesta unidade, foram estudados os repositrios data warehouse, tambm foi


visto que Inmon, considerado como um dos pais dessa abordagem, j trabalha
com o conceito do DW2.0. Dessa forma, faa um paralelo dessa evoluo com a
evoluo do BI, BI 2.0 e BI 3.0.

Comentrio: O chamado DW 2.0 baseado na utilizao de fontes no estruturadas,


junto modelagem dimensional. No caso do chamado BI2.0 e BI3.0 tambm
previsto que seja utilizado contedo no estruturado, utilizandose de recursos de
processamento de linguagem natural e web semntica, o no s contedo interno
para apoiar a tomada de deciso, mas tambm contedo disponvel na internet.

Business Intelligence
166

Unidade 4

Atividades de Autoaprendizagem:

1) Gabarito: F F V F V F

a. ( F ) A minerao de dados responsvel pela modelagem do conhecimento


daorganizao.

Comentrio: A minerao de dados baseada em tcnicas estatsticas e apoiadas


por algoritmos da inteligncia artificial, que tm como funo analisar e apoiar a
descoberta de conhecimento.

b. ( F ) As tcnicas utilizadas no processo KDD so completamente diferentes das


utiliz11,5ada no processo KDT.

Comentrio: O processo KDD e KDT compartilha de vrias tcnicas, diferenciando


mais da etapa de processamento dos dados e informaes de entrada (dado
estruturado ou no estruturado).

d. ( F ) Os Data Warehouse so uma alternativa ao processo KDD no tendo


nenhuma relao.

Comentrio: Os Data Warehouse so responsveis por armazenar os dados


estruturados que sero consumidos pelo processo KDD.

f. ( F ) Os processos KDT e KDD utilizam como fonte solues do tipo DW.

Comentrio: O processo KDT utiliza como base textos e dados no estruturados,


diferente do processo KDD, que utiliza como base dados estruturados geralmente
provenientes de um DW.

Atividade colaborativa

Nesta unidade, foram estudados conceitos de descoberta de conhecimento em


bases de dados e em texto, sabendo que muito do conhecimento organizacional
est disponvel em documentos no estruturados. Responda pergunta a seguir
utilizando a ferramenta Frum, no se esquea de comentar as respostas de
seus colegas.

Ps-graduao
167

As redes sociais so hoje um dos principais canais de comunicao das organizaes


com o seu cliente final, possvel utilizar descoberta de conhecimento em
texto para extrair informaes para contribuir para a base de conhecimento da
organizao e auxilia no processo decisrio?

Comentrio: A resposta sim, as redes sociais so hoje um dos principais canais


de comunicao entre pessoas e at mesmo entre organizaes e seus clientes.
Por meio desses canais, possvel identificar opinies e at mesmo cruzar essas
informaes para auxiliar na predio de tendncias, de forma a atuar diretamente
na tomada de deciso.

Unidade 5

Atividades de Autoaprendizagem:

1) Gabarito: F V V F F V

a. ( F ) Para o desenvolvimento de solues OLAP, existem vrias metodologias


que se podem seguir para obter sucesso no mesmo.

Comentrio: Existem recomendaes para a construo de solues OLAP, mas


nenhuma metodologia consolidada ou definida.

d. ( F ) OLAP e OLTP so siglas para o mesmo tipo de processo.

Comentrio: No so todos os processo diferentes, no caso do processo OLAP, os


dados em questo so analticos.

e. ( F ) A minerao de dados uma tcnica utilizada para compor a base de dados


consumida pelas ferramentas OLAP.

Comentrio: A minerao de dados pode ser utilizada combinando com as solues


OLAP, mas ambos atuam no consumo dos dados e informaes para apresentar
informaes e conhecimentos para o usurio da soluo.

Atividade colaborativa

Nesta unidade, voc estudou sobre as solues OLAP. Responda pergunta a


seguir utilizando a ferramenta Frum, no se esquea de comentar as respostas
dos seus colegas.

Business Intelligence
168

As ferramentas OLAP apresentam uma forma amigvel de navegar entre as


dimenses modeladas na base de dados. Essa forma geralmente tabelar (por
meio de tabelas), voc acha que existem outras formas de navegao? Se sim,
falesobre elas e apresente quais as suas vantagens e desvantagens.

Comentrio: A grande vantagem das ferramentas OLAP a facilidade na navegao


entre as informaes e no entendimento dos resultados. No entanto, existem outras
maneiras para fazer esse tipo de navegao.

Uma soluo bastante interessante a baseada em perguntas e respostas, onde


o usurio pode fazer uma pergunta em linguagem natural e a aplicao retorna uma
face do cubo dimensional. Uma grande vantagem que no existe aprendizado para
saber como interagir com a ferramenta, j que a interface com a aplicao uma
pergunta escrita, por outro lado, o usurio pode no saber o que perguntar e no
chegar a encontrar as informaes implcitas.

Ps-graduao
Referncias

ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.

AGRAWAL, R.; SRIKANT, R. Mining sequential patterns. Proceedings of Eleventh


International Conf on Data Engineering. 1995.

AIRES, Rachel Virgnia Xavier. Uso de marcadores estilsticos para a busca na Web em
portugus. 2005. 202 f. Tese (Doutorado) Programa de Ps Graduao em Cincias
da Computao e Matemtica Computacional Instituto de Cincias e Matemticas e
de Computao-ICMC, Universidade de So Paulo-USP, So Carlos (SP).

ALMEIDA, Adiel Teixeira de. Um modelo de deciso para a priorizao no


planejamento de sistemas de informao. Prod., So Paulo, v. 8, n. 2, Dec. 1998.
Available from <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-
65131998000200003&lng=en&nrm=iso>. Acessado em 15 Dez. 2011

ANGELONI, Maria Terezinha. Organizaes do conhecimento: infraestrutura,


pessoas e tecnologias. So Paulo: Saraiva, 2008. 363 p.

ANZANELLO, C. A. OLAP: conceitos e utilizao. Universidade Federal do Rio


Grande do Sul (UFRGS), 2002.

ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados.


2008. Monografia (Graduao em Tecnologia)-Faculdade de Tecnologia de So
Paulo, So Paulo, 2008.

AXELROD, R.; COHEN, M. D. Harnessing complexity: organizational implications


of a scientific frontier, Free Press, New York, 1999.

BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de Apoio Deciso
sob o enfoque de Profissionais de TI e de Decisores. XXII Encontro Nacional de
Engenharia de Produo. Curitiba, 2002.

BERGER, Gideon et al. Discovering unexpected patterns in temporal data


using temporal logic; Temporal Databases - Research and Practice. Heidelberg:
EdSpringer-Verlag, 1998.
170

BIO, Srgio Rodrigues. Sistemas de informao: um enfoque gerencial. So Paulo:


Atlas, 1996.

BONOMO, Peeter. Construo de Data Warehouse (DW) e Data Mart (DM).


Artigo online. Disponvel em <http://imasters.uol.com.br/artigo/11178> Acesso em:
julho de 2009.

BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento


inerente evoluo temporal dos relacionamentos entre elementos textuais.
2011. 127 (Doutorado). Programa de Ps-Graduao em Engenharia e Gesto do
Conhecimento, UFSC, Florianpolis (SC).

CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio deciso O Sistema


de Apoio ao Licenciamento da Direo Regional do Ambiente do Alentejo.
Dissertao para obteno do grau de Mestre em Sistemas de Informao
Geogrfica. Universidade Tcnica de Lisboa. Portugal, 2001.

CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduao em


Bacharelado em Sistemas de Informao). Centro de Ensino Superior de Juiz de
Fora, Juiz de Fora, 2005.

CARVALHO, D. R. Um mtodo hbrido rvore de deciso / algoritmo gentico para


data mining, Tese Doutorado PUCPR, Curitiba, 2002.

CARVALHO, Lus Alfredo V. Data mining: a minerao de dados no marketing,


medicina, economia, engenharia e administrao. Editora Cincia Moderna. Rio de
Janeiro, 2005.

CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para


reconhecimento de caracteres manuscritos. Universidade Federal da Paraba, 2000.

CASTRO, Sergio A.; GONALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP
na estratgia de vendas em uma indstria de calados alavancando a gesto
de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produo,
Florianpolis, 2004.

CECI, Flavio. O conhecimento nas organizaes como um sistema adaptativo


complexo. In: ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do
conhecimento na sociedade em rede. 001 ed. Florianpolis: Editora: Fundao
Jos Arthur Boiteux, 2010, v. 001, p. 207-2010

Ps-graduao
171

CECI, Flavio. Um modelo semiautomtico para a construo e manuteno de


ontologias a partir de bases de documentos no estruturados. 2010. Dissertao
(Mestrado em Engenharia e Gesto do Conhecimento) Universidade Federal
de Santa Catarina, Florianpolis, 2010. Disponvel em: <http://btd.egc.ufsc.br/wp-
content/uploads/2011/04/Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.

CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONALVES, Alexandre L. Towards
a semiautomatic approach for ontology maintenance. 7 CONTECSI - International
Conference on Information Systems and Technology Management. USP, So
Paulo, 2010.

CIELO, Iv. Data Warehouse como diferencial competitivo. Artigo on line.


Disponvel em <http://www.always.com.br/site2005/internet_clip07.html>. Acesso
em: julho de 2008.

CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on-line analytical


processing) to user-analysts: An IT mandate. 1995.

DIAS, Cristiano Araujo. Descoberta de conhecimento em banco de dados para


apoio tomada de deciso. Especializao em Informtica Empresarial. Unesp.
Guaratinguet , 2002.

DILL, Srgio Luis. Uma metodologia para desenvolvimento de Data Warehouse


e Estudo de Caso. Dissertao submetida para obteno do grau de Mestre em
Cincia da Computao. Universidade Federal de Santa Catarina, Florianpolis, 2002.

DONALD, B. High performance oracle data warehousing. USA: The Coriolis


Group, 1997.

EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Minerao de
texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e
aplicaes. So Paulo: Manole, 2005.

FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic;


UTHURUSAMY, Ramasamy. Advance: knowledge discovery and data mining. 1996.

FELDMAN, R.; HIRSH, H. Exploiting background information in knowledge


discovery from text. Journal of Intelligent Information System, 1997.

FIALHO, Francisco Antnio Pereira et al. Gesto do conhecimento e


aprendizagem: as estratgias competitivas da sociedade ps-industrial.
Florianpolis: Visualbooks, 2006.

Business Intelligence
172

FOURLAN, Marcos Roberto; GONALVES FILHO, Eduardo V. Uma proposta de


aplicao de Business Intelligence no cho-de-fbrica. Gesto e Produo. V.12,
n.1, p. 55-66, 2005.

GARCIA, Ana Cristina B.; VAREJO, Flvio M.; FERRAZ, Inhama N. Aquisio de
Conhecimento. In: Sistemas inteligentes: fundamentos e aplicaes. Organizao:
REZENDE, Solange O. Editora Manole, So Paulo, 2005.

GHISI, Fernando B.; CECI, Flvio; SELL, Denilson. Aspectos relacionados com a
eficcia do processo de aquisio de conhecimento a partir de apresentao
de informaes numricas: sumrios textuais podem ser mais adequados
que representaes grficas? 5 CIDI Congresso Internacional de Design da
Informao. Florianpolis, 2011.

GONALVES, A. L. Um modelo de descoberta de conhecimento baseado na


correlao de elementos textuais e expanso vetorial aplicado engenharia e
gesto do conhecimento. 2006. 196 (Doutorado). Programa de Ps-Graduao em
Engenharia de Produo, UFSC, Florianpolis (SC).

GORDON, Steven R.; GORDON, Judith. Sistemas de informao: uma abordagem


gerencial. 3. ed. Rio de Janeiro: LTC, 2006.

GOUVEIA, Lus B.; RANITO, Joo. Sistemas de informao de apoio gesto.


Porto, Portugal: Sociedade Portuguesa de Inovao, 2004.

GOUVEIA, Henrique C. et al. Aplicao da ferramenta OLAP em diferentes


mdulos de um sistema ERP melhorando a tomada de deciso. Revista Eletrnica
de Sistemas de Informao e Gesto Tecnolgica. Vol. 01, n. 01, 2011.

HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de


apoio deciso, com recursos para raciocnio abdutivo. Tese para obteno do
grau de Doutor em Engenharia e Gesto do Conhecimento. Universidade Federal
de Santa Catarina. Florianpolis, 2010.

HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.


Semntica nos sistemas de apoio deciso: O Estado da Arte. Revista da Unifebe,
v. 1, p. Artigo 14, 2010.

HODGE, P. Business intelligence Architecture. Disponvel em <https://sites.google.


com/a/paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.

Ps-graduao
173

IGARASHI, Wagner. Construo automtica de vocabulrios temticos e


clculo de aderncia curricular: uma aplicao aos fundos setoriais. 2005.
95f. Dissertao (Mestrado) Programa de Ps-Graduao em Engenharia de
Produo e Sistemas, Universidade Federal de Santa Catarina, Florianpolis (SC).

INMON, W. H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.


388 p.

INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data warehousing: como


transformar informaes em oportunidades de negcios. So Paulo: Berkeley,
2001. 266 p.

INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The architecture for the next
generation of data warehousing. 2007.

LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informao Gerenciais:


administrando a empresa digital. So Paulo: Prentice Hall, 2001.

LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining.


Disponvel em <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009.

LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese


(Doutorado) 2011 - Universita Degli Studi di Padova, Facolta di Ingegneria.
Ingegneria Informatica, Padova (Itlia), 2011.

KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.

KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the Complete guide
to dimensional modeling. Wiley, 2002.

KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley


Computer Publishing, 1997.

MARTINHAGO, Srgio. Descoberta de conhecimento sobre o processo seletivo


da UFPR. (Dissertao) Mestrado em Mtodos Numricos em Engenharia.
Universidade Federal do Paran, Curitiba, 2005.

MAAS, Antonio Vico. Administrao de sistemas de informao. So Paulo:


rica, 1999.

NAPOLI, Marcio. Aplicao de ontologias para apoiar operaes


analticas sobre fontes estruturadas e no estruturadas. 2011. Dissertao
(Mestrado)Universidade Federal de Santa Catarina, Programa de
PsGraduao em Engenharia e Gesto do Conhecimento, Florianpolis, 2011.

Business Intelligence
174

NAVEGA, Sergio. Princpios do data mining. Cenadem 2002, Anais do Infoimagem,


2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em:
maro de 2012.

OLIVEIRA, Robson Butaca Taborelli de. O processo de extrao de conhecimento


de base de dados apoiado por agentes de software. (Dissertao) Cincia da
Computao. Universidade de So Paulo. So Carlos, 2000.

OLIVEIRA, Andr Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura.
Aprimorando a gesto de negcios com a utilizao de Tecnologias de
Informao. Revista de Cincias Gerenciais. Vol XIII, N 17, 2009.

OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.

PINHEIRO, Carlos Andr Reis. Inteligncia analtica: minerao de dados e


descoberta de conhecimento. Rio de Janeiro: Cincia Moderna, 2008.

PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semntica no Business


Intelligence 2.0: um exemplo no contexto de um programa de ps-graduao. VII
Simpsio Brasileiro de Sistemas de Informao. Salvador, 2011.

PRIMAK, Fbio Vincius. Decises com B.I. Rio de Janeiro: Editora Cincia
Moderna, 2008.

QUONIAM, Luc; et al. Inteligncia obtida pela aplicao de data mining em base
de teses francesas sobre o Brasil. Cincia da Informao, v. 30, n.2, p, 20-28.
Braslia, 2001.

RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business


IntelligenceTrends, Technology, Software Selection, and Implementation.
JohnWiley and Sons, Inc., New York, 2002.

REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso


envolvendo business intelligence como instrumento de apoio controladoria.
Revista Contabilidade & Finanas. So Paulo, p.69-83, 2007.

REZENDE, Solange. Sistemas inteligentes: fundamentos e aplicaes. So Paulo:


Ed. Manole, 2005.

ROMO, Wesley. Descoberta de conhecimento relevante em banco de dados


sobre cincia e tecnologia. (Tese) Programa de Ps-Graduao em Engenharia de
Produo. Universidade Federal de Santa Catarina. Florianpolis, 2002.

Ps-graduao
175

SASSI, Renato Jose. Data warehouse e business intelligence operacional:


revisando a tecnologia e analisando as tendncias do armazm de dados. XXX
Encontro Nacional de Engenharia de Produo. ENEGEP 2010. So Carlos, 2010.

SELL, Denilson. Uma arquitetura para business intelligence baseada em


tecnologias semnticas para suporte a aplicaes analticas. 2006. Tese
(Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnolgico.
Programa de Ps-Graduao em Engenharia de Produo, Florianpolis, 2006.

SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para


processamento analtico baseado em tecnologias semnticas e em linguagem
natural. 2011. Dissertao (Mestrado) Universidade Federal de Santa Catarina,
Programa de Ps-Graduao em Engenharia e Gesto do Conhecimento,
Florianpolis, 2011.

SILVA, Joo; SAIAS, Jos. OLAP em mbito hospitalar: transformao de dados de


enfermagem para anlise multidimensional. JIUE 2011, 2th Jornada de Informtica
da Universidade de vora, Portugal, 2011.

STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering:


principles and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.

TANCER, Bill. Click: o que milhes de pessoas esto fazendo on-line e por que isso
importante. Editora Globo S.A., So Paulo, 2009.

TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: como a colaborao em


massa pode mudar o seu negcio. Editora Nova Fronteira, Rio de Janeiro, 2006.

TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de bancos


de dados. Elsevier, Rio de Janeiro, 2007.

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.


2ndEdition. John Wiley & Sons, Inc, 2002.

TURBAN, Efraim et al. Business Intelligence um enfoque gerencial para a


inteligncia do negcio. Editora Bookman, Porto Alegre, 2009.

VINCI, Wilson L.; NARCISO, Marcelo G. Integrao access-excel para produzir um


sistema de apoio deciso que simula um data warehouse e OLAP. XIII SIMPEP,
Simpsio de Engenharia de Produo, Bauru, 2006.

XAVIER, Fabrcio S. V.; PEREIRA, Leonardo Bruno R. SQL dos conceitos s


consultas complexas. Editora Cincia Moderna, Rio de Janeiro, 2009.

Business Intelligence
176

WITTEN, Ian H.; FRANK, Eibe. Data mining practical machine learning tools and
techniques with Java implementations. Morgan Kaufmann Publishers. 2000.

WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos


aplicados inteligncia competitiva. Monografia apresentada ao Exame de
Qualificao do Programa de Ps-Graduao em Computao, Universidade
Federal do Rio Grande do Sul, Porto Alegre, 2002.

Ps-graduao

Vous aimerez peut-être aussi