Apoio A Tomada de Decisão

UNIVERSIDADE REGIONAL DE BLUMENAU
CENTRO DE CINCIAS EXATAS E NATURAIS

CURSO DE CINCIAS DA COMPUTAO
(Bacharelado)
SISTEMA DE APOIO DECISO PARA PREVISES

GENRICAS UTILIZANDO TCNICAS DE DATA MINING
TRABALHO DE CONCLUSO DE CURSO SUBMETIDO UNIVERSIDADE

REGIONAL DE BLUMENAU PARA A OBTENO DOS CRDITOS NA
DISCIPLINA COM NOME EQUIVALENTE NO CURSO DE CINCIAS DA
COMPUTAO BACHARELADO
RICARDO KREMER
BLUMENAU, JUNHO/1999
1999/1-51
SISTEMA DE APOIO DECISO PARA PREVISES

GENRICAS UTILIZANDO TCNICAS DE DATA MINING
RICARDO KREMER
ESTE TRABALHO DE CONCLUSO DE CURSO, FOI JULGADO ADEQUADO

PARA OBTENO DOS CRDITOS NA DISCIPLINA DE TRABALHO DE
CONCLUSO DE CURSO OBRIGATRIA PARA OBTENO DO TTULO DE:
BACHAREL EM CINCIAS DA COMPUTAO
Prof. Maurcio Capobianco Lopes Orientador na FURB
Prof. Jos Roque Voltolini da Silva Coordenador do TCC
BANCA EXAMINADORA
Prof. Maurcio Capobianco Lopes
Prof. Everaldo Artur Grahl
Prof. Ricardo Guilherme Radnz
ii
FURB, AO MEU ORIENTADOR MAURCIO CAPOBIANCO LOPES E A

TODOS QUE CONTRIBURAM DIRETA OU INDIRETAMENTE PARA A
REALIZAO DESTE TRABALHO.
iii
SUMRIO
Sumrio ................................................................................................................................ iv
Lista de Figuras.................................................................................................................... vii
Lista de Tabelas ................................................................................................................... vii
Lista de Abreviaturas ..........................................................................................................viii
Resumo.................................................................................................................................. x
Abstract ................................................................................................................................ xi
1 Introduo ......................................................................................................................... 1
1.1 ORIGEM/MOTIVAO................................................................................................ 1
1.2 Objetivos ........................................................................................................................ 3
1.3 Organizao do texto....................................................................................................... 3
2 Sistemas de Informao..................................................................................................... 5
2.1 Conceitos ........................................................................................................................ 5
2.2 Tipos de Sistemas de Informao .................................................................................... 7
3 Data Warehouse .............................................................................................................. 12
3.1 Conceitos ...................................................................................................................... 12
3.2 Componentes funcionais de um Data Warehouse.......................................................... 13
3.2.1 Aquisio de Dados .................................................................................................... 14
3.2.2 Armazenamento dos Dados......................................................................................... 14
3.2.3 Acesso aos Dados ....................................................................................................... 14
3.3 Data Marts .................................................................................................................... 15
3.4 Vantagens ..................................................................................................................... 16
4 Data Mining .................................................................................................................... 18
4.1 Prospeco de conhecimento e Data Mining ................................................................. 18
iv
4.2 As etapas do processo de KDD ..................................................................................... 19

4.3 Utilidades do Data Mining. ........................................................................................... 21
4.3.1 Classificao............................................................................................................... 21
4.3.2 Estimativa................................................................................................................... 22
4.3.3 Agrupamento por Afinidade........................................................................................ 22
4.3.4 Previso ...................................................................................................................... 23
4.3.5 Segmentao............................................................................................................... 23
4.4 Tcnicas de Data Mining............................................................................................... 24
4.4.1 Modelos...................................................................................................................... 26
4.4.2 Tcnicas e Tarefas ...................................................................................................... 27
4.4.2.1 Anlise de Seleo Estatstica................................................................................... 27
4.4.2.2 MBR 27
4.4.2.3 Algoritmos Genticos ............................................................................................... 28
4.4.2.4 Deteco de Agrupamentos ...................................................................................... 28
4.4.2.5 Anlise de Vnculos.................................................................................................. 29
4.4.2.6 rvores de Deciso e Induo de Regras .................................................................. 29
4.4.2.7 Redes Neurais Artificiais .......................................................................................... 29
4.5 Escolha da tcnica......................................................................................................... 30
5 Redes Neurais ................................................................................................................. 31
5.1 Rede Neural Biolgica .................................................................................................. 31
5.2 Redes Neurais Artificiais............................................................................................... 32
5.2.1 Processos de Aprendizado........................................................................................... 34
5.2.2 Revocao .................................................................................................................. 35
5.2.3 Modelos de Redes Neurais Artificiais ......................................................................... 36
5.2.3.1 Modelo Feedforward / Backpropagation ................................................................... 36
6 Desenvolvimento do SAD ............................................................................................... 38

6.1 Necessidades do Usurio............................................................................................... 38
6.2 Levantamento de Requisitos.......................................................................................... 39
6.2.1 Diagrama de Contexto ................................................................................................ 40
6.2.2 Diagrama de Fluxo de Dados ...................................................................................... 41
6.2.3 Dicionrio de Dados ................................................................................................... 42
6.2.4 Modelo Entidade Relacionamento............................................................................... 43
6.3 Desenvolvimento do Prottipo ...................................................................................... 44
6.3.1 Aquisio dos dados ................................................................................................... 44
6.3.2 Armazenamento dos Dados......................................................................................... 45
6.3.3 Acesso aos Dados ....................................................................................................... 46
6.3.3.1 Domnio da Aplicao .............................................................................................. 47
6.3.3.2 Seleo dos Dados.................................................................................................... 48
6.3.3.3 Pr-Processamento e Limpeza .................................................................................. 49
6.3.3.4 Data Mining ............................................................................................................. 50
6.3.3.5 Interpretao do Conhecimento ................................................................................ 51
7 Concluses e Sugestes ................................................................................................... 52
7.1 Concluses.................................................................................................................... 52
7.2 Limitaes .................................................................................................................... 53
7.3 Sugestes ...................................................................................................................... 54
Referncias Bibliogrficas ................................................................................................... 55
vi
LISTA DE FIGURAS
FIGURA 1 - ELEMENTOS DE UM SISTEMA DE INFORMAO ...................................................................................... 6
FIGURA 2 EVOLUO DOS SISTEMAS DE INFORMAO ......................................................................................... 9
FIGURA 3 - OS PASSOS DO PROCESSO DE KDD....................................................................................................... 19
FIGURA 4 - MODELO RECEBE ENTRADAS E PRODUZ INFORMAES........................................................................ 26
FIGURA 5 - CONSTITUINTES DA CLULA NEURONAL - ESQUEMA............................................................................ 32
FIGURA 6 - ORGANIZAO DAS CAMADAS............................................................................................................. 33
FIGURA 7 FLUXOGRAMA DO ALGORITMO DE APRENDIZAGEM DE UMA REDE NEURAL........................................ 34
FIGURA 8 ADAPTAO DAS ETAPAS DA METODOLOGIA DE PROTOTIPAO FUNDAMENTAL. .............................. 38
FIGURA 9 DIAGRAMA DE CONTEXTO DO SISTEMA DE APOIO DECISO............................................................ 40
FIGURA 10 DFD0 DO SISTEMA DE APOIO DECISO. ........................................................................................ 41
FIGURA 11 MER SISTEMA DE APOIO DECISO. ............................................................................................ 43
FIGURA 12 JANELA DO JE VIRTUAL .................................................................................................................... 45
FIGURA 13 MER - DATA WAREHOUSE DO JE VIRTUAL. ...................................................................................... 46
FIGURA 14 TELA PRINCIPAL DO SISTEMA ............................................................................................................ 47
FIGURA 15 TELA DE DEFINIES DO MODELO DE PREVISO ................................................................................ 48
FIGURA 16 TELA DE TREINAMENTO E REVOCAO DO MODELO ........................................................................ 49
FIGURA 17 TELA DE APRESENTAO DO RESULTADO DA REVOCAO ............................................................... 50
FIGURA 18 TELA QUE EFETUA A PREVISO DOS DADOS ....................................................................................... 51
vii
LISTA DE TABELAS
TABELA 1 QUAIS TCNICAS PARA CADA TAREFA ................................................................................................ 30
TABELA 2 - MODELOS DE REDES NEURAIS ............................................................................................................. 36
viii
LISTA DE ABREVIATURAS
KDD
- Knowledge Discovery in Databases
MBR - Memory-Based Reasoning

MPP
- Processador maciamente paralelo
OLAP - On Line Analytic Processing

OLTP - On Line Transaction Processing
SAD
- Sistema de Apoio Deciso
SAE
- Sistema de Automao de Escritrios
SE
- Sistema Especialista
SI
- Sistema de Informao
SIE
- Sistema de Informaes Executivas
SIG
- Sistema de Informaes Gerenciais
SMP
- Multiprocessador simtrico
SPT
- Sistema de Processamento de Transaes
ix
RESUMO
O trabalho tem como objetivo principal auxiliar a tomada de decises atravs de um
Sistema de Apoio Deciso utilizando tcnicas de Data Mining, mais especificamente para
efetuar previses genricas. Para auxiliar esta tarefa foi implementado um prottipo que
permite ao usurio definir um modelo de previso, onde o mesmo pode ser treinado para
responder s variveis de previso com certa flexibilidade. Para a elaborao do prottipo,
foram analisadas as caractersticas de Sistemas de Informao, bem como dos Data
Warehouses e das tcnicas de Data Mining. Tambm estudou-se na rea de Inteligncia
Artificial as Redes Neurais, que fazem parte do Data Mining aplicado previso. Como
conseqncia do desenvolvimento deste trabalho, verificou-se que a aplicao do Data
Mining juntamente com as etapas do KDD foi muito eficiente. Foram realizados testes e foi
possvel desenvolver modelos de previso onde colocou-se em prtica o uso de Redes
Neurais, a qual se mostrou bastante eficiente para o processo de previso principalmente por
sua grande capacidade de generalizao.
ABSTRACT
The main purpose of this work is to help decision making through a Decision Support
System using Data Mining techniques, specifically to do generic forecasts. To aid in this task,
a prototype was implemented that allows the user to define a forecast model, where the same
can be trained to answer the forecast variables with certain flexibility. For the elaboration of
the prototype, the characteristics of Information Systems were analyzed, as well as the Data
Warehouses and Data Mining techniques. In the area of Artificial Intelligence, the Neural
Networks were also studied, once they are part of Data Mining applied to the forecast. As a
consequence of the development of this work, it was confirmed that the use of data Mining
along the stages of KDD was very eficient. Tests were conducted and it was possible to
develop models of forecast and the use of Neural Networks was put to practice, which proved
eficient enough for the process of forecast especially for its great capacitance of
generalization.
xi
1 INTRODUO
1.1 ORIGEM/MOTIVAO
A cada ano, companhias acumulam mais e mais informaes em seus bancos de dados.
Como conseqncia, estes bancos de dados passam a conter verdadeiros tesouros de
informao sobre vrios dos procedimentos dessas companhias. Toda esta informao pode
ser usada para melhorar seus procedimentos, permitindo que a empresa detecte tendncias e
caractersticas disfaradas, e reaja rapidamente a um evento que ainda pode estar por vir.
Alguns exemplos disto so o crescimento dos mecanismos de leitura de preo nos
supermercados, dos caixas eletrnicos, dos cartes de crdito, da televiso por assinatura, do
home shopping, da transferncia eletrnica de fundos, o processamento automtico de
pedidos, das bilheterias eletrnicas e outros.
Mas no se tem somente uma grande quantidade de dados sendo produzida; os dados
tambm esto sendo extrados cada vez mais dos sistemas de onde so gerados e alimentados
em um Data Warehouse, tornando-se parte da memria da empresa [HAR98].
Segundo [INM97], um Data Warehouse um conjunto de dados baseado em
assuntos, integrado, no-voltil, e varivel em relao ao tempo, de apoio s decises
gerenciais.
Com toda esta informao disponvel, seja em um Data Warehouse ou simplesmente
em uma Base de Dados, tende a crescer cada vez mais a demanda por sistemas que forneam
informaes precisas, que respondam s dvidas da empresa e que proporcionem uma tomada
de decises mais acertada. Um tipo de sistema que possui estes aspectos o Sistema de Apoio
Deciso (SAD).
Conforme [SPR91], os Sistemas de Apoio Deciso so sistemas computacionais que
ajudam os responsveis pela tomada de decises a enfrentar problemas estruturais atravs de
uma interao direta com modelos de dados e anlises.
No entanto, apesar do enorme valor desses dados, a maioria das organizaes incapaz
de aproveitar totalmente o que est armazenado em seus arquivos. Esta informao preciosa
est na verdade implcita, escondida sob uma montanha de dados, e no pode ser descoberta
2
utilizando-se sistemas de gerenciamento de banco de dados convencionais; elas precisam de
um significado. O significado permite a anlise dos dados observando modelos, estabelecendo
mecanismos e tendo novas idias para fazer previses sobre o futuro. Com o uso do Data
Mining pode-se acrescentar significado a esses dados.
Conforme [HAR98], o Data Mining, do modo como usado o termo, a explorao e
anlise, por meios automticos ou semi-automticos, de grandes quantidades de dados para
descobrir modelos e regras significativas.
O Data Mining pode ser aplicado tarefas como classificao, estimativas, previses,
agrupamento por afinidades ou reunio. Algumas destas tcnicas so melhor executadas
atravs de testes hipotticos, onde os dados do passado so verificados para aprovar ou no
idias ou suposies obtidas em cima dos dados disponveis. Alm destes testes hipotticos
pode ser utilizado tambm a descoberta de conhecimento, onde os dados falam por si
prprios. Este processo de descoberta de conhecimento pode ser de duas formas: a
direcionada e a no-direcionada. A forma direcionada tenta explicar ou categorizar alguns
campos de dados, como receitas ou respostas. A descoberta de conhecimento no-direcionada
tenta encontrar modelos ou similaridades entre grupos de registros sem um campo-alvo
especfico ou um conjunto de classes predefinidas [HAR98].
O que o Data Mining faz encontrar modelos interessantes nos dados. Mas no s
isso, deve-se poder agir aos modelos, em ltima anlise, transformando os dados em
informaes, as informaes em ao, e a ao em valores.
Reconhecendo o Data Mining como uma forma de incorporar significado aos dados,
prope-se especificar e desenvolver um Sistema de Apoio Decises para previses genricas
utilizando as tcnicas de Data Mining.
A quantidade de informao armazenada em bancos de dados est explodindo, e
ultrapassa a habilidade tcnica e a capacidade humana na sua interpretao. De compras
atravs de cartes de crdito a imagens pixel-a-pixel de galxias, bancos de dados so
medidos hoje em gigabytes e terabytes. A necessidade de transformar estes terabytes de dados
em informaes significativas bvia. Felizmente, tcnicas computacionais foram
3
desenvolvidas para analisar os dados, ou ao menos ajudar o analista a encontrar ordem no
caos, ou seja, conhecimento.
Data Mining uma tecnologia usada para revelar informao estratgica escondida em
grandes massas de dados. usada em diversas reas, como anlise de riscos, marketing
direcionado, controle de qualidade, anlise de dados cientficos, etc. Data Mining define o
processo automatizado de captura e anlise de enormes conjuntos de dados, para ento extrair
um significado. Esta tecnologia est sendo usado para descrever caractersticas do passado,
assim como predizer tendncias para o futuro. Sua utilizao permite avanos tecnolgicos e
descobertas cientficas, alm de garantir uma vantagem competitiva invejvel.
1.2 OBJETIVOS
O objetivo principal deste trabalho auxiliar o processo de tomada de decises de uma
empresa, atravs de um Sistema de Apoio Deciso utilizando tcnicas de Data Mining, mais
especificamente para efetuar previses genricas.
Os objetivos especficos so:
a) estudar as tarefas e tcnicas que o Data Mining incorpora;
b) demonstrar o potencial do Data Mining para previso, analisando as tcnicas mais
adequadas;
c) desenvolver um SAD que seja flexvel para o usurio, de modo que auxilie na
construo de modelos de previso;
d) aplicar o SAD desenvolvido no Jogo de Empresas.
1.3 ORGANIZAO DO TEXTO

O trabalho foi dividido em seis captulos, descritos a seguir.
O primeiro captulo define os objetivos do trabalho, apresentando a justificativa para
seu desenvolvimento.
O segundo captulo apresenta uma viso geral sobre os SI, do qual o trabalho propese a utilizar, mostrando conceitos, tipos, problemas e utilidades dos mesmos. Os SI so a base
para o desenvolvimento de Data Warehouses.
4
O terceiro captulo enfatiza o Data Warehouse, que uma tecnologia que oferece
apoio ao Data Mining para desempenhar suas tarefas. Neste captulo sero apresentados seus
conceitos, componentes e vantagens.
O quarto captulo enfatiza os conceitos, tcnicas e aplicaes do Data Mining.
O quinto captulo enfatiza as Redes Neurais: conceito, rede neural biolgica, modelos,
limitaes, vantagens, desvantagens e aplicaes.
O sexto captulo apresenta a anlise, as caractersticas, o desenvolvimento e a
utilizao do modelo criado.
O stimo captulo completa o trabalho, apresentando as concluses, limitaes e
sugestes para serem implementadas e aprimoradas.
2 SISTEMAS DE INFORMAO
Este captulo apresenta os Sistemas de Informao, que so sistemas que ajudam os
empreendedores a compreender e agir melhor sobre as suas empresas. Nele sero descritos
seu conceito e os tipos de Sistemas de Informao. Os SI so a base para a construo de um
Data Warehouse.
2.1 CONCEITOS
Aumentar o capital intelectual de uma empresa uma necessidade competitiva. As
organizaes que usam com eficcia a tecnologia de informaes adquirem conhecimento e
velocidade para alcanar uma esmagadora superioridade nos mercados em que atuam.
[HAR98].
Atualmente, ainda existem empresas que possuem sistemas informatizados que servem
somente para efetuar as transaes operacionais e armazenar seus dados em uma base de
dados. Este tipo de sistema pode ser caracterizado como um sistema de transaes [OLI98].
Mas isso no o suficiente para essas empresas, onde todos tem que ser rpidos o
suficiente s oscilaes e variveis do mercado. Saem na frente as organizaes cujas pessoas
responsveis pela tomada de decises estratgicas conseguem fazer um trabalho correto e
rpido. Para isso, os dados precisam ser correlacionados de tal forma que os executivos e
analistas possam tomar decises mais facilmente e trabalhar com cenrios futuros. Tem-se
estimado que uma pequena frao das informaes est disponvel na mo dos executivos e o
outro tanto est nos computadores sendo cada vez mais acumulada [OLI98].
Desta forma, os executivos precisam de ferramentas que os auxiliem no gerenciamento
de suas empresas, como na anlise de dados e tomada de decises. Essas ferramentas so
chamadas de Sistemas de Informao, que so formas de se processar os dados de maneira
ordenada para buscar informaes com preciso e detectar tendncias para a vitalidade da
empresa. Os sistemas de informao tem um escopo diferente dos sistemas de transaes;
enquanto os dados operacionais esto focados em uma nica rea, os dados de informao
precisam relacionar um grande nmero de reas e um grande nmero de dados operacionais
[OLI98].
6
Ao mesmo tempo, enquanto a tecnologia para a manipulao e apresentao de dados
se expande, especialistas de tecnologia da informao concluram que de todas as informaes
que so geradas nas empresas, apenas uma parte minscula so dados realmente teis
[OLI98].
Segundo [ALT92], um Sistema de Informao uma combinao das formas de
trabalho, informaes, pessoas, e tecnologias de informao organizadas para alcanar metas
em uma Organizao (figura 1).
Fonte: [ALT92]
Figura 1 - Elementos de um Sistema de Informao

Segundo [INM97], os Sistemas de Informaes tem diversas possibilidades de
utilizao, tais como:
a) anlise e investigao de tendncias;
b) mensurao e rastreamento de indicadores de fatores crticos;
c) anlise prospectiva;
d) monitoramento de problemas;
e) anlise da concorrncia.
Mas para se ter um Sistema de Informaes que realmente d as informaes de forma
prospectiva na hora em que se precisa, necessrio que haja um bom alicerce de dados para
7
os mesmos consultarem. neste ponto da criao do alicerce de dados que fica localizada a
parte mais difcil de se montar um Sistema de Informao que responda rpido aos requisitos
de seu cliente [INM97].
Alguns estudos indicam que para cada U$ 9 gastos na preparao dos dados, gasto
U$ 1 para o Software e Hardware que compem os Sistemas de Informao [INM97].
E esta montagem do alicerce fica mais difcil ainda quando tem-se a conscincia de
que a gerncia a toda hora pode mudar de opinio sobre a informao que ela quer disponvel
[INM97].
2.2 TIPOS DE SISTEMAS DE INFORMAO

Os principais tipos de Sistemas de Informao, segundo [ALT92], so os seguintes:
a) Sistema de Processamento de Transaes (SPT): coletam e armazenam dados sobre
transaes e s vezes controlam decises que so executadas como parte de uma
transao. Uma transao um evento empresarial que pode gerar ou modificar
dados armazenados num Sistema de Informao. Ele foi o primeiro Sistema de
Informao que surgiu e freqentemente encontrado. Por exemplo, quando
pagamos uma conta com o Carto de Crdito o SPT que efetua a transao com a
Central e valida o carto. Enfim, ele grava as informaes e assegura que as
mesmas esto consistentes e disponveis;
b) Sistema de Automao de Escritrio (SAE): ajuda as pessoas a processar
documentos e fornece ferramentas que tornam o trabalho no escritrio mais
eficiente e eficaz. Tambm pode definir a forma e o mtodo para executar as
tarefas dirias e dificilmente afeta as informaes em si. Exemplos deste tipo de
Sistema so editores de texto, planilhas de clculo, softwares para correio
eletrnico e outros. Todas as pessoas que tem em sua funo tarefas como redigir
textos, enviar mensagens, criar apresentaes so usurias de Sistemas de
Automao de Escritrios.
c) Sistema de Informao Gerencial (SIG): converte os dados de uma transao do
SPT em informao para gerenciar a organizao e monitorar o desempenho da
mesma. Ele enfatiza a monitorao do desempenho da empresa para efetuar as
devidas comparaes com as suas metas. As pessoas que o utilizam so os gerentes
8
e as que precisam monitorar seu prprio trabalho. Um exemplo disto so os
relatrios que so tirados diariamente para acompanhar o Faturamento da empresa;
d) Sistemas Especialistas (SE): torna o conhecimento de especialistas disponvel para
outros, e ajuda a resolver problemas de reas onde o conhecimento de especialistas
necessrio. Ele pode guiar o processo de deciso e assegurar que os fatores chave
sero considerados, e tambm pode ajudar uma empresa a tomar decises
consistentes. As pessoas que usam estes sistemas so aquelas que efetuam tarefas
onde deveria existir um especialista. Um sistema especialista pode ser, por
exemplo, um sistema onde mdicos dizem os sintomas e pesquisado em uma base
de conhecimento os possveis diagnsticos;
e) Sistema de Apoio Deciso (SAD): ajuda as pessoas a tomar decises, provendo
informaes, padres, ou ferramentas para anlise de informaes. Ele pode prover
mtodos e formatos para pores de um processo de deciso. Os maiores usurios
so os analistas, gerentes e outros profissionais. Os sistemas que disponibilizam
grficos 3D para comparativos so exemplos;
f) Sistema de Informaes Executivas (SIE): fornece informaes aos executivos de
uma forma rpida e acessvel, sem forar os mesmos a pedir ajuda a especialistas
em Anlises de Informaes. utilizado para estruturar o planejamento da
organizao e o controle de processos, e pode eventualmente tambm ser utilizado
para monitorar o desempenho da empresa. Um exemplo so os sistemas que
fornecem comparativos simples e fceis de Vendas x Estoque x Produo;
Esta forma de Sistemas de Informao que [ALT92] apresenta veio evoluindo e se
transformando muito nos ltimos anos, onde sua forma de apresentao mudou bastante.
Antes existia uma pirmide dividida em seis partes, na primeira camada os SPT, seguido do
SAE, SIG, SE, SAD e por final o SIE.
Atualmente, segundo [MAC96] estas seis partes se transformaram em apenas duas,
onde as linhas que separavam o segundo nvel do sexto nvel no fazem mais sentido. Estas
duas camadas so a OLTP (On Line Transaction Processing) que fica na base da Pirmide e a
OLAP (On Line Analytic Processing) que fica no topo (figura 2).
Fonte: [MAC96]
Figura 2 Evoluo dos Sistemas de Informao

Conforme [MAC96], o motivo pelo qual houve a fuso entre estes grupos de sistemas
reside nas mudanas por que passaram as organizaes nos ltimos anos. O SIE, por exemplo,
voltava-se para a alta direo e tinha um aspecto mais informativo ao mesmo tempo que o
SAD voltava-se para a gerncia que tomava as decises.
Da maneira como est hoje, as modificaes na forma de gesto das empresas levaram
as pessoas do topo a tomar mais decises. Do mesmo modo, os gerentes que antes tomavam a
maior parte das decises tiveram seu nmero reduzido, consequentemente reduzindo a
hierarquia e os funcionrios que antes s obedeciam ordens agora podem dar sugestes para a
mudana de processos.
Outro aspecto que ajudou na mudana dos Sistemas de Informao diz respeito a
prpria evoluo tecnolgica da informtica. Muitas das tarefas que antes eram executadas em
mainframes agora so executadas atravs de redes de micros, operando de forma
Cliente/Servidor. Esta estrutura facilitou a montagem de Sistemas compartilhados voltados
para um maior nmero de gerentes [MAC96].
Os sistemas baseados em OLTP so configurados e otimizados para prover respostas
rpidas transaes individuais. Nestes sistemas, as transaes devem ser realizadas
rapidamente, e com grande confiana. Os dados so dinmicos, mudando com grande
freqncia. J nos sistemas baseados em OLAP a velocidade das transaes no relevante,
10
pois os Data Warehouses podem armazenar os dados em forma esttica, e so configurados e
otimizados para suportar complexas decises baseadas em dados histricos [OLI98].
O Data Warehouse um banco de dados contendo dados extrados do ambiente de
produo da empresa, que foram selecionados e depurados, alm de otimizados para
processamento de consulta, e no para processamento de transaes. Em geral, um Data
Warehouse requer a consolidao de outros recursos de dados que no os armazenados em
bancos de dados relacionais, incluindo informaes provenientes de planilhas eletrnicas, etc.
[DAL99].
A ferramenta OLAP constituda de um conjunto de tecnologias especialmente
projetadas para dar suporte ao processo decisrio atravs de consultas, anlises e clculos
mais sofisticados nos dados corporativos, estejam armazenados em um Data Warehouse ou
no, realizados pelos seus usurios. Esta ferramenta est se tornando, cada vez mais a
sucessora dos SIE e outros Sistemas do gnero com certas vantagens: ela no somente d
suporte ao processo decisrio, como tambm s estratgias dos negcios [BIS99].
Segundo [HAR98], OLAP essencial para a transformao do contedo do Data
Warehouse em uma forma til de informaes que possam ser entregues a um grande nmero
de usurios. J [BIS99] afirma que o OLAP permite aos seus usurios ganharem perspiccia
nas consultas e anlises dos dados, atravs de um acesso consistente, interativo e rpido em
uma grande variedade de possveis vises dos dados.
No OLAP, as respostas no so automticas. O processo interativo, onde o usurio
formula hipteses, faz consultas, recebe informaes, verifica um dado especfico em
profundidade e faz comparaes. Este processo ajuda a sintetizar as informaes sobre a
empresa, atravs de comparaes, vises personalizadas, anlises estatsticas, previses e
simulaes. Permite que os usurios se tornem exploradores de informaes [BIS99].
A maioria das ferramentas OLAP so implementadas para ambientes multiusurio e
arquitetura cliente/servidor, o que proporciona respostas rpidas e consistentes s consultas
iterativas executadas pelos usurios, independentemente da complexidade da consulta.
11
Essa ferramenta pode ser utilizada em diversas situaes, como no planejamento de
oramentos financeiros, anlise e estimativa de vendas, pesquisa de mercado, anlise de
clientes, planejamento de produo, etc.
Segundo comenta [HAR98], o mercado de OLAP gira em torno de quatro habilidades
diferentes, embora muitos combinem freqentemente estas funes de anlise:
a) consulta e relatrios: so aplicativos que proporcionam o tipo mais bsico de
anlise de dados e so teis para atender as solicitaes dos usurios relativas a
listas, contagens ou atualizaes de status onde as exigncias computacionais so
relativamente simples;
b) anlise multidimensional: so funes mais complexas que surgem da rpida
seqncia de questionamentos do usurio. Permite uma viso conceitual
multidimensional dos dados de uma empresa. A viso multidimensional dos dados
um conceito que pode parecer algo completamente abstrato e irreal; porm,
mais natural, mais fcil e intuitiva, permitindo a viso dos negcios da empresa em
diferentes perspectivas. Os dados ento podem ser analisados em vrias dimenses,
como regio, produto, tempo e vendedor. Cada uma destas dimenses podem
conter hierarquias, como por exemplo a dimenso tempo pode conter as hierarquias
de ano, semestre, ms. [BIS99]. Os aplicativos de anlise multidimensional
permitem que os usurios entrem em qualquer dimenso de um Data Warehouse e
naveguem para outras dimenses livremente;
c) anlise estatstica: projetada para reduzir uma grande quantidade de dados a uma
simples relao ou frmula, como clculos de mdia. Anlises estatsticas mais
sofisticadas incluem regresso, correlao, fatorao e agrupamentos. So
geralmente utilizadas para gerar os tipos de modelos usados em aplicativos de
previses de vendas e segmentao de mercado;
d) Data Mining: usa muitas tcnicas da anlise estatstica, mas ele acrescenta funes
mais complexas como redes neurais para identificar modelos e relaes em um
conjunto de dados analisados. particularmente til para problemas de modelagem
no-lineares com grandes nmeros de variveis.
12
3 DATA WAREHOUSE
Este captulo apresenta o Data Warehouse, que uma tecnologia que serve para o
armazenamento e tratamento das informaes das empresas de uma forma mais ordenada.
Nele sero descritos os seus conceitos, componentes e vantagens. O Data Warehouse a base
para a construo de um Data Mining.
3.1 CONCEITOS
Em pouco tempo, novas tecnologias e conceitos para tratamento de informaes esto
surgindo e evoluindo para ajudar a resolver os problemas das empresas, onde atravs dessas
tecnologias, pessoas tero um acesso mais rpido e global s informaes j lapidadas. Uma
destas ferramentas o Data Warehouse [OLI98].
Segundo [OLI98], "O Data Warehouse um banco de dados que armazena dados
sobre as operaes da empresa (vendas, compras, finanas, etc.) extrados de uma fonte nica
ou mltipla, e transforma-os em informaes teis, oferecendo um enfoque histrico, para
permitir um suporte efetivo deciso".
Palma [PAL98] salienta que Um armazm de dados se prope a compatibilizar um
nmero grande de sistemas desintegrados oriundos do legado a uma coleo igualmente
diversa de tipos de estaes de trabalho de usurio final. Este acervo de dados, se explorado
de forma inteligente, alm de favorecer a tomada de decises, propicia maior lucratividade
nos negcios [INM97].
Um Data Warehouse capaz de prover vrias vises das informaes para um grupo
de usurios. Ele capaz de derivar informaes de dados que antes eram totalmente
independentes um do outro [OLI98].
O Data Warehouse um depsito de dados orientado a assunto, alimentado pelos
vrios sistemas transacionais da empresa, no qual se podem buscar informaes para o
conhecimento do negcio. Nele os dados esto agrupados e, dessa forma, fcil a
visualizao dos mesmos. O Data Warehouse orientado a temas faz referncia ao
armazenamento de informaes sobre temas especficos e importantes para o negcio da
empresa. E tambm deve ser consistente, de forma a possuir uma uniformidade para viabilizar
13
uma melhor anlise das informaes. A implementao de um tema pode corresponder a um
conjunto de tabelas relacionadas. Elas devem ter um elemento temporal e um identificador em
comum, mas seus nveis de detalhe e sumarizao so diferentes [DAL99].
Uma grande vantagem de um Data Warehouse a de permitir a tomada de decises
baseadas em fatos. Na verdade, ele busca disponibilizar organizao o grande volume de
dados que foram e esto sendo armazenados em bases de dados operacionais, espalhadas por
toda a empresa [TAU98].
Os dados em um Data Warehouse no so atualizados de forma on-line, eles so
gerados em blocos e gravados aps a integrao. Aps este processo que os dados ficaro
disponveis para os usurios.
O Data Warehouse no um produto ou mesmo um conjunto de produtos, mas
processos suportados por diversas tecnologias: ele coleta dados das vrias aplicaes
operacionais; integra-os em um modelo lgico, por reas de negcio; armazena as
informaes de tal maneira que possam ser recuperadas por usurios pouco tcnicos; e entrega
essas informaes aos tomadores de deciso atravs de ferramentas de fcil uso, como
geradores de relatrios e de consulta [TAU98].
O tamanho do Data Warehouse por si no o fator determinante de seu sucesso. O seu
uso como ferramenta de suporte a decises que o principal fator. absolutamente
necessrio que ele seja desenhado para acomodar as mudanas da viso de negcio,
principalmente quando essas mudanas so cada vez mais rpidas [TAU98a].
Sua implementao permite anlises de tendncias e pode identificar relacionamentos
muitas vezes desconhecidos ou simplesmente intuitivos. Nesses tempos de intensa e cruel
competio, uma ferramenta que permita anlises mais precisas e respostas mais rpidas da
organizao deve ser encarada como estratgica [TAU98].
3.2 COMPONENTES
WAREHOUSE
FUNCIONAIS
DE
UM
DATA
Conforme Palma [PAL98], um armazm de dados composto de trs reas funcionais

distintas, cada uma das quais deve ser customizada para satisfazer as necessidades do negcio.
14
3.2.1 AQUISIO DE DADOS

O processo de aquisio de dados pode ser de sistemas legados ou de outras fontes
quaisquer. Neste processo o dado identificado, copiado, formatado e preparado para ser
carregado no armazm.
Este processo geralmente complexo, tedioso e caro; e gasta muito tempo efetuando
basicamente trs atividades [PAL98]:
a) catalogar os dados;
b) limpar e preparar os dados;
c) transportar os dados (de sua origem para o seu destino).
3.2.2 ARMAZENAMENTO DOS DADOS

Este processo pode ser administrado atravs de banco de dados relacionais ou
orientados a objetos como o Unidata, Oracle, O2 e Jasmine. Neste contexto, deve-se utilizar
um hardware ou software especializado, incluindo multiprocessador simtrico (SMP) ou
processador maciamente paralelo (MPP) [PAL98].
O SMP permite que os gerentes de armazns de dados aumentem a capacidade dos
seus sistemas sem sacrificar o ambiente existente. Mquinas com o SMP tem o seu sistema
operacional UNIX ligeiramente modificado para trabalhar at com 16 processadores.
J as mquinas com o MPP podem incorporar o uso de dzias ou centenas de
processadores.
3.2.3 ACESSO AOS DADOS

No processo de Acesso aos Dados, usurios de diferentes estaes de trabalho tiram os
dados do armazm com a ajuda de produtos de anlise multidimensional, sistemas de redes
neurais, ferramentas de minerao de dados ou outras ferramentas de anlise.
Estes produtos podem ser divididos em seis categorias [PAL98]:
a) agentes inteligentes e agncias: estes produtos se caracterizam por trabalhar e
pensar pelo usurio. Eles permitem ao usurio pedir que o sistema inspecione
15
coisas, envie automaticamente relatrios e monitore o estado de vrias funes do
negcio empresarial;
b) facilidades de consulta e ambientes de gerenciamento de consultas: transformam
um grande e complexo ambiente de armazm de dados, em uma amigvel e bemadministrada estao de trabalho;
c) anlise estatstica: o interesse na anlise estatstica tradicional com uma volta da
popularidade dos pacotes estatsticos, como o SAS e o SPSS;
d) descoberta de dados: utilizando redes neurais, lgica nebulosa, rvores de deciso e
outras ferramentas de matemtica e estatstica avanada, esses produtos permitem
que os usurios peneirem quantidades volumosas de dados crus para descobrir
aspectos novos, teis sobre a companhia, suas operaes e seus mercados;
e) OLAP: O processo on-line analtico ou ferramentas de planilha eletrnica
multidimensionais representam uma nova gerao de sistemas amigveis de alto
poder de soluo. Esses sistemas permitem que as pessoas analisem a mesma
informao de diversas perspectivas;
f) visualizao de dados: essas ferramentas transformam simples nmeros em
excitantes apresentaes visuais. Provavelmente, as ferramentas de visualizao
mais populares caem sob o ttulo de sistemas de informao geogrficos. Estes
transformam dados sobre lojas, indivduos ou qualquer outra coisa em mapas
dinmicos e de fcil compreenso.
3.3 DATA MARTS

Um Data Mart no uma evoluo de um Data Warehouse, mas sim parte da
estratgia deste. Um Data Mart um subconjunto de dados de um Data Warehouse,
desenhado para suportar uma necessidade de negcio ou uma unidade organizacional
especfica [NIM98].
A idia correta de um Data Mart ele fazer parte da arquitetura Data Warehouse, sem
perder a viso de conjunto. Essa viso de conjunto decorrncia de um bom projeto de Data
Warehouse.
16
3.4 VANTAGENS
O Data Warehouse feito sob medida para as necessidades do Analista de Sistemas de
Informao, e por este motivo sua construo e definio so extremamente complicadas.
Uma vez que ele est construdo, a tarefa do Analista fica mais fcil do que quando ele no
tinha este alicerce [INM97].
Conforme [INM97] relata, as vantagens para o Analista de Sistemas de Informao
com o uso do Data Warehouse so:
a) no precisa procurar pela fonte definitiva de dados;
b) no precisa criar programas de extrao especiais a partir dos sistemas existentes;
c) no precisa se preocupar com dados no integrados;
d) no precisa se preocupar com dados detalhados ou resumidos e a conexo entre os
dois tipos;
e) no precisa se preocupar em encontrar um horizonte de tempo adequado;
f) no precisa se preocupar com a constante mudana de opinio por parte da
gerncia sobre o que precisa ser examinado a seguir;
g) dispe de um rico suprimento de dados resumidos.
Para obter os dados necessrios, o Analisa de SI pode obt-las a partir do nvel
individual de processamento, do nvel de processamento departamental (data marts), do nvel
resumido ou at mesmo do histrico de operaes. Se o Analista partir da anlise dos dados
do nvel individual para o nvel de histrico ele ter uma viso prospectiva do processo, quer
dizer, cada vez mais ele ir se aprofundando nas informaes para a soluo de problemas
[INM97].
Os Sistemas de Informao tem as seguintes funes:
a) usar o Data Warehouse como o local onde os dados esto disponveis de forma
resumida;
b) usar a Construo do Data Warehouse para dispor de uma viso prospectiva;
c) usar os metadados do Data Warehouse para que o analista de SI possa planejar o
modo como o Sistema de Informao ser construdo;
d) usar o contedo histrico do Data Warehouse para oferecer suporte a anlise de
tendncias que a gerncia deseja;
17
e) usar a integrao dos dados que o Data Warehouse proporciona para se ter uma
viso geral da corporao.
Resumindo, h uma afinidade muito forte entre o Analista de Sistema de Informaes
e o Data Warehouse, onde o Data Warehouse o fundamento que o Analista necessita para
um eficiente Sistema de Informao. Com um Data Warehouse bem projetado e com
informaes, o Analista pode tomar uma postura pr-ativa diante das necessidades da
gerncia fazendo anlises em cima das informaes, em vez de ter sempre uma postura reativa
s mesmas necessidades.
O Data Warehouse , sem dvida, um conjunto de tecnologias com altssimo potencial
para as organizaes. Entretanto, exige cuidados especiais para sua implementao. Alm das
disciplinas tradicionais de gerenciamento de projetos, o Data Warehouse deve ser desenhado
com todos os objetivos do negcio em mente. Se os executivos no o usarem, certamente no
ter tido sucesso. Por outro lado, seu uso poder transformar radicalmente o prprio processo
decisrio da organizao e possibilitar melhores e maiores condies de sobrevivncia e
crescimento nesse novo e cruel ambiente de negcios.
18
4 DATA MINING
A tecnologia tornou relativamente fcil o acmulo de dados. A conseqncia a
ampliao do uso dos Data Warehouses, grandes repositrios de dados, agregados de forma
organizada e eficiente, e em geral, de natureza histrica. Ao mesmo tempo, informao
valorizada como nunca antes na histria, e os dados armazenados nos Data Warehouses so
vasculhados por profissionais especializados, a procura de tendncias e padres.
Entretanto, a anlise desses dados ainda demorada, dispendiosa, pouco automatizada,
e sujeita a erros, mal-entendidos e falta de acurcia. A automatizao dos processos de anlise
de dados, com a utilizao de softwares ligados diretamente massa de informaes, se
tornou uma necessidade, j que o aproveitamento das informaes j existentes,
transformando-as em conhecimento, permite avanos sem paralelo na histria do
desenvolvimento dos bancos de dados [FIG98].
Este captulo apresenta o Data Mining, que a explorao e anlise, por meios
automticos ou semi-automticos, de uma grande quantidade de dados para descobrir padres
e regras significativos [BER97]. Nele sero descritas as etapas do Processo de
KDD
(Knowledge Discovery in Databases - KDD) e as tarefas que o Data Mining pode

desempenhar.
4.1 PROSPECO DE CONHECIMENTO E DATA MINING

Considera-se uma hierarquia de complexidade: basicamente, se atribudo algum
significado especial a um dado, este se transforma em uma informao (ou fato). Se os
especialistas elaboram uma norma (ou regra), a interpretao do confronto entre o fato e a
regra constitui um conhecimento [FIG98].
Prospeco de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) um processo que envolve a automao da identificao e do reconhecimento de
padres em um banco de dados. Trata-se de uma pesquisa de fronteira, que comeou a se
expandir mais rapidamente nos ltimos cinco anos. Sua principal caracterstica a extrao
no-trivial de informaes a partir de uma base de dados de grande porte. Essas informaes
so necessariamente implcitas, previamente desconhecidas, e potencialmente teis [FIG98].
19
Devido a essas caractersticas incomuns, todo o processo de KDD depende de uma
nova gerao de ferramentas e tcnicas de anlise de dados, e envolve diversas etapas. A
principal, que forma o ncleo do processo, e que muitas vezes se confunde com ele, chama-se
Data Mining, ou Minerao de Dados, tambm conhecido como processamento de padres de
dados, arqueologia de dados, ou colheita de informao (information harvesting).
O KDD compreende todo o processo de descoberta de dados, enquanto o Data Mining
refere-se a aplicao de algoritmos para extrao de padres de dados, sem os passos
adicionais do KDD e da anlise dos resultados [AVI98].
4.2 AS ETAPAS DO PROCESSO DE KDD

O processo de KDD (figura 3) comea com o entendimento do domnio da aplicao e
dos objetivos finais a serem atingidos. Em seguida, feito um agrupamento organizado de
uma massa de dados, alvo da prospeco. A etapa da limpeza dos dados (data cleaning) vem
a seguir, atravs de um pr-processamento dos dados, visando adequ-los aos algoritmos. Isso
se faz atravs da integrao de dados heterogneos, eliminao de incompletude dos dados,
repetio de tuplas, problemas de tipagem, etc. Essa etapa pode tomar at 80% do tempo
necessrio para todo o processo, devido s bem conhecidas dificuldades de integrao de
bases de dados heterogneas [FAY96].
Fonte: [FIG98]
Figura 3 - Os passos do processo de KDD

Os dados pr-processados devem ainda passar por uma transformao que os armazena
adequadamente, visando facilitar o uso das tcnicas de Data Mining. Nessa fase, o uso de
Data Warehouses se expande consideravelmente, j que nessas estruturas as informaes
esto alocadas da maneira mais eficiente. Em Data Warehouses, os dados so no-volteis,
classificados por assunto, e de natureza histrica, tendendo portanto a se tornarem grandes
20
repositrios de dados extremamente organizados. Entretanto, em algumas aplicaes de Data
Mining mais especficas, ferramentas avanadas de representao de conhecimento podem
descrever o contedo de um banco de dados por si s, usando esse mapeamento como uma
meta-camada para os dados.
Prosseguindo no processo, chega-se fase de Data Mining especificamente, que
comea com a escolha dos algoritmos a serem aplicados. Essa escolha depende
fundamentalmente do objetivo do processo de KDD: classificao, segmentao,
agrupamento por afinidades, estimativas, etc. De modo geral, na fase de Data Mining,
ferramentas especializadas procuram padres nos dados. Essa busca pode ser efetuada
automaticamente pelo sistema ou interativamente com um analista, responsvel pela gerao
de hipteses. Diversas ferramentas distintas, como redes neurais, induo de rvores de
deciso, sistemas baseados em regras e programas estatsticos, tanto isoladamente quanto em
combinao, podem ser ento aplicadas ao problema. Em geral, o processo de busca
iterativo, de forma que os analistas revem o resultado, formam um novo conjunto de
questes para refinar a busca em um dado aspecto das descobertas, e realimentam o sistema
com novos parmetros. Ao final do processo, o sistema de Data Mining gera um relatrio das
descobertas, que passa ento a ser interpretado pelos analistas de minerao. Somente aps a
interpretao das informaes obtidas encontra-se o conhecimento.
Uma diferena significante entre Data Mining e outras ferramentas de anlise est na
maneira como exploram as interrelaes entre os dados. As diversas ferramentas de anlise
disponveis dispem de um mtodo baseado na verificao, isto , o usurio constri hipteses
sobre interrelaes especficas e ento verifica ou refuta, atravs do sistema. Esse modelo
torna-se dependente da intuio e habilidade do analista em propor hipteses interessantes, em
manipular a complexidade do espao de atributos, e em refinar a anlise baseado nos
resultados de consultas ao banco de dados potencialmente complexas. J o processo de Data
Mining fica responsvel pela gerao de hipteses, garantindo mais rapidez, acurcia e
completude aos resultados.
Estas etapas so interdependentes, pois os resultados de cada uma so a entrada da
prxima etapa. Toda a abordagem dirigida por resultados e cada estgio depende dos
resultados do estgio anterior [HAR98]. Mas no existe uma ordem ou seqncia totalmente
nica para o andamento deste processo, porque isso depende das tcnicas empregadas e dos
21
dados sobre os quais o KDD est sendo aplicado [AVI98]. A qualquer momento, por
exemplo, pode-se voltar o processo de KDD para uma etapa anterior, desde que a tcnica e os
dados empregados permitam.
4.3 UTILIDADES DO DATA MINING.

O Data Mining pode desempenhar uma srie limitada de tarefas dependendo das
circunstncias. Cada classe de aplicao em Data Mining tem como base um conjunto de
algoritmos que sero usados na extrao de relaes relevantes dentro de uma massa de dados
[HAR98]:
a) classificao;
b) estimativa;
c) agrupamento por afinidade;
d) previso;
e) segmentao.
Cada uma destas propostas difere quanto classe de problemas que o algoritmo ser
capaz de resolver.
4.3.1 CLASSIFICAO
Classificao uma tcnica que consiste na aplicao de um conjunto de exemplos
pr-classificados para desenvolver um modelo capaz de classificar uma populao maior de
registros. Deteco de fraudes e aplicaes de risco so exemplos de casos em que este tipo de
anlise bastante apropriada. Em geral, algoritmos de classificao incluem rvores de
deciso ou redes neurais, e comeam com um treinamento a partir de transaes-exemplo. O
algoritmo classificador usa estes exemplos para determinar um conjunto de parmetros,
codificados em um modelo, que ser mais tarde utilizado para a discriminao do restante dos
dados.
Uma vez que o algoritmo classificador foi desenvolvido de forma eficiente, ele ser
usado de forma preditiva para classificar novos registros naquelas mesmas classes prdefinidas.
Alguns exemplos de Classificao so:
22
a) classificar pedidos de crditos como de baixo, mdio e alto risco;
b) esclarecer pedidos de seguro fraudulentos;
c) atribuir palavras-chave a artigos jornalsticos.
4.3.2 ESTIMATIVA
Uma variao do problema de classificao envolve a gerao de valores ao longo das
dimenses dos dados: so os chamados algoritmos de estimativa. A estimativa lida com
resultados contnuos, ao contrrio da classificao que lida com resultados discretos.
Fornecidos alguns dados, usa-se a estimativa para estipular um valor para alguma varivel
contnua desconhecida como receita, altura ou saldo de carto de crdito.
Ao invs de um classificador binrio determinar um risco positivo ou negativo, a
tcnica gera valores de escore, dentro de uma determinada margem. A abordagem de
estimativa tem a grande vantagem de que os registros individuais podem ser agora ordenados
por classificao, e as redes neurais so adequadas a esta tarefa.
Exemplos de Estimativa incluem:
a) estimar o nmero de filhos numa famlia;
b) estimar a renda total de uma famlia;
c) estimar o valor em tempo de vida de um cliente.
4.3.3 AGRUPAMENTO POR AFINIDADE

Este algoritmo identifica afinidades entre itens de um subconjunto de dados. Essas
afinidades so expressas na forma de regras: 72% de todos os registros que contm os itens
A, B, e C tambm contm D e E. A porcentagem de ocorrncia (72 no caso) representa o
fator de confiana da regra, e costuma ser usado para eliminar tendncias fracas, mantendo
apenas as regras mais fortes. Dependncias funcionais podem ser vistas como regras de
associao com fator de confiana igual a 100%.
Trata-se de um algoritmo tipicamente endereado anlise de mercado, onde o
objetivo encontrar tendncias dentro de um grande nmero de registros de compras, por
exemplo, expressas como transaes. Essas tendncias podem ajudar a entender e explorar
padres de compra naturais, e pode ser usada para ajustar mostrurios, modificar prateleiras
23
ou propagandas, e introduzir atividades promocionais especficas. Um exemplo mais distinto,
onde essa mesma tcnica pode ser utilizada, o caso de um banco de dados escolar,
relacionando alunos e disciplinas. Uma regra do tipo 84% dos alunos inscritos em
Introduo ao Unix tambm esto inscritos em Programao em C pode ser usada pela
direo ou secretaria para planejar o currculo anual, ou alocar recursos como salas de aula e
professores [FIG98].
4.3.4 PREVISO
A previso o mesmo que classificao ou estimativa, exceto pelo fato de que os
registros so classificados de acordo com alguma atitude futura prevista. Em um trabalho de
previso, o nico modo de confirmar a preciso da classificao esperar para ver.
Essa tarefa uma variante do problema de agrupamento por afinidades, onde as regras
encontradas entre as relaes podem ser usadas para identificar seqncias interessantes, que
sero utilizadas para predizer acontecimentos subsequentes. Nesse caso, no apenas a
coexistncia de itens dentro de cada transao importante, mas tambm a ordem em que
aparecem, e o intervalo entre elas. Seqncias podem ser teis para identificar padres
temporais, por exemplo entre compras em uma loja, ou utilizao de cartes de crdito, ou
ainda tratamentos mdicos.
Exemplos de tarefas de previso:
a) previso de quais clientes sairo nos prximos seis meses;
b) previso da quantia de dinheiro que um cliente utilizar caso seja oferecido a ele
um certo limite de carto de crdito.
4.3.5 SEGMENTAO
A segmentao um processo de agrupamento de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos. O que a distingue da classificao que
segmentao no depende de classes pr-determinadas.
Essa segmentao realizada automaticamente por algoritmos que identificam
caractersticas em comum e particionam o espao n-dimensional definido pelos atributos.
24
Os registros so agrupados de acordo com a semelhana e depende do usurio
determinar qual o significado de cada segmento, caso exista algum. Muitas vezes a
segmentao uma das primeiras etapas dentro de um processo de Data Mining, j que
identifica grupos de registros correlatos, que sero usados como ponto de partida para futuras
exploraes. O exemplo clssico o de segmentao demogrfica, que serve de incio para
uma determinao das caractersticas de um grupo social, visando desde hbitos de compras
at utilizao de meios de transporte.
4.4 TCNICAS DE DATA MINING

Muitas das tcnicas usadas em ferramentas atuais de Data Mining se originaram na
pesquisa em inteligncia artificial da dcada de 80 e princpio da dcada de 90. Entretanto,
somente agora essas tcnicas passaram a ser utilizadas em sistemas de banco de dados de
grande escala, devido a confluncia de diversos fatores que aumentaram o valor lquido da
informao, dentre os quais se destacam [FIG98]:
a) a expanso e difuso de sistemas transacionais volumosos: nos ltimos 15 ou 20
anos, computadores esto sendo usados para capturar e armazenar informaes
detalhadas de processos transacionais intensivos, como vendas, telecomunicaes,
bancos e operaes com cartes de crdito. Os SGBDs saltaram de algumas
centenas de transaes por minuto para mais de 10.000/min, com excees que
chegam a 30.000. Esse crescimento da capacidade de processamento
acompanhado de uma reduo equivalente do custo por processamento, que ajuda a
disseminar a tecnologia e integr-la ao mercado, gerando uma proliferao ainda
maior de sistemas de transaes geradores de informao.
b) informao como vantagem competitiva: a necessidade da informao resulta na
proliferao de Data Warehouses que integram mltiplos sistemas operacionais
para suporte a deciso, muitas vezes incluindo dados de fontes externas, como
registros demogrficos.
c) a difuso de tecnologia de informao escalvel: a busca da interoperabilidade
levou recente adoo da sistemas de informao escalveis, incluindo SGBDs,
ferramentas analticas e troca de informaes via servios de Internet/Intranet.
25
Por outro lado, a quantidade de dados brutos armazenados em Data Warehouses
corporativos est crescendo rapidamente, tornando o espao de deciso muito extenso e
complexo para os atuais sistemas de suporte a deciso.
[FIG98] explica que por causa desta grande quantidade de dados brutos, todo o
processo de KDD atual ainda requer pr/ps-processamentos dos dados, necessrios para
assegurar o melhor aproveitamento da aplicao e a consistncia dos resultados. Atividades de
pr-processamento incluem a seleo apropriada de subconjuntos de dados, por razes de
desempenho, assim como complexas transformaes de dados que servem de ponte para o
chamado gap representacional, separao entre os dados e seu significado real. Psprocessamento envolve a subseleo de resultados volumosos e a aplicao de tcnicas de
visualizao para auxiliar o entendimento. Essas atividades so crticas para contornar alguns
problemas de implementao, tais como:
a) alta suscetibilidade a dados sujos: as ferramentas de Data Mining via de regra
no possuem uma estrutura dotada de semntica, orientada a aplicao, e como tal,
tomam todos os dados factualmente. Torna-se necessrio tomar precaues para
assegurar que os dados analisados so limpos, o que pode significar uma
exaustiva anlise dos atributos que alimentam os algoritmos. Entretanto, um bom
processo de limpeza de dados (data cleaning), utilizado na passagem dos dados
para um Data Warehouse certamente beneficia o processo de Data Mining.
b) inabilidade para explicar resultados em termos humanos: mesmo em aplicaes
utilizando rvores de deciso e regras de induo, que so capazes de gerar
informao sobre os atributos utilizados, o volume e formato da informao
encontrada pode ser intil sem um processamento adicional.
c) gap representacional: a maior parte das fontes de dados das aplicaes de Data
Mining atuais est armazenada em grandes sistemas relacionais, e seus dados esto
em geral normalizados, com os atributos espalhados em mltiplas tabelas. Alm
disso, a maioria das ferramentas restrita em termos dos tipos de dados com as
quais podem operar, tornando-se necessrio categorizar variveis ou remape-las.
26
4.4.1 MODELOS
Conforme salienta [HAR98], um modelo produz um ou mais valores a partir de um
dado conjunto de entradas. A anlise dos dados , com freqncia, o processo de construo
de um modelo apropriado para os dados (figura 4). Um exemplo disso uma regresso linear,
onde construda sobre um modelo em linha com a seguinte forma:
aX + bY + c = 0
Onde a, b, c so os parmetros e X e Y so as variveis. Para um dado valor de X,
estima-se o valor de Y. Este tipo de modelo um dos mais simples existentes.
O fato de um modelo existir no significa que proporcionar resultados precisos.
Existem bons e maus modelos e, medir seus resultados um passo crtico em seu uso e
desenvolvimento [HAR98].
Fonte: [BER97]
Figura 4 - Modelo recebe entradas e produz informaes.

Um modelo de classificao apanha um novo registro e atribui ao mesmo uma
classificao existente. Um modelo de previso semelhante a um modelo de classificao,
exceto por no ser limitado a um conjunto de nmero de classes. Um modelo de agrupamento
toma vrios registros e retorna um nmero menor de grupos. Esses grupos podem ento ser
aplicados a novos registros, criando um modelo de classificao. Um modelo de sries
temporais como um modelo de classificao ou de previso, exceto por incluir dados
tomados com o decorrer do tempo [BER97].
27
Na criao dos modelos, a entrada geralmente especificada claramente. Geralmente,
preparar os dados de sistemas para preencher o domnio de um modelo chamado de
depurao de dados ou data scrubbing mais desafiador do que a prpria criao do
modelo. Os dados que alimentaro o modelo podem afetar a escolha da tcnica. Para
problemas fsicos, com muitas variveis contnuas de entrada, as tcnicas de regresso
estatsticas normalmente funcionam muito bem. Quando as entradas tem muitas variveis de
categorias, as rvores de deciso funcionam melhor. Quando a relao entre as entradas e a
sada de dados difcil de ser estabelecida, as redes neurais so as melhores opes.
Freqentemente a sada de dados de um modelo especificada em primeiro lugar e
geralmente uma categoria ou uma varivel contnua.
Segundo [BER97], para criar um modelo para Data Mining, deve-se ter em mente o
seguinte:
a) um dos perigos no uso de modelos o excesso ou a carncia de dados;
b) tanto o Data Mining direto quanto o indireto usam modelos, mas de maneira
diversa;
c) alguns modelos expem sua finalidade melhor que outros;
d) alguns modelos so mais fceis de aplicar que outros.
4.4.2 TCNICAS E TAREFAS

Cada tcnica de Data Mining possui tarefas onde elas so melhores aplicveis.
4.4.2.1 ANLISE DE SELEO ESTATSTICA

A anlise de seleo estatstica uma forma de agrupamento usada para encontrar
grupos de itens que tendem a ocorrer em conjunto em uma seleo estatstica. Como tcnica
de agrupamento, ela til quando se deseja saber quais itens ocorrem ao mesmo tempo ou em
uma seqncia particular [HAR98].
4.4.2.2 MBR
O MBR (Memory-Based Reasoning raciocnio baseado em memria) uma tcnica
de Data Mining dirigida que usa exemplos conhecidos como modelo para fazer previses
28
sobre exemplos desconhecidos. O MBR procura os vizinhos mais prximos nos exemplos
conhecidos e combina seus valores para atribuir valores de classificao ou de previso
[BER97].
Os elementos-chave no MBR so a funo de distncia usada para encontrar os
vizinhos mais prximos e a funo de combinao, que combina valores dos vizinhos mais
prximos para fazer uma previso. Uma vantagem do MBR sua habilidade de aprender
sobre novas classificaes simplesmente introduzindo novos exemplos no banco de dados.
Uma vez encontrada a funo de distncia e a funo de combinao corretas tendem a
permanecer muito estveis, mesmo com a incorporao de novos exemplos para novas
categorias nos dados conhecidos. Alis, esta uma caracterstica que diferencia o MBR da
maior parte das outras tcnicas de Data Mining.
4.4.2.3 ALGORITMOS GENTICOS

Os algoritmos genticos aplicam a mecnica da gentica e seleo natural pesquisa
usada para encontrar os melhores conjuntos de parmetros que descrevem uma funo de
previso. Eles so utilizados no Data Mining dirigido e so semelhantes estatstica, em que a
forma do modelo precisa ser conhecida em profundidade. Os algoritmos genticos usam os
operadores seleo, cruzamento e mutao para desenvolver sucessivas geraes de solues.
Com a evoluo do algoritmo, somente os mais previsveis sobrevivem, at as funes
convergirem em uma soluo ideal [BER97].
Esta tcnica apropriada para resolver os mesmos tipos de problemas que as outras
tcnicas de Data Mining, mas ela tambm pode ser usada para aprimorar MBRs e redes
neurais.
4.4.2.4 DETECO DE AGRUPAMENTOS

Esta tcnica constitui-se na construo de modelos para encontrar dados semelhantes, e
estas reunies por semelhana so chamadas de grupos (clusters). uma forma de Data
Mining no-direcionado, onde a meta encontrar similaridades no conhecidas anteriormente.
Existem muitas tcnicas para encontrar grupos, incluindo mtodos geomtricos, estatsticos e
redes neurais [HAR98].
29
4.4.2.5 ANLISE DE VNCULOS

A anlise de vnculos segue as relaes entre registros para desenvolver modelos
baseados em padres nas relaes. Esse um aplicativo de construo de teoria grfica de
Data Mining. Esta tcnica no muito compatvel com a tecnologia de banco de dados
relacionais e sua maior rea de aplicao a rea policial, onde pistas so ligadas entre si para
solucionar os crimes. As poucas ferramentas que existem, enfocam mais a visualizao de
vnculos que a anlise de padres [HAR98].
4.4.2.6 RVORES DE DECISO E INDUO DE REGRAS

As rvores de deciso so usadas para o Data Mining dirigido, mais especificamente a
classificao. Esta tcnica divide os registros do conjunto de dados de treinamento em
subconjuntos separados, cada um descrito por uma regra simples em um ou mais campos
[HAR98].
Uma grande vantagem nesta tcnica que o modelo bem explicvel, j que tem a
forma de regras explcitas. Isto permite s pessoas avaliarem os resultados, identificando os
atributos-chave do processo.
4.4.2.7 REDES NEURAIS ARTIFICIAIS

As redes neurais so modelos simples de interconexes neurais no crebro, adaptados
para o uso em computadores e so, provavelmente, a tcnica de Data Mining mais utilizada.
Elas aprendem com um conjunto de dados de treinamento, generalizando modelos para
classificao e previso. Esta tcnica pode tambm ser aplicada ao Data Mining no-dirigido
(na forma de redes Kohonen e estruturas relacionadas) e s previses em sries temporais
[HAR98].
Uma das principais vantagens na utilizao desta tcnica a sua variedade de
aplicao. Elas so interessantes porque detectam padres nos dados de forma anloga ao
pensamento humano. Mas existem duas desvantagens em seu uso:
a) a dificuldade de interpretar os modelos produzidos por elas;
b) a sensibilidade ao formato dos dados que a alimentam, pois representaes de
dados diferentes podem produzir resultados diversos.
30
4.5 ESCOLHA DA TCNICA

No trabalho de [HAR98] est descrito que a escolha da tcnicas de Data Mining
depender da tarefa especfica a ser executada e dos dados disponveis para anlise (tabela 1).
Classificao Estimativa Previso Agrupamento Segmentao
por afinidade
Estatstica padro
Anlise de seleo
estatstica
MBR
Algoritmos genticos
Deteco de grupos
Anlise de vnculos
rvores de deciso
Redes neurais
Fonte: [HAR98]
Tabela 1 Quais tcnicas para cada tarefa
31
5 REDES NEURAIS
Este captulo apresenta as redes neurais artificiais, que so umas das tcnicas utilizadas
para implementar algumas tarefas de Data Mining. Nele ser descrita a definio das redes
neurais artificiais e apresentada uma semelhana com a rede neural biolgica humana.
Tambm ser demonstrada sua estrutura e componentes, sua aprendizagem, revocao,
vantagens e desvantagens.
As redes neurais artificiais so muito utilizadas para efetuar a tarefa de previso em
Data Mining, principalmente com o modelo de rede Feedforward/Backpropagation que
apresentado neste captulo. E a compreenso do funcionamento bsico de uma rede neural
artificial de extrema importncia para a aplicao de um Data Mining com o uso da mesma.
5.1 REDE NEURAL BIOLGICA

O sistema nervoso formado por um conjunto extremamente complexo de clulas, os
neurnios. (figura 5) Eles tm um papel essencial na determinao do funcionamento e
comportamento do corpo humano e do raciocnio. Os neurnios so formados pelos dendritos,
que so um conjunto de terminais de entrada, pelo corpo central, e pelos axnios que so
longos terminais de sada [LOE96].
Os neurnios se comunicam atravs de sinapses. Sinapse a regio onde dois
neurnios entram em contato e atravs da qual os impulsos nervosos so transmitidos entre
eles. Os impulsos recebidos por um neurnio A, em um determinado momento, so
processados, e atingindo um dado limiar de ao, o neurnio A dispara, produzindo uma
substncia neurotransmissora que flui do corpo celular para o axnio, que pode estar
conectado a um dendrito de um outro neurnio B. O neurotransmissor pode diminuir ou
aumentar a polaridade da membrana ps-sinptica, inibindo ou excitando a gerao dos pulsos
no neurnio B. Este processo depende de vrios fatores, como a geometria da sinapse e o tipo
de neurotransmissor.
Em mdia, cada neurnio forma entre mil e dez mil sinapses. O crebro humano possui
cerca de 10 E11 neurnios, e o nmero de sinapses de mais de 10 E14, possibilitando a
formao de redes muito complexas.
32
Fonte: [VAL97]
Figura 5 - Constituintes da clula neuronal - esquema.
5.2 REDES NEURAIS ARTIFICIAIS

Segundo Loesch [LOE96], redes neurais artificiais so sistemas computacionais de
implementao em hardware ou software, que imitam as habilidades computacionais do
sistema nervoso biolgico, usando um grande nmero de simples neurnios artificiais
interconectados.
Redes neurais artificiais so tcnicas computacionais que apresentam um modelo
matemtico inspirado na estrutura neural de organismos inteligentes e que adquirem
conhecimento atravs da experincia [WIL95]. Uma grande rede neural artificial pode ter
centenas ou milhares de unidades de processamento; j o crebro de um mamfero pode ter
muitos bilhes de neurnios.
Uma rede neural artificial composta por vrias unidades de processamento, cujo
funcionamento bastante simples. Essas unidades, geralmente so conectadas por canais de
comunicao que esto associados a determinado peso. As unidades fazem operaes apenas
sobre seus dados locais, que so entradas recebidas pelas suas conexes. O comportamento
33
inteligente de uma rede neural artificial vem das interaes entre as unidades de
processamento da rede [LOE96].
A maioria dos modelos de redes neurais possui alguma regra de treinamento, onde os
pesos de suas conexes so ajustados de acordo com os padres apresentados. Em outras
palavras, elas aprendem atravs de exemplos [LOE96].
Arquiteturas neurais so tipicamente organizadas em camadas, com unidades que
podem estar conectadas s unidades da camada posterior (figura 6).
Fonte: [VAL97]
Figura 6 - Organizao das camadas.

Usualmente as camadas so classificadas em trs grupos:
a) Camada de Entrada: onde os padres so apresentados rede;
b) Camadas Intermedirias ou Escondidas: onde feita a maior parte do
processamento, atravs das conexes ponderadas; podem ser consideradas como
extratoras de caractersticas;
c) Camada de Sada: onde o resultado final concludo e apresentado.
Uma rede neural especificada, principalmente pela sua topologia, pelas
caractersticas dos ns e pelas regras de treinamento. A seguir, sero analisados os processos
de aprendizado.
34
5.2.1 PROCESSOS DE APRENDIZADO

A propriedade mais importante das redes neurais a habilidade de aprender de seu
ambiente e com isso melhorar seu desempenho. Isso feito atravs de um processo iterativo
de ajustes aplicado a seus pesos, o treinamento (figura 7). O aprendizado ocorre quando a rede
neural atinge uma soluo generalizada para uma classe de problemas [LOE96].
Denomina-se algoritmo de aprendizado a um conjunto de regras bem definidas para a
soluo de um problema de aprendizado. Existem muitos tipos de algoritmos de aprendizado
especficos para determinados modelos de redes neurais, estes algoritmos diferem entre si
principalmente pelo modo como os pesos so modificados.
Incio
Processar
Entradas
Sada
Processamento
=
Sada
Desejada
Ajustar Pesos
Parar
Fim
Figura 7 Fluxograma do algoritmo de aprendizagem de uma Rede Neural.

Outro fator importante a maneira pela qual uma rede neural se relaciona com o
ambiente. Nesse contexto existem os seguintes paradigmas de aprendizado:
a) Aprendizado Supervisionado: A maioria absoluta das aplicaes existentes
compem-se de redes neurais com aprendizado supervisionado, que pode ser
35
considerado como a capacidade que a rede possui de modificar o seu desempenho a
partir da comparao entre a resposta obtida e a resposta desejada. A partir das
entradas fornecidas, os pesos das conexes so ajustados por clculo at obter-se as
sadas desejadas [VAL97]. Como um exemplo de arquitetura de rede com
aprendizado supervisionado pode ser citada a BackPropagation;
b) Aprendizado No Supervisionado (auto-organizao): estas redes tm a capacidade
de determinar uma correlao entre os possveis padres de entrada que so
particularmente teis nos problemas em que as entradas variam com o tempo de
forma conhecida. Pode-se considerar este mecanismo de aprendizado como sendo a
capacidade que a rede possui de abstrair correlaes entre os estmulos de modo a
obter as respostas desejadas. Somente as entradas so apresentadas rede. A
mesma auto-organizada e ajusta-se s entradas fornecidas. Como um exemplo de
arquitetura de rede com aprendizado no-supervisionado pode ser citada a
Kohonen [VAL97].
Denomina-se ciclo uma apresentao de todos os N pares (entrada e sada) do conjunto
de treinamento no processo de aprendizado. A correo dos pesos num ciclo pode ser
executado de dois modos:
a) Modo Padro: A correo dos pesos acontece a cada apresentao rede de um
exemplo do conjunto de treinamento. Cada correo de pesos baseia-se somente no
erro do exemplo apresentado naquela iterao. Assim, em cada ciclo ocorrem N
correes.
b) Modo Batch: Apenas uma correo feita por ciclo. Todos os exemplos do
conjunto de treinamento so apresentados rede, seu erro mdio calculado e a
partir deste erro fazem-se as correes dos pesos.
5.2.2 REVOCAO
Aps o modelo de rede ter sido submetido a um perodo de aprendizagem ou
treinamento, aplica-se um processo denominado de revocao. A revocao consiste em
aplicar os resultados obtidos com o treinamento da rede (valor estabelecidos para as
conexes) em aplicaes cujas variveis de entrada, podem ou no ser iguais (ou bastante
prximas) s oferecidas quando do aprendizado [VAL97].
36
Revocao o processo onde se verifica a efetividade da aprendizagem. Atravs deste
processo a rede dever reconhecer ou no novos padres de entrada que lhe forem
apresentados.
5.2.3 MODELOS DE REDES NEURAIS ARTIFICIAIS

Muitos so os modelos de redes neurais existentes. Para cada aplicao pode-se definir
qual o melhor modelo e estrutura. Loesch [LOE96] apresenta alguns modelos de redes neurais
bem como sua aplicao bsica e ano de publicao (tabela 2):
Aplicaes Bsicas
Ano
Adaline/Madaline
Modelo
Filtragem de sinal adaptativo, equalizao adaptativa
1960
Adaptative Resonance Theory
Reconhecimento de Padres
1983
(ART)
Backpropagation Perceptron
BAM Memria Associativa
Reconhecimento de padres, filtragem de sinal, controle 1974robtico, compresso de dados, segmentao de sinal, etc.
1986
Heteroassociativa (memria endereada por contedo)
1987
Bidirecional
Boltzmann Machine, Cauchy
Reconhecimento de padres (imagens, sons, radar), 1984
Machine
otimizao
Brain-State-in-a-Box (BSB)
Revocao autoassociativa
1977
Hopfield
Evocao autoassociativa, otimizao
1982
Neocognitron
Reconhecimento de caracteres manuscritos / imagens
1975
Quantizao de Vetor de
Revocao autoassociativa (complementao de uma 1981
aprendizagem
padro a outro parcial apresentado), compresso de dados
Recurrent
Controle robtico, reconhecimento de fala, previso do 1987

elemento seqencial
Redes de funes de base radial Classificao, mapeamento
1987
Redes de ligaes funcionais
Classificao, mapeamento
1988
Time-Delay
Reconhecimento de fala
1987
Tabela 2 - Modelos de redes neurais
5.2.3.1 MODELO FEEDFORWARD / BACKPROPAGATION

O modelo Feedforward com aprendizado Backpropagation, surgiu por meados da
dcada de 80 e constitui, segundo pesquisadores, a mais difundida e largamente usada entre
37
todas arquiteturas e modelos de redes neurais conhecidas [WIL95]. O que ele trouxe de
diferente em relao aos modelos existentes at ento foram as mltiplas camadas, com a
possibilidade de valores de entradas e sadas contnuos (ex. 0.0001 0.9999).
Este modelo utiliza-se de valores contnuos (ex. 0.0001 0.9999), o que difere do
modelo Perceptron que utiliza valores discretos (ex. 0 ou 1) [LOE96].
Uma aplicao modelada nesta topologia, necessita de padres de entrada e sada, para
a qual a rede converge e se estabiliza, constituindo o que denomina-se de treinamento ou
aprendizado da rede. Este modelo utiliza-se de aprendizado supervisionado, ou seja, a cada
padro de entrada est associado a uma sada desejada [VAL97].
Os elementos de processamento das camadas ocultas do ao modelo a capacidade de
abstrao e generalizao, ou seja, capaz de classificar um padro complexo mesmo quando
este no pertenceu ao conjunto de treinamento. A rede portanto imune a pequenas falhas.
O treinamento deste modelo de rede consiste em ajustar os pesos de conexes das
camadas para que o conjunto de entradas atinja o conjunto de sadas desejadas.
A revocao feita diante dos pesos das conexes armazenadas em arquivos. Nesta
etapa, um novo padro de entrada oferecido (como par de entrada) rede, ela computa e
gera uma sada [VAL97].
Sua rpida operacionalizao, apresentando capacidade de generalizao, robustez e
abstrao so suas principais vantagens. O fato de requerer um longo tempo de treinamento,
em funo da necessidade de estabilizao e convergncia da rede sua desvantagem,
segundo [LOE96].
38
6 DESENVOLVIMENTO DO SAD
Para o desenvolvimento do SAD, adotou-se algumas etapas da metodologia de
prototipao fundamental. Esta, segundo [MEL90], uma metodologia no qual tanto os
analistas quanto os usurios sabem que o produto final da prototipao ser o prprio sistema,
j na sua forma aperfeioada. A metodologia de prototipao fundamental dividida em oito
etapas, mais foi feita uma adaptao nas mesmas e foram utilizadas apenas quatro (figura 8).
1. Necessidades
do Usurio
2. Levantamento
de Requisitos
3.
Desenvolvimento
do Prottipo
4. Demonstrao e
Reviso do
Prottipo
Figura 8 Adaptao das etapas da metodologia de prototipao fundamental.
6.1 NECESSIDADES DO USURIO

Cada vez mais executivos tem a necessidade de analisar o desempenho de suas
empresas, bem como prever e agir sobre os resultados que esto por vir. E uma das maiores
necessidades destes executivos saber prever quais sero os impactos que sua empresa
sofrer se o mesmo tomar essa ou aquela deciso.
Ao mesmo tempo em que eles tem a necessidade de obter informaes sobre seus
negcios, a quantidade de informaes que est sendo acumulada nos sistemas de sua
empresa e que no est sendo devidamente utilizada chega a ser algo exorbitante.
Sente-se, ento, a necessidade de alguma tecnologia que possa incorporar um maior
significado aos dados, estabelecendo padres para que se possam efetuar previses, classificar
os dados, e enfim utilizar estes dados que esto de certa forma guardados inutilmente.
39
Decidiu-se ento desenvolver um prottipo de Sistema de Apoio Deciso que utilize
a tcnica de Data Mining (item 4). O Data Mining pode ser caracterizado pela execuo de
vrias tarefas, mas neste caso escolheu-se implementar a tarefa de previso. A tarefa de
previso algo que os executivos solicitam muito e, na maior parte das vezes elas ajudam a
tomar decises, uma vez que indicam o que as decises corretas e incorretas podem acarretar.
Este SAD deve ser um sistema parametrizvel, onde o usurio tenha a liberdade de
escolher as variveis que ele deseja prever. Fazendo-o assim, o sistema ser flexvel o
suficiente para o usurio prever qualquer tipo de informao que desejar.
6.2 LEVANTAMENTO DE REQUISITOS

Conforme os objetivos estabelecidos anteriormente e levando em conta as
necessidades dos usurios, decidiu-se desenvolver um Sistema de Apoio Deciso para
Previso genrica utilizando a tcnica de Data Mining.
Baseando-se nos estudos de Data Mining (tabela 1) para efetuar a tarefa de previso,
decidiu-se utilizar o modelo de rede neural Feedforward, com aprendizado Backpropagation.
A escolha deste modelo, deu-se principalmente pela grande capacidade de generalizao e na
sua rpida operacionalizao. Segundo [BER97], este modelo de rede muito utilizado para a
previso por causa destas caractersticas.
Tendo como base esses fatos, elaborou-se um SAD onde o usurio pode definir os
parmetros da rede neural, como suas iteraes, variveis de entrada e de sada, taxa de erros,
etc, e, consequentemente, pode trein-la e test-la, para mais tarde tomar suas decises com
maior segurana.
Levando em considerao que uma das necessidades do usurio a facilidade de uso
do sistema, deve-se desenvolver uma interface amigvel para o sistema. Tendo esse quesito
como chave, decidiu-se desenvolver o sistema em cima da plataforma PC no ambiente
operacional Windows. No desenvolvimento da aplicao, optou-se pelo ambiente Delphi 3,
que permite um rpido desenvolvimento de aplicaes para o ambiente Windows e suporta
muito bem manipulao de dados com banco de dados.
40
Em relao ao banco de dados que ir armazenar as informaes, optou-se pelo Sybase
SQL Anywhere que, apesar de no ser um banco de dados de alta performance, foi escolhido
pela sua flexibilidade e praticidade na utilizao. Esse banco de dados pode rodar tanto em
modo standalone, quanto em modo cliente/servidor; dependendo somente de sua
configurao.
A partir daqui ser apresentada a especificao do sistema onde foram utilizados o
Diagrama de Contexto, o Diagrama de Fluxo de Dados, o Dicionrio de Dados e o Modelo
Entidade-Relacionamento.
Para
especificao
foram
utilizadas
as
ferramentas
PowerDesigner ProcessAnalyst e DataArchitect da Sybase.
6.2.1 DIAGRAMA DE CONTEXTO

O Diagrama de Contexto do SAD est apresentado na figura 9.
Diagrama de Contexto
Dados para Previso
Usurio
Resultado da Previso
Resultado da Revocao
Seleo Dados Revocao do Modelo
Data Warehouse
Seleo Dados Treinamento do Modelo
1
Dados Histrico Revocao Sistema de
Apoio
Deciso
Dados de Histrico Treinamento
Modelo Previso
Figura 9 Diagrama de Contexto do Sistema de Apoio Deciso.

O Sistema ir interagir com o Usurio que far a definio do Modelo de Previso, o
seu treinamento, revocao e, por fim, as previses em cima do modelo definido. O Data
41
Warehouse fornecer para o sistema as variveis de entrada e sada e seus respectivos dados
para o treinamento e revocao do modelo definido.
6.2.2 DIAGRAMA DE FLUXO DE DADOS

O DFD do sistema est apresentado na figura 10.
DFD 0
1.1
Definir
Modelo
Previso
[Modelo Previso]
Usurio
Definies Rede
DefModelo : 1
Definies Variveis Sada
Definies Variveis Entrada
Usurio
DefSaidas : 1
DefEntradas : 1
[Seleo Dados Treinamento do Modelo]

1.2
Data
Warehouse
Data
Warehouse
[Dados de Histrico Treinamento]
Efetuar
Treinamento
Rede
Definies Rede
DefModelo : 2
Definies Rede
[Dados Histrico Revocao]
[Seleo Dados Revocao do Modelo]
1.3
Efetuar
Revocao
Rede
Pesos Conexes
Usurio
[Resultado da Revocao]
Usurio
Pesos Conexes
DefEntradas : 2
PesosModelo

Pesos Conexes
Usurio
[Dados para Previso]
[Resultado da Previso]
Usurio
1.4
Definies Rede
DefModelo : 3
Efetuar
Previso
DefSaidas : 2
Figura 10 DFD0 do Sistema de Apoio Deciso.
42
Descreve-se a seguir os processos do DFD0:
a) definir o modelo previso: neste passo o usurio est definindo o Modelo de
Previso que ele deseja efetuar. Um Modelo de Previso um conjunto de
informaes que iro influenciar diretamente na funcionalidade do sistema. Neste
momento o usurio definir informaes como o nome do modelo, o nmero de
iteraes da rede para o treinamento, as variveis de entrada e de sada com as
respectivas regras de pr-processamento, a indicao de retreinamento da rede, a
taxa de aprendizado e a taxa de erros;
b) efetuar o treinamento da rede: neste passo, aps ter definido todas as informaes
do modelo de previso, o usurio dever treinar a rede selecionando os dados do
Data Warehouse conforme desejar. Este passo de extrema importncia para o
correto funcionamento do Modelo de Previso, pois dependendo dos dados que
forem utilizados para o treinamento da rede, seu comportamento pode ser
totalmente diferente;
c) efetuar a revocao da rede: o passo de revocao consiste em verificar se a rede
est respondendo conforme a aprendizagem ela aplicada. O usurio ento
seleciona os dados a partir do Data Warehouse para efetuar a revocao. Se for
verificado que a mesma ainda no est respondendo conforme o esperado, o
momento de efetuar um retreinamento;
d) efetuar previso: esta etapa caracterizada pela utilizao do modelo treinado e
revocado para efetuar finalmente a previso dos dados. Neste momento o usurio
entra com os dados das variveis de entrada e a partir da o SAD processa a rede
neural para obter a resposta e mostrar o resultado para o mesmo.
6.2.3 DICIONRIO DE DADOS

Conforme especificado no Diagrama de Contexto, apresentado parte do Dicionrio
de Dados:
a) modelo de previso: nome do modelo, nmero de iteraes da rede, variveis de
entrada, regras de pr-processamento das variveis de entrada, variveis de sada,
regras de pr-processamento das variveis de sada, indicao de retreinamento,
taxa de aprendizado da rede, taxa de erros e comentrio do Modelo;
43
b) dados de histrico para treinamento: dados do Data Warehouse para o usurio
selecionar durante o treinamento;
c) seleo de dados para treinamento da rede: seleo de dados do Data Warehouse
para treinamento (conforme definio de variveis de entrada e de sada);
d) dados de histrico para revocao: dados do Data Warehouse para o usurio
selecionar durante a revocao;
e) seleo de dados para revocao da rede: seleo de dados do Data Warehouse
para revocao (conforme definio de variveis de entrada e sada);
f) resultado da revocao: dados resultantes do processamento da rede neural
(conforme definio de variveis de sada);
g) dados de previso: dados de entrada para serem previstos (conforme definio de
variveis de entrada);
h) resultado da previso: dados resultantes da previso (conforme definio de
variveis de sada).
6.2.4 MODELO ENTIDADE RELACIONAMENTO

O Modelo Entidade Relacionamento do SAD est apresentado na figura 11.
MER - Sistema de Apoio Deciso

TDEFMODELO
MODELO POSSUI ENTRADAS
CODMOD
DESCRICAO
ITERACOES
RETREINAMENTO
TX_APRENDIZADO
TX_ERRO
OBSERVACAO
I
VA30
I
VA3
N5,2
N5,2
VA250
MODELO POSSUI SAIDAS
TDEFENTRADAS
CODMOD
NROENT
DESCENTRADA
PRE_PROCESS_MIN
PRE_PROCESS_MAX
TDEFSAIDAS
I
I
VA128
N12,2
N12,2
MODELO POSSUI PESOS
CODMOD
NROSAI
DESC_SAIDA
PRE_PROCESS_MIN
PRE_PROCESS_MAX
TPESOSMODELO
CODMOD
I
NROPES
I
PESOS
VA60
Figura 11 MER Sistema de Apoio Deciso.
I
I
VA128
N12,2
N12,2
44
6.3 DESENVOLVIMENTO DO PROTTIPO

Levando em conta os objetivos propostos por este trabalho, construiu-se um Sistema
de Apoio Deciso que fosse flexvel e de fcil utilizao.
Aproveitando a flexibilidade da linguagem escolhida, resolveu-se utilizar um
componente de Rede Neural que foi desenvolvido para a mesma. Este componente foi
desenvolvido por [VAL97] e permitiu uma maior rapidez no desenvolvimento da aplicao.
6.3.1 AQUISIO DOS DADOS

Para treinar o modelo de previso, necessrio que hajam informaes concisas e
integradas. Para isto utilizou-se o JE Virtual, que um jogo que tem por objetivo reproduzir
parcialmente e de forma simplificada uma situao que poderia ser real, de uma ou mais
empresas em que se pretende estudar e conhecer as relaes de causa e efeito que as
caracterizam. Essa tcnica caracteriza-se por oferecer um aumento de conhecimento,
desenvolvimento de habilidades e a fixao de atitudes [MAR87].
O JE Virtual um jogo que possui vrios cenrios, onde existem uma grande
quantidade de variveis de deciso e de resultados (figura 12). Estas variveis foram ento
analisadas e lapidadas, de modo que fossem apenas catalogadas as que tivessem algum tipo de
relacionamento de deciso.
O JE Virtual possui seus dados em arquivos no formato Excel, o que dificulta a
manipulao dos mesmos para o treinamento da rede. Ento decidiu-se que a fonte externa
dos dados seria um Data Warehouse baseado nas informaes catalogadas no JE Virtual. Para
isto foi feita uma rotina de integrao de dados (figura 12 Menu Integrar Dados), a qual
obtm os dados dos arquivos no formato do Excel e os armazena no Data Warehouse.
45
Figura 12 Janela do JE Virtual
6.3.2 ARMAZENAMENTO DOS DADOS

Este Data Warehouse foi implementado em um banco de dados relacional, mais
precisamente o Sybase SQL Anywhere em uma mquina standalone. A configurao do
banco de dados foi feita desta forma porque o SAD desenvolvido no tem como objetivo
funcionar para um ambiente multi-usurio.
A modelagem deste Data Warehouse se deu a partir das variveis catalogadas no JE
Virtual (figura 13); de forma que pudesse armazenar os dados do mesmo de maneira histrica.
46
MER - Data Warehouse

PRODUCAO
ARQUIVO
MES
HORAS_PRODUCAO_A
COMPRA_MP1
CONSUMO_EFETIVO_MP1
PRODUCAO_PRODUTO_A
VENDAS_PRODUTO_A
HORAS_PRODUCAO_B
COMPRA_MP2
CONSUMO_EFETIVO_MP2
PRODUCAO_PRODUTO_B
VENDAS_PRODUTO_B
HORAS_PRODUCAO_C
COMPRA_MP3
CONSUMO_EFETIVO_MP3
PRODUCAO_PRODUTO_C
VENDAS_PRODUTO_C
NUMERO_EMPREGADOS
SALARIO_UM
HORAS_SOLICITADAS
HORAS_TRABALHADAS_NORMAL
HORAS_TRABALHADAS_EXT RA
INDICE_PARALIZACAO_EQUIP
MERCADO
VA15
I
I
I
N12,2
N12,2
N12,2
I
I
N12,2
N12,2
N12,2
I
I
N12,2
N12,2
N12,2
I
N12,2
I
I
I
N5,2
ESTA RELACIONADO
GERAL
ARQUIVO
MES
META_ANUAL_RENTABILIDA DE
META_ANUAL_VENDAS
CONJUNTURA_ECONOMICA_ ANO
TAXA_INFLACAO_MES
PRODUCAO_ESTIMADA_ANO
VENDAS_ESTIMADA_ANO
SALDO_OPERACOES_FINANCEIRAS
RENTABILIDADE_PATRIMONI AL
META_RENTABILIDADE
META_VENDAS
VA15
I
N6,2
N12,2
N6,2
N6,2
I
I
N12,2
N6,2
N6,2
I
ARQUIVO
MES
PRECO_PRODUTO_A
PRAZO_PARCELAS_PRODUT O_A
ESTOQUE_INICIAL_A
VENDAS_VISTA_A
VENDAS_PRAZO_A
ESTOQUE_FINAL_A
PRECO_PRODUTO_B
PRAZO_PARCELAS_PRODUT O_B
ESTOQUE_INICIAL_B
VENDAS_VISTA_B
VENDAS_PRAZO_B
ESTOQUE_FINAL_B
PRECO_PRODUTO_C
PRAZO_PARCELAS_PRODUT O_C
ESTOQUE_INICIAL_C
VENDAS_VISTA_C
VENDAS_PRAZO_C
ESTOQUE_FINAL_C
DESPESAS_PROPAGANDA
SAZIONALIDADE_B
SAZIONALIDADE_C
VA15
I
N12,2
I
N12,2
I
I
N12,2
N12,2
I
N12,2
I
I
N12,2
N12,2
I
N12,2
I
I
N12,2
N12,2
N5,2
N5,2
ESTA RELACIONADO
FINANCEIRO
ESTA RELACIONADO
ARQUIVO
MES
DESCONTO_VENDA_PROD_A
JURO_REAL_VENDA_PRAZO_ A
DESCONTO_VENDA_PROD_B
JURO_REAL_VENDA_PRAZO_ B
DESCONTO_VENDA_PROD_C
JURO_REAL_VENDA_PRAZO_ C
VA15
I
N6,2
N6,2
N6,2
N6,2
N6,2
N6,2
Figura 13 MER - Data Warehouse do JE Virtual.
6.3.3 ACESSO AOS DADOS

Para o usurio usar as informaes coletadas e armazenadas no Data Warehouse para
tomar decises, necessrio utilizar o Sistema de Apoio Deciso que foi modelado. O
prottipo possibilita ao usurio seguir as etapas de KDD que o Data Mining incorpora.
A seguir, faz-se uma analogia entre os processos do KDD e os passos que o sistema
proporciona ao usurio.
47
6.3.3.1 DOMNIO DA APLICAO

Esta etapa do KDD muito importante na aplicao do Data Mining, pois onde o
usurio deve analisar qual o conhecimento que ele deseja adquirir e quais os passos que ele
deve seguir para chegar a esse resultado.
O usurio ento deve estudar as variveis que possui para chegar a um modelo de
previso, com suas respectivas variveis de entrada e sada. baseado nestas informaes que
o usurio definir o modelo de previso do SAD.
O modelo de previso primeiramente definido na tela principal do sistema (figura
14), descrevendo o cdigo do modelo e sua descrio. O sistema permite ao usurio cadastrar
quantos modelos de previso o usurio necessitar, tornando assim esta ferramenta muito
flexvel e genrica para o processo de tomada de deciso. A partir da tela principal do sistema
pode-se chamar outras telas, onde so executadas as prximas etapas do processo de KDD.
Figura 14 Tela principal do sistema

Clicando-se no boto Definir Modelo (figura 14), pode-se definir o modelo de
previso. Ainda deve-se informar as variveis de entrada e de sada com suas respectivas
regras de pr-processamento, o nmero de iteraes, a indicao de retreinamento e a taxa de
erros da rede neural artificial. Estas informaes podem ser informadas na tela de definies
do modelo de previso (figura 15).
48
Figura 15 Tela de definies do modelo de previso

importante salientar que as variveis de entrada e sada so disponibilizadas a partir
da definio do Data Warehouse.
6.3.3.2 SELEO DOS DADOS

Esta etapa caracterizada pela seleo do conjunto de informaes que sero
utilizados no processo de Data Mining.
Neste ponto do processo, o usurio deve utilizar o domnio que possui sobre os dados
do Data Warehouse. Levando isso em considerao, deve-se avaliar quais so as informaes
que ele deseja utilizar para o treinamento do modelo de previso. Os dados que forem usados
para o treinamento do modelo influenciaro diretamente na resposta do mesmo.
A tela de Treinamento e Revocao do modelo apresenta todo o conjunto de
informaes que foram extradas do Data Warehouse, que a fonte externa de dados do
sistema (figura 16). nesta tela que so selecionadas as informaes que fazem parte do
conjunto de treinamento.
49
Figura 16 Tela de Treinamento e Revocao do Modelo
6.3.3.3 PR-PROCESSAMENTO E LIMPEZA

A etapa de pr-processamento visa adequar as informaes aos algoritmos de Data
Mining. Os algoritmos de Data Mining na maior parte das vezes requerem os dados
formatados para o seu processamento. As redes neurais que so usadas pelo SAD, necessitam
que os dados de entrada e de sada sejam contnuos de 0,0001 0,0009.
Para efetuar a formatao dos dados selecionados para os dados requisitados pela rede
neural, deve-se efetuar o pr-processamento. Os valores que sero processados pela rede so
calculados em relao proporcional definio do limite mnimo e mximo de prprocessamento para cada entrada ou sada de dados.
Os valores mximo e mnimo para o pr-processamento so definidos na tela de
definies do modelo (figura 15).
50
6.3.3.4 DATA MINING

O Data Mining a etapa onde se incorpora um algoritmo para o processamento dos
dados, e este algoritmo determinar os padres dos dados que resultam no conhecimento.
No caso do desenvolvimento deste prottipo de SAD para a previso, decidiu-se
utilizar a tcnica de redes neurais.
Desta forma, o usurio dever treinar o modelo com os dados da seleo. Durante o
treinamento a rede ajustar os pesos entre suas conexes, a fim de encontrar o melhor padro
para atender ao conjunto de treinamento.
O treinamento e a revocao do modelo so efetuados atravs da tela de Treinamento e
Revocao do modelo (figura 16).
Aps ter sido feito o treinamento, o usurio poder revocar o modelo para aprovar o
aprendizado do mesmo. Se for julgado que o mesmo ainda no est devidamente ajustado,
devero ser repetidos os passos de seleo e treinamento at que o aprendizado esteja
concludo. Para o usurio verificar como se processou a Revocao, o SAD mostrar a tela de
Resultado da Revocao (figura 17).
Figura 17 Tela de apresentao do resultado da Revocao
51
A partir do momento em que a rede estiver devidamente treinada e com seus pesos
ajustados, que pode-se efetuar a previso como sendo o prximo passo do KDD.
6.3.3.5 INTERPRETAO DO CONHECIMENTO

Aps a etapa de Data Mining estar concluda e os padres do modelo de previso
estarem estabelecidos, conforme o andamento da etapa anterior, pode-se efetuar a previso
dos dados e ento verificar se o modelo processado est condizente com o que foi descrito
inicialmente.
Figura 18 Tela que efetua a previso dos dados

Para efetuar a previso, deve-se utilizar a tela do sistema que Efetua Previses (figura
18). Nesta tela informado um valor para cada varivel de entrada e aps isto deve-se efetuar
a previso, onde o sistema retorna os valores para as variveis de sada.
52
7 CONCLUSES E SUGESTES
Este captulo apresenta as concluses, limitaes e sugestes referentes ao trabalho
desenvolvido.
7.1 CONCLUSES
Os sistemas tradicionais no proporcionam aos administradores de empresa
praticamente nenhum tipo de ferramenta no qual os auxilie na tomada de decises. Partindo
dessa premissa, foi estudada a tecnologia de Data Mining que tem por finalidade adquirir
conhecimento atravs da interpretao dos dados.
Foram estudados os seus conceitos e suas potencialidades e verificou-se que
diferentemente das aplicaes convencionais de bases de dados, que geralmente devolvem ao
usurio informaes baseadas em resultados de linguagens de consulta, o Data Mining
devolve informaes que so induzidas dos dados. Desta forma, informaes que no existem
podem ser previstas, com uma certa medida de acerto e exatido. Alm disso, padres e
tendncias podem ser encontradas nos dados, o que pode levar tomada de decises mais
adequadas e facilitar o trabalho de anlise dos dados.
Neste trabalho foi ilustrado o uso de Data Mining com Redes Neurais empregado em
um Sistema de Apoio Deciso para construir modelos de Previso genricos. Tendo isso
como base, verificou-se que a utilizao do Data Mining juntamente com as etapas de KDD
se mostrou bastante eficiente.
Foram realizados testes com os dados que foram integrados do JE Virtual para o Data
Warehouse e o sistema se mostrou muito flexvel para a definio de modelos de previso ao
mesmo tempo em que a utilizao de Redes Neurais mostraram a sua grande capacidade de
generalizao para os problemas apresentados nos testes.
Mas no decorrer destes testes, verificou-se algumas desvantagens no uso de Redes
Neurais:
a) aprendizado lento: o processo de aprendizado muito lento;
b) conhecimento no explcito: o conhecimento gerado no est representado na
forma de regras e conceitos de padres, e sim implicitamente na prpria rede;
53
c) treinamento complicado: no fcil estabelecer as regras de pr-processamento e
escolher os dados corretos para obter um timo resultado com os modelos
desenvolvidos. Isto requer um bom conhecimento de redes neurais e
principalmente dos dados com que se est trabalhando.
Partindo deste princpio, verificou-se que a aplicao de Data Mining com Redes
Neurais em Sistemas de Apoio Deciso para Previses genricas pode ajudar em muito o
processo de tomada de deciso no estruturada dentro de uma corporao; principalmente se
forem seguidos os passos do KDD. Esta ajuda pode ocorrer principalmente se for levada em
conta a enorme quantidade de dados que esto disponveis nestas corporaes.
Durante a construo do modelo, foram utilizadas algumas etapas/fases da
metodologia de prototipao fundamental, as quais auxiliaram em muito no desenvolvimento
do projeto. A linguagem Delphi ajudou muito pela facilidade de aprendizado que ela
proporciona sobre novos recursos e o banco de dados Sybase SQL Anywhere tambm
demonstrou que um software de extrema facilidade de uso e confivel.
Encontrou-se grande dificuldade em encontrar material bibliogrfico relativo ao Data
Mining. Mesmo sendo efetuado um pedido para a compra de material para estudo, o mesmo
material chegou somente na etapa final do desenvolvimento do trabalho.
Considera-se que o objetivo principal do trabalho, o desenvolvimento de um SAD para
efetuar previses genricas utilizando Data Mining, foi atingido.
7.2 LIMITAES
O prottipo construdo apresenta as seguintes limitaes:
a) a fonte de dados para definio das variveis de entrada e de sada fixa, desta
forma no permitindo ao usurio escolher uma varivel fora do escopo
apresentado;
b) as regras de pr-processamento so limitadas faixa de valores (limite mnimo e
mximo), sendo esta uma forma muito simples para se efetuar um prprocessamento.
54
7.3 SUGESTES
Sugere-se o estudo do Data Mining aplicando outras tarefas e tcnicas para a tomada
de decises, como o uso de rvores de Deciso para efetuar classificaes.
Em relao a incorporao de uma fonte de dados externa (Data Warehouse) no
Sistema de Apoio Deciso, lembra-se que esta fonte externa neste caso fixa. Deste modo,
podem ser implementados outros sistemas onde esta fonte de dados seja flexvel ao ponto de o
usurio escolher de onde os dados viro.
Um outro item importante na questo da origem dos dados que poderia ser
implementado, seria um acesso a dados que fosse alm do Sybase SQL Anywhere. Sugere-se
implementar acesso tambm outros bancos como Oracle, Microsoft SQL Server, Sybase
Server, Informix, etc.
Analisando o nvel dos usurios que podem utilizar o sistema, uma outra sugesto seria
construir uma interface voltada mais para os executivos, utilizando uma maior quantidade de
recursos grficos.
55
REFERNCIAS BIBLIOGRFICAS
[ALT92]
ALTER, Steven. Information systems: a management perspective. USA :

Addison-Wesley Publishing, 1992.
[AVI98]
VILA, Brulio Coelho. Data Mining. VI Escola Regional de Informtica da

SBC Regional Sul. Blumenau, 1998. p. 87-106.
[BER97]
BERRY, Michael J. A.; LINOFF, Gordon. Data mining techniques. USA :

Wiley Computer Publishing, 1997.
[BIS99]
BISPO, Carlos Alberto F.; CAZARINI, Edson Walmir. Anlises sofisticadas

com o on-line analytical processing. Developers Magazine.
Rio de
Janeiro, v 1, n. 32, abr. 1999.

[DAL99]
DALFOVO, Oscar; GRIPA, Robson. Data warehouse: usando a tcnica de cubo

de deciso. Developers Magazine. Rio de Janeiro, v 1, n. 32, abr. 1999.
[FAY96]
FAYYAD, Usama M... [et all]. Advances in knowledge discovery and data
mining. Mento Park : AAAI : MIT, 1996.
[FIG98]
FIGUEIRA, Rafael Medeiros Andrade. Miner: um software de inferncia de

dependncias funcionais. Rio de Janeiro, 1998. Trabalho de Concluso de
Curso Instituto de Matemtica, Universidade Federal do Rio de Janeiro.
[HAR98]
HARRISON, Thomas H. Intranet data warehouse. So Paulo : Berkeley

Brasil, 1998.
[INM97]
INMON, William H. Como construir o data warehouse. Rio de Janeiro :

Campus, 1997.
[LOE96]
LOESCH, Claudio; SARI, Solange Teresinha. Redes neurais artificiais :

fundamentos e modelos. Blumenau: FURB, 1996.
56
[MAC96]
MACHADO, Carlos. Como dar o tiro certo na hora de decidir.
Exame
Informtica. So Paulo, v. 11, n. 120, p. 27-29, mar. 1996.

[MAR87]
MARTINELLI, Dante P. A Utilizao dos jogos de empresas no ensino da

administrao. So Paulo, 1987. Dissertao (Mestrado em Administrao)
- Departamento de Contabilidade, USP.
[NIM98]
NIMER, Fernando. Analisando o retorno sobre o investimento de data

warehouse. Developers Magazine. Rio de Janeiro, v 1, n. 18, fev. 1998.
[OLI98]
OLIVEIRA, Adelize Generini de. Data warehouse: conceitos e solues.

Florianpolis : Advanced, 1998.
[PAL98]
PALMA, Srgio. Os componentes funcionais de um data warehouse.

Developers Magazine. Rio de Janeiro, v 1, n. 18, fev. 1998.
[SPR91]
SPRAGUE, R. H., WATSON, H. J. Sistemas de apoio deciso: colocando a

teoria em prtica. Rio de Janeiro : Campus, 1991.
[TAU98]
TAURION, Cezar. Data warehouse: Vale a pena gastar milhes investindo em

um? Developers Magazine. Rio de Janeiro, v 1, n. 18, fev. 1998.
[TAU98a]
TAURION, Cezar. O data warehouse ser til para a sua organizao?

Developers Magazine. Rio de Janeiro, v 1, n. 18, fev. 1998.
[VAL97]
VALDAMERI, Alexander Roberto. Redes neurais aplicadas ao sistema de

informao do jogo de empresas virtual. Blumenau, 1997. Trabalho de
Concluso de Curso Centro de Cincias Exatas e Naturais, Universidade
Regional de Blumenau.
[WIL95]
WILHELM, Pedro Paulo Hugo; LOPES, Maurcio Capobianco, et al. Sistema

inteligente de apoio deciso. Revista de Negcios. Blumenau, v 1, n. 1,
dez. 1995.
57
[WIL97]
WILHELM, Pedro Paulo Hugo. Uma nova perspectiva de aproveitamento e

uso dos jogos de empresas. Florianpolis, 1997. Tese (Doutorado em
Engenharia de Produo) - Centro Tecnolgico, UFSC.

Apoio A Tomada de Decisão

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apoio A Tomada de Decisão

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDADE REGIONAL DE BLUMENAU

CENTRO DE CINCIAS EXATAS E NATURAIS

SISTEMA DE APOIO DECISO PARA PREVISES

TRABALHO DE CONCLUSO DE CURSO SUBMETIDO UNIVERSIDADE

SISTEMA DE APOIO DECISO PARA PREVISES

ESTE TRABALHO DE CONCLUSO DE CURSO, FOI JULGADO ADEQUADO

Prof. Maurcio Capobianco Lopes Orientador na FURB

Prof. Jos Roque Voltolini da Silva Coordenador do TCC

Prof. Maurcio Capobianco Lopes

Prof. Everaldo Artur Grahl

Prof. Ricardo Guilherme Radnz

FURB, AO MEU ORIENTADOR MAURCIO CAPOBIANCO LOPES E A

4.2 As etapas do processo de KDD ..................................................................................... 19

6 Desenvolvimento do SAD ............................................................................................... 38

- Knowledge Discovery in Databases

MBR - Memory-Based Reasoning

- Processador maciamente paralelo

OLAP - On Line Analytic Processing

- Sistema de Apoio Deciso

- Sistema de Automao de Escritrios

- Sistema de Informaes Executivas

- Sistema de Informaes Gerenciais

- Sistema de Processamento de Transaes

1.3 ORGANIZAO DO TEXTO

Figura 1 - Elementos de um Sistema de Informao

2.2 TIPOS DE SISTEMAS DE INFORMAO

Figura 2 Evoluo dos Sistemas de Informao

Conforme Palma [PAL98], um armazm de dados composto de trs reas funcionais

3.2.1 AQUISIO DE DADOS

3.2.2 ARMAZENAMENTO DOS DADOS

3.2.3 ACESSO AOS DADOS

3.3 DATA MARTS

(Knowledge Discovery in Databases - KDD) e as tarefas que o Data Mining pode

4.1 PROSPECO DE CONHECIMENTO E DATA MINING

4.2 AS ETAPAS DO PROCESSO DE KDD

Figura 3 - Os passos do processo de KDD

4.3 UTILIDADES DO DATA MINING.

4.3.3 AGRUPAMENTO POR AFINIDADE

4.4 TCNICAS DE DATA MINING

Figura 4 - Modelo recebe entradas e produz informaes.

4.4.2 TCNICAS E TAREFAS

4.4.2.1 ANLISE DE SELEO ESTATSTICA

4.4.2.3 ALGORITMOS GENTICOS

4.4.2.4 DETECO DE AGRUPAMENTOS

4.4.2.5 ANLISE DE VNCULOS

4.4.2.6 RVORES DE DECISO E INDUO DE REGRAS

4.4.2.7 REDES NEURAIS ARTIFICIAIS

4.5 ESCOLHA DA TCNICA

Tabela 1 Quais tcnicas para cada tarefa

5.1 REDE NEURAL BIOLGICA

Figura 5 - Constituintes da clula neuronal - esquema.

5.2 REDES NEURAIS ARTIFICIAIS

Figura 6 - Organizao das camadas.

5.2.1 PROCESSOS DE APRENDIZADO

Figura 7 Fluxograma do algoritmo de aprendizagem de uma Rede Neural.

5.2.3 MODELOS DE REDES NEURAIS ARTIFICIAIS

Filtragem de sinal adaptativo, equalizao adaptativa

Adaptative Resonance Theory

BAM Memria Associativa

Heteroassociativa (memria endereada por contedo)

Reconhecimento de padres (imagens, sons, radar), 1984

Evocao autoassociativa, otimizao

Reconhecimento de caracteres manuscritos / imagens