Académique Documents
Professionnel Documents
Culture Documents
RICARDO KREMER
BLUMENAU, JUNHO/1999
1999/1-51
BANCA EXAMINADORA
ii
iii
SUMRIO
Sumrio ................................................................................................................................ iv
Lista de Figuras.................................................................................................................... vii
Lista de Tabelas ................................................................................................................... vii
Lista de Abreviaturas ..........................................................................................................viii
Resumo.................................................................................................................................. x
Abstract ................................................................................................................................ xi
1 Introduo ......................................................................................................................... 1
1.1 ORIGEM/MOTIVAO................................................................................................ 1
1.2 Objetivos ........................................................................................................................ 3
1.3 Organizao do texto....................................................................................................... 3
2 Sistemas de Informao..................................................................................................... 5
2.1 Conceitos ........................................................................................................................ 5
2.2 Tipos de Sistemas de Informao .................................................................................... 7
3 Data Warehouse .............................................................................................................. 12
3.1 Conceitos ...................................................................................................................... 12
3.2 Componentes funcionais de um Data Warehouse.......................................................... 13
3.2.1 Aquisio de Dados .................................................................................................... 14
3.2.2 Armazenamento dos Dados......................................................................................... 14
3.2.3 Acesso aos Dados ....................................................................................................... 14
3.3 Data Marts .................................................................................................................... 15
3.4 Vantagens ..................................................................................................................... 16
4 Data Mining .................................................................................................................... 18
4.1 Prospeco de conhecimento e Data Mining ................................................................. 18
iv
vi
LISTA DE FIGURAS
FIGURA 1 - ELEMENTOS DE UM SISTEMA DE INFORMAO ...................................................................................... 6
FIGURA 2 EVOLUO DOS SISTEMAS DE INFORMAO ......................................................................................... 9
FIGURA 3 - OS PASSOS DO PROCESSO DE KDD....................................................................................................... 19
FIGURA 4 - MODELO RECEBE ENTRADAS E PRODUZ INFORMAES........................................................................ 26
FIGURA 5 - CONSTITUINTES DA CLULA NEURONAL - ESQUEMA............................................................................ 32
FIGURA 6 - ORGANIZAO DAS CAMADAS............................................................................................................. 33
FIGURA 7 FLUXOGRAMA DO ALGORITMO DE APRENDIZAGEM DE UMA REDE NEURAL........................................ 34
FIGURA 8 ADAPTAO DAS ETAPAS DA METODOLOGIA DE PROTOTIPAO FUNDAMENTAL. .............................. 38
FIGURA 9 DIAGRAMA DE CONTEXTO DO SISTEMA DE APOIO DECISO............................................................ 40
FIGURA 10 DFD0 DO SISTEMA DE APOIO DECISO. ........................................................................................ 41
FIGURA 11 MER SISTEMA DE APOIO DECISO. ............................................................................................ 43
FIGURA 12 JANELA DO JE VIRTUAL .................................................................................................................... 45
FIGURA 13 MER - DATA WAREHOUSE DO JE VIRTUAL. ...................................................................................... 46
FIGURA 14 TELA PRINCIPAL DO SISTEMA ............................................................................................................ 47
FIGURA 15 TELA DE DEFINIES DO MODELO DE PREVISO ................................................................................ 48
FIGURA 16 TELA DE TREINAMENTO E REVOCAO DO MODELO ........................................................................ 49
FIGURA 17 TELA DE APRESENTAO DO RESULTADO DA REVOCAO ............................................................... 50
FIGURA 18 TELA QUE EFETUA A PREVISO DOS DADOS ....................................................................................... 51
vii
LISTA DE TABELAS
TABELA 1 QUAIS TCNICAS PARA CADA TAREFA ................................................................................................ 30
TABELA 2 - MODELOS DE REDES NEURAIS ............................................................................................................. 36
viii
LISTA DE ABREVIATURAS
KDD
SAE
SE
- Sistema Especialista
SI
- Sistema de Informao
SIE
SIG
SMP
- Multiprocessador simtrico
SPT
ix
RESUMO
O trabalho tem como objetivo principal auxiliar a tomada de decises atravs de um
Sistema de Apoio Deciso utilizando tcnicas de Data Mining, mais especificamente para
efetuar previses genricas. Para auxiliar esta tarefa foi implementado um prottipo que
permite ao usurio definir um modelo de previso, onde o mesmo pode ser treinado para
responder s variveis de previso com certa flexibilidade. Para a elaborao do prottipo,
foram analisadas as caractersticas de Sistemas de Informao, bem como dos Data
Warehouses e das tcnicas de Data Mining. Tambm estudou-se na rea de Inteligncia
Artificial as Redes Neurais, que fazem parte do Data Mining aplicado previso. Como
conseqncia do desenvolvimento deste trabalho, verificou-se que a aplicao do Data
Mining juntamente com as etapas do KDD foi muito eficiente. Foram realizados testes e foi
possvel desenvolver modelos de previso onde colocou-se em prtica o uso de Redes
Neurais, a qual se mostrou bastante eficiente para o processo de previso principalmente por
sua grande capacidade de generalizao.
ABSTRACT
The main purpose of this work is to help decision making through a Decision Support
System using Data Mining techniques, specifically to do generic forecasts. To aid in this task,
a prototype was implemented that allows the user to define a forecast model, where the same
can be trained to answer the forecast variables with certain flexibility. For the elaboration of
the prototype, the characteristics of Information Systems were analyzed, as well as the Data
Warehouses and Data Mining techniques. In the area of Artificial Intelligence, the Neural
Networks were also studied, once they are part of Data Mining applied to the forecast. As a
consequence of the development of this work, it was confirmed that the use of data Mining
along the stages of KDD was very eficient. Tests were conducted and it was possible to
develop models of forecast and the use of Neural Networks was put to practice, which proved
eficient enough for the process of forecast especially for its great capacitance of
generalization.
xi
1 INTRODUO
1.1 ORIGEM/MOTIVAO
A cada ano, companhias acumulam mais e mais informaes em seus bancos de dados.
Como conseqncia, estes bancos de dados passam a conter verdadeiros tesouros de
informao sobre vrios dos procedimentos dessas companhias. Toda esta informao pode
ser usada para melhorar seus procedimentos, permitindo que a empresa detecte tendncias e
caractersticas disfaradas, e reaja rapidamente a um evento que ainda pode estar por vir.
Alguns exemplos disto so o crescimento dos mecanismos de leitura de preo nos
supermercados, dos caixas eletrnicos, dos cartes de crdito, da televiso por assinatura, do
home shopping, da transferncia eletrnica de fundos, o processamento automtico de
pedidos, das bilheterias eletrnicas e outros.
Mas no se tem somente uma grande quantidade de dados sendo produzida; os dados
tambm esto sendo extrados cada vez mais dos sistemas de onde so gerados e alimentados
em um Data Warehouse, tornando-se parte da memria da empresa [HAR98].
Segundo [INM97], um Data Warehouse um conjunto de dados baseado em
assuntos, integrado, no-voltil, e varivel em relao ao tempo, de apoio s decises
gerenciais.
Com toda esta informao disponvel, seja em um Data Warehouse ou simplesmente
em uma Base de Dados, tende a crescer cada vez mais a demanda por sistemas que forneam
informaes precisas, que respondam s dvidas da empresa e que proporcionem uma tomada
de decises mais acertada. Um tipo de sistema que possui estes aspectos o Sistema de Apoio
Deciso (SAD).
Conforme [SPR91], os Sistemas de Apoio Deciso so sistemas computacionais que
ajudam os responsveis pela tomada de decises a enfrentar problemas estruturais atravs de
uma interao direta com modelos de dados e anlises.
No entanto, apesar do enorme valor desses dados, a maioria das organizaes incapaz
de aproveitar totalmente o que est armazenado em seus arquivos. Esta informao preciosa
est na verdade implcita, escondida sob uma montanha de dados, e no pode ser descoberta
2
utilizando-se sistemas de gerenciamento de banco de dados convencionais; elas precisam de
um significado. O significado permite a anlise dos dados observando modelos, estabelecendo
mecanismos e tendo novas idias para fazer previses sobre o futuro. Com o uso do Data
Mining pode-se acrescentar significado a esses dados.
Conforme [HAR98], o Data Mining, do modo como usado o termo, a explorao e
anlise, por meios automticos ou semi-automticos, de grandes quantidades de dados para
descobrir modelos e regras significativas.
O Data Mining pode ser aplicado tarefas como classificao, estimativas, previses,
agrupamento por afinidades ou reunio. Algumas destas tcnicas so melhor executadas
atravs de testes hipotticos, onde os dados do passado so verificados para aprovar ou no
idias ou suposies obtidas em cima dos dados disponveis. Alm destes testes hipotticos
pode ser utilizado tambm a descoberta de conhecimento, onde os dados falam por si
prprios. Este processo de descoberta de conhecimento pode ser de duas formas: a
direcionada e a no-direcionada. A forma direcionada tenta explicar ou categorizar alguns
campos de dados, como receitas ou respostas. A descoberta de conhecimento no-direcionada
tenta encontrar modelos ou similaridades entre grupos de registros sem um campo-alvo
especfico ou um conjunto de classes predefinidas [HAR98].
O que o Data Mining faz encontrar modelos interessantes nos dados. Mas no s
isso, deve-se poder agir aos modelos, em ltima anlise, transformando os dados em
informaes, as informaes em ao, e a ao em valores.
Reconhecendo o Data Mining como uma forma de incorporar significado aos dados,
prope-se especificar e desenvolver um Sistema de Apoio Decises para previses genricas
utilizando as tcnicas de Data Mining.
A quantidade de informao armazenada em bancos de dados est explodindo, e
ultrapassa a habilidade tcnica e a capacidade humana na sua interpretao. De compras
atravs de cartes de crdito a imagens pixel-a-pixel de galxias, bancos de dados so
medidos hoje em gigabytes e terabytes. A necessidade de transformar estes terabytes de dados
em informaes significativas bvia. Felizmente, tcnicas computacionais foram
3
desenvolvidas para analisar os dados, ou ao menos ajudar o analista a encontrar ordem no
caos, ou seja, conhecimento.
Data Mining uma tecnologia usada para revelar informao estratgica escondida em
grandes massas de dados. usada em diversas reas, como anlise de riscos, marketing
direcionado, controle de qualidade, anlise de dados cientficos, etc. Data Mining define o
processo automatizado de captura e anlise de enormes conjuntos de dados, para ento extrair
um significado. Esta tecnologia est sendo usado para descrever caractersticas do passado,
assim como predizer tendncias para o futuro. Sua utilizao permite avanos tecnolgicos e
descobertas cientficas, alm de garantir uma vantagem competitiva invejvel.
1.2 OBJETIVOS
O objetivo principal deste trabalho auxiliar o processo de tomada de decises de uma
empresa, atravs de um Sistema de Apoio Deciso utilizando tcnicas de Data Mining, mais
especificamente para efetuar previses genricas.
Os objetivos especficos so:
a) estudar as tarefas e tcnicas que o Data Mining incorpora;
b) demonstrar o potencial do Data Mining para previso, analisando as tcnicas mais
adequadas;
c) desenvolver um SAD que seja flexvel para o usurio, de modo que auxilie na
construo de modelos de previso;
d) aplicar o SAD desenvolvido no Jogo de Empresas.
4
O terceiro captulo enfatiza o Data Warehouse, que uma tecnologia que oferece
apoio ao Data Mining para desempenhar suas tarefas. Neste captulo sero apresentados seus
conceitos, componentes e vantagens.
O quarto captulo enfatiza os conceitos, tcnicas e aplicaes do Data Mining.
O quinto captulo enfatiza as Redes Neurais: conceito, rede neural biolgica, modelos,
limitaes, vantagens, desvantagens e aplicaes.
O sexto captulo apresenta a anlise, as caractersticas, o desenvolvimento e a
utilizao do modelo criado.
O stimo captulo completa o trabalho, apresentando as concluses, limitaes e
sugestes para serem implementadas e aprimoradas.
2 SISTEMAS DE INFORMAO
Este captulo apresenta os Sistemas de Informao, que so sistemas que ajudam os
empreendedores a compreender e agir melhor sobre as suas empresas. Nele sero descritos
seu conceito e os tipos de Sistemas de Informao. Os SI so a base para a construo de um
Data Warehouse.
2.1 CONCEITOS
Aumentar o capital intelectual de uma empresa uma necessidade competitiva. As
organizaes que usam com eficcia a tecnologia de informaes adquirem conhecimento e
velocidade para alcanar uma esmagadora superioridade nos mercados em que atuam.
[HAR98].
Atualmente, ainda existem empresas que possuem sistemas informatizados que servem
somente para efetuar as transaes operacionais e armazenar seus dados em uma base de
dados. Este tipo de sistema pode ser caracterizado como um sistema de transaes [OLI98].
Mas isso no o suficiente para essas empresas, onde todos tem que ser rpidos o
suficiente s oscilaes e variveis do mercado. Saem na frente as organizaes cujas pessoas
responsveis pela tomada de decises estratgicas conseguem fazer um trabalho correto e
rpido. Para isso, os dados precisam ser correlacionados de tal forma que os executivos e
analistas possam tomar decises mais facilmente e trabalhar com cenrios futuros. Tem-se
estimado que uma pequena frao das informaes est disponvel na mo dos executivos e o
outro tanto est nos computadores sendo cada vez mais acumulada [OLI98].
Desta forma, os executivos precisam de ferramentas que os auxiliem no gerenciamento
de suas empresas, como na anlise de dados e tomada de decises. Essas ferramentas so
chamadas de Sistemas de Informao, que so formas de se processar os dados de maneira
ordenada para buscar informaes com preciso e detectar tendncias para a vitalidade da
empresa. Os sistemas de informao tem um escopo diferente dos sistemas de transaes;
enquanto os dados operacionais esto focados em uma nica rea, os dados de informao
precisam relacionar um grande nmero de reas e um grande nmero de dados operacionais
[OLI98].
6
Ao mesmo tempo, enquanto a tecnologia para a manipulao e apresentao de dados
se expande, especialistas de tecnologia da informao concluram que de todas as informaes
que so geradas nas empresas, apenas uma parte minscula so dados realmente teis
[OLI98].
Segundo [ALT92], um Sistema de Informao uma combinao das formas de
trabalho, informaes, pessoas, e tecnologias de informao organizadas para alcanar metas
em uma Organizao (figura 1).
Fonte: [ALT92]
7
os mesmos consultarem. neste ponto da criao do alicerce de dados que fica localizada a
parte mais difcil de se montar um Sistema de Informao que responda rpido aos requisitos
de seu cliente [INM97].
Alguns estudos indicam que para cada U$ 9 gastos na preparao dos dados, gasto
U$ 1 para o Software e Hardware que compem os Sistemas de Informao [INM97].
E esta montagem do alicerce fica mais difcil ainda quando tem-se a conscincia de
que a gerncia a toda hora pode mudar de opinio sobre a informao que ela quer disponvel
[INM97].
8
e as que precisam monitorar seu prprio trabalho. Um exemplo disto so os
relatrios que so tirados diariamente para acompanhar o Faturamento da empresa;
d) Sistemas Especialistas (SE): torna o conhecimento de especialistas disponvel para
outros, e ajuda a resolver problemas de reas onde o conhecimento de especialistas
necessrio. Ele pode guiar o processo de deciso e assegurar que os fatores chave
sero considerados, e tambm pode ajudar uma empresa a tomar decises
consistentes. As pessoas que usam estes sistemas so aquelas que efetuam tarefas
onde deveria existir um especialista. Um sistema especialista pode ser, por
exemplo, um sistema onde mdicos dizem os sintomas e pesquisado em uma base
de conhecimento os possveis diagnsticos;
e) Sistema de Apoio Deciso (SAD): ajuda as pessoas a tomar decises, provendo
informaes, padres, ou ferramentas para anlise de informaes. Ele pode prover
mtodos e formatos para pores de um processo de deciso. Os maiores usurios
so os analistas, gerentes e outros profissionais. Os sistemas que disponibilizam
grficos 3D para comparativos so exemplos;
f) Sistema de Informaes Executivas (SIE): fornece informaes aos executivos de
uma forma rpida e acessvel, sem forar os mesmos a pedir ajuda a especialistas
em Anlises de Informaes. utilizado para estruturar o planejamento da
organizao e o controle de processos, e pode eventualmente tambm ser utilizado
para monitorar o desempenho da empresa. Um exemplo so os sistemas que
fornecem comparativos simples e fceis de Vendas x Estoque x Produo;
Esta forma de Sistemas de Informao que [ALT92] apresenta veio evoluindo e se
transformando muito nos ltimos anos, onde sua forma de apresentao mudou bastante.
Antes existia uma pirmide dividida em seis partes, na primeira camada os SPT, seguido do
SAE, SIG, SE, SAD e por final o SIE.
Atualmente, segundo [MAC96] estas seis partes se transformaram em apenas duas,
onde as linhas que separavam o segundo nvel do sexto nvel no fazem mais sentido. Estas
duas camadas so a OLTP (On Line Transaction Processing) que fica na base da Pirmide e a
OLAP (On Line Analytic Processing) que fica no topo (figura 2).
Fonte: [MAC96]
10
pois os Data Warehouses podem armazenar os dados em forma esttica, e so configurados e
otimizados para suportar complexas decises baseadas em dados histricos [OLI98].
O Data Warehouse um banco de dados contendo dados extrados do ambiente de
produo da empresa, que foram selecionados e depurados, alm de otimizados para
processamento de consulta, e no para processamento de transaes. Em geral, um Data
Warehouse requer a consolidao de outros recursos de dados que no os armazenados em
bancos de dados relacionais, incluindo informaes provenientes de planilhas eletrnicas, etc.
[DAL99].
A ferramenta OLAP constituda de um conjunto de tecnologias especialmente
projetadas para dar suporte ao processo decisrio atravs de consultas, anlises e clculos
mais sofisticados nos dados corporativos, estejam armazenados em um Data Warehouse ou
no, realizados pelos seus usurios. Esta ferramenta est se tornando, cada vez mais a
sucessora dos SIE e outros Sistemas do gnero com certas vantagens: ela no somente d
suporte ao processo decisrio, como tambm s estratgias dos negcios [BIS99].
Segundo [HAR98], OLAP essencial para a transformao do contedo do Data
Warehouse em uma forma til de informaes que possam ser entregues a um grande nmero
de usurios. J [BIS99] afirma que o OLAP permite aos seus usurios ganharem perspiccia
nas consultas e anlises dos dados, atravs de um acesso consistente, interativo e rpido em
uma grande variedade de possveis vises dos dados.
No OLAP, as respostas no so automticas. O processo interativo, onde o usurio
formula hipteses, faz consultas, recebe informaes, verifica um dado especfico em
profundidade e faz comparaes. Este processo ajuda a sintetizar as informaes sobre a
empresa, atravs de comparaes, vises personalizadas, anlises estatsticas, previses e
simulaes. Permite que os usurios se tornem exploradores de informaes [BIS99].
A maioria das ferramentas OLAP so implementadas para ambientes multiusurio e
arquitetura cliente/servidor, o que proporciona respostas rpidas e consistentes s consultas
iterativas executadas pelos usurios, independentemente da complexidade da consulta.
11
Essa ferramenta pode ser utilizada em diversas situaes, como no planejamento de
oramentos financeiros, anlise e estimativa de vendas, pesquisa de mercado, anlise de
clientes, planejamento de produo, etc.
Segundo comenta [HAR98], o mercado de OLAP gira em torno de quatro habilidades
diferentes, embora muitos combinem freqentemente estas funes de anlise:
a) consulta e relatrios: so aplicativos que proporcionam o tipo mais bsico de
anlise de dados e so teis para atender as solicitaes dos usurios relativas a
listas, contagens ou atualizaes de status onde as exigncias computacionais so
relativamente simples;
b) anlise multidimensional: so funes mais complexas que surgem da rpida
seqncia de questionamentos do usurio. Permite uma viso conceitual
multidimensional dos dados de uma empresa. A viso multidimensional dos dados
um conceito que pode parecer algo completamente abstrato e irreal; porm,
mais natural, mais fcil e intuitiva, permitindo a viso dos negcios da empresa em
diferentes perspectivas. Os dados ento podem ser analisados em vrias dimenses,
como regio, produto, tempo e vendedor. Cada uma destas dimenses podem
conter hierarquias, como por exemplo a dimenso tempo pode conter as hierarquias
de ano, semestre, ms. [BIS99]. Os aplicativos de anlise multidimensional
permitem que os usurios entrem em qualquer dimenso de um Data Warehouse e
naveguem para outras dimenses livremente;
c) anlise estatstica: projetada para reduzir uma grande quantidade de dados a uma
simples relao ou frmula, como clculos de mdia. Anlises estatsticas mais
sofisticadas incluem regresso, correlao, fatorao e agrupamentos. So
geralmente utilizadas para gerar os tipos de modelos usados em aplicativos de
previses de vendas e segmentao de mercado;
d) Data Mining: usa muitas tcnicas da anlise estatstica, mas ele acrescenta funes
mais complexas como redes neurais para identificar modelos e relaes em um
conjunto de dados analisados. particularmente til para problemas de modelagem
no-lineares com grandes nmeros de variveis.
12
3 DATA WAREHOUSE
Este captulo apresenta o Data Warehouse, que uma tecnologia que serve para o
armazenamento e tratamento das informaes das empresas de uma forma mais ordenada.
Nele sero descritos os seus conceitos, componentes e vantagens. O Data Warehouse a base
para a construo de um Data Mining.
3.1 CONCEITOS
Em pouco tempo, novas tecnologias e conceitos para tratamento de informaes esto
surgindo e evoluindo para ajudar a resolver os problemas das empresas, onde atravs dessas
tecnologias, pessoas tero um acesso mais rpido e global s informaes j lapidadas. Uma
destas ferramentas o Data Warehouse [OLI98].
Segundo [OLI98], "O Data Warehouse um banco de dados que armazena dados
sobre as operaes da empresa (vendas, compras, finanas, etc.) extrados de uma fonte nica
ou mltipla, e transforma-os em informaes teis, oferecendo um enfoque histrico, para
permitir um suporte efetivo deciso".
Palma [PAL98] salienta que Um armazm de dados se prope a compatibilizar um
nmero grande de sistemas desintegrados oriundos do legado a uma coleo igualmente
diversa de tipos de estaes de trabalho de usurio final. Este acervo de dados, se explorado
de forma inteligente, alm de favorecer a tomada de decises, propicia maior lucratividade
nos negcios [INM97].
Um Data Warehouse capaz de prover vrias vises das informaes para um grupo
de usurios. Ele capaz de derivar informaes de dados que antes eram totalmente
independentes um do outro [OLI98].
O Data Warehouse um depsito de dados orientado a assunto, alimentado pelos
vrios sistemas transacionais da empresa, no qual se podem buscar informaes para o
conhecimento do negcio. Nele os dados esto agrupados e, dessa forma, fcil a
visualizao dos mesmos. O Data Warehouse orientado a temas faz referncia ao
armazenamento de informaes sobre temas especficos e importantes para o negcio da
empresa. E tambm deve ser consistente, de forma a possuir uma uniformidade para viabilizar
13
uma melhor anlise das informaes. A implementao de um tema pode corresponder a um
conjunto de tabelas relacionadas. Elas devem ter um elemento temporal e um identificador em
comum, mas seus nveis de detalhe e sumarizao so diferentes [DAL99].
Uma grande vantagem de um Data Warehouse a de permitir a tomada de decises
baseadas em fatos. Na verdade, ele busca disponibilizar organizao o grande volume de
dados que foram e esto sendo armazenados em bases de dados operacionais, espalhadas por
toda a empresa [TAU98].
Os dados em um Data Warehouse no so atualizados de forma on-line, eles so
gerados em blocos e gravados aps a integrao. Aps este processo que os dados ficaro
disponveis para os usurios.
O Data Warehouse no um produto ou mesmo um conjunto de produtos, mas
processos suportados por diversas tecnologias: ele coleta dados das vrias aplicaes
operacionais; integra-os em um modelo lgico, por reas de negcio; armazena as
informaes de tal maneira que possam ser recuperadas por usurios pouco tcnicos; e entrega
essas informaes aos tomadores de deciso atravs de ferramentas de fcil uso, como
geradores de relatrios e de consulta [TAU98].
O tamanho do Data Warehouse por si no o fator determinante de seu sucesso. O seu
uso como ferramenta de suporte a decises que o principal fator. absolutamente
necessrio que ele seja desenhado para acomodar as mudanas da viso de negcio,
principalmente quando essas mudanas so cada vez mais rpidas [TAU98a].
Sua implementao permite anlises de tendncias e pode identificar relacionamentos
muitas vezes desconhecidos ou simplesmente intuitivos. Nesses tempos de intensa e cruel
competio, uma ferramenta que permita anlises mais precisas e respostas mais rpidas da
organizao deve ser encarada como estratgica [TAU98].
3.2 COMPONENTES
WAREHOUSE
FUNCIONAIS
DE
UM
DATA
14
15
coisas, envie automaticamente relatrios e monitore o estado de vrias funes do
negcio empresarial;
b) facilidades de consulta e ambientes de gerenciamento de consultas: transformam
um grande e complexo ambiente de armazm de dados, em uma amigvel e bemadministrada estao de trabalho;
c) anlise estatstica: o interesse na anlise estatstica tradicional com uma volta da
popularidade dos pacotes estatsticos, como o SAS e o SPSS;
d) descoberta de dados: utilizando redes neurais, lgica nebulosa, rvores de deciso e
outras ferramentas de matemtica e estatstica avanada, esses produtos permitem
que os usurios peneirem quantidades volumosas de dados crus para descobrir
aspectos novos, teis sobre a companhia, suas operaes e seus mercados;
e) OLAP: O processo on-line analtico ou ferramentas de planilha eletrnica
multidimensionais representam uma nova gerao de sistemas amigveis de alto
poder de soluo. Esses sistemas permitem que as pessoas analisem a mesma
informao de diversas perspectivas;
f) visualizao de dados: essas ferramentas transformam simples nmeros em
excitantes apresentaes visuais. Provavelmente, as ferramentas de visualizao
mais populares caem sob o ttulo de sistemas de informao geogrficos. Estes
transformam dados sobre lojas, indivduos ou qualquer outra coisa em mapas
dinmicos e de fcil compreenso.
16
3.4 VANTAGENS
O Data Warehouse feito sob medida para as necessidades do Analista de Sistemas de
Informao, e por este motivo sua construo e definio so extremamente complicadas.
Uma vez que ele est construdo, a tarefa do Analista fica mais fcil do que quando ele no
tinha este alicerce [INM97].
Conforme [INM97] relata, as vantagens para o Analista de Sistemas de Informao
com o uso do Data Warehouse so:
a) no precisa procurar pela fonte definitiva de dados;
b) no precisa criar programas de extrao especiais a partir dos sistemas existentes;
c) no precisa se preocupar com dados no integrados;
d) no precisa se preocupar com dados detalhados ou resumidos e a conexo entre os
dois tipos;
e) no precisa se preocupar em encontrar um horizonte de tempo adequado;
f) no precisa se preocupar com a constante mudana de opinio por parte da
gerncia sobre o que precisa ser examinado a seguir;
g) dispe de um rico suprimento de dados resumidos.
Para obter os dados necessrios, o Analisa de SI pode obt-las a partir do nvel
individual de processamento, do nvel de processamento departamental (data marts), do nvel
resumido ou at mesmo do histrico de operaes. Se o Analista partir da anlise dos dados
do nvel individual para o nvel de histrico ele ter uma viso prospectiva do processo, quer
dizer, cada vez mais ele ir se aprofundando nas informaes para a soluo de problemas
[INM97].
Os Sistemas de Informao tem as seguintes funes:
a) usar o Data Warehouse como o local onde os dados esto disponveis de forma
resumida;
b) usar a Construo do Data Warehouse para dispor de uma viso prospectiva;
c) usar os metadados do Data Warehouse para que o analista de SI possa planejar o
modo como o Sistema de Informao ser construdo;
d) usar o contedo histrico do Data Warehouse para oferecer suporte a anlise de
tendncias que a gerncia deseja;
17
e) usar a integrao dos dados que o Data Warehouse proporciona para se ter uma
viso geral da corporao.
Resumindo, h uma afinidade muito forte entre o Analista de Sistema de Informaes
e o Data Warehouse, onde o Data Warehouse o fundamento que o Analista necessita para
um eficiente Sistema de Informao. Com um Data Warehouse bem projetado e com
informaes, o Analista pode tomar uma postura pr-ativa diante das necessidades da
gerncia fazendo anlises em cima das informaes, em vez de ter sempre uma postura reativa
s mesmas necessidades.
O Data Warehouse , sem dvida, um conjunto de tecnologias com altssimo potencial
para as organizaes. Entretanto, exige cuidados especiais para sua implementao. Alm das
disciplinas tradicionais de gerenciamento de projetos, o Data Warehouse deve ser desenhado
com todos os objetivos do negcio em mente. Se os executivos no o usarem, certamente no
ter tido sucesso. Por outro lado, seu uso poder transformar radicalmente o prprio processo
decisrio da organizao e possibilitar melhores e maiores condies de sobrevivncia e
crescimento nesse novo e cruel ambiente de negcios.
18
4 DATA MINING
A tecnologia tornou relativamente fcil o acmulo de dados. A conseqncia a
ampliao do uso dos Data Warehouses, grandes repositrios de dados, agregados de forma
organizada e eficiente, e em geral, de natureza histrica. Ao mesmo tempo, informao
valorizada como nunca antes na histria, e os dados armazenados nos Data Warehouses so
vasculhados por profissionais especializados, a procura de tendncias e padres.
Entretanto, a anlise desses dados ainda demorada, dispendiosa, pouco automatizada,
e sujeita a erros, mal-entendidos e falta de acurcia. A automatizao dos processos de anlise
de dados, com a utilizao de softwares ligados diretamente massa de informaes, se
tornou uma necessidade, j que o aproveitamento das informaes j existentes,
transformando-as em conhecimento, permite avanos sem paralelo na histria do
desenvolvimento dos bancos de dados [FIG98].
Este captulo apresenta o Data Mining, que a explorao e anlise, por meios
automticos ou semi-automticos, de uma grande quantidade de dados para descobrir padres
e regras significativos [BER97]. Nele sero descritas as etapas do Processo de
KDD
19
Devido a essas caractersticas incomuns, todo o processo de KDD depende de uma
nova gerao de ferramentas e tcnicas de anlise de dados, e envolve diversas etapas. A
principal, que forma o ncleo do processo, e que muitas vezes se confunde com ele, chama-se
Data Mining, ou Minerao de Dados, tambm conhecido como processamento de padres de
dados, arqueologia de dados, ou colheita de informao (information harvesting).
O KDD compreende todo o processo de descoberta de dados, enquanto o Data Mining
refere-se a aplicao de algoritmos para extrao de padres de dados, sem os passos
adicionais do KDD e da anlise dos resultados [AVI98].
Fonte: [FIG98]
20
repositrios de dados extremamente organizados. Entretanto, em algumas aplicaes de Data
Mining mais especficas, ferramentas avanadas de representao de conhecimento podem
descrever o contedo de um banco de dados por si s, usando esse mapeamento como uma
meta-camada para os dados.
Prosseguindo no processo, chega-se fase de Data Mining especificamente, que
comea com a escolha dos algoritmos a serem aplicados. Essa escolha depende
fundamentalmente do objetivo do processo de KDD: classificao, segmentao,
agrupamento por afinidades, estimativas, etc. De modo geral, na fase de Data Mining,
ferramentas especializadas procuram padres nos dados. Essa busca pode ser efetuada
automaticamente pelo sistema ou interativamente com um analista, responsvel pela gerao
de hipteses. Diversas ferramentas distintas, como redes neurais, induo de rvores de
deciso, sistemas baseados em regras e programas estatsticos, tanto isoladamente quanto em
combinao, podem ser ento aplicadas ao problema. Em geral, o processo de busca
iterativo, de forma que os analistas revem o resultado, formam um novo conjunto de
questes para refinar a busca em um dado aspecto das descobertas, e realimentam o sistema
com novos parmetros. Ao final do processo, o sistema de Data Mining gera um relatrio das
descobertas, que passa ento a ser interpretado pelos analistas de minerao. Somente aps a
interpretao das informaes obtidas encontra-se o conhecimento.
Uma diferena significante entre Data Mining e outras ferramentas de anlise est na
maneira como exploram as interrelaes entre os dados. As diversas ferramentas de anlise
disponveis dispem de um mtodo baseado na verificao, isto , o usurio constri hipteses
sobre interrelaes especficas e ento verifica ou refuta, atravs do sistema. Esse modelo
torna-se dependente da intuio e habilidade do analista em propor hipteses interessantes, em
manipular a complexidade do espao de atributos, e em refinar a anlise baseado nos
resultados de consultas ao banco de dados potencialmente complexas. J o processo de Data
Mining fica responsvel pela gerao de hipteses, garantindo mais rapidez, acurcia e
completude aos resultados.
Estas etapas so interdependentes, pois os resultados de cada uma so a entrada da
prxima etapa. Toda a abordagem dirigida por resultados e cada estgio depende dos
resultados do estgio anterior [HAR98]. Mas no existe uma ordem ou seqncia totalmente
nica para o andamento deste processo, porque isso depende das tcnicas empregadas e dos
21
dados sobre os quais o KDD est sendo aplicado [AVI98]. A qualquer momento, por
exemplo, pode-se voltar o processo de KDD para uma etapa anterior, desde que a tcnica e os
dados empregados permitam.
4.3.1 CLASSIFICAO
Classificao uma tcnica que consiste na aplicao de um conjunto de exemplos
pr-classificados para desenvolver um modelo capaz de classificar uma populao maior de
registros. Deteco de fraudes e aplicaes de risco so exemplos de casos em que este tipo de
anlise bastante apropriada. Em geral, algoritmos de classificao incluem rvores de
deciso ou redes neurais, e comeam com um treinamento a partir de transaes-exemplo. O
algoritmo classificador usa estes exemplos para determinar um conjunto de parmetros,
codificados em um modelo, que ser mais tarde utilizado para a discriminao do restante dos
dados.
Uma vez que o algoritmo classificador foi desenvolvido de forma eficiente, ele ser
usado de forma preditiva para classificar novos registros naquelas mesmas classes prdefinidas.
Alguns exemplos de Classificao so:
22
a) classificar pedidos de crditos como de baixo, mdio e alto risco;
b) esclarecer pedidos de seguro fraudulentos;
c) atribuir palavras-chave a artigos jornalsticos.
4.3.2 ESTIMATIVA
Uma variao do problema de classificao envolve a gerao de valores ao longo das
dimenses dos dados: so os chamados algoritmos de estimativa. A estimativa lida com
resultados contnuos, ao contrrio da classificao que lida com resultados discretos.
Fornecidos alguns dados, usa-se a estimativa para estipular um valor para alguma varivel
contnua desconhecida como receita, altura ou saldo de carto de crdito.
Ao invs de um classificador binrio determinar um risco positivo ou negativo, a
tcnica gera valores de escore, dentro de uma determinada margem. A abordagem de
estimativa tem a grande vantagem de que os registros individuais podem ser agora ordenados
por classificao, e as redes neurais so adequadas a esta tarefa.
Exemplos de Estimativa incluem:
a) estimar o nmero de filhos numa famlia;
b) estimar a renda total de uma famlia;
c) estimar o valor em tempo de vida de um cliente.
23
ou propagandas, e introduzir atividades promocionais especficas. Um exemplo mais distinto,
onde essa mesma tcnica pode ser utilizada, o caso de um banco de dados escolar,
relacionando alunos e disciplinas. Uma regra do tipo 84% dos alunos inscritos em
Introduo ao Unix tambm esto inscritos em Programao em C pode ser usada pela
direo ou secretaria para planejar o currculo anual, ou alocar recursos como salas de aula e
professores [FIG98].
4.3.4 PREVISO
A previso o mesmo que classificao ou estimativa, exceto pelo fato de que os
registros so classificados de acordo com alguma atitude futura prevista. Em um trabalho de
previso, o nico modo de confirmar a preciso da classificao esperar para ver.
Essa tarefa uma variante do problema de agrupamento por afinidades, onde as regras
encontradas entre as relaes podem ser usadas para identificar seqncias interessantes, que
sero utilizadas para predizer acontecimentos subsequentes. Nesse caso, no apenas a
coexistncia de itens dentro de cada transao importante, mas tambm a ordem em que
aparecem, e o intervalo entre elas. Seqncias podem ser teis para identificar padres
temporais, por exemplo entre compras em uma loja, ou utilizao de cartes de crdito, ou
ainda tratamentos mdicos.
Exemplos de tarefas de previso:
a) previso de quais clientes sairo nos prximos seis meses;
b) previso da quantia de dinheiro que um cliente utilizar caso seja oferecido a ele
um certo limite de carto de crdito.
4.3.5 SEGMENTAO
A segmentao um processo de agrupamento de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos. O que a distingue da classificao que
segmentao no depende de classes pr-determinadas.
Essa segmentao realizada automaticamente por algoritmos que identificam
caractersticas em comum e particionam o espao n-dimensional definido pelos atributos.
24
Os registros so agrupados de acordo com a semelhana e depende do usurio
determinar qual o significado de cada segmento, caso exista algum. Muitas vezes a
segmentao uma das primeiras etapas dentro de um processo de Data Mining, j que
identifica grupos de registros correlatos, que sero usados como ponto de partida para futuras
exploraes. O exemplo clssico o de segmentao demogrfica, que serve de incio para
uma determinao das caractersticas de um grupo social, visando desde hbitos de compras
at utilizao de meios de transporte.
25
Por outro lado, a quantidade de dados brutos armazenados em Data Warehouses
corporativos est crescendo rapidamente, tornando o espao de deciso muito extenso e
complexo para os atuais sistemas de suporte a deciso.
[FIG98] explica que por causa desta grande quantidade de dados brutos, todo o
processo de KDD atual ainda requer pr/ps-processamentos dos dados, necessrios para
assegurar o melhor aproveitamento da aplicao e a consistncia dos resultados. Atividades de
pr-processamento incluem a seleo apropriada de subconjuntos de dados, por razes de
desempenho, assim como complexas transformaes de dados que servem de ponte para o
chamado gap representacional, separao entre os dados e seu significado real. Psprocessamento envolve a subseleo de resultados volumosos e a aplicao de tcnicas de
visualizao para auxiliar o entendimento. Essas atividades so crticas para contornar alguns
problemas de implementao, tais como:
a) alta suscetibilidade a dados sujos: as ferramentas de Data Mining via de regra
no possuem uma estrutura dotada de semntica, orientada a aplicao, e como tal,
tomam todos os dados factualmente. Torna-se necessrio tomar precaues para
assegurar que os dados analisados so limpos, o que pode significar uma
exaustiva anlise dos atributos que alimentam os algoritmos. Entretanto, um bom
processo de limpeza de dados (data cleaning), utilizado na passagem dos dados
para um Data Warehouse certamente beneficia o processo de Data Mining.
b) inabilidade para explicar resultados em termos humanos: mesmo em aplicaes
utilizando rvores de deciso e regras de induo, que so capazes de gerar
informao sobre os atributos utilizados, o volume e formato da informao
encontrada pode ser intil sem um processamento adicional.
c) gap representacional: a maior parte das fontes de dados das aplicaes de Data
Mining atuais est armazenada em grandes sistemas relacionais, e seus dados esto
em geral normalizados, com os atributos espalhados em mltiplas tabelas. Alm
disso, a maioria das ferramentas restrita em termos dos tipos de dados com as
quais podem operar, tornando-se necessrio categorizar variveis ou remape-las.
26
4.4.1 MODELOS
Conforme salienta [HAR98], um modelo produz um ou mais valores a partir de um
dado conjunto de entradas. A anlise dos dados , com freqncia, o processo de construo
de um modelo apropriado para os dados (figura 4). Um exemplo disso uma regresso linear,
onde construda sobre um modelo em linha com a seguinte forma:
aX + bY + c = 0
Onde a, b, c so os parmetros e X e Y so as variveis. Para um dado valor de X,
estima-se o valor de Y. Este tipo de modelo um dos mais simples existentes.
O fato de um modelo existir no significa que proporcionar resultados precisos.
Existem bons e maus modelos e, medir seus resultados um passo crtico em seu uso e
desenvolvimento [HAR98].
Fonte: [BER97]
27
Na criao dos modelos, a entrada geralmente especificada claramente. Geralmente,
preparar os dados de sistemas para preencher o domnio de um modelo chamado de
depurao de dados ou data scrubbing mais desafiador do que a prpria criao do
modelo. Os dados que alimentaro o modelo podem afetar a escolha da tcnica. Para
problemas fsicos, com muitas variveis contnuas de entrada, as tcnicas de regresso
estatsticas normalmente funcionam muito bem. Quando as entradas tem muitas variveis de
categorias, as rvores de deciso funcionam melhor. Quando a relao entre as entradas e a
sada de dados difcil de ser estabelecida, as redes neurais so as melhores opes.
Freqentemente a sada de dados de um modelo especificada em primeiro lugar e
geralmente uma categoria ou uma varivel contnua.
Segundo [BER97], para criar um modelo para Data Mining, deve-se ter em mente o
seguinte:
a) um dos perigos no uso de modelos o excesso ou a carncia de dados;
b) tanto o Data Mining direto quanto o indireto usam modelos, mas de maneira
diversa;
c) alguns modelos expem sua finalidade melhor que outros;
d) alguns modelos so mais fceis de aplicar que outros.
4.4.2.2 MBR
O MBR (Memory-Based Reasoning raciocnio baseado em memria) uma tcnica
de Data Mining dirigida que usa exemplos conhecidos como modelo para fazer previses
28
sobre exemplos desconhecidos. O MBR procura os vizinhos mais prximos nos exemplos
conhecidos e combina seus valores para atribuir valores de classificao ou de previso
[BER97].
Os elementos-chave no MBR so a funo de distncia usada para encontrar os
vizinhos mais prximos e a funo de combinao, que combina valores dos vizinhos mais
prximos para fazer uma previso. Uma vantagem do MBR sua habilidade de aprender
sobre novas classificaes simplesmente introduzindo novos exemplos no banco de dados.
Uma vez encontrada a funo de distncia e a funo de combinao corretas tendem a
permanecer muito estveis, mesmo com a incorporao de novos exemplos para novas
categorias nos dados conhecidos. Alis, esta uma caracterstica que diferencia o MBR da
maior parte das outras tcnicas de Data Mining.
29
30
Anlise de seleo
estatstica
MBR
Algoritmos genticos
Deteco de grupos
Anlise de vnculos
rvores de deciso
Redes neurais
Fonte: [HAR98]
31
5 REDES NEURAIS
Este captulo apresenta as redes neurais artificiais, que so umas das tcnicas utilizadas
para implementar algumas tarefas de Data Mining. Nele ser descrita a definio das redes
neurais artificiais e apresentada uma semelhana com a rede neural biolgica humana.
Tambm ser demonstrada sua estrutura e componentes, sua aprendizagem, revocao,
vantagens e desvantagens.
As redes neurais artificiais so muito utilizadas para efetuar a tarefa de previso em
Data Mining, principalmente com o modelo de rede Feedforward/Backpropagation que
apresentado neste captulo. E a compreenso do funcionamento bsico de uma rede neural
artificial de extrema importncia para a aplicao de um Data Mining com o uso da mesma.
32
Fonte: [VAL97]
33
inteligente de uma rede neural artificial vem das interaes entre as unidades de
processamento da rede [LOE96].
A maioria dos modelos de redes neurais possui alguma regra de treinamento, onde os
pesos de suas conexes so ajustados de acordo com os padres apresentados. Em outras
palavras, elas aprendem atravs de exemplos [LOE96].
Arquiteturas neurais so tipicamente organizadas em camadas, com unidades que
podem estar conectadas s unidades da camada posterior (figura 6).
Fonte: [VAL97]
34
Processar
Entradas
Sada
Processamento
=
Sada
Desejada
Ajustar Pesos
Parar
Fim
35
considerado como a capacidade que a rede possui de modificar o seu desempenho a
partir da comparao entre a resposta obtida e a resposta desejada. A partir das
entradas fornecidas, os pesos das conexes so ajustados por clculo at obter-se as
sadas desejadas [VAL97]. Como um exemplo de arquitetura de rede com
aprendizado supervisionado pode ser citada a BackPropagation;
b) Aprendizado No Supervisionado (auto-organizao): estas redes tm a capacidade
de determinar uma correlao entre os possveis padres de entrada que so
particularmente teis nos problemas em que as entradas variam com o tempo de
forma conhecida. Pode-se considerar este mecanismo de aprendizado como sendo a
capacidade que a rede possui de abstrair correlaes entre os estmulos de modo a
obter as respostas desejadas. Somente as entradas so apresentadas rede. A
mesma auto-organizada e ajusta-se s entradas fornecidas. Como um exemplo de
arquitetura de rede com aprendizado no-supervisionado pode ser citada a
Kohonen [VAL97].
Denomina-se ciclo uma apresentao de todos os N pares (entrada e sada) do conjunto
de treinamento no processo de aprendizado. A correo dos pesos num ciclo pode ser
executado de dois modos:
a) Modo Padro: A correo dos pesos acontece a cada apresentao rede de um
exemplo do conjunto de treinamento. Cada correo de pesos baseia-se somente no
erro do exemplo apresentado naquela iterao. Assim, em cada ciclo ocorrem N
correes.
b) Modo Batch: Apenas uma correo feita por ciclo. Todos os exemplos do
conjunto de treinamento so apresentados rede, seu erro mdio calculado e a
partir deste erro fazem-se as correes dos pesos.
5.2.2 REVOCAO
Aps o modelo de rede ter sido submetido a um perodo de aprendizagem ou
treinamento, aplica-se um processo denominado de revocao. A revocao consiste em
aplicar os resultados obtidos com o treinamento da rede (valor estabelecidos para as
conexes) em aplicaes cujas variveis de entrada, podem ou no ser iguais (ou bastante
prximas) s oferecidas quando do aprendizado [VAL97].
36
Revocao o processo onde se verifica a efetividade da aprendizagem. Atravs deste
processo a rede dever reconhecer ou no novos padres de entrada que lhe forem
apresentados.
Aplicaes Bsicas
Ano
Adaline/Madaline
Modelo
1960
Reconhecimento de Padres
1983
(ART)
Backpropagation Perceptron
Reconhecimento de padres, filtragem de sinal, controle 1974robtico, compresso de dados, segmentao de sinal, etc.
1986
1987
Bidirecional
Boltzmann Machine, Cauchy
Machine
otimizao
Brain-State-in-a-Box (BSB)
Revocao autoassociativa
1977
Hopfield
1982
Neocognitron
1975
Quantizao de Vetor de
aprendizagem
Recurrent
1987
Classificao, mapeamento
1988
Time-Delay
Reconhecimento de fala
1987
37
todas arquiteturas e modelos de redes neurais conhecidas [WIL95]. O que ele trouxe de
diferente em relao aos modelos existentes at ento foram as mltiplas camadas, com a
possibilidade de valores de entradas e sadas contnuos (ex. 0.0001 0.9999).
Este modelo utiliza-se de valores contnuos (ex. 0.0001 0.9999), o que difere do
modelo Perceptron que utiliza valores discretos (ex. 0 ou 1) [LOE96].
Uma aplicao modelada nesta topologia, necessita de padres de entrada e sada, para
a qual a rede converge e se estabiliza, constituindo o que denomina-se de treinamento ou
aprendizado da rede. Este modelo utiliza-se de aprendizado supervisionado, ou seja, a cada
padro de entrada est associado a uma sada desejada [VAL97].
Os elementos de processamento das camadas ocultas do ao modelo a capacidade de
abstrao e generalizao, ou seja, capaz de classificar um padro complexo mesmo quando
este no pertenceu ao conjunto de treinamento. A rede portanto imune a pequenas falhas.
O treinamento deste modelo de rede consiste em ajustar os pesos de conexes das
camadas para que o conjunto de entradas atinja o conjunto de sadas desejadas.
A revocao feita diante dos pesos das conexes armazenadas em arquivos. Nesta
etapa, um novo padro de entrada oferecido (como par de entrada) rede, ela computa e
gera uma sada [VAL97].
Sua rpida operacionalizao, apresentando capacidade de generalizao, robustez e
abstrao so suas principais vantagens. O fato de requerer um longo tempo de treinamento,
em funo da necessidade de estabilizao e convergncia da rede sua desvantagem,
segundo [LOE96].
38
6 DESENVOLVIMENTO DO SAD
Para o desenvolvimento do SAD, adotou-se algumas etapas da metodologia de
prototipao fundamental. Esta, segundo [MEL90], uma metodologia no qual tanto os
analistas quanto os usurios sabem que o produto final da prototipao ser o prprio sistema,
j na sua forma aperfeioada. A metodologia de prototipao fundamental dividida em oito
etapas, mais foi feita uma adaptao nas mesmas e foram utilizadas apenas quatro (figura 8).
1. Necessidades
do Usurio
2. Levantamento
de Requisitos
3.
Desenvolvimento
do Prottipo
4. Demonstrao e
Reviso do
Prottipo
39
Decidiu-se ento desenvolver um prottipo de Sistema de Apoio Deciso que utilize
a tcnica de Data Mining (item 4). O Data Mining pode ser caracterizado pela execuo de
vrias tarefas, mas neste caso escolheu-se implementar a tarefa de previso. A tarefa de
previso algo que os executivos solicitam muito e, na maior parte das vezes elas ajudam a
tomar decises, uma vez que indicam o que as decises corretas e incorretas podem acarretar.
Este SAD deve ser um sistema parametrizvel, onde o usurio tenha a liberdade de
escolher as variveis que ele deseja prever. Fazendo-o assim, o sistema ser flexvel o
suficiente para o usurio prever qualquer tipo de informao que desejar.
40
Em relao ao banco de dados que ir armazenar as informaes, optou-se pelo Sybase
SQL Anywhere que, apesar de no ser um banco de dados de alta performance, foi escolhido
pela sua flexibilidade e praticidade na utilizao. Esse banco de dados pode rodar tanto em
modo standalone, quanto em modo cliente/servidor; dependendo somente de sua
configurao.
A partir daqui ser apresentada a especificao do sistema onde foram utilizados o
Diagrama de Contexto, o Diagrama de Fluxo de Dados, o Dicionrio de Dados e o Modelo
Entidade-Relacionamento.
Para
especificao
foram
utilizadas
as
ferramentas
Diagrama de Contexto
Dados para Previso
Usurio
Resultado da Previso
Resultado da Revocao
Seleo Dados Revocao do Modelo
Data Warehouse
1
Dados Histrico Revocao Sistema de
Apoio
Deciso
Dados de Histrico Treinamento
Modelo Previso
41
Warehouse fornecer para o sistema as variveis de entrada e sada e seus respectivos dados
para o treinamento e revocao do modelo definido.
DFD 0
1.1
Definir
Modelo
Previso
[Modelo Previso]
Usurio
Definies Rede
DefModelo : 1
Usurio
DefSaidas : 1
DefEntradas : 1
Definies Variveis Entrada
Data
Warehouse
Efetuar
Treinamento
Rede
Definies Rede
DefModelo : 2
Definies Rede
1.3
Efetuar
Revocao
Rede
Pesos Conexes
Usurio
[Resultado da Revocao]
Definies Variveis Entrada
Usurio
Pesos Conexes
DefEntradas : 2
PesosModelo
[Resultado da Previso]
Usurio
1.4
Definies Rede
DefModelo : 3
Efetuar
Previso
Definies Variveis Sada
DefSaidas : 2
42
Descreve-se a seguir os processos do DFD0:
a) definir o modelo previso: neste passo o usurio est definindo o Modelo de
Previso que ele deseja efetuar. Um Modelo de Previso um conjunto de
informaes que iro influenciar diretamente na funcionalidade do sistema. Neste
momento o usurio definir informaes como o nome do modelo, o nmero de
iteraes da rede para o treinamento, as variveis de entrada e de sada com as
respectivas regras de pr-processamento, a indicao de retreinamento da rede, a
taxa de aprendizado e a taxa de erros;
b) efetuar o treinamento da rede: neste passo, aps ter definido todas as informaes
do modelo de previso, o usurio dever treinar a rede selecionando os dados do
Data Warehouse conforme desejar. Este passo de extrema importncia para o
correto funcionamento do Modelo de Previso, pois dependendo dos dados que
forem utilizados para o treinamento da rede, seu comportamento pode ser
totalmente diferente;
c) efetuar a revocao da rede: o passo de revocao consiste em verificar se a rede
est respondendo conforme a aprendizagem ela aplicada. O usurio ento
seleciona os dados a partir do Data Warehouse para efetuar a revocao. Se for
verificado que a mesma ainda no est respondendo conforme o esperado, o
momento de efetuar um retreinamento;
d) efetuar previso: esta etapa caracterizada pela utilizao do modelo treinado e
revocado para efetuar finalmente a previso dos dados. Neste momento o usurio
entra com os dados das variveis de entrada e a partir da o SAD processa a rede
neural para obter a resposta e mostrar o resultado para o mesmo.
43
b) dados de histrico para treinamento: dados do Data Warehouse para o usurio
selecionar durante o treinamento;
c) seleo de dados para treinamento da rede: seleo de dados do Data Warehouse
para treinamento (conforme definio de variveis de entrada e de sada);
d) dados de histrico para revocao: dados do Data Warehouse para o usurio
selecionar durante a revocao;
e) seleo de dados para revocao da rede: seleo de dados do Data Warehouse
para revocao (conforme definio de variveis de entrada e sada);
f) resultado da revocao: dados resultantes do processamento da rede neural
(conforme definio de variveis de sada);
g) dados de previso: dados de entrada para serem previstos (conforme definio de
variveis de entrada);
h) resultado da previso: dados resultantes da previso (conforme definio de
variveis de sada).
CODMOD
DESCRICAO
ITERACOES
RETREINAMENTO
TX_APRENDIZADO
TX_ERRO
OBSERVACAO
I
VA30
I
VA3
N5,2
N5,2
VA250
TDEFENTRADAS
CODMOD
NROENT
DESCENTRADA
PRE_PROCESS_MIN
PRE_PROCESS_MAX
TDEFSAIDAS
I
I
VA128
N12,2
N12,2
CODMOD
NROSAI
DESC_SAIDA
PRE_PROCESS_MIN
PRE_PROCESS_MAX
TPESOSMODELO
CODMOD
I
NROPES
I
PESOS
VA60
I
I
VA128
N12,2
N12,2
44
45
46
MERCADO
VA15
I
I
I
N12,2
N12,2
N12,2
I
I
N12,2
N12,2
N12,2
I
I
N12,2
N12,2
N12,2
I
N12,2
I
I
I
N5,2
ESTA RELACIONADO
GERAL
ARQUIVO
MES
META_ANUAL_RENTABILIDA DE
META_ANUAL_VENDAS
CONJUNTURA_ECONOMICA_ ANO
TAXA_INFLACAO_MES
PRODUCAO_ESTIMADA_ANO
VENDAS_ESTIMADA_ANO
SALDO_OPERACOES_FINANCEIRAS
RENTABILIDADE_PATRIMONI AL
META_RENTABILIDADE
META_VENDAS
VA15
I
N6,2
N12,2
N6,2
N6,2
I
I
N12,2
N6,2
N6,2
I
ARQUIVO
MES
PRECO_PRODUTO_A
PRAZO_PARCELAS_PRODUT O_A
ESTOQUE_INICIAL_A
VENDAS_VISTA_A
VENDAS_PRAZO_A
ESTOQUE_FINAL_A
PRECO_PRODUTO_B
PRAZO_PARCELAS_PRODUT O_B
ESTOQUE_INICIAL_B
VENDAS_VISTA_B
VENDAS_PRAZO_B
ESTOQUE_FINAL_B
PRECO_PRODUTO_C
PRAZO_PARCELAS_PRODUT O_C
ESTOQUE_INICIAL_C
VENDAS_VISTA_C
VENDAS_PRAZO_C
ESTOQUE_FINAL_C
DESPESAS_PROPAGANDA
SAZIONALIDADE_B
SAZIONALIDADE_C
VA15
I
N12,2
I
N12,2
I
I
N12,2
N12,2
I
N12,2
I
I
N12,2
N12,2
I
N12,2
I
I
N12,2
N12,2
N5,2
N5,2
ESTA RELACIONADO
FINANCEIRO
ESTA RELACIONADO
ARQUIVO
MES
DESCONTO_VENDA_PROD_A
JURO_REAL_VENDA_PRAZO_ A
DESCONTO_VENDA_PROD_B
JURO_REAL_VENDA_PRAZO_ B
DESCONTO_VENDA_PROD_C
JURO_REAL_VENDA_PRAZO_ C
VA15
I
N6,2
N6,2
N6,2
N6,2
N6,2
N6,2
47
48
49
50
51
A partir do momento em que a rede estiver devidamente treinada e com seus pesos
ajustados, que pode-se efetuar a previso como sendo o prximo passo do KDD.
52
7 CONCLUSES E SUGESTES
Este captulo apresenta as concluses, limitaes e sugestes referentes ao trabalho
desenvolvido.
7.1 CONCLUSES
Os sistemas tradicionais no proporcionam aos administradores de empresa
praticamente nenhum tipo de ferramenta no qual os auxilie na tomada de decises. Partindo
dessa premissa, foi estudada a tecnologia de Data Mining que tem por finalidade adquirir
conhecimento atravs da interpretao dos dados.
Foram estudados os seus conceitos e suas potencialidades e verificou-se que
diferentemente das aplicaes convencionais de bases de dados, que geralmente devolvem ao
usurio informaes baseadas em resultados de linguagens de consulta, o Data Mining
devolve informaes que so induzidas dos dados. Desta forma, informaes que no existem
podem ser previstas, com uma certa medida de acerto e exatido. Alm disso, padres e
tendncias podem ser encontradas nos dados, o que pode levar tomada de decises mais
adequadas e facilitar o trabalho de anlise dos dados.
Neste trabalho foi ilustrado o uso de Data Mining com Redes Neurais empregado em
um Sistema de Apoio Deciso para construir modelos de Previso genricos. Tendo isso
como base, verificou-se que a utilizao do Data Mining juntamente com as etapas de KDD
se mostrou bastante eficiente.
Foram realizados testes com os dados que foram integrados do JE Virtual para o Data
Warehouse e o sistema se mostrou muito flexvel para a definio de modelos de previso ao
mesmo tempo em que a utilizao de Redes Neurais mostraram a sua grande capacidade de
generalizao para os problemas apresentados nos testes.
Mas no decorrer destes testes, verificou-se algumas desvantagens no uso de Redes
Neurais:
a) aprendizado lento: o processo de aprendizado muito lento;
b) conhecimento no explcito: o conhecimento gerado no est representado na
forma de regras e conceitos de padres, e sim implicitamente na prpria rede;
53
c) treinamento complicado: no fcil estabelecer as regras de pr-processamento e
escolher os dados corretos para obter um timo resultado com os modelos
desenvolvidos. Isto requer um bom conhecimento de redes neurais e
principalmente dos dados com que se est trabalhando.
Partindo deste princpio, verificou-se que a aplicao de Data Mining com Redes
Neurais em Sistemas de Apoio Deciso para Previses genricas pode ajudar em muito o
processo de tomada de deciso no estruturada dentro de uma corporao; principalmente se
forem seguidos os passos do KDD. Esta ajuda pode ocorrer principalmente se for levada em
conta a enorme quantidade de dados que esto disponveis nestas corporaes.
Durante a construo do modelo, foram utilizadas algumas etapas/fases da
metodologia de prototipao fundamental, as quais auxiliaram em muito no desenvolvimento
do projeto. A linguagem Delphi ajudou muito pela facilidade de aprendizado que ela
proporciona sobre novos recursos e o banco de dados Sybase SQL Anywhere tambm
demonstrou que um software de extrema facilidade de uso e confivel.
Encontrou-se grande dificuldade em encontrar material bibliogrfico relativo ao Data
Mining. Mesmo sendo efetuado um pedido para a compra de material para estudo, o mesmo
material chegou somente na etapa final do desenvolvimento do trabalho.
Considera-se que o objetivo principal do trabalho, o desenvolvimento de um SAD para
efetuar previses genricas utilizando Data Mining, foi atingido.
7.2 LIMITAES
O prottipo construdo apresenta as seguintes limitaes:
a) a fonte de dados para definio das variveis de entrada e de sada fixa, desta
forma no permitindo ao usurio escolher uma varivel fora do escopo
apresentado;
b) as regras de pr-processamento so limitadas faixa de valores (limite mnimo e
mximo), sendo esta uma forma muito simples para se efetuar um prprocessamento.
54
7.3 SUGESTES
Sugere-se o estudo do Data Mining aplicando outras tarefas e tcnicas para a tomada
de decises, como o uso de rvores de Deciso para efetuar classificaes.
Em relao a incorporao de uma fonte de dados externa (Data Warehouse) no
Sistema de Apoio Deciso, lembra-se que esta fonte externa neste caso fixa. Deste modo,
podem ser implementados outros sistemas onde esta fonte de dados seja flexvel ao ponto de o
usurio escolher de onde os dados viro.
Um outro item importante na questo da origem dos dados que poderia ser
implementado, seria um acesso a dados que fosse alm do Sybase SQL Anywhere. Sugere-se
implementar acesso tambm outros bancos como Oracle, Microsoft SQL Server, Sybase
Server, Informix, etc.
Analisando o nvel dos usurios que podem utilizar o sistema, uma outra sugesto seria
construir uma interface voltada mais para os executivos, utilizando uma maior quantidade de
recursos grficos.
55
REFERNCIAS BIBLIOGRFICAS
[ALT92]
[AVI98]
[BER97]
[BIS99]
Rio de
[FAY96]
FAYYAD, Usama M... [et all]. Advances in knowledge discovery and data
mining. Mento Park : AAAI : MIT, 1996.
[FIG98]
[HAR98]
[INM97]
[LOE96]
56
[MAC96]
Exame
[NIM98]
[OLI98]
[PAL98]
[SPR91]
[TAU98]
[TAU98a]
[VAL97]
[WIL95]
57
[WIL97]