Académique Documents
Professionnel Documents
Culture Documents
Abstract: To guarantee its permanence in the market and competitiveness the organizations
constantly look for knowledge to base the taking of decision. As a lot of times this knowledge
is occult in a big base of data, it is necessary to appeal to a system of technology of the
information to aid that process of knowledge extraction. In that sense the Mining of Data is an
alternative that seeks to extract knowledge of a great volume of data, discovering new
correlations, patterns and tendencies among the information of a company. This article has as
objective to approach the main concepts through a brief bibliographical revision about the
knowledge extraction through of the Mining of Data.
Key words: Management knowledge organizational, Mining of Data, knowledge extraction.
1. INTRODUO
Atualmente as organizaes possuem em seus sistemas de informaes grandes bases
de dados, porm a anlise destas, requer a utilizao de ferramentas da tecnologia da
informao que auxiliam esse processo. Com o intuito de tomar decises de forma inteligente,
segura e confivel as organizaes analisam de forma precisa, grandes volumes de dados
visando minimizao de riscos e resultados no satisfatrios. Nesse sentido utilizar
ferramentas que possam extrair informaes de uma base de dados em forma de
conhecimento voltado para a tomada de deciso resulta em otimizao e flexibilizao de
processos gerenciais. Por meio de grandes avanos na rea da tecnologia da informao h a
possibilidade de armazenarem grandes e mltiplas bases de dados seja de natureza comercial,
administrativa, governamental e cientfica. Mas por outro lado, a anlise de um grande
volume de dados pelo homem invivel sem o auxlio de ferramentas computacionais
apropriadas (GOLDSCHIMIDT & PASSOS 2005). Segundo Fayyad (1996) o homem no
est preparado para interpretar uma grande quantidade de dados. Sendo uma das alternativas
o
V. 2, N . 2, Ago/2010 Pgina 22
Revista de Engenharia e Tecnologia ISSN 2176-7270
o
V. 2, N . 2, Ago/2010 Pgina 23
Revista de Engenharia e Tecnologia ISSN 2176-7270
o
V. 2, N . 2, Ago/2010 Pgina 24
Revista de Engenharia e Tecnologia ISSN 2176-7270
ncleo do processo, pois durante essa etapa realizada a busca efetiva por conhecimentos
teis no contexto da aplicao de KDD. A etapa de descoberta de conhecimento possui vrias
etapas operacionais, composto pelas etapas de pr-processamento, minerao de dados e ps-
processamento.
2.1. PR-PROCESSAMENTO
Para iniciar a etapa de pr-processamento necessrio efetuar a seleo de dados
considerada importante para a organizao, ou seja, selecionar um conjunto de dados,
pertencentes a um domnio, para que, a partir de um critrio definido pelo especialista do
domnio, possa ser analisado. Aps seleo de dados, necessrio aplicar mtodos de
tratamento, pois na maioria das vezes os dados disponveis para anlise encontram-se em um
formato inadequado para realizao do processo de KDD, denominado de limpeza dos dados.
Aps o processo de limpeza dos dados necessrio realizar a codificao dos dados, com o
intuito de que estejam na forma correta para serem usados como entrada dos algoritmos de
minerao de dados, para posteriormente enriquec-los de forma a agregar de alguma forma
mais informao para o processo de extrao de conhecimento. A seguir encontram-se
descritas as principais funes de pr-processamento dos dados segundo Boente &
Goldschmidt & Estrela (2006):
_ Seleo de dados: nesta funo necessrio efetuar a identificao de quais informaes
da base de dados existentes devem ser efetivamente consideradas durante o processo de
KDD.
_ Limpeza de dados: Com o intuito de assegurar a qualidade relacionada a completude,
veracidade e integridade realizado uma espcie de tratamento sobre os dados, ou seja,
informaes errneas ou inconsistentes nas bases de dado devem ser corrigidos de forma a
no comprometer a conhecimento a ser extrado no final do processo de KDD.
_ Codificao dos Dados: Para a utilizao dos dados como entrada dos algoritmos de
Minerao de Dados na forma correta, estes devem ser codificados, podendo ser:
Numrica Categrica, que transforma valores reais em categorias ou intervalos; ou
Categrica Numrica, que representa numericamente valores de atributos categricos.
_ Enriquecimento dos dados: Tm como objetivo agregar mais informaes aos registros
existentes, enriquecendo os dados, para que estes forneam mais informaes para o
processo de KDD, podendo ser realizadas as pesquisas para complementao dos dados,
as consultas a bases de dados externas, entre outras tcnicas.
importante ressaltar que na etapa de limpeza de dados Goldschmidt & Passos (2005)
identifica as seguintes funes que podem ser aplicadas para a limpeza de dados:
_ Limpeza de informaes ausentes: compreende a eliminao de valores ausentes em
conjunto de dados;
_ Limpeza de inconsistncias: abrange a identificao e a eliminao de valores
inconsistentes em conjunto de dados;
_ Limpeza de valores no pertencentes ao domnio: compreende a identificao e a
eliminao de valores que no pertenam ao domnio dos atributos do problema.
Outro ponto importante a ser considerado na etapa de pr-processamento que em virtude das
restries de espao em memria ou tempo de processamento com relao ao nmero de
exemplos e de atributos disponveis para a anlise, pode inviabilizar a utilizao de algoritmos
de extrao de padres, sendo necessria a aplicao de mtodos de reduo de dados antes de
o
V. 2, N . 2, Ago/2010 Pgina 25
Revista de Engenharia e Tecnologia ISSN 2176-7270
utilizam.
Tabela 1: Tarefas da Minerao de dados e os Algoritmos
Estratgia Algoritmos
Classificao rvores de Deciso e Redes Neurais
Agregao Mtodos Estatsticos e Redes Neurais
Associao Mtodos Estatsticos e Teoria de conjuntos
Regresso Mtodos de Regresso e Redes Neurais
Predio Mtodos Estatsticos e Redes Neurais
Fonte: BOENTE, GOLDSCHMIDT & ESTRELA, 2006.
2.3. PS-PROCESSAMENTO
A etapa de Ps-processamento compreende o processo de tratamento do conhecimento
adquirido por meio da Minerao de Dados, com o intuito de facilitar a interpretao e
avaliao deste, para priorizar a utilidade do conhecimento descoberto. Dentre as principais
funes da etapa de Ps-processamento esto elaborao e organizao, podendo incluir a
simplificao de grficos, diagramas e outros tipos de relatrios demonstrativos, alm da
converso da forma de representao do conhecimento extrado no processo de KDD
(BOENTE, OLIVEIRA & ROSA, 2007). A seguir encontram-se comentadas os mtodos e
procedimentos utilizados na etapa de ps-processamento segundo Nicolaio & Pelinski (2006):
_ Avaliao: etapa onde o objetivo maior a avaliao do conhecimento extrado da base de
dados por meio de critrios, tais como preciso, compreensibilidade e interessabilidade.
_ Interpretao e Explanao: consiste em tornar o conhecimento extrado compreensvel ao
usurio, ou seja, document-lo, visualiz-lo, modific-lo e/ou compar-lo o conhecimento
pr-existente com o intuito de compreender melhor o conhecimento descoberto no
processo de KDD.
_ Filtragem: consiste em filtrar o conhecimento extrado do conjunto de dados, realizado
por meio de mecanismo que variam de acordo com a tcnica utilizada, para que
posteriormente a anlise do conhecimento na etapa de Ps-processamento, este possa ser
utilizado no processo de tomada de deciso;
_ Interpretao: fase que inclui o processo de interpretao do modelo descoberto, onde
pode requerer a repetio de vrios passos, porm normalmente encarada como uma
simples visualizao dos dados. Os padres identificados pelo sistema so interpretados
em conhecimento, que pode ser utilizado como ferramenta de apoio ao processo de
tomada de deciso.
Aps a etapa de ps-processamento, o conhecimento extrado depois de avaliado e
validado consolidado na fase de utilizao do conhecimento, sendo incorporado a um
sistema inteligente, que utilizado pelo usurio final para o apoio a algum processo de
tomada de deciso, ou seja, relatado s pessoas interessadas.
o
V. 2, N . 2, Ago/2010 Pgina 27
Revista de Engenharia e Tecnologia ISSN 2176-7270
o
V. 2, N . 2, Ago/2010 Pgina 28
Revista de Engenharia e Tecnologia ISSN 2176-7270
6. CONCLUSO
REFERNCIAS
AGRAWAL, R.; SRIKANT, R. Mining generalized association rules in large relational tables. Proc.
Of 21 st Int`L Conference on Very Large Databases. Zurique, Sua, 1995. Disponvel em:
<HTTP://rakesh.agrawal-family.com/pubs.hyml> acesso em 07 de junho de 2009.
o
V. 2, N . 2, Ago/2010 Pgina 29
Revista de Engenharia e Tecnologia ISSN 2176-7270
CARLANTONIO, Lando Mendona di. Novas metodologias para clusterizao de dados. Dissertao
(Mestrado)-Engenharia Civil, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001.
CARVALHO, Hlio Gomes de. Inteligncia Competitiva Tecnolgica para PMEs Atravs da
Cooperao Escola-Empresa. Tese de Doutorado apresentada ao Programa de Ps-Graduao em
Engenharia de Produo da Universidade Federal de Santa Catarina - UFSC. Florianpolis, 2000.
DRUCKER, Peter F. O Advento da Nova Organizao. Srie Harvard Business Review. Rio de
Janeiro: Ed. Campus Ltda, 2001.
DUARTE, Denio. Utilizando Tcnicas de Programao Lgica Indutiva para Minerao de Banco de
Dados Relacional. Dissertao (Mestrado) Ps Graduao em Engenharia de Produo,
Universidade Federal do Paran, Curitiba, 2001.
GOLDSCHIMIDT, R e PASSOS, E. Data mining: Um guia prtico. Rio de Janeiro: Campus, 2005.
KREMER, Ricardo. Sistema de apoio deciso para previses genricas utilizando tcnicas de Data
Mining. TCC (Graduao) Curso de Cincias da Computao, Bacharelado, Universidade Regional
de Blumenau, Blumenau, Santa Catarina, 1999.
MARDEGAN, Ronaldo; AZEVEDO, Rodrigo C.; OLIVEIRA, Joo F. G. de. Os Benefcios da Coleta
Automtica de Dados no Cho-de-Fbrica para o Processo de Negcio e Gesto da Demanda.
Curitiba, ENEGEP 2002.
MICHIE, D.; SPIEGELHALTER, D.; TAYLOR, C. Machine Learning, Neural and Statistical
Classifications. Ellis Horwood, 1994.
PRUSAK, Lawrence e McGEE, James. Gerenciamento Estratgico da Informao. Rio de Janeiro: Ed.
Campus, 1994.
SFERRA, Heloisa Helena; CORREA, ngela M. C. Jorge. Conceitos e Aplicaes de Data Mining.
Jul/Dez de 2003, Revista Cincia & Tecnologia, PP. 19-34.
o
V. 2, N . 2, Ago/2010 Pgina 30