Vous êtes sur la page 1sur 12

Revista de Engenharia e Tecnologia

ISSN 2176-7270

PS-PROCESSAMENTO EM KDD
Cristian Simioni Milani, PUCPR, E-mail: cristiansimionimilani@gmail.com Deborah Ribeiro Carvalho, PUCPR, E-mail: ribeiro.carvalho@pucpr.br
Resumo. Apesar dos esforos em utilizar o processo KDD Knowledge Discovery in Databases com o objetivo de potencializar o uso das bases de dados disponveis para apoiar o processo de apoio deciso ainda so poucos que se valem desta tecnologia no dia a dia. O processo KDD prev trs etapas: Pr-processamento, Minerao de Dados e Ps-processamento. So diversas as dificuldades apontadas quando da utilizao do KDD, mas a grande maioria reside na etapa de Ps-processamento. Este artigo se prope a apresentar algumas estratgias para a etapa de Ps-processamento, que facilitem a avaliao dos padres no apenas em nvel conceitual, mas tambm facilitando a compreenso a partir de exemplos de fcil compreenso. Palavras-chave: Minerao de Dados, Ps-processamento, Apoio Deciso.

POST-PROCESSING IN KDD
Abstract. Despite efforts to use the KDD process (Knowledge Discovery in Database) in order to maximize the use of databases to support the decision process there are few people who adopt this technology in daily life. The KDD process has three phases: Pre-processing, Data Mining and Post-processing. There are several difficulties when users choose KDD and most of them occur during Post-processing. This article aims to present Post-processing strategies to facilitate the evaluation of patterns, not only at the conceptual level, but also using examples. Keywords: Data Mining, Postprocessing, Decision Support.

1. INTRODUO Diversos fatores relacionados Tecnologia da Informao favoreceram a ampliao do volume armazenado em bases de dados, demandando assim por formas mais eficientes para um melhor aproveitamento do potencial de informaes que podem ser extradas. Quando se dispe de grandes volumes frequente que as tcnicas tradicionais de extrao de informaes sejam insuficientes para orientar o processo decisrio, demandando assim pela busca por formas alternativas que permitam uma melhor otimizao do uso destas bases. Uma das alternativas para otimizar o uso de bases de dados a partir do processo Knowledge Discovery in Databases KDD, o qual compreende em uma de suas fases a Minerao de Dados, na qual ocorre a aplicao de algoritmos com a finalidade especfica de identificar padres vlidos, novos, potencialmente teis e compreensveis (Fayyad et al., 1996). Um padro definido como um tipo de modelo de uma declarao. Uma instncia de um padro uma declarao em uma linguagem de alto nvel que descreve uma informao preferencialmente interessante, descoberta nos dados de acordo com algum critrio estabelecido (Klosgen, 1992). Alm da Minerao de Dados o processo KDD compreende as etapas de Prprocessamento e Ps-processamento. O Pr-processamento uma etapa em geral trabalhosa em funo dos dados disponveis no estarem de tal forma organizados a permitir a aplicao direta aos algoritmos de minerao.
V. 5, N . 1, Abril/2013
o

Pgina 151

Revista de Engenharia e Tecnologia

ISSN 2176-7270

A etapa de extrao de padres, Minerao de Dados, a mais direcionada ao cumprimento dos objetivos, ou seja, busca por padres que apoiem o processo decisrio, ou seja, problema de gesto, que motivou o processo KDD (Fayyad et al. 1996). Na etapa de Minerao de Dados podem ser identificadas trs tarefas principais: classificao, descoberta de regras de associao e agrupamento. O Ps-processamento tem como principal objetivo apoiar na verificao de at que ponto estes padres contribuem na soluo do problema inicialmente identificado. Por exemplo, no experimento conduzido por Kobus (2006), ao oferecer para anlise do mdico especialista as regras de associao descobertas, recebeu como resposta qual a sequncia de eventos?. Isso porque, por princpio, o algoritmo que descobre regras de associao do tipo <se> A <ento> B, no se preocupa se o evento A cronologicamente antecedeu ou no a ocorrncia do evento B. Diferentemente do contexto no qual os algoritmos que descobrem regras de associao foram originalmente propostos, na rea da Sade fica evidenciado que ou o algoritmo que descobre as regras de associao considera a sequenciao de eventos durante a etapa de descoberta, ou os padres aps descobertos so ps-processados recebendo esta indicao. Para operacionalizar o Ps-processamento existem vrias estratgias propostas, entre elas eliminar a redundncia, generalizar, identificar no conjunto aqueles com maior potencial de serem interessantes etc. Novamente, no projeto desenvolvido por Kobus (2006) foi necessrio que a autora generalizasse os padres descobertos manualmente, dado o fato de no dispor de uma ferramenta que o fizesse de forma automtica. Nas experimentaes realizadas por Dallagassa (2009) foi perceptvel a necessidade adicional que os padres descobertos considerassem (ou demonstrassem) a janela de tempo decorrida entre dois eventos associados. Novamente, o especialista ao avaliar os padres descobertos, necessitava desta informao temporal para identificar uma possvel situao de causa e efeito. Gomes e Hauth (2010) propuseram e implementaram um algoritmo que durante a etapa de Minerao de Dados, a partir de janelas de tempo pr-definidas pelo especialista, descobre regras de associao considerando as possibilidades de intervalos temporais, denominados restries de tempo. Porm a despeito da existncia de vrias propostas para ps-processar os padres descobertos poucos so os relatos do quanto estas estratgias de fato contribuem para agregar valor ao que o especialista j conhecia anteriormente sobre o problema de gesto. Uma exceo encontrada no trabalho relatado por Zhang e seus colegas (2009) que acompanharam uma das principais aplicaes para a Motorola. O objetivo era encontrar as causas de falhas de chamadas do telefone celular a partir dos dados de log de uso. Uma das constataes foi que apesar da ampla utilizao das regras de associao, os usurios raramente consideram uma nica regra como sendo interessante por si s. Uma regra s interessante no contexto de outras regras. Alm disso, em muitos casos, cada regra individual pode no ser interessante, mas um grupo delas pode representar uma parte importante do conhecimento. Sendo assim para tratar esta questo foi proposta para anlise das regras como operaes OLAP e de minerao de impresses gerais. Esta abordagem permite ao usurio explorar o espao de conhecimento para encontrar facilmente o conhecimento til e de forma sistemtica, bem como fornecer uma estrutura para visualizao, denominado Mapa de Oportunidades. Em geral os esforos relatados na literatura so para ps-processar os padres descobertos representados na forma de regras de associao, porm existem outros
V. 5, N . 1, Abril/2013
o

Pgina 152

Revista de Engenharia e Tecnologia

ISSN 2176-7270

formatos de apresentao, como por exemplo, rvores de deciso, que tem grande potencial para apoiar profissionais de diversas reas. Por exemplo, Vianna et al (2009) e Von-Stein (2010) realizaram experimentos no contexto da sade, a partir de padres expressos na forma de rvores de deciso, que poderiam ter contribuies mais relevantes se naquele momento estivessem disponveis estratgias para ps-processar os padres descobertos naquele formato. Neste artigo so apresentadas situaes de exemplo de duas etapas do processo KDD: Minerao de Dados e o Ps-processamento dos padres (conhecimento) descobertos voltados para a rea da Sade. A contribuio decorre do fato do texto buscar no apenas apresentar as estratgias, mas tambm demonstrar com exemplos de fcil compreenso, permitindo assim que o leitor ao replicar o comportamento dos algoritmos entenda melhor o processo. As vrias tarefas desenvolvidas em Minerao de Dados tm como objetivo primrio a predio e / ou a descrio. A predio usa atributos para predizer os valores futuros de uma ou mais variveis (atributos) de interesse, em geral descobre padres no formato de classificadores. A descrio contempla o que foi descoberto nos dados sob o ponto de vista da interpretao humana (Fayyad et al.1996), tendo os padres descobertos representados por regras de associao ou agrupamentos. Para a predio existe a tarefa de classificao que oportuniza encontrar um modelo que descreva as diversas classes envolvidas no contexto, com o objetivo de classificar (predizer) uma classe s instncias ainda no classificadas. Por exemplo, na tarefa de classificao, pode-se ter uma aplicao financeira na qual um banco poderia classificar seus clientes em duas classes: crdito ruim ou crdito bom. Em uma aplicao de medicina, um mdico poderia classificar alguns de seus pacientes em duas classes: tem ou no tem uma determinada doena. A fim de contribuir para a compreensibilidade do conhecimento descoberto (relao entre os atributos e as classes), esse conhecimento geralmente representado na forma de regras se... (condies) ... ento... (classe) ..., cuja interpretao : se os valores dos atributos satisfazem as condies da regra ento o exemplo pertence classe prevista pela regra. Para a descrio, conta-se com a tarefa de descoberta de regras de associao e agrupamento. As regras de associao so expresses X Y (lidas como: SE (X) ENTO (Y)). O significado de cada regra desta natureza de que os conjuntos de itens X e Y frequentemente ocorrem juntos em uma mesma transao (registro). (Agrawal et al, 1993). A tarefa de agrupamento consiste na identificao de um conjunto finito de grupos, classes ou clusters, baseados nos atributos de objetos no previamente classificados. Por exemplo, um conjunto de pacientes pode ser agrupado em vrias classes (grupos) baseadas nas similaridades dos seus sintomas, e os sintomas comuns aos pacientes de cada grupo podem ser usados para descrever qual classe um novo paciente pertencer. Assim, um dado paciente seria atribudo ao cluster cujos pacientes tm sintomas o mais parecido possvel com os sintomas daquele dado paciente. Dessa forma, a tarefa de agrupamento, cujo resultado a identificao de novas classes, pode ser realizada como pr-processamento para realizao da tarefa de classificao (Kubat et al., 1998). 2. PS-PROCESSAMENTO Existem vrias estratgias propostas na literatura para ps-processar o conhecimento descoberto, entre elas a atribuio de medidas de potencial grau de interesse as quais
V. 5, N . 1, Abril/2013
o

Pgina 153

Revista de Engenharia e Tecnologia

ISSN 2176-7270

so organizadas em dois grupos, ditas user-driven e data-driven (Silberschatz & Tuzhilin, 1996), (Freitas, 1998). Outra estratgia proposta por Hussain et al. (2000) que constitui um mtodo que identifica, a partir de um conjunto de padres descobertos, um subconjunto de regras que representam regras de exceo e, alm disso, atribui uma medida de interesse para cada regra. A tabela 1 mostra a estrutura geral das regras de exceo. Nesta tabela A, B e C so conjuntos no-vazios de itens de dados associados e o smbolo denota a negao lgica. importante observar que uma regra de exceo uma especializao de uma regra geral e uma regra de exceo associa a um item de dados que nega aquele identificado pela regra geral. Este mtodo assume que regras de senso comum representam padres conhecidos pelo usurio, tendo em vista que aquelas regras tm uma grande cobertura, ao contrrio das regras de exceo, que em geral so desconhecidas, uma vez que elas tm baixa cobertura. Sendo assim, as regras de exceo tendem a ser surpreendentes, dado o fato de representarem uma contradio em relao regra de senso comum. importante observar que a regra de referncia auxilia na explicao da causa da regra de exceo. A C regra geral (alta cobertura e alta confiana) A, B C regra de exceo (baixa cobertura, alta confiana) B C regra de referncia (baixa cobertura e/ou baixa confiana) Tabela 1. Estrutura das Regras de Exceo. Formalmente, a medida proposta por Hussain et al. (2000) definida da seguinte forma:

Pr( AC ) log

Pr( AC ) Pr( ABC ) Pr( ABC ) log Pr( AC ) Pr( AC ) Pr(BC )

Quanto maior o valor da medida de interesse, maior a chance de a regra ser surpreendente. Outra estratgia para o Ps-processamento o filtro de regras de associao, que objetiva selecionar aquelas que associem alguns elementos previamente selecionados (ou descartados) pelo especialista. Esta estratgia, a partir da reduo do conjunto de regras, alm de facilitar a anlise elo especialista tambm melhora significativamente o desempenho de algoritmos que a partir deste conjunto reduzido venha executar outras estratgias de Ps-processamento. A parametrizao do processo de filtro a partir dos identificadores dos itens de dados que compem as regras, conforme exemplo: Regra 1: A C Regra 2: A, B D Regra 3: C E Regra 4: A, D C Supondo que o especialista no esteja interessando em regras em que apresentem o item D, independentemente se este consta do antecedente ou do consequente, apenas as Regras 1 e 3 sero selecionadas. Vale destacar novamente que essa estratgia somente interessante quando o especialista tem conhecimento prvio do que deseja que seja contemplado ou eliminado, caso contrrio, padres interessantes podem ser eliminados. Uma alternativa a esta funcionalidade seria eliminar os itens de dados da
V. 5, N . 1, Abril/2013
o

Pgina 154

Revista de Engenharia e Tecnologia

ISSN 2176-7270

base, porm esta alternativa onera computacionalmente a etapa de Pr-processamento, exigindo que um novo conjunto de dados seja construdo a cada experimento. Existem ainda outras estratgias para a eliminao de regras extradas que no agregam novos conhecimentos ao especialista, como por exemplo, a eliminao de redundncia. Por exemplo, a partir do conjunto das Regras 1, 2, 3 e 4 percebe-se uma redundncia da Regra 4 em relao a Regra 1, ou seja, a Regra 4 j est contemplada pela Regra 1, desta forma a Regra 4 pode ser eliminada do conjunto. No que se refere aos padres descobertos pela tarefa de classificao tambm existem diversas formas para ps-processar os padres extrados, entre elas: transcrio da rvore de deciso em regras, eliminao de redundncia e atribuio de medidas de interesse, por exemplo, a partir de generalizaes sucessivas. A transcrio da rvore de deciso visa facilitar a compreensibilidade dos padres extrados e realizada da seguinte forma: a quantidade de ns-folha caracteriza o tamanho do conjunto de regra de associao; o caminho at o n-folha o antecedente da regra; o n-folha (ou classe) o consequente da regra. A figura 1 apresenta um exemplo de rvore de deciso e na tabela 2 s respectivas regras transcritas. Em muitos casos, ao transcrever a rvore de deciso em regras de associao ocorre a situao de redundncia. importante destacar que a redundncia gerada por rvore de deciso diferente da gerada pelas regras de associao. Nesta tarefa, as redundncias ocorrem entre itens do antecedente da regra e no entre as regras, como na tarefa de regras de associao.

Figura 1. Exemplo de rvore de Deciso

Num 1 2 3 4 5

Regra Transcrita SE previso=ensolarado E humidade=alta ENTO classe=no SE previso=ensolarado E humidade=normal ENTO classe=sim SE previso=nublado ENTO classe=sim SE previso=chuvoso E vento=sim ENTO classe=no SE previso=chuvoso E vento=no ENTO classe=sim Tabela 2. Regras Resultantes de Transcrio da rvore de Deciso.

Alm destas tcnicas pra melhorar a compreensibilidade das regras extradas da rvore deciso, podem ser atribudos graus de interesse para cada regra. Existem diversas formas de atribuir essa medida, dentre elas, uma medida baseada em generalizaes sucessivas. Essa medida esta baseada na seguinte frmula (Carvalho, 2005):
V. 5, N . 1, Abril/2013
o

Pgina 155

Revista de Engenharia e Tecnologia


numero de generaliza es que alteram o consequent e total de condies da regra

ISSN 2176-7270

Entende-se por generalizao que altera o consequente o ato de suprimir gradativamente as condies (atributo-condio-valor) do antecedente da regra e a respectiva classe predita ser alterada em relao regra original. A partir do desmembramento do antecedente da Regra 2 (Tabela 2) tem-se as seguintes condies C1: previsao=ensolarado e C2: humidade=normal. Para calcular a respectiva medida para a Regra 2 foram suprimidas, uma por vez, cada uma das duas condies, ou seja, foram realizadas generalizaes sucessivas sobre o antecedente da regra. Quando da supresso da C1 a classe predita foi alterada de sim para no e quando da supresso de C2 a classe permaneceu a mesma. Logo, o total de generalizaes que alteraram a classe predita igual 1 e o total de condies da regra igual a 2, portando, o grau de interesse desta regra 0.5. 3. MATERIAIS E MTODOS As tarefas de Minerao de Dados, descoberta de regras de associao e classificao foram aplicadas a partir dos algoritmos APRIORI (BORGELT, 2004) e J48 (HALL et al, 2009), respectivamente. Para realizar os experimentos, foram utilizadas duas bases de dados, ambas disponibilizadas no ambiente WEKA. Para a tarefa de descoberta de regras de associao foi utilizada a base weather (Tabela 3), j para a tarefa de classificao foi utilizada a base iris. A escolha se deve ao fato abordarem um domnio de fcil compreenso, possibilitando ao leitor a replicao dos resultados. Previso Ensolarado Ensolarado Nublado Chuvoso Chuvoso Chuvoso Nublado Ensolarado Ensolarado Chuvoso Ensolarado Nublado Nublado Chuvoso Temperatura Humidade Vento Quente Alta No Quente Alta Sim Quente Alta No Moderada Alta No Frio Normal No Frio Normal Sim Frio Normal Sim Moderada Alta No Frio Normal No Moderada Normal No Moderada Normal Sim Moderada Alta Sim Quente Normal No Moderada Alta Sim Tabela 3. Base de Dados weather. Jogar No No Sim Sim Sim No Sim No Sim Sim Sim Sim Sim No

O conjunto de dados ris contendo 150 instncias e 5 atributos, sendo um deles a classe a ser prevista apresentado de forma sucinta na tabela 4.

V. 5, N . 1, Abril/2013

Pgina 156

Revista de Engenharia e Tecnologia comprimentoSepala larguraSepala 5.1 3.5 7.0 3.2 6.3 3.3

ISSN 2176-7270 comprimentoPetala larguraPetala 1.4 0.2 4.7 1.4 6.0 2.5 Classe Iris-setosa Irisversicolor Irisvirginica

Tabela 4. Instncias da Base ris. Considerando a tarefa de descoberta de regras de associao, foram utilizadas quatro tcnicas de Ps-processamento, a saber: filtro de regras de associao, eliminao de redundncias, um descobridor de regras de exceo (DRE) que dependendo da opo do usurio atribui ou no o grau de interesse proposto por (SUZUKI, 2000) para cada par de regras exceo encontrado. Essas tcnicas foram escolhidas por terem sido destacadas como importantes em experimentos anteriormente realizados (DALAGASSA, 2009), (KOBUS, 2006). Para a tarefa de classificao, foram adotadas trs tcnicas: transcrio da rvore de deciso nas respectivas regras, eliminao de redundncia e atribuio de grau de interesse por generalizaes sucessivas. A transcrio da rvore de deciso constitui requisito fundamental para facilitar o Ps-processamento que passa a trabalhar sobre estruturas de baixa complexidade de representao. 4. RESULTADOS Sobre a base de dados demonstrada na Tabela 3, composta por cinco atributos e quatorze instncias, foi aplicado o algoritmo APRIORI (BORGELT, 2004), com suporte mnimo de 1% e confiana mnima de 60%, sendo extradas 313 regras de associao (CONJ1). Apesar do CONJ1 no ser considerado muito grande, analisar 313 regras no uma tarefa simples. O CONJ1 foi submetido ao processo e eliminao de regras redundantes, no qual foram reduzidas 192 regras, restando assim, apenas 121 regras do conjunto inicial (CONJ2). Um exemplo de redundncia nas regras extradas desta base : Regra A: Se temperatura=quente ento humidade=alta Regra B: Se temperatura=quente e previso=ensolarado ento humidade=alta Onde a Regra B eliminada por ser redundante em relao Regra A. Sobre o CONJ2 foi submetido ao Filtro de Regras de Associao selecionando apenas as regras que apresentassem no consequente o item de dado jogar, independentemente do seu valor. Desta forma o CONJ2 foi reduzido para 80 regras (CONJ3). Por fim, o CONJ3 foi submetido ao DRE com atribuio do grau de interesse. Vale destacar que o CONJ1 (conjunto inicial) poderia ter sido submetido ao DRE, entretanto padres no relacionados ao foco comporiam o conjunto final de padres a ser oferecido ao especialista, o que no seria desejvel dado que exigiria um esforo adicional para a anlise e interpretao dos resultados. Entre as 80 regras (CONJ3) foi possvel identificar 10 pares de regras gerais e suas respectivas regras de exceo (CONJ4). A seguir apresentado um destes pares (CONJ4):
V. 5, N . 1, Abril/2013
o

Pgina 157

Revista de Engenharia e Tecnologia

ISSN 2176-7270

Regra Geral: Regra G: Se jogar=sim ento vento=no Regras de Exceo: Regra E1: Se jogar=sim e temperatura=frio e previso=nublado ento vento=sim / Grau de Interesse: 0.086 Regra E2: Se jogar=sim e humidade=alta e temperatura=moderada e previso=nublada ento vento=sim / Grau de Interesse: 0.121 Analisando a Regra G e suas regras de exceo (E1 e E2), percebe-se que a Regra E2 possui um Grau de Interesse maior, portanto, tem mais chance de ser mais interessante para o especialista. O grfico 1 apresenta a dinmica da cardinalidade dos subconjuntos criados a partir das sucessivas aplicaes das estratgias de Ps-processamento sobre as regras de associao descobertas (CONJ1). Esta base foi submetida ao algoritmo J48 (HALL et al, 2009) o qual descobriu a rvore de deciso (Figura 2), contendo 11 ns folhas, que representam 11 regras, pois o percurso entre o n raiz e o n folha caracteriza uma regra.

Grfico 1. Nmero de regras resultantes aps aplicao sucessiva das estratgias de Psprocessamento.

V. 5, N . 1, Abril/2013

Pgina 158

Revista de Engenharia e Tecnologia

ISSN 2176-7270

Figura 2. rvore Gerada pelo Algoritmo J48 para a Base iris. Esta rvore foi submetida ao programa PAD Ps-processamento de rvores de Deciso resultando em 11 regras transformadas, entre elas: Regra T1: SE larguraPetala>0.6 E larguraPetala>1.7 ENTO Iris-virginica Regra T2: SE larguraPetala>0.6 E larguraPetala<=1.7 E comprimentoPetala <=4.9 ENTO Iris-versicolor Regra T3: SE larguraPetala<=0.6 ENTO Iris-setosa Ao analisar a Regra T1 possvel perceber a redundncia em funo das duas condies construdas sobre o mesmo atributo largura Petala, ou seja, aps a eliminao de redundncias a Regra T1 passa a ser: Regra T1: SE larguraPetala>1.7 ENTO Iris-virginica A partir da aplicao desta estratgia de Ps-processamento o nmero mdio de condies por regra passou de 5.2, para 3.90. Ou seja, houve uma reduo da ordem de 25% no nmero mdio de condies a ser analisado pelo usurio, o que facilita a descoberta de conhecimento, principalmente em relao ao tempo de anlise. Na tabela 5 so listados os atributos e suas respectivas condies descobertas que mais apresentaram redundncias.

V. 5, N . 1, Abril/2013

Pgina 159

Revista de Engenharia e Tecnologia


Atributo-valor larguraPetala>0.6 larguraPetala<=1.7 comprimentoPetala>4.9 larguraPetala>1.5 comprimentoPetala<=5.85 larguraPetala<=1.5 comprimentoSepala<=7.25 larguraSepada>2.65 larguraPetala>1.35 larguraSepada<=3.05 larguraSepada>3.05 larguraSepada<=2.65 comprimentoSepala<=5.95 comprimentoSepala>5.95 comprimentoSepala>7.25 larguraPetala<=1.35 comprimentoPetala>5.85 comprimentoPetala<=4.9 larguraPetala>1.7 Ocorrncias 10 9 8 5 4 3 3 2 2 1 1 1 1 1 1 1 1 1 1

ISSN 2176-7270
Eliminaes 8 3 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0

Tabela 5. Condies com maior frequncia de redundncia. A partir da anlise da tabela 5 frente rvore descoberta (Figura 2) possvel perceber que as condies dispostas nos nveis mais prximos ao n-raiz, tendem a compor redundncias, dado o fato de constarem em um nmero maior de ramificaes (regras). O conjunto de 11 regras aps a eliminao das redundncias foi submetido estratgia de atribuio de grau de interesse a partir de generalizaes sucessivas. Das 11 regras, a que apresentou maior grau de interesse foi a regra T4: Regra T4: Se larguraPetala <= 1.7 e comprimentoPetala > 4.9 e larguraPetala>1.5 e comprimentoPetala <= 5.85 e comprimentoSepala > 7.25 ento Iris-virginica, com um Grau de Interesse de 0.4. As Regras T1, T2 e T3, apresentaram grau de interesse 0 (zero). Estas tenderiam a ser regras com baixo potencial de interesse ao usurio, entretanto, vale destacar que essas medidas so data-driven, levando em considerao apenas a estrutura do conhecimento extrado e o conjunto de dados. 5. CONCLUSO E TRABALHOS FUTUROS Este artigo descreveu e relatou resultados de experimentaes de estratgias de Ps-processamento em KDD, sobre conjuntos de dados de baixa complexidade, disponveis em repositrio pblicos, permitindo assim que interessados em aprofundar o conhecimento repliquem tais experimentaes, no apenas nas bases propostas, mas tambm em bases disponveis em seus espaos de trabalho e/ou pesquisa. Os algoritmos de Minerao de Dados so pblicos e podem ser obtidos a partir das referncias indicadas. Os algoritmos de Ps-processamento tambm podem ser obtidos a partir de contato via endereo eletrnico com qualquer um dos autores deste artigo. Foram demonstradas experimentaes sobre padres descobertos a partir de duas das trs tarefas mais usuais: descoberta de regras de associao e classificao. Com relao descoberta de regras de associao, mesmo considerando um conjunto original
V. 5, N . 1, Abril/2013
o

Pgina 160

Revista de Engenharia e Tecnologia

ISSN 2176-7270

contendo 14 instncias, foram descobertas 313 regras. Apenas a partir da eliminao de regras redundantes, ou seja, sem potencial para agregar conhecimento do usurio este conjunto teve uma reduo para 121 regras, ou seja, apenas 38% do conjunto original de regras descobertas. Fica fcil perceber que o usurio seria poupado de avaliao de 192 regras. Tambm foi demonstrado que o usurio ao sinalizar o item de dado de maior interesse tambm permite uma reduo ainda maior, chegando ao limite de ter apenas um conjunto de 10 pares de regras gerais e suas respectivas excees. Ou seja, sai de 313 regras para apenas 10 pares. Quanto ao Ps-processamento de padres descobertos e posteriormente representados na forma de rvore de deciso, tambm foi possvel perceber que a simples transformao da rvore em regras e posterior eliminao de condies redundantes reduziu o nmero mdio de condies por regra da ordem de 25%. Vale destacar que em Dalagassa (2009) esta atividade foi desenvolvida de forma manual sobre uma rvore de deciso contendo mais de 1000 ramificaes que alm da transformao em regras, tambm tiveram eliminadas as condies redundantes. O presente trabalho tambm apresenta, testa e disponibiliza uma ferramenta que alm de transformar, eliminar condies redundantes, tambm descobre regras de exceo e atribui seus respectivos graus de interesse. Desta forma, este artigo permite novas iniciativas sejam oportunizadas com o objetivo de popularizar ainda mais a utilizao do processo KDD no dia a dia das instituies que dispem de conjuntos de dados e desejam melhor utilizar o seu potencial para apoiar o processo decisrio. Como trabalhos futuros fica a sugesto que novas ferramentas experimentaes sejam realizadas envolvendo estratgias mais fortemente relacionadas a critrios userdriven, bem como sejam realizadas experimentaes sobre bases de dados reais com posterior avaliao por parte de especialistas da rea. REFERNCIAS AGRAWAL R.; IMIELINSKI T.; SWAMI A. Mining Associations between Sets of Items in Massive Databases. Proc. of the ACM-SIGMOD 1993 Int'l Conference on Management of Data, Washington D.C., May 1993, p.207-216. BORGELT C. APRIORI ASSOCIATION RULE INDUCTION. 2004. Disponvel em: http://www.borgelt.net/apriori.html. CARVALHO D.R. Algoritmo gentico para tratar o problema de pequenos disjuntos em classificao de dados [tese]. Rio de Janeiro: COPPE - UFRJ; 2005. CARVALHO D. R.; MOSER, A. D.; DA SILVA, V. A; DALLAGASSA, M. R. Minerao de Dados Aplicada Fisioterapia. Fisioter Mov. 2012, jul/set; 25(3):595605. DALLAGASSA M. R. Concepo de uma metodologia para identificao de beneficirios com indicativos de diabetes mellitus tipo 2 [dissertao] Curitiba: Pontifcia Universidade Catlica do Paran; 2009. FAYYAD U.; PIATETSKY-SHAPIRO G.; SMYTH P.; UTHURUSAMY R. Advances in Knowledge Discovery and Data Mining. American Association for Artificial Intelligence. Menlo Park, CA: MIT Press. 1996.
V. 5, N . 1, Abril/2013
o

Pgina 161

Revista de Engenharia e Tecnologia

ISSN 2176-7270

FREITAS A. A. On objective measures of rule surprisingness. Principles of Data Mining & Knowledge Discovery (Proc. 2nd European Symp., PKDD'98. Nantes, France, Sep. 1998). LNAI 1510, 1998. 1-9. Springer-Verlag. GOMES H., HAUGT L. G. Minerao de Dados Temporal: Descobertas de Regras De Causa e Efeito. [trabalho de concluso de curso]. Curitiba: Universidade Tuiuti do; 2010. HALL M.; FRANK E.; HOLMES G.; PFHRINGER B.; REUTEMANN P.; WITTEN I. an. WEKA - THE WEKA DATA MINING SOFTWARE. 2009. Disponvel em: http://www.cs.waikato.ac.nz/ml/weka HUSSAIN F.; LIU H.; SUZUKI E.; LU H. EXCEPTION RULE MINING WITH RELATIVE INTERESTINGNESS MEASURE. PAKDD. 2000; 1805(1): 86-97. KLOSGEN, W. Patterns for Knowledge Discovery in Databases. Proc. Of Machine Learning. UK. 1992, p. 1-9. KOBUS L. C. G. Aplicao da descoberta de conhecimento em base de dados para identificao de usurios com doenas cardiovasculares elegveis para programas de gerenciamento de caso [dissertao de mestrado]. Curitiba: Pontifcia Universidade Catlica do Paran; 2006. KUBAT M.; BRATKO I.; MICHALSKI R. S. A Review of Machine Learning Methods, in Michalski, R.S., Bratko, I. and Kubat, M. (Eds.), Machine Learning and Data Mining: Methods and Applications, London: John, 1998. SILBERSCHATZ A.; TUZHILIN A. What makes patterns interesting in knowledge discovery systems. IEEE Trans. Knowledge & Data Eng. 8(6). 1996. VIANNA R.C.X.F.; MORO C.M.C.B.; MOISES S.J; CARVALHO D.R.; NIEVOLA J.C. Minerao de dados e caractersticas da mortalidade infantil. Cadernos de Sade Pblica. 2010;26(3):535-42. VON STEIN Jr. A.; MALUCELLI A.; BASTOS L.C.; CARVALHO D.R.; CUBAS M.R.; PARAISO E.C. Classificao de microareas homogneas de risco com uso de minerao de dados. Revista de Sade Pblica, 2010;44(2):292-300. ZHANG L.; LIU B.; BENKLER J.; ZHOU C. Finding Actionable Knowledge via Automated Comparison . International Conference on Data Engineering - ICDE , 2009. p. 1419-1430.

V. 5, N . 1, Abril/2013

Pgina 162

Vous aimerez peut-être aussi