Vous êtes sur la page 1sur 15

1

UNIVERSIDADE FEDERAL DE SERGIPE CENTRO DE CINCIAS EXATAS E TECNOLOGIA DEPARTAMENTO DE COMPUTAO

JOO GUILHERME FERNANDES LIMA TARCSIO MESSIAS COSTA

KDD na base de dados Contraceptive Method Choice

SO CRISTOVO 2013

INTRODUO
Data Mining, de acordo com Bora (2011), a combinao entre tecnologias de bancos

de dados e inteligncia artificial. Data mining utilizado para a descoberta de padres em quantidades de dados em larga escala. Para isso, utiliza-se estatstica, matemtica e inteligncia artificial para a tentativa de extrao de informao til. O KDD (Knowledge Driven Discovery), de acordo com Schroder (2004), o processo no trivial de identificar padres vlidos, singulares e potencialmente teis em dados. Embora muitas vezes o termo Data Mining seja confundido com KDD, de acordo com Da Cunha e Caurin (2010), Data Mining apenas uma etapa do processo KDD. O KDD tambm compreende etapas responsveis pela manipulao e interpretao de dados, dentre outras. Com base nos processos KDD e Data Mining, este trabalho se props a escolha de uma base de dados e desenvolvimento de estudo de caso utilizando a ferramenta Weka para demonstrar os estgios do KDD com foco na etapa de Data Mining, e utilizao de diversos algoritmos para a minerao dos dados. Por fim, os dados sero analisados e discutidos.

1.2 Objetivos
O objetivo principal deste trabalho foi desenvolver um estudo de caso utilizando o processo KDD com o auxlio da ferramenta Weka. Estudar o processo KDD; Escolher uma base de dados para aplicao do KDD; Estudar a ferramenta Weka; Estudar os algoritmos escolhidos para a execuo com a base de dados proposta; Executar os algoritmos e avaliar os resultados.

1.3 Metodologia
Para o desenvolvimento do presente trabalho, primeiramente escolheu-se uma base de dados para que as etapas do KDD fossem aplicadas. Em seguida, estudou-se as etapas do KDD e a ferramenta Weka.

3 Para a minerao dos dados, decidiu-se seguir uma abordagem utilizando vrios mtodos diferentes, como agrupamento e classificao, a fim de entender melhor o funcionamento destes, e comparar os dados das diferentes abordagens. importante ressaltar que em algumas dessas abordagens haver o pr-processamento de dados, como excluso de atributos, como tambm tratamentos sobre variveis (como discretizao de dados) para que sejam mtodos de entrada compatveis com determinados algoritmos. Por fim, com todos os algoritmos escolhidos executados sobre a base, cada um deles com seus diferentes parmetros, uma avaliao dos resultados apresentada, com discusso sobre os resultados esperados, resultados obtidos e descobertas inesperadas.

1.4 Organizao do Trabalho


A prxima parte do trabalho foi organizada conforme descrito a seguir. O captulo 2 apresenta os algoritmos utilizados para a minerao dos dados. Em seguida, no captulo 3 apresentada a base de dados escolhida para a minerao de dados. No captulo 4 os experimentos feitos so apresentados. No captulo 5 apresentada a discusso sobre os algoritmos e resultados da minerao. No captulo 6 so realizadas as concluses, e, por fim, as referncias so apresentadas.

2 Fundamentao Terica
Neste captulo apresenta-se os algoritmos utilizados para a minerao dos dados utilizando a ferramenta Weka.

2.1 Simple KMeans


De acordo com Xu & Liu (2010), KMeans um dos mtodos mais simples, no supervisionados, de aprendizagem, para a soluo de problemas de agrupamento. O algoritmo funciona a partir da definio prvia de um nmero k de clusters a serem feitos. A ideia principal do algoritmo a de criar k centroides, um para cada cluster. A distncia entre esses centroides a maior possvel. Em seguida, cada ponto pertencente a um conjunto de dados associado ao centroide mais prximo. Quando no houver mais nenhum ponto pendente, o primeiro passo ter terminado e um grupo inicial ter sido definido. O prximo passo, ento, recalcular k novos centroides como baricentros dos clusters do passo anterior. O algoritmo itera at que nenhuma movimentao seja possvel. Este algoritmo tem como objetivo minimizar uma funo objetiva, neste caso, uma funo de erro quadrtico.

2.2 EM
EM, de acordo com Plant & Bhm (2010), um algoritmo utilizado para soluo via agrupamentos que definido por duas fases que so executadas at que a convergncia seja atingida: Expectation Phase: nesta fase, os objetos so associados aos clusters de acordo com a densidade de probabilidade da funo modelo dos clusters. Maximization Phase: os parmetros da funo de densidade de probabilidade so recalculados de acordo com os objetos associados. EM um algoritmo iterativo para se encontrar elementos com afinidades mximas em modelos no previamente organizados. Em outras palavras, o algoritmo alterna entre duas fases. Cria-se uma valor de expectativa (E) onde a partir dele cria-se um agrupamento de afinidades segunda por uma funo de maximizao (M) visando maximizar o agrupamento gerado para assim criar o prximo valo de expectativa.

2.3 Instance Based K-Nearest Neighbours (ibk)

5 Instance Based Learning (IBL), ou Aprendizado Baseado em Instncias, a classificao de uma nova instncia comparando-a com as outras instncias na base de dados. Toma-se como ponto de partida um exemplo conhecido, uma tentativa de generalizao, ento, feita, para estender o exemplo conhecido e utiliz-lo na soluo geral do problema (STANCIU, 2012). O algoritmo K-Nearest Neighbor utilizado como uma das bases no aprendizado baseado em instncias. Este algoritmo inicia sua execuo associando cada instncia a um ponto correspondente no espao n-dimensional. Os vizinhos mais prximos entre si so determinados examinando a mdia da distncia euclidiana, em uma dada situao.

3 Base de Dados Escolhida


Neste captulo, apresenta-se a base de dados utilizada no presente trabalho, alm da demonstrao de um pequeno subconjunto da base. Para a utilizao na ferramenta Weka, uma base de dados no formato .arff (AttributeRelation File Format), que consiste basicamente em um arquivo texto em ASCII que descreve uma lista de instncias que compartilham um conjunto de atributos.

3.1 Contraceptive Method Choice


Contraceptive Method Choice (ou Escolha de Mtodos Anticonceptivos, em portugus), um subconjunto de dados oriundos de uma pesquisa realizada em 1987 na Indonsia. As amostras contidas nesta base so de mulheres casadas enquadradas em trs estados: as que sabiam que estavam grvidas, as que sabiam quem no estavam grvidas e as que no sabiam se estavam ou no estavam grvidas na poca das entrevistas. Com esses dados, desejava-se deduzir o tipo de mtodo anticonceptivo baseado em caractersticas socioeconmicas e demogrficas. A lista a seguir demonstra os atributos desta base e os seus possveis valores.

% % % % % % % % % % % % %

1. Wife's age 2. Wife's education 3. Husband's education 4. Number of children ever born 5. Wife's religion 6. Wife's now working? 7. Husband's occupation 8. Standard-of-living index 9. Media exposure 10. Contraceptive method used

(numerical) (categorical) 1=low, 2, 3, 4=high (categorical) 1=low, 2, 3, 4=high (numerical) (binary) 0=Non-Islam, 1=Islam (binary) 0=Yes, 1=No (categorical) 1, 2, 3, 4 (categorical) 1=low, 2, 3, 4=high (binary) 0=Good, 1=Not good (class attribute) 1=No-use 2=Long-term 3=Short-term

Por fim, na lista a seguir, um exemplo de interpretao de uma linha da base de dados apresentado.

Dados: 24,2,3,3,1,1,2,3,0,1 Interpretao: 24: idade da esposa 2 : nvel mediano de educao da esposa 3 : boa educao do esposo 3 : nmero de filhos 1 : religio da esposa o islamismo 1 : se a esposa est trabalhando 2 : ocupao do esposo (entre 1 e 4) 3 : padro de vida relativamente alto 0 : boa exposio para a mdia 1 : nenhum mtodo anticonceptivo utilizado

4 Experimentos
Neste captulo sero detalhados os experimentos realizados e analise dos dados obtidos com a ferramenta Weka. utilizando o dataset Contraceptive Method Choice descrito anteriormente na seo 3.1. A figura abaixo mostra a relao entre o uso de mtodos anticonceptivos com os diferentes atributos presentes na base de dados durante o prprocessamento. Sua anlise foi essencial para se definir o curso de ao a ser tomado durante os experimentos.

Figura 1: Grficos de pr-processamento

4.1 Abordagem: Classificao


Por classificao no foram encontrados muitos resultados satisfatrios. Os algoritmos existentes no conseguiram prever com preciso o mtodo de anticonceptivo utilizado. A Tabela 1 mostra os algoritmos utilizados e seus resultados obtidos. Algoritmo bayes.NaiveBayes functions.SMO rules.ZeroR lazy.IBk Acurcia 51% 50% 42% 95%

Tabela 1: Acurcia dos diferentes algoritmos de classificao

9 Como se pode observar o nico algoritmo que conseguiu prever com uma preciso satisfatria foi o lazy.IBk, isso se deve a sua abordagem diferente atravs do mtodo vizinho mais prximo o que lhe conferiu uma grande vantagem e preciso em relao aos demais algoritmos. A figura abaixo mostra os resultados da execuo do algoritmo lazy.IBk em cima da base de dados sem nenhuma modificao prvia.

Figura 2:Acurcia e matriz de confuso

4.2 Abordagem : Agrupamento


Nesta seo sero analisados os resultados dos agrupamentos utilizando os algoritmos SimpleKmeans e EM.

Experimento 1: SimpleKMeans agrupamento simples, 5 clusters. Este experimento foi realizado apenas com a inteno em se verificar se h alguma afinidade natural do espao amostral apresentado. Como se pode observar na Figura 3 abaixo, a quantidade de atributos contidos em cada campo torna muito difcil em se encontrar alguma afinidade entre seus elementos necessitando de uma abordagem mais direta filtrando os elementos que forem julgados inteis do dataset utilizado.

Figura 3: Experimento 1

10

Experimento 2: SimpleKMeans, 5 clusters, remoo de Media Exposure, Wife Religion, Husband Education e Wife Education Este experimento foi realizado com a inteno em tentar se obter alguma relao entre o padro de vida e de atividades do casal com o uso de mtodos contraceptivos. O que se observa abaixo na Figura 4 uma possvel relao entre os clusters 3 e 4, apesar de as mulheres possurem a mesma idade e padro de vida h uma grande diferena na quantidade de filhos e justamente as o agrupamento de maior quantidade de filhos utiliza mtodos contraceptivos. Pode se deduzir um possvel controle de natalidade por parte das mulheres por no desejarem ter mais filhos. Por curiosidade, percebe-se entre os agrupamentos 0 e 2 onde apesar de ambos possurem a mesma faixa etria, mulheres e seus maridos possurem ocupaes de mesmo nvel, nota-se uma grande diferena (1,5 filhos aproximadamente) na mdia de filhos, diferena essa que pode est influenciando do detrimento de seu padro de vida.

Figura 4:Experimento 2

Experimento 3: Simple KMeans, 5 clusters, remoo de Husbands_education, Number_of_children_ever_born, Husbands_occupation e Media_exposure. Este experimento foi realizado com a inteno em se obter alguma relao entre a educao e o padro de vida das mulheres. Observando os clusters 1 e 4 na Figura 5, cluster 1 possui mulheres com menor educao e qualidade de vida apesar da mesma idade. No utilizam mtodos contraceptivos (possibilidade de alta quantidade de filhos tambm).

11

Figura 5: Experimento 3

Experimento

4:

Simple

KMeans,

Clusters,

agrupando

por

Contraceptive_method_used levando em conta apenas Wifes_age , Wifes_education, Number_of_children_ever_born e Standard-of-living_index . Este experimento foi realizado para se tentar obter alguma relao entre a educao da mulher e sua utilizao de mtodos anticonceptivos. Os resultados obtidos ficam bem evidentes na figura abaixo onde se observa que o grupo que agrupa as mulheres que no utilizam mtodos anticonceptivos so as que possuem o menor ndice de educao possvel. Observar a Figura 6 para associar o uso do mtodo contraceptivo ao seu determinado cluster.

Figura 6: Experimento 4

Experimento 5: EM, agrupado por contraceptive_method_choice levando em conta apenas wifes_education e husbands_education.

12 Experimento realizado na inteno de observar a validade da concluso obtida no experimento 4 utilizando o algoritmo EM seu clustering automtico. Neste experimento o algoritmo EM gerou 5 agrupamentos organizando-os como nas tabelas abaixo. Pode se observar na Figura 7, os clusters 0, 1 e 2 que assim como no experimento 4, a educao do casal est fortemente ligada ao mtodo anticonceptivo utilizado. Observa-se tambm de que apesar de haver 2 agrupamentos fora da afinidade escolhida, estes representam uma pequena parcela do montante agrupado podendo-se considerar estatisticamente irrisrios para o resultado geral.

Figura 7: Experimento 5

5 Discusso
Neste captulo apresenta-se o sensor Kinect da Microsoft e sua fundamentao terica, alm do detalhamento

6 Concluso

13 Neste captulo apresenta-se o sensor Kinect da Microsoft e sua fundamentao terica, alm do detalhamento

REFERNCIAS
DATA MINING AND WARE HOUSING Bora, S.P. Electronics Computer Technology (ICECT), 2011 3rd International Conference on Volume: 1 Digital Object Identifier: 10.1109/ICECTECH.2011.5941548 Publication Year: 2011 , Page(s): 1 5

Marrying knowledge discovery in databases (KDD) with technology intelligence (TI) avenue to paradise or blind alley?

14 Schroder, H.-H.

Engineering Management Conference, 2004. Proceedings. 2004 IEEE International Volume: Digital Object Identifier: 1 10.1109/IEMC.2004.1407119

Publication Year: 2004 , Page(s): 276 - 282 Vol.1

A proposal to use KDD as a tool to discovery alcohol and sugar production plant behavior Da Cunha, M.J. ; de Paula Caurin, G.A.

Industry Applications (INDUSCON), 2010 9th IEEE/IAS International Conference on Digital Object Identifier: 10.1109/INDUSCON.2010.5739897

Publication Year: 2010 , Page(s): 1 - 5

Decision support and business intelligence systems- 9th ed. / 2011 - Livros. Turban, Efraim; Sharda, Ramesh; Delen, Dursun. 9 Edio. Pearson editora. Captulo 5

3D

formats.

Disponvel

em:

<http://docs.unity3d.com/Documentation/Manual/3D-

formats.html> Acesso em: 24 jul. 2013.

AGRAWAL, J.; AWARE, M. Golden Section Search (GSS) Algorithm for Maximum Power Point Tracking in Photovoltaic, 2012 IEEE 5th India International Conference on Power Electronics (IICPE), India, dez. 6-8, 2012, p. 1-6.

ARBIB, M, A.; Artificial Intelligence: Cooperative Computation and Man-Machine Symbiosis. IEEE Transactions on Computers, Estados Unidos, dec. 1976, p. 1346-1352.

CATUHE, D. Programming with the Kinect for Windows Software Development Kit. 1. ed. Microsoft Press, 2012.

15 CHANG, Y. J.; CHEN, S.F.; HUANG, J.D. A Kinect-based system for physical rehabilitation: A pilot study for young adults with motor disabilities. Research in Developmental Disabilities, Holanda, dez. 2011, p. 2566-2570.

Conference on Information Management and Engineering (ICIME), China, apr. 2010, p. 310-313.

CORREA, D. O.; SALES, D. O.; SCIOTTI, D. F.; PRADO, M. G.; WOLF, D. F.; OSORIO, F. S., Mobile Robots Navigation in Indoor Environments Using Kinect Sensor. Proceedings of the BCCES Second Brazilian Conference on Critical Embedded Systems, Campinas, 2012, p..36-41.

DS2KEY. Disponvel em: <http://code.google.com/p/ds2key/downloads/detail?name=DS2 K ey101.rar> Acesso em: 07 ago. 2013.

Vous aimerez peut-être aussi