Académique Documents
Professionnel Documents
Culture Documents
SO CRISTOVO 2013
INTRODUO
Data Mining, de acordo com Bora (2011), a combinao entre tecnologias de bancos
de dados e inteligncia artificial. Data mining utilizado para a descoberta de padres em quantidades de dados em larga escala. Para isso, utiliza-se estatstica, matemtica e inteligncia artificial para a tentativa de extrao de informao til. O KDD (Knowledge Driven Discovery), de acordo com Schroder (2004), o processo no trivial de identificar padres vlidos, singulares e potencialmente teis em dados. Embora muitas vezes o termo Data Mining seja confundido com KDD, de acordo com Da Cunha e Caurin (2010), Data Mining apenas uma etapa do processo KDD. O KDD tambm compreende etapas responsveis pela manipulao e interpretao de dados, dentre outras. Com base nos processos KDD e Data Mining, este trabalho se props a escolha de uma base de dados e desenvolvimento de estudo de caso utilizando a ferramenta Weka para demonstrar os estgios do KDD com foco na etapa de Data Mining, e utilizao de diversos algoritmos para a minerao dos dados. Por fim, os dados sero analisados e discutidos.
1.2 Objetivos
O objetivo principal deste trabalho foi desenvolver um estudo de caso utilizando o processo KDD com o auxlio da ferramenta Weka. Estudar o processo KDD; Escolher uma base de dados para aplicao do KDD; Estudar a ferramenta Weka; Estudar os algoritmos escolhidos para a execuo com a base de dados proposta; Executar os algoritmos e avaliar os resultados.
1.3 Metodologia
Para o desenvolvimento do presente trabalho, primeiramente escolheu-se uma base de dados para que as etapas do KDD fossem aplicadas. Em seguida, estudou-se as etapas do KDD e a ferramenta Weka.
3 Para a minerao dos dados, decidiu-se seguir uma abordagem utilizando vrios mtodos diferentes, como agrupamento e classificao, a fim de entender melhor o funcionamento destes, e comparar os dados das diferentes abordagens. importante ressaltar que em algumas dessas abordagens haver o pr-processamento de dados, como excluso de atributos, como tambm tratamentos sobre variveis (como discretizao de dados) para que sejam mtodos de entrada compatveis com determinados algoritmos. Por fim, com todos os algoritmos escolhidos executados sobre a base, cada um deles com seus diferentes parmetros, uma avaliao dos resultados apresentada, com discusso sobre os resultados esperados, resultados obtidos e descobertas inesperadas.
2 Fundamentao Terica
Neste captulo apresenta-se os algoritmos utilizados para a minerao dos dados utilizando a ferramenta Weka.
2.2 EM
EM, de acordo com Plant & Bhm (2010), um algoritmo utilizado para soluo via agrupamentos que definido por duas fases que so executadas at que a convergncia seja atingida: Expectation Phase: nesta fase, os objetos so associados aos clusters de acordo com a densidade de probabilidade da funo modelo dos clusters. Maximization Phase: os parmetros da funo de densidade de probabilidade so recalculados de acordo com os objetos associados. EM um algoritmo iterativo para se encontrar elementos com afinidades mximas em modelos no previamente organizados. Em outras palavras, o algoritmo alterna entre duas fases. Cria-se uma valor de expectativa (E) onde a partir dele cria-se um agrupamento de afinidades segunda por uma funo de maximizao (M) visando maximizar o agrupamento gerado para assim criar o prximo valo de expectativa.
5 Instance Based Learning (IBL), ou Aprendizado Baseado em Instncias, a classificao de uma nova instncia comparando-a com as outras instncias na base de dados. Toma-se como ponto de partida um exemplo conhecido, uma tentativa de generalizao, ento, feita, para estender o exemplo conhecido e utiliz-lo na soluo geral do problema (STANCIU, 2012). O algoritmo K-Nearest Neighbor utilizado como uma das bases no aprendizado baseado em instncias. Este algoritmo inicia sua execuo associando cada instncia a um ponto correspondente no espao n-dimensional. Os vizinhos mais prximos entre si so determinados examinando a mdia da distncia euclidiana, em uma dada situao.
% % % % % % % % % % % % %
1. Wife's age 2. Wife's education 3. Husband's education 4. Number of children ever born 5. Wife's religion 6. Wife's now working? 7. Husband's occupation 8. Standard-of-living index 9. Media exposure 10. Contraceptive method used
(numerical) (categorical) 1=low, 2, 3, 4=high (categorical) 1=low, 2, 3, 4=high (numerical) (binary) 0=Non-Islam, 1=Islam (binary) 0=Yes, 1=No (categorical) 1, 2, 3, 4 (categorical) 1=low, 2, 3, 4=high (binary) 0=Good, 1=Not good (class attribute) 1=No-use 2=Long-term 3=Short-term
Por fim, na lista a seguir, um exemplo de interpretao de uma linha da base de dados apresentado.
Dados: 24,2,3,3,1,1,2,3,0,1 Interpretao: 24: idade da esposa 2 : nvel mediano de educao da esposa 3 : boa educao do esposo 3 : nmero de filhos 1 : religio da esposa o islamismo 1 : se a esposa est trabalhando 2 : ocupao do esposo (entre 1 e 4) 3 : padro de vida relativamente alto 0 : boa exposio para a mdia 1 : nenhum mtodo anticonceptivo utilizado
4 Experimentos
Neste captulo sero detalhados os experimentos realizados e analise dos dados obtidos com a ferramenta Weka. utilizando o dataset Contraceptive Method Choice descrito anteriormente na seo 3.1. A figura abaixo mostra a relao entre o uso de mtodos anticonceptivos com os diferentes atributos presentes na base de dados durante o prprocessamento. Sua anlise foi essencial para se definir o curso de ao a ser tomado durante os experimentos.
9 Como se pode observar o nico algoritmo que conseguiu prever com uma preciso satisfatria foi o lazy.IBk, isso se deve a sua abordagem diferente atravs do mtodo vizinho mais prximo o que lhe conferiu uma grande vantagem e preciso em relao aos demais algoritmos. A figura abaixo mostra os resultados da execuo do algoritmo lazy.IBk em cima da base de dados sem nenhuma modificao prvia.
Experimento 1: SimpleKMeans agrupamento simples, 5 clusters. Este experimento foi realizado apenas com a inteno em se verificar se h alguma afinidade natural do espao amostral apresentado. Como se pode observar na Figura 3 abaixo, a quantidade de atributos contidos em cada campo torna muito difcil em se encontrar alguma afinidade entre seus elementos necessitando de uma abordagem mais direta filtrando os elementos que forem julgados inteis do dataset utilizado.
Figura 3: Experimento 1
10
Experimento 2: SimpleKMeans, 5 clusters, remoo de Media Exposure, Wife Religion, Husband Education e Wife Education Este experimento foi realizado com a inteno em tentar se obter alguma relao entre o padro de vida e de atividades do casal com o uso de mtodos contraceptivos. O que se observa abaixo na Figura 4 uma possvel relao entre os clusters 3 e 4, apesar de as mulheres possurem a mesma idade e padro de vida h uma grande diferena na quantidade de filhos e justamente as o agrupamento de maior quantidade de filhos utiliza mtodos contraceptivos. Pode se deduzir um possvel controle de natalidade por parte das mulheres por no desejarem ter mais filhos. Por curiosidade, percebe-se entre os agrupamentos 0 e 2 onde apesar de ambos possurem a mesma faixa etria, mulheres e seus maridos possurem ocupaes de mesmo nvel, nota-se uma grande diferena (1,5 filhos aproximadamente) na mdia de filhos, diferena essa que pode est influenciando do detrimento de seu padro de vida.
Figura 4:Experimento 2
Experimento 3: Simple KMeans, 5 clusters, remoo de Husbands_education, Number_of_children_ever_born, Husbands_occupation e Media_exposure. Este experimento foi realizado com a inteno em se obter alguma relao entre a educao e o padro de vida das mulheres. Observando os clusters 1 e 4 na Figura 5, cluster 1 possui mulheres com menor educao e qualidade de vida apesar da mesma idade. No utilizam mtodos contraceptivos (possibilidade de alta quantidade de filhos tambm).
11
Figura 5: Experimento 3
Experimento
4:
Simple
KMeans,
Clusters,
agrupando
por
Contraceptive_method_used levando em conta apenas Wifes_age , Wifes_education, Number_of_children_ever_born e Standard-of-living_index . Este experimento foi realizado para se tentar obter alguma relao entre a educao da mulher e sua utilizao de mtodos anticonceptivos. Os resultados obtidos ficam bem evidentes na figura abaixo onde se observa que o grupo que agrupa as mulheres que no utilizam mtodos anticonceptivos so as que possuem o menor ndice de educao possvel. Observar a Figura 6 para associar o uso do mtodo contraceptivo ao seu determinado cluster.
Figura 6: Experimento 4
Experimento 5: EM, agrupado por contraceptive_method_choice levando em conta apenas wifes_education e husbands_education.
12 Experimento realizado na inteno de observar a validade da concluso obtida no experimento 4 utilizando o algoritmo EM seu clustering automtico. Neste experimento o algoritmo EM gerou 5 agrupamentos organizando-os como nas tabelas abaixo. Pode se observar na Figura 7, os clusters 0, 1 e 2 que assim como no experimento 4, a educao do casal est fortemente ligada ao mtodo anticonceptivo utilizado. Observa-se tambm de que apesar de haver 2 agrupamentos fora da afinidade escolhida, estes representam uma pequena parcela do montante agrupado podendo-se considerar estatisticamente irrisrios para o resultado geral.
Figura 7: Experimento 5
5 Discusso
Neste captulo apresenta-se o sensor Kinect da Microsoft e sua fundamentao terica, alm do detalhamento
6 Concluso
13 Neste captulo apresenta-se o sensor Kinect da Microsoft e sua fundamentao terica, alm do detalhamento
REFERNCIAS
DATA MINING AND WARE HOUSING Bora, S.P. Electronics Computer Technology (ICECT), 2011 3rd International Conference on Volume: 1 Digital Object Identifier: 10.1109/ICECTECH.2011.5941548 Publication Year: 2011 , Page(s): 1 5
Marrying knowledge discovery in databases (KDD) with technology intelligence (TI) avenue to paradise or blind alley?
14 Schroder, H.-H.
Engineering Management Conference, 2004. Proceedings. 2004 IEEE International Volume: Digital Object Identifier: 1 10.1109/IEMC.2004.1407119
A proposal to use KDD as a tool to discovery alcohol and sugar production plant behavior Da Cunha, M.J. ; de Paula Caurin, G.A.
Industry Applications (INDUSCON), 2010 9th IEEE/IAS International Conference on Digital Object Identifier: 10.1109/INDUSCON.2010.5739897
Decision support and business intelligence systems- 9th ed. / 2011 - Livros. Turban, Efraim; Sharda, Ramesh; Delen, Dursun. 9 Edio. Pearson editora. Captulo 5
3D
formats.
Disponvel
em:
<http://docs.unity3d.com/Documentation/Manual/3D-
AGRAWAL, J.; AWARE, M. Golden Section Search (GSS) Algorithm for Maximum Power Point Tracking in Photovoltaic, 2012 IEEE 5th India International Conference on Power Electronics (IICPE), India, dez. 6-8, 2012, p. 1-6.
ARBIB, M, A.; Artificial Intelligence: Cooperative Computation and Man-Machine Symbiosis. IEEE Transactions on Computers, Estados Unidos, dec. 1976, p. 1346-1352.
CATUHE, D. Programming with the Kinect for Windows Software Development Kit. 1. ed. Microsoft Press, 2012.
15 CHANG, Y. J.; CHEN, S.F.; HUANG, J.D. A Kinect-based system for physical rehabilitation: A pilot study for young adults with motor disabilities. Research in Developmental Disabilities, Holanda, dez. 2011, p. 2566-2570.
Conference on Information Management and Engineering (ICIME), China, apr. 2010, p. 310-313.
CORREA, D. O.; SALES, D. O.; SCIOTTI, D. F.; PRADO, M. G.; WOLF, D. F.; OSORIO, F. S., Mobile Robots Navigation in Indoor Environments Using Kinect Sensor. Proceedings of the BCCES Second Brazilian Conference on Critical Embedded Systems, Campinas, 2012, p..36-41.