Vous êtes sur la page 1sur 8

Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

Este artigo apresenta uma introduo ao sistema WEKA, um software livre para Data Mining.
Compartilhar
1 Introduo

A minerao de dados (data mining) pode ser definida como o processo automtico de descoberta de conhecimento em bases de dados muito volumosas. Os primeiros softwares para minerao de dados comearam a ser desenvolvidos em meados da dcada de 90, ainda em ambiente acadmico. Hoje em dia j existem algumas dezenas de ferramentas comerciais para data mining, desenvolvidas por empresas como SAS (Enterprise Miner), IBM (Intelligent Miner) e SPSS (Clementine). Alm disso, diversos recursos para minerao de dados encontram-se disponibilizados nas verses mais recentes dos SGBDs Oracle e SQL Server. Este artigo pretende apresentar ao leitor uma das ferramentas de data mining mais simples e largamente utilizadas: a ferramenta Weka. O sistema Weka um software livre (de cdigo aberto) para minerao de dados, desenvolvido em Java, dentro das especificaes da GNU (General Public License). As suas caractersticas, bem como as tcnicas nele implementadas so descritas de forma detalhada em [Witten e Frank 2005], cujos autores so os responsveis pela implementao da ferramenta. O software est disponvel para Windows, Linux e outras plataformas.

2 rvores de Deciso

A ferramenta Weka possui como ponto forte a extrao de classificadores em bases de dados. Um classificador (ou modelo de classificao) utilizado para identificar a classe qual pertence uma determinada observao de uma base de dados, a pa rtir de suas caractersticas (seus atributos). A minerao de modelos de classificao em bases de dados um processo composto por duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo classificador aplicado sobre um conjunto de dados d e treinamento. Como resultado, obtem-se a construo do classificador propriamente dito. Tipicamente, o conjunto de treinamento corresponde a um subconjunto de observaes selecionadas de maneira aleatria a partir da base de dados que se deseja analisar. Cada observao do conjunto de treinamento caracterizada por dois tipos de atributo: o atributo classe, que indica a classe a qual a observao pertence; e os atributos preditivos, cujos valores sero analisados para que seja descoberto o modo como eles se relacionam com o atributo classe. Para exemplificar estes conceitos, considere o conjunto de dados de treinamento apresentado na Tabela 1. Neste exemplo, o conjunto de dados composto por observaes selecionadas a partir de uma base hipottica de informaes censitrias. Cada observao contm os dados de uma pessoa

entrevistada. Observe que o atributo Rico - utilizado para indicar se uma pessoa possui renda anual igual ou superior a R$ 50.000,00 - representa o atributo classe, enquanto os atributos escolaridade e idade so preditivos. Tabela 1 Base de Dados Censitrios NOME Alva Amanda Ana Eduardo Ins Joaquim Maria Raphael ESCOLARIDADE Mestrado Doutorado Mestrado Doutorado Graduao Graduao Mestrado Mestrado >30 <=30 <=30 >30 <=30 >30 >30 <=30 IDADE RICO (atributo classe) Sim Sim No Sim No No Sim No

Aps o classificador ser construdo, inicia-se a etapa de teste, que visa avaliar a sua acurcia atravs do emprego de um conjunto de dados de teste. O conjunto de teste contm observaes que tambm so selecionadas aleatoriamente a partir da base de dados. No entanto, estas observaes devem ser diferentes das que foram selecionadas para compor o conjunto de treinamento. A acurcia do classificador representa a porcentagem de observaes do conjunto de teste que so corretamente classificadas por ele. Caso a acurcia seja alta, o modelo de classificao considerado eficiente e pode ser utilizado para classificar novos casos. Diversas tcnicas podem ser utilizadas para a construo de classificadores, tais como redes neurais, mtodos Bayesianos e rvores de deciso, entre outros. As rvores de deciso (Figura 1) tm sido muito utilizadas pelos softwares de minerao de dados. Isto justificado pelo fato delas possurem uma representao intuitiva, que torna o modelo de classificao fcil de ser interpretado.

Figura 1 rvore de deciso construda a partir do conjunto de dados da Tabela 1.

A rvore de deciso apresentada na Figura 1 indica se uma pessoa rica ou no com base nos seus outros atributos, os atributos preditivos. A estrutura possui as seguintes caractersticas: - cada n interno um teste em um atributo preditivo; - uma ramificao partindo de um n interno representa um resultado para o teste (por exemplo, Escolaridade = Doutorado); - uma folha da rvore representa um rtulo de classe (por exemplo, Rico = Sim ou Rico = No); - em cada n da rvore, um atributo deve ser escolhido para dividir as observaes do conjunto de treinamento em classes, na medida do possvel. - uma nova observao classificada seguindo um caminho na rvore, da raiz at a folha. importante observar que uma rvore de deciso pode ser utilizada com duas finalidades: previso (exemplo: descobrir se um cliente ser um bom pagador em funo de suas caractersticas) e descrio (fornecer informaes interessantes a respeito das relaes entre os atributos preditivos e o atributo classe numa base de dados). Uma rvore de deciso formada por um conjunto de regras de classificao. Cada caminho da raiz at uma folha representa uma destas regras. A rvore de deciso deve ser definida de forma que, para cada observao da base de dados, haja um e apenas um caminho da raiz at a folha. As quatro regras de classificao a seguir, compem a rvore de deciso da Figura 1.

1. 2. 3. 4.

(Escolaridade = Graduao) (Rico = No) (Escolaridade = Doutorado) (Rico = Sim) (Escolaridade = Mestrado) & (Idade = >30) (Rico = Sim) (Escolaridade = Mestrado) & (Idade = <=30) (Rico = No)

Uma regra de classificao uma expresso da forma A B, onde A denominado antecedente e B denominado conseqente. O antecedente deve ser formado por um ou mais atributos preditivos, enquanto o atributo classe aparece no lado do conseqente. Uma regra do tipo A B indica que a classe B pode ser determinada pelos atributos preditivos indicados no antecedente. Medidas como a probabilidade condicional podem ser utilizadas para avaliar a qualidade de uma regra de classificao. Existem diversos algoritmos na literatura utilizados para a construo de rvores de deciso, tais como ID3, C4.5 e CHAID. Detalhes sobre as caractersticas e a implementao destes algoritmos podem ser obtidos em [Berry e Linoff 2004] e [Han e Kamber 2006]. De forma resumida pode-se dizer que os algoritmos para classificao so recursivos e que ele s constroem a rvore utilizando uma abordagem top-down. Os algoritmos classificadores possuem como meta a construo de rvores que possuam o menor tamanho e a maior acurcia possveis. Uma questo chave para a construo de uma rvore de deciso consiste

na estratgia para a escolha dos atributos que estaro mais prximos da raiz da rvore (ou seja, os atributos que so inicialmente avaliados para determinar a classe a qual uma observao pertence). Observe que na Figura 1, o atributo Escolaridade encon tra-se na raiz da rvore, pois foi considerado pelo algoritmo classificador como o atributo mais importante para determinar se uma pessoa rica ou no. Geralmente so utilizadas medidas baseadas na entropia para tratar este problema. 3. Construo de uma rvore de Deciso Utilizando a Ferramenta Weka

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que corresponde a um arquivo texto contendo um conjunto de observaes, precedido por um pequeno cabealho. O cabealho utilizado para fornecer informaes a respeito dos campos que compem o conjunto de observaes. Dessa forma, antes da minerao de dados, a ferramenta pode verificar alguma inconsistncia na base de dados e sinali -la. A Figura 2 z ilustra um exemplo de arquivo ARFF, contendo um cabealho e um conjunto de 8 registros que representam a base de dados apresentada na Tabela 1. Observe que o cabealho contm a declarao da relao que o arquivo representa (comando @rela tion), uma lista de atributos (comando @attribute) e a relao de valores que os mesmos podem assumir. O conjunto de observaes precedido por um comando @data. Cada observao representada por uma linha. Os valores dos campos dentro de uma observao devem ser separados utilizando a vrgula.

Figura 2 Arquivo ARFF. O instalador da ferramenta Weka pode ser obtido de maneira gratuita (juntamente com seu cdigo fonte) no site http://www.cs.waikato.ac.nz/~ml/weka. Uma vez instalado, o sistema Weka pode ser utilizado para minerar rvores de deciso atravs da execuo dos seguintes passos:

PASSO 1: Executar o programa. A partir do menu Iniciar / Programas, selecione WEKA e clique em Weka 3-4 (verso atual do sistema). O menu principal Weka GUI Chooser ser exibido na tela. Clique no boto Explorer (Figura 3).

Figura 3 Weka GUI Chooser

PASSO 2: Importar o arquivo ARFF . Aps iniciar o Weka Explorer, a opo Open File deve ser utilizada para abrir o arquivo ARFF que ser minerado.

PASSO 3: Selecionar os Atributos . Em seguida, o Weka abrir uma tela que permite com que o usurio possa definir qual o atributo da base que ser utilizado como classe e quais os atributos que sero utilizados como preditivos (Figura 4). No momento da importao, por default, o Weka ir considerar o ltimo atributo especificado no cabealho do arquivo ARFF, como o atributo classe, enquanto os demais atributos sero tratados como atributos preditivos. Observe que, nesta tela (aba Preprocess), tambm possvel consultar grficos de barra que indicam os cruzamentos de freqncia envolvendo todos os atributos preditivos e o atributo classe.

Figura 4 Seleo da Classe e dos Atributos Preditivos

PASSO 4: Selecionar o Algoritmo de Minerao . Clique na aba Classify. A partir desta tela possvel escolher e executar um algoritmo de classificao sobre a base de dados importada. Os resultados da minerao tambm podero ser consultados neste mesmo local . Clique no boto "Choose". Ser aberta uma janela que permitir a escolha do algoritmo de minerao de dados. Clique na pasta "trees" (algoritmos de rvore de deciso) e selecione a opo "Id3" (Figura 5).

Figura 5 Seleo do Algoritmo de Minerao de Dados

PASSO 5: Executar o Algoritmo de Minerao. No painel Test options selecione a opo Use training set. Esta seleo indica ao Weka que toda a base de dados ser utilizada como base de treinamento durante o processo de minerao. A seguir clique no boto " tart". A S rvore de deciso gerada pelo algoritmo ID3 apresentada no canto direito da tela do Weka, conforme ilustra a rea destacada no crculo vermelho da Figura 6. Na mesma tela so apresentadas algumas medidas de interesse que indicam a qualidade da rvore minerada.

Figura 6 rvore de Deciso Minerada pelo Weka 4. Concluses

Este artigo demonstrou os passos necessrios para a extrao de rvores de deciso a partir de bases de dados atravs da utilizao da ferramenta de data mining Weka. O trabalho tambm apresentou conceitos introdutrios sobre a minerao de classific adores e sobre rvores de deciso. Como trabalho futuro pretende-se apresentar outros conceitos associados minerao de rvores de deciso como, por exemplo, as medidas de interesse para avaliar a qualidade destas rvores. Alm disso pretende-se descrever outras capacidades do sistema Weka, como a minerao de regras de associao e clusters de dados e a obteno de modelos de classificao atravs de outros algoritmos diferentes do ID3. Referncias

BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales and nd Customer Relationship Management, John Wiley Consumer, 2 edition.

HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan Kaufmann nd Publishers, 2 edition.

WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools and nd Techniques, Morgan Kaufmann Publishers, 2 edition.

Vous aimerez peut-être aussi