Vous êtes sur la page 1sur 17

Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun.

2011
http://www.revistas.unifacs.br/index.php/rsc
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA
METHODS OF CLASSIFICATION FOR XML DOCUMENTS - A QUALITATIVE COMPARISON

Williams Diaz, Paulo Caetano da Silva
Universidade Salvador (UNIFACS), Bahia, Brasil
williams@interban.com.br , paulo.caetano@prof.unifacs.br

Resumo
A classificao de documentos semi-estruturados, a exemplo dos documentos XML, se torna necessria
devido a grandes bases de dados que esto sendo criadas neste formato, em todas as reas do
conhecimento. A extrao de informaes teis nessas bases um grande desafio e passa necessariamente
pela classificao das informaes. Um dos principais desafios no o de como classificar, mas sim o que
classificar, em razo da possvel heterogeneidade das bases de dados. Neste artigo descrevem-se e
comparam-se alguns dos mtodos e algoritmos utilizados para realizar esta tarefa.

Palavras-chave: Documentos XML; Classificao XML; Algoritmos de Classificao; Mtodos de
Classificao; Minerao de dados.

Abstract
The classification of semi-structured documents, like XML documents becomes increasingly necessary due
to large databases that are being created in all areas of knowledge in this format. The extraction of useful
information from these databases becomes a major challenge and necessarily involves the classification of
information. One such challenge is not how to classify, but what sort, because of the possible heterogeneity
of databases. In this article we describe and compare some of the methods and algorithms used to
accomplish this task.
Keywords: XML Documents; XML Classification; XML Algorithms; Classfiication Algorithms; Classification
Methods; Data Mining.







MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

65
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

1 INTRODUO
Esta avaliao se refere basicamente aos dois anos de pesquisa do XML Mining Track no
Inex 2005 e 2006. Este trabalho focou exclusivamente a classificao de documentos XML, de
formar a vislumbrar desafios para futuras pesquisas nesta rea.
As pessoas produzem mais informaes do que so capazes de ler e analisar [05]. O volume
de informaes disponveis na Web, por exemplo, duplica a cada trs anos [07]. Grande parte
destas informaes se encontra no formato XML. Um documento XML um texto com uma
estrutura definida pelo Consrcio W3C [08]. XML uma linguagem de marcao, assim como
HTML. Os objetivos das duas so diferentes. Enquanto o HTML foi criado para mostrar
informaes, o XML foi criado para guardar dados. O documento XML no possui tags pr-
definidas, o prprio usurio pode defini-las, seguindo as regras estabelecidas pelo W3C.
Documentos XML so documentos definidos pela sua estrutura e pelo seu contedo.
Frequentemente necessrio explorar grandes quantidades de dados a procura de
padres consistentes, de forma a detectar relacionamentos entre variveis, criando assim um
novo conjunto de dados que possa ter alguma utilidade. Esse processo chamado de minerao
de dados. Os dados devem ser acessados e ordenados, ou seja, classificados de uma forma lgica a
fim de obter uma efetiva minerao de dados. A maioria dos mtodos existentes para classificao
de dados se concentra ou na estrutura ou nos dados propriamente ditos. No entanto, dependendo
da origem das informaes e da aplicao, se faz necessrio processar a classificao das duas
formas.
A classificao consiste em descobrir uma funo que mapeia um conjunto de registros em
um conjunto de rtulos pr-definidos, denominados classes [05]. Uma vez descoberta, esta funo
aplicada a novos registros de forma a prever a classe em que tais registros se enquadram. Por
exemplo, na rea mdica podem-se armazenar os registros mdicos de pacientes que sofrem de
determinadas doenas e permitir com isso identificar a doena em outros pacientes que possuem
os mesmos valores clnicos ou laboratoriais.
Em 2005 foi criado o grupo do Mining Track [03] com o objetivo de identificar problemas
no processo de minerao de dados em documentos semi-estruturados, e.g. documentos XML, e
identificar o potencial das tcnicas de inteligncia artificial para clusterizao e classificao nestes
documentos. Em 2006 foi proposta para o grupo uma nova tarefa: o mapeamento estrutural. Lidar
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

66
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

com estruturas til para extrair classes de diferentes fontes de documentos. Gerenciar classes e
contedos ao mesmo tempo requer maior complexidade nos algoritmos das regras de
classificao. O resultado obtido pelo Mining Track foi criao de diferentes modelos de
clusterizao, i.e. agrupamento, e classificao. Neste artigo somente so descritos os modelos de
classificao.
Este texto se organiza da seguinte forma: na seo 2 so discutidos os algoritmos e
mtodos de classificao e na seo 3 so descritas as concluses.

2 ALGORITMOS E MTODOS DE CLASSIFICAO
Nesta seo sero discutidos e comparados os trabalhos apresentados no Mining Track de
2005 e 2006. Freqentemente, um mtodo de classificao composto por dois ou mais
algoritmos de computao.
2.1 Garboni et Al.
Este mtodo de classificao [01], baseado na informao estrutural do documento XML.
Cada documento visualizado como uma estrutura em forma de rvore, representados pelas suas
tags. Desta forma, o algoritmo utiliza a informao contida na estrutura para detectar famlias de
documentos com estruturas similares. O trabalho de Garboni consiste em descobrir padres
estruturais e depois classific-los adequadamente.
Para realizar a classificao, em primeiro lugar so definidos dois parmetros especificados
pelo usurio: mnimo de ocorrncias e mnimo de confiabilidade. Em seguida, o algoritmo procura
por padres freqentes na estrutura do documento e identificando-os, um novo schema criado
com as rvores mais freqentes. A Figura 1 ilustra o exemplo do resultado do processamento
desse algoritmo.
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

67
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc


Figura 1 Exemplo de criao de uma nova rvore [01].
Esse mtodo processado da seguinte forma: transforma o documento XML em uma
seqncia de classes. No exemplo acima, fica evidente que a seqncia movie, title, filmography e
cast um padro presente nas duas rvores A e B. Utilizando ento aqueles parmetros definidos
anteriormente (ocorrncias e confiabilidade), utilizado um algoritmo padro de extrao de
seqncia e obtemos um novo schema de estrutura. Os autores denominam este passo de
reduo.
Padres muito freqentes so excludos pelo algoritmo quando so considerados
irrelevantes. Deve-se lembrar que a idia central obter similaridade de estruturas, e no de
identificadores (, i.e. tags.
A distncia de edio [09] uma funo de similaridade muito utilizada para categorizar
rvores hierrquicas. Ela serve para determinar o quo parecidas so duas strings. Esse valor
calculado em uma mtrica de distncia a ser escolhida, a exemplo de nmero de caracteres
diferentes na string, ou o nmero de intervenes necessrias para converter uma string em
outra.
Os autores propem uma mtrica de edio (ou funo de similaridade), baseada na
seguinte expresso:

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

68
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Na qual D o documento dentro do conjunto C de documentos. LCS a funo Longest
Common Subsequence, (subsequncia de estrutura mais caracterstica). E i um fator
experimental dependendo do tamanho das sequncias coincidentes.
Teste do mtodo: o algoritmo foi escrito em C++, usando um Pentium PC rodando em
plataforma Red Hat. A base de dados utilizada foi a MovieDB, uma base que possui 9.643 ttulos
de filmes em formato XML.
Vantagens deste mtodo: este mtodo muito eficiente quando utilizados em
documentos extensos e com similaridade de estruturas entre si.
Desvantagens: Este mtodo estrutura-dependente. Isto implica que os ndices de
exatido alcanados dependem muito do padro de estrutura do documento, dos seus nveis e da
repetio destes padres.

2.2 Mtodo de Candilier et Al.
O mtodo de Candilier [02] prope que ao invs de trabalhar diretamente com as rvores
hierrquicas de um documento XML, estas sejam transformadas num conjunto de valores-
atributos, para ento serem classificadas utilizando um algoritmo adequado.
Os autores utilizam como mtrica de distncia de edio as caractersticas de
relacionamento pai-filho, irmo-irmo e caminhos distintos. Eles sugerem criar novos atributos a
medida que estes vo sendo conhecidos. Estes atributos sempre tm um valor inteiro. Por
exemplo, o n principal poderia ser 1, os filhos 1.1 e 1.2 - sendo sempre valores inteiros. Ao
comparar estes valores de dois documentos diferentes pode-se descobrir uma similaridade ou
diferena entre eles, simplesmente comparando os seus atributos. Da mesma forma, seria possvel
perceber se permitida a relao pai-filho em um determinado documento, quantificando o
nmero de filhos existentes entre um documento e outro.
O algoritmo requer que algumas regras sejam definidas a priori. Isso permite que alguns
dados sejam descartados por no pertencerem a essas regras, ou seja, um processo de limpeza
do resultado obtido.
O algoritmo executado diversas vezes, de forma iterativa, at que o processo de
aprendizagem esteja finalizado, e a limpeza efetuada. O processo de aprendizagem basicamente
consiste em separar as classes encontradas em diferentes partes de acordo com as regras pr-
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

69
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

definidas. Ao resultado aplicado um modelo probabilstico, de forma a tomar decises de
classificao.
O algoritmo proposto pelos autores, e originrio do SSC (Subspace Clustering Algorithm), o
qual usa um modelo probabilstico para determinar uma nova hierarquia de classes de um texto
XML. A representao do algoritmo mostrada a seguir:
Input: the dataset D of XML documents
- initialize the unique cluster C1 with all the documents of the dataset D
- create a new empty hierarchy H
- set CUT = 1
while CUT = 1 do
- set CUT = 0
for all k 2 [1::K] do
- set CUTk = 0 and i = 1
while CUTk = 0 and i <= SA do
if in Cut(Ck;Ai), no class is splitted into diferent parts then
- perform the partitionning
- compute the associated rules and update the hierarchy
- set CUTk = 1 and CUT = 1
else
- i = i + 1
end if
end while
end for
end while
Output: the hierarchy H, and the current partition
O resultado da execuo deste algoritmo utilizado para diferenciar uma classe de outras,
e criada uma nova regra, que ser utilizada no prximo passo, que a classificao propriamente
dita.
Na Tabela 1 podem ser visualizados os resultados obtidos pelo autor nas bases de dados
definidas pelo INEX.
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

70
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Tabela 1 - Nmero de atributos gerados aps rodar o algoritmo [02].

Percebe-se claramente que o nmero de atributos descobertos supera largamente o
nmero de tags (primeira coluna). As colunas subseqentes indicam o nmero de relaes pais-
filho, relaes de irmo, nmero de ns e nmero de caminhos das rvores criadas.
Vantagens deste mtodo: a descoberta de novos atributos o ponto positivo desse
mtodo, j que possvel aplicar este algoritmo a qualquer base de dados para obter novos
parmetros e criar novas regras a partir deles.
Desvantagens: Existe um limite muito tnue entre o nmero de atributos descobertos e a
sua real utilidade, ou seja, a importncia da informao que os atributos possuem. Neste mtodo
no determinado como se identifica a relevncia de determinados atributos, como aqueles
obtidos na base m-db-s-3 da Tabela 1.
2.3 Mtodo de Doucet e colaboradores
O mtodo proposto por Doucet [04] assume que os documentos tm que ser clusterizados
antes de serem classificados. Por hiptese, documentos relevantes tendem a aparecer no mesmo
cluster. Os autores propem uma mistura de uso de elementos estruturais e textuais para
classificar um documento.
O mtodo representa o documento transformando-o em vetores multidimensionais, e
depois aplica o algoritmo k-means [10], no qual k identifica o nmero desejado de classes para
classificao. Este nmero pode ser fornecido pelo usurio, como uma varivel de entrada, ou
determinado durante o processamento. Este algoritmo (tambm chamado de k-Mdias) fornece
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

71
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

uma classificao de informaes de acordo com os prprios dados. Esta classificao baseada
em anlise e comparaes entre os valores numricos dos dados, sem a superviso humana. O
algoritmo no utiliza de pr-classificao.
Esse mtodo utiliza uma anlise estrutural em primeiro lugar, para depois analisar o
documento textualmente. Devido ao fato do mtodo no utilizar os documentos de definio de
estruturas (DTD), ele adequado para o uso de bases heterogneas, tais como as usadas na
proposta do INEX: Jornais do IEEE, e Wikipdia.
O algoritmo k-means bsico est estruturado pelos seguintes passos:
inicializao, onde so escolhidos os parmetros iniciais;
iterao, onde o arquivo textual lido de forma sequencial e direcionado a um cluster. Esta
tarefa executada diversas vezes;
finalizao, quando a fase anterior permanece estvel.
O algoritmo descarta as stop-words, ou palavras de parada, i.e. palavras consideradas
irrelevantes, como as preposies a, os, etc. Aps esse descarte, o algoritmo organiza as
palavras remanescentes num vetor, combinando o texto no estruturado com o texto
estruturado.
Os autores propem uma modificao no algoritmo k-menas, misturando elementos
estruturais e textuais, da seguinte forma:
inicio, com a entrada do documento, do nmero de clusters desejados para classificao e
um indicativo limite de similaridade, por exemplo, distncia de edio;
leitura das tags e descoberta de similaridade;
leitura do textos e descoberta de atributos;
combinao dos elementos textuais com estruturais;
classificao
Devido ao fato de que cada documento categorizado dependendo da sua relevncia, os
autores definiram um ranking de preciso para os documentos classificados erroneamente na
etapa de teste. Este ranking baseado nas seguintes expresses:

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

72
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc


No qual TP (true positive) indica os documentos colocados na categoria certa, FP (false
positive) indica os documentos classificados erroneamente e FN (false negative) indica os
documentos excludos erroneamente de uma determinada categoria.
Usando esses dois parmetros os autores definem a mtrica de comparao na
classificao com base na seguinte expresso:

Os resultados obtidos utilizando este mtodo de classificao nas bases do IEEE e da
Wikipdia esto descritos nas Tabelas 2 e 3, respectivamente.

Tabela 2 - Resultados para a base IEEE - [04].





MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

73
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Tabela 3 - Resultados para a base Wikipdia [04].

Na primeira coluna temos os atributos usados, se texto, tags, texto + tags ou texto + T/E. O
T/E um novo atributo definido pelos autores que indica a relao Texto / Estrutura. Na ltima
coluna esto descritos o ranking global no INEX. A diferena entre o Micro F1 e o Macro F2 que
no Micro utilizado um fator de peso referente a quantos documentos existem em cada classe e
no Macro este fator no utilizado.
Vantagens deste mtodo: a possibilidade de no depender de elementos estruturais, tais
como DTD (documento de estrutura de um arquivo XML), permite aplicar o algoritmo a bases
muito heterogneas, fato comum nos conjuntos atuais de documentos disponveis na Web.
Desvantagens: A utilizao de parmetros textuais traz, no entanto, outras dificuldades,
tais como menor desempenho na execuo do algoritmo, assim como um ndice de confiabilidade
mais restrito. Deve-se lembrar que textos diferentes em bases distintas podem ter uma relao
semntica muito estreita. Sem uma avaliao estrutural profunda, muitos erros podem ser
cometidos.
Os autores declaram ter obtido os melhores resultados quando comparados com outras
equipes. No entanto, verifica-se que fugiram bastante da regra inicial, que era dar uma maior
ateno aos elementos estruturais e no textuais. Ou seja, o mtodo praticamente ignorou a
informao estrutural hierrquica de um documento XML. Outro item a ser levado em
considerao que este trabalho no apresentou o resultado final da classificao e sim da
clusterizao.

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

74
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

2.4 Mtodo XRules
Este modelo [05] e [06], baseado em regras pr-determinadas, aplicadas a um conjunto
de dados conhecidos. Estas regras so usadas para fazer dedues ou determinar escolhas.
Basicamente, um sistema baseado neste modelo possui quatro componentes bsicos:
Uma lista de regras, provenientes de uma base de conhecimento;
Um executor que toma uma determinada ao dependendo do dado de entrada e da base
de regras pr-estabelecidas;
Uma memria temporria de trabalho;
Uma interface com o meio exterior.
De acordo com [06], este mtodo pode ser aplicado no somente para documentos XML,
mas para quaisquer tipos de dados estruturados,
A maneira tradicional, ou seja, a classificao de texto, tambm utilizada neste algoritmo,
mas com a diferena de que em primeiro lugar aplicada a regra estrutural. Este algoritmo
identifica os padres das estruturas internas da base de dados, criando classes que sero utilizadas
depois para criar as regras de classificao.
O mtodo XRules considera que todos os documentos XML so formados por rvores e
sub-rvores, e mesmo aqueles que no o so, podem ser convertidos utilizando uma metodologia
chamada de Node Splitting.
O algoritmo tenta encontrar similaridades dentro da rvore, como a ilustrada na Figura2.
Percebe-se claramente que existe uma subrvore frequente nas trs estruturas (T1, T2 e T3).

Figura 2 rvores freqentes [06].
O objetivo deste mtodo est em encontrar ocorrncias de subrvores dentro da rvore
principal, e est definido pela expresso matemtica que identifica a frequncia de T em D, na
qual D o dataset, i.e. o conjunto de dados, e chamado de fator absoluto de
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

75
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

suporte e indica o nmero de rvores em D que contm ao menos uma ocorrncia em T, i.e. a
frequncia de ocorrncias.
Com isso, consegue-se calcular o fator de suporte relativo de ocorrncias por meio da
expresso:

Quaisquer dos dois fatores podem ser utilizados na implementao do algoritmo, a
depender da heterogeneidade do domnio a ser classificado.
A base de dados a ser usada para treinamento consiste em um conjunto de estruturas,
cada uma associada a uma classe em particular. Essencialmente, esta base um documento XML
em forma de rvore com N componentes, onde cada uma dessas rvores na floresta representa
uma varivel tambm denominada classe.
O objetivo desta classificao obter um modelo de aprendizado que possa predizer com
certo grau de segurana essas mesmas ocorrncias em outros documentos com estrutura
desconhecida.
O que importa em termos de custo a relao entre as predies corretas e o nmero de
predies encontradas pelo algoritmo. Esta relao est dada pelo fator de exatido representado
a seguir:

Na qual R o modelo, D a base de dados e n o nmero de predies corretas feitas na base de
teste D. Este fator s vezes no adequado j que a probabilidade da ocorrncia de determinadas
classes superior a outras, isto levou os autores a usar a mdia ponderada dos fatores de
exatido, dada por:

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

76
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Os autores basearam o seu mtodo de classificao em quatro formas diferentes de custo
e exatido, que iro definir o wi :
Modelo Proporcional: no qual o peso utilizado para aferir o custo de classificao
proporcional probabilidade de apario das classes no arquivo. Normalmente utilizado
em bases heterogneas, nas quais a possibilidade de apario das classes no arquivo pode
ser muito diferente de uma base para outra.
Modelo Igualitrio: todas as classes tem a mesma probabilidade de aparecer. adequado
para usar numa base de dados homognea.
Modelo Inverso: os pesos so inversamente proporcionais sua probabilidade dentro da
base de dados. Funciona bem para classificaes binrias naquelas bases de dados que tem
muitas classes com poucas possibilidades de aparecer.
Modelo Customizado, no qual o peso escolhido previamente de acordo com as
necessidades do usurio. Deve ser utilizado em base de dados cujo contedo seja bastante
conhecido, e, portanto, este parmetro escolhido com base em informaes existentes.
Viso estatstica imposta ao modelo
Alm da frequncia e da exatido discutidas anteriormente, o algoritmo impe uma viso
probabilstica para cada modelo. Cada classe classificada num intervalo de confiana, inclusive
comparando cada uma com o grupo de classes ainda no classificado. Desta forma, tenta-se
descobrir uma nova regra de similaridade. O algoritmo rejeita as regras que no se aplicam a
determinado intervalo de confiana pr-definido.
Os pesquisadores propem a Inferncia Bayesiana [11] para tratar as incertezas. A
Inferncia Bayesiana um modelo baseado no teorema de Bayes, que descreve as incertezas
sobre quantidades invisveis de forma probabilsticas. Estas incertezas so modificadas
periodicamente aps observaes de novos dados ou resultados. Isso chamado de operao
Bayesiana. O teorema mostra a relao entre uma probabilidade condicional e a sua inversa. Por
exemplo, a probabilidade de uma hiptese dada a observao de uma evidencia e a probabilidade
da evidncia dada pela hiptese. A seguir mostrada a expresso proveniente do teorema de
Bayes:

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

77
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Pr(A) e Pr(B) so as probabilidades a priori de A e B. PR(B\A) e Pr(A\B) so as possibilidades
a posteriori de B condicional de A e A condicional de B, respectivamente. Ou seja, este teorema
mostra como alterar as probabilidades a priori utilizando as novas evidencias de forma a obter
probabilidades a posteriori.
A implementao do mtodo XRules consiste em duas fases: a fase de treinamento e a fase de
testes:
(i) Na fase de treinamento mineram-se as estruturas de cada classe at adquirir os
parmetros que satisfaam os nveis definidos pelo usurio, de acordo com os
parmetros estatsticos discutidos previamente. Isto feito utilizando uma base
de estruturas com classes conhecidas a partir das quais construdo o modelo de
classificao, chamado de conjunto de regras (rule set). O objetivo usar este
modelo de classificao para inferir as classes. As regras so classificadas de
acordo com a sua fora e precedncia descartando aquelas que no atingem
certo nvel de predio. Depois da fase de treinamento, tem-se um conjunto de
regras validadas e parametrizadas, no necessariamente atingindo todas as
situaes, mas em nmero suficiente para que outras regras possam ser
inferidas.
(ii) Em seguida, ocorre a fase de testes, na qual cada regra testada e validada de
acordo com a fora preditiva, combinando a probabilidade estatstica para inferir
novas regras. Na fase de testes, utilizada uma base de dados desconhecida ou
mesmo conhecida, mas que no tenha sido usada na fase do treinamento.
Vantagens deste mtodo: este mtodo depende unicamente de elementos estruturais, ignorando
a parte textual. Portanto, ele pode ser aplicado com eficincia a uma base de dados de grande
tamanho, sem degradao no tempo de processamento.
Desvantagens: a utilizao de parmetros estruturais unicamente pode criar regras incoerentes de
classificao, que poderiam ser validadas ou testadas relacionando a estrutura com o
aparecimento de padres freqentes nos elementos textuais.



MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

78
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

3 CONCLUSO
Todos os mtodos e algoritmos discutidos representam o estado da arte em matria de
classificao de documentos semi-estruturados. A iniciativa do INEX 2005-2006 conseguiu
aglutinar diversas e consagradas instituies acadmicas ao redor do mundo, que se traduziu em
trabalhos que ainda hoje so referencias para novas pesquisas.
Os resultados de cada mtodo utilizado so avaliados fundamentalmente em funo da
exatido apresentada, e no no tempo de processamento de cada tarefa. Ou seja, no foi avaliado
o desempenho dos algoritmos e/ou mtodos. O objetivo do Mining Track no era realizar um
benchmark, e sim criar um frum investigativo para classificao e clusterizao de documentos
XML. Os participantes tiveram acesso s bases de dados antes de apresentar o trabalho.
Sugere-se que trabalhos futuros devem ser realizados com critrios de desempenho e
exatido pr-definidos. As bases de dados devem ser desconhecidas dos participantes. Desta
forma poder ser avaliada a real vantagem de um mtodo sobre o outro. Na Tabela 4 pode-se
observar um quadro comparativo entre as diferentes metodologias utilizadas.
Mtodo
Estrutura
Dependente
Bases
Grandes
Bases
Heterogneas
Base
Usada
Mxima Exatido
alcanada
Garboni SIM SIM SIM IEEE 95%
Candilie
r SIM SIM NO MovieDB 96.8%
Ducet NO SIM SIM IEEE -
Xrules SIM SIM SIM IEEE 96%

Tabela 4 - Comparao entre os mtodos.
O mtodo XRules o que desponta como o mais adequado para classificao de
documentos XML em qualquer base de dados. O mtodo de Candilier, cujo resultado est na
Tabela 4, alcanou uma exatido maior, mas deve-se ter em conta que ele foi utilizado na base
MovieDB, uma base mais conhecida, homognea e estruturada. Portanto, o maior valor
percentual alcanado no indicativo de uma melhor eficincia na classificao.
O XRules combina classificao estrutural com textual, e, o que mais importante, utiliza
um mtodo de auto-aprendizagem baseado em regras de inteligncia artificial e modelos
probabilsticos.
MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

79
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

Trabalhos futuros podero ser realizados no sentido de aprofundar esta comparao. Uma
das tarefas propostas estudar com maiores detalhes quais os elementos estruturais mais
relevantes para classificao numa base de dados heterognea. O tratamento estatstico usado
pelo XRules poderia ser aplicado a outros mtodos no sentido de melhorar a exatido das
pesquisas.


REFERNCIAS
[01] Garboni, Calin, Masseglia, Florent. Sequential Pattern Mining for Structure-Based XML
Document Classification. West University of Timisoara, Romania. (2006).
[02] Candillier, L, Tellier, I. Transforming XML trees for efficient classification and Clustering. INEX
(2005).
[03] Denoyer, Ludovic, Gallinari, Patrick. Report on the XML Mining Track at INEX 2005 and INEX
2006 - Categorization and Clustering of XML University of Paris 6.
[04] Doucet, A., Lehtonen, M.: Unsupervised classification of text-centric XML document
collections. INEX Retrieval (2006).
[05] Rios, Eneida. Britto, Roberta. Diaz, Williams. Mtodos de Classificao para Minerao de
Dados Uma viso do XRules. Unifacs (2011).
[06] Zaki, Mohammed J., Aggarwal, Charu C. XRules: An Effective Algorithm for Structural
Classifier for XML Data. Mach Learn (2006) Pg. 137-170.
[07] http://www.netcraft.com Pesquisas na Web disponvel em 01/08/2011 as 20:30 hs.
[08] http://www.w3schools.com/xml Consrcio W3C disponvel em 04/08/2011 as 22:45 hs.
[09] Da Silva, Maria Estela Vieira da, XSimilarity: Uma ferramenta para consultas por similaridade
embutidas na linguagem XQuery Trabalho de graduao, UFRGS (2007)

MTODOS DE CLASSIFICAO PARA DOCUMENTOS XML - UMA COMPARAO QUALITATIVA

80
Revista de Sistemas e Computao, Salvador, v. 1, n. 1, p. 64-80, jan./jun. 2011
http://www.revistas.unifacs.br/index.php/rsc

[10] http://imasters.com.br/artigo/4709/sql_server/data_mining_na_pratica_algoritmo_k-means/
: algoritmo k-means na prtica disponvel em 05/08/2011 as :17:15
[11] Neville, J. Jensen, Simple estimators for relational bayesian classifers. International
Conference on Data Mining (2003)

Vous aimerez peut-être aussi