Mineração de Texto - Análise Comparativa de Algoritmos - Revista SQL Magazine 138

INICIAR
comentrios
MVP
favorito
Anderson Kerlly Rodrigues De Sousa
para impresso
anotar
marcar como lido
SQ L Magazine 138 - ndice
Minerao de texto: Anlise compar

ativa de algoritmos - Revista SQL Ma
gazine 138
Este artigo apresenta a comparao de diferentes algoritmos
de minerao de texto da ferramenta TextMining. Tal
avaliao foi realizada mediante um estudo de caso nos
DevMedia
Anuncie | Loja | Publique | Assine | Fale conosco
Hospedagem w eb por Porta 80 Web Hosting
INICIAR
MVP
O uso de minerao de texto importante para o processo de extrao de conhecimento

em bases textuais. Contudo, importante avaliar se o conhecimento extrado ou gerado
relevante ou no para o usurio. Neste artigo avaliamos a performance de algoritmos de
minerao de texto da ferramenta TextMining. A discusso apresentada neste artigo til
pois cada vez mais comum a necessidade de descobrirmos informao til a partir de
dados textuais. Atravs do estudo de caso apresentado ser possvel entender o impacto
que diferentes algoritmos de minerao de texto trazem a esta atividade. Esta informao
poder apoiar a tomada de deciso sobre qual estratgia de minerao utilizar.
Grandes massas de dados so geradas diariamente pelos sistemas que apoiam as

atividades rotineiras das organizaes, dificultando a tarefa analtica dos gestores. Diante
dessa necessidade, surgiram os Sistemas de Apoio Deciso (SADs) que permitem apoiar,
contribuir e influenciar no processo de tomada de deciso. Os SADs permitem, a partir dos
dados transacionais da organizao, gerar informaes gerenciais que facilitam o referido
processo.
Como grande parte dos dados manipulados pelas organizaes est em formato textual,
torna-se fundamental o uso da tcnica de minerao de texto (tambm conhecido por
Knowledge Discovery in Texts, KDT) para identificar padres e conhecimentos para auxiliar
nas decises.
O conhecimento gerado pode ser avaliado para determinar se o mesmo relevante ou no
para o usurio, ou seja, avaliar o desempenho do processo de minerao para a gerao do
conhecimento. Existem vrias mtricas, sendo as principais relacionadas ao desempenho,
acurcia, preciso e cobertura.
Neste artigo iremos apresentar um estudo de caso realizado em uma organizao ABC. A
INICIAR
MVP
mecanismos que tornem efetivas as atividades de auditoria. Auditoria a atividade que

realiza a validao das informaes, verificao da obedincia s normas e recomendaes
e avaliaes dos controles em busca dos resultados da gesto. Objetivando atender as
necessidades da ABC, desenvolvemos uma aplicao que realiza a minerao de texto em
qualquer campo descritivo de um sistema, a ferramenta TextMining.
A aplicao permite determinar se uma descrio ou no evidncia de irregularidade,
tornando efetivo o trabalho do auditor na identificao de irregularidades. Para classificar
uma descrio, a ferramenta dispe de um algoritmo, Nave Bayes, de forma parametrizada,
especificando um limiar mnimo para auxiliar no processo classificatrio. importante
destacar que existem trs mtodos para o Nave Bayes: Hbrido (utilizao da frequncia do
termo da amostra com tf, term frequency, da sentena), Frequncia Inversa (tfidf, term
frequency inverse document frequency, da amostra com tf da sentena) e Frequncia
(frequncia da amostra com frequncia da sentena).
Este trabalho introduziu um segundo algoritmo, Similaridade, na ferramenta citada e foram
avaliadas as mtricas de qualidade e desempenho para as duas abordagens. A avaliao
se deu por meio da coleta de mtricas de tempo mdio, acurcia, cobertura, medida F e
preciso de cada algoritmo.
Assim, este artigo objetiva comparar o desempenho e qualidade de dois algoritmos de
minerao de texto aplicados a histricos de contas pblicas custodiadas pela organizao
ABC. A anlise comparativa determinar o melhor algoritmo da ferramenta TextMining e,
consequentemente, o conhecimento gerado por essa abordagem ser efetivo e relevante
para os auditores na descoberta de irregularidades como a identificao de uma descrio
de motivo de viagem para a qual no permitida o pagamento de dirias.
Descoberta de Conhecimento em Bases de
INICIAR
MVP
KDD (Knowledge Discovery in Datab ases) o processo no-trivial de identificar padres

vlidos, novos, potencialmente teis em dados, ou seja, o processo de descoberta de
conhecimento ou padres teis e desconhecidos em grandes massas de dados.
O processo de KDD consiste de vrias etapas, as quais envolvem preparao dos dados,
busca por padres, avaliao do conhecimento e refinamento, todos repetidos em mltiplas
iteraes. Esse processo composto por cinco passos bem definidos: seleo,
pr-processamento, transformao, minerao de dados, anlise / assimilao, conforme
mostrado na Figura 1.
abrir imagem em nova janela

Figura 1. Passos que compem o processo de KDD.
Na etapa seleo sero definidas as fontes de dados relevantes, ou seja, as bases de
dados importantes para o problema em questo, o qual se deseja resolver. No
pr-processamento, os dados sero tratados, pois como esses dados podem ser oriundos
de diversas fontes, os mesmos podem conter divergncia de valores e outras
INICIAR
MVP
estrutura compatvel com o algoritmo de minerao escolhido. J na etapa minerao de

dados, objetivo do processo de KDD, escolhida e executada uma tcnica e algoritmo de
minerao de acordo com o problema em questo, por exemplo, classificao, regresso,
agrupamento e sumarizao. E, por fim, na etapa de anlise/assimilao, o conhecimento
gerado ser avaliado se til ou no para a tomada de deciso.
Como mostrado na Figura 1, o processo de KDD um processo iterativo e interativo, em
que o usurio participa e realiza decises nas diversas etapas do processo, as quais podem
tambm ser repetidas, dependendo do conhecimento gerado ou pela ausncia do mesmo.
O processo de KDD pode ser aplicado em diversas reas, incluindo marketing, finanas,
deteco de fraudes, manufaturas e telecomunicaes. Um exemplo clssico de utilizao
de KDD o conhecimento descoberto nos dados da rede de supermercados Walmart. Foi
descoberto que a maioria dos pais que iam comprar fraldas para seus filhos acabavam
comprando cerveja. Em uma jogada de marketing, as fraldas foram colocadas prximas da
cerveja, sendo que as batatas fritas estavam entre elas. Consequentemente, houve um
aumento das vendas dos trs produtos.
Outro exemplo de utilizao do processo de KDD foi o uso do sistema ADVANCED SCOUT da
IBM para ajudar os treinadores da NBA, no ano de 1996, a procurar e descobrir padres
interessantes nos dados dos jogos da NBA. Com esse conhecimento obtido, os treinadores
podiam avaliar a eficcia das decises de tticas e formular estratgias de jogo para jogos
futuros. O sistema foi distribudo para dezesseis das vinte e nove equipes da NBA, sendo
usado de forma efetiva por algumas equipes para a preparao de jogadas e processos
analticos, como foi o caso do time Seattle Supersonics, o qual atingiu as finais da NBA.
Minerao de Texto
INICIAR
MVP
previamente desconhecimento, em bases de dados desestruturadas, ou seja, extrao de

conhecimento til para o usurio em bases textuais.
O processo de minerao de texto dividido em quatro etapas bem definidas: seleo,
pr-processamento, minerao e assimilao, conforme mostrado na Figura 2.
Figura 2. Processo de minerao de texto.

Na seleo, os documentos relevantes devem ser escolhidos, os quais sero processados.
No pr-processamento ocorrer a converso dos documentos em uma estrutura compatvel
com o minerador, bem como ocorrer um tratamento especial do texto. Na minerao, o
minerador ir detectar os padres com base no algoritmo escolhido. E por fim, na
assimilao, os usurios iro utilizar o conhecimento gerado para apoiar as suas decises.
notrio a semelhana entre os processos de KDD e KDT, sendo que o KDT no possui a
etapa de transformao. O fato da ausncia da etapa transformao, etapa no processo de
KDD que converte os dados pr-processados para uma estrutura utilizada na etapa de
minerao de dados, justificada pelo fato de que a etapa de pr-processamento no KDT,
alm de realizar um tratamento no texto, permite definir uma estrutura compatvel com as
entradas dos algoritmos de minerao.
INICIAR
MVP
conflao, normalizao de sinnimos e indexao. Na etapa remoo de stopwords os

termos com pouca ou nenhuma relevncia para o documento sero removidos. So palavras
auxiliares ou conectivas, ou seja, no so discriminantes para o contedo do documento.
So, em sua maioria, pronomes, preposies, artigos, numerais e conjunes. Para auxiliar
na remoo das stopwords, geralmente, utiliza-se uma lista destas predefinida. Para facilitar
o entendimento, na Figura 3 apresentado um exemplo de remoo de stopwords.
Figura 3. Exemplo de remoo de StopWords

.
Na etapa seguinte, conflao, realiza-se uma normalizao morfolgica, ou seja, realiza-se
uma combinao das palavras que so variantes morfolgicas em uma nica forma de
representao. Um dos procedimentos mais conhecidos de conflao a radicalizao
(Stemming). Nela as palavras so reduzidas ao seu radical, ou seja, as palavras variantes
morfologicamente sero combinadas em uma nica representao, o radical. A radicalizao
pode ser efetuada com o auxlio de algoritmos de radicalizao, sendo os mais utilizados o
algoritmo de Porter (Porter Stemming Algorithm) e algoritmo de Orengo (Stemmer
Portuguese ou RLSP). A Figura 4 exemplifica o processo de radicalizao de um texto
utilizando o algoritmo de Porter.
INICIAR
MVP
Figura 4. Exemplo de radicalizao utilizando o algoritmo de Porter.

Existem dois problemas no processo de radicalizao:
Overstemming: quando a string removida no um sufixo, mas sim parte do radical da
palavra. Isso possibilita a combinao de palavras no relacionadas;
Understemming: quando parte do sufixo no removido, ocasionando numa falha de
conflao de palavras relacionadas.
Aps a conflao, na etapa de normalizao de sinnimos, os termos que possuem
significados similares sero agrupados em um nico termo, por exemplo, as palavras rudo,
tumulto e barulho sero substitudas ou representadas pelo termo barulho.
Na normalizao de sinnimos, formado um vocabulrio controlado que se refere
utilizao de termos adequados para representar um documento, sendo esses termos
pr-definidos e especficos a um determinado assunto de uma rea. Isso facilita a busca,
pois os termos so comumente utilizados pelos usurios da rea.
E, por fim, na etapa indexao atribui-se uma pontuao para cada termo, garantindo uma
nica instncia do termo no documento. No processo de atribuio de pesos devem ser
considerados dois pontos: (a) quanto mais vezes um termo aparece no documento, mais
relevante ele para o documento; (b) quanto mais vezes um termo aparece na coleo de
INICIAR
MVP
Existem vrias formas de determinar o peso de um termo (pontuao). Os principais

mtodos so:
Booleano ou Binrio: o peso para um determinado termo ser 1 se o mesmo aparece no
documento. Caso contrrio, o peso ser 0. Indica a presena ou ausncia do termo no
documento;
Frequncia do Termo (term frequency ou tf): o peso a frequncia do termo no
documento. Consiste da razo entre a quantidade de vezes que o termo apareceu no
documento e a quantidade total de termos contidos no documento, como mostrado na
Figura 5, onde ni a quantidade de ocorrncias do termo i no documento e
a quantidade total de termos no documento;
Figura 5. Frmula para calcular a frequncia do termo.

Frequncia do Documento (Document Frequency ou df): o nmero de documentos que
possui um determinado termo;
INICIAR
MVP
importncia de um termo em um conjunto de documentos. Quanto maior o idf, mais

representativo o termo para o documento. Consiste no logaritmo da razo entre o nmero
total de documentos e a frequncia do documento, conforme demonstrado na Figura 6,
onde
a quantidade total de documentos e df(termo i) a frequncia do documento para o termo i;
INICIAR
MVP
Figura 6. Frmula para calcular a frequncia inversa do termo.

tfidf (Term Frequency Inverse Document Frequency): o peso para o termo associado
na proporo da frequncia do termo no documento e na proporo inversa do nmero de
documentos na coleo em que o termo aparece pelo menos uma vez, ou seja, combina o tf
com idf, como mostrado na Figura 7, onde tf(termo i) e idf(termo i) so, respectivamente, o tf
e idf do termo i. Obtm-se, assim, o ndice de maior representatividade do termo.
Figura 7. Frmula para calcular o tfidf do termo.

As subetapas do pr-processamento permitem uma reduo da dimensionalidade do texto,
pois um documento pode ser representado por um vetor de termos. Como um termo
representa uma dimenso do texto, quanto maior a dimensionalidade do texto, mais
complexa ser a anlise feita pelo algoritmo de minerao.
Assim como no KDD, o processo de minerao de texto possui diversas aplicaes, como
extrao de palavras-chave, determinao de sistemas representacionais preferenciais,
classificao de documentos por categoria, filtro de documentos, entre outras.
Similaridade de documentos
INICIAR
MVP
considerado uma coordenada dimensional e os documentos podem ser colocados num

espao euclidiano de n dimenses onde n o nmero de termos. A posio do documento
em cada dimenso dada pelo peso (pontuao calculada na fase de indexao). A
distncia entre um documento e outro o grau de similaridade. Documentos que possuem
os mesmos termos acabam sendo colocados numa mesma regio no espao euclidiano,
ou seja, so similares.
A similaridade entre dois documentos tambm pode ser obtida pelos termos que ocorrem
em ambos, ou seja, pelos termos compartilhados. Os documentos mais similares so os
que possuem mais termos em comum. No clculo da similaridade, so ignorados os
termos que ocorrem em um documento e que no ocorrem no outro. Em outras palavras, s
interessam os termos que ocorrem nos dois, isto , a ocorrncia positiva desse em ambos.
Similaridade considerada o corao do mtodo de classificao K-Nearest-Neighbor. A
diferena entre ambos que no K-Nearest-Neighbor consideram-se os k documentos mais
similares. A depender do valor de k, podem ser considerados os documentos com score
inferior aos de maior score para determinar a classe do novo documento.
Similaridade considera apenas os documentos com maior score e a classe do novo
documento ser a classe que mais ocorre nesses. importante frisar que para o clculo do
grau de similaridade (score), devem ser apenas considerados os termos em comum.
Existem vrias formas de calcular o grau de similaridade, isto , as funes de similaridade.
Depois de calcular os scores, podemos criar uma lista em forma de ranking, em que os
documentos mais similares esto no topo da lista. As principais funes de similaridade
so:
Contagem de palavras: considerada a funo mais simples de mensurar a similaridade,
pois se baseia apenas na contagem de termos que ocorrem em ambos documentos, isto ,
INICIAR
MVP
Contagem de palavras com bnus: de forma anloga contagem de palavras, sero

contabilizados os termos em comum aos vetores com apenas um diferencial: para cada
termo analisado, se esse termo ocorre em ambos documentos, ser adicionado um bnus
ao score conforme visto na Figura 8, onde K a quantidade total de termos do novo
documento, w(j) a pontuao para o termo j, D(i) o documento i da coleo e a expresso
1/df(j) o bnus para o termo j. O bnus considerado uma variao do idf. Se o termo ocorre
em muitos documentos, o valor do bnus baixo. J se o termo aparece em poucos, o
bnus alto;
Figura 8. Frmula para a contagem de palavras com bnus.

Cosine similarity: funo de similaridade mais utilizada na rea de recuperao de
informao (RI) para comparar documentos. Representa o cosseno do ngulo formado por
dois vetores, como mostrado na Figura 9, onde d1 e d2 so os documentos cuja
similaridade ser calculada,
INICIAR
MVP
o peso do termo j em d1,
o peso do termo j em d2,
INICIAR
MVP
a normalizao de d2. Quanto mais prximo de zero for o valor do cosseno, menos similares
so os documentos. J quando for mais prximo de um, mais similares eles so;
Figura 9. Frmula para a cosine similarity.

Distncia euclidiana: representa a menor distncia entre dois vetores de termos no espao
euclidiano, como visto na Figura 10, em que d1 e d2 so os documentos, K o nmero de
termos,
INICIAR
MVP
o peso do termo j em d1 e
o peso do termo j em d2;
Figura 10. Frmula para a distncia euclidiana.
INICIAR
MVP
Corresponde distncia a ser percorrida para se chegar de um ponto a outro, em que o

caminho percorrido em quadras, conforme mostrado na Figura 11, onde d1 e d2 so os
documentos, K o nmero de termos,
o peso do termo j em d2;
INICIAR
MVP
Figura 11. Frmula para a distncia manhattan.

Produto escalar: corresponde ao somatrio do produto dos pesos de um termo em dois
documentos, como visto na Figura 12, onde d1 e d2 so os documentos, K o nmero de
termos,
INICIAR
MVP
o peso do termo j em d2.
Figura 12. Frmula para o produto escalar.

Para facilitar o entendimento sobre similaridade, a Figura 13 demonstra o clculo da
similaridade entre um novo documento e todos os documentos do dicionrio, utilizando a
funo de similaridade contagem de palavras. Como podemos ver, foi calculado o score
entre o novo documento e todos do dicionrio por meio da contagem de palavras cuja
ocorrncia em ambos foi positiva, isto , a contabilizao delas que ocorre em ambos,
ignorando as que ocorrem apenas em um e as ausentes em ambos. Existem dois
documentos que possuem o maior score, grau de similaridade igual a 2. Como os dois
documentos com maior score possuem classe igual a um (ltima coluna do dicionrio), a
classe do novo documento tambm ser um.
INICIAR
MVP
Figura 13. Clculo de similaridade dos documentos.
Avaliao de desempenho e qualidade

Existem diversas formas de se avaliar a capacidade de predio de um classificador para
determinar a classe de vrios registros. A matriz de confuso a forma mais simples de
analisar o desempenho e qualidade de um classificador em reconhecer registros de
diferentes classes. Ela um recurso que permite demonstrar o desempenho de um
classificador, ou seja, a frequncia com que os registros de classe X foram corretamente
classificados como classe X ou, at mesmo, classificados erroneamente como outras
classes.
Para n classes, a matriz de confuso uma tabela de dimenso n x n. Para cada
classificao possvel existe uma linha e coluna correspondente, ou seja, os valores das
classificaes sero distribudos na matriz de confuso de acordo com os resultados, assim
gerando a matriz de confuso para as classificaes realizadas. As linhas correspondem s
classificaes corretas e as colunas representam as classificaes realizadas pelo
classificador. Por exemplo, na Tabela 1, o valor V1,1 corresponde ao nmero de registros de
classe 1 que foram classificados com classe 1 pelo classificador.
Classificado como
Classe Atual
Classe 1
Classe 1
Classe 2
...
Classe n
V1,1
V1,2
...
V1,n
INICIAR
MVP
...
...
...
...
...
Classe n
Vn,1
Vn,2
...
Vn,n
Tabela 1. Matriz de confuso para n classes.

Quando existem apenas duas classes, uma considerada como positive e a outra como
negative. Os valores da matriz de confuso so referenciados como true e false positives e
true e false negatives, como visto na Tabela 2.
Predicted class
Actual class
Positiv e
Negativ e
Positiv e
True Positive (TP)
False Negative (FN)
Negativ e
False Positive (FP)
True Negative (TN)
Tabela 2. Matriz de confuso para duas classes.

Assim, existem quatro situaes:
True Positive (TP): o nmero de instncias de classe positive que foram classificadas
como positive;
False Positive (FP): o nmero de instncias de classe negative que foram classificadas
como positive;
False Negative (FN): o nmero de instncias de classe positive que foram classificadas
como negative;
True Negative (TN): o nmero de instncias de classe negative que foram classificadas
INICIAR
MVP
A avaliao de um classificador se dar pela anlise dos valores nela contidos, bem como
na verificao do somatrio dos elementos das diagonais principal e secundria. Um bom
classificador aquele que possui a soma da diagonal principal maior que a da secundria.
Um classificador considerado ideal quando a soma da diagonal secundria igual a zero,
contudo esse ser considerado um pssimo classificador se possuir o somatrio da
diagonal principal igual a zero.
De posse dos valores da matriz de confuso, podem ser utilizadas as mtricas de avaliao
de desempenho e qualidade de um classificador. As principais mtricas de desempenho e
qualidade so:
Acurcia (accuracy): o percentual de instncias classificadas corretamente;
Preciso (precision): o percentual de instncias classificadas como positive que so
realmente positive;
Cobertura ou Revocao (recall): o percentual de instncias positive que foram
classificadas corretamente como positive;
Medida F (F1 Score): a medida que combina a preciso e revocao (cobertura), ou seja,
a mdia harmnica da preciso e revocao.
Ferramenta TextMining
O TextMining permite determinar se informaes so ou no evidncias de irregularidades,
ou seja, se uma descrio est ou no de acordo com a lei e com o que se espera dos
jurisdicionados. Desta forma, a ferramenta tem como objetivo tornar efetivo o trabalho do
auditor na identificao de irregularidades. Suas principais funcionalidades so o
gerenciamento de perfis, de dicionrios e de classificaes. Considera-se gerenciamento o
INICIAR
MVP
informaes.
Iniciando pelo gerenciamento de perfis, este um mecanismo que auxilia nas consultas por
meio dos filtros anexados aos perfis. Conforme mostrado na Figura 14, por meio deles
que o usurio poder determinar dinamicamente os campos que deseja filtrar nas telas, nas
quais poder escolher o perfil. Na TextMining, est disponvel para o usurio as
funcionalidades de cadastro, consulta e excluso.

Figura 14. Tela Perfil (Ferramenta TextMining)
A criao de um perfil poder ocorrer s uma vez e pode ser compartilhado por todos os
usurios. Como o custo da operao muito baixo, se houver a necessidade de alterao
dele, basta exclu-lo e criar outro novamente. Esta caracterstica torna a aplicao flexvel e
INICIAR
MVP
campos contidos na base de dados.

Dados estes entendimentos sobre perfis, outra funcionalidade importantssima o
gerenciamento de dicionrios, que so os modelos de conhecimento que servem de base
para tornar possvel a descoberta de evidncias de fraudes semelhantes em toda base de
dados ou em unidades e cidades especficas. Um dicionrio criado por meio da seleo
de amostras que so dados selecionados pelo auditor como Evidncia (possvel evidncia
de irregularidade) e Em Conformidade (descrio que est de acordo com a lei), bem como
o auditor pode informar amostras avulsas, as quais so especificadas manualmente e
classificadas como Evidncia ou Em Conformidade, como mostrado na Figura 15.
A seleo de amostras para criao do dicionrio deve ser balanceada, para cada evidncia
informada, dever existir um ou mais registros que so exemplos de conformidade. Na
ferramenta esto disponveis para o usurio as funcionalidades de cadastro, consulta,
edio, excluso e desbloqueio de dicionrios. importante ressaltar que o dicionrio criado
poder ser utilizado por todos os auditores, permitindo maior eficincia ao processo de
auditoria.
INICIAR
MVP

Figura 15. Tela Dicionrio (Ferramenta TextMining).
A partir do perfil selecionado, dos filtros anexados a esse e do dicionrio escolhido, o auditor
poder escolher os dados a serem classificados pela ferramenta, ou seja, o local em que
sero buscadas novas evidncias semelhantes s do dicionrio criado.
A aplicao dispe de dois algoritmos de minerao de texto, Nave Bayes e Similaridade,
para classificar os registros, como mostrado na Figura 16. Nave Bayes um algoritmo de
anlise estatstica e foi implementado de forma parametrizada, especificando um limiar
mnimo para auxiliar na classificao dos registros. Para realizar a classificao de um
registro, o algoritmo calcula a probabilidade desse registro ser ou no uma evidncia de
irregularidade. Este algoritmo dispe de trs formas para realizar o clculo da probabilidade:
Hbrido, Frequncia Inversa e Frequncia. Na primeira abordagem, considerada a
frequncia do termo na amostra e o tf desse na sentena. J na segunda levado em conta
INICIAR
MVP
frequncias do termo na amostra e na sentena.

J o algoritmo de similaridade, tambm de anlise estatstica, calcula a similaridade entre
uma sentena e um conjunto de amostras, por meio dos termos que ambos possuem em
comum para determinar se a sentena ou no uma evidncia.
Na ferramenta, esto disponveis para o usurio as funcionalidades de cadastro, consulta,
excluso e visualizao de classificaes.

Figura 16. Telas Classificao sobrepostas mostrando os algoritmos disponveis
(Ferramenta TextMining).
Aps a anlise da aplicao foram efetuadas alteraes no cdigo objetivando melhoria no
uso da ferramenta, incluso de novas funcionalidades, preveno e correo de problemas.
A seguir temos as principais alteraes realizadas:
Modelo de Dados:
INICIAR
MVP
DIM_CLASSIFICACAO.
Mdulo Dicionrio:
o A tela de criao de dicionrios foi alterada para permitir a incluso de amostras avulsas;
o A tela de consulta de dicionrios foi alterada para que os botes Editar e Excluir
ficassem desabilitados quando no existissem dicionrios cadastrados;
o A tela Dicionrios Bloqueados foi alterada para que o boto Liberar ficasse desabilitado
quando no existissem dicionrios bloqueados.
Mdulo Classificao:
o Criao da classe similaridade, algoritmo de classificao;
o Criao da classe abstrata Classificador, superclasse das classes Similaridade e
NaiveBayes. A classe Classificador possui um mtodo esttico ClassificadorFactory que
retorna um objeto do tipo Classificador, o qual pode ser uma instncia das classes
NaiveBayes ou Similaridade;
o Na tela Classificao, o algoritmo Similaridade foi includo nas opes de mtodos de
classificao;
o Na tela Classificao, foram adicionados os percentuais 51 e 55 ao componente Limiar
Classificao %;
o A tela Classificao foi alterada para os componentes Dicionrios, Perfil, Limiar
Classificao %, Mtodo, Medidas, Filtros, Classificar e Descrio da Classificao
serem desabilitados quando um processo classificatrio fosse iniciado;
INICIAR
MVP
ficassem desabilitados quando no existissem classificaes cadastradas;

o As alteraes da tela Dados da Classificao foram:
Criao do componente Tempo de Classificao para visualizar o tempo da classificao
realizada;
Atribuio do valor --- para o componente Limiar de Classificao % quando o algoritmo
de minerao utilizado no for o Nave Bayes, porque este o nico que utiliza limiar;
Parametrizao da tabela Evidncias, em que o label e os valores da coluna do
Limiar/Score sero formatados de acordo com o algoritmo utilizado na classificao. Por
exemplo, caso o algoritmo seja Nave Bayes, o label da coluna ser Limiar e os valores da
coluna estaro formatados em porcentagem, mas se for escolhido Similaridade, o label da
coluna ser Score e os valores da coluna estaro formatados em nmeros com casas
decimais.
Implementamos uma adaptao do algoritmo de similaridade de documentos. O mtodo
convencional de similaridade realiza um clculo de similaridade entre todos os documentos
do dicionrio e o documento a ser classificado, apenas levando em conta os termos que
ocorrem em ambos.
Para classificar o novo documento, o algoritmo convencional apenas considera as
ocorrncias do maior score, ignorando todos os outros. Nessa abordagem, existe a
possibilidade de no classificar um novo documento quando a quantidade de documentos
com maior score para diferentes classes, a mesma, como mostrado na Figura 17.
INICIAR
MVP
Figura 17. Exemplo de quatro situaes de classificao do algoritmo convencional de

similaridade.
Visando performance e melhoria do processo de classificao, foi desenvolvida uma
adaptao do algoritmo de similaridade. As adaptaes efetuadas foram:
Ser realizada uma poda, onde no sero analisados todos os documentos (amostras) do
INICIAR
MVP
a ser classificado para determinar o grau de similaridade;

Sero utilizados os outros scores quando no for possvel classificar com o maior score.
O score para uma determinada amostra (documento do dicionrio) pode ser obtido atravs
do somatrio da multiplicao do tfidf do termo da amostra com o tf da sentena (novo
documento) para todos os termos comuns entre a amostra e a sentena, como pode ser
visto na Figura 18, onde k o nmero de termos que a amostra e a sentena possuem em
comum.
Figura 18. Frmula para o clculo do score utilizado no algoritmo implementado.

Para facilitar o entendimento do algoritmo implementado, apresentado o seu passo a
passo a seguir.
Entrada:
sc, sentena a ser classificada como Evidncia ou Em Conformidade
dic, dicionrio utilizado para classificar a sentena
Sada:
result, resultado da classificao da sentena, ou seja, objeto ResultadoGenerico contendo a
classe e o score da sentena classificada
INICIAR
MVP
2. Para cada amostra que contenha pelo menos um termo de sc, calcular o score para cada
amostra, criar um objeto ResultadoGenerico para cada amostra analisada, contendo nesse
objeto a classe da amostra e o score calculado e, por fim, armazenar o objeto no vetor de
ResultadoGenerico.
3. Ordenar o vetor de ResultadoGenerico em ordem crescente pelo score.
4. Se o vetor estiver vazio Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Seno
5. Se o vetor possuir apenas um elemento Ento
Retorne o nico objeto ResultadoGenerico dentro do vetor.
Seno
6. Se dentre os objetos ResultadoGenerico no vetor existe apenas uma ocorrncia de um
objeto com o maior score Ento
Retorne o objeto ResultadoGenerico com maior score.
Seno
7. Para todas as ocorrncias dos objetos ResultadoGenerico com maior score, realizar a
contagem de objetos que possuem classe igual a falso (Em Conformidade) e tambm os
que possuem classe igual a verdadeiro (Evidncia).
8. Se a quantidade de verdadeiro for maior que a de falso Ento
INICIAR
MVP
score.
Seno
9. Se a quantidade de falso for maior que a de verdadeiro Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual ao maior score.
Seno
10. Enquanto no for possvel classificar a sentena (quantidade de verdadeiros e falsos
forem iguais) e nem todos os objetos do vetor foram analisados, realizar os passos 6 a 9,
considerando que o novo maior score ser o score do objeto ResultadoGenerico que
antecede a primeira ocorrncia do objeto que possui o atual maior score.
11. Se no foi possvel classificar analisando todos os elementos do vetor Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Estudo de caso
A realizao do estudo de caso teve por objetivo principal a validao dos resultados
emitidos pela ferramenta TextMining para deteco de irregularidades nos pagamentos de
dirias contidos nos histricos de contas pblicas sob custdia da organizao ABC. Para
atingir este objetivo, necessria a efetivao dos seguintes passos:
Selecionar os participantes e objetos do estudo de caso;
Definir o dicionrio a ser utilizado;
Executar o processo classificatrio nas amostras dos participantes envolvidos para cada
INICIAR
MVP
Verificar e validar os resultados obtidos por meio das mtricas de Tempo Mdio de
Execuo, Acurcia, Preciso, Cobertura e Medida F;
Realizar alteraes na ferramenta, se necessrios.
Primeiramente foram selecionados os participantes e objetos, em seguida, a definio do
dicionrio utilizado, a determinao das mtricas para a avaliao de desempenho e
qualidade dos algoritmos e, por fim, foi realizada a execuo do estudo.
Para a seleo dos participantes, foi necessrio analisar dois critrios: os participantes
devem ser unidades gestoras cadastradas e que possuam uma quantidade considervel de
registros cadastrados. De acordo com o DW cedido, existem 481 unidades gestoras
cadastradas, sendo assim, sero escolhidas, aleatoriamente, trs unidades para a
realizao do estudo. Por questo de sigilo das informaes, os nomes das unidades
gestoras no sero revelados.
As unidades escolhidas, com a quantidade de registros especificados entre parnteses,
foram: Unidade A (8872), Unidade B (625) e Unidade C (1855). importante ressaltar que
para as unidades A e C, tambm foram escolhidas dentro da quantidade de registros,
aleatoriamente, amostras de 500 registros para o estudo. fundamental frisar que a base de
treinamento ser constituda pela Unidade A, j a base de teste ser formada pelas
unidades B e C.
Aps a escolha das unidades, fundamental determinar o atributo na tabela de fato a ser
minerado, ou seja, o campo descritivo. De acordo com a Figura 19, existem cinco campos
descritivos: IdDw_Fato_Diaria, Matricula_Funcionario, Destino_Viagem, Motivo_Viagem e
Numero_Empenho. Dentre estes, para detectar irregularidades no pagamento de dirias, o
atributo mais significativo Motivo_Viagem, porque o mesmo representa a justificativa da
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
Diria uma espcie de auxlio financeiro ou ajuda de custo para um colaborador prestar
algum servio fora da localidade do rgo ao qual esteja vinculado. Em outras palavras, um
auxlio recebido pelo colaborador com o intuito de custear seus gastos para a realizao de
servio fora do local de trabalho. A concesso de dirias diversificada, pois abrange gastos
referentes capacitao, viagens para reunies com superiores, entre outras.
Diante do exposto, proibida a concesso de dirias para fins que no sejam relacionados
prestao de servio. Existem inmeras justificativas consideradas evidncias de
irregularidades para concesso de dirias como realizao de uma viagem particular. Assim,
para a definio do dicionrio a ser utilizado neste estudo, optou-se em restringir esse
conjunto para evidncias relacionadas ao uso de dirias para tratamento de sade.
O modelo de conhecimento (dicionrio a ser utilizado) possuir, no total, 60 sentenas
constitudas de amostras da prpria base e de amostras avulsas para classificar registros.
Para as amostras da prpria base foram escolhidas, aleatoriamente, 40 sentenas da
Unidade A, sendo 20 classificadas como Evidncia e as outras 20 como Em
Conformidade.
Para as amostras avulsas, foram definidas 20 sentenas, sendo 10 classificadas como
Evidncia e as outras 10 como Em Conformidade. As sentenas avulsas classificadas
como Em Conformidade so similares s da prpria base, as quais foram formuladas por
meio de uma anlise das amostras dos dados das unidades gestoras envolvidas.
J das sentenas avulsas classificadas como Evidncia, apenas duas so similares s da
prpria base, por meio da anlise da amostra dos dados da Unidade A. Para formular as
sentenas avulsas restantes, com o intuito de obter termos da Medicina sobre
procedimentos, tratamentos e cirurgias mdicas, profissionais da sade, doenas e
exames, foram realizadas algumas pesquisas sobre Medicina.
INICIAR
MVP
apenas os termos mais comuns e relevantes, a exemplo de doenas mais comuns e

exames de rotinas mais solicitados.
Nas Tabelas 3 e 4 so apresentadas as amostras que constituem o modelo de
conhecimento.
AMOSTRAS DA PRPRIA BASE
Sentena Em Conformidade
Sentena Ev idncia
ACOMPANHAMENTO DE TRATAMENTO DE
A DISPOSIO DA JUSTIA ELEITORAL

SADE DE SUA FILHA
ACOMPANHANTE DA SRA DEP. CELIA
A SERVIO DA ASSEMBLEIA
FRANCO P/TRATAMENTO MEDICO
ACOMPANHAR A DEPUTADA PARA
A SERVIO DESTE PODER
TRATAMENTO DE SADE
ACOMPANHAR A FILHA EM TRATAMENTO
A TRABALHO
MDICO
ACOMPANHAR O SR.PRIMEIRO SECRETARIO
ATENDER PROCEDIMENTOS MDICOS
ACOMPANHAR PROCESSOS E REUNIES

CONSULTA MEDICA
PARLAMENTARES
ASSUNTO DE INTERESSE DESTE PODER
DESPESAS MDICA
FAZER EXAMES PARA LIBERAO DE
AUTORIZADA PELO PRIMEIRO SECRETRIO

TRANSPLANTE DE RINS
PARA A FUNCIONARIA A TRATAMENTO DE
ENCONTRO DO PARTIDO PROGRESSISTA
SADE
INICIAR
MVP
ESTUDO SOBRE IMPLANTAO DO SISTEMA

CLNICO
INTEGRAR COMITIVA DO GOVERNO DO

REVISO MEDICA
ESTADO
PARA O SR. DEPUTADO PARTICIPAR DE
SUBMETER-SE A CONSULTA MDICA
REUNIO DO PARTIDO
PARTICIPAR DE REUNIO DE CUNHO
SUBMETER-SE A EXAMES MDICOS
POLTICO PARTIDRIO
PARTICIPAR DA CONVENO NACIONAL DO
SUBMETER-SE A TRATAMENTO MDICO
DEM
PARTICIPAR DA POSSE DO PRESIDENTE DA
TRATAMENTO MEDICO
PETROBRAS DISTRIBUIDORA
PARTICIPAR DE ATO PUBLICO CONTRA
TRATAMENTO DE SADE
REFORMA SINDICAL
PARTICIPAR DO I CONGRESSO
TRATAMENTO DE SADE
INTERMUNICIPAL DE SADE
REUNIO DE CUNHO POLITICO PARTIDRIO
TRATAMENTO DE SADE
TRATAR DE ASSUNTO DE INTERESSE DESTE

TRATAMENTO DE SADE
PODER
VISITAR A SUPERINTENDNCIA DA CAIXA
TRATAMENTO DE SADE
ECONMICA FEDERAL
Tabela 3. Amostras da base.
AMOSTRAS AVULSAS
INICIAR
MVP

25-HIDROXIVITAMINA D OU 25(OH)D; ACIDO
RICO NO SANGUE; ALBUMINA;
ALTERAES DO FERRO E DE SUA
CAPACIDADE DE FIXAO; AUDIOMETRIA
VON BEKESY; BILIRRUBINA NA URINA;
Complementao de diria para funcionrio

BILIRRUBINA NO SANGUE (DIRETA, INDIRETA
realizar trabalho.
E TOTAL). PROVAS DE FUNO HEPTICA
(BILIRRUBINAS, ELETROFORESE DE
PROTENAS. FA, TGO, TGP E GAMA-PGT);
CLCIO NO SANGUE; CARDIOLIPINA,
AUTO-ANTICORPOS IGG; ...
ABLATIVA; ABORTO; ACUPUNTURA;
ALOPATIA; AMPUTAO; ANESTESIA;
ANTI-SEPSIA; APENDICECTOMIA; ASSEPSIA;
Conduzir pacientes para hospital
AUSCULTAO; AUTPSIA; BARITRICA;

BIPSIA; CABEA; CARDACA;
CAUTERIZAO; CHECK-UP; CIRURGIA;
COLUNA; COSTURA; DRENO; ...
AMBULATRIO; ASSISTNCIA MDICA;
ATENDIMENTO MDICO; CARDIOGRAMA;
CLNICA; CONSULTA MDICA; CONSULTRIO;
Pagamento de diria para servidor ou
DIAGNSTICO MDICO; DESPESA MDICA;
funcionrio realizar servios fora desta unidade
ELETROENCEFALOGRAMA; EMERGNCIA;
EXAMES MDICOS; HISTRICO DE SADE;
HOSPITAL; LAUDO; PERCIA MDICA;
INICIAR
MVP

PRONTO-SOCORRO; QUADRO CLNICO;
RADIOGRAFIA; REVISO MDICA; VACINA
Viagem para realizao de servio desta
REALIZAO DE EXAMES MDICOS DA
unidade
ESPOSA E FILHOS.
Viagem para tratar de assuntos de sade pblica

REALIZAR PROCEDIMENTO CIRRGICO.
e obter recursos financeiros.
Tabela 4. Amostras avulsas.

Medidas de desempenho e qualidade para avaliao dos algoritmos
Para analisar o desempenho e qualidade dos algoritmos de minerao de texto em questo
ser utilizado o recurso matriz de confuso, bem como as mtricas de acurcia, cobertura,
preciso e medida F e tempo de execuo.
De acordo com o contexto deste trabalho, devemos considerar quatro situaes:
NSCCE: nmero de sentenas classificadas corretamente como Evidncia (True Positive).
NSCCC: nmero de sentenas classificadas corretamente como Em Conformidade (True
Negative).
NSCEE: nmero de sentenas classificadas erroneamente como Evidncia (False
Positive).
NSCEC: nmero de sentenas classificadas erroneamente como Em Conformidade (False
Negative).
A matriz de confuso que contempla essas situaes pode ser vista na Tabela 5.
INICIAR
MVP
Classificao Correta
Ev idncia
Em Conformidade
Ev idncia
NSCCE
NSCEC
Em Conformidade
NSCEE
NSCCC
Tabela 5. Matriz de confuso utilizada.

Com a matriz de confuso criada, podemos definir as mtricas a serem utilizadas:
Acurcia o percentual de sentenas classificadas corretamente pelo classificador;
Cobertura o percentual de evidncias que foram classificadas corretamente como
Evidncia;
Preciso o percentual de sentenas classificadas como Evidncia que so realmente
evidncias;
Medida F, tambm conhecida como Mdia Harmnica da Preciso e Cobertura, a medida
que combina a preciso e cobertura;
Tempo de Execuo o tempo de durao de uma classificao, compreendida pela
diferena entre o tempo de trmino e o tempo de incio da classificao.
A etapa de execuo consistir na realizao do processo classificatrio nas amostras dos
participantes envolvidos para cada algoritmo de minerao de texto, utilizando o modelo de
conhecimento definido. Foram efetuadas trs classificaes nas amostras dos participantes
envolvidos para cada algoritmo. necessrio frisar que para cada execuo do Nave Bayes
foi utilizado cada mtodo desse algoritmo (Hbrido, Frequncia Inversa e Frequncia),
bem como o limiar de 51 % foi utilizado em todas as execues do Nave Bayes. Aps o
trmino do processo classificatrio, as matrizes de confuso foram geradas a partir dos
INICIAR
MVP
para cada algoritmo.
Resultados
Aps a realizao do estudo de caso, foram coletados os valores das matrizes de confuso
de cada execuo para cada algoritmo e unidade escolhida. Com os valores das matrizes de
confuso foi possvel coletar as mtricas para avaliar todas as abordagens. Vale ressaltar
que para um mesmo algoritmo e unidade gestora, a matriz de confuso foi a mesma para as
trs execues (processos classificatrios). Nas Tabelas 6 e 7 apresentado um resumo
dos valores das matrizes de confuso por algoritmo e unidade.
Valores da Matriz de Confuso Diagonal Principal

NSCCE (TP)
NSCCC (TN)
Unidades
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
F.I.
H.
F.
Unidade A
136
137
137
137
363
363
363
362
Unidade B
613
603
603
588
Unidade C
457
449
449
430
SIM.
SIM.
Tabela 6. Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

Principal.
Valores da Matriz de Confuso Diagonal Secundria

NSCEE (FP)
NSCEC (FN)
Unidades
N.B.
N.B.
N.B.
N.B.
SIM.
N.B.
N.B.
SIM.
INICIAR
MVP
Unidade A
Unidade B
11
21
21
36
Unidade C
40
48
48
67
Tabela 7. Valores da matriz de confuso por algoritmo e unidade gestora Diagonal

Secundria.
Inicialmente foram analisados os resultados das trs classificaes realizadas para cada
algoritmo na Unidade A. Conforme visto nas Tabelas 8 a 10, os algoritmos Nave Bayes
Hbrido (N.B.H.) e Nave Bayes Frequncia (N.B.F.) so as melhores abordagens para essa
unidade, pois possuem as melhores porcentagens de acurcia (100%), preciso (100%),
cobertura (100%) e medida F (100%). Similaridade (SIM) obteve um melhor desempenho do
que os demais na mtrica tempo de execuo. Comparando similaridade e Nave Bayes
Frequncia Inversa (N.B.F.I.), similaridade supera esse nas mtricas de cobertura, medida F
e tempo de execuo, mas ambos possuem a mesma porcentagem de acurcia.
importante verificar que o algoritmo similaridade possui preciso inferior em relao s
demais abordagens.
Mtricas de Desempenho e Qualidade

Acurcia
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
F.I.
H.
F.
99,80
99,80
100 % 100 %
1 Exec.
%
2 Exec.
99,80
SIM.
99,28
100 % 100 % 100 %
100 % 100 %
99,80
100 % 100 % 100 %
99,28
INICIAR
MVP
99,80
99,80
100 % 100 %
3 Exec.
%
99,80
Mdia
99,28
100 % 100 % 100 %
%
99,80
100 % 100 %
99,28
100 % 100 % 100 %
Tabela 8. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade A.

Cobertura
Medida F
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
F.I.
H.
F.
99,27
99,63
100 % 100 %
1 Exec.
100 %
100 %
99,64
100 % 100 %
99,27
99,63
100 % 100 %
100 %
99,64
100 % 100 %
99,27
Mdia
99,63
100 % 100 %
3 Exec.
99,64
100 % 100 %
99,27
2 Exec.
SIM.
99,63
100 % 100 %
100 %
99,64
100 % 100 %
Tabela 9. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade A.

Execues
Tempo de Execuo
INICIAR
MVP
SIM.
F.I.
H.
F.
1 Exec.
135,88 s 133,49 s 146,79 s
84,78 s
2 Exec.
135,24 s 139,28 s 153,68 s
83,39 s
3 Exec.
134,64 s 134,81 s 156,64 s
82,22 s
135,25
135,86
152,37
Mdia
83,46 s
Tabela 10. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade A.
A prxima unidade analisada foi a Unidade B. Tambm foram analisados os resultados das
trs classificaes realizadas para cada algoritmo na referida unidade. De acordo com as
Tabelas 11, 13 e 13, o algoritmo similaridade obteve um melhor desempenho do que os
demais apenas na mtrica de tempo de execuo. J o Nave Bayes Frequncia Inversa
obteve um melhor desempenho na mtrica acurcia (98,08 %). J Similaridade obteve a
menor porcentagem de acurcia. importante verificar que todas as abordagens tiveram um
pssimo desempenho na mtrica preciso (valor abaixo de 50 %), mas Nave Bayes
Hbrido e Nave Bayes Frequncia tiveram desempenho melhor que os demais.
Apesar dos pssimos resultados, Nave Bayes Frequncia Inversa foi a melhor
abordagem, pois o mesmo classificou, erroneamente, um nmero muito inferior de
evidncias do que os outros algoritmos, como mostrado nas Tabelas 8 e 9. Em outras
palavras, comparando-se o resultado da soma entre NSCCE e NSCCC (soma da diagonal
principal da matriz de confuso) de cada algoritmo, o resultado de Nave Bayes Frequncia
Inversa foi superior aos resultados das demais abordagens, portanto, Nave Bayes
Frequncia Inversa foi o algoritmo que apresentou melhor desempenho e qualidade na
classificao das sentenas dessa unidade.
INICIAR
MVP
Acurcia
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
SIM.
F.I.
H.
F.
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
1 Exec.
2 Exec.
3 Exec.
Mdia
Tabela 11. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade B.

Cobertura
Medida F
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
8,70
8,70
0,00
8,70
8,70
8,70
8,70
SIM.
F.I.
H.
F.
0,00
100 %
1 Exec.
100 %
2 Exec.
100 % 0,00 %
100 % 0,00 %
3 Exec.
0,00
100 %
SIM.
100 % 0,00 %
INICIAR
MVP
0,00
Mdia
100 %
8,70
8,70
100 % 0,00 %
Tabela 12. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade
B.

Tempo de Execuo
Execues
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
1 Exec.
256,01 s 268,49 s 276,44 s 159,55 s
2 Exec.
259,67 s 258,26 s 266,54 s 158,14 s
3 Exec.
254,64 s 271,76 s 291,13 s 159,16 s

256,77
266,17
278,04
158,95
Mdia
Tabela 13. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade B.
Encerrando a primeira anlise, a prxima unidade analisada foi a Unidade C. Tambm foram
analisados os resultados das trs classificaes realizadas para cada algoritmo nessa
unidade. Conforme visto nas Tabelas 14, 16 e 16, similaridade obteve um melhor
desempenho do que os demais apenas na mtrica de tempo de execuo, bem como
obteve os menores percentuais nas outras mtricas. J o Nave Bayes Frequncia Inversa
obteve as melhores porcentagens de acurcia, preciso, cobertura e medida F, seguido das
abordagens Nave Bayes Hbrido e Nave Bayes Frequncia. Sendo assim, o algoritmo
INICIAR
MVP
dessa unidade. Contudo, importante observar que, apesar do timo desempenho, Nave
Bayes Frequncia Inversa classificou, erroneamente, uma quantidade considervel de
sentenas como Evidncia, como mostrado na Tabela 7.

Acurcia
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
F.I.
H.
F.
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
SIM.
SIM.
1 Exec.
2 Exec.
3 Exec.
Mdia
Tabela 14. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade C.

Cobertura
Medida F
Execues
N.B.
N.B.
N.B.
F.I.
H.
F.
N.B.
N.B.
N.B.
F.I.
H.
F.
13,04
11,11
11,11
SIM.
66,67
1 Exec.
100 % 100 % 100 %
SIM.
5,56
INICIAR
2 Exec.
3 Exec.
Mdia
MVP

66,67
13,04
11,11
11,11
5,56
66,67
13,04
11,11
11,11
5,56
66,67
13,04
11,11
11,11
5,56
100 % 100 % 100 %
100 % 100 % 100 %
100 % 100 % 100 %
Tabela 15. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade
C.

Tempo de Execuo
Execues
N.B.
N.B.
N.B.
SIM.
F.I.
H.
F.
1 Exec.
184,19 s 201,97 s 245,13 s 117,37 s
2 Exec.
212,91 s 185,20 s 311,77 s 114,61 s
3 Exec.
187,70 s 194,69 s 256,87 s 119,11 s

194,93
193,95
271,26
117,03
Mdia
Tabela 16. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade C.
Encerrando a anlise comparativa dos algoritmos, foi feita uma anlise por mtrica utilizada.
Verificando o grfico da Figura 20, correspondente mtrica acurcia, notvel os timos
desempenhos dos Nave Bayes Hbrido e Nave Bayes Frequncia na Unidade A e o
INICIAR
MVP
Bayes Frequncia Inversa e Similaridade na Unidade A. Em mdia, Nave Bayes

Frequncia Inversa possui a melhor porcentagem de acurcia, consequentemente, a
melhor abordagem em termos de acurcia.

Figura 20. Grfico da mtrica acurcia.
No grfico apresentado na Figura 21 podemos observar o bom desempenho do Nave Bayes
Frequncia Inversa na maioria das unidades, apesar do pssimo desempenho na
Unidade B. Em mdia, Nave Bayes Hbrido e Nave Bayes Frequncia foram melhores do
que Nave Bayes Frequncia Inversa. Mesmo assim, Nave Bayes Frequncia Inversa a
melhor abordagem em termos de preciso, pois, como foi dito anteriormente, classificou
erroneamente um nmero inferior de sentenas em relao aos demais algoritmos.
INICIAR
MVP

Figura 21. Grfico da mtrica preciso.
Observando o grfico apresentado na Figura 22, conclumos o timo desempenho de Nave
Bayes Hbrido e Nave Bayes Frequncia, possuindo 100 % em todas as unidades.
Assim como perceptvel o baixo desempenho de similaridade na mtrica cobertura.
Portanto, Nave Bayes Hbrido e Nave Bayes Frequncia, por possurem as melhores
porcentagens de cobertura, so os melhores algoritmos em termos desta mtrica.
INICIAR
MVP

Figura 22. Grfico da mtrica cobertura.
Analisando o grfico da Figura 23, notvel a qualidade de Nave Bayes Hbrido e Nave
Bayes Frequncia, apesar de possuir a mdia harmnica um pouco inferior de Nave
Bayes Frequncia Inversa na Unidade C. J similaridade possui, em mdia, a menor
porcentagem de medida F. Assim, Nave Bayes Hbrido e Nave Bayes Frequncia
possuem, em mdia, as melhores porcentagens de medida F, consequentemente, so os
melhores algoritmos para esta medida.
INICIAR
MVP

Figura 23. Grfico da mtrica medida F.
Observando o grfico da Figura 24 fica evidente o timo desempenho do algoritmo de
similaridade por possuir os menores tempos de execuo em todas as unidades gestoras.
INICIAR
MVP
Na tentativa de descobrir o motivo de todos algoritmos terem classificado erroneamente uma

quantidade considervel de evidncias nas unidades B e C, foram analisadas as
classificaes de duas conformidades que foram consideradas como evidncias por todas
as abordagens: INAUGURACAO DE CONJUNTO HABITACIONAL,CLINICA DE SAUDE E
CEN (Unidade B) e LEVAR PACIENTES P/REALIZACAO DE EXAMES (Unidade C). Para
classificar a primeira sentena, foi considerado apenas um termo cujo radical saud,
sendo 06 e 09 as quantidades de amostras Em Conformidade e Evidncia,
respectivamente. J para a segunda sentena, foram considerados dois termos de radicais
pacient e exam, sendo 01 a quantidade de Em Conformidade para o radical pacient e
06 a quantidade de Evidncia para o radical exam. Portanto, o processo de Stemming
influenciou na classificao errnea dessas sentenas, podendo at ter influenciado nas
demais sentenas classificadas de forma errada.
Finalizando a anlise, na maioria das mtricas e unidades analisadas, conclui-se que Nave
Bayes Frequncia Inversa, para o contexto abordado neste artigo, foi o algoritmo que obteve
melhor desempenho e qualidade para classificar sentenas, consequentemente,
possibilitando melhores resultados para apoiar a deciso dos auditores na deteco de
irregularidades no pagamento de dirias.
De posse do melhor algoritmo, esse pode ser utilizado para tornar mais efetivo o trabalho do
auditor na identificao de irregularidades, auxiliando-o na tomada de deciso.
DevMedia
A DevMedia um portal para analistas, desenvolvedores de sistemas, gerentes e DBAs com milhares de
artigos, dicas, cursos e videoaulas gratuitos e exclusivos para assinantes.
Publicado em 2016
INICIAR
MVP
O que voc achou deste post?

Gostei (1)
(0)
Mais contedo sobre SQL
No h comentrios
Meus comentarios
Publicidade
Mais posts
Artigo
Oracle Data Guard com Fast-Start Failover

Artigo
Postar dvida / Comentrio
INICIAR
MVP
Artigo
Estratgias de backup e restore no PostgreSQL

Artigo
Service Broker no SQL Server 2014

Artigo
Cluster Shared Volume no SQL Server 2014

Artigo
Passo a passo para realizar a modelagem de dados

Listar mais contedo

Mineração de Texto - Análise Comparativa de Algoritmos - Revista SQL Magazine 138

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mineração de Texto - Análise Comparativa de Algoritmos - Revista SQL Magazine 138

Transféré par

Droits d'auteur :

Formats disponibles

INICIAR

Anderson Kerlly Rodrigues De Sousa

marcar como lido

SQ L Magazine 138 - ndice

Minerao de texto: Anlise compar

Anuncie | Loja | Publique | Assine | Fale conosco

Hospedagem w eb por Porta 80 Web Hosting

Anderson Kerlly Rodrigues De Sousa

O uso de minerao de texto importante para o processo de extrao de conhecimento

Grandes massas de dados so geradas diariamente pelos sistemas que apoiam as

Anderson Kerlly Rodrigues De Sousa

mecanismos que tornem efetivas as atividades de auditoria. Auditoria a atividade que

Descoberta de Conhecimento em Bases de

Anderson Kerlly Rodrigues De Sousa

KDD (Knowledge Discovery in Datab ases) o processo no-trivial de identificar padres

abrir imagem em nova janela

Anderson Kerlly Rodrigues De Sousa

estrutura compatvel com o algoritmo de minerao escolhido. J na etapa minerao de

Anderson Kerlly Rodrigues De Sousa

previamente desconhecimento, em bases de dados desestruturadas, ou seja, extrao de

Figura 2. Processo de minerao de texto.

Anderson Kerlly Rodrigues De Sousa

conflao, normalizao de sinnimos e indexao. Na etapa remoo de stopwords os

Figura 3. Exemplo de remoo de StopWords

Anderson Kerlly Rodrigues De Sousa

Figura 4. Exemplo de radicalizao utilizando o algoritmo de Porter.

Anderson Kerlly Rodrigues De Sousa

Existem vrias formas de determinar o peso de um termo (pontuao). Os principais

a quantidade total de termos no documento;

Figura 5. Frmula para calcular a frequncia do termo.

Anderson Kerlly Rodrigues De Sousa

importncia de um termo em um conjunto de documentos. Quanto maior o idf, mais

a quantidade total de documentos e df(termo i) a frequncia do documento para o termo i;

Anderson Kerlly Rodrigues De Sousa

Figura 6. Frmula para calcular a frequncia inversa do termo.

Figura 7. Frmula para calcular o tfidf do termo.

Anderson Kerlly Rodrigues De Sousa

considerado uma coordenada dimensional e os documentos podem ser colocados num

Anderson Kerlly Rodrigues De Sousa

Contagem de palavras com bnus: de forma anloga contagem de palavras, sero

Figura 8. Frmula para a contagem de palavras com bnus.

o peso do termo j em d1,

o peso do termo j em d2,

Anderson Kerlly Rodrigues De Sousa

Anderson Kerlly Rodrigues De Sousa

Figura 9. Frmula para a cosine similarity.

o peso do termo j em d2;

Figura 10. Frmula para a distncia euclidiana.

Anderson Kerlly Rodrigues De Sousa

Anderson Kerlly Rodrigues De Sousa

Corresponde distncia a ser percorrida para se chegar de um ponto a outro, em que o

o peso do termo j em d2;

Anderson Kerlly Rodrigues De Sousa

Figura 11. Frmula para a distncia manhattan.

Anderson Kerlly Rodrigues De Sousa

o peso do termo j em d2.

Figura 12. Frmula para o produto escalar.

Anderson Kerlly Rodrigues De Sousa

Figura 13. Clculo de similaridade dos documentos.

Avaliao de desempenho e qualidade

Anderson Kerlly Rodrigues De Sousa

Tabela 1. Matriz de confuso para n classes.